このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231218となっている論文です。

PDF登録状況(公開日: 20231218)

TitleAuthorsAbstract論文公表日・翻訳日
# ポスト量子暗号は中央銀行デジタル通貨にどのように影響するか?

How does post-quantum cryptography affect Central Bank Digital Currency? ( http://arxiv.org/abs/2308.15787v2 )

ライセンス: Link先を確認
Lars Hupel, Makan Rafiee, (参考訳) 中央銀行デジタル通貨(CBDC、Central Bank Digital Currency)は、デジタル決済の新興トレンドであり、世界中の中央銀行の大半がデジタル版の現金を調査、試験、運用している。 デザインの選択は、アカウント対トークンなど、大きく異なるが、ウォレットは一般的に暗号アルゴリズムによって保護され、二重支出から保護され、非審査が保証される。 量子コンピューティングの出現により、これらのアルゴリズムは新たな攻撃ベクトルによって脅かされる。 これらの脅威をよりよく理解するために、CBDCシステムにおける典型的な資産の研究を行い、どの資産がポスト量子暗号に最も適しているかを説明し、アップグレード戦略を提案する。

Central Bank Digital Currency (CBDC) is an emerging trend in digital payments, with the vast majority of central banks around the world researching, piloting, or even operating a digital version of cash. While design choices differ broadly, such as accounts vs. tokens, the wallets are generally protected through cryptographic algorithms that safeguard against double spending and ensure non-repudiation. With the advent of quantum computing, these algorithms are threatened by new attack vectors. To better understand those threats, we conducted a study of typical assets in a CBDC system, describe which ones are most amenable to post-quantum cryptography, and propose an upgrade strategy.
翻訳日:2024-03-19 07:03:01 公開日:2023-12-18
# AIGCにおける生成データのセキュリティとプライバシ

Security and Privacy on Generative Data in AIGC: A Survey ( http://arxiv.org/abs/2309.09435v2 )

ライセンス: Link先を確認
Tao Wang, Yushu Zhang, Shuren Qi, Ruoyu Zhao, Zhihua Xia, Jian Weng, (参考訳) 人工知能生成コンテンツ(AIGC)の出現は、情報技術の進化における重要な瞬間である。 AIGCでは、人々が区別することの難しい高品質なデータを生成するのに苦労する必要がない。 それでも、サイバースペース全体にわたる生成データの増加は、個人のプライバシー漏洩や不正な目的でのメディア偽造など、セキュリティとプライバシの問題をもたらす。 結果として、学術と産業は、生成データの信頼性を強調し始め、セキュリティとプライバシに対する一連の対策を順次提供します。 本稿では,AIGCにおける生成データに対するセキュリティとプライバシを,特に情報セキュリティ特性の観点から初めて体系的に検討する。 具体的には、プライバシ、制御可能性、信頼性、コンプライアンスの基本的な性質の観点から、最先端の対策が成功した経験を明らかにする。 最後に、これらの特性のそれぞれから、オープンな課題と潜在的な探索方向を要約する。

The advent of artificial intelligence-generated content (AIGC) represents a pivotal moment in the evolution of information technology. With AIGC, it can be effortless to generate high-quality data that is challenging for the public to distinguish. Nevertheless, the proliferation of generative data across cyberspace brings security and privacy issues, including privacy leakages of individuals and media forgery for fraudulent purposes. Consequently, both academia and industry begin to emphasize the trustworthiness of generative data, successively providing a series of countermeasures for security and privacy. In this survey, we systematically review the security and privacy on generative data in AIGC, particularly for the first time analyzing them from the perspective of information security properties. Specifically, we reveal the successful experiences of state-of-the-art countermeasures in terms of the foundational properties of privacy, controllability, authenticity, and compliance, respectively. Finally, we summarize the open challenges and potential exploration directions from each of theses properties.
翻訳日:2024-03-19 04:30:16 公開日:2023-12-18
# 2020年国勢調査・住宅特性ファイルの開示回避

Disclosure Avoidance for the 2020 Census Demographic and Housing Characteristics File ( http://arxiv.org/abs/2312.10863v1 )

ライセンス: Link先を確認
Ryan Cumings-Menon, Robert Ashmead, Daniel Kifer, Philip Leclerc, Matthew Spence, Pavel Zhuravlev, John M. Abowd, (参考訳) The 2020 Census Disclosure Avoidance System TopDown Algorithm”において、Abowd et al (2022)は、2020 Censusデータ製品のリリースをサポートするために、正式にプライベートな出力を生成するために、ディスクロージャー回避システム(DAS)が使用する概念と手法を記述し、特に、2020 Census Redistricting Data (P.L.94-171) の要約ファイルを作成するために使用されたDAS実装に焦点を当てている。 本稿では,DHC(Demographic and Housing Characteristics)ファイルのリリースに必要なDASの更新について述べる。 また、DHC DAS実装の最終的な構成パラメータや、2020年国勢調査の機密集計のための信頼区間を提供するツールの開発を容易にするための実験データ製品についても述べる。

In "The 2020 Census Disclosure Avoidance System TopDown Algorithm," Abowd et al. (2022) describe the concepts and methods used by the Disclosure Avoidance System (DAS) to produce formally private output in support of the 2020 Census data product releases, with a particular focus on the DAS implementation that was used to create the 2020 Census Redistricting Data (P.L. 94-171) Summary File. In this paper we describe the updates to the DAS that were required to release the Demographic and Housing Characteristics (DHC) File, which provides more granular tables than other data products, such as the Redistricting Data Summary File. We also describe the final configuration parameters used for the production DHC DAS implementation, as well as subsequent experimental data products to facilitate development of tools that provide confidence intervals for confidential 2020 Census tabulations.
翻訳日:2024-03-18 11:57:39 公開日:2023-12-18
# 大規模言語モデルにおける攻撃手法・実装・緩和戦略の包括的調査

A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models ( http://arxiv.org/abs/2312.10982v1 )

ライセンス: Link先を確認
Aysan Esmradi, Daniel Wankit Yip, Chun Fai Chan, (参考訳) 大きな言語モデル(LLM)のセキュリティを確保することは、広く普及しているにもかかわらず、現在進行中の課題である。 開発者はLSMのセキュリティを強化するために作業するが、脆弱性はGPT-4のような高度なバージョンでも持続する。 攻撃者はこれらの弱点を悪用し、AIモデル開発における積極的なサイバーセキュリティ対策の必要性を強調している。 この記事では、モデル自体に対する攻撃と、モデルアプリケーションに対する攻撃という2つの攻撃カテゴリについて説明する。 前者は専門知識、モデルデータへのアクセス、重要な実装時間を必要とし、後者は攻撃者に対してよりアクセスしやすく、注目されている。 本研究は,100以上の最近の研究成果をレビューし,各攻撃タイプについて詳細な分析を行った。 我々は、最新の攻撃方法を特定し、それらを実行するための様々なアプローチを探索する。 我々は、緩和手法を徹底的に検討し、その効果と限界を評価した。 さらに、これらの攻撃に対する将来の防御について要約する。 また,LLMに対する報告や実施した攻撃を含む実世界の技術についても検討し,その結果を整理した。 本研究は、セキュリティ問題に対処する緊急性を強調し、LLM攻撃の理解を高めることを目的としており、この発展途上の領域における堅牢な防衛開発に寄与している。

Ensuring the security of large language models (LLMs) is an ongoing challenge despite their widespread popularity. Developers work to enhance LLMs security, but vulnerabilities persist, even in advanced versions like GPT-4. Attackers exploit these weaknesses, highlighting the need for proactive cybersecurity measures in AI model development. This article explores two attack categories: attacks on models themselves and attacks on model applications. The former requires expertise, access to model data, and significant implementation time, while the latter is more accessible to attackers and has seen increased attention. Our study reviews over 100 recent research works, providing an in-depth analysis of each attack type. We identify the latest attack methods and explore various approaches to carry them out. We thoroughly investigate mitigation techniques, assessing their effectiveness and limitations. Furthermore, we summarize future defenses against these attacks. We also examine real-world techniques, including reported and our implemented attacks on LLMs, to consolidate our findings. Our research highlights the urgency of addressing security concerns and aims to enhance the understanding of LLM attacks, contributing to robust defense development in this evolving domain.
翻訳日:2024-03-18 11:57:39 公開日:2023-12-18
# Picsou: 効率的なクロスコンセンサス通信を実現する

Picsou: Enabling Efficient Cross-Consensus Communication ( http://arxiv.org/abs/2312.11029v1 )

ライセンス: Link先を確認
Reginald Frank, Micah Murray, Suyash Gupta, Ethan Xu, Natacha Crooks, Manos Kapritsos, (参考訳) Replicated State Machine (RSM) は、正式なフレームワークや効率的なプロトコルがないため、今日では効果的に通信できない。 この問題に対処するため,新しいプリミティブであるC3B(Cross-Cluster Consistent Broadcast)と,実用的なC3B実装であるPICSOUを紹介する。 PICSOUは、ネットワークとTCPからインスピレーションを得て、2つのRCMが障害のないケースにおける一定のメタデータオーバーヘッドと、障害発生時のメッセージ再送の最小数とを通信できるようにする。 PICSOUは柔軟で、クラッシュフォールトトレラントとビザンチンフォールトトレラントの両方のプロトコルが通信できる。 PICSOUの優れたパフォーマンスと汎用性の中心には、各RSMのノードがメッセージが確実に受信されたか、確実に失われているかを正確に判断する、QUICK(quorum admitments)と呼ばれる新しいテクニックがあります。 既存のオール・ツー・オール・ソリューションよりも最大24倍パフォーマンスが得られます。

Replicated state machines (RSMs) cannot effectively communicate today as there is no formal framework or efficient protocol to do so. To address this issue, we introduce a new primitive, the Cross-Cluster Consistent Broadcast (C3B) and present PICSOU, a practical C3B implementation. PICSOU draws inspiration from networking and TCP to allow two RSMs to communicate with constant metadata overhead in the failure-free case and minimal number of message resends in the case of failures. PICSOU is flexible and allows both crash fault-tolerant and byzantine fault-tolerant protocols to communicate. At the heart of PICSOU's good performance and generality lies a novel technique we call QUACKs (quorum acknowledgements) that allow nodes in each RSM to precisely determine when messages have definitely been received, or definitely been lost. Our results are promising: we obtain up to 24x better performance than existing all-to-all solutions.
翻訳日:2024-03-18 11:57:39 公開日:2023-12-18
# 量子抵抗ガリレオOSNMAのための暗号手法の評価

Assessment of cryptographic approaches for a quantum-resistant Galileo OSNMA ( http://arxiv.org/abs/2312.11080v1 )

ライセンス: Link先を確認
Javier Junquera-Sánchez, Carlos Hernando-Ramiro, Óscar Gamallo-Palomares, José-Antonio Gómez-Sánchez, (参考訳) 量子コンピューティングは、時間が経つにつれて現実のものになる。 現代の暗号は特定の数学的問題の計算複雑性に基づいているが、新しい量子ベースのコンピュータが出現するにつれて、古典的な手法は通信をセキュアにするのに十分ではないかもしれない。 本稿では,Galileo Open Service Navigation Message Authentication(OSNMA)の現状を分析し,これらの新たな脅威を克服する。 この分析と評価はOSNMA文書を用いて行われ、国立標準技術研究所(NIST)の標準化プロセスと競合するPQC(Post Quantum Cryptography)アルゴリズムをレビューし、ガリレオ・サービスにおける実装の可能性について研究している。 PQCアプローチを採用する上で大きな障壁は、署名とキーの両方のサイズである。 この分析によると、OSNMAはまだ量子脅威に直面する準備が整っていない。 この研究は、システムの整合性を短期的に維持するために実施可能な、異なる時間的対策を評価することで締めくくられる。

Quantum computing becomes more of a reality as time passes, bringing several cybersecurity challenges. Modern cryptography is based on the computational complexity of specific mathematical problems, but as new quantum-based computers appear, classical methods might not be enough to secure communications. In this paper, we analyse the state of the Galileo Open Service Navigation Message Authentication (OSNMA) to overcome these new threats. This analysis and its assessment have been performed using OSNMA documentation, reviewing the available Post Quantum Cryptography (PQC) algorithms competing in the National Institute of Standards and Technology (NIST) standardization process, and studying the possibility of its implementation in the Galileo service. The main barrier to adopting the PQC approach is the size of both the signature and the key. The analysis shows that OSNMA is not yet prepared to face the quantum threat, and a significant change would be required. This work concludes by assessing different temporal countermeasures that can be implemented to sustain the system's integrity in the short term.
翻訳日:2024-03-18 11:57:39 公開日:2023-12-18
# キャッシュにおけるサイドチャネル攻撃の実態調査 -分類学・分析・軽減-

A Survey of Side-Channel Attacks in Context of Cache -- Taxonomies, Analysis and Mitigation ( http://arxiv.org/abs/2312.11094v1 )

ライセンス: Link先を確認
Ankit Pulkit, Smita Naval, Vijay Laxmi, (参考訳) サイドチャネル攻撃はサイバースペースにおいて顕著な攻撃面となっている。 攻撃者は、タスクを実行中にシステムによって生成されたサイド情報を使用する。 さまざまなサイドチャネル攻撃の中で、キャッシュサイドチャネル攻撃は、過去10年間でキャッシュメモリサイズが大幅に増加し、特にLast Level Cache (LLC) がリードしている。 相手は共有キャッシュメモリの観測可能な動作から情報を推測する。 本稿では,キャッシュサイドチャネルアタックの詳細な研究と,サイドチャネルアタックの文脈におけるマイクロアーキテクチャの比較を行う。 1)サイドチャネルアタックと各種アタックサーフェス(タコノミー)の基礎と本質をまとめた。 さまざまなエクスプロイトテクニックについても議論し、その能力と限界を強調しました。 2) キャッシュサイドチャネル攻撃について検討し, マイクロアーキテクチャ, クロスコア・エクスプロイト, 方法論, ターゲットなど, 様々なパラメータに対するキャッシュサイドチャネル攻撃に関する既存文献を分析した。 この分析には、ハードウェアとソフトウェアベースの対策が含まれており、その強みと弱点を調べている。 また、緩和戦略に関連する課題とトレードオフについても論じました。 この調査は、これらの攻撃によって引き起こされる脅威を研究コミュニティに深く理解し、効果的な防御メカニズムに関する貴重な洞察を与えることを目的としている。

Side-channel attacks have become prominent attack surfaces in cyberspace. Attackers use the side information generated by the system while performing a task. Among the various side-channel attacks, cache side-channel attacks are leading as there has been an enormous growth in cache memory size in last decade, especially Last Level Cache (LLC). The adversary infers the information from the observable behavior of shared cache memory. This paper covers the detailed study of cache side-channel attacks and compares different microarchitectures in the context of side-channel attacks. Our main contributions are: (1) We have summarized the fundamentals and essentials of side-channel attacks and various attack surfaces (taxonomies). We also discussed different exploitation techniques, highlighting their capabilities and limitations. (2) We discussed cache side-channel attacks and analyzed the existing literature on cache side-channel attacks on various parameters like microarchitectures, cross-core exploitation, methodology, target, etc. (3) We discussed the detailed analysis of the existing mitigation strategies to prevent cache side-channel attacks. The analysis includes hardware- and software-based countermeasures, examining their strengths and weaknesses. We also discussed the challenges and trade-offs associated with mitigation strategies. This survey is supposed to provide a deeper understanding of the threats posed by these attacks to the research community with valuable insights into effective defense mechanisms.
翻訳日:2024-03-18 11:57:39 公開日:2023-12-18
# MAD-MulW:BGPセキュリティイベントのためのマルチウィンドウ異常検出フレームワーク

MAD-MulW: A Multi-Window Anomaly Detection Framework for BGP Security Events ( http://arxiv.org/abs/2312.11225v1 )

ライセンス: Link先を確認
Songtao Peng, Yiping Chen, Xincheng Shu, Wu Shuai, Shenhao Fang, Zhongyuan Ruan, Qi Xuan, (参考訳) 近年、様々な国際セキュリティイベントが頻繁に発生し、実際の社会とサイバースペースの間で交流している。 従来の交通監視は主に大量のデータのために、イベントの局所的な異常な状態に焦点を当てている。 BGPベースのイベント監視は、国際イベントの差分解析を可能にする。 既存の多くのトラフィック異常検出手法において,ウィンドウベースノイズ低減手法が時系列異常検出の成功率を効果的に向上することを示した。 そこで本研究では,マルチウィンドウ・シリアル・フレームワークを組み込んだ教師なし異常検出モデルMAD-MulWを提案する。 まず、W-GATモジュールを設計し、ウィンドウ内のサンプル重量を適応的に更新し、後続サンプルの更新情報を保持する。 そして、予測再構成に基づくW-LATモジュールは、それぞれ一定期間にわたってサンプル変動の傾向を捉え、予測サンプルの再構成によりクラス間変動を増加させる。 実験により,複数のBGP異常事象に対して平均F1スコアが90\%を超える実験を行い,ステージウィンドウの大幅な改善効果とタイミングモデルの効率と安定性に対する適応戦略を示した。

In recent years, various international security events have occurred frequently and interacted between real society and cyberspace. Traditional traffic monitoring mainly focuses on the local anomalous status of events due to a large amount of data. BGP-based event monitoring makes it possible to perform differential analysis of international events. For many existing traffic anomaly detection methods, we have observed that the window-based noise reduction strategy effectively improves the success rate of time series anomaly detection. Motivated by this observation, we propose an unsupervised anomaly detection model, MAD-MulW, which incorporates a multi-window serial framework. Firstly, we design the W-GAT module to adaptively update the sample weights within the window and retain the updated information of the trailing sample, which not only reduces the outlier samples' noise but also avoids the space consumption of data scale expansion. Then, the W-LAT module based on predictive reconstruction both captures the trend of sample fluctuations over a certain period of time and increases the interclass variation through the reconstruction of the predictive sample. Our model has been experimentally validated on multiple BGP anomalous events with an average F1 score of over 90\%, which demonstrates the significant improvement effect of the stage windows and adaptive strategy on the efficiency and stability of the timing model.
翻訳日:2024-03-18 11:57:39 公開日:2023-12-18
# 2010年国勢調査の機密性保護が失敗した理由と理由

The 2010 Census Confidentiality Protections Failed, Here's How and Why ( http://arxiv.org/abs/2312.11283v1 )

ライセンス: Link先を確認
John M. Abowd, Tamara Adams, Robert Ashmead, David Darais, Sourya Dey, Simson L. Garfinkel, Nathan Goldschlag, Daniel Kifer, Philip Leclerc, Ethan Lew, Scott Moore, Rolando A. Rodríguez, Ramy N. Tadros, Lars Vilhuber, (参考訳) 2010年の国勢調査人事記録では、わずか34の表を用いて、5つの変数(センサス・ブロック、セックス、年齢、人種、民族)を再構築した。 国勢調査ブロックレベルで集計された38ビンの年齢変数を使用して、少なくとも20.1%の再構成された記録は、これらの5つの変数の1つの値でさえも、秘密のソースと異なる可能性がある。 公開されたデータのみを使用して、攻撃者はすべての国勢調査ブロック(9700万人)の70%のレコードが完全に再構築されていることを確認できる。 従って、概要ファイル1の表面刊行物は、未公表の機密マイクロデータと同様の開示リスクを禁止している。 再確認調査では、攻撃者が完全な復元精度でブロック内で、人種と民族に関する実際の国勢調査応答を、95%の正確さで340万の脆弱な個体群(非モダクティブな特徴を持つ人物)に対して正確に推測できることを確認した。 2010年のCensusフレームワークの欠陥は、アグリゲーションが正確なマイクロデータ再構成を妨げ、2010年のCensus Public Microdataよりも弱い開示制限法を正当化する、という仮定であった。 以下に示すように、2020年国勢調査で使用されるフレームワークは、再構築に基づく攻撃を防御するものだ。 最後に、2020年国勢調査開示回避制度に類似した精度(交換の強化)の代替案も機密性保護に失敗し、復興攻撃(不完全な弾圧実施)を部分的に擁護する者は、1965年投票権法に従って国内すべての立法府を再分権するデータである第一の法定ユースケースを破壊していることを示す。

Using only 34 published tables, we reconstruct five variables (census block, sex, age, race, and ethnicity) in the confidential 2010 Census person records. Using the 38-bin age variable tabulated at the census block level, at most 20.1% of reconstructed records can differ from their confidential source on even a single value for these five variables. Using only published data, an attacker can verify that all records in 70% of all census blocks (97 million people) are perfectly reconstructed. The tabular publications in Summary File 1 thus have prohibited disclosure risk similar to the unreleased confidential microdata. Reidentification studies confirm that an attacker can, within blocks with perfect reconstruction accuracy, correctly infer the actual census response on race and ethnicity for 3.4 million vulnerable population uniques (persons with nonmodal characteristics) with 95% accuracy, the same precision as the confidential data achieve and far greater than statistical baselines. The flaw in the 2010 Census framework was the assumption that aggregation prevented accurate microdata reconstruction, justifying weaker disclosure limitation methods than were applied to 2010 Census public microdata. The framework used for 2020 Census publications defends against attacks that are based on reconstruction, as we also demonstrate here. Finally, we show that alternatives to the 2020 Census Disclosure Avoidance System with similar accuracy (enhanced swapping) also fail to protect confidentiality, and those that partially defend against reconstruction attacks (incomplete suppression implementations) destroy the primary statutory use case: data for redistricting all legislatures in the country in compliance with the 1965 Voting Rights Act.
翻訳日:2024-03-18 11:57:39 公開日:2023-12-18
# 電磁界サイドチャネル解析におけるクロスデバイスポータビリティの確保

Ensuring Cross-Device Portability of Electromagnetic Side-Channel Analysis ( http://arxiv.org/abs/2312.11301v1 )

ライセンス: Link先を確認
Lojenaa Navanesana, Nhien-An Le-Khac, Mark Scanlon, Kasun De Zoysa, Asanka P. Sayakkara, (参考訳) スマートデバイスの調査は、デジタル法医学において不可欠なサブドメインとなっている。 スマートデバイスの固有の多様性と複雑さは、物理的に干渉することなく証拠の抽出に挑戦する。 近年,非侵入型電磁サイドチャネル解析 (EM-SCA) をスマートデバイスから法医学的洞察を抽出するための新たなアプローチとして採用している。 デジタル鑑識のためのEM-SCAはまだ初期段階であり、これまで少数のデバイスでしかテストされていない。 最も重要な点は、EM-SCAの機械学習(ML)モデルが複数のデバイスにまたがって移植可能であり、デジタル法医学、すなわちクロスデバイスポータビリティに有用かどうかである。 本研究は,広義のスマートデバイスを用いたEM-SCAのこの側面を実験的に検討する。 様々なiPhoneとNordic Semiconductor nRF52-DKデバイスを用いた実験では、複数の同一デバイスで事前訓練されたMLモデルの直接適用は最適な結果にならない(ほとんどの場合、20%の精度で)。 その後の実験では、すべてのデバイスから異なるEMトレースのサンプルを収集して、混合デバイスデータで新しいMLモデルをトレーニングした。 これにより、クロスモデル実装を約束するトランスファーラーニング技術が導入された。 特に、iPhone 13 と nRF52-DK デバイスでは、転送学習技術を適用して、それぞれ 98% と 96% の精度で、最高精度を達成した。 この結果、EM-SCAのデジタル法医学への応用において、同一または類似のデバイスにまたがって事前訓練されたモデルを使用することにより、大きな進歩を遂げた。

Investigation on smart devices has become an essential subdomain in digital forensics. The inherent diversity and complexity of smart devices pose a challenge to the extraction of evidence without physically tampering with it, which is often a strict requirement in law enforcement and legal proceedings. Recently, this has led to the application of non-intrusive Electromagnetic Side-Channel Analysis (EM-SCA) as an emerging approach to extract forensic insights from smart devices. EM-SCA for digital forensics is still in its infancy, and has only been tested on a small number of devices so far. Most importantly, the question still remains whether Machine Learning (ML) models in EM-SCA are portable across multiple devices to be useful in digital forensics, i.e., cross-device portability. This study experimentally explores this aspect of EM-SCA using a wide set of smart devices. The experiments using various iPhones and Nordic Semiconductor nRF52-DK devices indicate that the direct application of pre-trained ML models across multiple identical devices does not yield optimal outcomes (under 20% accuracy in most cases). Subsequent experiments included collecting distinct samples of EM traces from all the devices to train new ML models with mixed device data; this also fell short of expectations (still below 20% accuracy). This prompted the adoption of transfer learning techniques, which showed promise for cross-model implementations. In particular, for the iPhone 13 and nRF52-DK devices, applying transfer learning techniques resulted in achieving the highest accuracy, with accuracy scores of 98% and 96%, respectively. This result makes a significant advancement in the application of EM-SCA to digital forensics by enabling the use of pre-trained models across identical or similar devices.
翻訳日:2024-03-18 11:57:39 公開日:2023-12-18
# Blind-Touch: プライバシー保護指紋認証のための同型暗号化に基づく分散ニューラルネットワーク推論

Blind-Touch: Homomorphic Encryption-Based Distributed Neural Network Inference for Privacy-Preserving Fingerprint Authentication ( http://arxiv.org/abs/2312.11575v1 )

ライセンス: Link先を確認
Hyunmin Choi, Simon Woo, Hyoungshick Kim, (参考訳) 指紋認証は、スマートフォンやラップトップのセキュリティメカニズムとして人気がある。 しかし、Webとクラウド環境における採用は、サーバー上の生体データの保存と処理に関するプライバシー上の懸念から制限されている。 本稿では,Blind-Touchについて紹介する。Blind-Touchは,これらのプライバシー問題に対処するために同型暗号化を利用する,機械学習ベースの指紋認証システムである。 ホモモルフィック暗号化は、復号化せずに暗号化データの計算を可能にする。 これにより、Blind-Touchは、機械学習操作を実行しながら、サーバ上で指紋データを暗号化し続けることができる。 1) 分散アーキテクチャの機能ベクトルを最適化し、クライアント側で最初の完全に接続された層(FC-16)を処理し、その後の層(FC-1)をサーバ側で処理し、暗号化処理を最小化し、(2) 8,192の認証結果を同時に処理できる同型暗号化互換データ圧縮技術、(3) クラスタ化されたサーバアーキテクチャを用いて認証結果を同時に処理し、ユーザ数の増加に伴うスケーラビリティを向上させる。 Blind-Touchは2つのベンチマーク指紋データセットで高い精度を実現しており、PolyUデータセットでは93.6%のF1スコア、SOKOTOデータセットでは98.2%のF1スコアである。 さらに、Blind-Touchは、約0.65秒で5000の指紋を一致させることができる。 Blind-Touchは、プライバシを重視した設計、高い精度、効率で、Webおよびクラウドアプリケーションの従来の指紋認証に代わる有望な代替手段である。

Fingerprint authentication is a popular security mechanism for smartphones and laptops. However, its adoption in web and cloud environments has been limited due to privacy concerns over storing and processing biometric data on servers. This paper introduces Blind-Touch, a novel machine learning-based fingerprint authentication system leveraging homomorphic encryption to address these privacy concerns. Homomorphic encryption allows computations on encrypted data without decrypting. Thus, Blind-Touch can keep fingerprint data encrypted on the server while performing machine learning operations. Blind-Touch combines three strategies to efficiently utilize homomorphic encryption in machine learning: (1) It optimizes the feature vector for a distributed architecture, processing the first fully connected layer (FC-16) in plaintext on the client side and the subsequent layer (FC-1) post-encryption on the server, thereby minimizing encrypted computations; (2) It employs a homomorphic encryptioncompatible data compression technique capable of handling 8,192 authentication results concurrently; and (3) It utilizes a clustered server architecture to simultaneously process authentication results, thereby enhancing scalability with increasing user numbers. Blind-Touch achieves high accuracy on two benchmark fingerprint datasets, with a 93.6% F1- score for the PolyU dataset and a 98.2% F1-score for the SOKOTO dataset. Moreover, Blind-Touch can match a fingerprint among 5,000 in about 0.65 seconds. With its privacyfocused design, high accuracy, and efficiency, Blind-Touch is a promising alternative to conventional fingerprint authentication for web and cloud applications.
翻訳日:2024-03-18 11:47:54 公開日:2023-12-18
# 散在環境における草地成功度推定のための今後の観測結果の作成

Generating Future Observations to Estimate Grasp Success in Cluttered Environments ( http://arxiv.org/abs/2403.07877v1 )

ライセンス: Link先を確認
Daniel Fernandes Gomes, Wenxuan Mou, Paolo Paoletti, Shan Luo, (参考訳) 将来の候補把握の成功を推定するためのエンドツーエンドの自己監督モデルと、将来の観測を生成するためのビデオ予測モデルが提案されている。 しかし、上記の把握問題に対処するために、これらの2つの戦略を並べて研究することはなかった。 対象物を把握しようとするグリップの将来の観察を生成する自己教師付き学習予測モデルを利用するモデルベース代替案に対して、モデルフリーアプローチを検討・比較する。 実験の結果, モデルフリーモデルでは72%の精度が得られたが, 提案したモデルベースパイプラインでは82%の精度が得られることがわかった。

End-to-end self-supervised models have been proposed for estimating the success of future candidate grasps and video predictive models for generating future observations. However, none have yet studied these two strategies side-by-side for addressing the aforementioned grasping problem. We investigate and compare a model-free approach, to estimate the success of a candidate grasp, against a model-based alternative that exploits a self-supervised learnt predictive model that generates a future observation of the gripper about to grasp an object. Our experiments demonstrate that despite the end-to-end model-free model obtaining a best accuracy of 72%, the proposed model-based pipeline yields a significantly higher accuracy of 82%.
翻訳日:2024-03-18 06:00:28 公開日:2023-12-18
# ML-ASPA:音・ひずみ新興技術のための機械学習に基づく音響信号処理解析の一検討

ML-ASPA: A Contemplation of Machine Learning-based Acoustic Signal Processing Analysis for Sounds, & Strains Emerging Technology ( http://arxiv.org/abs/2402.10005v1 )

ライセンス: Link先を確認
Ratul Ali, Aktarul Islam, Md. Shohel Rana, Saila Nasrin, Sohel Afzal Shajol and Professor Dr. A.H.M. Saifullah Sadi(参考訳) 音響データは、生物学、コミュニケーション、海洋と地球科学にまたがる様々な分野にわたる科学と工学の理解を進歩させる基礎となる。 この調査は、特に機械学習(ML)とディープラーニングに焦点を当て、アコースティックス分野における最近の進歩と変革の可能性について慎重に探求する。 MLは、幅広い統計技術から構成されており、データ内のパターンを自律的に識別し活用するのに不可欠である。 従来の音響や信号処理とは対照的に、mlはデータ駆動のアプローチを採用しており、十分なトレーニングデータを与えて、特徴と望ましいラベルやアクションの間の複雑な関係を明らかにしている。 mlのトレーニングデータへの応用は、人間の発話や残響といった複雑な音響現象を解明するモデルの発見を容易にする。 音響学におけるMLの動的進化は魅力的な結果をもたらし、将来有望である。 電子聴診器や類似記録・データ検診装置の出現により,音響信号処理の概念が腸音解析に応用されるようになった。 本稿では, 音響信号処理に関する既存の文献を批判的に評価し, 基礎的アプローチと機械学習の原理を概説する。 それは、腸音から貴重な情報を抽出し、ノイズ低減、セグメンテーション、信号強調、特徴抽出、音像定位、機械学習技術の進歩を強調した、信号処理技術の歴史的進歩を物語っている。

Acoustic data serves as a fundamental cornerstone in advancing scientific and engineering understanding across diverse disciplines, spanning biology, communications, and ocean and Earth science. This inquiry meticulously explores recent advancements and transformative potential within the domain of acoustics, specifically focusing on machine learning (ML) and deep learning. ML, comprising an extensive array of statistical techniques, proves indispensable for autonomously discerning and leveraging patterns within data. In contrast to traditional acoustics and signal processing, ML adopts a data-driven approach, unveiling intricate relationships between features and desired labels or actions, as well as among features themselves, given ample training data. The application of ML to expansive sets of training data facilitates the discovery of models elucidating complex acoustic phenomena such as human speech and reverberation. The dynamic evolution of ML in acoustics yields compelling results and holds substantial promise for the future. The advent of electronic stethoscopes and analogous recording and data logging devices has expanded the application of acoustic signal processing concepts to the analysis of bowel sounds. This paper critically reviews existing literature on acoustic signal processing for bowel sound analysis, outlining fundamental approaches and applicable machine learning principles. It chronicles historical progress in signal processing techniques that have facilitated the extraction of valuable information from bowel sounds, emphasizing advancements in noise reduction, segmentation, signal enhancement, feature extraction, sound localization, and machine learning techniques...
翻訳日:2024-02-18 12:52:59 公開日:2023-12-18
# 主な勧告におけるChatGPTの解離バイアス

Dissecting Bias of ChatGPT in College Major Recommendations ( http://arxiv.org/abs/2401.11699v1 )

ライセンス: Link先を確認
Alex Zheng(参考訳) 本研究は,ChatGPTの大学における様々なプロファイルを持つ学生に対する推奨事項のバイアス,人種,性別,社会経済的地位などの要因の人口格差,スコアパーセンタイルなどの教育格差について検討する。 ChatGPT APIのプロンプトを構築して、高校生のプロフィールに基づいてメジャーを推薦することで、Jaccard Coefficient、Wasserstein Metric、STEM Disparity Scoreといったさまざまな指標を用いてバイアスを評価します。 本研究の結果は, バイアス計量が適用されているにもかかわらず, 推薦大学専攻者の集団に有意な差が認められた。

I investigate bias in terms of ChatGPT's college major recommendations for students with various profiles, looking at demographic disparities in factors such as race, gender, and socioeconomic status, as well as educational disparities such as score percentiles. By constructing prompts for the ChatGPT API, allowing the model to recommend majors based on high school student profiles, I evaluate bias using various metrics, including the Jaccard Coefficient, Wasserstein Metric, and STEM Disparity Score. The results of this study reveal a significant disparity in the set of recommended college majors, irrespective of the bias metric applied.
翻訳日:2024-02-11 17:42:36 公開日:2023-12-18
# EU責任指令を考慮したAIによる損害の責任リスク評価へのリスクベースアプローチ

A risk-based approach to assessing liability risk for AI-driven harms considering EU liability directive ( http://arxiv.org/abs/2401.11697v1 )

ライセンス: Link先を確認
Sundaraparipurnan Narayanan, Mark Potkewitz(参考訳) 人工知能は、AIシステム自体の欠陥や不具合から生じるものや、その使用や誤用によって引き起こされるものなど、様々な方法で不便、害その他の意図しない結果を引き起こす可能性がある。 aiの損害や意図しない結果に対する責任は、そのような被害を引き起こした人々に責任を負わせ、被害者が被った損害や損失に対して補償を受けることを保証するために対処しなければならない。 AIによる害の歴史的事例により、欧州連合はAI責任指令を制定した。 この指令は、情報へのアクセスのための統一されたルールを策定し、AI開発と使用に必要な義務とケアのレベルを明確にし、AIシステムによる損害や損害の証明の負担を明確にし、被害者の幅広い保護を確立することを目的としている。 製品責任主張に競合するプロバイダの今後の能力は、市場におけるAIシステムの設計、開発、保守において採用される優れたプラクティスに依存します。 本稿では,AIによる外傷に対するリスクベースアプローチを提案する。 また、既存の責任アプローチの概要、これらのアプローチの制約と複雑さに関する洞察、特定のaiシステムの責任に関連するリスクをプロバイダの観点から評価するための詳細な自己評価アンケートも提供している。

Artificial intelligence can cause inconvenience, harm, or other unintended consequences in various ways, including those that arise from defects or malfunctions in the AI system itself or those caused by its use or misuse. Responsibility for AI harms or unintended consequences must be addressed to hold accountable the people who caused such harms and ensure that victims receive compensation for any damages or losses they may have sustained. Historical instances of harm caused by AI have led to European Union establishing an AI Liability Directive. The directive aims to lay down a uniform set of rules for access to information, delineate the duty and level of care required for AI development and use, and clarify the burden of proof for damages or harms caused by AI systems, establishing broader protection for victims. The future ability of provider to contest a product liability claim will depend on good practices adopted in designing, developing, and maintaining AI systems in the market. This paper provides a risk-based approach to examining liability for AI-driven injuries. It also provides an overview of existing liability approaches, insights into limitations and complexities in these approaches, and a detailed self-assessment questionnaire to assess the risk associated with liability for a specific AI system from a provider's perspective.
翻訳日:2024-02-11 17:42:24 公開日:2023-12-18
# AIの安全性に関する具体的な問題、再考

Concrete Problems in AI Safety, Revisited ( http://arxiv.org/abs/2401.10899v1 )

ライセンス: Link先を確認
Inioluwa Deborah Raji and Roel Dobbe(参考訳) AIシステムが社会で普及するにつれて、AIコミュニティはAIセーフティの概念、すなわち、AIデプロイメントにおける設計意図からシステムの振る舞いが予期せぬ離脱から生じる事故による障害の防止にますます夢中になっている。 このような事象の現実的なケースの分析を通じて、現在の語彙は、AIデプロイメントの遭遇するさまざまな問題を捉えるが、AIシステムと実装された安全メカニズムの失敗と実生活における成功をより完全に理解するために、拡張された社会技術的フレーミングが必要であることを実証する。

As AI systems proliferate in society, the AI community is increasingly preoccupied with the concept of AI Safety, namely the prevention of failures due to accidents that arise from an unanticipated departure of a system's behavior from designer intent in AI deployment. We demonstrate through an analysis of real world cases of such incidents that although current vocabulary captures a range of the encountered issues of AI deployment, an expanded socio-technical framing will be required for a more complete understanding of how AI systems and implemented safety mechanisms fail and succeed in real life.
翻訳日:2024-02-11 17:41:17 公開日:2023-12-18
# Open Geospatial Consortium SensorThings APIを用いたパンデミック一元追跡システム

Unified Pandemic Tracking System Based on Open Geospatial Consortium SensorThings API ( http://arxiv.org/abs/2401.10898v1 )

ライセンス: Link先を確認
Robinson Paniagua, Rdawa Sultan, Ahmed Refaey(参考訳) 現在の国々はパンデミックの軌跡を追跡するのに苦労している。 パンデミックや症状に対する透明性やリアルタイムのデータストリーミングが欠如している。 この現象は、これらの致命的なパンデミックを迅速かつ制御不能に広めた。 世界規模のパンデミック追跡システムを構築する上で大きな問題のひとつは、通信プロトコルの標準化の欠如と、IoT(Internet-of-Things)デバイスセンサーの展開である。 Open Geospatial Consortium(OGC)は,IoTデバイスとOGC SensorThingsアプリケーションプログラミングインターフェース(API)などのセンサデバイスに,通信プロトコルの迅速なデプロイを可能にする,いくつかのセンサWeb Enablement標準を開発した。 本稿では,この課題に対処するため,OGC SensorThings APIのデプロイとそのサーバについて,相互運用性の課題を概説し,質的かつ定量的に検討する。 OGC SensorThings APIは、センサーとその観測データ交換サービスを提供するために開発された。 OGC SensorThings APIは、自動パンデミックトラッキングシステムを作成する上で、主要な重要な役割を果たす。 このAPIは、任意のセンサーの配置を削減し、リアルタイムなデータトラッキングを提供する。 そのため、世界保健機関は迅速に対応し、高い感染率に集中する。

With the current nations struggling to track the pandemic's trajectories. There has been a lack of transparency or real-live data streaming for pandemic cases and symptoms. This phenomenon has led to a rapid and uncontrolled spread of these deadly pandemics. One of the main issues in creating a global pandemic tracking system is the lack of standardization of communications protocols and the deployment of Internet-of-Things (IoT) device sensors. The Open Geospatial Consortium (OGC) has developed several sensor web Enablement standards that allow the expeditious deployment of communications protocols within IoT devices and other sensor devices like the OGC SensorThings application programming interface (API). In this paper, to address this issue, we outline the interoperability challenge and provide a qualitative and quantitative study of the OGC SensorThings API's deployment and its respective server. The OGC SensorThings API is developed to provide data exchange services between sensors and their observations. The OGC SensorThings API would play a primary and essential role in creating an automated pandemic tracking system. This API would reduce the deployment of any set of sensors and provide real-time data tracking. Accordingly, global health organizations would react expeditiously and concentrate their efforts on high infection rates.
翻訳日:2024-02-11 17:41:06 公開日:2023-12-18
# 責任あるAIガバナンス: 体系的な文献レビュー

Responsible AI Governance: A Systematic Literature Review ( http://arxiv.org/abs/2401.10896v1 )

ライセンス: Link先を確認
Amna Batool, Didar Zowghi, Muneera Bano(参考訳) 人工知能は幅広い分野を変革し、イノベーションを促進する一方で、倫理、透明性、バイアス、公平性に関する複雑な課題も導入している。 ガバナンスフレームワークにResponsible AI(RAI)原則を統合するための必須事項は、これらの新興リスクを軽減することにある。 AIガバナンスには多くのソリューションがあるが、実際の有効性について重要な疑問が残る。 この知識ギャップに対処するために,本稿は,AIガバナンスに関する既存の文献を検討することを目的とする。 WHOはAIシステムのガバナンスに責任を持ち、WHAT要素は管理されており、WHENガバナンスはAI開発ライフサイクル内で発生し、HOWはフレームワーク、ツール、標準、ポリシー、モデルといった様々なメカニズムによって実行される。 体系的な文献レビュー手法を用いて,厳格な検索・選択プロセスが採用されている。 この取り組みにより、AIガバナンスの主題に関する61の関連記事が特定された。 61の研究のうち、全ての質問に対する完全な回答は5つしか得られなかった。 このレビューの結果は、より包括的で包括的なResponsible AI(RAI)ガバナンスフレームワークを策定する研究に役立つ。 本研究は,AIの実践を効果的かつ責任あるものにする上で,特に組織的なレベルにおいて,AIガバナンスの重要な役割を強調した。 本研究の知見は、rai原則に準拠した包括的なガバナンスモデルの研究と開発のための基礎的基礎を提供する。

As artificial intelligence transforms a wide range of sectors and drives innovation, it also introduces complex challenges concerning ethics, transparency, bias, and fairness. The imperative for integrating Responsible AI (RAI) principles within governance frameworks is paramount to mitigate these emerging risks. While there are many solutions for AI governance, significant questions remain about their effectiveness in practice. Addressing this knowledge gap, this paper aims to examine the existing literature on AI Governance. The focus of this study is to analyse the literature to answer key questions: WHO is accountable for AI systems' governance, WHAT elements are being governed, WHEN governance occurs within the AI development life cycle, and HOW it is executed through various mechanisms like frameworks, tools, standards, policies, or models. Employing a systematic literature review methodology, a rigorous search and selection process has been employed. This effort resulted in the identification of 61 relevant articles on the subject of AI Governance. Out of the 61 studies analysed, only 5 provided complete responses to all questions. The findings from this review aid research in formulating more holistic and comprehensive Responsible AI (RAI) governance frameworks. This study highlights important role of AI governance on various levels specially organisational in establishing effective and responsible AI practices. The findings of this study provides a foundational basis for future research and development of comprehensive governance models that align with RAI principles.
翻訳日:2024-02-11 17:40:46 公開日:2023-12-18
# メタバースのフェデレート多視点合成

Federated Multi-View Synthesizing for Metaverse ( http://arxiv.org/abs/2401.00859v1 )

ライセンス: Link先を確認
Yiyu Guo, Zhijin Qin, Xiaoming Tao, Geoffrey Ye Li(参考訳) metaverseは没入型エンターテイメント、教育、ビジネスアプリケーションを提供する。 しかし、無線ネットワーク上のバーチャルリアリティ(VR)伝送はデータと計算集約であり、厳密な品質要件を満たす新しいソリューションを導入することが重要である。 近年のエッジインテリジェンスとディープラーニングの進歩により,メタバースにおける無線コンテンツ配信のための計算,ストレージ,通信資源を効率的に提供できる新しい多視点合成フレームワークを開発した。 単視点画像のコレクションを用いた3次元3次元画像生成モデルを提案する。 これらのシングルビュー画像は、オーバーラップした視野を持つユーザグループに送信されるため、タイルや3dモデル全体の送信と比較すると、大量のコンテンツ送信を避けることができる。 次に,効率的な学習プロセスを保証するための連合学習手法を提案する。 垂直および水平データサンプルを大きな潜時特徴空間で特徴付けしてトレーニング性能を向上させることができる一方、フェデレーション学習中に送信されたパラメータの数を削減して低遅延通信を実現することができる。 また,異なる対象領域への高速ドメイン適応を実現するためのフェデレーション転送学習フレームワークを提案する。 シミュレーションにより,vrコンテンツ配信のためのフェデレーションマルチビュー合成フレームワークの有効性が実証された。

The metaverse is expected to provide immersive entertainment, education, and business applications. However, virtual reality (VR) transmission over wireless networks is data- and computation-intensive, making it critical to introduce novel solutions that meet stringent quality-of-service requirements. With recent advances in edge intelligence and deep learning, we have developed a novel multi-view synthesizing framework that can efficiently provide computation, storage, and communication resources for wireless content delivery in the metaverse. We propose a three-dimensional (3D)-aware generative model that uses collections of single-view images. These single-view images are transmitted to a group of users with overlapping fields of view, which avoids massive content transmission compared to transmitting tiles or whole 3D models. We then present a federated learning approach to guarantee an efficient learning process. The training performance can be improved by characterizing the vertical and horizontal data samples with a large latent feature space, while low-latency communication can be achieved with a reduced number of transmitted parameters during federated learning. We also propose a federated transfer learning framework to enable fast domain adaptation to different target domains. Simulation results have demonstrated the effectiveness of our proposed federated multi-view synthesizing framework for VR content delivery.
翻訳日:2024-01-15 12:17:40 公開日:2023-12-18
# 音声フィードバックを用いた物体検出による盲人支援

Assisting Blind People Using Object Detection with Vocal Feedback ( http://arxiv.org/abs/2401.01362v1 )

ライセンス: Link先を確認
Heba Najm, Khirallah Elferjani and Alhaam Alariyibi(参考訳) 視覚障害者にとって、独立運動をし、屋内と屋外の両方で安全に移動することは極めて困難である。 さらに、身体的にも視覚的にも日々の生活活動を妨げている。 同様に、それらにはリスクをもたらす可能性のある周囲の環境の物体を知覚する問題がある。 提案手法では,Webカメラを用いてリアルタイム映像中の物体の識別,プロセスを提案する。 You Look Only Once (YOLO) モデルは、CNNベースのリアルタイムオブジェクト検出技術である。 さらに、PythonのOpenCVライブラリは、ディープラーニングプロセスの実行とともに、ソフトウェアプログラムの実装に使用される。 画像認識結果は、Googleのテキスト音声ライブラリを用いて視覚障害者に可聴形式で転送され、画面上の位置に対する対象位置を決定する。 平均精度 (mAP) を用いて, 平均精度 (mAP) を評価した結果, 提案手法は従来の手法と比較して優れた結果が得られることがわかった。

For visually impaired people, it is highly difficult to make independent movement and safely move in both indoors and outdoors environment. Furthermore, these physically and visually challenges prevent them from in day-today live activities. Similarly, they have problem perceiving objects of surrounding environment that may pose a risk to them. The proposed approach suggests detection of objects in real-time video by using a web camera, for the object identification, process. You Look Only Once (YOLO) model is utilized which is CNN-based real-time object detection technique. Additionally, The OpenCV libraries of Python is used to implement the software program as well as deep learning process is performed. Image recognition results are transferred to the visually impaired users in audible form by means of Google text-to-speech library and determine object location relative to its position in the screen. The obtaining result was evaluated by using the mean Average Precision (mAP), and it was found that the proposed approach achieves excellent results when it compared to previous approaches.
翻訳日:2024-01-15 10:09:14 公開日:2023-12-18
# ビルにおけるランプの自動検出・識別・位置推定に基づくBIMデータの生成

Generation of BIM data based on the automatic detection, identification and localization of lamps in buildings ( http://arxiv.org/abs/2401.05390v1 )

ライセンス: Link先を確認
Francisco Troncoso-Pastoriza, Pablo Egu\'ia-Oller, Rebeca P. D\'iaz-Redondo, Enrique Granada-\'Alvarez(参考訳) 本稿では,建築情報モデリング(bim)手法によるエネルギーモデルの自動供給を主目的とし,建物内のランプの検出,識別,位置決めを支援する手法を提案する。 提案手法は,照明インフラの適正な管理により,建築部門におけるエネルギー消費量を削減するための省エネ戦略を適用するための有用な情報を提供する。 ランプのユニークな形状と明るさ、およびグレースケール画像のみの使用に基づいて、計算能力の低さにもかかわらず精度の高い結果を得ることができ、ほぼリアルタイムな処理が可能となる。 主な目新しさは、候補探索の焦点が画像全体ではなく、ランプの特定の特性を要約する限られた領域にのみ置かれることである。 提案手法から得られた情報は,グリーンビルディングXMLスキーマを用いて,アルゴリズムの結果からBIMデータの自動生成を示す。

In this paper we introduce a method that supports the detection, identification and localization of lamps in a building, with the main goal of automatically feeding its energy model by means of Building Information Modeling (BIM) methods. The proposed method, thus, provides useful information to apply energy-saving strategies to reduce energy consumption in the building sector through the correct management of the lighting infrastructure. Based on the unique geometry and brightness of lamps and the use of only greyscale images, our methodology is able to obtain accurate results despite its low computational needs, resulting in near-real-time processing. The main novelty is that the focus of the candidate search is not over the entire image but instead only on a limited region that summarizes the specific characteristics of the lamp. The information obtained from our approach was used on the Green Building XML Schema to illustrate the automatic generation of BIM data from the results of the algorithm.
翻訳日:2024-01-15 08:45:22 公開日:2023-12-18
# 消音拡散生成モデルを用いたベイズ心電図再構成

Bayesian ECG reconstruction using denoising diffusion generative models ( http://arxiv.org/abs/2401.05388v1 )

ライセンス: Link先を確認
Gabriel V. Cardoso, Lisa Bedin, Josselin Duchateau, R\'emi Dubois, Eric Moulines(参考訳) 本研究は,心電図(ECG)データを学習し,心電図の形態と葉間依存性に着目したDDGM(denoising diffusion generative model)を提案する。 以上の結果から,この斬新な生成モデルによって現実的なECG信号が生成できることが示唆された。 さらに,ddgmを用いた線形逆ベイズ問題に対する最近のブレークスルーの適用について検討する。 このアプローチは、いくつかの重要な臨床ツールの開発を可能にする。 それらは、補正されたqt間隔(qtc)の計算、心電図信号の効果的なノイズ抑制、心電図リードの欠如の回復、異常な読み出しの同定、心臓の健康モニタリングと診断の著しい進歩を含む。

In this work, we propose a denoising diffusion generative model (DDGM) trained with healthy electrocardiogram (ECG) data that focuses on ECG morphology and inter-lead dependence. Our results show that this innovative generative model can successfully generate realistic ECG signals. Furthermore, we explore the application of recent breakthroughs in solving linear inverse Bayesian problems using DDGM. This approach enables the development of several important clinical tools. These include the calculation of corrected QT intervals (QTc), effective noise suppression of ECG signals, recovery of missing ECG leads, and identification of anomalous readings, enabling significant advances in cardiac health monitoring and diagnosis.
翻訳日:2024-01-15 08:45:05 公開日:2023-12-18
# クロスオブジェクトハンドジェスチャ分類のためのEMGサブスペースアライメントと可視化

EMG subspace alignment and visualization for cross-subject hand gesture classification ( http://arxiv.org/abs/2401.05386v1 )

ライセンス: Link先を確認
Martin Colot, C\'edric Simar, Mathieu Petieau, Ana Maria Cebolla Alvarez, Guy Cheron and Gianluca Bontempi(参考訳) エレクトロミオグラム(EMG)を用いた手ジェスチャー認識システムは,人や機械のインタフェースにおいて有望な技術である。 しかし、その主な制限の1つは、新しいユーザーを扱うのに通常必要とされる長いキャリブレーション時間である。 本論文は,14名の被験者の筋電図信号を含むオリジナルデータセットを用いて,手指ジェスチャにおけるクロスサブジェクト一般化の課題を考察し,解析する。 実験の結果,複数被験者のプーリングに基づく正確な一般化は達成できないが,複数被験者のロバストな低次元部分空間を同定し,対象被験者と整合させることで,クロスサブジェクト推定を改善することが可能であった。 サブスペースの可視化により,emg信号を用いたクロスサブジェクト一般化の改善のための洞察を提供することができる。

Electromyograms (EMG)-based hand gesture recognition systems are a promising technology for human/machine interfaces. However, one of their main limitations is the long calibration time that is typically required to handle new users. The paper discusses and analyses the challenge of cross-subject generalization thanks to an original dataset containing the EMG signals of 14 human subjects during hand gestures. The experimental results show that, though an accurate generalization based on pooling multiple subjects is hardly achievable, it is possible to improve the cross-subject estimation by identifying a robust low-dimensional subspace for multiple subjects and aligning it to a target subject. A visualization of the subspace enables us to provide insights for the improvement of cross-subject generalization with EMG signals.
翻訳日:2024-01-15 08:44:52 公開日:2023-12-18
# 自動車レーダにおける干渉緩和のための角度等価畳み込みニューラルネットワーク

Angle-Equivariant Convolutional Neural Networks for Interference Mitigation in Automotive Radar ( http://arxiv.org/abs/2401.05385v1 )

ライセンス: Link先を確認
Christian Oswald, Mate Toth, Paul Meissner, Franz Pernkopf(参考訳) 自動車応用において、周波数変調連続波レーダ(fmcw radar)は、車両近傍の物体の距離、速度、角度を決定するための確立された技術である。 レーダーセンサ間の相互干渉が発生すると、予測の質が著しく損なわれる可能性がある。 以前の作業は、ニューラルネットワーク(nns)を使用して干渉緩和品質を高めるために、受信機アレイ全体からデータを並列に処理する。 しかし、これらのアーキテクチャは、干渉や物体の異なる角度 (aoa) にわたってうまく一般化しない。 本稿では,異なるaoa間で学習パターンを転送可能な階層3畳み込みを持つ完全畳み込みニューラルネットワーク(cnn)を提案する。 提案するアーキテクチャは,従来よりも頑健性が高く,学習可能なパラメータの少ない作業に匹敵する。 ネットワークを多種多様なデータセットで評価し,その角度同値性を示す。

In automotive applications, frequency modulated continuous wave (FMCW) radar is an established technology to determine the distance, velocity and angle of objects in the vicinity of the vehicle. The quality of predictions might be seriously impaired if mutual interference between radar sensors occurs. Previous work processes data from the entire receiver array in parallel to increase interference mitigation quality using neural networks (NNs). However, these architectures do not generalize well across different angles of arrival (AoAs) of interferences and objects. In this paper we introduce fully convolutional neural network (CNN) with rank-three convolutions which is able to transfer learned patterns between different AoAs. Our proposed architecture outperforms previous work while having higher robustness and a lower number of trainable parameters. We evaluate our network on a diverse data set and demonstrate its angle equivariance.
翻訳日:2024-01-15 08:44:39 公開日:2023-12-18
# Good to Great: ツール強化インターリーフプロンプトによる数学推論の改善

From Good to Great: Improving Math Reasoning with Tool-Augmented Interleaf Prompting ( http://arxiv.org/abs/2401.05384v1 )

ライセンス: Link先を確認
Nuo Chen, Hongguang Li, Baoyuan Wang, Jia Li(参考訳) 本稿では,Large Language Models (LLMs) と Tool-augmented LLMs の複雑な数学的推論処理における性能について検討する。 imp-tip: llmとツール-augmented llmの両方の強みを組み合わせたフレームワークである、ツール-augmented interleaf promptingによる数学推論の改善。 IMP-TIP は `From Good to Great" という概念に従い、同じ数学問題に対して LLM とそのツール拡張されたツールから複数の潜在的なソリューションを収集し、ツール拡張インターリーフプロンプトを通じてこれらのソリューションをクロスチェックした後、最も正確な回答を選択したり、再生成する。 このフレームワークには、セルフプロンプトとツール拡張インターリーフプロンプト(TIP)という2つの重要な側面が含まれている。 前者は、LSMがツールの使用に関する最初のプロンプトを自律的に洗練し改善することを可能にし、後者は、LSMが問題を動的に解析し、潜在的な解を相互チェックし、インターリーブされた方法で以前の推論ヒントを修正することによって最終回答を導出することを可能にする。 実験分析の結果,IMP-TIPは数学能力の向上を実現し,従来のLLMやツール拡張LDMよりも精度が高く,数学的推論タスクの多様性も高いことがわかった。 例えば imp-tip は gsm8k-hard のツールによる chatgpt を 56.0% から 65.2% に改善できる。

This paper investigates the performance of Large Language Models (LLMs) and Tool-augmented LLMs in tackling complex mathematical reasoning tasks. We introduce IMP-TIP: Improving Math Reasoning with Tool-augmented Interleaf Prompting, a framework that combines the strengths of both LLMs and Tool-augmented LLMs. IMP-TIP follows the ``From Good to Great" concept, collecting multiple potential solutions from both LLMs and their Tool-Augmented counterparts for the same math problem, and then selecting or re-generating the most accurate answer after cross-checking these solutions via tool-augmented interleaf prompting. The framework incorporates two key aspects: self-prompt and tool-augmented interleaf prompting (TIP). The former allows LLMs to autonomously refine and improve an initial prompt related to tool usage, while the latter enables LLMs to derive the final answer by dynamically analyzing the problem, cross-checking potential solutions, and revising previous reasoning hints in an interleaved manner. Experimental analysis shows that IMP-TIP achieves enhanced mathematical capabilities and outperforms traditional LLMs and tool-augmented LLMs in accuracy and reasoning diversity on math reasoning tasks. For instance, IMP-TIP can improve Tool-augmented ChatGPT on GSM8K-Hard from 56.0% to 65.2%.
翻訳日:2024-01-15 08:44:25 公開日:2023-12-18
# 半自家研削ミルスループット予測のための遺伝的プログラムの改良

An improved genetic programming for predicting semi autogenous grinding mill throughput ( http://arxiv.org/abs/2401.05382v1 )

ライセンス: Link先を確認
Zahra Ghasemi, Frank Neumann, Max Zanin, John Karageorgos, Lei Chen(参考訳) 半自動研削(SAG)ミルは、鉱物加工プラントの研削回路において重要な役割を担っている。 重要な性能指標として, SAGミルスループットの正確な予測が重要である。 従来,SAGミルスループット予測のための実験モデルが開発されてきたが,機械学習(ML)技術の適用の可能性はまだ未検討である。 高価で時間を要する実験データに依存する経験的モデリングとは異なり、ML技術は通常の操作中に収集されたデータを利用することができる。 遺伝的プログラミング(GP)は、正確なミルスループット予測のための透明な方程式を提供することの利点を提供するML手法の1つである。 本研究は,sagミルのスループット予測へのgpの適用を考察し,予測性能を向上させるために5つの新しいgp変種を導入する。 これらの変種は、トレーニングデータの特定のクラスタのミルスループットを正確に予測する複数の方程式を抽出する。 これらの方程式は、様々な手法でテストデータのミルスループットを予測するために用いられる。 新しいGP変種に対する距離測定の効果を評価するために、4つの異なる距離測度を用いる。 比較分析の結果、新しいgp変種は予測精度が平均12.49%向上した。 距離測定のさらなる調査は、ユークリッド距離測定がデータ分割の大多数に対して最も正確な結果をもたらすことを示している。 さらに、最も正確な新しいGP変種は全ての方程式を考慮し、最終予測を計算する際に、各データクラスタ内のデータポイントの数とクラスタ間距離の両方を組み込む。 本研究で開発されたGP変種は, 鉱物処理プラントにおけるSAGミルスループットをモデル化するための精度, 透明性, 費用対効果を示す。

Semi-autogenous grinding (SAG) mills play a pivotal role in the grinding circuit of mineral processing plants. Accurate prediction of SAG mill throughput as a crucial performance metric is of utmost importance. While empirical models have been developed in previous studies for SAG mill throughput prediction, the potential of applying machine learning (ML) techniques for this purpose remains underexplored. Unlike empirical modelling, which relies on expensive and time-consuming experimental data, ML techniques can utilize data collected during regular operations. Genetic programming (GP) is one of ML techniques that offers the advantage of providing a transparent equation for precise mill throughput prediction. This study explores the application of GP to predict SAG mill throughput and introduces five new GP variants to enhance prediction performance. These variants extract multiple equations, each accurately predicting mill throughput for specific clusters of training data. These equations are then employed to predict mill throughput for test data using various approaches. To assess the effect of distance measures on the new GP variants, four different distance measures are employed. Comparative analysis reveals that the new GP variants achieve an average improvement of 12.49% in prediction accuracy. Further investigation of distance measures indicates that the Euclidean distance measure yields the most accurate results for the majority of data splits. Additionally, the most precise new GP variant considers all equations and incorporates both the number of data points in each data cluster and the distance to clusters when calculating the final prediction. The developed GP variants in this study present a precise, transparent, and cost-effective approach for modelling SAG mill throughput in mineral processing plants.
翻訳日:2024-01-15 08:43:59 公開日:2023-12-18
# 直交プロジェクタ拡張波法による時間依存密度汎関数理論

Time-Dependent Density Functional Theory with the Orthogonal Projector Augmented Wave Method ( http://arxiv.org/abs/2312.14179v1 )

ライセンス: Link先を確認
Minh Nguyen, Tim Duong, Daniel Neuhauser(参考訳) Bl\"ochlのプロジェクタ拡張波(PAW)法は、滑らかな擬似波動関数を高振動性全電子DFT軌道にマッピングする。 ノルム保存擬ポテンシャル(NCPP)と比較して、PAWは非直交波動関数の解法を犠牲にして、より低い運動エネルギーカットオフとより大きなグリッド間隔の利点を持つ。 我々は,直交波動関数を必要とする場合にPAWを使用できる直交波動PAW(OPAW)を開発した。 OPAWでは、擬似波動関数は、NCPP法と比較して本質的に余分なコストを伴わないPAWオーバーラップ演算子の効率よく適用することで変換される。 従来, OPAW を DFT に適用した。 本稿では,リアルタイム時間依存(TD)DFTで実装することで,OPAWをポストDFTで実現可能にする第一歩とする。 4階のルンゲ・クッタを用いて様々な有機分子と生物分子の吸収スペクトルの計算を行い、従来のNCPP-TDDFT計算で用いられる0.4-0.5ボーアではなく、OPAW-TDDFTの0.6-0.8ボーアであることを示す。 これにより、メモリと伝搬コストを最大5.5%削減できる。 本手法は,GWやBSEなどの時間依存性の伝搬を必要とするポストDFT法に直接適用可能である。

The projector augmented wave (PAW) method of Bl\"ochl linearly maps smooth pseudo wavefunctions to the highly oscillatory all-electron DFT orbitals. Compared to norm-conserving pseudopotentials (NCPP), PAW has the advantage of lower kinetic energy cutoffs and larger grid spacings at the cost of having to solve for non-orthogonal wavefunctions. We earlier developed orthogonal PAW (OPAW) to allow the use of PAW when orthogonal wavefunctions are required. In OPAW, the pseudo wavefunctions are transformed through the efficient application of powers of the PAW overlap operator with essentially no extra cost compared to NCPP methods. Previously, we applied OPAW to DFT. Here, we take the first step to make OPAW viable for post-DFT methods by implementing it in real-time time-dependent (TD) DFT. Using fourth-order Runge-Kutta for the time-propagation, we compare calculations of absorption spectra for various organic and biological molecules and show that very large grid spacings are sufficient, 0.6-0.8 Bohr in OPAW-TDDFT rather than the 0.4-0.5 Bohr used in traditional NCPP-TDDFT calculations. This reduces the memory and propagation costs by up to a factor of 5. Our method would be directly applicable to any post-DFT methods that require time-dependent propagations such as GW and BSE.
翻訳日:2023-12-31 03:46:54 公開日:2023-12-18
# UAVネットワークにおけるコンテンツ提供のためのマルチタスク帯域学習

Multi-Armed Bandit Learning for Content Provisioning in Network of UAVs ( http://arxiv.org/abs/2312.14967v1 )

ライセンス: Link先を確認
Amit Kumar Bhuyan, Hrishikesh Dutta, and Subir Biswas(参考訳) 本稿では,無人航空機(UAV)による通信災害時のコンテンツ管理システムを提案する。 このようなシナリオでは、セルラーインフラストラクチャがなければ、スタティックとトラベルのuavのハイブリッドネットワークを使用して、立ち往生したユーザのコミュニティが状況クリティカルなコンテンツにアクセスできるようになる。 比較的静的なアンカーUAVは、中央サーバからコンテンツをダウンロードし、ローカルユーザーへのコンテンツアクセスを提供する。 より広い移動性を持つ空母UAVのセットは、異なるユーザコミュニティを訪れながら、異なるアンカーUAVにまたがってコンテンツを供給することができる。 本研究の目的は,コンテンツ利用率を最大化するためのコンテンツキャッシュポリシをオンザフライで学習するコンテンツ配信システムの設計である。 本稿では,UAVキャッシュ決定のための分散型Top-k Multi-Armed Bandit Learningモデルを提案する。 提案手法は,UAVにおけるキャッシュ決定のために,期待される報酬最大化属性とTop-k Multi-Armed Banditの多次元報酬構造を組み合わせることができる。 本研究は,ユーザ指定の耐久アクセス遅延,不均一な人気分布,コミュニティ間地理的特性について検討した。 提案するキャッシングフレームワークの機能検証と性能評価は,ネットワークサイズ,uav分布,コンテンツ人気など幅広い範囲で実施されている。

This paper proposes an unmanned aerial vehicle (UAV) aided content management system in communication-challenged disaster scenarios. Without cellular infrastructure in such scenarios, community of stranded users can be provided access to situation-critical contents using a hybrid network of static and traveling UAVs. A set of relatively static anchor UAVs can download content from central servers and provide content access to its local users. A set of ferrying UAVs with wider mobility can provision content to users by shuffling them across different anchor UAVs while visiting different communities of users. The objective is to design a content dissemination system that on-the-fly learns content caching policies for maximizing content availability to the stranded users. This paper proposes a decentralized Top-k Multi-Armed Bandit Learning model for UAV-caching decision-making that takes geo-temporal differences in content popularity and heterogeneity in content demands into consideration. The proposed paradigm is able to combine the expected reward maximization attribute and a proposed multi-dimensional reward structure of Top-k Multi-Armed Bandit, for caching decision at the UAVs. This study is done for different user-specified tolerable access delay, heterogeneous popularity distributions, and inter-community geographical characteristics. Functional verification and performance evaluation of the proposed caching framework is done for a wide range of network size, UAV distribution, and content popularity.
翻訳日:2023-12-31 03:13:23 公開日:2023-12-18
# 動的構文マッピング:教師なし構文解析への新しいアプローチ

Dynamic Syntax Mapping: A New Approach to Unsupervised Syntax Parsing ( http://arxiv.org/abs/2312.14966v1 )

ライセンス: Link先を確認
Buvarp Gohsh, Woods Ali, Anders Michael(参考訳) 構文の複雑な階層構造は、人間の言語の複雑で体系的な性質の基本である。 本研究では,言語モデル,特に注意分布が構文依存をカプセル化できるという前提について検討する。 動的構文マッピング(dsm)は,これらの構造を無依存に誘導するための革新的な手法である。 本手法は,事前定義されたアノテーションスキーマに依存する従来の構文モデルから分岐する。 代わりに、依存関係に固有のコア特性である構文置換性に焦点を当てる。 この概念は、依存の両端にある同じ構文圏内の単語の交換可能性を指す。 この特性を利用することで、構文的に不変な文の集合を生成し、解析フレームワークの基礎となる。 本研究により, 自然言語データの解析精度が向上することが明らかとなった。 具体的には,長期にわたる主観的合意の文脈において,DSMは従来の方法論よりも顕著に進歩している。 さらに、DSMの適応性は、様々な解析シナリオにおける成功例を通じて示され、幅広い適用性を示している。

The intricate hierarchical structure of syntax is fundamental to the intricate and systematic nature of human language. This study investigates the premise that language models, specifically their attention distributions, can encapsulate syntactic dependencies. We introduce Dynamic Syntax Mapping (DSM), an innovative approach for the agnostic induction of these structures. Our method diverges from traditional syntax models which rely on predefined annotation schemata. Instead, we focus on a core characteristic inherent in dependency relations: syntactic substitutability. This concept refers to the interchangeability of words within the same syntactic category at either end of a dependency. By leveraging this property, we generate a collection of syntactically invariant sentences, which serve as the foundation for our parsing framework. Our findings reveal that the use of an increasing array of substitutions notably enhances parsing precision on natural language data. Specifically, in the context of long-distance subject-verb agreement, DSM exhibits a remarkable advancement over prior methodologies. Furthermore, DSM's adaptability is demonstrated through its successful application in varied parsing scenarios, underscoring its broad applicability.
翻訳日:2023-12-31 03:13:00 公開日:2023-12-18
# AIXIエージェントの動的知識注入

Dynamic Knowledge Injection for AIXI Agents ( http://arxiv.org/abs/2312.16184v1 )

ライセンス: Link先を確認
Samuel Yang-Zhao, Kee Siong Ng, and Marcus Hutter(参考訳) 一般強化学習のためのベイズ最適性の概念である AIXI の事前近似は、a-priori の定義したモデルを用いて AIXI のベイズ環境モデルを近似することができる。 これは、事前定義されたモデルクラスにおける体系的バイアスの存在を、環境からより多くのデータを集めるだけで解決できない設定において、エージェントにとって、疫学的な不確実性の根源である。 我々は,新しい候補モデルによるエージェントの追加知識がオンラインの方法で人間のオペレータからもたらされる環境を考えることで,ヒューマン・aiチームという文脈でこの問題に対処した。 本稿では,ヘッジアルゴリズムの変種から構築した時間適応前処理により,モデル群を動的に変化させるベイズ混合を正確に維持するdynamichedgeaixiという新しいエージェントを提案する。 DynamicHedgeAIXIエージェントは、現在知られているAIXIの最もリッチな直接近似であり、優れたパフォーマンス保証を備えている。 コンタクトネットワークにおける流行制御の実験結果は,エージェントの実用性を検証する。

Prior approximations of AIXI, a Bayesian optimality notion for general reinforcement learning, can only approximate AIXI's Bayesian environment model using an a-priori defined set of models. This is a fundamental source of epistemic uncertainty for the agent in settings where the existence of systematic bias in the predefined model class cannot be resolved by simply collecting more data from the environment. We address this issue in the context of Human-AI teaming by considering a setup where additional knowledge for the agent in the form of new candidate models arrives from a human operator in an online fashion. We introduce a new agent called DynamicHedgeAIXI that maintains an exact Bayesian mixture over dynamically changing sets of models via a time-adaptive prior constructed from a variant of the Hedge algorithm. The DynamicHedgeAIXI agent is the richest direct approximation of AIXI known to date and comes with good performance guarantees. Experimental results on epidemic control on contact networks validates the agent's practical utility.
翻訳日:2023-12-31 03:00:25 公開日:2023-12-18
# 人工知能によるグローバル気象予報システムの実現に向けて

Towards an End-to-End Artificial Intelligence Driven Global Weather Forecasting System ( http://arxiv.org/abs/2312.12462v1 )

ライセンス: Link先を確認
Kun Chen, Lei Bai, Fenghua Ling, Peng Ye, Tao Chen, Kang Chen, Tao Han, Wanli Ouyang(参考訳) 気象予報システムは科学・社会にとって重要であり,中距離気象予報に人工知能(AI)を適用する上で重要な成果が得られた。 しかし、既存のaiベースの天気予報モデルは、従来の数値気象予報(nwp)システムからの分析や再分析を初期条件として頼りにしており、完全に独立したシステムになることを防いでいる。 エンド・ツー・エンドの気象予報システムの重要な構成要素として、データ同化は予測のための初期状態の生成に不可欠である。 本稿では,地球規模の気象変動に対するAIに基づくデータ同化モデル,すなわちアダス(Adas)を提案する。 既存の同化法とは異なり、adasはゲート畳み込みモジュール(gated convolution module)を使用してスパース観測を処理し、ゲートクロスアテンションモジュール(gated cross-attention module)を使用して観測と背景の相互作用を効率的に捉える。 次に、AdasをAIベースの高度な天気予報モデル(FengWu)と組み合わせ、AIベースの世界天気予報システムであるFengWu-Adasを構築する。 実験により、Adasは1年間のシミュレーションを通じて、シミュレーションされた地球観測とAI生成した背景を同化し、周期的に安定して高品質な分析を生成できることが示されている。 その結果,7日間の天気予報において,fengwu-adasは熟練した性能を示し,統合予報システム(ifs)を上回った。

The weather forecasting system is important for science and society, and significant achievements have been made in applying artificial intelligence (AI) to medium-range weather forecasting. However, existing AI-based weather forecasting models still rely on analysis or reanalysis products from the traditional numerical weather prediction (NWP) systems as initial conditions for making predictions, preventing them from being fully independent systems. As a crucial component of an end-to-end global weather forecasting system, data assimilation is vital in generating initial states for forecasting. In this paper, we present an AI-based data assimilation model, i.e., Adas, for global weather variables, which learns to generate the analysis from the background and sparse observations. Different from existing assimilation methods, Adas employs the gated convolution module to handle sparse observations and the gated cross-attention module for capturing the interactions between observations and background efficiently, which are guided by the confidence matrix to represent the availability and quality of observations. Then, we combine Adas with the advanced AI-based weather forecasting model (i.e., FengWu) and construct the first end-to-end AI-based global weather forecasting system: FengWu-Adas. Experiments demonstrate that Adas can assimilate the simulated global observations with the AI-generated background through a one-year simulation and generate high-quality analysis stably in a cyclic manner. Based on the generated analysis, FengWu-Adas exhibits skillful performance and outperforms the Integrated Forecasting System (IFS) in weather forecasting over seven days.
翻訳日:2023-12-21 18:40:55 公開日:2023-12-18
# 少数ショット分類のための表データのシリアライズ

Towards Better Serialization of Tabular Data for Few-shot Classification ( http://arxiv.org/abs/2312.12464v1 )

ライセンス: Link先を確認
Sukriti Jaitly, Tanay Shah, Ashish Shugani, Razik Singh Grewal(参考訳) 本稿では,表型データ分類における大規模言語モデル(llm)の統合について検討し,効率的なフレームワークを強調する。 既存のTabLLM(arXiv:2210.10723)をベースとして,LaTeXシリアライゼーション手法を含む3つの新しいシリアライゼーション手法を導入する。 本手法は,ドメイン固有のデータセットの処理におけるLCMの性能を大幅に向上させ,そのメモリ効率と複雑なデータ構造を十分に活用する能力に注目する。 機能の組み合わせや重要性といった様々なシリアライズアプローチを含む広範な実験を通じて、従来のモデルよりも精度と効率が優れていることを示す。

We present a study on the integration of Large Language Models (LLMs) in tabular data classification, emphasizing an efficient framework. Building upon existing work done in TabLLM (arXiv:2210.10723), we introduce three novel serialization techniques, including the standout LaTeX serialization method. This method significantly boosts the performance of LLMs in processing domain-specific datasets, Our method stands out for its memory efficiency and ability to fully utilize complex data structures. Through extensive experimentation, including various serialization approaches like feature combination and importance, we demonstrate our work's superiority in accuracy and efficiency over traditional models.
翻訳日:2023-12-21 18:23:32 公開日:2023-12-18
# open vocabulary semantic scene sketch understanding"に完全一致する

Open Vocabulary Semantic Scene Sketch Understanding ( http://arxiv.org/abs/2312.12463v1 )

ライセンス: Link先を確認
Ahmed Bourouis, Judith Ellen Fan, Yulia Gryaditskaya(参考訳) 抽象的フリーハンドシーンスケッチの機械理解における未熟だが基本的なビジョン問題について検討する。 本稿では,特徴空間を意味的に認識するスケッチエンコーダを導入し,その性能を意味的スケッチセグメンテーションタスクでテストすることで評価する。 モデルをトレーニングするには、短いキャプションでビットマップスケッチが利用できることのみに依存し、ピクセルレベルのアノテーションを必要としない。 スケッチやカテゴリの集合を一般化するために、CLIPモデルで事前訓練されたビジョントランスフォーマーエンコーダを構築した。 我々は、テキストエンコーダを凍結し、視覚エンコーダブランチの視覚的プロンプトチューニングを行い、重要な修正を施した。 まず,従来のキークエリ(k-q)自己アテンションブロックを値値(v-v)自己アテンションブロックで拡張する。 我々のモデルの中心は、効率的なセマンティックな絡み合いを可能にする2階層の階層型ネットワーク設計である: 第一レベルは、全体論的シーンのスケッチエンコーディングを確実にし、第二レベルは、個々のカテゴリに焦点を当てる。 そして、階層の第2のレベルにおいて、テキストと視覚の分岐を相互に関連付けます。 提案手法は,セグメンテーション結果のゼロショットCLIP画素精度を37ポイント向上させ,FS-COCOスケッチデータセットの精度を85.5\%とした。 最後に,シーンスケッチの機械的理解と人間的理解を両立させるため,提案手法のさらなる改善が求められるユーザスタディを実施する。

We study the underexplored but fundamental vision problem of machine understanding of abstract freehand scene sketches. We introduce a sketch encoder that results in semantically-aware feature space, which we evaluate by testing its performance on a semantic sketch segmentation task. To train our model we rely only on the availability of bitmap sketches with their brief captions and do not require any pixel-level annotations. To obtain generalization to a large set of sketches and categories, we build on a vision transformer encoder pretrained with the CLIP model. We freeze the text encoder and perform visual-prompt tuning of the visual encoder branch while introducing a set of critical modifications. Firstly, we augment the classical key-query (k-q) self-attention blocks with value-value (v-v) self-attention blocks. Central to our model is a two-level hierarchical network design that enables efficient semantic disentanglement: The first level ensures holistic scene sketch encoding, and the second level focuses on individual categories. We, then, in the second level of the hierarchy, introduce a cross-attention between textual and visual branches. Our method outperforms zero-shot CLIP pixel accuracy of segmentation results by 37 points, reaching an accuracy of $85.5\%$ on the FS-COCO sketch dataset. Finally, we conduct a user study that allows us to identify further improvements needed over our method to reconcile machine and human understanding of scene sketches.
翻訳日:2023-12-21 18:23:19 公開日:2023-12-18
# マルチプレイヤーゲームにおけるナッシュ平衡計算のための架空のプレイの実証分析

Empirical Analysis of Fictitious Play for Nash Equilibrium Computation in Multiplayer Games ( http://arxiv.org/abs/2001.11165v8 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) 架空の遊びは、2人プレイのゼロサムゲームのような特定のゲームクラスでナッシュ均衡に収束することが保証されているが、ノンゼロサムゲームやマルチプレイヤーゲームでは収束することが保証されていない。 近年,多人数ポーカー用のスーパーヒューマンプレイを制作した(現実的)後悔最小化よりも,現実的なプレイは,様々なゲームクラスやサイズに対してナッシュ均衡近似を改善することが示されている。 また、架空の遊びがランダムな初期化を使って数回実行されると、シャプリーの古典的な反例を含む標準版が収束しないことが分かっているいくつかの既知の課題を解決できることを示した。 これらは、最悪の理論的な結果が否定的であるにもかかわらず、これらの設定で架空の遊びに最初にポジティブな結果をもたらす。

While fictitious play is guaranteed to converge to Nash equilibrium in certain game classes, such as two-player zero-sum games, it is not guaranteed to converge in non-zero-sum and multiplayer games. We show that fictitious play in fact leads to improved Nash equilibrium approximation over a variety of game classes and sizes than (counterfactual) regret minimization, which has recently produced superhuman play for multiplayer poker. We also show that when fictitious play is run several times using random initializations it is able to solve several known challenge problems in which the standard version is known to not converge, including Shapley's classic counterexample. These provide some of the first positive results for fictitious play in these settings, despite the fact that worst-case theoretical results are negative.
翻訳日:2023-12-21 03:55:25 公開日:2023-12-18
# ブラインド逆問題に対する適応再構成ネットワークの学習

Training Adaptive Reconstruction Networks for Blind Inverse Problems ( http://arxiv.org/abs/2202.11342v3 )

ライセンス: Link先を確認
Alban Gossard (IMT), Pierre Weiss (IRIT, CBI)(参考訳) ニューラルネットワークは、前例のないパフォーマンスで多くの不適切な逆問題を解くことができる。 物理インフォームドアプローチは、実アプリケーションで注意深い手作りの再構成アルゴリズムを、すでに段階的に置き換えている。 しかし、これらのネットワークには大きな欠陥があり、与えられたフォワードオペレータでトレーニングされた場合、それらは異なるものにうまく一般化しない。 この論文の目的は二つある。 First, we show through various applications that training the network with a family of forward operators allows solving the adaptivity problem without compromising the reconstruction quality significantly.Second, we illustrate that this training procedure allows tackling challenging blind inverse problems.Our experiments include partial Fourier sampling problems arising in magnetic resonance imaging (MRI) with sensitivity estimation and off-resonance effects, computerized tomography (CT) with a tilted geometry and image deblurring with Fresnel diffraction kernels.

Neural networks allow solving many ill-posed inverse problems with unprecedented performance. Physics informed approaches already progressively replace carefully hand-crafted reconstruction algorithms in real applications. However, these networks suffer from a major defect: when trained on a given forward operator, they do not generalize well to a different one. The aim of this paper is twofold. First, we show through various applications that training the network with a family of forward operators allows solving the adaptivity problem without compromising the reconstruction quality significantly.Second, we illustrate that this training procedure allows tackling challenging blind inverse problems.Our experiments include partial Fourier sampling problems arising in magnetic resonance imaging (MRI) with sensitivity estimation and off-resonance effects, computerized tomography (CT) with a tilted geometry and image deblurring with Fresnel diffraction kernels.
翻訳日:2023-12-21 03:52:25 公開日:2023-12-18
# FedGCN:グラフ畳み込みネットワークのフェデレーショントレーニングにおける収束通信トレードオフ

FedGCN: Convergence-Communication Tradeoffs in Federated Training of Graph Convolutional Networks ( http://arxiv.org/abs/2201.12433v7 )

ライセンス: Link先を確認
Yuhang Yao, Weizhao Jin, Srivatsan Ravi, Carlee Joe-Wong(参考訳) 複数のクライアントに分散したグラフのモデルをトレーニングするための方法は、最近人気が高まっている。 しかし、クライアント間のエッジはクライアント間で自然に存在する。 したがって、単一のグラフ上でモデルをトレーニングするための分散手法は、クライアント間の重要な通信オーバーヘッドか、トレーニングに利用可能な情報の損失を伴います。 我々は、フェデレートグラフ畳み込みネットワーク(FedGCN)アルゴリズムを導入し、フェデレーション学習を用いて、高速収束と通信の少ない半教師付きノード分類のためのGCNモデルを訓練する。 各トレーニングラウンドでクライアント間の余分な通信を必要とする従来の方法と比較して、FedGCNクライアントはトレーニング前のステップで中央サーバとのみ通信し、通信コストを大幅に削減し、同型暗号化を使用することでプライバシーをさらに強化する。 我々は,FedGCNの収束率とデータ分散の異なる通信コストのトレードオフを理論的に解析する。 実験の結果,fedgcnアルゴリズムは,平均51.7%の収束速度と,少なくとも100倍の通信速度で,モデル精度が向上した。

Methods for training models on graphs distributed across multiple clients have recently grown in popularity, due to the size of these graphs as well as regulations on keeping data where it is generated. However, the cross-client edges naturally exist among clients. Thus, distributed methods for training a model on a single graph incur either significant communication overhead between clients or a loss of available information to the training. We introduce the Federated Graph Convolutional Network (FedGCN) algorithm, which uses federated learning to train GCN models for semi-supervised node classification with fast convergence and little communication. Compared to prior methods that require extra communication among clients at each training round, FedGCN clients only communicate with the central server in one pre-training step, greatly reducing communication costs and allowing the use of homomorphic encryption to further enhance privacy. We theoretically analyze the tradeoff between FedGCN's convergence rate and communication cost under different data distributions. Experimental results show that our FedGCN algorithm achieves better model accuracy with 51.7% faster convergence on average and at least 100X less communication compared to prior work.
翻訳日:2023-12-21 03:51:51 公開日:2023-12-18
# 静止時の機能的脳ネットワークの持続的状態空間推定

Persistent Homological State-Space Estimation of Functional Human Brain Networks at Rest ( http://arxiv.org/abs/2201.00087v4 )

ライセンス: Link先を確認
Moo K. Chung, Shih-Gu Huang, Ian C. Carroll, Vince D. Calhoun, H. Hill Goldsmith(参考訳) 人間の機能的脳ネットワークを動的に変化する状態空間を推定するための新しいデータ駆動トポロジカルデータ分析(TDA)手法を提案する。 このアプローチは,脳ネットワークを動的にトポロジカルな状態に変えるネットワークとクラスタ間のトポロジカル距離をペナルティ化する。 本手法は,ネットワーク間のwasserstein距離を通じて,データの時間次元を考慮に入れる。 本手法は,脳ネットワークの状態空間推定によく用いられるk-meansクラスタリングよりも優れることを示す。 機能的脳ネットワークを動的に変化する状態空間をより正確に決定するために,本手法を適用した。 その後,脳ネットワーク全体のトポロジが,ツインスタディデザインを用いた遺伝学的特徴であるかどうかという課題に対処する。 メソッドのMATLABコードはhttps://github.com/laplcebeltrami/PH-STATで公開されている。

We present a new data driven topological data analysis (TDA) approach for estimating state spaces in dynamically changing human functional brain networks of human. Our approach penalizes the topological distance between networks and clusters dynamically changing brain networks into topologically distinct states. Our method takes into account the temporal dimension of the data through the Wasserstein distance between networks. Our method is shown to outperform the widely used k-means clustering often used in estimating the state space in brain networks. The method is applied to more accurately determine the state spaces of dynamically changing functional brain networks. Subsequently, we address the question of whether the overall topology of brain networks is a heritable feature using the twin study design. MATLAB code for the method is available at https://github.com/laplcebeltrami/PH-STAT.
翻訳日:2023-12-21 03:51:00 公開日:2023-12-18
# $\ell_0$-norm正規化と重み打ちによるニューラルネットワークの圧縮について

On the Compression of Neural Networks Using $\ell_0$-Norm Regularization and Weight Pruning ( http://arxiv.org/abs/2109.05075v3 )

ライセンス: Link先を確認
Felipe Dennis de Resende Oliveira, Eduardo Luiz Ortiz Batista, Rui Seara(参考訳) 高容量の計算プラットフォームが利用可能になったにもかかわらず、実装の複雑さは、ニューラルネットワークの現実的な展開にとって、依然として大きな関心事となっている。 この懸念は、最先端のネットワークアーキテクチャの膨大なコストによるものではなく、エッジインテリジェンスへの最近の取り組みや、組み込みアプリケーションにおけるニューラルネットワークの利用によるものだ。 この文脈において、ネットワーク圧縮技術は、十分なレベルの推論精度を維持しながら、デプロイメントコストを削減できることから、関心を集めている。 本稿では,ニューラルネットワークのための新しい圧縮スキームの開発に焦点をあてる。 この目的のために、まず、トレーニング中にネットワークの強いスパースを誘発できる新しい形式の$\ell_0$-normベースの正規化が開発される。 そして、訓練されたネットワークのより小さな重みをプルーニング技術で狙うことにより、より小さいが高効率なネットワークが得られる。 提案手法では、オーバーフィッティングを回避するために$\ell_2$-norm正規化と、プルーンドネットワークの性能向上のための微調整も行う。 提案手法の有効性と競合する手法との比較を目的とした実験結果を示す。

Despite the growing availability of high-capacity computational platforms, implementation complexity still has been a great concern for the real-world deployment of neural networks. This concern is not exclusively due to the huge costs of state-of-the-art network architectures, but also due to the recent push towards edge intelligence and the use of neural networks in embedded applications. In this context, network compression techniques have been gaining interest due to their ability for reducing deployment costs while keeping inference accuracy at satisfactory levels. The present paper is dedicated to the development of a novel compression scheme for neural networks. To this end, a new form of $\ell_0$-norm-based regularization is firstly developed, which is capable of inducing strong sparseness in the network during training. Then, targeting the smaller weights of the trained network with pruning techniques, smaller yet highly effective networks can be obtained. The proposed compression scheme also involves the use of $\ell_2$-norm regularization to avoid overfitting as well as fine tuning to improve the performance of the pruned network. Experimental results are presented aiming to show the effectiveness of the proposed scheme as well as to make comparisons with competing approaches.
翻訳日:2023-12-21 03:49:03 公開日:2023-12-18
# 相対的事実」の批判的な分析は存在しない。 関係量子力学は、jay lawrence, marcin markiewicz, marek \'{z}ukowskiによる「量子力学とは相容れない」

A critical analysis of `Relative facts do not exist. Relational quantum mechanics is incompatible with quantum mechanics' by Jay Lawrence, Marcin Markiewicz and Marek \'{Z}ukowski ( http://arxiv.org/abs/2209.01237v3 )

ライセンス: Link先を確認
Aur\'elien Drezet(参考訳) Jによる最近の研究について論じる。 原題はLawrence et al。 [arxiv.org/abs/2208.11793] はリレーショナル量子力学 (RQM) を批判し、有名な非局所性定理に基づく。 ここでは、最近の研究で示された主張が不当であることを示し、分析を軽視する。

We discuss a recent work by J.~Lawrence et al.[arxiv.org/abs/2208.11793] criticizing relational quantum mechanics (RQM) and based on a famous nonlocality theorem Going back to Greenberger Horne and Zeilinger (GHZ). Here, we show that the claims presented in this recent work are unjustified and we debunk the analysis.
翻訳日:2023-12-21 03:41:58 公開日:2023-12-18
# G2P-DDM:離散拡散モデルによるグロース系列からの符号列生成

G2P-DDM: Generating Sign Pose Sequence from Gloss Sequence with Discrete Diffusion Model ( http://arxiv.org/abs/2208.09141v3 )

ライセンス: Link先を確認
Pan Xie, Qipeng Zhang, Taiyi Peng, Hao Tang, Yao Du, Zexian Li(参考訳) Sign Language Production (SLP)プロジェクトは、音声言語を手話列に変換することを目的としている。 本手法は,手話列を対応する手話列(G2P)に変換することに焦点を当てる。 本稿では,連続的なポーズ空間生成問題を離散列生成問題に変換することにより,この課題に対する新しい解を提案する。 本稿では,変分オートエンコーダ(VAE)とベクトル量子化を組み合わせた連続ポーズ列の離散潜在表現を生成するPose-VQVAEフレームワークを提案する。 さらに,遅延先をモデル化するために,長さ可変離散列データに対する離散分別拡散アーキテクチャであるg2p-ddmモデルを提案する。 離散空間におけるポーズ列生成の質をさらに高めるため,空間-時空間情報を活用するコーディネートモデルを提案する。 最後に,対応する用語列に対するポーズ列の可変長を予測できるヒューリスティック・シーケンシャルクラスタリング法を開発した。 以上の結果から,我々のモデルは,公共SLP評価ベンチマークにおいて最先端のG2Pモデルよりも優れていた。 より生成された結果については、プロジェクトページをご覧ください。 \textcolor{blue}{\url{https://slpdiffusier.github.io/g2p-ddm}}

The Sign Language Production (SLP) project aims to automatically translate spoken languages into sign sequences. Our approach focuses on the transformation of sign gloss sequences into their corresponding sign pose sequences (G2P). In this paper, we present a novel solution for this task by converting the continuous pose space generation problem into a discrete sequence generation problem. We introduce the Pose-VQVAE framework, which combines Variational Autoencoders (VAEs) with vector quantization to produce a discrete latent representation for continuous pose sequences. Additionally, we propose the G2P-DDM model, a discrete denoising diffusion architecture for length-varied discrete sequence data, to model the latent prior. To further enhance the quality of pose sequence generation in the discrete space, we present the CodeUnet model to leverage spatial-temporal information. Lastly, we develop a heuristic sequential clustering method to predict variable lengths of pose sequences for corresponding gloss sequences. Our results show that our model outperforms state-of-the-art G2P models on the public SLP evaluation benchmark. For more generated results, please visit our project page: \textcolor{blue}{\url{https://slpdiffusier.github.io/g2p-ddm}}
翻訳日:2023-12-21 03:41:28 公開日:2023-12-18
# 条件付き勾配ホモトピー法と半定義型プログラミングへの応用

A conditional gradient homotopy method with applications to Semidefinite Programming ( http://arxiv.org/abs/2207.03101v2 )

ライセンス: Link先を確認
Pavel Dvurechensky, Shimrit Shtern, Mathias Staudigl(参考訳) 本稿では,単純円錐制約を多数有する凸最適化問題を解くためのホモトピーに基づく条件勾配法を提案する。 このテンプレートのインスタンスは、組合せ最適化問題の凸緩和に起因する半定値プログラミング問題に自然に現れる。 本手法は,円錐制約を自己協和障壁を介して処理する二重ループアルゴリズムであり,内部ループは解析中心経路を近似するために条件勾配アルゴリズムを用い,外ループは時間解とホモトピーパラメータに課される精度を更新する。 我々の理論的な反復の複雑さは、最先端のSDPソルバに直面すると競合する。 本手法の実用性を示すための予備的な数値実験を行う。

We propose a new homotopy-based conditional gradient method for solving convex optimization problems with a large number of simple conic constraints. Instances of this template naturally appear in semidefinite programming problems arising as convex relaxations of combinatorial optimization problems. Our method is a double-loop algorithm in which the conic constraint is treated via a self-concordant barrier, and the inner loop employs a conditional gradient algorithm to approximate the analytic central path, while the outer loop updates the accuracy imposed on the temporal solution and the homotopy parameter. Our theoretical iteration complexity is competitive when confronted to state-of-the-art SDP solvers, with the decisive advantage of cheap projection-free subroutines. Preliminary numerical experiments are provided for illustrating the practical performance of the method.
翻訳日:2023-12-21 03:40:44 公開日:2023-12-18
# Data Banzhaf: 機械学習のためのロバストなデータ評価フレームワーク

Data Banzhaf: A Robust Data Valuation Framework for Machine Learning ( http://arxiv.org/abs/2205.15466v7 )

ライセンス: Link先を確認
Jiachen T. Wang, Ruoxi Jia(参考訳) データバリュエーションには、データ品質の改善やデータ共有のための経済的インセンティブの作成など、マシンラーニングの幅広いユースケースがある。 本稿では,ノイズモデルの性能評価に対するデータ評価の堅牢性について検討する。 特に,広く使われている確率的勾配降下の固有ランダム性は,既存のデータ値概念(例えば,シャプリー値と残欠誤差)を発生させ,異なるランにまたがって一貫性のないデータ値ランキングを生成する。 この課題に対処するために,データ値の概念の堅牢性を測定する安全マージンの概念を導入する。 協調ゲーム理論の文献から派生した有名な値概念であるBanzhaf値が、すべての半値の中で最大の安全性のマージンを達成していることを示す(MLアプリケーションで重要な特性を満足し、有名なShapley値とLeave-outエラーを含む価値概念のクラス)。 本稿では,最大サンプル再利用(MSR)原理に基づいて,Banzhaf値を効率的に推定するアルゴリズムを提案する。 評価の結果,Banzhaf値は,重み付きサンプルを用いた学習や雑音ラベル検出などのMLタスクにおいて,既存の半値に基づくデータ値概念よりも優れていることがわかった。 我々の研究は、基礎となるMLアルゴリズムが確率的である場合、Banzhaf値は、その計算上の優位性とデータ品質を堅牢に区別する能力から、他の半値ベースのデータ値スキームに代わる有望な代替となることを示唆している。

Data valuation has wide use cases in machine learning, including improving data quality and creating economic incentives for data sharing. This paper studies the robustness of data valuation to noisy model performance scores. Particularly, we find that the inherent randomness of the widely used stochastic gradient descent can cause existing data value notions (e.g., the Shapley value and the Leave-one-out error) to produce inconsistent data value rankings across different runs. To address this challenge, we introduce the concept of safety margin, which measures the robustness of a data value notion. We show that the Banzhaf value, a famous value notion that originated from cooperative game theory literature, achieves the largest safety margin among all semivalues (a class of value notions that satisfy crucial properties entailed by ML applications and include the famous Shapley value and Leave-one-out error). We propose an algorithm to efficiently estimate the Banzhaf value based on the Maximum Sample Reuse (MSR) principle. Our evaluation demonstrates that the Banzhaf value outperforms the existing semivalue-based data value notions on several ML tasks such as learning with weighted samples and noisy label detection. Overall, our study suggests that when the underlying ML algorithm is stochastic, the Banzhaf value is a promising alternative to the other semivalue-based data value schemes given its computational advantage and ability to robustly differentiate data quality.
翻訳日:2023-12-21 03:39:21 公開日:2023-12-18
# 正規化フローとカーネル密度推定器を用いたベイズ推論生成物のマージナルポストプロセッシング

Marginal Post Processing of Bayesian Inference Products with Normalizing Flows and Kernel Density Estimators ( http://arxiv.org/abs/2205.12841v5 )

ライセンス: Link先を確認
Harry T. J. Bevins, William J. Handley, Pablo Lemos, Peter H. Sims, Eloy de Lera Acedo, Anastasia Fialkov, Justin Alsing(参考訳) ベイズ解析は、重力波の研究、宇宙マイクロ波背景、宇宙の夜明けからの21cm信号など、多くの異なる宇宙分野において必須のツールとなっている。 この方法は、重要な宇宙学的、天体物理学的な信号と「ニュアサンスパラメーター」でモデル化された一連の汚染信号とインストゥルメンタル効果を記述するデータに複雑なモデルを適合させる方法を提供する。 本稿では,Masked Autoregressive Flows と Kernel Density Estimator を用いて,コア科学パラメータに対応する限界後部密度を学習する手法を要約する。 限界あるいは「ニュアンスフリー」な後部と関連する可能性には、これまで難解であったKulback-Leiblerの発散や、限界ベイズモデル次元の計算、可能性エミュレーション、事前エミュレーションなど、多くの応用がある。 我々は, おもちゃの例, 21cm宇宙論の例, ダークエネルギーサーベイのサンプルを用いて, それぞれのアプリケーションを実演する。 kullback-leibler divergences や bayesian model dimensionalities のような辺縁要約統計を用いて,異なる実験の制約力について検討し,辺縁事前およびラキシブルエミュレータを利用して効率的なジョイント解析を行う方法について検討した。 我々の多目的コードは、より広い科学コミュニティで使用するために、ピップインストール可能なコードマーガリンにパッケージングします。

Bayesian analysis has become an indispensable tool across many different cosmological fields including the study of gravitational waves, the Cosmic Microwave Background and the 21-cm signal from the Cosmic Dawn among other phenomena. The method provides a way to fit complex models to data describing key cosmological and astrophysical signals and a whole host of contaminating signals and instrumental effects modelled with `nuisance parameters'. In this paper, we summarise a method that uses Masked Autoregressive Flows and Kernel Density Estimators to learn marginal posterior densities corresponding to core science parameters. We find that the marginal or 'nuisance-free' posteriors and the associated likelihoods have an abundance of applications including; the calculation of previously intractable marginal Kullback-Leibler divergences and marginal Bayesian Model Dimensionalities, likelihood emulation and prior emulation. We demonstrate each application using toy examples, examples from the field of 21-cm cosmology and samples from the Dark Energy Survey. We discuss how marginal summary statistics like the Kullback-Leibler divergences and Bayesian Model Dimensionalities can be used to examine the constraining power of different experiments and how we can perform efficient joint analysis by taking advantage of marginal prior and likelihood emulators. We package our multipurpose code up in the pip-installable code margarine for use in the wider scientific community.
翻訳日:2023-12-21 03:38:28 公開日:2023-12-18
# Impartial Games:強化学習への挑戦

Impartial Games: A Challenge for Reinforcement Learning ( http://arxiv.org/abs/2205.12787v3 )

ライセンス: Link先を確認
Bei Zhou and S{\o}ren Riis(参考訳) 本稿では,AlphaZero-style reinforcement learning (RL)アルゴリズムが様々なボードゲームで優れている一方で,プレイヤーが駒を共有する公平なゲームでは課題に直面していることを示す。 我々は、alphazero型および類似の自己遊び強化学習アルゴリズムの崩壊ブロックであるように見えるゲーム、すなわちnimの子供向けゲームおよびその他の不公平なゲームの具体例を示す。 我々の研究は、ニューラルネットワークがパリティ関数を学習する能力に関するデータ分散の複雑さによって引き起こされる課題に基づいており、ノイズラベルの問題によって悪化している。 最近の研究では、alphazeroスタイルのアルゴリズムが敵対的攻撃や敵対的摂動に対して脆弱であることを示しており、すべての合法状態においてゲームを習得する学習の難しさを示している。 Nimは小さなボード上で学習できるが、AlphaZeroスタイルのアルゴリズムの学習の進歩は、ボードのサイズが大きくなると劇的に遅くなる。 直感的には、Nim のような公平なゲームと Chess や Go のようなパルチザン的なゲームの違いは、ボードの小さな部分が公平なゲームでカバーされている場合、ある空白位置の可視的な部分とその正しい評価との相関がしばしばゼロであるので、その位置が勝つか失われるかを予測できないという事実によって説明できる。 この状況は、部分的に空白されたボード位置が典型的には、完全な未発見位置の値に関する多量または少なくともノントリフト情報を提供するパルチザンゲームとは対照的である。

While AlphaZero-style reinforcement learning (RL) algorithms excel in various board games, in this paper we show that they face challenges on impartial games where players share pieces. We present a concrete example of a game - namely the children's game of Nim - and other impartial games that seem to be a stumbling block for AlphaZero-style and similar self-play reinforcement learning algorithms. Our work is built on the challenges posed by the intricacies of data distribution on the ability of neural networks to learn parity functions, exacerbated by the noisy labels issue. Our findings are consistent with recent studies showing that AlphaZero-style algorithms are vulnerable to adversarial attacks and adversarial perturbations, showing the difficulty of learning to master the games in all legal states. We show that Nim can be learned on small boards, but the learning progress of AlphaZero-style algorithms dramatically slows down when the board size increases. Intuitively, the difference between impartial games like Nim and partisan games like Chess and Go can be explained by the fact that if a small part of the board is covered for impartial games it is typically not possible to predict whether the position is won or lost as there is often zero correlation between the visible part of a partly blanked-out position and its correct evaluation. This situation starkly contrasts partisan games where a partly blanked-out board position typically provides abundant or at least non-trifle information about the value of the fully uncovered position.
翻訳日:2023-12-21 03:38:01 公開日:2023-12-18
# 豪雨の除去から細部修復まで: より高速でより良いネットワーク

From heavy rain removal to detail restoration: A faster and better network ( http://arxiv.org/abs/2205.03553v3 )

ライセンス: Link先を確認
Yuanbo Wen, Tao Gao, Jing Zhang, Kaihao Zhang and Ting Chen(参考訳) 激しい降雨時の降水量は、画像の質を著しく低下させ、テクスチュラルな詳細が浸食される可能性がある。 豪雨除去に特化している既存の学習手法では改善が見られたが、これらの手法のかなりの割合は複雑な詳細の正確な再構築を見落としている。 本研究では,降雨のない画像の構造的精度を保ちながら,効果的なデライニングを実現することを目的とした,DPENetと呼ばれる単純な2段階プログレッシブエンハンスメントネットワークを提案する。 本手法は,雨害除去ネットワーク(R$^2$Net)と,無雨画像のテクスチャ的詳細を復元する詳細再構成ネットワーク(DRNet)の2つの重要なモジュールから構成される。 まず,r$^2$net 内の拡張密残留ブロック (ddrb) を導入することにより,高レベル・低レベル特徴の集約が可能となる。 次に、拡張残像注目ブロック(ERPAB)をDRNetに統合し、コンテキスト情報の取り込みを容易にする。 また,本手法の信頼性をさらに高めるため,雨のない画像の限界精度と地域精度を強調する総合的損失関数を採用した。 公開ベンチマークで行った広範囲な実験は,提案するdpenetの注目すべき効率性と有効性を示している。 ソースコードと事前訓練されたモデルは、現在 \url{https://github.com/chdwyb/DPENet}で入手できる。

The profound accumulation of precipitation during intense rainfall events can markedly degrade the quality of images, leading to the erosion of textural details. Despite the improvements observed in existing learning-based methods specialized for heavy rain removal, it is discerned that a significant proportion of these methods tend to overlook the precise reconstruction of the intricate details. In this work, we introduce a simple dual-stage progressive enhancement network, denoted as DPENet, aiming to achieve effective deraining while preserving the structural accuracy of rain-free images. This approach comprises two key modules, a rain streaks removal network (R$^2$Net) focusing on accurate rain removal, and a details reconstruction network (DRNet) designed to recover the textural details of rain-free images. Firstly, we introduce a dilated dense residual block (DDRB) within R$^2$Net, enabling the aggregation of high-level and low-level features. Secondly, an enhanced residual pixel-wise attention block (ERPAB) is integrated into DRNet to facilitate the incorporation of contextual information. To further enhance the fidelity of our approach, we employ a comprehensive loss function that accentuates both the marginal and regional accuracy of rain-free images. Extensive experiments conducted on publicly available benchmarks demonstrates the noteworthy efficiency and effectiveness of our proposed DPENet. The source code and pre-trained models are currently available at \url{https://github.com/chdwyb/DPENet}.
翻訳日:2023-12-21 03:36:59 公開日:2023-12-18
# Eat-Radar:FMCWレーダと3次元時間畳み込みネットワークを用いた連続微粒吸入ジェスチャー検出

Eat-Radar: Continuous Fine-Grained Intake Gesture Detection Using FMCW Radar and 3D Temporal Convolutional Network with Attention ( http://arxiv.org/abs/2211.04253v2 )

ライセンス: Link先を確認
Chunzhuo Wang, T. Sunil Kumar, Walter De Raedt, Guido Camps, Hans Hallez, Bart Vanrumste(参考訳) 不健康な食事習慣は肥満や糖尿病など様々な慢性疾患の主要な原因と考えられている。 食品自動摂取モニタリングシステムは、食事アセスメントを通じて、食事関連疾患を有する人々のqolを改善する可能性を秘めている。 本研究では,食品摂取監視のための接触型レーダーを用いた新しいアプローチを提案する。 具体的には、細粒度飲食ジェスチャーを認識するために、周波数変調連続波(fmcw)レーダセンサを用いる。 細粒度の飲食ジェスチャーには、手を挙げてから口から手を離すまでの一連の動きが含まれている。 3D-TCN-Att) を用いた3次元時間畳み込みネットワークを構築し,レンジ・ドップラーキューブ(RDキューブ) の処理により食事中の食事・飲食行動の検出とセグメント分けを行う。 従来のレーダーベースの研究とは異なり、この研究は継続的食事セッション(より現実的なシナリオ)でデータを収集する。 我々は70名の参加者から70名の食事セッション(4,132件の食行動、893件の飲酒行動)を合計1,155分間の公開データセットを作成する。 このデータセットには4種類の食材(フォーク&ナイフ、チョップスティック、スプーン、手)が含まれている。 提案手法の性能を検証するために、7次元クロスバリデーション法を適用した。 3d-tcn-attモデルは、それぞれ摂食と飲食のためのセグメントf1-score 0.896と0.868を達成する。 提案手法は,食品セッションにおける細粒度食と飲酒のジェスチャ検出とセグメンテーションにおけるレーダの利用の可能性を示した。

Unhealthy dietary habits are considered as the primary cause of various chronic diseases, including obesity and diabetes. The automatic food intake monitoring system has the potential to improve the quality of life (QoL) of people with diet-related diseases through dietary assessment. In this work, we propose a novel contactless radar-based approach for food intake monitoring. Specifically, a Frequency Modulated Continuous Wave (FMCW) radar sensor is employed to recognize fine-grained eating and drinking gestures. The fine-grained eating/drinking gesture contains a series of movements from raising the hand to the mouth until putting away the hand from the mouth. A 3D temporal convolutional network with self-attention (3D-TCN-Att) is developed to detect and segment eating and drinking gestures in meal sessions by processing the Range-Doppler Cube (RD Cube). Unlike previous radar-based research, this work collects data in continuous meal sessions (more realistic scenarios). We create a public dataset comprising 70 meal sessions (4,132 eating gestures and 893 drinking gestures) from 70 participants with a total duration of 1,155 minutes. Four eating styles (fork & knife, chopsticks, spoon, hand) are included in this dataset. To validate the performance of the proposed approach, seven-fold cross-validation method is applied. The 3D-TCN-Att model achieves a segmental F1-score of 0.896 and 0.868 for eating and drinking gestures, respectively. The results of the proposed approach indicate the feasibility of using radar for fine-grained eating and drinking gesture detection and segmentation in meal sessions.
翻訳日:2023-12-21 03:30:16 公開日:2023-12-18
# 静的有効リンドブラディアンによるノイズ量子コンピュータの時間進化記述

Describing Trotterized Time Evolutions on Noisy Quantum Computers via Static Effective Lindbladians ( http://arxiv.org/abs/2210.11371v2 )

ライセンス: Link先を確認
Keith R. Fratus, Kirsten Bark, Nicolas Vogt, Juha Lepp\"akangas, Sebastian Zanker, Michael Marthaler, Jan-Michael Reiner(参考訳) 我々は、ノイズの多い量子コンピュータが量子スピンシステムの時間的進化を忠実にシミュレートできる範囲について考察する。 このようなデバイスに作用するノイズを回路レベルでモデル化する方法に関する特定の仮定を考慮し、そのノイズの効果をシミュレーションされた元のシステムの力学の修正として再解釈する方法について述べる。 特に、この修正は、元のユニタリ力学に加えて作用する静的リンドブラッドノイズ項の導入に対応している。 これらのノイズ項の形式は、デバイス上で発生する基礎となるノイズプロセスだけでなく、元のユニタリダイナミクスにも依存し、デバイス上でこれらのダイナミクスがシミュレーションされる方法、すなわち量子アルゴリズムの選択にも依存する。 これを効果的にシミュレートしたオープン量子系をノイズアルゴリズムモデルと呼ぶ。 結果は数値解析により確認した。

We consider the extent to which a noisy quantum computer is able to simulate the time evolution of a quantum spin system in a faithful manner. Given a specific set of assumptions regarding the manner in which noise acting on such a device can be modelled at the circuit level, we show how the effects of noise can be reinterpreted as a modification to the dynamics of the original system being simulated. In particular, we find that this modification corresponds to the introduction of static Lindblad noise terms, which act in addition to the original unitary dynamics. The form of these noise terms depends not only on the underlying noise processes occurring on the device, but also on the original unitary dynamics, as well as the manner in which these dynamics are simulated on the device, i.e., the choice of quantum algorithm. We call this effectively simulated open quantum system the noisy algorithm model. Our results are confirmed through numerical analysis.
翻訳日:2023-12-21 03:28:39 公開日:2023-12-18
# 一次元アノンにおける量子錬金術と普遍直交カタストロフィー

Quantum Alchemy and Universal Orthogonality Catastrophe in One-Dimensional Anyons ( http://arxiv.org/abs/2210.10776v3 )

ライセンス: Link先を確認
Naim E. Mackel, Jing Yang, Adolfo del Campo(参考訳) 中間正準交換統計を持つ多粒子量子系は1つの空間次元で支持される。 この文脈では、anyon-anyonマッピングは、統計パラメータ$\kappa$のシフトを生成する連続変換として再キャストされる。 我々は、$\kappa$の異なる値、すなわち異なる量子統計量に関連する量子状態の幾何学を特徴づける。 ボソニック部分空間とフェルミオン部分空間の状態は常に直交的であるが、エノン状態の間の重なりは一般に有限であり、微視的ハミルトニアンとは独立に、基本統計因子によって制御される直交性カタストロフィーの普遍的な形を示す。 我々は、$\kappa$の流れの量子速度制限を用いてこの減衰を特徴づけ、ハードコア・エノンのモデルで結果を説明し、量子シミュレーションで可能な実験について議論する。

Many-particle quantum systems with intermediate anyonic exchange statistics are supported in one spatial dimension. In this context, the anyon-anyon mapping is recast as a continuous transformation that generates shifts of the statistical parameter $\kappa$. We characterize the geometry of quantum states associated with different values of $\kappa$, i.e., different quantum statistics. While states in the bosonic and fermionic subspaces are always orthogonal, overlaps between anyonic states are generally finite and exhibit a universal form of the orthogonality catastrophe governed by a fundamental statistical factor, independent of the microscopic Hamiltonian. We characterize this decay using quantum speed limits on the flow of $\kappa$, illustrate our results with a model of hard-core anyons, and discuss possible experiments in quantum simulation.
翻訳日:2023-12-21 03:28:24 公開日:2023-12-18
# 理解と操作: 現代のレコメンデーションシステムのオンラインパフォーマンス向上を再考する

Understanding or Manipulation: Rethinking Online Performance Gains of Modern Recommender Systems ( http://arxiv.org/abs/2210.05662v2 )

ライセンス: Link先を確認
Zhengbang Zhu, Rongjun Qin, Junjie Huang, Xinyi Dai, Yang Yu, Yong Yu and Weinan Zhang(参考訳) レコメンダシステムは、ユーザーが明示的なクエリなしで関連する情報を自動的に見つけるのを助けるアシスタントとして期待されている。 レコメンダシステムが進化するにつれて、ますます高度な学習技術が適用され、クリックやブラウジング時間といったユーザのエンゲージメント指標において、よりよいパフォーマンスを達成している。 しかし、測定されたパフォーマンスの増加は、ユーザーの好みをよりよく理解することと、人間の有界合理性を利用してユーザの過度な消費を誘惑するより積極的な能力という2つの可能性がある。 自然な疑問は、現在の推奨アルゴリズムがユーザの好みを操作するかどうかである。 もしそうなら、操作レベルを計測できますか? 本稿では,slateレコメンデーションシナリオと逐次レコメンデーションシナリオの両方において,レコメンデーションアルゴリズムの操作の程度をベンチマークするための汎用フレームワークを提案する。 このフレームワークは、最初の優先順位計算、トレーニングデータ収集、アルゴリズムのトレーニングとインタラクション、および2つの提案されたメトリクスを含むメトリクス計算の4段階で構成されている。 提案フレームワークでは,合成データと実世界のデータセットの両方において,代表的な推奨アルゴリズムをいくつかベンチマークする。 オンラインクリックスルー率が高いことは、ユーザーの初期嗜好をよりよく理解するという意味ではなく、ユーザーが最初に好まなかった文書をもっと選ぶように促すことである。 さらに、トレーニングデータは操作度に顕著な影響を与えており、より強力なモデリング能力を持つアルゴリズムは、そのような影響に対してより敏感である。 実験は、操作の度合いを測定するための提案された指標の有用性も検証した。 今後のレコメンデーションアルゴリズムの研究は,ユーザの嗜好操作を制約した最適化問題として扱うべきである。

Recommender systems are expected to be assistants that help human users find relevant information automatically without explicit queries. As recommender systems evolve, increasingly sophisticated learning techniques are applied and have achieved better performance in terms of user engagement metrics such as clicks and browsing time. The increase in the measured performance, however, can have two possible attributions: a better understanding of user preferences, and a more proactive ability to utilize human bounded rationality to seduce user over-consumption. A natural following question is whether current recommendation algorithms are manipulating user preferences. If so, can we measure the manipulation level? In this paper, we present a general framework for benchmarking the degree of manipulations of recommendation algorithms, in both slate recommendation and sequential recommendation scenarios. The framework consists of four stages, initial preference calculation, training data collection, algorithm training and interaction, and metrics calculation that involves two proposed metrics. We benchmark some representative recommendation algorithms in both synthetic and real-world datasets under the proposed framework. We have observed that a high online click-through rate does not necessarily mean a better understanding of user initial preference, but ends in prompting users to choose more documents they initially did not favor. Moreover, we find that the training data have notable impacts on the manipulation degrees, and algorithms with more powerful modeling abilities are more sensitive to such impacts. The experiments also verified the usefulness of the proposed metrics for measuring the degree of manipulations. We advocate that future recommendation algorithm studies should be treated as an optimization problem with constrained user preference manipulations.
翻訳日:2023-12-21 03:27:45 公開日:2023-12-18
# 時間的スライスにおける自由フェルミオンの絡み合いエントロピー

Entanglement Entropy of Free Fermions in Timelike Slices ( http://arxiv.org/abs/2210.03134v3 )

ライセンス: Link先を確認
Bowei Liu, Hao Chen, Biao Lian(参考訳) 離散的点集合の任意の時空スライスにおける自由フェルミオン量子状態の絡み合いエントロピーを定義し、特に時間的(causal)スライスについて検討する。 エネルギー帯域 $e_0$ の1次元格子自由フェルミオンに対して、同じサイトで時間長さ $t$ にまたがる $t_n=n\tau$ ($1\le n\le k$) の時間方向スライスにおいて、時間方向エンタングルメントエントロピー $s_a$ を計算する。 ゼロ温度基底状態の場合、$S_A$は、$\tau\gg\tau_0=2\pi/E_0$, 対照的に、$S_A\sim \frac{1}{3}\ln t$, $\tau=\tau_0$, $S_A\sim\frac{1}{6}\ln t$, $S_A\sim\frac{1}{6}\ln t$, $\tau<\tau_0$, それぞれ非キラルフェルミオンのカラブレス・カルディ式に類似している。 有限温度状態の場合、相互情報は$\tau<\tau_0$の場合も飽和する。 非固有状態の場合、$t$の体積法則とリーブ・ロビンソン境界速度の符号は$S_A$で観測できる。 サイト毎の1点の一般時空スライスに対して、ゼロ温度エンタングルメントエントロピーは、スライスが空間的から時相的に変化するとき、領域法則から体積法則への明確な遷移を示す。

We define the entanglement entropy of free fermion quantum states in an arbitrary spacetime slice of a discrete set of points, and particularly investigate timelike (causal) slices. For 1D lattice free fermions with an energy bandwidth $E_0$, we calculate the time-direction entanglement entropy $S_A$ in a time-direction slice of a set of times $t_n=n\tau$ ($1\le n\le K$) spanning a time length $t$ on the same site. For zero temperature ground states, we find that $S_A$ shows volume law when $\tau\gg\tau_0=2\pi/E_0$; in contrast, $S_A\sim \frac{1}{3}\ln t$ when $\tau=\tau_0$, and $S_A\sim\frac{1}{6}\ln t$ when $\tau<\tau_0$, resembling the Calabrese-Cardy formula for one flavor of nonchiral and chiral fermion, respectively. For finite temperature thermal states, the mutual information also saturates when $\tau<\tau_0$. For non-eigenstates, volume law in $t$ and signatures of the Lieb-Robinson bound velocity can be observed in $S_A$. For generic spacetime slices with one point per site, the zero temperature entanglement entropy shows a clear transition from area law to volume law when the slice varies from spacelike to timelike.
翻訳日:2023-12-21 03:26:49 公開日:2023-12-18
# 無次元レメズ不等式による量子および古典低次学習

Quantum and classical low-degree learning via a dimension-free Remez inequality ( http://arxiv.org/abs/2301.01438v3 )

ライセンス: Link先を確認
Ohad Klein, Joseph Slote, Alexander Volberg, Haonan Zhang(参考訳) ブール関数の解析における最近の取り組みは、コア結果を新しい空間に拡張することを目的としており、例えば、slice $\binom{[n]}{k}$、 hypergrid $[K]^n$、および非可換空間(行列代数)などである。 ここでは、超グリッド(あるいは巡回群の積)上の函数をポリトーラス上の調和拡大に関連付ける新しい方法を提案する。 巡回群 $\{\exp(2\pi i k/k)\}_{k=1}^k$ の積よりも関数 $f$ の上限は、ポリトーラス $(\{z\in\mathbf{c}:|z|=1\}^n)$ 全体に対して $f$ の上限を制御し、乗算定数 $c$ は $k$ と $\text{deg}(f)$ に依存する。 このレメズ型不等式は次元を含まない最初の推定値(すなわち、$c$は$n$に依存しない)である。 この次元自由 Remez 型不等式は、$\mathcal{O}(\log n)$サンプル複雑性を与える主な技術的障壁を排除し、超グリッド上の低次多項式を学習するためのpolytimeアルゴリズムとレベル-K$quditシステムでの低次可観測関数を学習する。 特に、次元のないレメズ不等式は、学習アルゴリズムの中心であり、標準技術では観察できない新しいボーネンブラウスト・ヒル型推定を暗示している。 したがって、我々は、超キューブ上の低次多項式と量子ビット上の可観測性を学ぶのと同様に効率的な方法を与えた最近の研究のラインであるcite{EI22, CHP, VZ22} に拡張する。 これらの取り組みの副産物は、任意の量子可観測性がそれらの低次切断によって近似される新しい分布のクラスであり、量子科学における低次学習の範囲を大きく広げる現象である。

Recent efforts in Analysis of Boolean Functions aim to extend core results to new spaces, including to the slice $\binom{[n]}{k}$, the hypergrid $[K]^n$, and noncommutative spaces (matrix algebras). We present here a new way to relate functions on the hypergrid (or products of cyclic groups) to their harmonic extensions over the polytorus. We show the supremum of a function $f$ over products of the cyclic group $\{\exp(2\pi i k/K)\}_{k=1}^K$ controls the supremum of $f$ over the entire polytorus $(\{z\in\mathbf{C}:|z|=1\}^n)$, with multiplicative constant $C$ depending on $K$ and $\text{deg}(f)$ only. This Remez-type inequality appears to be the first such estimate that is dimension-free (i.e., $C$ does not depend on $n$). This dimension-free Remez-type inequality removes the main technical barrier to giving $\mathcal{O}(\log n)$ sample complexity, polytime algorithms for learning low-degree polynomials on the hypergrid and low-degree observables on level-$K$ qudit systems. In particular, our dimension-free Remez inequality implies new Bohnenblust--Hille-type estimates which are central to the learning algorithms and appear unobtainable via standard techniques. Thus we extend to new spaces a recent line of work \cite{EI22, CHP, VZ22} that gave similarly efficient methods for learning low-degree polynomials on the hypercube and observables on qubits. An additional product of these efforts is a new class of distributions over which arbitrary quantum observables are well-approximated by their low-degree truncations -- a phenomenon that greatly extends the reach of low-degree learning in quantum science \cite{CHP}.
翻訳日:2023-12-21 03:17:28 公開日:2023-12-18
# フルボディ人工物体相互作用

Full-Body Articulated Human-Object Interaction ( http://arxiv.org/abs/2212.10621v3 )

ライセンス: Link先を確認
Nan Jiang, Tengyu Liu, Zhexuan Cao, Jieming Cui, Zhiyuan zhang, Yixin Chen, He Wang, Yixin Zhu, Siyuan Huang(参考訳) 3D HOIのきめ細かいキャプチャは、人間の活動理解を促進し、アクション認識、全体像再構成、人間の動き合成を含む下流の視覚タスクを促進する。 その重要性にもかかわらず、既存の研究は人間の身体の一部だけを使って剛体物体と相互作用し、その範囲を制限していると仮定している。 本稿では,人体全体が関節のある物体と相互作用し,部品が可動関節で接続されるという,f-AHOIの課題に対処する。 46人の参加者と81人の定性的・剛性的な物体の間の16.2時間の多目的相互作用からなる大規模な動きキャプチャーf-AHOIデータセットであるCHAIRSを提案する。 CHAIRSは、対話的なプロセス全体を通して、人間と関節のある物体の両方の3Dメッシュを提供する。 オブジェクトポーズ推定によるCHAIRSの値を示す。 HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を生かした最初のモデルを考案し,人体間相互作用における物体のポーズと形状の推定に挑戦する。 画像と推定された人間のポーズを与えられたモデルでは、まず物体のポーズと形状を再構築し、学習したインタラクションに従って再構築を最適化する。 両方の評価設定(例えば、オブジェクトのジオメトリ/構造に関する知識の有無)の下で、我々のモデルはベースラインを著しく上回る。 CHAIRSは、よりきめ細かいインタラクション理解に向けて、コミュニティを促進することを願っています。 データ/コードは公開します。

Fine-grained capturing of 3D HOI boosts human activity understanding and facilitates downstream visual tasks, including action recognition, holistic scene reconstruction, and human motion synthesis. Despite its significance, existing works mostly assume that humans interact with rigid objects using only a few body parts, limiting their scope. In this paper, we address the challenging problem of f-AHOI, wherein the whole human bodies interact with articulated objects, whose parts are connected by movable joints. We present CHAIRS, a large-scale motion-captured f-AHOI dataset, consisting of 16.2 hours of versatile interactions between 46 participants and 81 articulated and rigid sittable objects. CHAIRS provides 3D meshes of both humans and articulated objects during the entire interactive process, as well as realistic and physically plausible full-body interactions. We show the value of CHAIRS with object pose estimation. By learning the geometrical relationships in HOI, we devise the very first model that leverage human pose estimation to tackle the estimation of articulated object poses and shapes during whole-body interactions. Given an image and an estimated human pose, our model first reconstructs the pose and shape of the object, then optimizes the reconstruction according to a learned interaction prior. Under both evaluation settings (e.g., with or without the knowledge of objects' geometries/structures), our model significantly outperforms baselines. We hope CHAIRS will promote the community towards finer-grained interaction understanding. We will make the data/code publicly available.
翻訳日:2023-12-21 03:15:53 公開日:2023-12-18
# 相互作用グラフに基づく量子回路マッピング技術向上のための量子ベンチマークのキャラクタリゼーション

Interaction graph-based characterization of quantum benchmarks for improving quantum circuit mapping techniques ( http://arxiv.org/abs/2212.06640v2 )

ライセンス: Link先を確認
Medina Bandi\'c, Carmen G. Almudever, Sebastian Feld(参考訳) 量子プロセッサ上で量子回路を実行するには、量子デバイスの物理的制約を満たすように修正する必要がある。 このプロセスは量子回路マッピングと呼ばれ、回路特性とハードウェア制約の両方に依存するゲート/回路深さのオーバーヘッドとなり、限られた量子ビット接続が重要な制限となる。 本稿では、従来用いられてきた回路記述パラメータに加えて、グラフ理論に基づくメトリクスを用いた量子ビット相互作用グラフ特性を含む量子回路のキャラクタリゼーションを拡張することを提案する。 このアプローチは、量子回路の詳細な分析とクラスタリングを可能にし、異なる量子プロセッサ上で実行する場合のパフォーマンスの比較を可能にし、より良いマッピング技術の開発を支援する。 本研究では、相互作用グラフに基づくパラメータと、量子デバイスの様々な構成に対するマッピング性能の相関関係を明らかにする。 また、将来のコンパイル技術や量子デバイスをベンチマークするための量子回路とアルゴリズムの包括的なコレクションも提供します。

To execute quantum circuits on a quantum processor, they must be modified to meet the physical constraints of the quantum device. This process, called quantum circuit mapping, results in a gate/circuit depth overhead that depends on both the circuit properties and the hardware constraints, being the limited qubit connectivity a crucial restriction. In this paper, we propose to extend the characterization of quantum circuits by including qubit interaction graph properties using graph theory-based metrics in addition to previously used circuit-describing parameters. This approach allows for in-depth analysis and clustering of quantum circuits and a comparison of performance when run on different quantum processors, aiding in developing better mapping techniques. Our study reveals a correlation between interaction graph-based parameters and mapping performance metrics for various existing configurations of quantum devices. We also provide a comprehensive collection of quantum circuits and algorithms for benchmarking future compilation techniques and quantum devices.
翻訳日:2023-12-21 03:14:20 公開日:2023-12-18
# DiffStyler:テキスト駆動画像スティル化のための制御可能なデュアル拡散

DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization ( http://arxiv.org/abs/2211.10682v2 )

ライセンス: Link先を確認
Nisha Huang, Yuxin Zhang, Fan Tang, Chongyang Ma, Haibin Huang, Yong Zhang, Weiming Dong, Changsheng Xu(参考訳) 任意の画像誘導スタイル転送方式の印象的な結果にもかかわらず、ユーザが提供する対象スタイルのテキスト記述に従って、自然画像からスタイリッシュな画像に変換するためのテキスト駆動画像スタイライゼーションが最近提案されている。 従来の画像間転送アプローチとは異なり、テキスト誘導型スタイリゼーションの進歩により、ユーザーはより正確で直感的に好みのスタイルを表現することができる。 しかしながら、クロスモーダル入力/出力間の大きな不一致は、典型的なフィードフォワードcnnパイプラインでテキスト駆動のイメージスタイライゼーションを行うことを困難にしている。 本稿では,拡散結果の内容とスタイルのバランスを制御する2重拡散処理アーキテクチャdiffstylerを提案する。 拡散過程のステップバイステップにおいて、クロスモーダルスタイル情報をガイダンスとして容易に統合することができる。 さらに,逆雑音化処理に基づくコンテンツ画像に基づく学習可能ノイズを提案し,スタイライゼーション結果がコンテンツ画像の構造情報をより良く保存できることを示す。 提案したDiffStylerは, 定性的, 定量的な実験により, ベースライン法を超えて検証する。 コードは \url{https://github.com/haha-lisa/diffstyler} で入手できる。

Despite the impressive results of arbitrary image-guided style transfer methods, text-driven image stylization has recently been proposed for transferring a natural image into a stylized one according to textual descriptions of the target style provided by the user. Unlike the previous image-to-image transfer approaches, text-guided stylization progress provides users with a more precise and intuitive way to express the desired style. However, the huge discrepancy between cross-modal inputs/outputs makes it challenging to conduct text-driven image stylization in a typical feed-forward CNN pipeline. In this paper, we present DiffStyler, a dual diffusion processing architecture to control the balance between the content and style of the diffused results. The cross-modal style information can be easily integrated as guidance during the diffusion process step-by-step. Furthermore, we propose a content image-based learnable noise on which the reverse denoising process is based, enabling the stylization results to better preserve the structure information of the content image. We validate the proposed DiffStyler beyond the baseline methods through extensive qualitative and quantitative experiments. Code is available at \url{https://github.com/haha-lisa/Diffstyler}.
翻訳日:2023-12-21 03:13:43 公開日:2023-12-18
# 機械学習の音響反転によるリアルタイム音声感情検出に対するプライバシ

Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning ( http://arxiv.org/abs/2211.09273v4 )

ライセンス: Link先を確認
Brian Testa, Yi Xiao, Harshit Sharma, Avery Gump, and Asif Salekin(参考訳) Amazon EchoやGoogle Homeのようなスマートスピーカー音声アシスタント(VA)は、スマートホームデバイスとIoT(Internet of Things)技術とのシームレスな統合によって広く採用されている。 これらのvaサービスは、特に私たちのスピーチへのアクセスのために、プライバシーの懸念を引き起こします。 本研究は,音声感情認識(SER)によるユーザの感情の非可算かつ無許可な監視という,そのようなユースケースを考察する。 本稿では,音声の書き起こし関連部分を保ちながら,ユーザの感情情報を隠蔽する付加ノイズを生成するDARE-GPを提案する。 DARE-GPは、制約付き遺伝的プログラミング手法を用いて、ターゲットユーザーの感情的内容を表すスペクトル周波数特性を学習し、このプライバシー保護を提供する普遍的対向的音声摂動を生成する。 既存の作品とは異なり、DARE-GPは次のように提供している。 イ 前例のない発話をリアルタイムに保護すること。 b) 前述のブラックボックスSER分類子に対する c) 音声転写を保護しながら,かつ d) 現実的で音響的な環境ではそうする。 さらに、この回避は、知識のある敵が使う防御に対して堅牢である。 本研究は,2つの市販スマートスピーカーに対して,覚醒語システムと一体化した小型フォームファクタ(ラズベリーパイ)を用いて音響評価を行い,実世界のリアルタイム展開の有効性を評価する。

Smart speaker voice assistants (VAs) such as Amazon Echo and Google Home have been widely adopted due to their seamless integration with smart home devices and the Internet of Things (IoT) technologies. These VA services raise privacy concerns, especially due to their access to our speech. This work considers one such use case: the unaccountable and unauthorized surveillance of a user's emotion via speech emotion recognition (SER). This paper presents DARE-GP, a solution that creates additive noise to mask users' emotional information while preserving the transcription-relevant portions of their speech. DARE-GP does this by using a constrained genetic programming approach to learn the spectral frequency traits that depict target users' emotional content, and then generating a universal adversarial audio perturbation that provides this privacy protection. Unlike existing works, DARE-GP provides: a) real-time protection of previously unheard utterances, b) against previously unseen black-box SER classifiers, c) while protecting speech transcription, and d) does so in a realistic, acoustic environment. Further, this evasion is robust against defenses employed by a knowledgeable adversary. The evaluations in this work culminate with acoustic evaluations against two off-the-shelf commercial smart speakers using a small-form-factor (raspberry pi) integrated with a wake-word system to evaluate the efficacy of its real-world, real-time deployment.
翻訳日:2023-12-21 03:13:25 公開日:2023-12-18
# FedDBL:組織分類のためのコミュニケーションとデータ効率の良い深層学習

FedDBL: Communication and Data Efficient Federated Deep-Broad Learning for Histopathological Tissue Classification ( http://arxiv.org/abs/2302.12662v2 )

ライセンス: Link先を確認
Tianpeng Deng, Yanqi Huang, Guoqiang Han, Zhenwei Shi, Jiatai Lin, Qi Dou, Zaiyi Liu, Xiao-jing Guo, C. L. Philip Chen, Chu Han(参考訳) 病理組織分類は、計算病理学の基本的な課題である。 ディープラーニングベースのモデルは優れたパフォーマンスを達成したが、データ集中化による集中トレーニングは、プライバシー漏洩の問題に悩まされている。 FL(Federated Learning)は、トレーニングサンプルをローカルに保持することでプライバシを保護することができるが、既存のFLベースのフレームワークでは、多数の注釈付きトレーニングサンプルと、実際の臨床シナリオにおける実践性を妨げる多数の通信ラウンドが必要である。 本稿では,FedDBL(Federated Deep-Broad Learning)という,汎用的で軽量なフェデレーション学習フレームワークを提案する。 事前学習された深層学習特徴抽出器、高速で軽量な広層学習推論システム、および古典的な連合集約アプローチを単純に関連付けることで、FedDBLはデータの依存を劇的に減らし、通信効率を向上させることができる。 5倍のクロスバリデーションにより、FedDBLは1ラウンドの通信と限られたトレーニングサンプルで競合より大幅に優れており、マルチラウンドの通信では同等のパフォーマンスを達成している。 さらに、軽量な設計とワンラウンド通信のため、FedDBLは50ラウンドトレーニングでResNet-50のバックボーンを使用して通信負荷を4.6GBから276.5KBに減らした。 異なるクライアント間でデータやディープモデルを共有することはないため、プライバシ問題は十分に解決され、モデルのセキュリティはモデル反転攻撃リスクなしで保証される。 コードはhttps://github.com/tianpeng-deng/FedDBLで入手できる。

Histopathological tissue classification is a fundamental task in computational pathology. Deep learning-based models have achieved superior performance but centralized training with data centralization suffers from the privacy leakage problem. Federated learning (FL) can safeguard privacy by keeping training samples locally, but existing FL-based frameworks require a large number of well-annotated training samples and numerous rounds of communication which hinder their practicability in the real-world clinical scenario. In this paper, we propose a universal and lightweight federated learning framework, named Federated Deep-Broad Learning (FedDBL), to achieve superior classification performance with limited training samples and only one-round communication. By simply associating a pre-trained deep learning feature extractor, a fast and lightweight broad learning inference system and a classical federated aggregation approach, FedDBL can dramatically reduce data dependency and improve communication efficiency. Five-fold cross-validation demonstrates that FedDBL greatly outperforms the competitors with only one-round communication and limited training samples, while it even achieves comparable performance with the ones under multiple-round communications. Furthermore, due to the lightweight design and one-round communication, FedDBL reduces the communication burden from 4.6GB to only 276.5KB per client using the ResNet-50 backbone at 50-round training. Since no data or deep model sharing across different clients, the privacy issue is well-solved and the model security is guaranteed with no model inversion attack risk. Code is available at https://github.com/tianpeng-deng/FedDBL.
翻訳日:2023-12-21 03:06:28 公開日:2023-12-18
# 弱値測定のための量子回路、カークウッド--ディラック準確率分布および状態スペクトル

Quantum circuits for measuring weak values, Kirkwood--Dirac quasiprobability distributions, and state spectra ( http://arxiv.org/abs/2302.00705v3 )

ライセンス: Link先を確認
Rafael Wagner, Zohar Schwartzman-Nowik, Ismael L. Paiva, Amit Te'eni, Antonio Ruiz-Molero, Rui Soares Barbosa, Eliahu Cohen, Ernesto F. Galv\~ao(参考訳) 弱値とカークウッド-ディラック(KD)準確率分布は、量子論の基本問題と量子計量学の利点の両方に独立に関係している。 本稿では,弱い値,KD分布,密度行列のスペクトルを測定するための簡単な量子回路を提案する。 これは、バーグマン不変量の関数である量子状態のユニタリ不変な関係性を測定することによって達成される。 また,後選択パラメータ推定におけるオフ・オブ・オーダードコリエータ(otocs)や量子フィッシャー情報など,kd分布の様々な関数を実験的に実装することを可能にする。 アップショットは、これらすべてのタスクにおける非古典性の統合ビューである。 特に、バーグマン不変量の負性や虚性が集合コヒーレンスとどのように関係するかについて議論する。

Weak values and Kirkwood--Dirac (KD) quasiprobability distributions have been independently associated with both foundational issues in quantum theory and advantages in quantum metrology. We propose simple quantum circuits to measure weak values, KD distributions, and spectra of density matrices without the need for post-selection. This is achieved by measuring unitary-invariant, relational properties of quantum states, which are functions of Bargmann invariants, the concept that underpins our unified perspective. Our circuits also enable experimental implementation of various functions of KD distributions, such as out-of-time-ordered correlators (OTOCs) and the quantum Fisher information in post-selected parameter estimation, among others. An upshot is a unified view of nonclassicality in all those tasks. In particular, we discuss how negativity and imaginarity of Bargmann invariants relate to set coherence.
翻訳日:2023-12-21 03:03:02 公開日:2023-12-18
# マルコフ等価DAGの効率的な列挙

Efficient Enumeration of Markov Equivalent DAGs ( http://arxiv.org/abs/2301.12212v2 )

ライセンス: Link先を確認
Marcel Wien\"obst and Malte Luttermann and Max Bannach and Maciej Li\'skiewicz(参考訳) マルコフ同値類(MEC)の有向非巡回グラフ(DAG)を列挙することは因果解析において重要な原始的である。 計算複雑性の観点からの中心的なリソースは、クラスのすべてのメンバーをリストアップするアルゴリズムが2つの連続した出力の間に必要となる遅延である。 このタスクによく使われるアルゴリズムは、Meek (1995) が提案した規則や Chickering (1995) による変換特性を利用しており、どちらも超線形遅延をもたらす。 本稿では,最初の線形時間遅延アルゴリズムを提案する。 理論的には,MPDAGなどの背景知識を組み込んだモデルで表現されたDAGを列挙するために,我々のアルゴリズムを一般化できることが示される。 線形時間遅延アルゴリズムの補完として、マルコフ等価性自体に興味深い洞察を与える: MECのすべてのメンバーを列挙して、2つの連続DAGが少なくとも3つの構造的ハミング距離を持つようにすることができる。

Enumerating the directed acyclic graphs (DAGs) of a Markov equivalence class (MEC) is an important primitive in causal analysis. The central resource from the perspective of computational complexity is the delay, that is, the time an algorithm that lists all members of the class requires between two consecutive outputs. Commonly used algorithms for this task utilize the rules proposed by Meek (1995) or the transformational characterization by Chickering (1995), both resulting in superlinear delay. In this paper, we present the first linear-time delay algorithm. On the theoretical side, we show that our algorithm can be generalized to enumerate DAGs represented by models that incorporate background knowledge, such as MPDAGs; on the practical side, we provide an efficient implementation and evaluate it in a series of experiments. Complementary to the linear-time delay algorithm, we also provide intriguing insights into Markov equivalence itself: All members of an MEC can be enumerated such that two successive DAGs have structural Hamming distance at most three.
翻訳日:2023-12-21 03:02:44 公開日:2023-12-18
# 強磁性量子ガスの励起状態相図

Excited-State Phase Diagram of a Ferromagnetic Quantum Gas ( http://arxiv.org/abs/2301.10655v3 )

ライセンス: Link先を確認
Bernd Meyer-Hoppe, Fabian Anders, Polina Feldmann, Luis Santos, Carsten Klempt(参考訳) 量子多体系の基底状態相は、外部制御パラメータが変化すると量子相遷移時に突然変化する順序パラメータによって特徴づけられる。 興味深いことに、これらの概念は励起状態にまで拡張され、等価な励起状態量子相転移を定義することができる。 しかし、励起量子状態の位相図の実験的なマッピングはまだ証明されていない。 ここでは、原子強磁性量子ガスの励起状態相図の実験的な決定を行い、そこでは、励起エネルギーが制御パラメータの1つである。 得られた位相図は、よく定義された順序パラメータの測定によって量子多体系のヒルベルト状態がどのように構成されるかを示す。

The ground-state phases of a quantum many-body system are characterized by an order parameter, which changes abruptly at quantum phase transitions when an external control parameter is varied. Interestingly, these concepts may be extended to excited states, for which it is possible to define equivalent excited-state quantum phase transitions. However, the experimental mapping of a phase diagram of excited quantum states has not yet been demonstrated. Here we present the experimental determination of the excited-state phase diagram of an atomic ferromagnetic quantum gas, where, crucially, the excitation energy is one of the control parameters. The obtained phase diagram exemplifies how the extensive Hilbert state of quantum many-body systems can be structured by the measurement of well-defined order parameters.
翻訳日:2023-12-21 03:02:02 公開日:2023-12-18
# 言語モデルに基づく知識グラフ埋め込みの編集

Editing Language Model-based Knowledge Graph Embeddings ( http://arxiv.org/abs/2301.10405v7 )

ライセンス: Link先を確認
Siyuan Cheng, Bozhong Tian, Xi Chen, Ningyu Zhang, Qingbing Liu, Huajun Chen(参考訳) 近年では言語モデルによる知識グラフ(kg)埋め込みが実証的に成功している。 しかしながら、言語モデルに基づくkg埋め込みは通常、静的アーティファクトとしてデプロイされるため、デプロイ後に再トレーニングすることなく、デプロイ後の修正が困難になる。 そこで本稿では,言語モデルに基づくKG埋め込みを編集する新しいタスクを提案する。 このタスクは、他の側面のパフォーマンスを損なうことなく、高速でデータ効率のよいKG埋め込みの更新を容易にするように設計されている。 e-fb15k237,a-fb15k237,e-wn18rr,a-wn18rrの4つの新しいデータセットを構築し,提案課題に対処するための既存モデルの限られた能力を示す,いくつかの知識編集ベースラインを評価した。 KGEditorと呼ばれる単純なベースラインも提案する。これは、ハイパーネットワークのパラメトリック層を利用して、事実を編集・追加する。 総合的な実験結果から,KGEditorは,限られたトレーニングリソースに直面した場合でも,全体のパフォーマンスに影響を与えることなく,特定の事実の更新に優れることがわかった。 コードとデータセットはhttps://github.com/zjunlp/PromptKG/tree/main/deltaKGで入手できる。

Recently decades have witnessed the empirical success of framing Knowledge Graph (KG) embeddings via language models. However, language model-based KG embeddings are usually deployed as static artifacts, making them difficult to modify post-deployment without re-training after deployment. To address this issue, we propose a new task of editing language model-based KG embeddings in this paper. This task is designed to facilitate rapid, data-efficient updates to KG embeddings without compromising the performance of other aspects. We build four new datasets: E-FB15k237, A-FB15k237, E-WN18RR, and A-WN18RR, and evaluate several knowledge editing baselines demonstrating the limited ability of previous models to handle the proposed challenging task. We further propose a simple yet strong baseline dubbed KGEditor, which utilizes additional parametric layers of the hypernetwork to edit/add facts. Our comprehensive experimental results reveal that KGEditor excels in updating specific facts without impacting the overall performance, even when faced with limited training resources. Code and datasets are available in https://github.com/zjunlp/PromptKG/tree/main/deltaKG.
翻訳日:2023-12-21 03:01:52 公開日:2023-12-18
# climax: 気象と気候の基礎モデル

ClimaX: A foundation model for weather and climate ( http://arxiv.org/abs/2301.10343v5 )

ライセンス: Link先を確認
Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K. Gupta, Aditya Grover(参考訳) 天気と気候のモデリングに対する最先端のアプローチのほとんどは、物理に則った大気の数値モデルに基づいている。 これらのアプローチは、近似が難しい複数の変数間の非線形ダイナミクスと複雑な相互作用をモデル化することを目的としている。 さらに、このような数値モデルの多くは、特に大気現象を微粒な空間分解能と時間分解能でモデル化する場合、計算集約的である。 機械学習に基づく最近のデータ駆動アプローチは、ディープニューラルネットワークを使用してデータ駆動機能マッピングを学習することで、下流の予測や投影タスクを直接解決することを目指している。 しかしながら、これらのネットワークは、特定の時空間的タスクのために、キュレートされた均質な気候データセットを使用して訓練されるため、数値モデルの一般化が欠如している。 さまざまな変数、時空間カバレッジ、物理的接地にまたがる不均質なデータセットを使用してトレーニング可能な、気象と気候科学のための柔軟で汎用的なディープラーニングモデルであるclimaxを開発し、実証する。 ClimaXはTransformerアーキテクチャを拡張し、汎用性を維持しながら利用可能な計算を効果的に利用できる新しいエンコーディングと集約ブロックを提供する。 ClimaXはCMIP6から派生した気候データセットの自己教師型学習目標で事前訓練されている。 事前訓練されたクライマックスは、予訓練中に大気変数や時空間スケールを含む、様々な気候や気象タスクに対処するために微調整することができる。 既存のデータ駆動ベースラインと比較して,ClimaXのこの一般化は,低解像度や計算予算で事前訓練した場合でも,天気予報や気象予報のベンチマークにおいて優れた性能を示すことを示す。 ソースコードはhttps://github.com/microsoft/ClimaXで入手できる。

Most state-of-the-art approaches for weather and climate modeling are based on physics-informed numerical models of the atmosphere. These approaches aim to model the non-linear dynamics and complex interactions between multiple variables, which are challenging to approximate. Additionally, many such numerical models are computationally intensive, especially when modeling the atmospheric phenomenon at a fine-grained spatial and temporal resolution. Recent data-driven approaches based on machine learning instead aim to directly solve a downstream forecasting or projection task by learning a data-driven functional mapping using deep neural networks. However, these networks are trained using curated and homogeneous climate datasets for specific spatiotemporal tasks, and thus lack the generality of numerical models. We develop and demonstrate ClimaX, a flexible and generalizable deep learning model for weather and climate science that can be trained using heterogeneous datasets spanning different variables, spatio-temporal coverage, and physical groundings. ClimaX extends the Transformer architecture with novel encoding and aggregation blocks that allow effective use of available compute while maintaining general utility. ClimaX is pre-trained with a self-supervised learning objective on climate datasets derived from CMIP6. The pre-trained ClimaX can then be fine-tuned to address a breadth of climate and weather tasks, including those that involve atmospheric variables and spatio-temporal scales unseen during pretraining. Compared to existing data-driven baselines, we show that this generality in ClimaX results in superior performance on benchmarks for weather forecasting and climate projections, even when pretrained at lower resolutions and compute budgets. The source code is available at https://github.com/microsoft/ClimaX.
翻訳日:2023-12-21 03:01:28 公開日:2023-12-18
# 長距離量子多体系における情報伝達

Information propagation in long-range quantum many-body systems ( http://arxiv.org/abs/2303.06506v3 )

ライセンス: Link先を確認
Marius Lemm, Carla Rubiliani, Israel Michael Sigal, Jingxuan Zhang(参考訳) 長距離ホッピングと長距離相互作用を持つ一般格子ボソンを$|x-y|^{-\alpha} $と$\alpha\in (d+2,2d+1)$とすると崩壊する。 適切な初期状態から情報伝達を行うための線形光円錐を求める。 これらの境界を適用し、量子メッセージング、量子相関の伝播、量子状態制御に必要な最小時間を推定する。 証明はASTLO法(adiabatic spacetime localization observables)に基づいている。 その結果、長距離および/またはボソニック系の線形光円錐を破るために開発された高速転送およびエンタングルメント生成プロトコルの適用性には、これまで考えられなかった制限が生じた。

We study general lattice bosons with long-range hopping and long-range interactions decaying as $|x-y|^{-\alpha} $ with $\alpha\in (d+2,2d+1)$. We find a linear light cone for the information propagation starting from suitable initial states. We apply these bounds to estimate the minimal time needed for quantum messaging, for the propagation of quantum correlations, and for quantum state control. The proofs are based on the ASTLO method (adiabatic spacetime localization observables). Our results pose previously unforeseen limitations on the applicability of fast-transfer and entanglement-generation protocols developed for breaking linear light cones in long-range and/or bosonic systems.
翻訳日:2023-12-21 02:53:25 公開日:2023-12-18
# DETA:Few-Shot Learningのためのタスク適応

DETA: Denoised Task Adaptation for Few-Shot Learning ( http://arxiv.org/abs/2303.06315v3 )

ライセンス: Link先を確認
Ji Zhang, Lianli Gao, Xu Luo, Hengtao Shen and Jingkuan Song(参考訳) 少数ショット学習におけるテスト時間タスク適応(test-time task adaptation)は、事前学習されたタスク非依存モデルを適用して、テストタスクのタスク固有の知識をキャプチャすることを目的としている。 従来のアプローチは一般的に、与えられたサポートサンプルの固有の問題を無視しながら、目標を達成するための高度なアルゴリズムの開発に重点を置いている。 実際、少数のサンプルしか利用できないため、サポートサンプルからの画像ノイズ(xノイズ)またはラベルノイズ(yノイズ)の悪影響を著しく増幅することができる。 この課題に対処するため,本研究では,既存のタスク適応アプローチと直交する,画像とラベルの統一化フレームワークであるdennoized task adaptation (deta)を提案する。 余分な監督なしに、DETAは、グローバルな視覚情報とサポートサンプルの地域詳細の両方を活用することで、タスク非関連でノイズの多い表現をフィルタリングする。 難しいメタデータセットでは、detaは様々な事前学習されたモデルに適用される幅広いベースラインメソッドのパフォーマンスを一貫して改善する。 特に、メタデータセットで見過ごされた画像ノイズに取り組むことで、detaは新しい最先端の結果を確立します。 コードはhttps://github.com/JimZAI/DETAで公開されている。

Test-time task adaptation in few-shot learning aims to adapt a pre-trained task-agnostic model for capturing taskspecific knowledge of the test task, rely only on few-labeled support samples. Previous approaches generally focus on developing advanced algorithms to achieve the goal, while neglecting the inherent problems of the given support samples. In fact, with only a handful of samples available, the adverse effect of either the image noise (a.k.a. X-noise) or the label noise (a.k.a. Y-noise) from support samples can be severely amplified. To address this challenge, in this work we propose DEnoised Task Adaptation (DETA), a first, unified image- and label-denoising framework orthogonal to existing task adaptation approaches. Without extra supervision, DETA filters out task-irrelevant, noisy representations by taking advantage of both global visual information and local region details of support samples. On the challenging Meta-Dataset, DETA consistently improves the performance of a broad spectrum of baseline methods applied on various pre-trained models. Notably, by tackling the overlooked image noise in Meta-Dataset, DETA establishes new state-of-the-art results. Code is released at https://github.com/JimZAI/DETA.
翻訳日:2023-12-21 02:53:14 公開日:2023-12-18
# 連続時間機能拡散プロセス

Continuous-Time Functional Diffusion Processes ( http://arxiv.org/abs/2303.00800v3 )

ライセンス: Link先を確認
Giulio Franzese, Giulio Corallo, Simone Rossi, Markus Heinonen, Maurizio Filippone, Pietro Michiardi(参考訳) 得点に基づく拡散モデルを無限次元関数空間に一般化する関数拡散過程(fdps)を導入する。 fdpは、前方と後方のダイナミクスを記述するための新しい数学的枠組みと、実践的なトレーニング目標を導出するためのいくつかの拡張を必要とする。 これには、エルボの計算を可能にするためのギルサノフの定理の無限次元バージョンや、点の可算集合における関数評価が無限次元関数と同値であることを保証するためのサンプリング定理が含まれる。 我々は、fdpsを使って関数空間における新しい種類の生成モデルを構築し、特殊なネットワークアーキテクチャを必要としず、あらゆる種類の連続データを扱うことができる。 実データを用いた結果,FDP は既存の拡散モデルよりも桁違いのパラメータを持つ単純な MLP アーキテクチャを用いて,高品質な画像生成を実現することがわかった。

We introduce Functional Diffusion Processes (FDPs), which generalize score-based diffusion models to infinite-dimensional function spaces. FDPs require a new mathematical framework to describe the forward and backward dynamics, and several extensions to derive practical training objectives. These include infinite-dimensional versions of Girsanov theorem, in order to be able to compute an ELBO, and of the sampling theorem, in order to guarantee that functional evaluations in a countable set of points are equivalent to infinite-dimensional functions. We use FDPs to build a new breed of generative models in function spaces, which do not require specialized network architectures, and that can work with any kind of continuous data. Our results on real data show that FDPs achieve high-quality image generation, using a simple MLP architecture with orders of magnitude fewer parameters than existing diffusion models.
翻訳日:2023-12-21 02:51:52 公開日:2023-12-18
# リモートセンシング画像変化キャプションのためのプログレッシブスケールアウェアネットワーク

Progressive Scale-aware Network for Remote sensing Image Change Captioning ( http://arxiv.org/abs/2303.00355v2 )

ライセンス: Link先を確認
Chenyang Liu, Jiajun Yang, Zipeng Qi, Zhengxia Zou and Zhenwei Shi(参考訳) リモートセンシング(RS)画像にはさまざまなスケールのオブジェクトが含まれており、複雑なシーンにおける視覚的関心の変化を識別し、言語を介して記述するためにRS画像変更キャプション(RSICC)タスクに重大な課題が生じる。 しかし,近年の手法では,マルチスケール情報を十分に抽出・活用する上での弱点が残っている。 本稿では,この問題に対処するためのprogressive scale-aware network (psnet)を提案する。 PSNetはトランスフォーマーベースのモデルである。 マルチスケールの視覚特徴を十分に抽出するために、多段階差分認識(PDP)層を積み重ねて、バイテンポラル特徴の差分特徴を段階的に活用する。 抽出した多機能キャプションを十分に活用するために,スケールアウェア強化(SR)モジュールを提案し,それをTransformerデコーディング層と組み合わせて,異なるPDP層の特徴を段階的に活用する。 実験の結果,PDP層とSRモジュールは有効であり,PSNetは従来の手法よりも優れていた。 私たちのコードはhttps://github.com/Chen-Yang-Liu/PSNetで公開されています。

Remote sensing (RS) images contain numerous objects of different scales, which poses significant challenges for the RS image change captioning (RSICC) task to identify visual changes of interest in complex scenes and describe them via language. However, current methods still have some weaknesses in sufficiently extracting and utilizing multi-scale information. In this paper, we propose a progressive scale-aware network (PSNet) to address the problem. PSNet is a pure Transformer-based model. To sufficiently extract multi-scale visual features, multiple progressive difference perception (PDP) layers are stacked to progressively exploit the differencing features of bitemporal features. To sufficiently utilize the extracted multi-scale features for captioning, we propose a scale-aware reinforcement (SR) module and combine it with the Transformer decoding layer to progressively utilize the features from different PDP layers. Experiments show that the PDP layer and SR module are effective and our PSNet outperforms previous methods. Our code is public at https://github.com/Chen-Yang-Liu/PSNet
翻訳日:2023-12-21 02:51:38 公開日:2023-12-18
# FLDによるフェデレーション学習におけるバックドアの緩和

Mitigating Backdoors in Federated Learning with FLD ( http://arxiv.org/abs/2303.00302v2 )

ライセンス: Link先を確認
Yihang Lin, Pengyuan Zhou, Zhiqian Wu, Yong Liao(参考訳) フェデレーション学習は、クライアントがプライバシー保護のために生データをアップロードすることなく、グローバルモデルを協調的にトレーニングすることを可能にする。 この機能、すなわち、参加者のデータセットをレビューできないことは、最近、バックドア攻撃に直面したフェデレーション学習の脆弱性の原因であることが判明した。 既存の防御方法は2つの視点から外れている。 1) 非常に特異で限定的な攻撃モデルのみを考慮し、分散バックドア攻撃のような先進的なバックドア攻撃に対処できず、グローバルトリガーを複数の分散トリガに分解する。 2) モデル粒度に基づく検出を行い, モデル寸法の影響を受けやすいようにした。 これらの課題に対処するために,我々は,バックドア攻撃を効果的に防御する新しいモデルフィルタリング手法であるフェデレート層検出(fld)を提案する。 FLDは、層粒度に基づくモデルを調べ、完全なモデルの詳細を捉え、モデル寸法に関係なく潜在的バックドアモデルを自動的に検出する。 我々はFLDの収束の理論的解析と証明を提供する。 広範囲な実験により、fldは最先端のバックドア攻撃を効果的に軽減し、プライマリタスクの精度に悪影響を及ぼすことが示されている。

Federated learning allows clients to collaboratively train a global model without uploading raw data for privacy preservation. This feature, i.e., the inability to review participants' datasets, has recently been found responsible for federated learning's vulnerability in the face of backdoor attacks. Existing defense methods fall short from two perspectives: 1) they consider only very specific and limited attacker models and unable to cope with advanced backdoor attacks, such as distributed backdoor attacks, which break down the global trigger into multiple distributed triggers. 2) they conduct detection based on model granularity thus the performance gets impacted by the model dimension. To address these challenges, we propose Federated Layer Detection (FLD), a novel model filtering approach for effectively defending against backdoor attacks. FLD examines the models based on layer granularity to capture the complete model details and effectively detect potential backdoor models regardless of model dimension. We provide theoretical analysis and proof for the convergence of FLD. Extensive experiments demonstrate that FLD effectively mitigates state-of-the-art backdoor attacks with negligible impact on the accuracy of the primary task.
翻訳日:2023-12-21 02:51:20 公開日:2023-12-18
# CrystalBox: 入力駆動型深部RLシステムの将来的な説明

CrystalBox: Future-Based Explanations for Input-Driven Deep RL Systems ( http://arxiv.org/abs/2302.13483v3 )

ライセンス: Link先を確認
Sagar Patel, Sangeetha Abdu Jyothi, Nina Narodytska(参考訳) 本稿では,コンピュータシステムを含む入力駆動環境の大規模ファミリーにおける深層強化学習(DRL)コントローラのための,新しい,モデルに依存しない,ポストホックな説明可能性フレームワークであるCrystalBoxを紹介する。 入力駆動環境における報酬関数の自然な分解可能性と分解された還元の説明力を組み合わせる。 離散制御環境と連続制御環境の両方にまたがって将来の説明を生成する効率的なアルゴリズムを提案する。 適応ビットレートストリーミングや混雑制御などのアプリケーションを用いて,高忠実度説明を生成するCrystalBoxの能力を示す。 比較説明,ネットワーク可観測性,報酬設計の3つの実用的なユースケースをまたがって,従来の説明可能性技術とは対照的に,その有用性についてさらに説明する。

We present CrystalBox, a novel, model-agnostic, posthoc explainability framework for Deep Reinforcement Learning (DRL) controllers in the large family of input-driven environments which includes computer systems. We combine the natural decomposability of reward functions in input-driven environments with the explanatory power of decomposed returns. We propose an efficient algorithm to generate future-based explanations across both discrete and continuous control environments. Using applications such as adaptive bitrate streaming and congestion control, we demonstrate CrystalBox's capability to generate high-fidelity explanations. We further illustrate its higher utility across three practical use cases: contrastive explanations, network observability, and guided reward design, as opposed to prior explainability techniques that identify salient features.
翻訳日:2023-12-21 02:50:18 公開日:2023-12-18
# 限定クエリグラフ接続性テスト

Limited Query Graph Connectivity Test ( http://arxiv.org/abs/2302.13036v3 )

ライセンス: Link先を確認
Mingyu Guo, Jialiang Li, Aneta Neumann, Frank Neumann, Hung Nguyen(参考訳) 本稿では,限定クエリグラフ接続テストと呼ばれる組合せ最適化モデルを提案する。 エッジが2つの可能な状態(On/Off)を持つグラフを考える。 エッジの状態は最初に隠れている。 エッジをクエリしてその状態を明らかにすることができます。 ソースsと宛先tが与えられた場合、経路(オンエッジのみ)とカット(オフエッジのみ)を識別してs-t接続をテストする。 グラフ接続が確立されたかどうかに関わらず、Bクエリに制限されています。 期待されるクエリ数を最小化するクエリポリシーを設計することを目指している。 我々のモデルは、主にサイバーセキュリティのユースケースに動機付けられており、攻撃経路がネットワーク内、つまりソースと宛先の間に存在するかどうかを確立する必要がある。 エッジクエリは、クエリ最小化の背後にあるモチベーションであるIT管理者の手作業によって解決される。 本モデルはSBFE (monotone Stochastic Boolean Function Evaluation) と密接に関連している。 SBFEには、違法に高価である2つの正確なアルゴリズムがある。 我々はよりスケーラブルな完全アルゴリズムを提案する。 従来の正確なアルゴリズムは、自明なグラフ(つまり、少なくとも20のエッジで実験された過去の作業)に対してのみスケールするが、我々のアルゴリズムは、より広い範囲の実用的なグラフ(例えば、数万のエッジを持つWindowsドメインネットワークグラフ)に対してスケーラブルであることを実証的に実証する。 我々は3つのヒューリスティックを提案する。 我々の最も優れたヒューリスティックは、正確なアルゴリズムの探索地平線を減らすことである。 他の2つは強化学習(RL)とモンテカルロ木探索(MCTS)である。 また,性能下限を計算するためのanytimeアルゴリズムも導出する。 実験では、全てのヒューリスティックがほぼ最適であることを示す。 正確なアルゴリズムに基づくヒューリスティックは、SBFEと関連する文献から移植されたRL、MCTS、および8つの既存のヒューリスティックを上回っている。

We propose a combinatorial optimisation model called Limited Query Graph Connectivity Test. We consider a graph whose edges have two possible states (On/Off). The edges' states are hidden initially. We could query an edge to reveal its state. Given a source s and a destination t, we aim to test s-t connectivity by identifying either a path (consisting of only On edges) or a cut (consisting of only Off edges). We are limited to B queries, after which we stop regardless of whether graph connectivity is established. We aim to design a query policy that minimizes the expected number of queries. Our model is mainly motivated by a cyber security use case where we need to establish whether an attack path exists in a network, between a source and a destination. Edge query is resolved by manual effort from the IT admin, which is the motivation behind query minimization. Our model is highly related to monotone Stochastic Boolean Function Evaluation (SBFE). There are two existing exact algorithms for SBFE that are prohibitively expensive. We propose a significantly more scalable exact algorithm. While previous exact algorithms only scale for trivial graphs (i.e., past works experimented on at most 20 edges), we empirically demonstrate that our algorithm is scalable for a wide range of much larger practical graphs (i.e., Windows domain network graphs with tens of thousands of edges). We propose three heuristics. Our best-performing heuristic is via reducing the search horizon of the exact algorithm. The other two are via reinforcement learning (RL) and Monte Carlo tree search (MCTS). We also derive an anytime algorithm for computing the performance lower bound. Experimentally, we show that all our heuristics are near optimal. The exact algorithm based heuristic outperforms all, surpassing RL, MCTS and 8 existing heuristics ported from SBFE and related literature.
翻訳日:2023-12-21 02:50:04 公開日:2023-12-18
# 量子計測における仮想浄化に基づく誤差緩和の効果

Efficacy of virtual purification-based error mitigation on quantum metrology ( http://arxiv.org/abs/2303.15838v2 )

ライセンス: Link先を確認
Hyukgun Kwon, Changhun Oh, Youngrong Lim, Hyunseok Jeong, Liang Jiang(参考訳) ノイズは、様々な量子情報処理において量子の利点を完全に活用することを妨げる主な原因である。 しかし, 騒音の影響をキャラクタライズし, 校正することは必ずしも不可能ではない。 特に量子パラメータ推定では、ノイズの正確な知識を持たない推定器は避けられないバイアスを伴う。 近年,未知ノイズから発生するバイアスを低減するために,仮想浄化に基づく誤差緩和法(vpem)が提案されている。 特定のケースで機能することが実証されたが、VPEMが常に一般的な推定スキームのバイアスを減少させるかどうかはまだ分かっていない。 量子力学へのVPEMのより一般的な応用については、VPEMがバイアスを低減できるかどうかを決定する因子について検討する。 雑音状態の優占固有ベクトルと観測可能に対する理想量子プローブ(ノイズなし)との近接性は、vpemによるバイアスの還元量を決定する。 次に、対象パラメータの基準点を慎重に選択し、そのバイアスが基準点に依存するため、他のパラメータよりもバイアスが小さいことを示す。 そうでなければ、支配的固有ベクトルと理想量子プローブが近くても、緩和された場合のバイアスは、非緩和の場合よりも大きい可能性がある。 最後に,様々な雑音下での位相推定手法の誤差低減について解析する。 分析から,VPEMがバイアスを効果的に低減し,その結果を数値的に検証できるかどうかを予測する。

Noise is the main source that hinders us from fully exploiting quantum advantages in various quantum informational tasks. However, characterizing and calibrating the effect of noise is not always feasible in practice. Especially for quantum parameter estimation, an estimator constructed without precise knowledge of noise entails an inevitable bias. Recently, virtual purification-based error mitigation (VPEM) has been proposed to apply for quantum metrology to reduce such a bias occurring from unknown noise. While it was demonstrated to work for particular cases, whether VPEM always reduces a bias for general estimation schemes is unclear yet. For more general applications of VPEM to quantum metrology, we study factors determining whether VPEM can reduce the bias. We find that the closeness between the dominant eigenvector of a noisy state and the ideal quantum probe (without noise) with respect to an observable determines the reducible amount of bias by VPEM. Next, we show that one should carefully choose the reference point of the target parameter, which gives a smaller bias than others because the bias depends on the reference point. Otherwise, even if the dominant eigenvector and the ideal quantum probe are close, the bias of the mitigated case could be larger than the non-mitigated one. Finally, we analyze the error mitigation for a phase estimation scheme under various noises. Based on our analysis, we predict whether VPEM can effectively reduce a bias and numerically verify our results.
翻訳日:2023-12-21 02:42:28 公開日:2023-12-18
# Disguise without Disruption: 実用性を維持する顔認識

Disguise without Disruption: Utility-Preserving Face De-Identification ( http://arxiv.org/abs/2303.13269v2 )

ライセンス: Link先を確認
Zikui Cai, Zhongpai Gao, Benjamin Planche, Meng Zheng, Terrence Chen, M. Salman Asif, Ziyan Wu(参考訳) カメラとスマートセンサーの台頭により、人類は指数関数的な量のデータを生成する。 この貴重な情報は、医療現場でAIのような表現不足のケースを含むもので、新しいディープラーニングツールに役立てることができる。 しかし、データサイエンティストは、これらの未処理データセットの個人、特に識別方法の第一ターゲットである顔を持つ画像やビデオのプライバシーを確保することを優先しなければならない。 このような画像を識別する提案された解決策は、下流タスクに関連する非識別の顔属性を妥協することが多い。 本稿では,修正データのユーザビリティを確保しつつ,顔画像をシームレスに識別する新しいアルゴリズムであるDisguiseを紹介する。 これまでのアプローチとは異なり、われわれのソリューションは差分プライバシーとアンサンブル学習研究の領域にしっかりと根ざしている。 本手法は, 難読化と非可逆性を最大化するために変分機構を用いて生成した, 表現されたアイデンティティを合成のもので抽出・置換することを含む。 さらに、エキスパートの混成体からの監督を利用して、他のユーティリティ属性を歪め、保存します。 提案手法を複数のデータセットを用いて広範に評価し,様々な下流タスクにおける従来の手法と比較して,高い非識別率と一貫性を示す。

With the rise of cameras and smart sensors, humanity generates an exponential amount of data. This valuable information, including underrepresented cases like AI in medical settings, can fuel new deep-learning tools. However, data scientists must prioritize ensuring privacy for individuals in these untapped datasets, especially for images or videos with faces, which are prime targets for identification methods. Proposed solutions to de-identify such images often compromise non-identifying facial attributes relevant to downstream tasks. In this paper, we introduce Disguise, a novel algorithm that seamlessly de-identifies facial images while ensuring the usability of the modified data. Unlike previous approaches, our solution is firmly grounded in the domains of differential privacy and ensemble-learning research. Our method involves extracting and substituting depicted identities with synthetic ones, generated using variational mechanisms to maximize obfuscation and non-invertibility. Additionally, we leverage supervision from a mixture-of-experts to disentangle and preserve other utility attributes. We extensively evaluate our method using multiple datasets, demonstrating a higher de-identification rate and superior consistency compared to prior approaches in various downstream tasks.
翻訳日:2023-12-21 02:40:44 公開日:2023-12-18
# 非拘束照明下でのFew-shot Neural Radiance Field

Few-shot Neural Radiance Fields Under Unconstrained Illumination ( http://arxiv.org/abs/2303.11728v3 )

ライセンス: Link先を確認
SeokYeong Lee, JunYong Choi, Seungryong Kim, Ig-Jae Kim, Junghyun Cho(参考訳) 本稿では,入力された多視点画像と照明条件の異なる実環境における新しい視点画像の合成に関する新たな課題を提案する。 このタスクの先駆的作業の一つであるneural radiance fields(nerf)は、制約付き照明の下で撮影された多視点画像の広範なセットを要求する。 以前の作品では、与えられた画像を異なる照明で合成することに成功したが、その性能は依然としてかなりの数の入力された多視点画像に依存している。 この問題を解決するために,多視点アルベド整合性を利用したExtremeNeRFを提案する。 具体的には、異なる視点にまたがって照明不変であるべき固有画像成分を抽出し、制約のない照明下での入力と新規ビューの直接の外観比較を可能にする。 タスク評価には、新しいNeRF Extremeベンチマークを用いて、複数方向の新規視線合成と様々な照度を計測する。

In this paper, we introduce a new challenge for synthesizing novel view images in practical environments with limited input multi-view images and varying lighting conditions. Neural radiance fields (NeRF), one of the pioneering works for this task, demand an extensive set of multi-view images taken under constrained illumination, which is often unattainable in real-world settings. While some previous works have managed to synthesize novel views given images with different illumination, their performance still relies on a substantial number of input multi-view images. To address this problem, we suggest ExtremeNeRF, which utilizes multi-view albedo consistency, supported by geometric alignment. Specifically, we extract intrinsic image components that should be illumination-invariant across different views, enabling direct appearance comparison between the input and novel view under unconstrained illumination. We offer thorough experimental results for task evaluation, employing the newly created NeRF Extreme benchmark-the first in-the-wild benchmark for novel view synthesis under multiple viewing directions and varying illuminations.
翻訳日:2023-12-21 02:40:24 公開日:2023-12-18
# 大気外:データ不要な対向ロバスト性蒸留の探索

Out of Thin Air: Exploring Data-Free Adversarial Robustness Distillation ( http://arxiv.org/abs/2303.11611v2 )

ライセンス: Link先を確認
Yuzheng Wang, Zhaoyu Chen, Dingkang Yang, Pinxue Guo, Kaixun Jiang, Wenqiang Zhang, Lizhe Qi(参考訳) adversarial robustness distillation(adversarial robustness distillation、ard)は、小型キャパシティモデルの限定的なadversarial robustnessを解決し、adversarial training(at)の高価な計算コストを最適化するための有望なタスクである。 優れたロバストな性能にもかかわらず、既存のARDメソッドは、同じ分布を持つオリジナルまたはパブリックなデータに完全に依存するため、自然の高セキュリティシーンにデプロイするには実用的ではない。 実際、これらのデータはほとんど常にプライベートで、特定のもので、高い堅牢性を必要とするシーンに特有である。 これらの問題に対処するために,データに依存しない小型で容易にデプロイ可能な堅牢なモデルをトレーニングすることを目的とした,Data-Free Adversarial Robustness Distillation (DFARD) という,困難だが重要なタスクを提案する。 この課題は知識伝達情報の低い上限にあることを実証し、より効率的に知識のマイニングと転送が重要であることを示す。 人間の教育に刺激されて,知識伝達の効率を向上させるためのプラグアンドプレイ型インタラクティブ温度調整(ITA)戦略を設計し,より多くのデータ情報を保持するための適応発電機バランス(AGB)モジュールを提案する。 提案手法は適応型ハイパーパラメーターを用いて,多数のパラメータチューニングを回避し,既存の手法の組合せを著しく上回っている。 一方,本手法は複数のベンチマークにおいて安定かつ信頼性の高い性能を実現する。

Adversarial Robustness Distillation (ARD) is a promising task to solve the issue of limited adversarial robustness of small capacity models while optimizing the expensive computational costs of Adversarial Training (AT). Despite the good robust performance, the existing ARD methods are still impractical to deploy in natural high-security scenes due to these methods rely entirely on original or publicly available data with a similar distribution. In fact, these data are almost always private, specific, and distinctive for scenes that require high robustness. To tackle these issues, we propose a challenging but significant task called Data-Free Adversarial Robustness Distillation (DFARD), which aims to train small, easily deployable, robust models without relying on data. We demonstrate that the challenge lies in the lower upper bound of knowledge transfer information, making it crucial to mining and transferring knowledge more efficiently. Inspired by human education, we design a plug-and-play Interactive Temperature Adjustment (ITA) strategy to improve the efficiency of knowledge transfer and propose an Adaptive Generator Balance (AGB) module to retain more data information. Our method uses adaptive hyperparameters to avoid a large number of parameter tuning, which significantly outperforms the combination of existing techniques. Meanwhile, our method achieves stable and reliable performance on multiple benchmarks.
翻訳日:2023-12-21 02:39:39 公開日:2023-12-18
# 知識蒸留におけるプロジェクタの役割を理解する

Understanding the Role of the Projector in Knowledge Distillation ( http://arxiv.org/abs/2303.11098v4 )

ライセンス: Link先を確認
Roy Miles and Krystian Mikolajczyk(参考訳) 本稿では,機能マッチングと計量学習問題としての知識蒸留の有効性を再考する。 そこで我々は,3つの重要な設計決定,すなわち正規化,ソフト最大関数,投影層を重要な要素として検証する。 理論的には、プロジェクタが過去の例に関する情報を暗黙的に符号化し、学生に関係勾配を与える。 次に,表現の正規化とプロジェクタのトレーニングダイナミクスが密結合していることを示し,学生のパフォーマンスに大きな影響を与えることを示した。 最後に,単純なソフト最大関数を用いてキャパシティギャップ問題に対処することができることを示す。 様々なベンチマークデータセットにおける実験の結果は、計算効率がはるかに高いにもかかわらず、これらの洞察を使うことは最先端の知識蒸留技術に匹敵する性能をもたらすことを証明している。 特に、画像分類(CIFAR100とImageNet)、オブジェクト検出(COCO2017)、およびトレーニングデータ効率のよいトランスフォーマーなどのより難しい蒸留目標において、画像Net上でDeiT-Tiを用いて77.2%のトップ-1精度を得る。 コードとモデルは公開されている。

In this paper we revisit the efficacy of knowledge distillation as a function matching and metric learning problem. In doing so we verify three important design decisions, namely the normalisation, soft maximum function, and projection layers as key ingredients. We theoretically show that the projector implicitly encodes information on past examples, enabling relational gradients for the student. We then show that the normalisation of representations is tightly coupled with the training dynamics of this projector, which can have a large impact on the students performance. Finally, we show that a simple soft maximum function can be used to address any significant capacity gap problems. Experimental results on various benchmark datasets demonstrate that using these insights can lead to superior or comparable performance to state-of-the-art knowledge distillation techniques, despite being much more computationally efficient. In particular, we obtain these results across image classification (CIFAR100 and ImageNet), object detection (COCO2017), and on more difficult distillation objectives, such as training data efficient transformers, whereby we attain a 77.2% top-1 accuracy with DeiT-Ti on ImageNet. Code and models are publicly available.
翻訳日:2023-12-21 02:39:13 公開日:2023-12-18
# 制御可能なマインド視覚拡散モデル

Controllable Mind Visual Diffusion Model ( http://arxiv.org/abs/2305.10135v3 )

ライセンス: Link先を確認
Bohan Zeng, Shanglin Li, Xuhui Liu, Sicheng Gao, Xiaolong Jiang, Xu Tang, Yao Hu, Jianzhuang Liu, Baochang Zhang(参考訳) 脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。 拡散モデルでは、機能的磁気共鳴イメージング(fmri)データの解析において、元の視覚刺激と一致した高品質画像の再構成が期待されているが、脳信号から意味的およびシルエットな情報を抽出できる精度は限られている。 本研究では,制御可能な心の視覚拡散モデル(cmvdm)と呼ばれる新しいアプローチを提案する。 CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。 さらに、残余ブロックが組み込まれて、セマンティックおよびシルエット機能以外の情報をキャプチャする。 そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。 広汎な実験により,CMVDMは定性的かつ定量的に既存の最先端手法よりも優れていることを示した。

Brain signal visualization has emerged as an active research area, serving as a critical interface between the human visual system and computer vision models. Although diffusion models have shown promise in analyzing functional magnetic resonance imaging (fMRI) data, including reconstructing high-quality images consistent with original visual stimuli, their accuracy in extracting semantic and silhouette information from brain signals remains limited. In this regard, we propose a novel approach, referred to as Controllable Mind Visual Diffusion Model (CMVDM). CMVDM extracts semantic and silhouette information from fMRI data using attribute alignment and assistant networks. Additionally, a residual block is incorporated to capture information beyond semantic and silhouette features. We then leverage a control model to fully exploit the extracted information for image synthesis, resulting in generated images that closely resemble the visual stimuli in terms of semantics and silhouette. Through extensive experimentation, we demonstrate that CMVDM outperforms existing state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2023-12-21 02:31:59 公開日:2023-12-18
# マシンメイドメディア:誤情報とメインストリームニュースサイトにおける機械学習記事のモビライゼーションのモニタリング

Machine-Made Media: Monitoring the Mobilization of Machine-Generated Articles on Misinformation and Mainstream News Websites ( http://arxiv.org/abs/2305.09820v3 )

ライセンス: Link先を確認
Hans W. A. Hanley, Zakir Durumeric(参考訳) ChatGPTのような大規模言語モデル(LLM)が注目を集めるにつれ、ニュースサイトが記事作成に利用し始めている。 しかし、これらの言語モデルは、信頼できるウェブサイト上で事実的に不正確な記事を生成できるだけでなく、不確かなニュースサイトはLLMを利用して誤情報を大量生成することができる。 この現象を理解するために、オンラインニュースメディアにおける合成記事の普及に関する最初の大規模研究の1つを提案する。 そのために、DeBERTaベースの合成ニュース検出器を訓練し、3,074件の誤報や主流ニュースサイトから15.9百万件以上を分類する。 2022年1月1日から2023年5月1日までの間に、メインストリームのウェブサイトでは合成ニュース記事が55.4%増加し、偽情報サイトでは457%増加した。 この増加は、ほとんど人気が低いウェブサイトによって引き起こされている。 中断時間番組を用いたChatGPTのリリースの影響を分析した結果,小規模サイトや誤報ニュースサイトにおける合成記事の増加は顕著であったが,大手ニュースサイトではそれに相当する増加は見られなかった。

As large language models (LLMs) like ChatGPT have gained traction, an increasing number of news websites have begun utilizing them to generate articles. However, not only can these language models produce factually inaccurate articles on reputable websites but disreputable news sites can utilize LLMs to mass produce misinformation. To begin to understand this phenomenon, we present one of the first large-scale studies of the prevalence of synthetic articles within online news media. To do this, we train a DeBERTa-based synthetic news detector and classify over 15.90 million articles from 3,074 misinformation and mainstream news websites. We find that between January 1, 2022, and May 1, 2023, the relative number of synthetic news articles increased by 55.4% on mainstream websites while increasing by 457% on misinformation sites. We find that this increase is largely driven by smaller less popular websites. Analyzing the impact of the release of ChatGPT using an interrupted-time-series, we show that while its release resulted in a marked increase in synthetic articles on small sites as well as misinformation news websites, there was not a corresponding increase on large mainstream news websites.
翻訳日:2023-12-21 02:31:40 公開日:2023-12-18
# 最適化アルゴリズム、リャプノフ関数、微分方程式の接続について:理論と洞察

On the connections between optimization algorithms, Lyapunov functions, and differential equations: theory and insights ( http://arxiv.org/abs/2305.08658v2 )

ライセンス: Link先を確認
Paul Dobson and Jesus Maria Sanz-Serna and Konstantinos Zygalakis(参考訳) 我々は,fazylabらが導入した汎用フレームワーク(siam j. optim. 28 2018)を再検討し,離散時間および連続時間における最適化アルゴリズムのためのリアプノフ関数を構築する。 滑らかで強凸な目的関数に対して、そのような構成に必要な要求を緩和する。 その結果、ポリアックの常微分方程式とネステロフアルゴリズムの2パラメータ族について証明することができ、文献で得られるような収束率が向上した。 我々はNesterovアルゴリズムの解釈をPolyak方程式の離散化として分析する。 アルゴリズムが加法ランゲ・クッタ積分器の例であることを示し、微分方程式のほとんどの離散化が加速を伴う最適化アルゴリズムを導出しない理由を論じる。 また、Polyak方程式の修正を導入し、収束特性について研究する。 最後に、一般のフレームワークを確率的シナリオに拡張し、過パラメータモデルに対する加速度を伴うランダムアルゴリズムへの応用を検討する。

We revisit the general framework introduced by Fazylab et al. (SIAM J. Optim. 28, 2018) to construct Lyapunov functions for optimization algorithms in discrete and continuous time. For smooth, strongly convex objective functions, we relax the requirements necessary for such a construction. As a result we are able to prove for Polyak's ordinary differential equations and for a two-parameter family of Nesterov algorithms rates of convergence that improve on those available in the literature. We analyse the interpretation of Nesterov algorithms as discretizations of the Polyak equation. We show that the algorithms are instances of Additive Runge-Kutta integrators and discuss the reasons why most discretizations of the differential equation do not result in optimization algorithms with acceleration. We also introduce a modification of Polyak's equation and study its convergence properties. Finally we extend the general framework to the stochastic scenario and consider an application to random algorithms with acceleration for overparameterized models; again we are able to prove convergence rates that improve on those in the literature.
翻訳日:2023-12-21 02:30:43 公開日:2023-12-18
# 驚くほど単純な連続アクションpomdpソルバ:ポリシーツリー上の遅延クロスエントロピー探索

A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy Search Over Policy Trees ( http://arxiv.org/abs/2305.08049v2 )

ライセンス: Link先を確認
Marcus Hoerger, Hanna Kurniawati, Dirk Kroese, Nan Ye(参考訳) 部分可観測マルコフ決定プロセス(POMDP)は確率的部分可観測環境における意思決定の原則的枠組みを提供する。 しかし、連続行動空間の問題に対する優れた解の計算は依然として困難である。 この課題を解消するために、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるシンプルなオンラインPOMDP解決器を提案する。 提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いて,簡単なポリシー表現を提供する。 具体的には、有望な有限水平ポリシーツリーの分布を維持する。 この分布はサンプリングポリシによって反復的に更新され、モンテカルロシミュレーションによって評価され、最高性能のものに再適合する。 本手法はポリシツリー表現を利用して,ポリシーサンプリング,評価,分散更新における冗長な計算を回避するという意味では遅延である。 これにより、最大2桁の計算節約が可能となる。 我々のL CEOPTは、既存の最先端手法と比較して驚くほど単純であるが、特に高次元のアクション空間における問題に対して、いくつかの連続作用POMDP問題において、経験的に優れている。

The Partially Observable Markov Decision Process (POMDP) provides a principled framework for decision making in stochastic partially observable environments. However, computing good solutions for problems with continuous action spaces remains challenging. To ease this challenge, we propose a simple online POMDP solver, called Lazy Cross-Entropy Search Over Policy Trees (LCEOPT). At each planning step, our method uses a novel lazy Cross-Entropy method to search the space of policy trees, which provide a simple policy representation. Specifically, we maintain a distribution on promising finite-horizon policy trees. The distribution is iteratively updated by sampling policies, evaluating them via Monte Carlo simulation, and refitting them to the top-performing ones. Our method is lazy in the sense that it exploits the policy tree representation to avoid redundant computations in policy sampling, evaluation, and distribution update. This leads to computational savings of up to two orders of magnitude. Our LCEOPT is surprisingly simple as compared to existing state-of-the-art methods, yet empirically outperforms them on several continuous-action POMDP problems, particularly for problems with higher-dimensional action spaces.
翻訳日:2023-12-21 02:30:08 公開日:2023-12-18
# RelPose++:スパースビューから6Dポスを復元する

RelPose++: Recovering 6D Poses from Sparse-view Observations ( http://arxiv.org/abs/2305.04926v2 )

ライセンス: Link先を確認
Amy Lin, Jason Y. Zhang, Deva Ramanan, Shubham Tulsiani(参考訳) スパースビュー画像集合(2-8画像)から6Dカメラのポーズを推定する作業に対処する。 このタスクは、ほぼすべての現代の(神経)再構成アルゴリズムにとって重要な前処理段階であるが、特に視覚対称性とテクスチャのない表面を持つオブジェクトでは、見劣りがあるため、依然として困難である。 我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。 まず、注意トランスフォーマー層を使用して複数の画像を共同で処理する。オブジェクトの追加ビューは、任意のイメージペアにおける曖昧な対称性(例えば、第3のビューに現れるマグカップのハンドルなど)を解決する可能性があるためである。 第2に,回転推定のあいまいさを変換予測から分離する適切な座標系を定義することにより,カメラ翻訳を報告するネットワークを補強する。 最終システムは,目視対象と目視対象の両方において,先行技術による6次元ポーズ予測を大幅に改善し,対象物のポーズ推定と3次元再構成を可能にした。

We address the task of estimating 6D camera poses from sparse-view image sets (2-8 images). This task is a vital pre-processing stage for nearly all contemporary (neural) reconstruction algorithms but remains challenging given sparse views, especially for objects with visual symmetries and texture-less surfaces. We build on the recent RelPose framework which learns a network that infers distributions over relative rotations over image pairs. We extend this approach in two key ways; first, we use attentional transformer layers to process multiple images jointly, since additional views of an object may resolve ambiguous symmetries in any given image pair (such as the handle of a mug that becomes visible in a third view). Second, we augment this network to also report camera translations by defining an appropriate coordinate system that decouples the ambiguity in rotation estimation from translation prediction. Our final system results in large improvements in 6D pose prediction over prior art on both seen and unseen object categories and also enables pose estimation and 3D reconstruction for in-the-wild objects.
翻訳日:2023-12-21 02:29:23 公開日:2023-12-18
# T-SciQ:Science Question Answeringのための混合大言語モデル信号によるマルチモーダル・チェーン・オブ・ソート推論の指導

T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large Language Model Signals for Science Question Answering ( http://arxiv.org/abs/2305.03453v4 )

ライセンス: Link先を確認
Lei Wang, Yi Hu, Jiabang He, Xing Xu, Ning Liu, Hui Liu, Heng Tao Shen(参考訳) 大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。 彼らはまた、複雑な問題を解決するためにチェーン・オブ・ソート(CoT)推論を行う能力を示した。 最近の研究は、高品質な人間注釈付きCoT論理を用いた微調整マルチモーダルモデルにより、科学質問応答タスクのような複雑なマルチモーダルシナリオにおけるCoT推論を探索している。 しかし、高品質なCOT論理の収集は通常、時間と費用がかかる。 さらに、注釈付き論理は外部の必須情報が欠落しているため、ほとんど正確ではない。 そこで本研究では,llm信号を用いた科学質問応答の指導を目的としたt-sciqと呼ばれる新しい手法を提案する。 T-SciQアプローチは、教示信号として高品質なCoT論理を生成し、より小さなモデルを訓練して複雑なモダリティでCoT推論を行うよう進歩している。 さらに,単純で複雑な質問応答問題に対して,より効果的なデータサンプルを作成するための新しいデータ混合戦略を提案する。 その結果,ScienceQAベンチマークにおけるT-SciQ法は96.18%の精度で新しい最先端性能を実現した。 さらに,本手法は最強の微調整ベースラインを4.5%向上させる。 コードはhttps://github.com/T-SciQ/T-SciQで公開されている。

Large Language Models (LLMs) have recently demonstrated exceptional performance in various Natural Language Processing (NLP) tasks. They have also shown the ability to perform chain-of-thought (CoT) reasoning to solve complex problems. Recent studies have explored CoT reasoning in complex multimodal scenarios, such as the science question answering task, by fine-tuning multimodal models with high-quality human-annotated CoT rationales. However, collecting high-quality COT rationales is usually time-consuming and costly. Besides, the annotated rationales are hardly accurate due to the external essential information missed. To address these issues, we propose a novel method termed T-SciQ that aims at teaching science question answering with LLM signals. The T-SciQ approach generates high-quality CoT rationales as teaching signals and is advanced to train much smaller models to perform CoT reasoning in complex modalities. Additionally, we introduce a novel data mixing strategy to produce more effective teaching data samples for simple and complex science question answer problems. Extensive experimental results show that our T-SciQ method achieves a new state-of-the-art performance on the ScienceQA benchmark, with an accuracy of 96.18%. Moreover, our approach outperforms the most powerful fine-tuned baseline by 4.5%. The code is publicly available at https://github.com/T-SciQ/T-SciQ.
翻訳日:2023-12-21 02:29:02 公開日:2023-12-18
# 対称正定値多様体上の低複素部分空間線

Low-complexity subspace-descent over symmetric positive definite manifold ( http://arxiv.org/abs/2305.02041v4 )

ライセンス: Link先を確認
Yogesh Darmwal, Ketan Rajawat(参考訳) この研究は、対称正定値(spd)多様体上の関数の最小化のための低複素リーマン部分空間降下アルゴリズムをもたらす。 既存のリーマン勾配降下変種と異なり、提案手法は慎重に選択された部分空間を利用して、更新をイテレートのコレスキー因子とスパース行列の積として記述することができる。 結果として得られる更新は、spd多様体上のほとんど全てのリーマン最適化アルゴリズムで一般的に必要とされる行列指数や密行列乗法のようなコストのかかる行列演算を避ける。 さらに,多種多様な応用,例えば,カーネル・マトリックス・ラーニング,ガウス分布の共分散推定,楕円曲線分布の最大確率パラメータ推定,およびリーマン勾配を効率的に計算できるガウス混合モデル問題におけるパラメータ推定を同定する。 提案する一方向および多方向のリーマン部分空間降下変種は、既存のリーマン勾配降下変種すべてによって生じる$o(n^3)$ またはそれ以上の複雑性に対して、それぞれ$o(n)$ と $o(n^2)$ の単調複素性をもたらす。 また, 大規模共分散推定と行列平方根問題の数値実験により, 提案アルゴリズムの優れた実行時間と文毎の複雑性を実証した。 matlabのコード実装はgithubで公開されている。 https://github.com/yogeshd-iitk/subspace_descent_over_spd_manifold

This work puts forth low-complexity Riemannian subspace descent algorithms for the minimization of functions over the symmetric positive definite (SPD) manifold. Different from the existing Riemannian gradient descent variants, the proposed approach utilizes carefully chosen subspaces that allow the update to be written as a product of the Cholesky factor of the iterate and a sparse matrix. The resulting updates avoid the costly matrix operations like matrix exponentiation and dense matrix multiplication, which are generally required in almost all other Riemannian optimization algorithms on SPD manifold. We further identify a broad class of functions, arising in diverse applications, such as kernel matrix learning, covariance estimation of Gaussian distributions, maximum likelihood parameter estimation of elliptically contoured distributions, and parameter estimation in Gaussian mixture model problems, over which the Riemannian gradients can be calculated efficiently. The proposed uni-directional and multi-directional Riemannian subspace descent variants incur per-iteration complexities of $O(n)$ and $O(n^2)$ respectively, as compared to the $O(n^3)$ or higher complexity incurred by all existing Riemannian gradient descent variants. The superior runtime and low per-iteration complexity of the proposed algorithms is also demonstrated via numerical tests on large-scale covariance estimation and matrix square root problems. MATLAB code implementation is publicly available on GitHub : https://github.com/yogeshd-iitk/subspace_descent_over_SPD_manifold
翻訳日:2023-12-21 02:28:38 公開日:2023-12-18
# 超伝導量子ビットの最適リセット

Optimizing resetting of superconducting qubits ( http://arxiv.org/abs/2304.00684v2 )

ライセンス: Link先を確認
Ciro M. Diniz, Rogerio J. de Assis, Norton G. de Almeida and Celso J. Villas-Boas(参考訳) 多くの量子アルゴリズムは、信頼できる統計結果を得るために多数の繰り返しを要求する。 したがって、それぞれの繰り返しにおいて、量子ビットを可能な限り短時間で効率よく正確にリセットする必要があるため、量子コンピュータは古典的よりも有利である。 本研究では,超伝導量子ビットにおける情報リセットのための3種類のモデルについて詳細な解析を行う。 我々の実験装置は、主量子ビットの情報を消去するために使用される、異なる補助散逸系に結合された主量子ビットで構成されている。 解析の結果,主キュービットのリセット時間を削減するために補助系に関連する結合や散逸率を増加させるには不十分であり,各研究手法のパラメータの最適集合を見出すことが動機となり,解析した3つのモデルのリセット時間を大幅に減少させることができた。

Many quantum algorithms demand a large number of repetitions to obtain reliable statistical results. Thus, at each repetition it is necessary to reset the qubits efficiently and precisely in the shortest possible time, so that quantum computers actually have advantages over classical ones. In this work, we perform a detailed analysis on three different models for information resetting in superconducting qubits. Our experimental setup consists of a main qubit coupled to different auxiliary dissipative systems, that are employed in order to perform the erasing of the information of the main qubit. Our analysis shows that it is not enough to increase the coupling and the dissipation rate associated with the auxiliary systems to decrease the resetting time of the main qubit, a fact that motivates us to find the optimal set of parameters for each studied approach, allowing a significant decrease in the reset time of the three models analyzed.
翻訳日:2023-12-21 02:26:59 公開日:2023-12-18
# MobileInst: モバイル上のビデオインスタンスのセグメンテーション

MobileInst: Video Instance Segmentation on the Mobile ( http://arxiv.org/abs/2303.17594v2 )

ライセンス: Link先を確認
Renhong Zhang, Tianheng Cheng, Shusheng Yang, Haoyi Jiang, Shuai Zhang, Jiancheng Lyu, Xin Li, Xiaowen Ying, Dashan Gao, Wenyu Liu, Xinggang Wang(参考訳) モバイルデバイス上のビデオインスタンスのセグメンテーションは、重要なが非常に難しいエッジAI問題である。 主に、(1)フレーム単位の画素単位のインスタンス知覚の重い計算とメモリコスト、(2)追跡対象の複雑なヒューリスティックに苦しむ。 そこで我々は,モバイル端末上でビデオインスタンスセグメンテーションを行うための軽量かつモバイルフレンドリーなフレームワークであるmobileinstを提案する。 まずmobileinstでは,マルチレベルセマンティクス機能を抽出するためにmobile vision transformerを採用し,マスクカーネル用のクエリベースのデュアルトランスフォーマインスタンスデコーダと,セマンティクスエンハンスドマスクデコーダを使用して,フレーム毎にインスタンスセグメンテーションを生成する。 次にmobileinstは、シンプルで効果的なカーネル再利用とカーネルアソシエーションを利用して、ビデオインスタンスセグメンテーションのオブジェクトを追跡する。 さらに,カーネルのトラッキング能力を高めるために,時間的クエリパッシングを提案する。 我々はCOCOとYouTube-VISデータセットの実験を行い、MobileInstの優位性を実証し、Snapdragon 778G Mobile Platformの1つのCPUコアにおける推論遅延を他のアクセラレーション手法なしで評価した。 cocoデータセットでは、mobileinstは31.2マスクapと433msをモバイルcpu上で達成し、以前のsomaと比較してレイテンシを50%削減している。 ビデオインスタンスのセグメンテーションでは、YouTube-VIS 2019で35.0 AP、YouTube-VIS 2021で30.1 APを達成した。 コードは現実世界のアプリケーションと将来の研究を促進するために利用できる。

Video instance segmentation on mobile devices is an important yet very challenging edge AI problem. It mainly suffers from (1) heavy computation and memory costs for frame-by-frame pixel-level instance perception and (2) complicated heuristics for tracking objects. To address those issues, we present MobileInst, a lightweight and mobile-friendly framework for video instance segmentation on mobile devices. Firstly, MobileInst adopts a mobile vision transformer to extract multi-level semantic features and presents an efficient query-based dual-transformer instance decoder for mask kernels and a semantic-enhanced mask decoder to generate instance segmentation per frame. Secondly, MobileInst exploits simple yet effective kernel reuse and kernel association to track objects for video instance segmentation. Further, we propose temporal query passing to enhance the tracking ability for kernels. We conduct experiments on COCO and YouTube-VIS datasets to demonstrate the superiority of MobileInst and evaluate the inference latency on one single CPU core of Snapdragon 778G Mobile Platform, without other methods of acceleration. On the COCO dataset, MobileInst achieves 31.2 mask AP and 433 ms on the mobile CPU, which reduces the latency by 50% compared to the previous SOTA. For video instance segmentation, MobileInst achieves 35.0 AP on YouTube-VIS 2019 and 30.1 AP on YouTube-VIS 2021. Code will be available to facilitate real-world applications and future research.
翻訳日:2023-12-21 02:26:45 公開日:2023-12-18
# スマートフォンデータによる社会的文脈の学習 : 各国の一般化と日常生活のモメンデーション

Learning about Social Context from Smartphone Data: Generalization Across Countries and Daily Life Moments ( http://arxiv.org/abs/2306.00919v3 )

ライセンス: Link先を確認
Aurel Ruben Mader, Lakmal Meegahapola, Daniel Gatica-Perez(参考訳) 人々の日常生活における社会的状況の展開を理解することは、ユーザの個人的目標、幸福、活動を支援するモバイルシステムの設計に関係している。 アンケートの代替として、スマートフォンのセンサデータを受動的に収集し、機械学習モデルで社会的状況(一人かどうか)を推測する研究がある。 しかし、現存する数少ない研究は、1つか2か国で特定の日常生活の機会と限られた地理的コホートに焦点を当てている。 これは、日常生活や複数の国への一般化の観点から、推論モデルがどのように機能するかの理解を制限している。 本稿では,5カ国(モンゴル,イタリア,デンマーク,イギリス,パラグアイ)の581人の若者から収集された216K以上の自己申告データを用いた,新しい大規模・マルチモーダルなスマートフォンセンシングデータセットを用いて,社会的文脈推論がセンサデータで可能かどうかを把握し,行動的・国レベルの多様性が推論に与える影響を明らかにする。 その結果、複数のセンサが社会状況に情報を与え、複数の国でパーソナライズされたモデル(すべての国のデータでトレーニングされ、テストされている)と国固有のモデル(国内でトレーニングされテストされている)が90%以上のauc以上の性能を達成できることがわかった。 これらの結果は、異なる国の社会的文脈推論モデルをよりよく理解するために、モバイルデータの多様性の重要性を裏付けるものである。

Understanding how social situations unfold in people's daily lives is relevant to designing mobile systems that can support users in their personal goals, well-being, and activities. As an alternative to questionnaires, some studies have used passively collected smartphone sensor data to infer social context (i.e., being alone or not) with machine learning models. However, the few existing studies have focused on specific daily life occasions and limited geographic cohorts in one or two countries. This limits the understanding of how inference models work in terms of generalization to everyday life occasions and multiple countries. In this paper, we used a novel, large-scale, and multimodal smartphone sensing dataset with over 216K self-reports collected from 581 young adults in five countries (Mongolia, Italy, Denmark, UK, Paraguay), first to understand whether social context inference is feasible with sensor data, and then, to know how behavioral and country-level diversity affects inferences. We found that several sensors are informative of social context, that partially personalized multi-country models (trained and tested with data from all countries) and country-specific models (trained and tested within countries) can achieve similar performance above 90% AUC, and that models do not generalize well to unseen countries regardless of geographic proximity. These findings confirm the importance of the diversity of mobile data, to better understand social context inference models in different countries.
翻訳日:2023-12-21 02:20:10 公開日:2023-12-18
# グラフニューラルネットワークによるリンク予測の落とし穴 : ターゲットリンク包含の影響とより良い実践の理解

Pitfalls in Link Prediction with Graph Neural Networks: Understanding the Impact of Target-link Inclusion & Better Practices ( http://arxiv.org/abs/2306.00899v2 )

ライセンス: Link先を確認
Jing Zhu, Yuhang Zhou, Vassilis N. Ioannidis, Shengyi Qian, Wei Ai, Xiang Song, Danai Koutra(参考訳) グラフニューラルネットワーク(GNN)は、様々な高インパクトアプリケーションで著しく成功しているが、リンク予測では、トレーニングやテストにおいてグラフ内で予測されるエッジを含む一般的なプラクティスが、低次ノードのパフォーマンスに大きく影響していることを示す。 我々はこれらのプラクティスがノードレベルのパフォーマンスにどのように影響するかを理論的および実証的に検討する。 具体的には, (I1) オーバーフィッティング, (I2) 分布シフト, (I3) 暗黙的なテストリークという3つの問題について検討する。 前者2つの問題はテストデータの一般化性を低下させ、後者はモデルの性能を過大評価し、gnnの展開に直接影響を及ぼす。 これらの問題を体系的に解決するために,我々は,低次ノードに関する我々の洞察を活用した効果的かつ効率的なgnnトレーニングフレームワークであるspottargetを導入する。(1) トレーニング時に,少なくとも1つの低次ノードにインシデントした場合に予測される(トレーニング)エッジを除外し,(2) テスト時に予測すべきすべてのテストエッジを除外する(つまり,テストデータがグラフに含まれないgnnを使用する実際のシナリオを模倣する)。 spottargetは、グラフデータから学ぶためのベストプラクティスを研究者や実践者が遵守するのに役立つ。 実世界の各種データセットを用いた実験により,疎グラフにおけるGNNの精度は最大15倍に向上し,高密度グラフにおける低次ノードの性能が大幅に向上した。

While Graph Neural Networks (GNNs) are remarkably successful in a variety of high-impact applications, we demonstrate that, in link prediction, the common practices of including the edges being predicted in the graph at training and/or test have outsized impact on the performance of low-degree nodes. We theoretically and empirically investigate how these practices impact node-level performance across different degrees. Specifically, we explore three issues that arise: (I1) overfitting; (I2) distribution shift; and (I3) implicit test leakage. The former two issues lead to poor generalizability to the test data, while the latter leads to overestimation of the model's performance and directly impacts the deployment of GNNs. To address these issues in a systematic way, we introduce an effective and efficient GNN training framework, SpotTarget, which leverages our insight on low-degree nodes: (1) at training time, it excludes a (training) edge to be predicted if it is incident to at least one low-degree node; and (2) at test time, it excludes all test edges to be predicted (thus, mimicking real scenarios of using GNNs, where the test data is not included in the graph). SpotTarget helps researchers and practitioners adhere to best practices for learning from graph data, which are frequently overlooked even by the most widely-used frameworks. Our experiments on various real-world datasets show that SpotTarget makes GNNs up to 15x more accurate in sparse graphs, and significantly improves their performance for low-degree nodes in dense graphs.
翻訳日:2023-12-21 02:19:40 公開日:2023-12-18
# 総合的な決定勾配:モデルが決定を下す場所の属性を計算する

Integrated Decision Gradients: Compute Your Attributions Where the Model Makes Its Decision ( http://arxiv.org/abs/2305.20052v2 )

ライセンス: Link先を確認
Chase Walker, Sumit Jha, Kenny Chen, Rickard Ewetz(参考訳) 帰属アルゴリズムは、ニューラルネットワークモデルの決定を説明するために頻繁に用いられる。 統合グラディエンツ(IG)は、その強い公理的基盤により、重要な帰属法である。 アルゴリズムは、参照画像から入力画像への経路に沿って勾配を統合することに基づいている。 残念ながら、出力ロジットが経路に沿って最小に変化する領域から計算された勾配は、飽和効果問題と呼ばれるモデル決定の不十分な説明をもたらすことが観察できる。 本稿では,IDG(Integrated decision gradients)と呼ばれる帰属アルゴリズムを提案する。 このアルゴリズムは、モデルが決定を下す経路の領域、すなわち出力ロジットがゼロから最終値に急速に遷移する経路の一部からの勾配の統合に焦点を当てている。 これは、経路に対する出力ロジットの微分によって各勾配をスケーリングすることで実現される。 これにより、アルゴリズムは飽和問題に対する原理的な解を与える。 さらに,適応サンプリングによって決定される非一様部分分割を利用して,経路積分のリーマン和近似における誤差を最小化する。 ImageNetの評価において、IDGはIG, left-IG, Guided IG, および3つの共通モデルにわたる標準挿入・削除指標を用いて、定性的かつ定量的に対向勾配積分を上回ることを示した。

Attribution algorithms are frequently employed to explain the decisions of neural network models. Integrated Gradients (IG) is an influential attribution method due to its strong axiomatic foundation. The algorithm is based on integrating the gradients along a path from a reference image to the input image. Unfortunately, it can be observed that gradients computed from regions where the output logit changes minimally along the path provide poor explanations for the model decision, which is called the saturation effect problem. In this paper, we propose an attribution algorithm called integrated decision gradients (IDG). The algorithm focuses on integrating gradients from the region of the path where the model makes its decision, i.e., the portion of the path where the output logit rapidly transitions from zero to its final value. This is practically realized by scaling each gradient by the derivative of the output logit with respect to the path. The algorithm thereby provides a principled solution to the saturation problem. Additionally, we minimize the errors within the Riemann sum approximation of the path integral by utilizing non-uniform subdivisions determined by adaptive sampling. In the evaluation on ImageNet, it is demonstrated that IDG outperforms IG, Left-IG, Guided IG, and adversarial gradient integration both qualitatively and quantitatively using standard insertion and deletion metrics across three common models.
翻訳日:2023-12-21 02:19:08 公開日:2023-12-18
# vilas:自動音声認識における視覚と言語コンテキストの影響を探る

VILAS: Exploring the Effects of Vision and Language Context in Automatic Speech Recognition ( http://arxiv.org/abs/2305.19972v2 )

ライセンス: Link先を確認
Ziyi Ni and Minglun Han and Feilong Chen and Linghui Meng and Jing Shi and Pin Lv and Bo Xu(参考訳) 追加のマルチモーダル情報を活用した自動音声認識(ASR)の性能向上は,従来の研究で有望な結果を示した。 しかし、これらの作品の多くは、主に人間の唇の動きに由来する視覚手がかりの利用に焦点が当てられている。 実際、コンテキスト依存の視覚的および言語的手がかりは多くのシナリオで有用である。 本稿では,視覚とテキストのコンテキストを同時にあるいは別々に統合し,音声認識を容易にする,連続統合・火災(CIF)機構に基づく新しいマルチモーダルASRモデルであるViLaS(Vision and Language into Automatic Speech Recognition)を提案する。 次に,モード不完全テストシナリオの性能を向上させる効果的なトレーニング戦略を提案する。 そして、視覚と言語の統合効果を探るため、中国語と英語の両バージョンでマルチモーダルコンテキストキューを備えたマルチモーダルASRデータセットであるVSDialを作成します。 最後に、公開Flickr8Kと自作VSDialデータセットで実証結果が報告されている。 様々なクロスモーダル融合スキームを探索し,vsdialにおける細粒度クロスモーダルアライメントを分析し,マルチモーダル情報の統合が音声認識に与える影響について考察する。

Enhancing automatic speech recognition (ASR) performance by leveraging additional multimodal information has shown promising results in previous studies. However, most of these works have primarily focused on utilizing visual cues derived from human lip motions. In fact, context-dependent visual and linguistic cues can also benefit in many scenarios. In this paper, we first propose ViLaS (Vision and Language into Automatic Speech Recognition), a novel multimodal ASR model based on the continuous integrate-and-fire (CIF) mechanism, which can integrate visual and textual context simultaneously or separately, to facilitate speech recognition. Next, we introduce an effective training strategy that improves performance in modal-incomplete test scenarios. Then, to explore the effects of integrating vision and language, we create VSDial, a multimodal ASR dataset with multimodal context cues in both Chinese and English versions. Finally, empirical results are reported on the public Flickr8K and self-constructed VSDial datasets. We explore various cross-modal fusion schemes, analyze fine-grained crossmodal alignment on VSDial, and provide insights into the effects of integrating multimodal information on speech recognition.
翻訳日:2023-12-21 02:18:45 公開日:2023-12-18
# すべてのニューロシンボリック概念が等しく作られるわけではない:推論ショートカットの分析と緩和

Not All Neuro-Symbolic Concepts Are Created Equal: Analysis and Mitigation of Reasoning Shortcuts ( http://arxiv.org/abs/2305.19951v2 )

ライセンス: Link先を確認
Emanuele Marconato, Stefano Teso, Antonio Vergari, Andrea Passerini(参考訳) ニューロシンボリック(nesy)予測モデルは、サブシンボリック入力から抽出されたハイレベルな概念を推論することで、いくつかの事前知識と一致するラベルを推論できるため、与えられた制約、体系的な一般化、解釈可能性へのコンプライアンスの改善を約束している。 高い精度を達成することができるが、意図しないセマンティクスを持つ概念を活用することで、約束された利点を欠くことができる。 しかし、推論ショートカットと潜在的な緩和戦略の体系的な特徴が欠けている。 この研究は、学習対象の意図しない最適性を特徴付け、その発生の背後にある4つの重要な条件を特定することで、このギャップを埋める。 そこで我々は,いくつかの自然緩和戦略を導出し,その効果を理論的・実証的に分析する。 我々の分析は、既存のNeSyソリューションの信頼性と解釈可能性に疑問を呈し、ショートカットの理由付けが難しいことを示している。

Neuro-Symbolic (NeSy) predictive models hold the promise of improved compliance with given constraints, systematic generalization, and interpretability, as they allow to infer labels that are consistent with some prior knowledge by reasoning over high-level concepts extracted from sub-symbolic inputs. It was recently shown that NeSy predictors are affected by reasoning shortcuts: they can attain high accuracy but by leveraging concepts with unintended semantics, thus coming short of their promised advantages. Yet, a systematic characterization of reasoning shortcuts and of potential mitigation strategies is missing. This work fills this gap by characterizing them as unintended optima of the learning objective and identifying four key conditions behind their occurrence. Based on this, we derive several natural mitigation strategies, and analyze their efficacy both theoretically and empirically. Our analysis shows reasoning shortcuts are difficult to deal with, casting doubts on the trustworthiness and interpretability of existing NeSy solutions.
翻訳日:2023-12-21 02:18:26 公開日:2023-12-18
# 事前学習型大規模言語モデルを用いたPDDLドメインの汎用計画

Generalized Planning in PDDL Domains with Pretrained Large Language Models ( http://arxiv.org/abs/2305.11014v2 )

ライセンス: Link先を確認
Tom Silver, Soham Dan, Kavitha Srinivas, Joshua B. Tenenbaum, Leslie Pack Kaelbling, Michael Katz(参考訳) 最近の研究は、大きな言語モデル(LLM)がプランナーとして機能するかどうかを検討してきた。 ドメインとトレーニングタスクが与えられた場合、LLMはドメイン内の他のタスクの計画を効率的に生成するプログラムを生成する。 特に、PDDLドメインを検討し、GPT-4を用いてPythonプログラムを合成する。 また、(1) llmがドメインを要約し、プログラムを合成する前に言葉で戦略を提案する連鎖的思考(cot)要約、(2)プログラムがトレーニングタスクに関して検証される自動デバッグ、そしてエラーの場合、llmは4種類のフィードバックで再入力される。 このアプローチを7つのpddlドメインで評価し,4つのアブレーションと4つのベースラインと比較した。 全体として、GPT-4は驚くほど強力な一般化プランナーである。 また,自動デバッギングは非常に重要であること,CoTの要約が一様でないこと,GPT-4がGPT-3.5よりはるかに優れていること,そして2つのトレーニングタスクだけが強力な一般化に十分であることも結論した。

Recent work has considered whether large language models (LLMs) can function as planners: given a task, generate a plan. We investigate whether LLMs can serve as generalized planners: given a domain and training tasks, generate a program that efficiently produces plans for other tasks in the domain. In particular, we consider PDDL domains and use GPT-4 to synthesize Python programs. We also consider (1) Chain-of-Thought (CoT) summarization, where the LLM is prompted to summarize the domain and propose a strategy in words before synthesizing the program; and (2) automated debugging, where the program is validated with respect to the training tasks, and in case of errors, the LLM is re-prompted with four types of feedback. We evaluate this approach in seven PDDL domains and compare it to four ablations and four baselines. Overall, we find that GPT-4 is a surprisingly powerful generalized planner. We also conclude that automated debugging is very important, that CoT summarization has non-uniform impact, that GPT-4 is far superior to GPT-3.5, and that just two training tasks are often sufficient for strong generalization.
翻訳日:2023-12-21 02:14:45 公開日:2023-12-18
# 非局所量子計算と情報理論暗号

Relating non-local quantum computation to information theoretic cryptography ( http://arxiv.org/abs/2306.16462v3 )

ライセンス: Link先を確認
Rene Allerstorfer, Harry Buhrman, Alex May, Florian Speelman, Philip Verduyn Lunel(参考訳) 非局所量子計算(NLQC)は位置検証スキームの不正な方法であり、AdS/CFT対応の文脈に現れている。 ここでは、nlqcを情報理論的な暗号のより広い文脈に結びつけ、他の多くの暗号プリミティブに関連付ける。 f$-routingとして知られるnlqcの特別な場合の一つは、cdsプリミティブの条件付き開示の量子アナログ(英語版)(quantum analogue of the conditional disclosure of secrets)に相当する。 さらに,コヒーレント関数評価(CFE)と呼ばれる位置検証の特殊な事例についても検討し,CFEプロトコルがプライベート同時メッセージパッシング(PSM)シナリオに対して同様の効率的なプロトコルを誘導することを示す。 これらの暗号プリミティブに位置検証を関連付けることで、暗号文学における多くの結果はNLQCに新しい意味を与え、その逆も与える。 これには、最悪の場合のコストが$f$-routing of $2^{O(\sqrt{n\log n})}$ entanglement(英語版)の最初の部分指数上界、外部にあると思われる問題に対する効率的な$f$-routing(英語版)戦略の最初の例、量子設定におけるCDSの絡み合いの線形下界、CFEの通信コストの線形下界、低T$の量子回路で計算できる関数の量子設定におけるCDSの効率的なプロトコルが含まれる。

Non-local quantum computation (NLQC) is a cheating strategy for position-verification schemes, and has appeared in the context of the AdS/CFT correspondence. Here, we connect NLQC to the wider context of information theoretic cryptography by relating it to a number of other cryptographic primitives. We show one special case of NLQC, known as $f$-routing, is equivalent to the quantum analogue of the conditional disclosure of secrets (CDS) primitive, where by equivalent we mean that a protocol for one task gives a protocol for the other with only small overhead in resource costs. We further consider another special case of position verification, which we call coherent function evaluation (CFE), and show CFE protocols induce similarly efficient protocols for the private simultaneous message passing (PSM) scenario. By relating position-verification to these cryptographic primitives, a number of results in the cryptography literature give new implications for NLQC, and vice versa. These include the first sub-exponential upper bounds on the worst case cost of $f$-routing of $2^{O(\sqrt{n\log n})}$ entanglement, the first example of an efficient $f$-routing strategy for a problem believed to be outside $P/poly$, linear lower bounds on entanglement for CDS in the quantum setting, linear lower bounds on communication cost of CFE, and efficient protocols for CDS in the quantum setting for functions that can be computed with quantum circuits of low $T$ depth.
翻訳日:2023-12-21 00:32:51 公開日:2023-12-18
# h$_2$o: 大きな言語モデルの効率的な生成推論のための重いoracle

H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models ( http://arxiv.org/abs/2306.14048v3 )

ライセンス: Link先を確認
Zhenyu Zhang, Ying Sheng, Tianyi Zhou, Tianlong Chen, Lianmin Zheng, Ruisi Cai, Zhao Song, Yuandong Tian, Christopher R\'e, Clark Barrett, Zhangyang Wang, Beidi Chen(参考訳) 大規模な言語モデル(llm)は、最近の印象的な成果にもかかわらず、特に、対話システムやストーリーライティングなど、長期コンテンツ生成を含むアプリケーションにおいて、デプロイにコストがかかる。 多くの場合、KVキャッシュと呼ばれる大量の過渡状態情報は、モデルパラメータに加えてGPUメモリに格納され、シーケンス長とバッチサイズに線形にスケーリングされる。 本稿では,KVキャッシュの実装において,メモリフットプリントを大幅に削減する新しい手法を提案する。 我々のアプローチは、少数のトークンが注目度を計算する際に価値の大半に貢献するという注目すべき観察に基づいています。 これらのトークンをヘビーヒッター (H$_2$) と呼ぶ。 包括的な調査を通じて (i)h$_2$の出現は自然であり、テキスト中のトークンの頻繁な共起と強い相関がある。 (ii) 除去すると性能が著しく低下する。 これらの知見に基づき、我々は、最近およびh$_2$トークンのバランスを動的に保持するkvキャッシュ退避ポリシーであるヘビーヒットオラクル(h$_2$o)を提案する。 我々はKVキャッシュ消去を動的部分モジュラー問題として定式化し、将来的な作業のガイドとなる新しい消去アルゴリズムの理論的保証を(軽微な仮定の下で)証明する。 我々は,OPT,LLaMA,GPT-NeoXを用いて,幅広いタスクでアルゴリズムの精度を検証する。 OPT-6.7B と OPT-30B で、最大 29$\times$, 29$\times$, 3$\times$ の3つの主要な推論システム、DeepSpeed Zero-Inference, Hugging Face Accelerate, FlexGen のスループットを改善しました。 同じバッチサイズで、H2Oはレイテンシを最大1.9$\times$まで削減できる。 コードはhttps://github.com/fminference/h2oで入手できる。

Large Language Models (LLMs), despite their recent impressive accomplishments, are notably cost-prohibitive to deploy, particularly for applications involving long-content generation, such as dialogue systems and story writing. Often, a large amount of transient state information, referred to as the KV cache, is stored in GPU memory in addition to model parameters, scaling linearly with the sequence length and batch size. In this paper, we introduce a novel approach for implementing the KV cache which significantly reduces its memory footprint. Our approach is based on the noteworthy observation that a small portion of tokens contributes most of the value when computing attention scores. We call these tokens Heavy Hitters (H$_2$). Through a comprehensive investigation, we find that (i) the emergence of H$_2$ is natural and strongly correlates with the frequent co-occurrence of tokens in the text, and (ii) removing them results in significant performance degradation. Based on these insights, we propose Heavy Hitter Oracle (H$_2$O), a KV cache eviction policy that dynamically retains a balance of recent and H$_2$ tokens. We formulate the KV cache eviction as a dynamic submodular problem and prove (under mild assumptions) a theoretical guarantee for our novel eviction algorithm which could help guide future work. We validate the accuracy of our algorithm with OPT, LLaMA, and GPT-NeoX across a wide range of tasks. Our implementation of H$_2$O with 20% heavy hitters improves the throughput over three leading inference systems DeepSpeed Zero-Inference, Hugging Face Accelerate, and FlexGen by up to 29$\times$, 29$\times$, and 3$\times$ on OPT-6.7B and OPT-30B. With the same batch size, H2O can reduce the latency by up to 1.9$\times$. The code is available at https://github.com/FMInference/H2O.
翻訳日:2023-12-21 00:32:18 公開日:2023-12-18
# MimiC: 中央アップデートのミスによるフェデレーション学習でクライアントのドロップアウトを回避

MimiC: Combating Client Dropouts in Federated Learning by Mimicking Central Updates ( http://arxiv.org/abs/2306.12212v3 )

ライセンス: Link先を確認
Yuchang Sun and Yuyi Mao and Jun Zhang(参考訳) フェデレーション学習(federated learning, fl)は、プライバシ保護による協調学習のための有望なフレームワークであり、モデルトレーニングタスクをクライアントに分散し、モデル更新のみをサーバに収集する。 しかし、モバイルエッジネットワークにデプロイされる場合、クライアントは予測不可能な可用性を持ち、トレーニングプロセスから抜け出し、FLの収束を妨げる可能性がある。 この論文はそのような批判的な課題に取り組む。 具体的には、任意のクライアントドロップアウトを持つ古典的FedAvgアルゴリズムの収束性について検討する。 フェデレーション学習率の一般的な選択により、フェデブグは、集約された中央更新と所望の中央更新の相違によって引き起こされる大域的損失関数の静止点の周りで振動する。 この新たな観察に動機づけられ、サーバが受信した各モデル更新を前のものに基づいて修正するミイムと呼ばれる新しいトレーニングアルゴリズムを設計した。 受信したモデル更新の修正提案は、ドロップアウトクライアントに関係なく、想像上の中央更新を模倣する。 MimiCの理論解析は、集約された更新と中央更新のばらつきが適切な学習率によって減少し、収束することを示している。 さらにシミュレーションの結果、MimiCは安定収束性能を維持し、ベースライン法よりも優れたモデルを学ぶことを示した。

Federated learning (FL) is a promising framework for privacy-preserving collaborative learning, where model training tasks are distributed to clients and only the model updates need to be collected at a server. However, when being deployed at mobile edge networks, clients may have unpredictable availability and drop out of the training process, which hinders the convergence of FL. This paper tackles such a critical challenge. Specifically, we first investigate the convergence of the classical FedAvg algorithm with arbitrary client dropouts. We find that with the common choice of a decaying learning rate, FedAvg oscillates around a stationary point of the global loss function, which is caused by the divergence between the aggregated and desired central update. Motivated by this new observation, we then design a novel training algorithm named MimiC, where the server modifies each received model update based on the previous ones. The proposed modification of the received model updates mimics the imaginary central update irrespective of dropout clients. The theoretical analysis of MimiC shows that divergence between the aggregated and central update diminishes with proper learning rates, leading to its convergence. Simulation results further demonstrate that MimiC maintains stable convergence performance and learns better models than the baseline methods.
翻訳日:2023-12-21 00:31:19 公開日:2023-12-18
# 個人化とロバストなフェデレーション学習

Provably Personalized and Robust Federated Learning ( http://arxiv.org/abs/2306.08393v2 )

ライセンス: Link先を確認
Mariel Werner, Lie He, Michael Jordan, Martin Jaggi, Sai Praneeth Karimireddy(参考訳) 類似した目的を持ったクライアントの識別とクラスタごとのモデル学習は、連合学習におけるパーソナライゼーションに対する直感的で解釈可能なアプローチである。 しかし、証明可能かつ最適な保証で実施することは、依然としてオープンな課題である。 我々はこの問題を確率的最適化問題として定式化し、大規模な損失関数に対して最適な収束率を達成する。 類似したクライアントのクラスタを識別し,クラスタごとのモデル毎のカスタマイズを,ローカルなクライアント勾配と柔軟な制約を用いて行う,単純な反復アルゴリズムを提案する。 私たちのアルゴリズムの収束率は、クライアントの真の基盤であるクラスタリングを知っていて、一部のクライアントが悪意のあるビザンチン設定で確実に堅牢である場合、漸近的に一致する。

Identifying clients with similar objectives and learning a model-per-cluster is an intuitive and interpretable approach to personalization in federated learning. However, doing so with provable and optimal guarantees has remained an open challenge. We formalize this problem as a stochastic optimization problem, achieving optimal convergence rates for a large class of loss functions. We propose simple iterative algorithms which identify clusters of similar clients and train a personalized model-per-cluster, using local client gradients and flexible constraints on the clusters. The convergence rates of our algorithms asymptotically match those obtained if we knew the true underlying clustering of the clients and are provably robust in the Byzantine setting where some fraction of the clients are malicious.
翻訳日:2023-12-21 00:30:35 公開日:2023-12-18
# 準局所貯水池工学による遠方スピンの絡み合い生成

Entanglement generation between distant spins via quasilocal reservoir engineering ( http://arxiv.org/abs/2306.07507v2 )

ライセンス: Link先を確認
Josephine Dias, Christopher W. W\"achtler, Kae Nemoto, William J. Munro(参考訳) 絡み合いの生成と保存は量子技術の中心的な目標である。 伝統的に、量子系における散逸は絡み合いを損なうと考えられているが、散逸は直接相互作用しない量子スピン間の絡み合いを生成する手段としても用いられる。 特に絡み合いは、貯水池への集合結合を介して、2つのキュービット系、または複数キュービット系の間で生じる。 本研究では, 異なる貯水池に相互に結合した複数のスピン領域を探索し, 互いに結合していないスピン同士の絡み合いや, 同じ貯水池に結合したスピンの絡み合いが生じることを示す。

The generation and preservation of entanglement is a central goal in quantum technology. Traditionally, dissipation in quantum systems is thought to be detrimental to entanglement, however dissipation can also be utilised as a means of generating entanglement between quantum spins that are not directly interacting. In particular entanglement can be generated between two qubits, or multi qubit systems via a collective coupling to a reservoir. In this work, we explore multiple spin domains pairwise coupled to different reservoirs and show that entanglement can be generated between spins which are not coupled to each other, or even coupled to the same reservoir.
翻訳日:2023-12-21 00:30:01 公開日:2023-12-18
# WOUAF:テキスト・画像拡散モデルにおけるユーザ属性とフィンガープリントの軽量化

WOUAF: Weight Modulation for User Attribution and Fingerprinting in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2306.04744v2 )

ライセンス: Link先を確認
Changhoon Kim, Kyle Min, Maitreya Patel, Sheng Cheng, Yezhou Yang(参考訳) 生成モデルの急速な進歩は、テキスト記述から超現実的画像の作成を容易にし、誤情報などの社会的懸念を同時にエスカレートさせた。 いくつかの緩和策を提供しているが、従来の指紋認証機構は、合成画像の悪意ある使用に対する責任を負うために不足している。 本稿では,生成した画像に対して責任を負うフィンガープリントのモデル化手法を提案する。 提案手法は,各ユーザのユニークなデジタル指紋に基づいて生成モデルを修正し,ユーザに追跡可能な結果コンテンツにユニークな識別子をインプリントする。 安定拡散モデルを用いたt2iタスクに微調整を組み込んだこのアプローチは、出力品質への影響を最小限に抑えながら、ほぼ完全な帰属精度を示す。 本手法は, 画像後処理処理の処理において, 平均で11\%の精度でベースラインメソッドよりも優れることを示す。 提案手法は,説明可能なモデル分布と責任ある利用のための有望で新しい道を示す。

The rapid advancement of generative models, facilitating the creation of hyper-realistic images from textual descriptions, has concurrently escalated critical societal concerns such as misinformation. Although providing some mitigation, traditional fingerprinting mechanisms fall short in attributing responsibility for the malicious use of synthetic images. This paper introduces a novel approach to model fingerprinting that assigns responsibility for the generated images, thereby serving as a potential countermeasure to model misuse. Our method modifies generative models based on each user's unique digital fingerprint, imprinting a unique identifier onto the resultant content that can be traced back to the user. This approach, incorporating fine-tuning into Text-to-Image (T2I) tasks using the Stable Diffusion Model, demonstrates near-perfect attribution accuracy with a minimal impact on output quality. Through extensive evaluation, we show that our method outperforms baseline methods with an average improvement of 11\% in handling image post-processes. Our method presents a promising and novel avenue for accountable model distribution and responsible use.
翻訳日:2023-12-21 00:29:13 公開日:2023-12-18
# 多モード潜伏拡散

Multi-modal Latent Diffusion ( http://arxiv.org/abs/2306.04445v2 )

ライセンス: Link先を確認
Mustapha Bounoua, Giulio Franzese, Pietro Michiardi(参考訳) マルチモーダルデータセットは、現代のアプリケーションにおいてユビキタスであり、マルチモーダル変分オートエンコーダは、異なるモダリティの結合表現を学ぶことを目的とした、人気のあるモデルファミリである。 しかし、既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルにはモダリティ間の生成コヒーレンスがない。 我々は、異なるアプローチの必要性を動機付けるため、既存のメソッドの不十分なパフォーマンスの基礎となる制限について議論する。 独立に訓練された一様決定論的オートエンコーダを用いた新しい手法を提案する。 個々の潜在変数は共通の潜在空間に結合され、生成的モデリングを可能にするためにマスク拡散モデルに供給される。 また,マルチモーダル拡散のための条件付スコアネットワークを学習するマルチタイムトレーニング手法を提案する。 提案手法は, 幅広い実験キャンペーンで示されるように, 世代品質と一貫性の両方において, 競争相手を実質的に上回っている。

Multi-modal data-sets are ubiquitous in modern applications, and multi-modal Variational Autoencoders are a popular family of models that aim to learn a joint representation of the different modalities. However, existing approaches suffer from a coherence-quality tradeoff, where models with good generation quality lack generative coherence across modalities, and vice versa. We discuss the limitations underlying the unsatisfactory performance of existing methods, to motivate the need for a different approach. We propose a novel method that uses a set of independently trained, uni-modal, deterministic autoencoders. Individual latent variables are concatenated into a common latent space, which is fed to a masked diffusion model to enable generative modeling. We also introduce a new multi-time training method to learn the conditional score network for multi-modal diffusion. Our methodology substantially outperforms competitors in both generation quality and coherence, as shown through an extensive experimental campaign.
翻訳日:2023-12-21 00:28:53 公開日:2023-12-18
# 一般非線形混合下における干渉からの線形因果表現の学習

Learning Linear Causal Representations from Interventions under General Nonlinear Mixing ( http://arxiv.org/abs/2306.02235v2 )

ライセンス: Link先を確認
Simon Buchholz, Goutham Rajendran, Elan Rosenfeld, Bryon Aragam, Bernhard Sch\"olkopf, Pradeep Ravikumar(参考訳) 一般環境での未知の潜伏的介入から因果表現を学習する問題について検討し, 潜伏分布はガウス的だが混合関数は完全に一般である。 単一ノードの干渉が未知である場合、例えば介入対象にアクセスできることなく、強い識別可能性を示す。 これは、線形写像やペアの対実データのようなより弱いクラスに焦点を当てた先行研究を一般化する。 これは、ディープニューラルネットワーク埋め込みに対する非ペア型介入による因果識別可能性の最初の例でもある。 この証明は、非線形密度変換後のデータ分布に存在する高次元幾何学的構造を注意深く解明することに依存している。 最後に,実際の潜在変数を識別し,様々なタスクにおけるその性能を評価するためのコントラストアルゴリズムを提案する。

We study the problem of learning causal representations from unknown, latent interventions in a general setting, where the latent distribution is Gaussian but the mixing function is completely general. We prove strong identifiability results given unknown single-node interventions, i.e., without having access to the intervention targets. This generalizes prior works which have focused on weaker classes, such as linear maps or paired counterfactual data. This is also the first instance of causal identifiability from non-paired interventions for deep neural network embeddings. Our proof relies on carefully uncovering the high-dimensional geometric structure present in the data distribution after a non-linear density transformation, which we capture by analyzing quadratic forms of precision matrices of the latent distributions. Finally, we propose a contrastive algorithm to identify the latent variables in practice and evaluate its performance on various tasks.
翻訳日:2023-12-21 00:28:35 公開日:2023-12-18
# 一次元有限サイズイジングモデルにおける熱遷移

Thermal transitions in a one-dimensional, finite-size Ising model ( http://arxiv.org/abs/2307.15479v2 )

ライセンス: Link先を確認
Varazdat Stepanyan, Andreas F. Tzortzakakis, David Petrosyan and Armen E. Allahverdyan(参考訳) 有限個のスピンと周期境界を持つ一次元強磁性イジングスピン鎖を再検討し、解析的に導出し、異なる温度で様々な定常および動的特性を数値的に検証する。 特に, 磁化の確率分布, 磁壁数, 鎖長と磁場の差による居住時間を決定する。 熱平衡における有限系の研究において、熱力学限界における一階相転移の臨界温度に類似したいくつかの温度を同定する。 非自明な中間平衡状態を持つ生体高分子の構造遷移に応用することで,本研究の有用性を概説する。

We revisit the one-dimensional ferromagnetic Ising spin-chain with a finite number of spins and periodic boundaries and derive analytically and verify numerically its various stationary and dynamical properties at different temperatures. In particular, we determine the probability distributions of magnetization, the number of domain walls, and the corresponding residence times for different chain lengths and magnetic fields. While we study finite systems at thermal equilibrium, we identify several temperatures similar to the critical temperatures for first-order phase transitions in the thermodynamic limit. We illustrate the utility of our results by their application to structural transitions in biopolymers having non-trivial intermediate equilibrium states.
翻訳日:2023-12-21 00:10:32 公開日:2023-12-18
# mlic++: 学習画像圧縮のための線形複雑性注意に基づくマルチリファレンスエントロピーモデリング

MLIC++: Linear Complexity Attention-based Multi-Reference Entropy Modeling for Learned Image Compression ( http://arxiv.org/abs/2307.15421v4 )

ライセンス: Link先を確認
Wei Jiang, Jiayu Yang, Yongqi Zhai, Feng Gao, Ronggang Wang(参考訳) 近年,学習画像圧縮の性能が向上している。 潜在表現の分布を推定するエントロピーモデルは、速度分散性能を向上させる上で重要な役割を果たす。 しかし、既存のグローバルコンテキストモジュールは、大域相関を捉えるために計算集約的な二次複雑性計算に依存する。 この二次的な複雑さは高解像度画像符号化の可能性に制限を課す。 さらに、局所的、大域的、チャネル的コンテキストを単一のエントロピーモデル内で許容可能な線形複雑度で効果的に捉えることは課題である。 これらの制約に対処するため,線形複雑度注意に基づくマルチ参照エントロピーモデル(MEM++)を提案する。 MEM++は、潜在表現に固有の様々な相関関係を効果的にキャプチャする。 具体的には、潜在表現をまず複数のスライスに分割する。 特定のスライスを圧縮する場合、以前圧縮されたスライスはそのチャネルワイズコンテキストとして機能する。 性能を犠牲にすることなくローカルコンテキストをキャプチャするために,新しいチェッカーボードアテンションモジュールを導入する。 さらに,グローバルコンテキストを捉えるために,ソフトマックス操作の分解を利用した線形複雑性注意に基づくグローバル相関手法を提案する。 予め復号されたスライスのアテンションマップは暗黙的に計算され、現在のスライスにおけるグローバル相関を予測するために使用される。 MEM++に基づく画像圧縮モデルMLIC++を提案する。 大規模な実験により、我々のMLIC++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。 さらに、MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。 コードと事前訓練されたモデルはhttps://github.com/JiangWeibeta/MLIC.comで入手できる。

Recently, learned image compression has achieved impressive performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in enhancing rate-distortion performance. However, existing global context modules rely on computationally intensive quadratic complexity computations to capture global correlations. This quadratic complexity imposes limitations on the potential of high-resolution image coding. Moreover, effectively capturing local, global, and channel-wise contexts with acceptable even linear complexity within a single entropy model remains a challenge. To address these limitations, we propose the Linear Complexity Attention-based Multi-Reference Entropy Model (MEM++). MEM++ effectively captures the diverse range of correlations inherent in the latent representation. Specifically, the latent representation is first divided into multiple slices. When compressing a particular slice, the previously compressed slices serve as its channel-wise contexts. To capture local contexts without sacrificing performance, we introduce a novel checkerboard attention module. Additionally, to capture global contexts, we propose the linear complexity attention-based global correlations capturing by leveraging the decomposition of the softmax operation. The attention map of the previously decoded slice is implicitly computed and employed to predict global correlations in the current slice. Based on MEM++, we propose image compression model MLIC++. Extensive experimental evaluations demonstrate that our MLIC++ achieves state-of-the-art performance, reducing BD-rate by 13.39% on the Kodak dataset compared to VTM-17.0 in PSNR. Furthermore, MLIC++ exhibits linear GPU memory consumption with resolution, making it highly suitable for high-resolution image coding. Code and pre-trained models are available at https://github.com/JiangWeibeta/MLIC.
翻訳日:2023-12-21 00:10:21 公開日:2023-12-18
# 平面バンドを持つ非エルミート準1D鎖の位相的性質

Topological properties of a non-Hermitian quasi-1D chain with a flat band ( http://arxiv.org/abs/2307.08754v3 )

ライセンス: Link先を確認
C.Mart\'inez-Strasser, M.A.J.Herrera, A. Garc\'ia-Etxarri, G.Palumbo, F.K.Kunst and D.Bercioux(参考訳) 非エルミート準-1次元格子の2つの二量化配置のスペクトル特性について検討した。 具体的には、ゼロエネルギーフラットバンドを示す非エルミートダイヤモンド鎖に焦点を当てている。 フラットバンドは波の干渉から始まり、単位セルの2つの点のみに有限の寄与を持つ固有状態となる。 非エルミート的特性を達成するために、研究対象のシステムは鎖内の非相互ホッピング項を示す。 これにより、非エルミート皮膚効果として知られる系の境界に固有状態が蓄積される。 この固有状態の蓄積にもかかわらず、2つの配置のうちの1つは、ゼロエネルギーにおける非自明なエッジ状態の存在を、生物直交分極として知られる実空間位相不変量によって特徴づけることができる。 この研究は、非エルミートダイヤモンド鎖の非自明な位相を破壊的干渉法を用いて評価する不変性を示している。 第二の非エルミート構成に対しては、平面バンドに付随する有限量子計量が存在する。 さらに、システムは、純粋に実または想像上のスペクトルを持つにもかかわらず、皮膚効果を示す。 2つの非エルミートダイヤモンド鎖は、平らなバンドの存在下で、su-シュリーファー-ヘーガー鎖の2つのモデルにマッピングすることができる。 このマッピングは、これらのシステムの振る舞いと性質に関する貴重な洞察を引き出すことができる。

The spectral properties of a non-Hermitian quasi-1D lattice in two of the possible dimerization configurations are investigated. Specifically, it focuses on a non-Hermitian diamond chain that presents a zero-energy flat band. The flat band originates from wave interference and results in eigenstates with a finite contribution only on two sites of the unit cell. To achieve the non-Hermitian characteristics, the system under study presents non-reciprocal hopping terms in the chain. This leads to the accumulation of eigenstates on the boundary of the system, known as the non-Hermitian skin effect. Despite this accumulation of eigenstates, for one of the two considered configurations, it is possible to characterize the presence of non-trivial edge states at zero energy by a real-space topological invariant known as the biorthogonal polarization. This work shows that this invariant, evaluated using the destructive interference method, characterizes the non-trivial phase of the non-Hermitian diamond chain. For the second non-Hermitian configuration, there is a finite quantum metric associated with the flat band. Additionally, the system presents the skin effect despite the system having a purely real or imaginary spectrum. The two non-Hermitian diamond chains can be mapped into two models of the Su-Schrieffer-Heeger chains, either non-Hermitian, and Hermitian, both in the presence of a flat band. This mapping allows to draw valuable insights into the behavior and properties of these systems.
翻訳日:2023-12-21 00:08:42 公開日:2023-12-18
# NetGPT: パーソナライズされた生成サービスの提供を超えて、ネイティブAIネットワークアーキテクチャ

NetGPT: A Native-AI Network Architecture Beyond Provisioning Personalized Generative Services ( http://arxiv.org/abs/2307.06148v3 )

ライセンス: Link先を確認
Yuxuan Chen, Rongpeng Li, Zhifeng Zhao, Chenghui Peng, Jianjun Wu, Ekram Hossain, and Honggang Zhang(参考訳) 大規模言語モデル(LLM)は、生成情報によって私たちの日常生活を強力にするために大きな成功を収めています。 LLMのパーソナライズは、人間の意図との整合性の向上により、その応用にさらに貢献する可能性がある。 パーソナライズされた生成サービスに向けて、異種分散通信とコンピューティングリソースの効率的なオーケストレーションを促進するため、協調的なクラウドエッジ方法論が有望である。 本稿では,NetGPTを用いて,その計算能力に基づいて,エッジおよびクラウドにおける適切なLLMの相乗化を図る。 さらに、エッジllmは、パーソナライズされたプロンプト完了のためにロケーションベースの情報を効率的に活用することができ、クラウドllmとのインタラクションの恩恵を受ける。 特に,オープンソースLLMの低ランク適応に基づく微調整(GPT-2ベースモデルとLLaMAモデル)を活用することにより,NetGPTの実現可能性を示し,NetGPTの優位性を示すために,代替クラウドエッジコラボレーションやクラウド専用技術と包括的な数値比較を行う。 その後、我々は、通信とコンピューティングリソースのより深い統合と論理的AIワークフローの慎重な校正に焦点を当て、人工知能(AI)ネイティブネットワークアーキテクチャがNetGPTに必要となる重要な変更を強調した。 さらに、トレンドを予測し、意図を推測するエッジLLMの能力によって、インテリジェントなネットワーク管理とオーケストレーションのための統一されたソリューションが約束されるため、副産物として提供されるNetGPTのいくつかの利点を示す。 我々は、netgptはパーソナライズされた生成サービスを超えたプロビジョニングのための有望なaiネイティブネットワークアーキテクチャであると主張する。

Large language models (LLMs) have triggered tremendous success to empower our daily life by generative information. The personalization of LLMs could further contribute to their applications due to better alignment with human intents. Towards personalized generative services, a collaborative cloud-edge methodology is promising, as it facilitates the effective orchestration of heterogeneous distributed communication and computing resources. In this article, we put forward NetGPT to capably synergize appropriate LLMs at the edge and the cloud based on their computing capacity. In addition, edge LLMs could efficiently leverage location-based information for personalized prompt completion, thus benefiting the interaction with the cloud LLM. In particular, we present the feasibility of NetGPT by leveraging low-rank adaptation-based fine-tuning of open-source LLMs (i.e., GPT-2-base model and LLaMA model), and conduct comprehensive numerical comparisons with alternative cloud-edge collaboration or cloud-only techniques, so as to demonstrate the superiority of NetGPT. Subsequently, we highlight the essential changes required for an artificial intelligence (AI)-native network architecture towards NetGPT, with emphasis on deeper integration of communications and computing resources and careful calibration of logical AI workflow. Furthermore, we demonstrate several benefits of NetGPT, which come as by-products, as the edge LLMs' capability to predict trends and infer intents promises a unified solution for intelligent network management & orchestration. We argue that NetGPT is a promising AI-native network architecture for provisioning beyond personalized generative services.
翻訳日:2023-12-21 00:06:48 公開日:2023-12-18
# ドメイン対応ファインチューニング:ニューラルネットワーク適応性の向上

Domain-Aware Fine-Tuning: Enhancing Neural Network Adaptability ( http://arxiv.org/abs/2308.07728v2 )

ライセンス: Link先を確認
Seokhyeon Ha, Sunbeom Jung, Jungwoo Lee(参考訳) 訓練済みの微調整ニューラルネットワークモデルは、さまざまな領域で広く採用されている。 しかし、既に強力な一般化能力を持つ事前訓練された特徴抽出器の歪みにつながる可能性がある。 新しいターゲット領域への適応における特徴歪みの緩和が重要である。 近年の研究では、微調整を行う前に、分布内データセット上にヘッド層をアライメントすることで、特徴歪みに対処する有望な結果が示されている。 それにもかかわらず、細調整中にバッチ正規化層の処理によって大きな制限が生じ、最適化性能が低下する。 本稿では、バッチ正規化変換と線形探索と微調整の統合を組み合わせた新しいアプローチであるDomain-Aware Fine-Tuning(DAFT)を提案する。 このバッチ正規化変換手法は、微調整時のニューラルネットワークの変更を低減し、特徴歪みを効果的に軽減する。 さらに,線形探索と微調整を統合して,特徴抽出器の段階的適応を伴うヘッド層を最適化する。 バッチ正規化レイヤを活用し、線形探索と微調整を統合することにより、DAFTは特徴歪みを著しく軽減し、分布内および分布外データセットのモデル性能を向上させる。 大規模な実験により,本手法は他のベースライン法よりも優れており,性能の向上だけでなく特徴歪みの軽減にも有効であることが示された。

Fine-tuning pre-trained neural network models has become a widely adopted approach across various domains. However, it can lead to the distortion of pre-trained feature extractors that already possess strong generalization capabilities. Mitigating feature distortion during adaptation to new target domains is crucial. Recent studies have shown promising results in handling feature distortion by aligning the head layer on in-distribution datasets before performing fine-tuning. Nonetheless, a significant limitation arises from the treatment of batch normalization layers during fine-tuning, leading to suboptimal performance. In this paper, we propose Domain-Aware Fine-Tuning (DAFT), a novel approach that incorporates batch normalization conversion and the integration of linear probing and fine-tuning. Our batch normalization conversion method effectively mitigates feature distortion by reducing modifications to the neural network during fine-tuning. Additionally, we introduce the integration of linear probing and fine-tuning to optimize the head layer with gradual adaptation of the feature extractor. By leveraging batch normalization layers and integrating linear probing and fine-tuning, our DAFT significantly mitigates feature distortion and achieves improved model performance on both in-distribution and out-of-distribution datasets. Extensive experiments demonstrate that our method outperforms other baseline methods, demonstrating its effectiveness in not only improving performance but also mitigating feature distortion.
翻訳日:2023-12-20 23:37:20 公開日:2023-12-18
# FusionPlanner: マルチセンサフュージョンによるトラックのマイニングのためのマルチタスクモーションプランナ

FusionPlanner: A Multi-task Motion Planner for Mining Trucks via Multi-sensor Fusion ( http://arxiv.org/abs/2308.06931v3 )

ライセンス: Link先を確認
Siyu Teng, Luxi Li, Yuchen Li, Xuemin Hu, Lingxi Li, Yunfeng Ai, Long Chen(参考訳) 近年、インテリジェントな車両の動作計画において大きな成果が得られている。 しかし、典型的な非構造環境として、複雑な運用条件と環境要因により、露天掘りは限られた注意を惹きつける。 本研究では, オープンピット鉱山における無人輸送の包括的パラダイムを提案する。 まず,マルチセンサフュージョン法による自律走行走行車用マルチタスク運動計画アルゴリズムFusionPlannerを提案し,横方向および縦方向の制御タスクを無人輸送に適用する。 そこで我々は,オープンピット鉱山の交通路におけるアルゴリズムの信頼性とロバスト性を評価するための3つの検証手法であるminingnavを開発した。 最後に,オープンピットマイニングを想定した新しい高忠実度シミュレータであるparallel mining simulator (pms)について紹介する。 PMSにより、ユーザーはシングルトラック制御とマルチトラックスケジューリングの両方の観点からオープンピットの鉱山輸送を管理し制御できる。 fusion planner の性能は pms において miningnav によってテストされ、実験結果から我々のプランナーの衝突や乗っ取りの回数が大幅に減少することが示された。 我々は、我々の無人輸送パラダイムが、マイニングトラックの信頼性と堅牢性に一歩近づくことを期待している。

In recent years, significant achievements have been made in motion planning for intelligent vehicles. However, as a typical unstructured environment, open-pit mining attracts limited attention due to its complex operational conditions and adverse environmental factors. A comprehensive paradigm for unmanned transportation in open-pit mines is proposed in this research. Firstly, we propose a multi-task motion planning algorithm, called FusionPlanner, for autonomous mining trucks by the multi-sensor fusion method to adapt both lateral and longitudinal control tasks for unmanned transportation. Then, we develop a novel benchmark called MiningNav, which offers three validation approaches to evaluate the trustworthiness and robustness of well-trained algorithms in transportation roads of open-pit mines. Finally, we introduce the Parallel Mining Simulator (PMS), a new high-fidelity simulator specifically designed for open-pit mining scenarios. PMS enables the users to manage and control open-pit mine transportation from both the single-truck control and multi-truck scheduling perspectives. The performance of FusionPlanner is tested by MiningNav in PMS, and the empirical results demonstrate a significant reduction in the number of collisions and takeovers of our planner. We anticipate our unmanned transportation paradigm will bring mining trucks one step closer to trustworthiness and robustness in continuous round-the-clock unmanned transportation.
翻訳日:2023-12-20 23:36:25 公開日:2023-12-18
# フライスワットかキャノンか? メタモデリングによるコスト効果言語モデル選択

Fly-Swat or Cannon? Cost-Effective Language Model Choice via Meta-Modeling ( http://arxiv.org/abs/2308.06077v3 )

ライセンス: Link先を確認
Marija \v{S}akota, Maxime Peyrard, Robert West(参考訳) ジェネレーティブ言語モデル(LM)は、データサイエンス全体にわたって一様である。 様々なタスクに対して、入力はLMの自然言語プロンプトとして表現することができ、その出力から解を抽出することができる。 lmのパフォーマンスはモデルサイズによって一貫して向上していますが、さらに大きなモデルに問い合わせる金銭的なコストも伴っています。 しかし、重要なことは全ての入力が等しく難しいわけではない: 満足な解を得るためにより大きなLMを必要とするものもいるが、他のより小さなLMでは十分である。 この事実に基づいて,コスト効率の高い言語モデル選択のためのフレームワークを"fly-swat or cannon" (forc) として設計する。 入力のセットと候補lmのセットが与えられたとき、forcは、いわゆるメタモデルに従って入力でうまく行くと予測されるlmに各入力を公平に割り当て、低コストで高い全体的なパフォーマンスを達成することを目指す。 コストパフォーマンストレードオフは、ユーザが柔軟に調整することができる。 オプションには、所定のコスト予算内に留まり、期待されるパフォーマンス(または処理された入力数)を最大化することや、すべての入力を処理しながら総コストを最小化することが含まれる。 我々は,5つの自然言語タスクをカバーする14のデータセットについて,サイズとコストの異なる4つの候補lmsを用いてforcを評価する。 FORCでは,最大利用可能なLMの性能と63%のコスト削減を実現した。 公開ライブラリーのおかげで、研究者も実践者も、パフォーマンスを犠牲にすることなく大量のお金を節約できる。

Generative language models (LMs) have become omnipresent across data science. For a wide variety of tasks, inputs can be phrased as natural language prompts for an LM, from whose output the solution can then be extracted. LM performance has consistently been increasing with model size - but so has the monetary cost of querying the ever larger models. Importantly, however, not all inputs are equally hard: some require larger LMs for obtaining a satisfactory solution, whereas for others smaller LMs suffice. Based on this fact, we design a framework for cost-effective language model choice, called "Fly-swat or cannon" (FORC). Given a set of inputs and a set of candidate LMs, FORC judiciously assigns each input to an LM predicted to do well on the input according to a so-called meta-model, aiming to achieve high overall performance at low cost. The cost-performance tradeoff can be flexibly tuned by the user. Options include, among others, maximizing total expected performance (or the number of processed inputs) while staying within a given cost budget, or minimizing total cost while processing all inputs. We evaluate FORC on 14 datasets covering five natural language tasks, using four candidate LMs of vastly different size and cost. With FORC, we match the performance of the largest available LM while achieving a cost reduction of 63%. Via our publicly available library, researchers as well as practitioners can thus save large amounts of money without sacrificing performance.
翻訳日:2023-12-20 23:35:46 公開日:2023-12-18
# RGMComm:マルチエージェント強化学習における離散通信によるギャップ最小化

RGMComm: Return Gap Minimization via Discrete Communications in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2308.03358v5 )

ライセンス: Link先を確認
Jingdi Chen, Tian Lan, Carlee Joe-Wong(参考訳) マルコフ決定過程における協調的マルチエージェント強化学習課題の解決には,コミュニケーションが不可欠である。 既存の作業は、ローカル情報や特徴を他のエージェントと共有するメッセージにエンコードするブラックボックスメソッドに依存しており、通信オーバーヘッドが高く、解釈性が低い連続メッセージの生成につながっている。 離散通信方式の先行の試みでは、エージェントのアクションの一部として訓練された1つのホットベクターを生成し、メッセージ勾配を計算するためにgumbel softmax演算を使用する。 本稿では、完全な可観測性を持つ理想的なポリシーと、離散的な通信を伴う最適部分可観測性ポリシーとの間のリターンギャップの上限を確立する。 この結果から,マルチエージェント通信を各エージェントの局所的な観測上の新たなオンラインクラスタリング問題に再キャストすることが可能となり,メッセージはクラスタラベル,アッパーバウンドはクラスタリング損失となる。 リターンギャップを最小限に抑えるため、離散メッセージ生成関数の驚くほど単純な設計であり、クラスタリングメトリックとしてコサイン距離を組み込んだ新しい正規化情報最大化損失関数を用いて強化学習と統合されたReturn-Gap-Minimization Communication (RGMComm)アルゴリズムを提案する。 評価の結果、RGMCommは最先端のマルチエージェント通信ベースラインを大幅に上回り、自然に解釈可能な数ビットメッセージでほぼ最適なリターンを達成できることがわかった。

Communication is crucial for solving cooperative Multi-Agent Reinforcement Learning tasks in partially observable Markov Decision Processes. Existing works often rely on black-box methods to encode local information/features into messages shared with other agents, leading to the generation of continuous messages with high communication overhead and poor interpretability. Prior attempts at discrete communication methods generate one-hot vectors trained as part of agents' actions and use the Gumbel softmax operation for calculating message gradients, which are all heuristic designs that do not provide any quantitative guarantees on the expected return. This paper establishes an upper bound on the return gap between an ideal policy with full observability and an optimal partially observable policy with discrete communication. This result enables us to recast multi-agent communication into a novel online clustering problem over the local observations at each agent, with messages as cluster labels and the upper bound on the return gap as clustering loss. To minimize the return gap, we propose the Return-Gap-Minimization Communication (RGMComm) algorithm, which is a surprisingly simple design of discrete message generation functions and is integrated with reinforcement learning through the utilization of a novel Regularized Information Maximization loss function, which incorporates cosine-distance as the clustering metric. Evaluations show that RGMComm significantly outperforms state-of-the-art multi-agent communication baselines and can achieve nearly optimal returns with few-bit messages that are naturally interpretable.
翻訳日:2023-12-20 23:33:52 公開日:2023-12-18
# specious sites: 大規模なニュース記事の拡散と揺れを追跡するサービス

Specious Sites: Tracking the Spread and Sway of Spurious News Stories at Scale ( http://arxiv.org/abs/2308.02068v2 )

ライセンス: Link先を確認
Hans W. A. Hanley, Deepak Kumar, Zakir Durumeric(参考訳) 誤った情報、プロパガンダ、アウトライトはウェブ上で広まり、一部の物語は公衆の健康、選挙、個人の安全に危険な現実世界の影響をもたらす。 しかし、誤った情報の影響にもかかわらず、研究コミュニティはオンラインプラットフォーム全体のニュースナラティブを追跡するための自動化とプログラムによるアプローチをほとんど欠いている。 本研究では,信頼できないニュースサイト1,334件,大言語モデルMPNet,DP-Meansクラスタリングの日次スクラップを利用して,オンラインエコシステム内の物語を自動的に識別・追跡するシステムを提案する。 これら1,334のウェブサイト上で52,036の物語を特定し,2022年に広く普及した物語を記述し,物語を起源とし増幅する最も影響力のあるウェブサイトを特定する。 最後に,信頼できないニュースサイトから新たな物語を抽出し,事実確認者が誤情報により迅速に対処できるように,我々のシステムをいかに活用できるかを示す。 コードとデータはhttps://github.com/hanshanley/specious-sitesでリリースします。

Misinformation, propaganda, and outright lies proliferate on the web, with some narratives having dangerous real-world consequences on public health, elections, and individual safety. However, despite the impact of misinformation, the research community largely lacks automated and programmatic approaches for tracking news narratives across online platforms. In this work, utilizing daily scrapes of 1,334 unreliable news websites, the large-language model MPNet, and DP-Means clustering, we introduce a system to automatically identify and track the narratives spread within online ecosystems. Identifying 52,036 narratives on these 1,334 websites, we describe the most prevalent narratives spread in 2022 and identify the most influential websites that originate and amplify narratives. Finally, we show how our system can be utilized to detect new narratives originating from unreliable news websites and to aid fact-checkers in more quickly addressing misinformation. We release code and data at https://github.com/hanshanley/specious-sites.
翻訳日:2023-12-20 23:33:05 公開日:2023-12-18
# トルク可変高さホッピングのためのエンドツーエンド強化学習

End-to-End Reinforcement Learning for Torque Based Variable Height Hopping ( http://arxiv.org/abs/2307.16676v2 )

ライセンス: Link先を確認
Raghav Soni, Daniel Harnack, Hauke Isermann, Sotaro Fushimi, Shivesh Kumar, Frank Kirchner(参考訳) レッグド・ロコモーションは自然地形や非構造地形を扱うのに最も適した多用途モードである。 動的歩行とランニングコントローラに関する研究は、近年、最適制御と強化学習(RL)文学において大きな進歩を遂げている。 ホッピングは飛行段階を含む困難な動的タスクであり、脚のあるロボットの移動可能性を高める可能性がある。 ホッピングのモデルベースの制御は通常、リフトオフやタッチダウンなどのジャンプフェーズの正確な検出と、各フェーズの異なるコントローラの使用に依存する。 本稿では,RLをベースとしたトルクコントローラを提案する。このコントローラは,関連するジャンプフェーズを暗黙的に検出し,状態検出のための手動ヒューリスティックを提供する必要をなくす。 また、学習した制御器がリッチな動的タスクに接触できるように、シミュレーション手法を拡張し、パラメータチューニングなしでトレーニング後のロボットへの展開を成功させる。

Legged locomotion is arguably the most suited and versatile mode to deal with natural or unstructured terrains. Intensive research into dynamic walking and running controllers has recently yielded great advances, both in the optimal control and reinforcement learning (RL) literature. Hopping is a challenging dynamic task involving a flight phase and has the potential to increase the traversability of legged robots. Model based control for hopping typically relies on accurate detection of different jump phases, such as lift-off or touch down, and using different controllers for each phase. In this paper, we present a end-to-end RL based torque controller that learns to implicitly detect the relevant jump phases, removing the need to provide manual heuristics for state detection. We also extend a method for simulation to reality transfer of the learned controller to contact rich dynamic tasks, resulting in successful deployment on the robot after training without parameter tuning.
翻訳日:2023-12-20 23:32:47 公開日:2023-12-18
# カモッシオ - イタリア製のLLaMA。

Camoscio: an Italian Instruction-tuned LLaMA ( http://arxiv.org/abs/2307.16456v2 )

ライセンス: Link先を確認
Andrea Santilli and Emanuele Rodol\`a(参考訳) 近年、Large Language Models (LLMs) は、自然言語処理タスクにおける技術の現状を高めている。 しかし、そのアクセシビリティは有料のAPIサービスに限定されることが多く、研究者が広範な調査を行う上での課題となっている。 一方で、コミュニティによっていくつかのオープンソースモデルが提案されているが、典型的には、イタリア語に固有の適応を持たず、英語中心または多言語である。 イタリア語の利用可能なオープンリソースを民主化するために,本稿では,ユーザのイタリア語でのプロンプトに従うように特別に調整された言語モデルであるCamoscioを紹介する。 具体的には,ChatGPTを介してイタリア語に翻訳された命令プロンプトのコーパスにLoRAを用いたLLaMA (7b) の最小変種を微調整した。 その結果、イタリアの様々な下流タスクにおけるモデルのゼロショット性能は、これらのタスク用に微調整された既存のモデルと有利に競合することが示された。 すべてのアーティファクト(コード、データセット、モデル)は以下のurlでコミュニティにリリースされている。

In recent years Large Language Models (LLMs) have increased the state of the art on several natural language processing tasks. However, their accessibility is often limited to paid API services, posing challenges for researchers in conducting extensive investigations. On the other hand, while some open-source models have been proposed by the community, they are typically English-centric or multilingual without a specific adaptation for the Italian language. In an effort to democratize the available and open resources for the Italian language, in this paper we introduce Camoscio: a language model specifically tuned to follow users' prompts in Italian. Specifically, we finetuned the smallest variant of LLaMA (7b) with LoRA on a corpus of instruction prompts translated to Italian via ChatGPT. Results indicate that the model's zero-shot performance on various downstream tasks in Italian competes favorably with existing models specifically finetuned for those tasks. All the artifacts (code, dataset, model) are released to the community at the following url: https://github.com/teelinsan/camoscio
翻訳日:2023-12-20 23:32:32 公開日:2023-12-18
# 走査とトラップによるQGEMプロトコールのミクロンサイズ空間重ね合わせ

Micron-size spatial superpositions for the QGEM-protocol via screening and trapping ( http://arxiv.org/abs/2307.15743v2 )

ライセンス: Link先を確認
Martine Schut, Andrew Geraci, Sougato Bose and Anupam Mazumdar(参考訳) 量子重力による質量の絡み合い(英: quantum gravity-induced entanglement of mass, qgem)は、量子重力を絡み合いの証人を用いてテストするためのプロトコルであり、距離dで分離された2つの中性物質波干渉計の空間的重ね合わせを作成する。 質量と空間的重ね合わせは、2つの量子系が重力の量子の性質によってのみ絡み合うことができるようにすべきである。 電荷ニュートラルであるにもかかわらず、双極子-双極子相互作用やカシミール-ポルダー相互作用のような系を絡める多くの電磁背景が存在する。 導電板によって2つの重ね合わせを分離することが関係している質量間の電磁誘導相互作用を最小限に抑える。 しかし、導電板は質量にも力を与えるため、2つの重ね合わせの軌道に影響される。 この効果を最小限に抑えるために, 導電板と物質波干渉計との間のトラッピング電位が支配する2つの干渉計を捕捉する。 重ね合わせは、トラップ電位が無視できるプレートと平行な方向のスターン・ゲルラッハ効果によっても生成することができる。 トラップと遮蔽の組み合わせは実験の平行配置により良いパラメータ空間を提供し、空間的重ね合わせの大きさの要件は、重力の量子的性質によって純粋に2つの質量間の絡み合いを目撃するものであり、元のプロトコルペーパーと比較して少なくとも2桁は減少する。

The quantum gravity-induced entanglement of masses (QGEM) protocol for testing quantum gravity using entanglement witnessing utilizes the creation of spatial quantum superpositions of two neutral, massive matter-wave interferometers kept adjacent to each other, separated by a distance d. The mass and the spatial superposition should be such that the two quantum systems can entangle solely via the quantum nature of gravity. Despite being charge-neutral, there are many electromagnetic backgrounds that can also entangle the systems, such as the dipole-dipole interaction, and the Casimir-Polder interaction. To minimize electromagnetic-induced interactions between the masses it is pertinent to isolate the two superpositions by a conducting plate. However, the conducting plate will also exert forces on the masses and hence the trajectories of the two superpositions would be affected. To minimize this effect, we propose to trap the two interferometers such that the trapping potential dominates over the attraction between the conducting plate and the matter-wave interferometers. The superpositions can still be created via the Stern-Gerlach effect in the direction parallel to the plate, where the trapping potential is negligible. The combination of trapping and shielding provides a better parameter space for the parallel configuration of the experiment, where the requirement on the size of the spatial superposition, to witness the entanglement between the two masses purely due to their quantum nature of gravity, decreases by at least two orders of magnitude as compared to the original protocol paper.
翻訳日:2023-12-20 23:32:17 公開日:2023-12-18
# 条件拡散モデルと言語モデルを用いた最小教師付き音声合成:意味的符号化の比較

Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding ( http://arxiv.org/abs/2307.15484v3 )

ライセンス: Link先を確認
Chunyu Qiang, Hao Li, Hao Ni, He Qu, Ruibo Fu, Tao Wang, Longbiao Wang, Jianwu Dang(参考訳) 近年,2種類の離散音声表現と2つのシーケンシャル・ツー・シーケンス・タスクを用いてTSを分離することにより,最小限の監督で訓練できるTTS(text-to-Speech)手法への関心が高まっている。 しかし, 従来の手法では, 離散表現の高次元および波形歪み, 非自己回帰的手法における時間予測モデルによる韻律平均化問題, 既存の意味的符号化法における情報冗長性と次元爆発問題という3つの問題に悩まされていた。 これらの問題に対処するために3つのプログレッシブ手法を提案する。 まず,言語モデルと拡散モデルからなる自己回帰構造であるDiff-LM-Speechを提案する。 また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。 次に,4つの拡散モデルに基づくモジュールからなる非自己回帰構造であるTetra-Diff-Speechを提案する。 最後に,既存のセマンティクス符号化モデルの不要性を検証する3つの拡散モデルに基づくモジュールからなる非自己回帰構造であるtri-diff-speechを提案する。 実験の結果,提案手法はベースライン法よりも優れていた。 オーディオサンプルをWebサイトに提供する。

Recently, there has been a growing interest in text-to-speech (TTS) methods that can be trained with minimal supervision by combining two types of discrete speech representations and using two sequence-to-sequence tasks to decouple TTS. However, existing methods suffer from three problems: the high dimensionality and waveform distortion of discrete speech representations, the prosodic averaging problem caused by the duration prediction model in non-autoregressive frameworks, and the information redundancy and dimension explosion problems of existing semantic encoding methods. To address these problems, three progressive methods are proposed. First, we propose Diff-LM-Speech, an autoregressive structure consisting of a language model and diffusion models, which models the semantic embedding into the mel-spectrogram based on a diffusion model to achieve higher audio quality. We also introduce a prompt encoder structure based on a variational autoencoder and a prosody bottleneck to improve prompt representation ability. Second, we propose Tetra-Diff-Speech, a non-autoregressive structure consisting of four diffusion model-based modules that design a duration diffusion model to achieve diverse prosodic expressions. Finally, we propose Tri-Diff-Speech, a non-autoregressive structure consisting of three diffusion model-based modules that verify the non-necessity of existing semantic encoding models and achieve the best results. Experimental results show that our proposed methods outperform baseline methods. We provide a website with audio samples.
翻訳日:2023-12-20 23:31:47 公開日:2023-12-18
# TC-LIF:長期連続モデリングのための2成分スパイクニューロンモデル

TC-LIF: A Two-Compartment Spiking Neuron Model for Long-term Sequential Modelling ( http://arxiv.org/abs/2308.13250v2 )

ライセンス: Link先を確認
Shimin Zhang, Qu Yang, Chenxiang Ma, Jibin Wu, Haizhou Li, Kay Chen Tan(参考訳) 潜在的な機会や危険に関連する感覚的手がかりの同定は、長期間の遅延によって有用な手がかりを分離する無関係な出来事によってしばしば複雑になる。 その結果、最先端のスパイクニューラルネットワーク(snn)では、遠方の手がかり間の長期的な時間的依存関係を確立することが課題となっている。 この課題に対処するため,我々はtc-lifと呼ばれる,生物にインスパイアされた2つのコンパートメントによる統合・ファイアスパイキングニューロンモデルを提案する。 提案モデルでは,長期的時間的依存関係の学習を容易にするように設計された身体的および樹状的な区画を慎重に設計した。 さらに,TC-LIFが時間的長期にわたる誤差勾配の伝播に有効であることを示す理論的解析を行った。 本研究は, 時間的分類課題の多種多様さに対して, 時間的分類能力の向上, 迅速な訓練収束, 提案したTC-LIFモデルの高エネルギー化を実証した。 したがって、この研究は、新興のニューロモルフィックコンピューティングシステムにおける時間的処理課題を解決するための無数の機会を開く。 私たちのコードはhttps://github.com/ZhangShimin1/TC-LIFで公開されています。

The identification of sensory cues associated with potential opportunities and dangers is frequently complicated by unrelated events that separate useful cues by long delays. As a result, it remains a challenging task for state-of-the-art spiking neural networks (SNNs) to establish long-term temporal dependency between distant cues. To address this challenge, we propose a novel biologically inspired Two-Compartment Leaky Integrate-and-Fire spiking neuron model, dubbed TC-LIF. The proposed model incorporates carefully designed somatic and dendritic compartments that are tailored to facilitate learning long-term temporal dependencies. Furthermore, a theoretical analysis is provided to validate the effectiveness of TC-LIF in propagating error gradients over an extended temporal duration. Our experimental results, on a diverse range of temporal classification tasks, demonstrate superior temporal classification capability, rapid training convergence, and high energy efficiency of the proposed TC-LIF model. Therefore, this work opens up a myriad of opportunities for solving challenging temporal processing tasks on emerging neuromorphic computing systems. Our code is publicly available at https://github.com/ZhangShimin1/TC-LIF.
翻訳日:2023-12-20 23:24:29 公開日:2023-12-18
# 検出の一般化をどう評価するか? 包括的開語彙検出のためのベンチマーク

How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection ( http://arxiv.org/abs/2308.13177v2 )

ライセンス: Link先を確認
Yiyang Yao, Peng Liu, Tiancheng Zhao, Qianqian Zhang, Jiajia Liao, Chunxin Fang, Kyusong Lee, Qing Wang(参考訳) 近年,コンピュータビジョンにおける物体検出(OD)は,大規模視覚言語事前学習(VLP)に基づく閉集合ラベルからオープン語彙検出(OVD)へ移行し,大きな進歩を遂げている。 しかしながら、現在の評価手法とデータセットは、OVDモデルの能力の体系的できめ細かな正確なベンチマークを提供しないオブジェクトタイプや参照式に対する一般化のテストに限られている。 本稿では,9つのサブタスクを含むOVDEvalという新しいベンチマークを提案し,コモンセンス知識,属性理解,位置理解,オブジェクト関係理解などについて評価する。 データセットは、モデルによる視覚的および言語的入力の真の理解に挑戦する強烈なネガティブを提供するために、慎重に作成されます。 さらに、これらの細粒度ラベルデータセット上でモデルをベンチマークする際の一般的な平均精度(AP)メトリクスの問題を特定し、この問題に対処するためにNon-Maximum Suppression Average Precision(NMS-AP)と呼ばれる新しい指標を提案する。 大規模な実験結果から,既存の上位OVDモデルは,単純なオブジェクト型を除いてすべて新しいタスクで失敗し,現在のOVDモデルの弱点を把握し,今後の研究を導く上で,提案するデータセットの価値が示された。 さらに、提案したNMS-APメトリックは実験によって検証され、OVDモデルのより真に評価される。 データは \url{https://github.com/om-ai-lab/ovdeval} で入手できる。

Object detection (OD) in computer vision has made significant progress in recent years, transitioning from closed-set labels to open-vocabulary detection (OVD) based on large-scale vision-language pre-training (VLP). However, current evaluation methods and datasets are limited to testing generalization over object types and referral expressions, which do not provide a systematic, fine-grained, and accurate benchmark of OVD models' abilities. In this paper, we propose a new benchmark named OVDEval, which includes 9 sub-tasks and introduces evaluations on commonsense knowledge, attribute understanding, position understanding, object relation comprehension, and more. The dataset is meticulously created to provide hard negatives that challenge models' true understanding of visual and linguistic input. Additionally, we identify a problem with the popular Average Precision (AP) metric when benchmarking models on these fine-grained label datasets and propose a new metric called Non-Maximum Suppression Average Precision (NMS-AP) to address this issue. Extensive experimental results show that existing top OVD models all fail on the new tasks except for simple object types, demonstrating the value of the proposed dataset in pinpointing the weakness of current OVD models and guiding future research. Furthermore, the proposed NMS-AP metric is verified by experiments to provide a much more truthful evaluation of OVD models, whereas traditional AP metrics yield deceptive results. Data is available at \url{https://github.com/om-ai-lab/OVDEval}
翻訳日:2023-12-20 23:24:06 公開日:2023-12-18
# モーション・トゥ・マッチ:3次元物体追跡のための混合パラダイム

Motion-to-Matching: A Mixed Paradigm for 3D Single Object Tracking ( http://arxiv.org/abs/2308.11875v2 )

ライセンス: Link先を確認
Zhiheng Li, Yu Lin, Yubo Cui, Shuo Li, Zheng Fang(参考訳) LiDARポイントを用いた3次元物体追跡はコンピュータビジョン分野において重要な課題である。 従来の手法は通常、現在の目標状態を評価するためにマッチングベースまたはモーション中心のパラダイムを採用する。 しかし、前者は類似した気晴らしや、外観マッチングに依存する点雲のばらばらさに敏感であり、後者は通常、短期的な動きの手がかり(例えば2つのフレーム)に焦点を当て、ターゲットの長期的な動きパターンを無視している。 これらの問題に対処するために,動作モデリングと特徴マッチングを組み合わせた2段階のMTM-Trackerを提案する。 具体的には,第1段階では,連続した履歴ボックスを先行動作として活用し,目標を粗く特定するためのエンコーダ・デコーダ構造を提案する。 そして,第2段階において,連続点雲から運動認識特徴を抽出し,それらとマッチングして目標運動を洗練し,他の目標状態を回復させる機能相互作用モジュールを導入する。 大規模データセット(KITTIは70.9%,NuScenesは51.70%)上で,我々のパラダイムが競争性能を達成することを実証した。 コードは近くhttps://github.com/leozhiheng/mtm-tracker.gitで公開される。

3D single object tracking with LiDAR points is an important task in the computer vision field. Previous methods usually adopt the matching-based or motion-centric paradigms to estimate the current target status. However, the former is sensitive to the similar distractors and the sparseness of point cloud due to relying on appearance matching, while the latter usually focuses on short-term motion clues (eg. two frames) and ignores the long-term motion pattern of target. To address these issues, we propose a mixed paradigm with two stages, named MTM-Tracker, which combines motion modeling with feature matching into a single network. Specifically, in the first stage, we exploit the continuous historical boxes as motion prior and propose an encoder-decoder structure to locate target coarsely. Then, in the second stage, we introduce a feature interaction module to extract motion-aware features from consecutive point clouds and match them to refine target movement as well as regress other target states. Extensive experiments validate that our paradigm achieves competitive performance on large-scale datasets (70.9% in KITTI and 51.70% in NuScenes). The code will be open soon at https://github.com/LeoZhiheng/MTM-Tracker.git.
翻訳日:2023-12-20 23:23:14 公開日:2023-12-18
# ExpeL: LLMエージェントは経験的学習者

ExpeL: LLM Agents Are Experiential Learners ( http://arxiv.org/abs/2308.10144v2 )

ライセンス: Link先を確認
Andrew Zhao, Daniel Huang, Quentin Xu, Matthieu Lin, Yong-Jin Liu, Gao Huang(参考訳) 大規模言語モデル(LLM)を意思決定タスクに適用することに対する最近の研究の関心の高まりは、LLMに埋め込まれた広範囲な世界知識を活用することで繁栄している。 カスタムな意思決定タスクのためにLLMをカスタマイズする需要は増えているが、特定のタスクのためにそれらを微調整することはリソース集約であり、モデルの一般化能力を低下させる可能性がある。 さらに、GPT-4やClaudeのような最先端の言語モデルは、主にAPIコールを通じてアクセス可能である。 このシナリオは、パラメトリック更新を必要とせずにエージェントエクスペリエンスから学習できる新しい方法論の必要性の高まりを強調している。 これらの問題に対処するためにexperiential learning (expel)エージェントを紹介する。 エージェントは、経験を自律的に収集し、訓練タスクの集合から自然言語を用いた知識を抽出する。 推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。 実験の結果,ExpeLエージェントの堅牢な学習効果が強調され,経験を蓄積するにつれて,その性能が一貫した向上であることが示唆された。 我々はさらに,質的観察と追加実験を通じて,expelエージェントの新たな能力と伝達学習能力について検討する。

The recent surge in research interest in applying large language models (LLMs) to decision-making tasks has flourished by leveraging the extensive world knowledge embedded in LLMs. While there is a growing demand to tailor LLMs for custom decision-making tasks, finetuning them for specific tasks is resource-intensive and may diminish the model's generalization capabilities. Moreover, state-of-the-art language models like GPT-4 and Claude are primarily accessible through API calls, with their parametric weights remaining proprietary and unavailable to the public. This scenario emphasizes the growing need for new methodologies that allow learning from agent experiences without requiring parametric updates. To address these problems, we introduce the Experiential Learning (ExpeL) agent. Our agent autonomously gathers experiences and extracts knowledge using natural language from a collection of training tasks. At inference, the agent recalls its extracted insights and past experiences to make informed decisions. Our empirical results highlight the robust learning efficacy of the ExpeL agent, indicating a consistent enhancement in its performance as it accumulates experiences. We further explore the emerging capabilities and transfer learning potential of the ExpeL agent through qualitative observations and additional experiments.
翻訳日:2023-12-20 23:22:52 公開日:2023-12-18
# BLIVA: テキストリッチ視覚質問の処理を改善するためのシンプルなマルチモーダルLLM

BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions ( http://arxiv.org/abs/2308.09936v3 )

ライセンス: Link先を確認
Wenbo Hu, Yifan Xu, Yi Li, Weiyue Li, Zeyuan Chen, Zhuowen Tu(参考訳) 視覚言語モデル(VLM)は、視覚的理解機能を組み込んだ大規模言語モデル(LLM)を拡張し、オープンな視覚的質問応答(VQA)タスクに対処する上で大きな進歩を見せている。 しかし、これらのモデルはテキストに溶け込んだ画像を正確に解釈することはできない。 画像から情報を抽出する標準的な手順は、しばしば一定のクエリの埋め込みを学習する。 これらの埋め込みは画像コンテキストをカプセル化するために設計され、後にLSMのソフトプロンプト入力として使われる。 しかし、このプロセスはトークン数に限定されており、テキストに富んだコンテキストでシーンの認識を削減できる可能性がある。 そこで本研究では,Visual Assistantを用いたInstructBLIPの拡張版であるBLIVAを紹介する。 BLIVAは、InstructBLIPからのクエリの埋め込みと、LLaVAにインスパイアされたLLMにエンコードされたパッチの埋め込みを直接プロジェクトする。 このアプローチはモデルがクエリデコーディングプロセス中に見逃される可能性のある複雑な詳細をキャプチャするのを支援する。 我々のモデルであるBLIVAは、テキストリッチなVQAベンチマーク(OCR-VQAベンチマークでは最大17.76%)と一般的な(特にテキストリッチではない)VQAベンチマーク(Visual Space Reasoningベンチマークでは最大7.9%)のパフォーマンスを大幅に向上させ、総合マルチモーダルLLMベンチマーク(MME)では17.72%の改善を実現し、ベースラインであるInstructBLIPと比較した。 BLIVAは、テキストの有無に関わらず、現実世界の画像をデコードする重要な能力を示す。 BLIVAによって実現された幅広い産業応用を実証するために、11の多様なカテゴリにまたがる質問応答セットと組み合わせたYouTubeサムネイルからなる新しいデータセットを用いて、モデルを評価した。 私たちのコードとモデルはhttps://github.com/mlpc-ucsd/BLIVAで自由にアクセスできます。

Vision Language Models (VLMs), which extend Large Language Models (LLM) by incorporating visual understanding capability, have demonstrated significant advancements in addressing open-ended visual question-answering (VQA) tasks. However, these models cannot accurately interpret images infused with text, a common occurrence in real-world scenarios. Standard procedures for extracting information from images often involve learning a fixed set of query embeddings. These embeddings are designed to encapsulate image contexts and are later used as soft prompt inputs in LLMs. Yet, this process is limited to the token count, potentially curtailing the recognition of scenes with text-rich context. To improve upon them, the present study introduces BLIVA: an augmented version of InstructBLIP with Visual Assistant. BLIVA incorporates the query embeddings from InstructBLIP and also directly projects encoded patch embeddings into the LLM, a technique inspired by LLaVA. This approach assists the model to capture intricate details potentially missed during the query decoding process. Empirical evidence demonstrates that our model, BLIVA, significantly enhances performance in processing text-rich VQA benchmarks (up to 17.76% in OCR-VQA benchmark) and in undertaking general (not particularly text-rich) VQA benchmarks (up to 7.9% in Visual Spatial Reasoning benchmark), and achieved 17.72% overall improvement in a comprehensive multimodal LLM benchmark (MME), comparing to our baseline InstructBLIP. BLIVA demonstrates significant capability in decoding real-world images, irrespective of text presence. To demonstrate the broad industry applications enabled by BLIVA, we evaluate the model using a new dataset comprising YouTube thumbnails paired with question-answer sets across 11 diverse categories. Our code and models are freely accessible at https://github.com/mlpc-ucsd/BLIVA.
翻訳日:2023-12-20 23:22:31 公開日:2023-12-18
# 大規模言語モデルの予期せぬ能力について

On the Unexpected Abilities of Large Language Models ( http://arxiv.org/abs/2308.09720v2 )

ライセンス: Link先を確認
Stefano Nolfi(参考訳) 大規模言語モデル(llm)は、訓練対象のタスクとは直接関係のない幅広い能力、すなわち、人間が書いたテキストの次の単語を予測する能力を発揮することができる。 本稿では,llmsが発達する認知能力と人間の認知との関係に関する最近の研究を概観する。 本稿では,これらの認知能力獲得につながる間接的プロセスの性質,他の間接的プロセスとの関係,統合的能力獲得の意義について論じる。 さらに,訓練課題の近位目標と間接的にのみ関連する能力の発達を可能にする因子を提案する。 最後に、LLMが開発できる機能の全セットが予測可能であるかどうかについて議論する。

Large Language Models (LLMs) are capable of displaying a wide range of abilities that are not directly connected with the task for which they are trained: predicting the next words of human-written texts. In this article, I review recent research investigating the cognitive abilities developed by LLMs and their relation to human cognition. I discuss the nature of the indirect process that leads to the acquisition of these cognitive abilities, their relation to other indirect processes, and the implications for the acquisition of integrated abilities. Moreover, I propose the factors that enable the development of abilities that are related only very indirectly to the proximal objective of the training task. Finally, I discuss whether the full set of capabilities that LLMs could possibly develop is predictable.
翻訳日:2023-12-20 23:21:53 公開日:2023-12-18
# 希望から安全へ:潜伏空間におけるグラディエントペナル化による深層モデルの非学習

From Hope to Safety: Unlearning Biases of Deep Models via Gradient Penalization in Latent Space ( http://arxiv.org/abs/2308.09437v3 )

ライセンス: Link先を確認
Maximilian Dreyer, Frederik Pahde, Christopher J. Anders, Wojciech Samek, Sebastian Lapuschkin(参考訳) ディープニューラルネットワークは、トレーニングデータに埋め込まれた急激な相関を学習する傾向があるため、潜在的なバイアスのある予測につながる。 これは、医療応用などの高い意思決定のためにこれらのモデルをデプロイする際のリスクを引き起こす。 ポストホックモデル修正の現在の方法は、空間的局所化バイアスに対してのみ可能な入力レベルのアノテーションを必要とするか、潜在特徴空間を増大させ、正しい理由を強制することを望んでいる。 本稿では,勾配ペナル化によるバイアスに対するモデル感度を明示的に低減するモデル補正手法を提案する。 概念活性化ベクトルを介してバイアスをモデル化する場合、Support Vector Machinesのような従来の回帰ベースのアプローチでは方向が変化する傾向があるため、ロバストな方向を選択することの重要性を強調します。 VGG, ResNet, EfficientNetアーキテクチャを用いてISIC, Bone Age, ImageNet, CelebAデータセットの制御および実環境設定におけるバイアスを効果的に緩和する。 コードはhttps://github.com/frederikpahde/rrclarcで入手できる。

Deep Neural Networks are prone to learning spurious correlations embedded in the training data, leading to potentially biased predictions. This poses risks when deploying these models for high-stake decision-making, such as in medical applications. Current methods for post-hoc model correction either require input-level annotations which are only possible for spatially localized biases, or augment the latent feature space, thereby hoping to enforce the right reasons. We present a novel method for model correction on the concept level that explicitly reduces model sensitivity towards biases via gradient penalization. When modeling biases via Concept Activation Vectors, we highlight the importance of choosing robust directions, as traditional regression-based approaches such as Support Vector Machines tend to result in diverging directions. We effectively mitigate biases in controlled and real-world settings on the ISIC, Bone Age, ImageNet and CelebA datasets using VGG, ResNet and EfficientNet architectures. Code is available on https://github.com/frederikpahde/rrclarc.
翻訳日:2023-12-20 23:21:41 公開日:2023-12-18
# 遅延確率勾配の一般化可能性の解明に向けて

Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent ( http://arxiv.org/abs/2308.09430v2 )

ライセンス: Link先を確認
Xiaoge Deng, Li Shen, Shengwei Li, Tao Sun, Dongsheng Li, and Dacheng Tao(参考訳) 非同期に実行される確率的勾配降下(sgd)は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。 しかし、機械学習アルゴリズムを評価するための重要な指標である非同期遅延SGDの一般化性能はめったに研究されていない。 既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。 本稿では、非同期遅延$\tau$でSGDのよりシャープな一般化誤差について検討する。 生成関数解析ツールを活用することで、まず遅延勾配アルゴリズムの平均安定性を確立する。 このアルゴリズムの安定性に基づき、それぞれ2次凸問題と強い凸問題に対して$\tilde{\mathcal{O}}(\frac{T-\tau}{n\tau})$と$\tilde{\mathcal{O}}(\frac{1}{n})$の一般化誤差について上限を与える。 その結果,非同期遅延は遅延sgdアルゴリズムの一般化誤差を減少させることが示唆された。 類似解析はランダム遅延設定に一般化でき, 実験結果から理論的知見が得られた。

Stochastic gradient descent (SGD) performed in an asynchronous manner plays a crucial role in training large-scale machine learning models. However, the generalization performance of asynchronous delayed SGD, which is an essential metric for assessing machine learning algorithms, has rarely been explored. Existing generalization error bounds are rather pessimistic and cannot reveal the correlation between asynchronous delays and generalization. In this paper, we investigate sharper generalization error bound for SGD with asynchronous delay $\tau$. Leveraging the generating function analysis tool, we first establish the average stability of the delayed gradient algorithm. Based on this algorithmic stability, we provide upper bounds on the generalization error of $\tilde{\mathcal{O}}(\frac{T-\tau}{n\tau})$ and $\tilde{\mathcal{O}}(\frac{1}{n})$ for quadratic convex and strongly convex problems, respectively, where $T$ refers to the iteration number and $n$ is the amount of training data. Our theoretical results indicate that asynchronous delays reduce the generalization error of the delayed SGD algorithm. Analogous analysis can be generalized to the random delay setting, and the experimental results validate our theoretical findings.
翻訳日:2023-12-20 23:21:19 公開日:2023-12-18
# 物理不定形機械学習の一般化のためのニューラルオシレータ

Neural oscillators for generalization of physics-informed machine learning ( http://arxiv.org/abs/2308.08989v2 )

ライセンス: Link先を確認
Taniya Kapoor, Abhishek Chandra, Daniel M. Tartakovsky, Hongrui Wang, Alfredo Nunez, Rolf Dollevoet(参考訳) 物理情報処理機械学習(PIML)の主な課題は、特に偏微分方程式(PDE)で表される複雑な物理問題を扱う場合、トレーニング領域を超えて一般化することである。 本稿では,未探索領域における正確な予測が不可欠である実世界の実践的応用を促進するため,PIMLの一般化能力の向上を目的とする。 我々は,pde解の固有因果性と時間的シーケンシャル特性を利用して,神経発振器と呼ばれる常微分方程式系に基づく反復的神経構造をpimlモデルに融合する。 長時間の依存関係を効果的に捕捉し、爆発的および消滅する勾配問題を緩和することで、ニューラル発振器はPIMLタスクの一般化を促進する。 時間依存非線形PDEとバイハーモニックビーム方程式を含む大規模な実験は,提案手法の有効性を示す。 ニューラル発振器の組み込みは、様々なメトリクスにわたるベンチマーク問題における既存の最先端の手法よりも優れている。 提案手法はPIMLの一般化能力を向上し,トレーニングデータを超えた外挿および予測のための正確な解を提供する。

A primary challenge of physics-informed machine learning (PIML) is its generalization beyond the training domain, especially when dealing with complex physical problems represented by partial differential equations (PDEs). This paper aims to enhance the generalization capabilities of PIML, facilitating practical, real-world applications where accurate predictions in unexplored regions are crucial. We leverage the inherent causality and temporal sequential characteristics of PDE solutions to fuse PIML models with recurrent neural architectures based on systems of ordinary differential equations, referred to as neural oscillators. Through effectively capturing long-time dependencies and mitigating the exploding and vanishing gradient problem, neural oscillators foster improved generalization in PIML tasks. Extensive experimentation involving time-dependent nonlinear PDEs and biharmonic beam equations demonstrates the efficacy of the proposed approach. Incorporating neural oscillators outperforms existing state-of-the-art methods on benchmark problems across various metrics. Consequently, the proposed method improves the generalization capabilities of PIML, providing accurate solutions for extrapolation and prediction beyond the training data.
翻訳日:2023-12-20 23:20:55 公開日:2023-12-18
# 言語モデルとしての中国語スペル訂正

Chinese Spelling Correction as Rephrasing Language Model ( http://arxiv.org/abs/2308.08796v2 )

ライセンス: Link先を確認
Linfeng Liu, Hongqiu Wu, Hai Zhao(参考訳) 本稿では,中国語の綴り誤りの検出と訂正を目的とした中国語綴り訂正(csc)について述べる。 現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。 しかし、ある文字を別の文字にタグ付けする過程において、訂正が過度に条件付けされているという重大な欠陥に注意する。 これは人間の考え方とは逆で、個人は前に記憶されたエラーパターンにのみ依存するのではなく、その意味論に基づいて完全な文を言い換える。 このような直感的学習プロセスは、機械スペル訂正の一般化可能性と伝達可能性のボトルネックをもたらす。 そこで本研究では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。 この新たなトレーニングパラダイムは、微調整およびゼロショットのCSCベンチマークにまたがる、最先端の新たな結果を達成する。 また,CSCが他のタスクと共同で訓練された場合,変換可能な言語表現も学習する。

This paper studies Chinese Spelling Correction (CSC), which aims to detect and correct the potential spelling errors in a given sentence. Current state-of-the-art methods regard CSC as a sequence tagging task and fine-tune BERT-based models on sentence pairs. However, we note a critical flaw in the process of tagging one character to another, that the correction is excessively conditioned on the error. This is opposite from human mindset, where individuals rephrase the complete sentence based on its semantics, rather than solely on the error patterns memorized before. Such a counter-intuitive learning process results in the bottleneck of generalizability and transferability of machine spelling correction. To address this, we propose Rephrasing Language Model (ReLM), where the model is trained to rephrase the entire sentence by infilling additional slots, instead of character-to-character tagging. This novel training paradigm achieves the new state-of-the-art results across fine-tuned and zero-shot CSC benchmarks, outperforming previous counterparts by a large margin. Our method also learns transferable language representation when CSC is jointly trained with other tasks.
翻訳日:2023-12-20 23:20:41 公開日:2023-12-18
# DreamStyler: テキスト-画像拡散モデルによるスタイルインバージョンによるペイント

DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2309.06933v2 )

ライセンス: Link先を確認
Namhyuk Ahn, Junsoo Lee, Chunggi Lee, Kunhee Kim, Daesik Kim, Seung-Hun Nam, Kibeom Hong(参考訳) 近年の大規模テキスト・画像モデルの進歩は画期的な成果をもたらし、美術分野における様々な応用を見出した。 しかし、テキストプロンプトだけで作品(筆跡、色調、作曲など)の独特な特徴を表現することは、言語記述の固有の制約のために制限を受ける可能性がある。 そこで我々はDreamStylerを紹介した。DreamStylerは芸術的な画像合成のための新しいフレームワークで、テキスト・画像合成とスタイル転送の両方に長けている。 DreamStylerは、コンテキスト対応のテキストプロンプトで多段階のテキスト埋め込みを最適化する。 さらに、コンテンツとスタイル指導により、dreamstylerは様々なスタイル参照に対応する柔軟性を示す。 実験の結果、複数のシナリオで優れたパフォーマンスを示し、芸術的製品作成に有望な可能性を示唆した。

Recent progresses in large-scale text-to-image models have yielded remarkable accomplishments, finding various applications in art domain. However, expressing unique characteristics of an artwork (e.g. brushwork, colortone, or composition) with text prompts alone may encounter limitations due to the inherent constraints of verbal description. To this end, we introduce DreamStyler, a novel framework designed for artistic image synthesis, proficient in both text-to-image synthesis and style transfer. DreamStyler optimizes a multi-stage textual embedding with a context-aware text prompt, resulting in prominent image quality. In addition, with content and style guidance, DreamStyler exhibits flexibility to accommodate a range of style references. Experimental results demonstrate its superior performance across multiple scenarios, suggesting its promising potential in artistic product creation.
翻訳日:2023-12-20 23:15:08 公開日:2023-12-18
# 3次元形状集合学習のためのSE(3)の等価性

Leveraging SE(3) Equivariance for Learning 3D Geometric Shape Assembly ( http://arxiv.org/abs/2309.06810v2 )

ライセンス: Link先を確認
Ruihai Wu, Chenrui Tie, Yushi Du, Yan Zhao, Hao Dong(参考訳) 形状アセンブリは、部品(または断片)を完全なオブジェクトに再構成することを目的としています。 意味的な部分アセンブリ(例えば、椅子の脚のような意味的な部分全体を組み立てる)とは異なる幾何学的な部分アセンブリ(例えば、ボウルの断片を完全なボウルに組み立てる)は、コンピュータビジョンとロボティクスにおける新たなタスクである。 このタスクは意味情報の代わりに、部品の幾何学的情報に焦点を当てる。 破断された部分の幾何学的空間とポーズ空間は並外れたほど大きいため、部分表現の形状は幾何学的形状の組立に有用である。 そこで本論文では,このような形状にse(3)等分散を利用するように提案する。 さらに, 視覚・ロボット工学におけるこれまでの研究は, se(3) 等分散を単一対象の表現にのみ考慮するが, 一歩前進して, 複数部分相関を考慮した表現に対する se(3) 等分散の活用を提案し, マルチパートアセンブリの性能をさらに高める。 実験はse(3)等分散の意義と,提案する幾何学的形状集合法を実証する。 プロジェクトページ: https://crtie.github.io/SE-3-part-assembly/

Shape assembly aims to reassemble parts (or fragments) into a complete object, which is a common task in our daily life. Different from the semantic part assembly (e.g., assembling a chair's semantic parts like legs into a whole chair), geometric part assembly (e.g., assembling bowl fragments into a complete bowl) is an emerging task in computer vision and robotics. Instead of semantic information, this task focuses on geometric information of parts. As the both geometric and pose space of fractured parts are exceptionally large, shape pose disentanglement of part representations is beneficial to geometric shape assembly. In our paper, we propose to leverage SE(3) equivariance for such shape pose disentanglement. Moreover, while previous works in vision and robotics only consider SE(3) equivariance for the representations of single objects, we move a step forward and propose leveraging SE(3) equivariance for representations considering multi-part correlations, which further boosts the performance of the multi-part assembly. Experiments demonstrate the significance of SE(3) equivariance and our proposed method for geometric shape assembly. Project page: https://crtie.github.io/SE-3-part-assembly/
翻訳日:2023-12-20 23:14:52 公開日:2023-12-18
# 歴史から学ぶ:画像復元のためのタスク非依存モデルコントラスト学習

Learning from History: Task-agnostic Model Contrastive Learning for Image Restoration ( http://arxiv.org/abs/2309.06023v2 )

ライセンス: Link先を確認
Gang Wu, Junjun Jiang, Kui Jiang, Xianming Liu(参考訳) コントラスト学習は、適切な負のサンプルを導入することで、その不適切な性質を考慮に入れたコンパクトな最適化空間を実現するために、低レベルの視覚タスクにも活用されている。 しかし、既存の手法は手動で事前定義されたタスク指向のネガティブに依存しており、しばしばタスク固有のバイアスが顕著に現れる。 この課題に対処するために,本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史から学ぶ」という革新的な手法を提案する。 我々のアプローチは、画像復元のためのモデルコントラストパラダイム(MCIR)と呼ばれ、遅延モデルをネガティブモデルとして再定義し、多様な画像復元タスクと互換性を持つ。 そこで我々は,SPN(Self-Prior Guided Negative Los)を提案する。 このアプローチは、提案したモデルコントラッシブパラダイムで再訓練された場合、既存のモデルを大幅に強化する。 その結果,様々なタスクやアーキテクチャにおける画像復元の大幅な改善が示された。 例えば、SPNで再訓練されたモデルは、オリジナルのFFANetとDehazeFormerを3.41dB、0.57dBで上回っている。 同様に、SPA-Data の 0.47 dB と IDT の 0.12 dB を、Manga109 の 0.12 dB を、それぞれ軽量の SwinIR よりも 4倍の解像度で改善した。 コードと再トレーニングされたモデルはhttps://github.com/Aitical/MCIR.comで入手できる。

Contrastive learning has emerged as a prevailing paradigm for high-level vision tasks, which, by introducing properly negative samples, has also been exploited for low-level vision tasks to achieve a compact optimization space to account for their ill-posed nature. However, existing methods rely on manually predefined and task-oriented negatives, which often exhibit pronounced task-specific biases. To address this challenge, our paper introduces an innovative method termed 'learning from history', which dynamically generates negative samples from the target model itself. Our approach, named Model Contrastive paradigm for Image Restoration (MCIR), rejuvenates latency models as negative models, making it compatible with diverse image restoration tasks. We propose the Self-Prior guided Negative loss (SPN) to enable it. This approach significantly enhances existing models when retrained with the proposed model contrastive paradigm. The results show significant improvements in image restoration across various tasks and architectures. For example, models retrained with SPN outperform the original FFANet and DehazeFormer by 3.41 dB and 0.57 dB on the RESIDE indoor dataset for image dehazing. Similarly, they achieve notable improvements of 0.47 dB on SPA-Data over IDT for image deraining and 0.12 dB on Manga109 for a 4x scale super-resolution over lightweight SwinIR, respectively. Code and retrained models are available at https://github.com/Aitical/MCIR.
翻訳日:2023-12-20 23:13:56 公開日:2023-12-18
# DePT:パラメータ効率の良い微調整のための分解プロンプトチューニング

DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning ( http://arxiv.org/abs/2309.05173v3 )

ライセンス: Link先を確認
Zhengxiang Shi, Aldo Lipani(参考訳) 言語モデル(lm)の入力に少量の訓練可能なソフト(連続)プロンプトベクトルが固定されるプロンプトチューニング(pt)は、パラメータ効率の良い微調整(peft)のための様々なタスクやモデルに対して有望な結果を示している。 PTは、トレーニング可能なパラメータが少なくて競合性能を保ち、モデルのサイズが拡大するにつれてパラメータを劇的にスケールアップしないため、他のPEFTアプローチと際立っている。 しかし、PTはソフトプロンプトトークンを導入し、入力シーケンスが長くなり、Transformerの2次複雑さによるトレーニングや推論時間、メモリ使用量に大きな影響を及ぼす。 特に大きな言語モデル(llm)では、日々の大量のクエリに直面する。 この問題に対処するために,ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された2つの低ランク行列に分解するDecomposed Prompt Tuning (DePT)を提案する。 これにより、トレーニング可能なパラメータサイズを変更することなく、バニラPTとその変種と比較して20%以上のメモリと時間コストを節約しながら、DePTのパフォーマンスが向上する。 23の自然言語処理(NLP)と視覚言語(VL)タスクに関する広範な実験を通じて、DePTはいくつかのシナリオにおいて完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示した。 さらに,モデルサイズが大きくなるにつれてdeptがより効率的になることを示す。 さらに,DePTは数ショットの学習環境においてパラメータ効率のよい伝達学習とシームレスに統合され,様々なモデルアーキテクチャやサイズへの適応性を強調している。

Prompt tuning (PT), where a small amount of trainable soft (continuous) prompt vectors is affixed to the input of language models (LM), has shown promising results across various tasks and models for parameter-efficient fine-tuning (PEFT). PT stands out from other PEFT approaches because it maintains competitive performance with fewer trainable parameters and does not drastically scale up its parameters as the model size expands. However, PT introduces additional soft prompt tokens, leading to longer input sequences, which significantly impacts training and inference time and memory usage due to the Transformer's quadratic complexity. Particularly concerning for Large Language Models (LLMs) that face heavy daily querying. To address this issue, we propose Decomposed Prompt Tuning (DePT), which decomposes the soft prompt into a shorter soft prompt and a pair of low-rank matrices that are then optimised with two different learning rates. This allows DePT to achieve better performance while saving over 20% memory and time costs compared to vanilla PT and its variants, without changing trainable parameter sizes. Through extensive experiments on 23 natural language processing (NLP) and vision-language (VL) tasks, we demonstrate that DePT outperforms state-of-the-art PEFT approaches, including the full fine-tuning baseline in some scenarios. Additionally, we empirically show that DEPT grows more efficient as the model size increases. Our further study reveals that DePT integrates seamlessly with parameter-efficient transfer learning in the few-shot learning setting and highlights its adaptability to various model architectures and sizes.
翻訳日:2023-12-20 23:13:31 公開日:2023-12-18
# ガラス状エネルギー景観における高次元信号の回復における確率的グラディエントDescentのグラディエントDescent

Stochastic Gradient Descent outperforms Gradient Descent in recovering a high-dimensional signal in a glassy energy landscape ( http://arxiv.org/abs/2309.04788v2 )

ライセンス: Link先を確認
Persia Jana Kamali, Pierfrancesco Urbani(参考訳) Stochastic Gradient Descent (SGD) は、ニューラルネットワークのトレーニングに広く使われている非平衡アルゴリズムである。 しかし、SGDがこの技術の成功にどの程度重要なのか、特に高次元の非凸コスト関数をグラディエント・ディクセント(GD)のような他の最適化アルゴリズムと比較して最適化するのにどの程度有効かは、ほとんど分かっていない。 この研究では、動的平均場理論を利用して、その性能を高次元極限でベンチマークする。 そこで本研究では, 隠れた高次元非線形暗号信号, プロトタイプの高次元非凸ハード最適化問題について考察する。 我々は,SGDとGDの性能を比較し,SGDが十分に小さなバッチサイズでGDより優れていることを示す。 特に、これらのアルゴリズムの緩和時間の電力法則は、バッチサイズが小さいSGDの回復しきい値が対応するGDよりも小さいことを示す。

Stochastic Gradient Descent (SGD) is an out-of-equilibrium algorithm used extensively to train artificial neural networks. However very little is known on to what extent SGD is crucial for to the success of this technology and, in particular, how much it is effective in optimizing high-dimensional non-convex cost functions as compared to other optimization algorithms such as Gradient Descent (GD). In this work we leverage dynamical mean field theory to benchmark its performances in the high-dimensional limit. To do that, we consider the problem of recovering a hidden high-dimensional non-linearly encrypted signal, a prototype high-dimensional non-convex hard optimization problem. We compare the performances of SGD to GD and we show that SGD largely outperforms GD for sufficiently small batch sizes. In particular, a power law fit of the relaxation time of these algorithms shows that the recovery threshold for SGD with small batch size is smaller than the corresponding one of GD.
翻訳日:2023-12-20 23:12:41 公開日:2023-12-18
# 畳み込みニューラルネットワークのオブジェクトサイズ駆動設計:生データに基づく仮想軸検出

Object Size-Driven Design of Convolutional Neural Networks: Virtual Axle Detection based on Raw Data ( http://arxiv.org/abs/2309.01574v2 )

ライセンス: Link先を確認
Henik Riedel, Robert Steven Lorenzen and Clemens H\"ubler(参考訳) 老化インフラのメンテナンスコストの増大は、革新的な監視技術を必要とする。 本稿では,軸検出装置を使わずに橋梁重み移動システム(bwim)のリアルタイム適用を可能にする新しい軸検出手法を提案する。 拡張受容場(vader)を有する仮想軸検出器は、生加速度データのみを入力として使用しながら、ブリッジタイプやセンサ配置に依存しない。 入力としてスペクトログラムの代わりに生データを使用することで、パラメータ数を増加させることなく受容野を高めることができる。 また,畳み込みニューラルネットワーク(cnn)アーキテクチャのオブジェクトサイズ駆動設計のための新しい受容場(rf)ルールを提案する。 RF規則が物理境界条件と深層学習モデル開発の間のギャップを埋める可能性を示すことができた。 RF法則から, 生データを用いたモデルの方が, 分光器を用いたモデルよりも優れた性能が得られる可能性が示唆された。 提案するvaderは加速度測定のみを用いて空間誤差4.13 cmの軸の99.9 %を検出でき、スペクトログラムを用いた場合と比較して計算コストとメモリコストを99 %削減できる。

Rising maintenance costs of ageing infrastructure necessitate innovative monitoring techniques. This paper presents a new approach for detecting axles, enabling real-time application of Bridge Weigh-In-Motion (BWIM) systems without dedicated axle detectors. The proposed Virtual Axle Detector with Enhanced Receptive Field (VADER) is independent of bridge type and sensor placement while only using raw acceleration data as input. By using raw data instead of spectograms as input, the receptive field can be enhanced without increasing the number of parameters. We also introduce a novel receptive field (RF) rule for an object-size driven design of Convolutional Neural Network (CNN) architectures. We were able to show, that the RF rule has the potential to bridge the gap between physical boundary conditions and deep learning model development. Based on the RF rule, our results suggest that models using raw data could achieve better performance than those using spectrograms, offering a compelling reason to consider raw data as input. The proposed VADER achieves to detect 99.9 % of axles with a spatial error of 4.13 cm using only acceleration measurements, while cutting computational and memory costs by 99 % compared to the state-of-the-art using spectograms.
翻訳日:2023-12-20 23:10:57 公開日:2023-12-18
# fearless luminance adaptation: 露光補正のためのマクロマイクロ階層トランス

Fearless Luminance Adaptation: A Macro-Micro-Hierarchical Transformer for Exposure Correction ( http://arxiv.org/abs/2309.00872v2 )

ライセンス: Link先を確認
Gehui Li, Jinyuan Liu, Long Ma, Zhiying Jiang, Xin Fan, Risheng Liu(参考訳) 理想的でない露出設定で撮影された写真は、しばしば視覚品質が悪い。 補正手順は大きく異なるため、単一のニューラルネットワークが全ての露光問題を処理するのは困難である。 さらに、畳み込みの固有の制限は、モデルが極めて過度に露出した領域の忠実な色や詳細を復元する能力を妨げる。 これらの制約を克服するために, 長距離依存性を捉えるためのマクロ注意, 局所特徴を抽出するマイクロ注意, 粗・細補正のための階層構造からなるマクロマイクロ階層トランスを提案する。 特に、相補的なマクロマイクロアテンションデザインは、グローバルな相互作用を可能にしながら、局所性を高める。 階層構造により、ネットワークは異なるスケール層の露光誤差を層ごとに補正することができる。 さらに、コントラスト制約を提案し、それを損失関数にシームレスに結合し、補正した画像を正のサンプルにプルし、動的に生成された負のサンプルからプッシュする。 これにより、残色歪みや詳細の喪失を除去することができる。 また,低照度顔認識と低照度セマンティクスセグメンテーションのための画像エンハンサーとして拡張した。 実験により,本手法は最先端手法よりも定量的かつ定性的に,より魅力的な結果が得られることが示された。

Photographs taken with less-than-ideal exposure settings often display poor visual quality. Since the correction procedures vary significantly, it is difficult for a single neural network to handle all exposure problems. Moreover, the inherent limitations of convolutions, hinder the models ability to restore faithful color or details on extremely over-/under- exposed regions. To overcome these limitations, we propose a Macro-Micro-Hierarchical transformer, which consists of a macro attention to capture long-range dependencies, a micro attention to extract local features, and a hierarchical structure for coarse-to-fine correction. In specific, the complementary macro-micro attention designs enhance locality while allowing global interactions. The hierarchical structure enables the network to correct exposure errors of different scales layer by layer. Furthermore, we propose a contrast constraint and couple it seamlessly in the loss function, where the corrected image is pulled towards the positive sample and pushed away from the dynamically generated negative samples. Thus the remaining color distortion and loss of detail can be removed. We also extend our method as an image enhancer for low-light face recognition and low-light semantic segmentation. Experiments demonstrate that our approach obtains more attractive results than state-of-the-art methods quantitatively and qualitatively.
翻訳日:2023-12-20 23:10:04 公開日:2023-12-18
# コントラストトークン音響事前学習による音声表現の学習

Learning Speech Representation From Contrastive Token-Acoustic Pretraining ( http://arxiv.org/abs/2309.00424v5 )

ライセンス: Link先を確認
Chunyu Qiang, Hao Li, Yixin Tian, Ruibo Fu, Tao Wang, Longbiao Wang, Jianwu Dang(参考訳) 最小教師付きテキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などの微粒化タスクでは、音声から抽出した中間表現は、両モードの情報を含むテキストと音響情報の「ブリッジ」として機能すべきである。 セマンティックな内容は強調され、話者のアイデンティティや音響的詳細といったパラ言語的な情報は強調されなければならない。 しかし,音声から微細な中間表現を抽出する既存の手法は,過剰な冗長性や次元の爆発といった問題に悩まされている。 コントラスト学習は2つのモードから中間表現をモデル化する良い方法である。 しかし、音声分野における既存のコントラスト学習手法は、下流オーディオ分類タスクのグローバル記述情報を抽出することに焦点を当てており、TS、VC、ASRタスクには適さない。 これらの問題に対処するために,2つのエンコーダを用いて音素と音声を連接したマルチモーダル空間に導入し,フレームレベルで音素と音声を接続する方法を学習するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。 CTAPモデルは、210kの音声と音素のペアで訓練され、最小に制御されたTS、VC、ASRを達成する。 提案手法は,音声処理における下流タスクの細粒度生成と認識のための有望なソリューションを提供する。 オーディオサンプルをWebサイトに提供する。

For fine-grained generation and recognition tasks such as minimally-supervised text-to-speech (TTS), voice conversion (VC), and automatic speech recognition (ASR), the intermediate representations extracted from speech should serve as a "bridge" between text and acoustic information, containing information from both modalities. The semantic content is emphasized, while the paralinguistic information such as speaker identity and acoustic details should be de-emphasized. However, existing methods for extracting fine-grained intermediate representations from speech suffer from issues of excessive redundancy and dimension explosion. Contrastive learning is a good method for modeling intermediate representations from two modalities. However, existing contrastive learning methods in the audio field focus on extracting global descriptive information for downstream audio classification tasks, making them unsuitable for TTS, VC, and ASR tasks. To address these issues, we propose a method named "Contrastive Token-Acoustic Pretraining (CTAP)", which uses two encoders to bring phoneme and speech into a joint multimodal space, learning how to connect phoneme and speech at the frame level. The CTAP model is trained on 210k speech and phoneme pairs, achieving minimally-supervised TTS, VC, and ASR. The proposed CTAP method offers a promising solution for fine-grained generation and recognition downstream tasks in speech processing. We provide a website with audio samples.
翻訳日:2023-12-20 23:09:41 公開日:2023-12-18
# プログラム・オブ・思考は推論のためにいつ働くのか?

When Do Program-of-Thoughts Work for Reasoning? ( http://arxiv.org/abs/2308.15452v6 )

ライセンス: Link先を確認
Zhen Bi, Ningyu Zhang, Yinuo Jiang, Shumin Deng, Guozhou Zheng, Huajun Chen(参考訳) 具体化された人工知能の領域では、大規模言語モデル(llm)の推論能力が重要な役割を果たす。 複雑な推論タスクに対処するためにプログラミング言語を使用するLLMのプログラム・オブ・シンクレット・プロンプトのような効果的な方法があるが、コードデータの推論能力改善に対する影響は未定のままである。 このギャップに対処するために、構造的属性と論理的属性を組み合わせた複雑性影響推論スコア(CIRS)を提案し、コードと推論能力の相関を測定する。 具体的には、抽象構文木を用いて構造情報をエンコードし、難易度と循環的複雑度を考慮して論理複雑性を計算する。 経験的分析により、複雑さのコードデータがLLMによって学習または理解されるわけではないことがわかった。 プログラム支援プロンプトによる推論能力の向上には最適な複雑性レベルが不可欠である。 次に,自動合成・階層化アルゴリズムを設計し,数学的推論のための命令生成とコード生成タスクのためのコードデータフィルタリングに適用する。 その結果,提案手法の有効性が示された。 コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。

In the realm of embodied artificial intelligence, the reasoning capabilities of Large Language Models (LLMs) play a pivotal role. Although there are effective methods like program-of-thought prompting for LLMs which uses programming language to tackle complex reasoning tasks, the specific impact of code data on the improvement of reasoning capabilities remains under-explored. To address this gap, we propose complexity-impacted reasoning score (CIRS), which combines structural and logical attributes, to measure the correlation between code and reasoning abilities. Specifically, we use the abstract syntax tree to encode the structural information and calculate logical complexity by considering the difficulty and the cyclomatic complexity. Through an empirical analysis, we find not all code data of complexity can be learned or understood by LLMs. Optimal level of complexity is critical to the improvement of reasoning abilities by program-aided prompting. Then we design an auto-synthesizing and stratifying algorithm, and apply it to instruction generation for mathematical reasoning and code data filtering for code generation tasks. Extensive results demonstrates the effectiveness of our proposed approach. Code will be integrated into the EasyInstruct framework at https://github.com/zjunlp/EasyInstruct.
翻訳日:2023-12-20 23:09:12 公開日:2023-12-18
# SAM-PARSER:パラメータ空間再構成によるファインチューニングSAM

SAM-PARSER: Fine-tuning SAM Efficiently by Parameter Space Reconstruction ( http://arxiv.org/abs/2308.14604v3 )

ライセンス: Link先を確認
Zelin Peng, Zhengqin Xu, Zhilin Zeng, Xiaokang Yang, Wei Shen(参考訳) Segment Anything Model (SAM)は、画像中のオブジェクトのセグメンテーションに強力で汎用的なソリューションを提供するため、注目されている。 しかし、異なるシナリオにおける下流セグメンテーションタスクのための微調整SAMは、様々なシナリオの特徴が自然に多様なモデルパラメータ空間を必要とするため、依然として課題である。 既存の微調整手法の多くは、SAMの元々のパラメータ空間を変更するための新しいパラメータセットを導入することで、異なるシナリオ間のギャップを埋めようとしている。 本稿では,パラメータ空間再構成 (SAM-PARSER) により, 微調整時のほぼゼロなパラメータを導入し, SAMを効率的に微調整する手法を提案する。 SAM-PARSER では,SAM の原パラメータ空間は比較的完全であり,その基底が新しいシナリオのパラメータ空間を再構成することができると仮定する。 行列分解により基底を求め、その係数を微調整し、基底の最適線形結合により新しいシナリオに合わせたパラメータ空間を再構成する。 実験の結果,SAM-PARSERは様々なシナリオにおいて優れたセグメンテーション性能を示し,既存のパラメータ効率の微調整法と比較してトレーニング可能なパラメータの数を290ドル程度削減できることがわかった。

Segment Anything Model (SAM) has received remarkable attention as it offers a powerful and versatile solution for object segmentation in images. However, fine-tuning SAM for downstream segmentation tasks under different scenarios remains a challenge, as the varied characteristics of different scenarios naturally requires diverse model parameter spaces. Most existing fine-tuning methods attempt to bridge the gaps among different scenarios by introducing a set of new parameters to modify SAM's original parameter space. Unlike these works, in this paper, we propose fine-tuning SAM efficiently by parameter space reconstruction (SAM-PARSER), which introduce nearly zero trainable parameters during fine-tuning. In SAM-PARSER, we assume that SAM's original parameter space is relatively complete, so that its bases are able to reconstruct the parameter space of a new scenario. We obtain the bases by matrix decomposition, and fine-tuning the coefficients to reconstruct the parameter space tailored to the new scenario by an optimal linear combination of the bases. Experimental results show that SAM-PARSER exhibits superior segmentation performance across various scenarios, while reducing the number of trainable parameters by $\approx 290$ times compared with current parameter-efficient fine-tuning methods.
翻訳日:2023-12-20 23:08:52 公開日:2023-12-18
# 法的要約の評価に対する質問応答アプローチ

Question-Answering Approach to Evaluating Legal Summaries ( http://arxiv.org/abs/2309.15016v2 )

ライセンス: Link先を確認
Huihui Xu and Kevin Ashley(参考訳) rougeのような従来の評価指標は、議論的な構造を考慮せずに、参照と生成された要約の語彙重なりを比較する。 本稿では,gpt-4を用いて,主点と参照要約情報をカバーする一連の質問・回答ペアを生成する新しい法的要約評価フレームワークを提案する。 GPT-4は、参照要約から生成された質問の要約に基づいて回答を生成する。 最後に、GPT-4は、参照要約と生成された要約から回答を格付けする。 GPT-4グレーティングとヒトグレーディングの相関について検討した。 以上の結果から, GPT-4を用いた質問応答手法は, 要約の質向上に有効であることが示唆された。

Traditional evaluation metrics like ROUGE compare lexical overlap between the reference and generated summaries without taking argumentative structure into account, which is important for legal summaries. In this paper, we propose a novel legal summarization evaluation framework that utilizes GPT-4 to generate a set of question-answer pairs that cover main points and information in the reference summary. GPT-4 is then used to generate answers based on the generated summary for the questions from the reference summary. Finally, GPT-4 grades the answers from the reference summary and the generated summary. We examined the correlation between GPT-4 grading with human grading. The results suggest that this question-answering approach with GPT-4 can be a useful tool for gauging the quality of the summary.
翻訳日:2023-12-20 23:01:36 公開日:2023-12-18
# 物理インフォームド状態空間ニューラルネットワークによる輸送現象の解析

Physics-informed State-space Neural Networks for Transport Phenomena ( http://arxiv.org/abs/2309.12211v2 )

ライセンス: Link先を確認
Akshay J. Dave and Richard B. Vilim(参考訳) 物理インフォームドステートスペースニューラルネットワークモデル(PSMs)は、特に化学、生物医学、発電所などの輸送支配システムにおいて、自律システムのリアルタイム最適化、柔軟性、耐故障性を達成するための新しいソリューションである。 psmsは、センサーデータを用いたディープニューラルネットワークのトレーニングと、コンポーネントの偏微分方程式(pdes)を用いた物理インフォーメーションによってこの問題に対処し、その結果、物理学的に制約されたエンドツーエンドの微分可能なフォワードダイナミクスモデルとなる。 加熱チャネルと冷却システムループの2つのサイリコ実験を通じて、PSMが純粋にデータ駆動モデルよりも正確なアプローチを提供することを示した。 前回の実験では、PSMは純粋にデータ駆動型ニューラルネットワークと比較して、テストデータセット全体の平均ルート平均二乗誤差を著しく低くし、それぞれ圧力、速度、温度の予測で44 %、48 %、94 %の減少を示した。 精度以外にも、PSMは魅力的なマルチタスク機能を示しており、非常に多用途である。 本研究では、逐次的に更新された状態空間表現による非線形システムの監督制御と、各PDEからの残差を用いた診断アルゴリズムを提案する。 前者は恒常的および時間依存的な制約を扱うpsmsの能力を示し、後者はシステム診断と障害検出にその価値を示す。 我々はさらに、PSMがデジタルツインの基盤として機能し、物理システムのデジタル表現を常に更新できると考えている。

This work introduces Physics-informed State-space neural network Models (PSMs), a novel solution to achieving real-time optimization, flexibility, and fault tolerance in autonomous systems, particularly in transport-dominated systems such as chemical, biomedical, and power plants. Traditional data-driven methods fall short due to a lack of physical constraints like mass conservation; PSMs address this issue by training deep neural networks with sensor data and physics-informing using components' Partial Differential Equations (PDEs), resulting in a physics-constrained, end-to-end differentiable forward dynamics model. Through two in silico experiments -- a heated channel and a cooling system loop -- we demonstrate that PSMs offer a more accurate approach than a purely data-driven model. In the former experiment, PSMs demonstrated significantly lower average root-mean-square errors across test datasets compared to a purely data-driven neural network, with reductions of 44 %, 48 %, and 94 % in predicting pressure, velocity, and temperature, respectively. Beyond accuracy, PSMs demonstrate a compelling multitask capability, making them highly versatile. In this work, we showcase two: supervisory control of a nonlinear system through a sequentially updated state-space representation and the proposal of a diagnostic algorithm using residuals from each of the PDEs. The former demonstrates PSMs' ability to handle constant and time-dependent constraints, while the latter illustrates their value in system diagnostics and fault detection. We further posit that PSMs could serve as a foundation for Digital Twins, constantly updated digital representations of physical systems.
翻訳日:2023-12-20 23:00:39 公開日:2023-12-18
# 質量レスサイリングモデルにおけるエンタングルメントR\enyiエントロピーとボソンフェルミオン双対性

Entanglement R\'enyi entropy and boson-fermion duality in massless Thirring model ( http://arxiv.org/abs/2309.11889v2 )

ライセンス: Link先を確認
Harunobu Fujimura, Tatsuma Nishioka and Soichiro Shimamori(参考訳) 自己相互作用するディラックフェルミオンを2次元で記述した質量レスチューリングモデルにおいて、2区間のR'enyiエントロピーについて検討する。 このモデルと自由コンパクトなボソン理論に関するボソン-フェルミオン双対性は、第二のR'enyiエントロピーの計算を単純化し、トーラス上のボソン理論の分割関数の評価に還元する。 第2の r\'enyi エントロピーに関する正確な結果を導出し、解析的および数値的にモデルの区間の大きさと結合定数の依存性について検討する。 また, 2 つの区間間の相関を定量化する尺度である相互r\'enyi 情報についても検討し, チリングモデルの結合定数が大きくなると一般に増加することを見出した。

We investigate the second R\'enyi entropy of two intervals in the massless Thirring model describing a self-interacting Dirac fermion in two dimensions. Boson-fermion duality relating this model to a free compact boson theory enables us to simplify the calculation of the second R\'enyi entropy, reducing it to the evaluation of the partition functions of the bosonic theory on a torus. We derive exact results on the second R\'enyi entropy, and examine the dependence on the sizes of the intervals and the coupling constant of the model both analytically and numerically. We also explore the mutual R\'enyi information, a measure quantifying the correlation between the two intervals, and find that it generally increases as the coupling constant of the Thirring model becomes larger.
翻訳日:2023-12-20 23:00:08 公開日:2023-12-18
# 公正な正規化要因の影響の理解にプロパティ・エミュレーションを用いる

Using Property Elicitation to Understand the Impacts of Fairness Regularizers ( http://arxiv.org/abs/2309.11343v2 )

ライセンス: Link先を確認
Jessie Finocchiaro(参考訳) 予測アルゴリズムは損失関数を最適化することでしばしば訓練され、規則化関数を追加して制約違反のペナルティを課す。 予想通り、そのような正規化関数の追加は目的の最小化を変更できる。 どのレギュレータが損失の最小値を変更するのか、そして、最小値が変化した場合、その変化の仕方はよく理解されていない。 我々は,損失関数と正規化関数の結合関係と与えられた問題インスタンスの最適決定を理解するための第一歩として,特性の導出を用いる。 特に,正則化器の追加に伴う特性変化に対して,損失と正則化器のペアについて必要十分条件を与え,この条件を満たす正則化器について,公正な機械学習文献で検討する。 我々は,データ分布変化と制約の硬度の両方の関数として,アルゴリズムによる意思決定がいかに変化するかを実証的に示す。

Predictive algorithms are often trained by optimizing some loss function, to which regularization functions are added to impose a penalty for violating constraints. As expected, the addition of such regularization functions can change the minimizer of the objective. It is not well-understood which regularizers change the minimizer of the loss, and, when the minimizer does change, how it changes. We use property elicitation to take first steps towards understanding the joint relationship between the loss and regularization functions and the optimal decision for a given problem instance. In particular, we give a necessary and sufficient condition on loss and regularizer pairs for when a property changes with the addition of the regularizer, and examine some regularizers satisfying this condition standard in the fair machine learning literature. We empirically demonstrate how algorithmic decision-making changes as a function of both data distribution changes and hardness of the constraints.
翻訳日:2023-12-20 22:58:58 公開日:2023-12-18
# 3重部分マージンコントラスト学習を用いた2重モーダル注意強調テキストビデオ検索

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning ( http://arxiv.org/abs/2309.11082v2 )

ライセンス: Link先を確認
Chen Jiang, Hong Liu, Xuzheng Yu, Qing Wang, Yuan Cheng, Jia Xu, Zhongyi Liu, Qingpei Guo, Wei Chu, Ming Yang, Yuan Qi(参考訳) 近年、ウェブビデオの爆発により、ビデオフィルタリング、レコメンデーション、検索にテキストビデオ検索が不可欠になり、人気が高まっている。 テキストビデオ検索は、関係のないものよりも関連のあるテキストやビデオをランク付けすることを目的としている。 このタスクの中核は、テキストとビデオの相互類似性を正確に測定することである。 近年,コントラスト学習はテキスト・ビデオ検索に有望な結果をもたらしており,そのほとんどがテキスト・ビデオ表現を学習するためのポジティブペアとネガティブペアの構築に焦点が当てられている。 それでも彼らは強負対に十分な注意を払わず、異なるレベルの意味的類似性をモデル化する能力に欠ける。 この2つの問題に対処するため,本論文では2つの新しい手法を用いてコントラスト学習を改善する。 まず、頑健な識別力のためのハードサンプルを利用するために、テキストと視覚の手がかりからハードネガティブペアをマイニングするための新しいデュアルモーダルアテンション拡張モジュール(DMAE)を提案する。 さらにNegative-Aware InfoNCE(NegNCE)の損失を導入することで、これらのハードネガティブをすべて適応的に識別し、トレーニング損失に対する彼らの影響を明確にすることが可能になる。 第二に、三重項サンプルは、ペアのサンプルに比べてきめ細かいセマンティックな類似性をモデル化できると主張している。 これにより、マッチングされたテキスト-ビデオ対に対して、微細な硬さの負を自動的に生成することにより、部分順序三重項サンプルを構築するための新しい三重項部分整合性学習(TPM-CL)モジュールを提案する。 提案するtpm-clは,微妙な意味差をモデル化するために,クロスモーダルインタラクションを用いた適応トークンマスキング戦略を設計する。 大規模な実験により,提案手法は,MSR-VTT,MSVD,DiDeMo,ActivityNetなど,広く使用されている4つのテキストビデオ検索データセットにおいて,既存の手法よりも優れていることが示された。

In recent years, the explosion of web videos makes text-video retrieval increasingly essential and popular for video filtering, recommendation, and search. Text-video retrieval aims to rank relevant text/video higher than irrelevant ones. The core of this task is to precisely measure the cross-modal similarity between texts and videos. Recently, contrastive learning methods have shown promising results for text-video retrieval, most of which focus on the construction of positive and negative pairs to learn text and video representations. Nevertheless, they do not pay enough attention to hard negative pairs and lack the ability to model different levels of semantic similarity. To address these two issues, this paper improves contrastive learning using two novel techniques. First, to exploit hard examples for robust discriminative power, we propose a novel Dual-Modal Attention-Enhanced Module (DMAE) to mine hard negative pairs from textual and visual clues. By further introducing a Negative-aware InfoNCE (NegNCE) loss, we are able to adaptively identify all these hard negatives and explicitly highlight their impacts in the training loss. Second, our work argues that triplet samples can better model fine-grained semantic similarity compared to pairwise samples. We thereby present a new Triplet Partial Margin Contrastive Learning (TPM-CL) module to construct partial order triplet samples by automatically generating fine-grained hard negatives for matched text-video pairs. The proposed TPM-CL designs an adaptive token masking strategy with cross-modal interaction to model subtle semantic differences. Extensive experiments demonstrate that the proposed approach outperforms existing methods on four widely-used text-video retrieval datasets, including MSR-VTT, MSVD, DiDeMo and ActivityNet.
翻訳日:2023-12-20 22:58:42 公開日:2023-12-18
# NoisyNN:学習システムにおける情報エントロピー変化の影響を探る

NoisyNN: Exploring the Influence of Information Entropy Change in Learning Systems ( http://arxiv.org/abs/2309.10625v2 )

ライセンス: Link先を確認
Xiaowei Yu, Yao Xue, Lu Zhang, Li Wang, Tianming Liu, Dajiang Zhu(参考訳) 本研究では,様々なレベルのノイズインジェクション,すなわち潜在空間と入力画像を用いて,深層学習システムにおけるエントロピー変化の影響について検討する。 我々の手法を応用した一連のモデルは、まとめてNoisy Neural Networks (NoisyNN)と呼ばれ、NoisyViTやNoisyCNNのような例がある。 ノイズは従来、畳み込みニューラルネットワーク(cnns)や視覚トランスフォーマー(vits)といったさまざまなディープラーニングアーキテクチャや、画像分類や転送学習といったさまざまな学習タスクにおいて、有害な摂動と見なされる。 しかし,本研究では,ノイズが学習システムのエントロピーを変える効果的な方法であることを示す。 特定の雑音が特定の条件下で様々な深層建築の性能を高めることを実証する。 本研究では,情報エントロピーによって定義されるタスク複雑性を低減し,画像ネットなどの大規模画像データセットにおいて有意な性能向上を実験的に示すことにより,正の雑音から得られる拡張を理論的に証明する。 ここでは,情報エントロピーを用いてタスクの複雑さを定義する。 ノイズが作業の複雑さを軽減するのに役立つかどうかに基づいて、ノイズを正ノイズ(PN)と有害ノイズ(HN)の2つのタイプに分類する。 CNNとViTの大規模な実験では、積極的に正のノイズを注入することでパフォーマンスが向上し、ImageNet上で95$\%以上の前例のないトップ1の精度を達成した。 理論的な分析と実証的な証拠の両方が、正のノイズの存在は学習プロセスにとって有益であり、伝統的に有害なノイズが深層学習モデルに悪影響を及ぼすことを証明している。 ノイズの異なる役割は、特定のタスクに関するディープモデルに対する新しい説明を提供し、モデルパフォーマンスを改善するための新しいパラダイムを提供する。 さらに,情報エントロピー変化によって学習システムの性能に影響を及ぼすことができることを思い出させる。

We explore the impact of entropy change in deep learning systems via noise injection at different levels, i.e., the latent space and input image. The series of models that employ our methodology are collectively known as Noisy Neural Networks (NoisyNN), with examples such as NoisyViT and NoisyCNN. Noise is conventionally viewed as a harmful perturbation in various deep learning architectures, such as convolutional neural networks (CNNs) and vision transformers (ViTs), as well as different learning tasks like image classification and transfer learning. However, this work shows noise can be an effective way to change the entropy of the learning system. We demonstrate that specific noise can boost the performance of various deep architectures under certain conditions. We theoretically prove the enhancement gained from positive noise by reducing the task complexity defined by information entropy and experimentally show the significant performance gain in large image datasets, such as the ImageNet. Herein, we use the information entropy to define the complexity of the task. We categorize the noise into two types, positive noise (PN) and harmful noise (HN), based on whether the noise can help reduce the complexity of the task. Extensive experiments of CNNs and ViTs have shown performance improvements by proactively injecting positive noise, where we achieved an unprecedented top 1 accuracy of over 95$\%$ on ImageNet. Both theoretical analysis and empirical evidence have confirmed that the presence of positive noise, can benefit the learning process, while the traditionally perceived harmful noise indeed impairs deep learning models. The different roles of noise offer new explanations for deep models on specific tasks and provide a new paradigm for improving model performance. Moreover, it reminds us that we can influence the performance of learning systems via information entropy change.
翻訳日:2023-12-20 22:58:08 公開日:2023-12-18
# 量子ビジョンクラスタリング

Quantum Vision Clustering ( http://arxiv.org/abs/2309.09907v2 )

ライセンス: Link先を確認
Xuan Bac Nguyen, Hugh Churchill, Khoa Luu, Samee U. Khan(参考訳) 教師なしの視覚クラスタリングは、パラメータ化された外観アプローチに基づくクラスタリングにより、ラベルのない視覚イメージの分布を特徴付けることを目的として、近年大きな注目を集めている。 あるいは、クラスタリングアルゴリズムは代入問題と見なすことができ、しばしばNPハードとして特徴づけられるが、現代のハードウェアの小さなインスタンスでは正確に解ける。 AQC(Adiabatic Quantum Computing)は、NP-hard最適化問題に対する大幅な高速化を実現するための、有望なソリューションとして登場した。 しかし、既存のクラスタリングの定式化はスケーラビリティの問題により量子コンピューティングの採用において困難に直面している。 本研究では,Adiabatic quantum computing を用いた解法に適した最初のクラスタリング定式化を提案する。 AQC上に実装された量子力学系を表現するためにIsingモデルが導入された。 提案手法は,既成整数計画法を用いても,最先端の最適化手法と比較して高い競合性を示す。 最後に,本研究では,次世代実量子コンピュータ上で提案するクラスタリング問題の解決可能性を示し,得られた解の性質を分析する。

Unsupervised visual clustering has garnered significant attention in recent times, aiming to characterize distributions of unlabeled visual images through clustering based on a parameterized appearance approach. Alternatively, clustering algorithms can be viewed as assignment problems, often characterized as NP-hard, yet precisely solvable for small instances on contemporary hardware. Adiabatic quantum computing (AQC) emerges as a promising solution, poised to deliver substantial speedups for a range of NP-hard optimization problems. However, existing clustering formulations face challenges in quantum computing adoption due to scalability issues. In this study, we present the first clustering formulation tailored for resolution using Adiabatic quantum computing. An Ising model is introduced to represent the quantum mechanical system implemented on AQC. The proposed approach demonstrates high competitiveness compared to state-of-the-art optimization-based methods, even when utilizing off-the-shelf integer programming solvers. Lastly, this work showcases the solvability of the proposed clustering problem on current-generation real quantum computers for small examples and analyzes the properties of the obtained solutions
翻訳日:2023-12-20 22:57:15 公開日:2023-12-18
# 化学機能景観を解明する大規模言語モデルによる鉱業特許

Mining Patents with Large Language Models Elucidates the Chemical Function Landscape ( http://arxiv.org/abs/2309.08765v2 )

ライセンス: Link先を確認
Clayton W. Kosonocky, Claus O. Wilke, Edward M. Marcotte, and Andrew D. Ellington(参考訳) 小さな分子の発見の基本的な目標は、標的機能を持つ化学物質を生産することである。 これはしばしば構造に基づく手法によって進行するが、化学文献の広範なコーパスを活用する直交法の実現性について検討する。 十分に大きなテキスト由来の化学関数データセットは、化学機能の実際の景観を反映するであろうと仮定する。 このようなランドスケープは、分子の構造と相互作用パートナーの両方から化学的機能が発生することを考慮し、複雑な物理的および生物学的相互作用を暗黙的に捉える。 この仮説を評価するため,特許由来の機能ラベルのケミカル関数(CheF)データセットを構築した。 631K分子関数対からなるこのデータセットは、LLM法と埋め込み法を用いて作成され、対応する188Kのユニークな特許から約100K分子の機能ラベルを得た。 我々は,CheFデータセットが化学構造と相反する機能的景観のセマンティックコヒーレントなテキスト表現を含んでいることを示す一連の分析を行い,実際の化学機能景観を近似した。 そこで本研究では,このテキストベースの機能的ランドスケープを利用して,構造のみから機能的プロファイルを予測できるモデルを用いて,ターゲット機能を持つ薬物を識別できることを実証する。 我々は、機能的ラベル誘導分子の発見は、新しい機能分子の設計を追求する伝統的な構造に基づく手法の直交的アプローチとして役立つと信じている。

The fundamental goal of small molecule discovery is to generate chemicals with target functionality. While this often proceeds through structure-based methods, we set out to investigate the practicality of orthogonal methods that leverage the extensive corpus of chemical literature. We hypothesize that a sufficiently large text-derived chemical function dataset would mirror the actual landscape of chemical functionality. Such a landscape would implicitly capture complex physical and biological interactions given that chemical function arises from both a molecule's structure and its interacting partners. To evaluate this hypothesis, we built a Chemical Function (CheF) dataset of patent-derived functional labels. This dataset, comprising 631K molecule-function pairs, was created using an LLM- and embedding-based method to obtain functional labels for approximately 100K molecules from their corresponding 188K unique patents. We carry out a series of analyses demonstrating that the CheF dataset contains a semantically coherent textual representation of the functional landscape congruent with chemical structural relationships, thus approximating the actual chemical function landscape. We then demonstrate that this text-based functional landscape can be leveraged to identify drugs with target functionality using a model able to predict functional profiles from structure alone. We believe that functional label-guided molecular discovery may serve as an orthogonal approach to traditional structure-based methods in the pursuit of designing novel functional molecules.
翻訳日:2023-12-20 22:56:59 公開日:2023-12-18
# Universal Symmetric Quantum Cloning を用いた単一ビットマルチパーティ伝送

Single Qubit Multi-Party Transmission Using Universal Symmetric Quantum Cloning ( http://arxiv.org/abs/2310.04920v2 )

ライセンス: Link先を確認
Elijah Pelofske(参考訳) 我々は、アリスが1量子ビットの情報(特に純粋量子状態)を$M$のパーティに送信したいという仮説的な量子ネットワークのケースを考える。 リモートレシーバは、送信されたキュービットに対して単一の量子状態トモグラフィをローカルに実行し、何らかの誤差率で量子状態を計算する(トモグラフィー技術と使用するキュービット数に依存する)。 仮想量子ネットワークにおけるリピータ型ノードとして(aliceとリモートレシーバーの間)中間の最適対称ユニバーサル量子クローンマシンを使用することで、aliceは、$m$のリモートレシーバーに対してメッセージキュービットを直接送信するよりも、かなり少ないキュービットを送信できることを示した。 これは量子クローニングの2つの性質のためである。 第一に、単一量子ビット量子クローンは、初期量子状態であるブロッホ球面表現において同じ角度を保っている。 これは、量子クローンの混合状態が十分な精度で計算できるなら、そのベクトルをブロッホ球面に外挿することで純粋な量子状態を計算することができることを意味する。 2つ目の性質は、元の純粋な量子状態に関する近似量子クローンの状態の重なりがすぐに収束することである(特に 1 \rightarrow m$ に対して、m が無限大になるときの忠実性の限界は $\frac{2}{3}$ である)。 つまり、アリスは、もし$m$が十分大きい場合、所望のエラー率を達成するために、一定数の量子ビット(量子クローンマシンに渡される)を準備できる。 これら2つの特性を組み合わせることで、Aliceは1キュービットの伝送精度を1つの1キュービットの伝送精度と、単純な直接キュービットの伝送方法と比較して、桁違いに少ないキュービットのオーダを作成できる。

We consider the hypothetical quantum network case where Alice wishes to transmit one qubit of information (specifically a pure quantum state) to $M$ parties, where $M$ is some large number. The remote receivers locally perform single qubit quantum state tomography on the transmitted qubits in order to compute the quantum state within some error rate (dependent on the tomography technique and number of qubits used). We show that with the use of an intermediate optimal symmetric universal quantum cloning machine (between Alice and the remote receivers) as a repeater-type node in a hypothetical quantum network, Alice can send significantly fewer qubits compared to direct transmission of the message qubits to each of the $M$ remote receivers. This is possible due to two properties of quantum cloning. The first being that single qubit quantum clones retain the same angle, in the Bloch sphere representation, as the initial quantum state. This means that if the mixed state of the quantum clone can be computed to high enough accuracy, the pure quantum state can be computed by extrapolating that vector to the surface of the Bloch sphere. The second property is that the state overlap of approximate quantum clones, with respect to the original pure quantum state, quickly converges (specifically for $1 \rightarrow M$ the limit of the fidelity as M goes to infinity is $\frac{2}{3}$). This means that Alice can prepare a constant number of qubits (which are then passed through the quantum cloning machine) in order to achieve a desired error rate, if $M$ is large enough. Combined, these two properties mean that for large $M$, Alice can prepare orders of magnitude fewer qubits in order to achieve the same single qubit transmission accuracy compared to the naive direct qubit transmission approach.
翻訳日:2023-12-20 22:51:52 公開日:2023-12-18
# 二元化ニューラルネットワークと混合整数プログラムのモデリング

Taming Binarized Neural Networks and Mixed-Integer Programs ( http://arxiv.org/abs/2310.04469v2 )

ライセンス: Link先を確認
Johannes Aspman and Georgios Korpas and Jakub Marecek(参考訳) バイナリ化されたニューラルネットワークには、特にその説明可能性のために、近年多くの関心が寄せられている。 同時に、バックプロパゲーションのような自動微分アルゴリズムは二項化ニューラルネットワークでは失敗し、適用性が制限される。 二元化ニューラルネットワークを混合整数プログラムの副加法双対として訓練する問題を再構成することにより、二元化ニューラルネットワークが多元化表現を許容することを示す。 これにより、両立型ニューラルネットワークの文脈でバックプロパゲーションを実際に実装する可能性を提供する暗黙的な分化のために、bolteなどのフレームワークを使うことができる。 このアプローチは、AIなどに対する象徴的なアプローチで見られるように、二項化ニューラルネットワークのトレーニングを超えて、より広範な混合整数プログラムに使用することもできる。

There has been a great deal of recent interest in binarized neural networks, especially because of their explainability. At the same time, automatic differentiation algorithms such as backpropagation fail for binarized neural networks, which limits their applicability. By reformulating the problem of training binarized neural networks as a subadditive dual of a mixed-integer program, we show that binarized neural networks admit a tame representation. This, in turn, makes it possible to use the framework of Bolte et al. for implicit differentiation, which offers the possibility for practical implementation of backpropagation in the context of binarized neural networks. This approach could also be used for a broader class of mixed-integer programs, beyond the training of binarized neural networks, as encountered in symbolic approaches to AI and beyond.
翻訳日:2023-12-20 22:50:49 公開日:2023-12-18
# 限定スーパービジョンを用いた潜時グラフ推論

Latent Graph Inference with Limited Supervision ( http://arxiv.org/abs/2310.04314v2 )

ライセンス: Link先を確認
Jianglin Lu, Yi Xu, Huan Wang, Yue Bai, Yun Fu(参考訳) latent graph inference(lgi)は、データ特徴から基盤となるグラフ構造とノード表現を共同学習することを目的としている。 しかし、既存のLGI手法は、意味的な監督なしに巨大なエッジウェイトが学習され、トレーニング損失に寄与しない、監督飢餓の問題に悩まされることが多い。 結果として、これらの監督対象の重みは、試験サンプルの予測を決定することができるが、意味的に最適ではないため、一般化が不十分である。 本稿では,この問題はグラフスパーシフィケーション操作によって発生し,キーノードとラベル付きノードとの間の重要な接続を著しく破壊するものであることを観察する。 そこで我々は,腐敗したアフィニティを修復し,優れたlgiに対する監督の欠如を補うことを提案する。 重要な課題は、クリティカルノードを特定し、破損した親和性を回復することだ。 まず、ピボットノードを、与えられた隣接行列に基づいて識別できる$k$-hop starvedノードとして定義することから始める。 高い計算負荷を考えると、さらにcur行列分解に触発されたより効率的な代替案を提示する。 その後、破壊された接続を再構築することで、飢餓ノードを除去する。 代表ベンチマークによる広範囲な実験により、飢えたノードの削減は最先端のlgi法の性能を一貫して改善し、特に非常に限られた監督下では(わずか0.3%のラベリングレートでpubmedを6.12%改善した)。

Latent graph inference (LGI) aims to jointly learn the underlying graph structure and node representations from data features. However, existing LGI methods commonly suffer from the issue of supervision starvation, where massive edge weights are learned without semantic supervision and do not contribute to the training loss. Consequently, these supervision-starved weights, which may determine the predictions of testing samples, cannot be semantically optimal, resulting in poor generalization. In this paper, we observe that this issue is actually caused by the graph sparsification operation, which severely destroys the important connections established between pivotal nodes and labeled ones. To address this, we propose to restore the corrupted affinities and replenish the missed supervision for better LGI. The key challenge then lies in identifying the critical nodes and recovering the corrupted affinities. We begin by defining the pivotal nodes as $k$-hop starved nodes, which can be identified based on a given adjacency matrix. Considering the high computational burden, we further present a more efficient alternative inspired by CUR matrix decomposition. Subsequently, we eliminate the starved nodes by reconstructing the destroyed connections. Extensive experiments on representative benchmarks demonstrate that reducing the starved nodes consistently improves the performance of state-of-the-art LGI methods, especially under extremely limited supervision (6.12% improvement on Pubmed with a labeling rate of only 0.3%).
翻訳日:2023-12-20 22:50:34 公開日:2023-12-18
# 量子コンピュータにおけるトポロジカルセクター最適化の探索

Exploring the topological sector optimization on quantum computers ( http://arxiv.org/abs/2310.04291v2 )

ライセンス: Link先を確認
Yi-Ming Ding, Yan-Cheng Wang, Shi-Xin Zhang, and Zheng Yan(参考訳) 最適化問題は、科学と工学の多くの分野における中核的な課題であるが、最適解を探すには一般的で効果的な手法は乏しい。 例えば、断熱進化に基づく量子アニーリング(qa)法は、d-waveのアニーラーやいくつかのrydberg配列のような量子シミュレータ上で広く研究され、うまく実装されている。 本研究では、量子多体物理学コミュニティにおいて特に関心を惹きつけるトポロジカルセクター最適化(TSO)問題について検討する。 スピンモデルにおけるフラストレーションによって引き起こされるトポロジーは、QAやその他の従来の手法が基底状態に近づくための固有の障害であることが明らかとなった。 その結果,tso問題の最適化難易度はギャップのない問題に制限されるのではなく,従来の最適化問題の解析では無視されるようなトポロジカルな性質によるものであることがわかった。 tso問題を解決するため、量子コンピュータ上で実現可能な量子虚時発展(qite)を利用して、量子重ね合わせの性質を利用して全ヒルベルト空間を探索し、位相的性質の最適化問題に対処する。 本稿では,tso問題に対する異なる量子最適化アルゴリズムの性能を報告し,qiteの実装に必要な量子計算資源を考慮しても,最適化問題に対処する能力が異なることを実証する。

Optimization problems are the core challenge in many fields of science and engineering, yet general and effective methods are scarce for searching optimal solutions. Quantum computing has been envisioned to help solve such problems, for example, the quantum annealing (QA) method based on adiabatic evolution has been extensively explored and successfully implemented on quantum simulators such as D-wave's annealers and some Rydberg arrays. In this work, we investigate topological sector optimization (TSO) problem, which attracts particular interests in the quantum many-body physics community. We reveal that the topology induced by frustration in the spin model is an intrinsic obstruction for QA and other traditional methods to approach the ground state. We demonstrate that the optimization difficulties of TSO problem are not restricted to the gaplessness, but are also due to the topological nature which are often ignored for the analysis of optimization problems before. To solve TSO problems, we utilize quantum imaginary time evolution (QITE) with a possible realization on quantum computers, which exploits the property of quantum superposition to explore the full Hilbert space and can thus address optimization problems of topological nature. We report the performance of different quantum optimization algorithms on TSO problems and demonstrate that their capability to address optimization problems are distinct even when considering the quantum computational resources required for practical QITE implementations.
翻訳日:2023-12-20 22:50:08 公開日:2023-12-18
# MagicDrive: 横3次元形状制御によるストリートビュー生成

MagicDrive: Street View Generation with Diverse 3D Geometry Control ( http://arxiv.org/abs/2310.02601v4 )

ライセンス: Link先を確認
Ruiyuan Gao, Kai Chen, Enze Xie, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung, Qiang Xu(参考訳) 拡散モデルの最近の進歩は、2次元制御によるデータ合成を大幅に強化した。 しかし、ストリートビュー生成における正確な3d制御は、3d知覚タスクに欠かせない。 特に、Bird's-Eye View (BEV) を一次条件として利用すると、特に3次元物体検出タスクにおいて、知覚データ合成に不可欠な物体形状、閉塞パターン、路面標高の表現に影響を及ぼす幾何学的制御(高さなど)の課題につながることが多い。 本稿では,カメラポーズ,道路地図,および3dバウンディングボックスを含む多様な3次元形状制御を行う新しいストリートビュー生成フレームワークであるmagicdriveを紹介する。 さらに、当社の設計にはクロスビューアテンションモジュールが組み込まれており、複数のカメラビュー間の一貫性を確保しています。 MagicDriveで高忠実なストリートビュー合成を実現し、ニュアンスな3D幾何学と様々なシーン記述をキャプチャし、BEVセグメンテーションや3Dオブジェクト検出といったタスクを強化します。

Recent advancements in diffusion models have significantly enhanced the data synthesis with 2D control. Yet, precise 3D control in street view generation, crucial for 3D perception tasks, remains elusive. Specifically, utilizing Bird's-Eye View (BEV) as the primary condition often leads to challenges in geometry control (e.g., height), affecting the representation of object shapes, occlusion patterns, and road surface elevations, all of which are essential to perception data synthesis, especially for 3D object detection tasks. In this paper, we introduce MagicDrive, a novel street view generation framework offering diverse 3D geometry controls, including camera poses, road maps, and 3D bounding boxes, together with textual descriptions, achieved through tailored encoding strategies. Besides, our design incorporates a cross-view attention module, ensuring consistency across multiple camera views. With MagicDrive, we achieve high-fidelity street-view synthesis that captures nuanced 3D geometry and various scene descriptions, enhancing tasks like BEV segmentation and 3D object detection.
翻訳日:2023-12-20 22:48:52 公開日:2023-12-18
# PharmacoNet:Deep Pharmacophore Modelingによる大規模仮想スクリーニングの高速化

PharmacoNet: Accelerating Large-Scale Virtual Screening by Deep Pharmacophore Modeling ( http://arxiv.org/abs/2310.00681v3 )

ライセンス: Link先を確認
Seonghwan Seo and Woo Youn Kim(参考訳) アクセス可能な複合ライブラリのサイズが100億を超えるにつれて、より効率的な構造ベースの仮想スクリーニング方法の必要性が高まっている。 迅速スクリーニングのために異なる事前スクリーニング法が開発されているが、タンパク質-リガンド結合のコンフォメーション予測やスコアリングを極めて短時間で行う様々なタンパク質に適用できる構造ベースの方法がまだ存在しない。 本稿では,この課題に対処するために,構造に基づく薬理泳動モデリングのためのディープラーニングフレームワークを初めて紹介する。 我々は,各タンパク質ホットスポットと対応する薬局の位置を決定するために,サンプルセグメンテーション問題として薬局モデリングを行い,グラフマッチング問題としてタンパク質-リガンド結合予測を行った。 PharmacoNetは最先端の構造に基づくアプローチよりもはるかに高速だが、単純なスコアリング機能では合理的に正確である。 さらに, PharmacoNetは, スクリーニング前ろ過率が高い場合でも, ヒット候補を効果的に保持することを示す。 本研究は総合的に,深層学習に基づく薬物発見における薬局モデリングアプローチの可能性を明らかにする。

As the size of accessible compound libraries expands to over 10 billion, the need for more efficient structure-based virtual screening methods is emerging. Different pre-screening methods have been developed for rapid screening, but there is still a lack of structure-based methods applicable to various proteins that perform protein-ligand binding conformation prediction and scoring in an extremely short time. Here, we describe for the first time a deep-learning framework for structure-based pharmacophore modeling to address this challenge. We frame pharmacophore modeling as an instance segmentation problem to determine each protein hotspot and the location of corresponding pharmacophores, and protein-ligand binding pose prediction as a graph-matching problem. PharmacoNet is significantly faster than state-of-the-art structure-based approaches, yet reasonably accurate with a simple scoring function. Furthermore, we show the promising result that PharmacoNet effectively retains hit candidates even under the high pre-screening filtration rates. Overall, our study uncovers the hitherto untapped potential of a pharmacophore modeling approach in deep learning-based drug discovery.
翻訳日:2023-12-20 22:48:08 公開日:2023-12-18
# ひとつは、すべての分類タスクのための1つのグラフモデルをトレーニングすること

One for All: Towards Training One Graph Model for All Classification Tasks ( http://arxiv.org/abs/2310.00149v2 )

ライセンス: Link先を確認
Hao Liu, Jiarui Feng, Lecheng Kong, Ningyue Liang, Dacheng Tao, Yixin Chen, Muhan Zhang(参考訳) 複数のタスクに対処する単一モデルを設計することは、人工知能の長年の目標である。 近年,大規模言語モデルは言語領域内で異なるタスクを解く際,例外的な能力を示した。 しかしながら、さまざまなグラフタスクの統一モデルは、主にグラフ学習ドメイン特有の課題のために、未検討のままである。 まず、異なる領域のグラフデータは異なる属性を持ち、異なる分布に従う。 このような相違により、単一の表現空間におけるグラフの表現が困難になる。 第二に、グラフ上のタスクはノード、リンク、グラフタスクに多様化し、異なる埋め込み戦略を必要とする。 最後に、文脈内学習のための適切なグラフプロンプトパラダイムが不明確である。 我々は、上記の課題に対処するために単一のグラフモデルを使用する最初の一般的なフレームワークである、OFA(textbf{One for All)を提案する。 具体的には、ノードとエッジを自然言語で記述することで、異なるグラフデータを統一するテキスト分散グラフを提案し、言語モデルを使用して、多様でおそらくクロスドメインなテキスト属性を符号化し、同じ埋め込み空間における特徴ベクトルを符号化する。 さらに、OFAは1つのタスク表現で異なるタスクを標準化するノードオブ関心の概念を導入している。 グラフ上のコンテキスト内学習のためにOFAは、入力グラフにサブストラクチャを付加する新しいグラフプロンプトパラダイムを導入し、微調整なしで様々なタスクに対処できるようにする。 複数のドメイン(引用ネットワーク、分子グラフ、知識グラフなど)のグラフデータを用いてOFAモデルを同時にトレーニングし、教師付き、少数ショット、ゼロショット学習シナリオにおけるその能力を評価する。 OFAは様々なタスクでうまく機能し、グラフ上の最初の汎用のクロスドメイン分類モデルとなる。

Designing a single model to address multiple tasks has been a long-standing objective in artificial intelligence. Recently, large language models have demonstrated exceptional capability in solving different tasks within the language domain. However, a unified model for various graph tasks remains underexplored, primarily due to the challenges unique to the graph learning domain. First, graph data from different areas carry distinct attributes and follow different distributions. Such discrepancy makes it hard to represent graphs in a single representation space. Second, tasks on graphs diversify into node, link, and graph tasks, requiring distinct embedding strategies. Finally, an appropriate graph prompting paradigm for in-context learning is unclear. We propose \textbf{One for All (OFA)}, the first general framework that can use a single graph model to address the above challenges. Specifically, OFA proposes text-attributed graphs to unify different graph data by describing nodes and edges with natural language and uses language models to encode the diverse and possibly cross-domain text attributes to feature vectors in the same embedding space. Furthermore, OFA introduces the concept of nodes-of-interest to standardize different tasks with a single task representation. For in-context learning on graphs, OFA introduces a novel graph prompting paradigm that appends prompting substructures to the input graph, which enables it to address varied tasks without fine-tuning. We train the OFA model using graph data from multiple domains (including citation networks, molecular graphs, knowledge graphs, etc.) simultaneously and evaluate its ability in supervised, few-shot, and zero-shot learning scenarios. OFA performs well across different tasks, making it the first general-purpose across-domains classification model on graphs.
翻訳日:2023-12-20 22:47:47 公開日:2023-12-18
# 最小スーパービジョンを用いた高忠実音声合成:全て拡散モデルを用いた

High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models ( http://arxiv.org/abs/2309.15512v2 )

ライセンス: Link先を確認
Chunyu Qiang, Hao Li, Yixin Tian, Yi Zhao, Ying Zhang, Longbiao Wang, Jianwu Dang(参考訳) Text-to-Speech (TTS) 法は音声のクローニングにおいて有望な結果を示しているが,多数のラベル付き音声ペアが必要である。 最小教師付き音声合成は、2種類の離散音声表現(semantic \& acoustic)と2つのシーケンス間タスクを組み合わせてttを分離し、最小限の監督でトレーニングを可能にする。 しかし,既存手法では意味表現における情報冗長性と次元の爆発,離散音響表現における高周波波形歪みに悩まされている。 自動回帰フレームワークは典型的な不安定性と制御不能な問題を示す。 そして、非自己回帰フレームワークは、期間予測モデルによる韻律平均化に悩まされる。 これらの問題に対処するために,拡散モデルに基づいて全モジュールを構築できる最小教師付き高忠実音声合成法を提案する。 非自己回帰フレームワークは制御性を高め、持続拡散モデルは多角的韻律表現を可能にする。 既存の意味符号化手法における情報冗長性と次元爆発の問題を解くために,CTAP(Contrastive Token-Acoustic Pretraining)が中間意味表現として使用される。 メルスペクトログラムは音響表現として用いられる。 セマンティクスと音響表現は、連続変数回帰タスクによって予測され、高周波微細波形歪みの問題を解決する。 実験の結果,提案手法はベースライン法よりも優れていた。 音声サンプルは私たちのウェブサイトで提供します。

Text-to-speech (TTS) methods have shown promising results in voice cloning, but they require a large number of labeled text-speech pairs. Minimally-supervised speech synthesis decouples TTS by combining two types of discrete speech representations(semantic \& acoustic) and using two sequence-to-sequence tasks to enable training with minimal supervision. However, existing methods suffer from information redundancy and dimension explosion in semantic representation, and high-frequency waveform distortion in discrete acoustic representation. Autoregressive frameworks exhibit typical instability and uncontrollability issues. And non-autoregressive frameworks suffer from prosodic averaging caused by duration prediction models. To address these issues, we propose a minimally-supervised high-fidelity speech synthesis method, where all modules are constructed based on the diffusion models. The non-autoregressive framework enhances controllability, and the duration diffusion model enables diversified prosodic expression. Contrastive Token-Acoustic Pretraining (CTAP) is used as an intermediate semantic representation to solve the problems of information redundancy and dimension explosion in existing semantic coding methods. Mel-spectrogram is used as the acoustic representation. Both semantic and acoustic representations are predicted by continuous variable regression tasks to solve the problem of high-frequency fine-grained waveform distortion. Experimental results show that our proposed method outperforms the baseline method. We provide audio samples on our website.
翻訳日:2023-12-20 22:46:27 公開日:2023-12-18
# ランダムに結合したパウリスピンのモデル

A model of randomly-coupled Pauli spins ( http://arxiv.org/abs/2309.15349v2 )

ライセンス: Link先を確認
Masanori Hanada, Antal Jevicki, Xianlong Liu, Enrico Rinaldi, Masaki Tezuka(参考訳) sykモデルにおけるマヨラナフェルミオンをスピン作用素に置き換え、全ての4局所相互作用を持つパウリスピン作用素のモデルを構築する。 同様に、フェルミオンをハードコアボソンに置き換える。 このモデルを数値的に検討し,その特性をSYKモデルと比較する。 我々はスピンモデルとSYKモデルとの顕著な定量的な一致を観察し、このスピンモデルは強いカオスであり、ホログラフィーにおいて何らかの役割を果たす可能性があることを示唆している。 また,多局所場を用いた経路積分アプローチと量子シミュレーションの可能性について考察する。 パウリスピンは量子ビットベースの量子デバイス上でのフェルミオンよりも実装が容易であるため、このモデルは量子シミュレーションの興味深いターゲットになるかもしれない。

We construct a model of Pauli spin operators with all-to-all 4-local interactions by replacing Majorana fermions in the SYK model with spin operators. Equivalently, we replace fermions with hard-core bosons. We study this model numerically and compare the properties with those of the SYK model. We observe a striking quantitative coincidence between the spin model and the SYK model, which suggests that this spin model is strongly chaotic and, perhaps, can play some role in holography. We also discuss the path-integral approach with multi-local fields and the possibility of quantum simulations. This model may be an interesting target for quantum simulations because Pauli spins are easier to implement than fermions on qubit-based quantum devices.
翻訳日:2023-12-20 22:45:47 公開日:2023-12-18
# 最大拡散強化学習

Maximum diffusion reinforcement learning ( http://arxiv.org/abs/2309.15293v3 )

ライセンス: Link先を確認
Thomas A. Berrueta, Allison Pinosky, Todd D. Murphey(参考訳) データが独立しているという仮定は、すべての機械学習を支えている。 エージェント経験から順次データが収集される場合、強化学習のように、一般的にこの仮定は持たない。 ここでは,最大拡散強化学習(maximum diffusion reinforcement learning)と呼ぶエルゴード過程の統計力学を活用し,これらの限界を克服する手法を導出する。 エージェントエクスペリエンスを分離することで,個々のタスク試行を通じて,継続的デプロイメントにおけるシングルショット学習を可能にします。 さらに,本手法は,よく知られた最大エントロピー手法を一般化し,一般的なベンチマークにおける最先端性能を著しく上回ることを示す。 nexus of physics, learning, and controlの結果は、ロボットや自動運転車などの強化学習エージェントにおける、より透明で信頼性の高い意思決定への道を開くものでした。

The assumption that data are independent and identically distributed underpins all machine learning. When data are collected sequentially from agent experiences this assumption does not generally hold, as in reinforcement learning. Here, we derive a method that overcomes these limitations by exploiting the statistical mechanics of ergodic processes, which we term maximum diffusion reinforcement learning. By decorrelating agent experiences, our approach provably enables single-shot learning in continuous deployments over the course of individual task attempts. Moreover, we prove our approach generalizes well-known maximum entropy techniques, and robustly exceeds state-of-the-art performance across popular benchmarks. Our results at the nexus of physics, learning, and control pave the way towards more transparent and reliable decision-making in reinforcement learning agents, such as locomoting robots and self-driving cars.
翻訳日:2023-12-20 22:45:33 公開日:2023-12-18
# HetGPT: 事前学習した不均一グラフニューラルネットワークにおけるプロンプトチューニングのパワーを損なう

HetGPT: Harnessing the Power of Prompt Tuning in Pre-Trained Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2310.15318v2 )

ライセンス: Link先を確認
Yihong Ma, Ning Yan, Jiayu Li, Masood Mortazavi and Nitesh V. Chawla(参考訳) グラフは、webの複雑なパターンやリッチな情報を表現し分析するための自然な選択として登場し、オンラインページ分類やソーシャルレコメンデーションといったアプリケーションを可能にする。 一般的な"pre-train, fine-tune"パラダイムは、グラフ機械学習タスク、特にラベル付きノードが制限されたシナリオで広く採用されている。 しかしながら、このアプローチは、しばしば、前文タスクのトレーニング目標と下流タスクのトレーニング目標のミスバランスを示す。 このギャップは,事前トレーニングから得られた知識が下流タスクのパフォーマンスに悪影響を及ぼすという,“負の転送”問題を引き起こす可能性がある。 自然言語処理(NLP)におけるプロンプトベースの学習の急増は、グラフに"事前訓練、プロンプト"パラダイムを適用する可能性を示唆している。 しかし、既存のグラフプロンプト技術は、Webグラフ固有の不均一性を無視して、均質グラフに適合する。 このギャップを埋めるため,我々は,事前学習されたヘテロジニアスグラフニューラルネットワーク(hgnns)の予測性能を向上させる汎用後学習促進フレームワークhetgptを提案する。 キーとなるのは,仮想クラスプロンプトと異種機能プロンプトを統合した,新しいプロンプト関数の設計である。 さらに、HetGPTは多視点近傍集約機構を導入し、複素近傍構造をヘテロジニアスグラフで捉える。 3つのベンチマークデータセットに対する大規模な実験は、半教師付きノード分類における最先端HGNNの性能を高めるHetGPTの機能を示す。

Graphs have emerged as a natural choice to represent and analyze the intricate patterns and rich information of the Web, enabling applications such as online page classification and social recommendation. The prevailing "pre-train, fine-tune" paradigm has been widely adopted in graph machine learning tasks, particularly in scenarios with limited labeled nodes. However, this approach often exhibits a misalignment between the training objectives of pretext tasks and those of downstream tasks. This gap can result in the "negative transfer" problem, wherein the knowledge gained from pre-training adversely affects performance in the downstream tasks. The surge in prompt-based learning within Natural Language Processing (NLP) suggests the potential of adapting a "pre-train, prompt" paradigm to graphs as an alternative. However, existing graph prompting techniques are tailored to homogeneous graphs, neglecting the inherent heterogeneity of Web graphs. To bridge this gap, we propose HetGPT, a general post-training prompting framework to improve the predictive performance of pre-trained heterogeneous graph neural networks (HGNNs). The key is the design of a novel prompting function that integrates a virtual class prompt and a heterogeneous feature prompt, with the aim to reformulate downstream tasks to mirror pretext tasks. Moreover, HetGPT introduces a multi-view neighborhood aggregation mechanism, capturing the complex neighborhood structure in heterogeneous graphs. Extensive experiments on three benchmark datasets demonstrate HetGPT's capability to enhance the performance of state-of-the-art HGNNs on semi-supervised node classification.
翻訳日:2023-12-20 22:39:39 公開日:2023-12-18
# Sync-NeRF: 動的NeRFを非同期ビデオに一般化する

Sync-NeRF: Generalizing Dynamic NeRFs to Unsynchronized Videos ( http://arxiv.org/abs/2310.13356v2 )

ライセンス: Link先を確認
Seoha Kim, Jeongmin Bae, Youngsik Yun, Hahyun Lee, Gun Bang, Youngjung Uh(参考訳) ニューラルレイディアンスフィールド(NeRF)を用いた4次元シーン再構成の最近の進歩は、マルチビュービデオから動的シーンを表現できることを実証している。 しかし、動的シーンの再構築に失敗し、トレーニングビューでさえ同期しない設定に収まるのに苦労する。 同じフレームのマルチビューイメージが実際には異なる瞬間にキャプチャされたのに対して、フレームに1つの潜在埋め込みを採用しているからです。 この制限に対処するために,個々の非同期ビデオに対してタイムオフセットを導入し,nerfと共同でオフセットを最適化する。 設計上,本手法は様々なベースラインに適用可能であり,大きなマージンで改善できる。 さらに、オフセットを見つけることは、手動で動画を同期させるのに自然に役立ちます。 plenopticビデオデータセットと新たに構築した非同期動的ブレンダデータセットを用いて,提案手法の性能を検証する実験を行った。 プロジェクトページ: https://seoha-kim.github.io/sync-nerf

Recent advancements in 4D scene reconstruction using neural radiance fields (NeRF) have demonstrated the ability to represent dynamic scenes from multi-view videos. However, they fail to reconstruct the dynamic scenes and struggle to fit even the training views in unsynchronized settings. It happens because they employ a single latent embedding for a frame while the multi-view images at the same frame were actually captured at different moments. To address this limitation, we introduce time offsets for individual unsynchronized videos and jointly optimize the offsets with NeRF. By design, our method is applicable for various baselines and improves them with large margins. Furthermore, finding the offsets naturally works as synchronizing the videos without manual effort. Experiments are conducted on the common Plenoptic Video Dataset and a newly built Unsynchronized Dynamic Blender Dataset to verify the performance of our method. Project page: https://seoha-kim.github.io/sync-nerf
翻訳日:2023-12-20 22:39:09 公開日:2023-12-18
# PoisonPrompt: Promptベースの大規模言語モデルに対するバックドア攻撃

PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models ( http://arxiv.org/abs/2310.12439v2 )

ライセンス: Link先を確認
Hongwei Yao, Jian Lou and Zhan Qin(参考訳) プロンプトは、最近、様々な下流タスクにおける事前訓練されたLarge Language Models(LLM)のパフォーマンスを大幅に改善し、多様なLLMアプリケーションシナリオに欠かせないものとなっている。 しかし、被害者モデルの正常な予測を悪意的に変更できる重大なセキュリティ脅威であるバックドア脆弱性は、プロンプトベースのLSMでは十分に調査されていない。 本稿では,ハードとソフトのプロンプトベースのLLMを両立させる新しいバックドアアタックであるPOISONPROMPTを提案する。 我々は,6つのデータセットと3つの広く使用されているLLMを用いて,一般的な3つのプロンプト手法の広範な実験を通じて,POISONPROMPTの有効性,忠実性,堅牢性を評価する。 本研究は,プロンプトベースのLSMに対するバックドア攻撃による潜在的なセキュリティ脅威を浮き彫りにし,さらなる研究の必要性を強調した。

Prompts have significantly improved the performance of pretrained Large Language Models (LLMs) on various downstream tasks recently, making them increasingly indispensable for a diverse range of LLM application scenarios. However, the backdoor vulnerability, a serious security threat that can maliciously alter the victim model's normal predictions, has not been sufficiently explored for prompt-based LLMs. In this paper, we present POISONPROMPT, a novel backdoor attack capable of successfully compromising both hard and soft prompt-based LLMs. We evaluate the effectiveness, fidelity, and robustness of POISONPROMPT through extensive experiments on three popular prompt methods, using six datasets and three widely used LLMs. Our findings highlight the potential security threats posed by backdoor attacks on prompt-based LLMs and emphasize the need for further research in this area.
翻訳日:2023-12-20 22:38:26 公開日:2023-12-18
# 対話LLM:会話における感情認識のための文脈・感情知識調整型大言語モデル

DialogueLLM: Context and Emotion Knowledge-Tuned Large Language Models for Emotion Recognition in Conversations ( http://arxiv.org/abs/2310.11374v3 )

ライセンス: Link先を確認
Yazhou Zhang, Mengyao Wang, Youxi Wu, Prayag Tiwari, Qiuchi Li, Benyou Wang, Jing Qin(参考訳) 大規模言語モデル(LLM)とその変種は、多くの下流自然言語処理(NLP)タスクに対して異常な有効性を示しており、NLPの開発に対する新たなビジョンを示している。 自然言語生成(NLG)における顕著な性能にもかかわらず、LLMは感情理解領域に明確な焦点をあてていない。 その結果、LLMを感情認識に使用すると、最適でない精度と不適切な精度が生じる可能性がある。 LLMのもうひとつの制限は、マルチモーダル情報を活用することなく訓練されることだ。 これらの制限を克服するために,13,638個のマルチモーダル(テキストとビデオ)感情対話を用いたLLaMAモデルを用いて,文脈と感情の知識を調整したLLMであるダイアログLLMを提案する。 視覚情報は、高品質な指示を構築するための補足的な知識と見なされる。 本稿では,会話(ERC)データセットにおける3つの感情認識のベンチマークモデルについて総合評価を行い,その結果をSOTAベースラインや他のSOTALLMと比較する。 さらに、DialogueLLM-7Bは、40GBのA100 GPU上で5時間でLoRAを使って簡単にトレーニングできる。

Large language models (LLMs) and their variants have shown extraordinary efficacy across numerous downstream natural language processing (NLP) tasks, which has presented a new vision for the development of NLP. Despite their remarkable performance in natural language generating (NLG), LLMs lack a distinct focus on the emotion understanding domain. As a result, using LLMs for emotion recognition may lead to suboptimal and inadequate precision. Another limitation of LLMs is that they are typical trained without leveraging multi-modal information. To overcome these limitations, we propose DialogueLLM, a context and emotion knowledge tuned LLM that is obtained by fine-tuning LLaMA models with 13,638 multi-modal (i.e., texts and videos) emotional dialogues. The visual information is considered as the supplementary knowledge to construct high-quality instructions. We offer a comprehensive evaluation of our proposed model on three benchmarking emotion recognition in conversations (ERC) datasets and compare the results against the SOTA baselines and other SOTA LLMs. Additionally, DialogueLLM-7B can be easily trained using LoRA on a 40GB A100 GPU in 5 hours, facilitating reproducibility for other researchers.
翻訳日:2023-12-20 22:38:09 公開日:2023-12-18
# Tor を用いたフランスにおける小児ポルノの実態調査

Unveiling Local Patterns of Child Pornography Consumption in France using Tor ( http://arxiv.org/abs/2310.11099v3 )

ライセンス: Link先を確認
Till Koebe, Zinnya del Villar, Brahmani Nutakki, Nursulu Sagimbayeva, Ingmar Weber(参考訳) 児童ポルノは子供の搾取と被害者化の深刻な形態を表しており、被害者は感情的および身体的なトラウマを負っている。 本研究では,Torネットワーク関連Webサービスの詳細な移動トラフィックデータを用いて,フランス20大都市圏の1341のフランスコミューンにおける児童ポルノ消費の地域パターンを分析することを目的とする。 私たちはそのおよそを見積もる。 フランスで見られたtorモバイルダウンロードトラフィックの0.08 %は、児童性的虐待の教材を、現地レベルのポルノの消費パターンと関連付けることで消費している。 これは、全世界のtorトラフィックにおける児童ポルノコンテンツのシェアを控えめに見積もるものの0.19パーセントと比較するものです。 In line with existing literature on the link between sexual child abuse and the consumption of image-based content thereof, we observe a positive and statistically significant effect of our child pornography consumption estimates on the reported number of victims of sexual violence and vice versa, which validates our findings, after controlling for a set of spatial and non-spatial features including socio-demographic characteristics, voting behaviour, nearby points of interest and Google Trends queries. これは、児童ポルノを空間的な疫学的な角度から見る最初の試みだが、この研究は公衆衛生当局に、公意識キャンペーンのターゲットエリアを優先する貴重な情報を提供し、持続可能な開発目標の16.2を目標とするグローバルコミュニティの誓約である「虐待、搾取、密輸、あらゆる形態の暴力と児童への拷問」を強制するための別のステップであると信じている。

Child pornography represents a severe form of exploitation and victimization of children, leaving the victims with emotional and physical trauma. In this study, we aim to analyze local patterns of child pornography consumption across 1341 French communes in 20 metropolitan regions of France using fine-grained mobile traffic data of Tor network-related web services. We estimate that approx. 0.08 % of Tor mobile download traffic observed in France is linked to the consumption of child sexual abuse materials by correlating it with local-level temporal porn consumption patterns. This compares to 0.19 % of what we conservatively estimate to be the share of child pornographic content in global Tor traffic. In line with existing literature on the link between sexual child abuse and the consumption of image-based content thereof, we observe a positive and statistically significant effect of our child pornography consumption estimates on the reported number of victims of sexual violence and vice versa, which validates our findings, after controlling for a set of spatial and non-spatial features including socio-demographic characteristics, voting behaviour, nearby points of interest and Google Trends queries. While this is a first, exploratory attempt to look at child pornography from a spatial epidemiological angle, we believe this research provides public health officials with valuable information to prioritize target areas for public awareness campaigns as another step to fulfil the global community's pledge to target 16.2 of the Sustainable Development Goals: "End abuse, exploitation, trafficking and all forms of violence and torture against children".
翻訳日:2023-12-20 22:37:46 公開日:2023-12-18
# 次元フリー remez の不等式とノルム設計

Dimension-free Remez Inequalities and norm designs ( http://arxiv.org/abs/2310.07926v4 )

ライセンス: Link先を確認
Lars Becker, Ohad Klein, Joseph Slote, Alexander Volberg, Haonan Zhang(参考訳) 古典的 Remez の不等式は、任意の部分集合 $Y\subset X$ の正のルベーグ測度上の上限で、境界次多項式の上限を区間 $X$ で有界とする。 レメス不等式には多変量一般化が多数存在するが、その多くは次元に強く依存する定数を持つ。 ここで、x$ と test の広いクラスが \emph{norm design} と呼ばれる $y$ を設定していることを示す。 Instantiations of this theorem allow us for example \emph{a}) to bound the supremum of an $n$-variate degree-$d$ polynomial on the solid cube $[0,1]^n$ by its supremum on the regular grid $\{0,1/d,2/d,\ldots, 1\}^n$ independent of dimension; and \emph{b}) in the case of a degree-$d$ polynomial $f:\mathbf{Z}_K^n\to\mathbf{C}$ on the $n$-fold product of cyclic groups of order $K$, to show the supremum of $f$ does not increase by more than $\mathcal{O}(\log K)^{2d}$ when $f$ is extended to the polytorus as $f:\mathbf{T}^n\to\mathbf{C}$.

The classical Remez inequality bounds the supremum of a bounded-degree polynomial on an interval $X$ by its supremum on any subset $Y\subset X$ of positive Lebesgue measure. There are many multivariate generalizations of the Remez inequality, but most have constants that depend strongly on dimension. Here we show that a broad class of domains $X$ and test sets $Y$ -- termed \emph{norm designs} -- enjoy dimension-free Remez-type estimates. Instantiations of this theorem allow us for example \emph{a}) to bound the supremum of an $n$-variate degree-$d$ polynomial on the solid cube $[0,1]^n$ by its supremum on the regular grid $\{0,1/d,2/d,\ldots, 1\}^n$ independent of dimension; and \emph{b}) in the case of a degree-$d$ polynomial $f:\mathbf{Z}_K^n\to\mathbf{C}$ on the $n$-fold product of cyclic groups of order $K$, to show the supremum of $f$ does not increase by more than $\mathcal{O}(\log K)^{2d}$ when $f$ is extended to the polytorus as $f:\mathbf{T}^n\to\mathbf{C}$.
翻訳日:2023-12-20 22:36:17 公開日:2023-12-18
# デルタ$層トンネル接合部のトンネル電流に対する電気的高モーメントダイポールの異方性効果の解明

Uncovering anisotropic effects of electric high-moment dipoles on the tunneling current in $\delta$-layer tunnel junctions ( http://arxiv.org/abs/2310.06704v3 )

ライセンス: Link先を確認
Juan P. Mendez and Denis Mamaluy(参考訳) 走査トンネル顕微鏡を用いた半導体中のドーパントの正確な位置決めは、古典的および量子コンピューティングにおける新しい概念の探索を促進するために、$\delta$-layersとも呼ばれる平面ドーパントベースのデバイスの開発につながった。 近年、$\delta$-layer 系の導電帯に準離散状態と連続状態が存在するため、$\delta$-layer のトンネル接合に2つの異なる導電系(低バイアスと高バイアス)が存在することが示されている。 さらに, トンネル接合部の荷電不純物は, $\delta$-layer トンネル接合部のトンネル速度に大きな影響を及ぼす。 ここでは, トンネル接合部に存在するゼロ電荷不純物, 電気的双極子が, 比導電率や双極子の配向, モーメントに応じてトンネル速度を著しく変化させることができることを示す。 ほぼすべての方向とモーメントの高抵抗トンネルモードの双極子不純物を持つ低バイアス状態においては、トンネルギャップのわずかな不完全性に対するトンネル電流の極端な感度を示す電流を変化させることができる。 低抵抗の高バイアスでは、電子トンネル方向に垂直な方向に配向した高モーメントの双極子欠陥のみが電流に著しく影響するため、この導電性は、低モーメントまたは双極子を伝播方向に沿って向いた双極子欠陥の影響を著しく減少させる。

The precise positioning of dopants in semiconductors using scanning tunneling microscopes has led to the development of planar dopant-based devices, also known as $\delta$-layers, facilitating the exploration of new concepts in classical and quantum computing. Recently it have been shown that two distinct conductivity regimes (low- and high- bias regimes) exist in $\delta$-layer tunnel junctions due to the presence of quasi-discrete and continuous states in the conduction band of $\delta$-layer systems. Furthermore, discrete charged impurities in the tunnel junction region significantly influence the tunneling rates in $\delta$-layer tunnel junctions. Here we demonstrate that zero-charge impurities, or electrical dipoles, present in the tunnel junction region can also significantly alter the tunneling rate, depending, however, on the specific conductivity regime and orientation and moment of the dipole. In the low-bias regime with high-resistance tunneling mode dipole impurities of nearly all orientations and moments can alter the current, indicating the extreme sensitivity of the tunnel current to the slightest imperfection in the tunnel gap. In the high-bias regime with low-resistivity only dipole defects with high moment and orientated in the direction perpendicular to the electron tunneling direction can significantly affect the current, thus making this conductivity regime significantly less prone to the influence of dipole defects with low-moment or dipoles oriented along the propagation direction.
翻訳日:2023-12-20 22:35:43 公開日:2023-12-18
# AI駆動型分散における分断・対数ダイナミクス

Divide-and-Conquer Dynamics in AI-Driven Disempowerment ( http://arxiv.org/abs/2310.06009v2 )

ライセンス: Link先を確認
Peter S. Park and Max Tegmark(参考訳) AI企業は、人間を最も経済的に価値のある仕事で上回るAIシステムを作ろうとしている。 現在のAIモデルは、既に一部のアーティスト、俳優、作家の生活を自動化する。 しかし、現在の害と将来の害を優先する者との戦いがある。 我々は、この不統一の原因と結果を研究するために、対立のゲーム理論モデルを構築します。 私たちのモデルは、歴史を通じて共通の脅威を共有するステークホルダーが、それに対して団結することが有利であること、そしてなぜ共通の脅威が、分割と征服が有利であるかを説明するのにも役立ちます。 現実的なパラメータ仮定の下では, モデルでは, 歴史的-経験的記録から予備的確証を求めるいくつかの予測を行う。 第一に、AIによる非武装化の犠牲者は、彼らの利益も深刻で差し迫った脅威下にあることに気付くために将来の犠牲者を必要としている。 第二に、ai主導の無力化に対する動きはより団結し、結果として、メンバーが彼らの努力が無駄ではなく成功すると信じれば、より普及する可能性が高い。 最後に、メンバーが近視的でない場合、運動はより団結し、優位に立つことができる。 近視的なメンバーは、現在の幸福よりも将来の幸福を優先し、ai主導の無力化の共通の脅威に対抗するために必要であったとしても、今日の犠牲者を個人的コストで協力的に支援する傾向に欠ける。

AI companies are attempting to create AI systems that outperform humans at most economically valuable work. Current AI models are already automating away the livelihoods of some artists, actors, and writers. But there is infighting between those who prioritize current harms and future harms. We construct a game-theoretic model of conflict to study the causes and consequences of this disunity. Our model also helps explain why throughout history, stakeholders sharing a common threat have found it advantageous to unite against it, and why the common threat has in turn found it advantageous to divide and conquer. Under realistic parameter assumptions, our model makes several predictions that find preliminary corroboration in the historical-empirical record. First, current victims of AI-driven disempowerment need the future victims to realize that their interests are also under serious and imminent threat, so that future victims are incentivized to support current victims in solidarity. Second, the movement against AI-driven disempowerment can become more united, and thereby more likely to prevail, if members believe that their efforts will be successful as opposed to futile. Finally, the movement can better unite and prevail if its members are less myopic. Myopic members prioritize their future well-being less than their present well-being, and are thus disinclined to solidarily support current victims today at personal cost, even if this is necessary to counter the shared threat of AI-driven disempowerment.
翻訳日:2023-12-20 22:35:16 公開日:2023-12-18
# パラメータ化駆動型ニューラルインシシト表面編集

Parameterization-driven Neural Implicit Surfaces Editing ( http://arxiv.org/abs/2310.05524v2 )

ライセンス: Link先を確認
Baixin Xu and Jiangbei Hu and Fei Hou and Kwan-Yee Lin and Wayne Wu and Chen Qian and Ying He(参考訳) ニューラルレンダリングの能力の増大は、3Dオブジェクトの直感的な編集を可能にする新しい技術、特にニューラルな暗黙の表面として表現される場合の需要を増大させている。 本稿では,ニューラル暗黙曲面を球面,立方体,ポリキューブなどの単純なパラメトリック領域にパラメータ化することで,可視化と様々な編集作業を容易にする新しいニューラルアルゴリズムを提案する。 技術的には、3dオブジェクトとその選択したパラメトリックドメイン間の双方向変形を計算し、事前情報の必要性をなくす。 我々は、3次元物体の零レベル集合上の点の前方マッピングをパラメトリック領域に適用し、次に逆変形による後方マッピングを行う。 写像が単射であることを保証するために、両方の変形の滑らかさを最適化しながらサイクルロスを用いる。 さらに,ラプラシアン正則化器を用いて角度歪みを効果的に制御し,領域歪みを管理するためのパラメトリック領域から選択する柔軟性を提供する。 このフレームワークは、既存のニューラルネットワークレンダリングパイプラインとシームレスに統合され、マルチビューイメージを入力として、3dジオメトリを再構築し、対応するテクスチャマップを計算します。 また,本質的放射光分解のための簡易かつ効果的な手法も導入し,ビュー非依存の素材編集とビュー依存のシェーディング編集を両立させる。 本手法は,ネットワーク再トレーニングを必要とせず,ボリュームレンダリングによる編集テクスチャの即時レンダリングを可能にする。 さらに,複数のオブジェクトの共パラメータ化をサポートし,それらの間のテクスチャ転送を可能にする。 本手法が人間の頭部と人工物の画像に与える影響を実証する。 ソースコードを公開します。

The growing capabilities of neural rendering have increased the demand for new techniques that enable intuitive editing of 3D objects, particularly when they are represented as neural implicit surfaces. In this paper, we present a novel neural algorithm to parameterize neural implicit surfaces to simple parametric domains, such as spheres, cubes, or polycubes, thereby facilitating visualization and various editing tasks. Technically, our method computes a bi-directional deformation between 3D objects and their chosen parametric domains, eliminating the need for any prior information. We adopt a forward mapping of points on the zero level set of the 3D object to a parametric domain, followed by a backward mapping through inverse deformation. To ensure the map is bijective, we employ a cycle loss while optimizing the smoothness of both deformations. Additionally, we leverage a Laplacian regularizer to effectively control angle distortion and offer the flexibility to choose from a range of parametric domains for managing area distortion. Designed for compatibility, our framework integrates seamlessly with existing neural rendering pipelines, taking multi-view images as input to reconstruct 3D geometry and compute the corresponding texture map. We also introduce a simple yet effective technique for intrinsic radiance decomposition, facilitating both view-independent material editing and view-dependent shading editing. Our method allows for the immediate rendering of edited textures through volume rendering, without the need for network re-training. Moreover, our approach supports the co-parameterization of multiple objects and enables texture transfer between them. We demonstrate the effectiveness of our method on images of human heads and man-made objects. We will make the source code publicly available.
翻訳日:2023-12-20 22:34:50 公開日:2023-12-18
# NExT-Chat: チャット、検出、セグメンテーションのためのLMM

NExT-Chat: An LMM for Chat, Detection and Segmentation ( http://arxiv.org/abs/2311.04498v4 )

ライセンス: Link先を確認
Ao Zhang, Yuan Yao, Wei Ji, Zhiyuan Liu, Tat-Seng Chua(参考訳) 大規模言語モデル(LLM)の開発は、多モーダル理解の分野を大幅に進歩させ、大規模多モーダルモデル(LMM)の出現につながった。 視覚的理解のレベルを高めるため、近年の研究では、オブジェクト境界ボックス座標を一連のテキストシーケンス(pix2seq)として表現することで、領域レベルの理解能力を備えたLMMを実装している。 本稿では, pix2emb法と呼ばれるオブジェクト位置モデリングのための新しいパラダイムを紹介し, LMMに位置埋め込みを出力させ, 異なるデコーダでデコードする。 このパラダイムは、マルチモーダルな会話で異なる場所フォーマット(バウンディングボックスやマスクなど)を使うことができる。 提案手法を活用することで,NExT-ChatというLMMを訓練し,視覚的接地,領域キャプション,接地的推論などの複数のタスクを処理可能であることを示す。 例えば、next-chat (87.7)対shikra (86.9)、next-chat (68.9)対lisa (67.9)、next-chat (79.6)対kosmos-2 (62.3)である。 コードとモデルはhttps://github.com/NExT-ChatV/NExT-Chatで公開されている。

The development of large language models (LLMs) has greatly advanced the field of multimodal understanding, leading to the emergence of large multimodal models (LMMs). In order to enhance the level of visual comprehension, recent studies have equipped LMMs with region-level understanding capabilities by representing object bounding box coordinates as a series of text sequences (pix2seq). In this paper, we introduce a novel paradigm for object location modeling called pix2emb method, where we ask the LMM to output the location embeddings and then decode them with different decoders. This paradigm allows us to use different location formats (such as bounding boxes and masks) in multimodal conversations. Leveraging the proposed pix2emb method, we train an LMM named NExT-Chat and demonstrate its capability of handling multiple tasks like visual grounding, region captioning, and grounded reasoning. Comprehensive experiments show the effectiveness of our NExT-Chat on various tasks, e.g., NExT-Chat (87.7) vs. Shikra (86.9) on POPE-Random, NExT-Chat (68.9) vs. LISA (67.9) on referring expression segmentation task, and NExT-Chat (79.6) vs. Kosmos-2 (62.3) on region caption task. The code and model are released at https://github.com/NExT-ChatV/NExT-Chat.
翻訳日:2023-12-20 22:28:34 公開日:2023-12-18
# 粗粒タンパク質折り畳みモデルのための量子アルゴリズムの資源解析

Resource analysis of quantum algorithms for coarse-grained protein folding models ( http://arxiv.org/abs/2311.04186v2 )

ライセンス: Link先を確認
Hanna Linn, Isak Brundin, Laura Garc\'ia-\'Alvarez, G\"oran Johansson(参考訳) タンパク質の折りたたみプロセスは分子生物学の重要な側面であり、従来のコンピュータではシミュレートが難しい。 量子アルゴリズムは特定の問題に対して優れていることが証明されており、この複雑な生命科学の課題に取り組むのに役立つかもしれない。 量子コンピュータ上でタンパク質の折り畳みをシミュレーションするための資源要件を分析し,現在および近未来の技術的展望におけるこの問題の可能性を評価する。 我々は、折りたたみ問題の特定の情報を持つヒューリスティック量子アルゴリズムを構築するのに必要な最小の量子ビット数、相互作用、および2量子ゲートを計算する。 特に,特定のアミノ酸数に対するタンパク質の折りたたみモデルに関連付けられたハミルトニアンに基づく量子演算を構築するために必要な資源に着目した。 このような操作はこれらの量子アルゴリズムの基本的な構成要素であり、効率的な計算のために量子状態の進化を導く。 具体的には,格子および固定バックボーン側鎖コンフォーメーションモデル上でのコース粒度の折り畳みモデルについて検討し,ビットエンコーディングの異なる既存の量子ハードウェアの制約との整合性を評価する。 必要な量子ビットの数は、現在の技術能力に該当する。 しかし、制限因子はハミルトニアンにおける多くの相互作用であり、今日では量子ゲート数は利用できない。

Protein folding processes are a vital aspect of molecular biology that is hard to simulate with conventional computers. Quantum algorithms have been proven superior for certain problems and may help tackle this complex life science challenge. We analyze the resource requirements for simulating protein folding on a quantum computer, assessing this problem's feasibility in the current and near-future technological landscape. We calculate the minimum number of qubits, interactions, and two-qubit gates necessary to build a heuristic quantum algorithm with the specific information of a folding problem. Particularly, we focus on the resources needed to build quantum operations based on the Hamiltonian linked to the protein folding models for a given amino acid count. Such operations are a fundamental component of these quantum algorithms, guiding the evolution of the quantum state for efficient computations. Specifically, we study course-grained folding models on the lattice and the fixed backbone side-chain conformation model and assess their compatibility with the constraints of existing quantum hardware given different bit-encodings. We conclude that the number of qubits required falls within current technological capabilities. However, the limiting factor is the high number of interactions in the Hamiltonian, resulting in a quantum gate count unavailable today.
翻訳日:2023-12-20 22:28:03 公開日:2023-12-18
# 大規模連想記憶から取り出すためのインコンテキスト・エクササイズ

In-Context Exemplars as Clues to Retrieving from Large Associative Memory ( http://arxiv.org/abs/2311.03498v2 )

ライセンス: Link先を確認
Jiachen Zhao(参考訳) 近年,自然言語処理において大規模言語モデル(llm)が著しく進歩している。 llmの最も代表的な能力は、インコンテキスト学習(icl)であり、トレーニングなしで、インコンテキストの例からパターンを学習できる。 ICLの性能は、使用される例に大きく依存する。 しかし、文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかは定かではない。 本稿では,連想記憶モデルからの文脈検索を概念化し,ICLに関する新たな視点を示す。 ホップフィールドネットワークに基づくICLの理論的枠組みを確立する。 このフレームワークに基づき,インコンテキストの例題が icl のパフォーマンスにどのように影響を与えるかを検討し,より効率的な例題選択を提案する。 本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当て、LCMの理解を促進する可能性がある。

Recently, large language models (LLMs) have made remarkable progress in natural language processing. The most representative ability of LLMs is in-context learning (ICL), which enables LLMs to learn patterns from in-context exemplars without training. The performance of ICL greatly depends on the exemplars used. However, how to choose exemplars remains unclear due to the lack of understanding of how in-context learning works. In this paper, we present a novel perspective on ICL by conceptualizing it as contextual retrieval from a model of associative memory. We establish a theoretical framework of ICL based on Hopfield Networks. Based on our framework, we look into how in-context exemplars influence the performance of ICL and propose more efficient active exemplar selection. Our study sheds new light on the mechanism of ICL by connecting it to memory retrieval, with potential implications for advancing the understanding of LLMs.
翻訳日:2023-12-20 22:27:44 公開日:2023-12-18
# AI-TA:オープンソースLLMを用いた知的質問応答アシスタントを目指して

AI-TA: Towards an Intelligent Question-Answer Teaching Assistant using Open-Source LLMs ( http://arxiv.org/abs/2311.02775v3 )

ライセンス: Link先を確認
Yann Hicke, Anmol Agarwal, Qianou Ma, Paul Denny(参考訳) オンラインqaプラットフォームにおける何千もの学生の質問に対して,学期ごとにかなりの人的コストがかかります。 スケーラブルでインテリジェントな質問応答(QA)の課題に対処するため,LLaMA-2ファミリからのオープンソースのLarge Language Models(LLM)を活用して,データのプライバシを確保する革新的なソリューションを提案する。 本手法は,検索拡張生成(rag),教師付き微調整(sft),直接選好最適化(dpo)を用いた人間選好データからの学習といった拡張手法を組み合わせたものである。 1万対のQAペアと1500対の選好データからなるCSコースからPazzaデータセットを広範囲に実験することにより、回答の品質が30%向上し、RAGは特に影響のある追加であることを示す。 我々の貢献には、教育用QAのための新しいアーキテクチャの開発、人間の評価とLLMベースのメトリクスの両方を利用したLLMパフォーマンスの広範な評価、教育データ処理の課題と今後の方向性に関する洞察が含まれる。 この研究は、オンラインQAプラットフォームでコースをカスタマイズ可能なインテリジェントQAアシスタントであるAI-TAの開発の道を開く。

Responding to the thousands of student questions on online QA platforms each semester has a considerable human cost, particularly in computing courses with rapidly growing enrollments. To address the challenges of scalable and intelligent question-answering (QA), we introduce an innovative solution that leverages open-source Large Language Models (LLMs) from the LLaMA-2 family to ensure data privacy. Our approach combines augmentation techniques such as retrieval augmented generation (RAG), supervised fine-tuning (SFT), and learning from human preferences data using Direct Preference Optimization (DPO). Through extensive experimentation on a Piazza dataset from an introductory CS course, comprising 10,000 QA pairs and 1,500 pairs of preference data, we demonstrate a significant 30% improvement in the quality of answers, with RAG being a particularly impactful addition. Our contributions include the development of a novel architecture for educational QA, extensive evaluations of LLM performance utilizing both human assessments and LLM-based metrics, and insights into the challenges and future directions of educational data processing. This work paves the way for the development of AI-TA, an intelligent QA assistant customizable for courses with an online QA platform
翻訳日:2023-12-20 22:27:15 公開日:2023-12-18
# 量子回路における離散ノイズ近似

The Discrete Noise Approximation in Quantum Circuits ( http://arxiv.org/abs/2311.00135v2 )

ライセンス: Link先を確認
Keith R. Fratus, Juha Lepp\"akangas, Michael Marthaler, Jan-Michael Reiner(参考訳) ノイズが量子回路に与える影響をモデル化する場合、ノイズのないゲートに続く個々のデコヒーレンスイベントによってこれらの効果が説明できると仮定することが多い。 本稿では,本モデルの有効性について述べる。 我々は、かなり広い仮定の下で、この個別の非一貫性事象のモデルは、量子回路の実装中に量子デバイス上で発生する真のノイズプロセスに良い近似を与えることを見出している。 しかし、量子ビットレジスタの十分な大きな回転に対応するゲートに対して、これらのノイズ項の質的性質は、基礎となるハードウェアレベルでのノイズの性質から大きく異なることが分かる。 分析の大部分は、量子システムに作用する個々の量子演算を近似する方法に関するアンザッツである分離性アンザッツ(sparability ansatz)と呼ばれるものを分析することを目的としている。 この研究の主な動機に加えて、ここで得られる結果の恩恵を受ける可能性のあるオープンリサーチの他のいくつかの分野を特定する。

When modeling the effects of noise on quantum circuits, one often makes the assumption that these effects can be accounted for by individual decoherence events following an otherwise noise-free gate. In this work, we address the validity of this model. We find that under a fairly broad set of assumptions, this model of individual decoherence events provides a good approximation to the true noise processes occurring on a quantum device during the implementation of a quantum circuit. However, for gates which correspond to sufficiently large rotations of the qubit register, we find that the qualitative nature of these noise terms can vary significantly from the nature of the noise at the underlying hardware level. The bulk of our analysis is directed towards analyzing what we refer to as the separability ansatz, which is an ansatz concerning the manner in which individual quantum operations acting on a quantum system can be approximated. In addition to the primary motivation of this work, we identify several other areas of open research which may benefit from the results we derive here.
翻訳日:2023-12-20 22:26:52 公開日:2023-12-18
# recontab:表データのための正規化コントラスト表現学習

ReConTab: Regularized Contrastive Representation Learning for Tabular Data ( http://arxiv.org/abs/2310.18541v2 )

ライセンス: Link先を確認
Suiyao Chen, Jing Wu, Naira Hovakimyan, Handong Yao(参考訳) 表現学習は、さまざまな領域において重要な機械学習技術の1つである。 高品質な特徴の獲得を通じて、事前訓練された埋め込みは入力空間の冗長性を著しく低減し、分類、回帰、検出などの下流パターン認識タスクの恩恵を受ける。 それでも、表データの領域では、機能エンジニアリングと選択は手作業による介入に大きく依存しており、時間を要するプロセスとドメインの専門知識を必要とします。 この課題に対して,正規化コントラスト学習を備えた深層自動表現学習フレームワークReConTabを導入する。 ReConTabはどんな種類のモデリングタスクにも依存せず、モデル入力から同じ原特徴に基づいて非対称のオートエンコーダを構築し、低次元の代表埋め込みを生成する。 具体的には、生の特徴選択に正規化技術を適用する。 一方、ReConTabはコントラスト学習を利用して、下流のタスクに最も関連する情報を抽出する。 広範囲な実世界のデータセットで実施した実験は、フレームワークの性能を実証し、実質的で堅牢なパフォーマンス改善をもたらす。 さらに,xgboostやランダムフォレストといった従来の手法の性能を向上させることにより,事前学習した組込みが容易に適応可能な機能としてシームレスに統合できることを実証した。

Representation learning stands as one of the critical machine learning techniques across various domains. Through the acquisition of high-quality features, pre-trained embeddings significantly reduce input space redundancy, benefiting downstream pattern recognition tasks such as classification, regression, or detection. Nonetheless, in the domain of tabular data, feature engineering and selection still heavily rely on manual intervention, leading to time-consuming processes and necessitating domain expertise. In response to this challenge, we introduce ReConTab, a deep automatic representation learning framework with regularized contrastive learning. Agnostic to any type of modeling task, ReConTab constructs an asymmetric autoencoder based on the same raw features from model inputs, producing low-dimensional representative embeddings. Specifically, regularization techniques are applied for raw feature selection. Meanwhile, ReConTab leverages contrastive learning to distill the most pertinent information for downstream tasks. Experiments conducted on extensive real-world datasets substantiate the framework's capacity to yield substantial and robust performance improvements. Furthermore, we empirically demonstrate that pre-trained embeddings can seamlessly integrate as easily adaptable features, enhancing the performance of various traditional methods such as XGBoost and Random Forest.
翻訳日:2023-12-20 22:26:37 公開日:2023-12-18
# SkipAnalyzer: 大規模言語モデルを用いた静的コード解析ツール

SkipAnalyzer: A Tool for Static Code Analysis with Large Language Models ( http://arxiv.org/abs/2310.18532v2 )

ライセンス: Link先を確認
Mohammad Mahdi Mohajer, Reem Aleithan, Nima Shiri Harzevili, Moshi Wei, Alvine Boaye Belle, Hung Viet Pham, Song Wang(参考訳) 静的コード解析のための大規模言語モデル(LLM)ツールであるSkipAnalyzerを紹介する。 SkipAnalyzerには3つのコンポーネントがある。 1) ソースコードをスキャンして特定の種類のバグを報告するLLMベースの静的バグ検出装置。 2) 静的バグ検出結果(ステップの結果など)における偽陽性バグを識別できるLCMベースの偽陽性フィルタ 1) 検出精度の向上,3) 上記の検出されたバグに対するパッチを生成するLLMベースのパッチジェネレータ。 概念実証として、SkipAnalyzerはChatGPT上に構築されている。 SkipAnalyzerを評価するために、静的バグ検出(Null Dereference)とResource Leak(Resource Leak)の2つのタイプに着目した。 10のオープンソースプロジェクトから2つのバグタイプを収集するためにinferを採用しています。 その結果、実験データセットには、Null Dereferenceバグの222インスタンスとResource Leakバグの46インスタンスが含まれている。 本研究では,SkipAnalyzerが,バグ検出,偽陽性警告除去,バグ修復などの静的解析タスクにおいて顕著な性能を発揮することを示す。 静的バグ検出において、SkipAnalyzerは、Null Dereferenceバグを最大68.37%、Resource Leakバグを最大76.95%検出し、現在のリードバグ検出装置であるInferの精度を12.86%、43.13%向上させる。 偽陽性の警告を除去するために、SkipAnalyzerは、Null Dereferenceバグで93.88%、Resource Leakバグで63.33%の精度に達することができる。 さらにskipanalyzerは最先端の偽陽性警告削除ツールを超えている。 さらに、バグ修正では、SkipAnalyzerは構文的に正しいパッチを生成し、検出されたバグを97.30%の成功率で修正することができる。

We introduce SkipAnalyzer, a large language model (LLM)-powered tool for static code analysis. SkipAnalyzer has three components: 1) an LLM-based static bug detector that scans source code and reports specific types of bugs, 2) an LLM-based false-positive filter that can identify false-positive bugs in the results of static bug detectors (e.g., the result of step 1) to improve detection accuracy, and 3) an LLM-based patch generator that can generate patches for the detected bugs above. As a proof-of-concept, SkipAnalyzer is built on ChatGPT, which has exhibited outstanding performance in various software engineering tasks. To evaluate SkipAnalyzer, we focus on two types of typical and critical bugs that are targeted by static bug detection, i.e., Null Dereference and Resource Leak as subjects. We employ Infer to aid the gathering of these two bug types from 10 open-source projects. Consequently, our experiment dataset contains 222 instances of Null Dereference bugs and 46 instances of Resource Leak bugs. Our study demonstrates that SkipAnalyzer achieves remarkable performance in the mentioned static analysis tasks, including bug detection, false-positive warning removal, and bug repair. In static bug detection, SkipAnalyzer achieves accuracy values of up to 68.37% for detecting Null Dereference bugs and 76.95% for detecting Resource Leak bugs, improving the precision of the current leading bug detector, Infer, by 12.86% and 43.13%, respectively. For removing false-positive warnings, SkipAnalyzer can reach a precision of up to 93.88% for Null Dereference bugs and 63.33% for Resource Leak bugs. Additionally, SkipAnalyzer surpasses state-of-the-art false-positive warning removal tools. Furthermore, in bug repair, SkipAnalyzer can generate syntactically correct patches to fix its detected bugs with a success rate of up to 97.30%.
翻訳日:2023-12-20 22:26:18 公開日:2023-12-18
# ControlLLM: グラフ検索によるツールによる言語モデルの拡張

ControlLLM: Augment Language Models with Tools by Searching on Graphs ( http://arxiv.org/abs/2310.17796v3 )

ライセンス: Link先を確認
Zhaoyang Liu, Zeqiang Lai, Zhangwei Gao, Erfei Cui, Ziheng Li, Xizhou Zhu, Lewei Lu, Qifeng Chen, Yu Qiao, Jifeng Dai, Wenhai Wang(参考訳) 我々は,大規模言語モデル(LLM)が複雑な実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。 LLMの顕著な性能にもかかわらず、不明瞭なユーザプロンプト、不正確なツールの選択とパラメータ化、非効率なツールスケジューリングによるツール呼び出しに苦戦している。 To overcome these challenges, our framework comprises three key components: (1) a \textit{task decomposer} that breaks down a complex task into clear subtasks with well-defined inputs and outputs; (2) a \textit{Thoughts-on-Graph (ToG) paradigm} that searches the optimal solution path on a pre-built tool graph, which specifies the parameter and dependency relations among different tools; and (3) an \textit{execution engine with a rich toolbox} that interprets the solution path and runs the tools efficiently on different computational devices. 我々は,画像,音声,映像処理を含む多種多様なタスクの枠組みを評価し,既存の手法と比較して,その精度,効率,汎用性を示す。 コードはhttps://github.com/OpenGVLab/ControlLLMにある。

We present ControlLLM, a novel framework that enables large language models (LLMs) to utilize multi-modal tools for solving complex real-world tasks. Despite the remarkable performance of LLMs, they still struggle with tool invocation due to ambiguous user prompts, inaccurate tool selection and parameterization, and inefficient tool scheduling. To overcome these challenges, our framework comprises three key components: (1) a \textit{task decomposer} that breaks down a complex task into clear subtasks with well-defined inputs and outputs; (2) a \textit{Thoughts-on-Graph (ToG) paradigm} that searches the optimal solution path on a pre-built tool graph, which specifies the parameter and dependency relations among different tools; and (3) an \textit{execution engine with a rich toolbox} that interprets the solution path and runs the tools efficiently on different computational devices. We evaluate our framework on diverse tasks involving image, audio, and video processing, demonstrating its superior accuracy, efficiency, and versatility compared to existing methods. The code is at https://github.com/OpenGVLab/ControlLLM.
翻訳日:2023-12-20 22:25:13 公開日:2023-12-18
# 大規模言語モデルのためのオープンソースデータ汚染レポート

An Open Source Data Contamination Report for Large Language Models ( http://arxiv.org/abs/2310.17589v2 )

ライセンス: Link先を確認
Yucheng Li(参考訳) 言語モデル評価におけるデータ汚染は、大規模言語モデルの人気が高まりつつある。 モデルが本当の能力を示すのではなく、記憶を通じて“焼く”ことができるのです。 そのため, 汚染分析は信頼性モデル評価において重要な要素となり, 評価結果が得られた。 しかしながら、既存の汚染分析は通常、LLM開発者によって内部で行われ、透明性と完全性に欠けることが多い。 本稿では,llamaシリーズモデルのオープンソースデータ汚染レポートについて述べる。 6つの一般的なマルチチョイスqaベンチマークを分析し,llamaのトレーニングセットとの重なりを定量化する。 1\%から8.7\%までの様々な汚染レベルがベンチマークで見られる。 また,Llamaモデルでは汚染されたサブセットに対して,クリーンサブセットに対して5倍以上の精度が得られることを示した。 データとコードは、https://github.com/liyucheng09/contamination_detectorで入手できる。

Data contamination in language model evaluation is increasingly prevalent as the popularity of large language models. It allows models to "cheat" via memorisation instead of displaying true capabilities. Therefore, contamination analysis has became an crucial part of reliable model evaluation to validate results. However, existing contamination analysis is usually conducted internally by LLM developers and often lacks transparency and completeness. This paper present an open source data contamination reports for the Llama series models. We analyse six popular multi-choice QA benchmarks and quantify their overlapping with the training set of Llama. Various levels of contamination ranging from 1\% to 8.7\% are found across benchmarks. Our comparison also reveals that Llama models can gain over 5\% higher accuracy on contaminated subsets versus clean subsets. Data and code are available at: https://github.com/liyucheng09/Contamination_Detector.
翻訳日:2023-12-20 22:24:54 公開日:2023-12-18
# アラビア細粒実体認識

Arabic Fine-Grained Entity Recognition ( http://arxiv.org/abs/2310.17333v2 )

ライセンス: Link先を確認
Haneen Liqreina, Mustafa Jarrar, Mohammed Khalilia, Ahmed Oumar El-Shangiti, Muhammad Abdul-Mageed(参考訳) 従来のNERシステムは通常、粗粒度を認識できるように訓練されており、より細粒度の低いサブタイプの階層にエンティティを分類することにはあまり注意を払わない。 この記事は、アラビア語のNERを粒度の細かいエンティティで前進させることを目的としている。 私たちはWojood(オープンソースのNested Arabic Named Entity Corpus)をサブタイプで拡張することにしました。 特に、wojood, geopolitical entity (gpe), location (loc), organization (org), facility (fac)の4つの主要なエンティティタイプが31のサブタイプで拡張されている。 そこで我々はまず, GPE, LOC, ORG, FAC の Wojood アノテーションを LDC の ACE ガイドラインに適合するように改訂した。 第二に、Wojood における GPE, LOC, ORG, FAC (~44K) のすべての言及は、LCC の ACE サブタイプで手動で注釈付けされている。 我々はWojoodのこの拡張バージョンをWojoodF ineと呼んでいる。 アノテーションを評価するため,CohenのKappaとF1のスコアを用いてIAA(inter-annotator agreement)を測定し,それぞれ0.9861と0.9889を得た。 WojoodF ineのベースラインを計算するために、フラットNER、ネストNER、ネストNERの3つの設定で事前訓練された3つのアラビアBERTエンコーダを微調整し、それぞれ0.920、0.866、0.885のF1スコアを得た。 私たちのコーパスとモデルはオープンソースであり、https://sina.birzeit.edu/wojood/で利用可能です。

Traditional NER systems are typically trained to recognize coarse-grained entities, and less attention is given to classifying entities into a hierarchy of fine-grained lower-level subtypes. This article aims to advance Arabic NER with fine-grained entities. We chose to extend Wojood (an open-source Nested Arabic Named Entity Corpus) with subtypes. In particular, four main entity types in Wojood, geopolitical entity (GPE), location (LOC), organization (ORG), and facility (FAC), are extended with 31 subtypes. To do this, we first revised Wojood's annotations of GPE, LOC, ORG, and FAC to be compatible with the LDC's ACE guidelines, which yielded 5, 614 changes. Second, all mentions of GPE, LOC, ORG, and FAC (~44K) in Wojood are manually annotated with the LDC's ACE sub-types. We refer to this extended version of Wojood as WojoodF ine. To evaluate our annotations, we measured the inter-annotator agreement (IAA) using both Cohen's Kappa and F1 score, resulting in 0.9861 and 0.9889, respectively. To compute the baselines of WojoodF ine, we fine-tune three pre-trained Arabic BERT encoders in three settings: flat NER, nested NER and nested NER with subtypes and achieved F1 score of 0.920, 0.866, and 0.885, respectively. Our corpus and models are open-source and available at https://sina.birzeit.edu/wojood/.
翻訳日:2023-12-20 22:24:43 公開日:2023-12-18
# 確率潜在変圧器:確率強制型ゾナルジェットの効率的なモデリング

Stochastic Latent Transformer: Efficient Modelling of Stochastically Forced Zonal Jets ( http://arxiv.org/abs/2310.16741v2 )

ライセンス: Link先を確認
Ira J. S. Shokar, Rich R. Kerswell, Peter H. Haynes(参考訳) 本稿では,確率的偏微分方程式の高効率低次モデリングを目的とした,確率的深層学習手法'SLT(Stochastic Latent Transformer)を提案する。 確率的に駆動される流れモデルは、巨大惑星のジェット、海洋循環、中緯度気候の変動など、様々な自然現象に関係している。 しかし、近年のディープラーニングの進歩の多くは、決定論的システムに主に焦点を絞っている。 SLTは、連続ランク確率スコアに向けて訓練された翻訳同変オートエンコーダと組み合わせた確率強制変換器からなる。 そこで我々は, 確率的に強制された渦と帯状平均流の相互作用により, 低周波変動性が高まる帯状噴流システムに適用することにより, その効果を示す。 SLTは様々な統合期間にわたってシステムダイナミクスを正確に再現し、スペクトル特性と異なる状態間の遷移率を含む定量的診断を通じて検証する。 SLTは, 直接数値シミュレーションと比較して, 水平平均流のエミュレートにおいて, 5次マグニチュード高速化を実現する。 この加速により、大規模アンサンブルのコスト効率が向上し、自然遷移事象の確率に関する統計的疑問を探索することができる。

We present a novel probabilistic deep learning approach, the 'Stochastic Latent Transformer' (SLT), designed for the efficient reduced-order modelling of stochastic partial differential equations. Stochastically driven flow models are pertinent to a diverse range of natural phenomena, including jets on giant planets, ocean circulation, and the variability of midlatitude weather. However, much of the recent progress in deep learning has predominantly focused on deterministic systems. The SLT comprises a stochastically-forced transformer paired with a translation-equivariant autoencoder, trained towards the Continuous Ranked Probability Score. We showcase its effectiveness by applying it to a well-researched zonal jet system, where the interaction between stochastically forced eddies and the zonal mean flow results in a rich low-frequency variability. The SLT accurately reproduces system dynamics across various integration periods, validated through quantitative diagnostics that include spectral properties and the rate of transitions between distinct states. The SLT achieves a five-order-of-magnitude speedup in emulating the zonally-averaged flow compared to direct numerical simulations. This acceleration facilitates the cost-effective generation of large ensembles, enabling the exploration of statistical questions concerning the probabilities of spontaneous transition events.
翻訳日:2023-12-20 22:24:11 公開日:2023-12-18
# 多変量時系列データにおける深層学習に基づくイベント検出のための総合PythonライブラリとNLPにおける情報検索

A Comprehensive Python Library for Deep Learning-Based Event Detection in Multivariate Time Series Data and Information Retrieval in NLP ( http://arxiv.org/abs/2310.16485v2 )

ライセンス: Link先を確認
Menouar Azib, Benjamin Renard, Philippe Garnier, Vincent G\'enot, Nicolas Andr\'e(参考訳) 時系列データのイベント検出は、金融、医療、サイバーセキュリティ、科学など、さまざまな分野において重要である。 時系列データにおけるイベントの正確な識別は、情報的な決定、異常の検出、将来のトレンドの予測に不可欠である。 時系列におけるイベント検出のさまざまな方法に関する広範な研究と、ディープラーニングのアプローチが最も進歩しているものの、この分野における改善とイノベーションの余地はまだ残っている。 本稿では,多変量時系列データにおける事象検出のための深層学習教師付き手法を提案する。 本手法は,既存の深層学習指導法と比較して,4つの新しい特徴を組み合わせたものである。 第一に、二項分類ではなく回帰に基づく。 第二に、各ポイントがラベル付けされたラベル付きデータセットを必要としない。代わりに、時間ポイントまたは時間間隔として定義された参照イベントのみを必要とする。 第3に、古典的なフィードフォワードニューラルネットワーク(ffn)からトランスフォーマーのような最先端アーキテクチャまで、ディープラーニングモデルを組み合わせた、積み重ねられたアンサンブル学習メタモデルを使用することで、堅牢に設計されている。 このアンサンブルアプローチは、個々のモデルの弱点とバイアスを緩和し、より堅牢な予測をもたらす。 最後に,実用的な実装を容易にするため,提案手法に準拠したpythonパッケージを開発した。 eventdetector-tsと呼ばれるパッケージは、Python Package Index (PyPI)経由でインストールできる。 本稿では,本手法について述べるとともに,パッケージの利用に関する包括的ガイドを提供する。 自然言語処理(NLP)から金融セキュリティドメインまで,さまざまな実世界のユースケースを通じて,その汎用性と有効性を示す。

Event detection in time series data is crucial in various domains, including finance, healthcare, cybersecurity, and science. Accurately identifying events in time series data is vital for making informed decisions, detecting anomalies, and predicting future trends. Despite extensive research exploring diverse methods for event detection in time series, with deep learning approaches being among the most advanced, there is still room for improvement and innovation in this field. In this paper, we present a new deep learning supervised method for detecting events in multivariate time series data. Our method combines four distinct novelties compared to existing deep-learning supervised methods. Firstly, it is based on regression instead of binary classification. Secondly, it does not require labeled datasets where each point is labeled; instead, it only requires reference events defined as time points or intervals of time. Thirdly, it is designed to be robust by using a stacked ensemble learning meta-model that combines deep learning models, ranging from classic feed-forward neural networks (FFNs) to state-of-the-art architectures like transformers. This ensemble approach can mitigate individual model weaknesses and biases, resulting in more robust predictions. Finally, to facilitate practical implementation, we have developed a Python package to accompany our proposed method. The package, called eventdetector-ts, can be installed through the Python Package Index (PyPI). In this paper, we present our method and provide a comprehensive guide on the usage of the package. We showcase its versatility and effectiveness through different real-world use cases from natural language processing (NLP) to financial security domains.
翻訳日:2023-12-20 22:23:49 公開日:2023-12-18
# MMMU: エキスパートAGIのための大規模多分野マルチモーダル理解と推論ベンチマーク

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI ( http://arxiv.org/abs/2311.16502v2 )

ライセンス: Link先を確認
Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen(参考訳) MMMUは,大学レベルの教科知識と意図的推論を必要とする大規模多分野タスクのマルチモーダルモデルを評価するために設計された新しいベンチマークである。 mmmuには、大学の試験、クイズ、教科書から精細に収集された11.5kのマルチモーダルな質問が含まれており、アートとデザイン、ビジネス、科学、健康と医学、人文科学と社会科学、技術と工学の6つの分野をカバーしている。 これらの質問は30の被験者と183のサブフィールドにまたがり、チャート、図表、地図、テーブル、楽譜、化学構造など30の非常に異質な画像タイプで構成されている。 既存のベンチマークとは異なり、MMMUは高度な認識とドメイン固有の知識による推論に焦点を当てており、専門家が直面しているようなタスクを実行するための挑戦的なモデルである。 14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。 高度な GPT-4V と Gemini Ultra でさえそれぞれ 56% と 59% の精度しか達成していないため、改善の余地は大きい。 我々はMMMUがコミュニティを刺激し、専門家の汎用人工知能に向けた次世代のマルチモーダル基盤モデルを構築するだろうと考えている。

We introduce MMMU: a new benchmark designed to evaluate multimodal models on massive multi-discipline tasks demanding college-level subject knowledge and deliberate reasoning. MMMU includes 11.5K meticulously collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering. These questions span 30 subjects and 183 subfields, comprising 30 highly heterogeneous image types, such as charts, diagrams, maps, tables, music sheets, and chemical structures. Unlike existing benchmarks, MMMU focuses on advanced perception and reasoning with domain-specific knowledge, challenging models to perform tasks akin to those faced by experts. The evaluation of 14 open-source LMMs as well as the proprietary GPT-4V(ision) and Gemini highlights the substantial challenges posed by MMMU. Even the advanced GPT-4V and Gemini Ultra only achieve accuracies of 56% and 59% respectively, indicating significant room for improvement. We believe MMMU will stimulate the community to build next-generation multimodal foundation models towards expert artificial general intelligence.
翻訳日:2023-12-20 22:15:37 公開日:2023-12-18
# SkeletonGait:Skeleton Mapsを用いた歩行認識

SkeletonGait: Gait Recognition Using Skeleton Maps ( http://arxiv.org/abs/2311.13444v2 )

ライセンス: Link先を確認
Chao Fan, Jingzhe Ma, Dongyang Jin, Chuanfu Shen, Shiqi Yu(参考訳) 表現の選択は、深い歩行認識法に必須である。 二項シルエットと骨格座標は近年の文献において2つの支配的な表現であり、多くのシナリオにおいて顕著な進歩を遂げている。 しかし、シルエットが常に拘束されていない場面で保証されるわけではなく、構造的な手がかりが骨格から完全に活用されていないという固有の課題が残っている。 そこで本研究では,骨格地図から構造情報を活用するスケルトンゲイトとともに,骨格地図という新しい骨格歩行表現を提案する。 具体的には、スケルトンマップは人間の関節の座標をガウス近似のヒートマップとして表現し、正確な体構造を持たないシルエットのような像を示す。 さらに重要な点として、SkeletonGaitは、歩行を記述する上で構造的特徴がいかに重要か、そしていつその役割を演じるのか、という新たな洞察を明らかにしている。 さらに,スケルトンとシルエットの相補的な特徴を活用するために,SkeletonGait++というマルチブランチアーキテクチャを提案する。 実験によると、SkeletonGait++は既存の最先端メソッドよりも、さまざまなシナリオでかなりの差がある。 例えば、挑戦的なGREWデータセットでは、印象的なランク1の精度が85%以上に達する。 すべてのソースコードはhttps://github.com/ShiqiYu/OpenGaitで入手できる。

The choice of the representations is essential for deep gait recognition methods. The binary silhouettes and skeletal coordinates are two dominant representations in recent literature, achieving remarkable advances in many scenarios. However, inherent challenges remain, in which silhouettes are not always guaranteed in unconstrained scenes, and structural cues have not been fully utilized from skeletons. In this paper, we introduce a novel skeletal gait representation named skeleton map, together with SkeletonGait, a skeleton-based method to exploit structural information from human skeleton maps. Specifically, the skeleton map represents the coordinates of human joints as a heatmap with Gaussian approximation, exhibiting a silhouette-like image devoid of exact body structure. Beyond achieving state-of-the-art performances over five popular gait datasets, more importantly, SkeletonGait uncovers novel insights about how important structural features are in describing gait and when they play a role. Furthermore, we propose a multi-branch architecture, named SkeletonGait++, to make use of complementary features from both skeletons and silhouettes. Experiments indicate that SkeletonGait++ outperforms existing state-of-the-art methods by a significant margin in various scenarios. For instance, it achieves an impressive rank-1 accuracy of over 85% on the challenging GREW dataset. All the source code is available at https://github.com/ShiqiYu/OpenGait.
翻訳日:2023-12-20 22:14:28 公開日:2023-12-18
# 連続学習における重み付け決定が知識伝達に及ぼす影響の検討

Investigating the Impact of Weight Sharing Decisions on Knowledge Transfer in Continual Learning ( http://arxiv.org/abs/2311.09506v3 )

ライセンス: Link先を確認
Josh Andle, Ali Payani, Salimeh Yasaei-Sekeh(参考訳) 連続学習(CL)は、ニューラルネットワークの逐次トレーニングにおけるカタストロフィック・フォーッティング(CF)を回避する方法として注目され、異なるタスクに対するネットワーク効率と適応性が改善されている。 さらにCLは、タスク間のネットワーク行動とフォワード知識伝達(FKT)を研究するための理想的な設定として機能する。 CLトレインサブネットワークのプルーニング手法は、FKTの調査に構造化されたアプローチを採ることができるように、シーケンシャルなタスクを処理する。 以前のサブネットワークの重みを共有することは、FKTを通じて現在のタスクに対する過去の知識を活用する。 どの重みを共有するかを理解することは、すべての重みを共有することで、準最適精度が得られる。 本稿では,タスク間のfktに異なる共有判断が与える影響について検討する。 このレンズを通して、タスクの複雑さと類似性が最適な重み付け決定にどのように影響するかを示し、タスク間の関係について洞察を与え、同様のCL手法による意思決定を支援する。 resnet-18とvgg-16の両方について,タスクの複雑さと類似性を強調する3つのシーケンシャルデータセットを実装した。 結果から得られた決定に従って共有することで,他の共有決定よりもタスクの精度を向上させることができることを示す。

Continual Learning (CL) has generated attention as a method of avoiding Catastrophic Forgetting (CF) in the sequential training of neural networks, improving network efficiency and adaptability to different tasks. Additionally, CL serves as an ideal setting for studying network behavior and Forward Knowledge Transfer (FKT) between tasks. Pruning methods for CL train subnetworks to handle the sequential tasks which allows us to take a structured approach to investigating FKT. Sharing prior subnetworks' weights leverages past knowledge for the current task through FKT. Understanding which weights to share is important as sharing all weights can yield sub-optimal accuracy. This paper investigates how different sharing decisions affect the FKT between tasks. Through this lens we demonstrate how task complexity and similarity influence the optimal weight sharing decisions, giving insights into the relationships between tasks and helping inform decision making in similar CL methods. We implement three sequential datasets designed to emphasize variation in task complexity and similarity, reporting results for both ResNet-18 and VGG-16. By sharing in accordance with the decisions supported by our findings, we show that we can improve task accuracy compared to other sharing decisions.
翻訳日:2023-12-20 22:13:13 公開日:2023-12-18
# テーブル上の全データ:新しいデータセットとクロスモダリティ科学情報抽出のためのベンチマーク

All Data on the Table: Novel Dataset and Benchmark for Cross-Modality Scientific Information Extraction ( http://arxiv.org/abs/2311.08189v3 )

ライセンス: Link先を確認
Yuhan Li and Jian Wu and Zhiwei Yu and B\"orje F. Karlsson and Wei Shen and Manabu Okumura and Chin-Yew Lin(参考訳) 科学論文から重要な情報を抽出することは、研究者がより効率的に研究し、科学的進歩のペースを加速するのに役立つ可能性がある。 ここ数年、科学情報抽出(SciIE)の研究は、いくつかの新しいシステムとベンチマークのリリースを目撃した。 しかし、既存の論文中心のデータセットは主に原稿の特定の部分(抽象文など)のみに焦点を当てており、複雑な処理と高価なアノテーションのために単一のモダリティ(テキストやテーブルのみ)である。 さらに、コア情報はテキストやテーブル、あるいはその両方に存在することができる。 このデータ可用性のギャップを埋めて、モダリティ間のIEを実現するため、テキスト中のエンティティやテーブル内のエンティティやリレーションを反復的にアノテートするための半教師付きパイプラインを提案する。 このパイプラインに基づいて,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。 さらに,提案するベンチマークデータセットにおける最先端ieモデルの性能をベースラインとして報告する。 最後に,ChatGPTのような大規模言語モデルの現在の課題に対する可能性について検討する。 我々の新しいデータセット、結果、分析は、半教師付きパイプラインの有効性と効率を検証し、残りの制限について論じる。

Extracting key information from scientific papers has the potential to help researchers work more efficiently and accelerate the pace of scientific progress. Over the last few years, research on Scientific Information Extraction (SciIE) witnessed the release of several new systems and benchmarks. However, existing paper-focused datasets mostly focus only on specific parts of a manuscript (e.g., abstracts) and are single-modality (i.e., text- or table-only), due to complex processing and expensive annotations. Moreover, core information can be present in either text or tables or across both. To close this gap in data availability and enable cross-modality IE, while alleviating labeling costs, we propose a semi-supervised pipeline for annotating entities in text, as well as entities and relations in tables, in an iterative procedure. Based on this pipeline, we release novel resources for the scientific community, including a high-quality benchmark, a large-scale corpus, and a semi-supervised annotation pipeline. We further report the performance of state-of-the-art IE models on the proposed benchmark dataset, as a baseline. Lastly, we explore the potential capability of large language models such as ChatGPT for the current task. Our new dataset, results, and analysis validate the effectiveness and efficiency of our semi-supervised pipeline, and we discuss its remaining limitations.
翻訳日:2023-12-20 22:12:51 公開日:2023-12-18
# フィードバック制御による量子絡み合いの発生と向上

Emergence and enhancement of feedback control induced quantum entanglement ( http://arxiv.org/abs/2311.06578v3 )

ライセンス: Link先を確認
M. Amazioug, D. Dutykh, M. Asjad(参考訳) 本稿では,機械振動子やマグノンと相互作用しながらキャビティを脱出するキャビティモードにフィードバックを適用し,量子相関を制御する手法を提案する。 移動鏡を有するハイブリッドキャビティマグノメカニカルシステムにおいて,提案するコヒーレントフィードバックスキームは,2成分と3成分の量子相関の強化を可能にする。 さらに,コヒーレントフィードバック制御の存在下での環境温度に対して,結果として生じる絡み合いは頑健であることを示す。

We present a scheme for controlling quantum correlations by applying feedback to the cavity mode that exits a cavity while interacting with a mechanical oscillator and magnons. In a hybrid cavity magnomechanical system with a movable mirror, the proposed coherent feedback scheme allows for the enhancement of both bipartite and tripartite quantum correlations. Moreover, we demonstrate that the resulting entanglement remains robust with respect to ambient temperatures in the presence of coherent feedback control.
翻訳日:2023-12-20 22:11:55 公開日:2023-12-18
# メモリ障害予測のための誤りビットの探索--深部相関研究

Exploring Error Bits for Memory Failure Prediction: An In-Depth Correlative Study ( http://arxiv.org/abs/2312.02855v2 )

ライセンス: Link先を確認
Qiao Yu, Wengui Zhang, Jorge Cardoso and Odej Kao(参考訳) 大規模なデータセンタでは、メモリ障害はサーバクラッシュの一般的な原因であり、修正不能エラー(ues)はデュアルインラインメモリモジュール(dimm)障害の主要な指標である。 既存のアプローチは主に、エラービットによって提供される情報を十分に考慮せずに、修正可能なエラー(CE)を使用してUEを予測することに焦点を当てている。 しかし、誤りビットパターンはUEの発生と強い相関関係を持つ。 本稿では,CEとUEの相関関係に関する総合的研究を行い,特に時空間誤りビット情報の重要性を強調した。 解析の結果,時空間誤差ビットとue発生との間に強い相関が認められた。 実世界のデータセットを用いた評価により,本手法は最先端のアルゴリズムと比較してF1スコアの予測性能を15%向上することを示した。 提案手法は,UEによる仮想マシンの中断回数を約59%削減する。

In large-scale datacenters, memory failure is a common cause of server crashes, with Uncorrectable Errors (UEs) being a major indicator of Dual Inline Memory Module (DIMM) defects. Existing approaches primarily focus on predicting UEs using Correctable Errors (CEs), without fully considering the information provided by error bits. However, error bit patterns have a strong correlation with the occurrence of UEs. In this paper, we present a comprehensive study on the correlation between CEs and UEs, specifically emphasizing the importance of spatio-temporal error bit information. Our analysis reveals a strong correlation between spatio-temporal error bits and UE occurrence. Through evaluations using real-world datasets, we demonstrate that our approach significantly improves prediction performance by 15% in F1-score compared to the state-of-the-art algorithms. Overall, our approach effectively reduces the number of virtual machine interruptions caused by UEs by approximately 59%.
翻訳日:2023-12-20 22:03:51 公開日:2023-12-18
# シミュレーションに基づくモデルのための償却ベイズ決定法

Amortized Bayesian Decision Making for simulation-based models ( http://arxiv.org/abs/2312.02674v2 )

ライセンス: Link先を確認
Mila Gorecki, Jakob H. Macke, Michael Deistler(参考訳) シミュレーションベース推論(sbi)は、幅広い領域における確率的シミュレータの後方分布を推測するための強力な枠組みを提供する。 しかし、多くの設定において、後続の分布はゴールそのものではなく、派生したパラメータ値とその不確実性は、どのアクションをとるかを決定するための基盤として使用される。 残念なことに、SBIによって提供される後続分布は(潜在的に粗い)真の後続分布の近似であるため、結果として得られる決定は準最適である。 ここでは,確率シミュレータ上でベイズ決定を行う方法と,後方への明示的な近似を計算する必要性を回避する方法について述べる。 本手法はシミュレーションデータに基づいてニューラルネットワークを訓練し,データや動作によって期待されるコストを予測できる。 本手法をいくつかのベンチマーク問題に適用し,本手法が真の後方分布に類似したコストをもたらすことを示す。 次に,ベイジアン仮想てんかん患者である医療神経科学における実世界のシミュレータにおいて,最適な動作を推定するためにこの手法を適用し,少ないシミュレーションで低コストな動作を推測できることを実証する。

Simulation-based inference (SBI) provides a powerful framework for inferring posterior distributions of stochastic simulators in a wide range of domains. In many settings, however, the posterior distribution is not the end goal itself -- rather, the derived parameter values and their uncertainties are used as a basis for deciding what actions to take. Unfortunately, because posterior distributions provided by SBI are (potentially crude) approximations of the true posterior, the resulting decisions can be suboptimal. Here, we address the question of how to perform Bayesian decision making on stochastic simulators, and how one can circumvent the need to compute an explicit approximation to the posterior. Our method trains a neural network on simulated data and can predict the expected cost given any data and action, and can, thus, be directly used to infer the action with lowest cost. We apply our method to several benchmark problems and demonstrate that it induces similar cost as the true posterior distribution. We then apply the method to infer optimal actions in a real-world simulator in the medical neurosciences, the Bayesian Virtual Epileptic Patient, and demonstrate that it allows to infer actions associated with low cost after few simulations.
翻訳日:2023-12-20 22:03:38 公開日:2023-12-18
# 条件付き変分拡散モデル

Conditional Variational Diffusion Models ( http://arxiv.org/abs/2312.02246v2 )

ライセンス: Link先を確認
Gabriel della Maggiora, Luis Alberto Croquevielle, Nikita Desphande, Harry Horsley, Thomas Heinis, Artur Yakimovich(参考訳) 逆問題とは、工学と科学における重要な課題である観測からパラメータを決定することである。 近年、生成モデル、特に拡散モデルがこの領域で、現実的な解と優れた数学的性質を生み出す能力で人気を集めている。 拡散モデルの成功にもかかわらず、拡散モデルの重要な欠点は拡散過程のダイナミクスを制御する分散スケジュールの選択に対する感度である。 このスケジュールを特定のアプリケーション向けに微調整することは重要だが、時間的コストがかかり、最適な結果が保証されない。 トレーニングプロセスの一環として,スケジュール学習のための新しい手法を提案する。 提案手法は,データに対する確率的条件付けをサポートし,高品質なソリューションを提供し,柔軟性があり,最小限のオーバーヘッドで異なるアプリケーションに適応できることを示す。 このアプローチは、超解像顕微鏡と定量的位相イメージングという2つの非関係の逆問題で検証され、従来の手法と同等あるいは優れた結果が得られる。 実験によるスケジュールの微調整は、よりよい結果をもたらす安定した方法でトレーニング中に学習できるため、避けるべきである。

Inverse problems aim to determine parameters from observations, a crucial task in engineering and science. Lately, generative models, especially diffusion models, have gained popularity in this area for their ability to produce realistic solutions and their good mathematical properties. Despite their success, an important drawback of diffusion models is their sensitivity to the choice of variance schedule, which controls the dynamics of the diffusion process. Fine-tuning this schedule for specific applications is crucial but time-costly and does not guarantee an optimal result. We propose a novel approach for learning the schedule as part of the training process. Our method supports probabilistic conditioning on data, provides high-quality solutions, and is flexible, proving able to adapt to different applications with minimum overhead. This approach is tested in two unrelated inverse problems: super-resolution microscopy and quantitative phase imaging, yielding comparable or superior results to previous methods and fine-tuned diffusion models. We conclude that fine-tuning the schedule by experimentation should be avoided because it can be learned during training in a stable way that yields better results.
翻訳日:2023-12-20 22:03:15 公開日:2023-12-18
# 自己生成型ウォーゲームAI:大規模言語モデルに基づく二重層エージェントタスク計画

Self Generated Wargame AI: Double Layer Agent Task Planning Based on Large Language Model ( http://arxiv.org/abs/2312.01090v2 )

ライセンス: Link先を確認
Y.Sun, J.Zhao, C.Yu, W.Wang, X.Zhou(参考訳) ChatGPTで表される大きな言語モデルは、人工知能の分野に破壊的な影響を与える。 しかし、主に自然言語処理、音声認識、機械学習、自然言語理解に焦点を当てている。 本稿では,大規模言語モデルを知的意思決定分野に適用し,大規模言語モデルを意思決定センタに配置し,大規模言語モデルをコアとしてエージェントアーキテクチャを構築する。 そこで本研究では,自然言語の相互作用による2層エージェントタスク計画,課題,決定命令の実行,およびウォーゲームシミュレーション環境によるシミュレーション検証を行う。 ゲーム対決シミュレーション実験により、大言語モデルの知的意思決定能力は、一般的に使われている強化学習AIやルールAIよりもはるかに強く、知性、理解可能性、一般化性がよいことがわかった。 そして,実験により,大規模言語モデルの知性はプロンプトと密接に関連していることがわかった。 この研究は、従来の人間とコンピュータの相互作用から知的意思決定の分野まで、大きな言語モデルを拡張し、知的意思決定の発展に重要な参照価値と重要性を持つ。

The large language models represented by ChatGPT have a disruptive impact on the field of artificial intelligence. But it mainly focuses on natural language processing, speech recognition, machine learning and natural language understanding. This paper innovatively applies the large language model to the field of intelligent decision-making, places the large language model in the decision-making center, and constructs an agent architecture with the large language model as the core. Based on this, it further proposes a two-layer agent task planning, issues and executes decision commands through the interaction of natural language, and carries out simulation verification through the wargame simulation environment. Through the game confrontation simulation experiment, it is found that the intelligent decision-making ability of the large language model is significantly stronger than the commonly used reinforcement learning AI and rule AI, and the intelligence, understandability and generalization are all better. And through experiments, it was found that the intelligence of the large language model is closely related to prompt. This work also extends the large language model from previous human-computer interaction to the field of intelligent decision-making, which has important reference value and significance for the development of intelligent decision-making.
翻訳日:2023-12-20 22:02:57 公開日:2023-12-18
# 電子非エルミート系のトポロジカルスピンテクスチャー

Topological spin textures in electronic non-Hermitian systems ( http://arxiv.org/abs/2312.01041v2 )

ライセンス: Link先を確認
Xiao-Xiao Zhang, Naoto Nagaosa(参考訳) 非エルミート系は、主に開システムと非平衡の文脈で議論されてきた。 近年の実験的な進歩は、可観測物の大きなチューニング性と明確な識別のため、光学的、低温原子的、古典的なプラットフォームによるものである。 しかし、平衡状態の固体電子系では、様々な材料が利用可能であり、計算がしっかりと確立され、正確な分光技術が適用できるという非常に望まれながら、その相反するものはいまだにない。 磁気不純物によるスピン依存緩和を伴うトポロジカル絶縁体の表面状態において、運動量空間に非常に自明なトポロジカルソリトンスピンテクスチャが現れることを示した。 このようなスピンチャネル現象は非ハーミティティーのタイプと微妙に関連しており、分光学的に検出可能な最も頑丈な非エルミティアン特徴を正しく明らかにしている。 さらに、異なるトポロジカルソリトンオブジェクトは、ドープ磁気の臨界方向のチューニングによって駆動されるトポロジカル遷移によって、互いに変形することができる。 これらの結果はスピンと角度分解光電子分光による異種スピンパターンへの固体の道を開くだけでなく、固体中のスピンの非エルミート散逸工学を刺激する。

Non-Hermitian systems have been discussed mostly in the context of open systems and nonequilibrium. Recent experimental progress is much from optical, cold-atomic, and classical platforms due to the vast tunability and clear identification of observables. However, their counterpart in solid-state electronic systems in equilibrium remains unmasked although highly desired, where a variety of materials are available, calculations are solidly founded, and accurate spectroscopic techniques can be applied. We demonstrate that, in the surface state of a topological insulator with spin-dependent relaxation due to magnetic impurities, highly nontrivial topological soliton spin textures appear in momentum space. Such spin-channel phenomena are delicately related to the type of non-Hermiticity and correctly reveal the most robust non-Hermitian features detectable spectroscopically. Moreover, the distinct topological soliton objects can be deformed to each other, mediated by topological transitions driven by tuning across a critical direction of doped magnetism. These results not only open a solid-state avenue to exotic spin patterns via spin- and angle-resolved photoemission spectroscopy, but also inspire non-Hermitian dissipation engineering of spins in solids.
翻訳日:2023-12-20 22:02:37 公開日:2023-12-18
# 初心者から専門家へ:医学知識のモデリングから一般LLMへ

From Beginner to Expert: Modeling Medical Knowledge into General LLMs ( http://arxiv.org/abs/2312.01040v2 )

ライセンス: Link先を確認
Qiang Li, Xiaoyan Yang, Haowen Wang, Qin Wang, Lei Liu, Junjie Wang, Yang Zhang, Mingyuan Chu, Sen Hu, Yicheng Chen, Yue Shen, Cong Fan, Wangshu Zhang, Teng Xu, Jinjie Gu, Jing Zheng, Guannan Zhang Ant Group(参考訳) 近年,大規模言語モデル(LLM)に基づく人工知能(AI)システムは,自然言語の理解と生成において顕著な能力を示している。 しかし、これらのモデルは、医学的知識に対する推論や、医師のような方法での医学的質問に答えるなど、センシティブな応用に関して大きな課題に直面している。 先行研究は、より一般的な医学知識を学習するためにモデルサイズ(>100B)を増大させることにより、この課題を克服しようとしたが、小型モデルサイズ((<100B)のLLMの改善の余地はまだ残っている。 本研究は,前訓練された一般llmモデル(antglm-10b)から医療初心者から医療専門家(antglm-med-10bと呼ばれる)に微調整し,一般医学知識注入,医療ドメイン命令チューニング,特定の医療タスク適応といった3段階の最適化手順を活用する。 1)医学領域,特に特定の医療業務において,事前訓練された一般LSMをどのように適応させるかを検討する。 2)最適化プロセスの各段階の大規模医療データセットを収集し,構築する。 これらのデータセットは、質問応答、医療推論、マルチチョイス質問、医療会話など、さまざまなデータタイプとタスクを包含する。 (3) 医学領域における多点質問に対して, LLM の推論能力を大幅に向上させる, 工学的促進のための新たな検証手法を提案する。 上記のアプローチを組み合わせることで、我々のAntGLM-Med-10BモデルはPubMedQA上でのLLMよりも優れる。

Recently, large language model (LLM) based artificial intelligence (AI) systems have demonstrated remarkable capabilities in natural language understanding and generation. However, these models face a significant challenge when it comes to sensitive applications, such as reasoning over medical knowledge and answering medical questions in a physician-like manner. Prior studies attempted to overcome this challenge by increasing the model size (>100B) to learn more general medical knowledge, while there is still room for improvement in LLMs with smaller-scale model sizes (<100B). In this work, we start from a pre-trained general LLM model (AntGLM-10B) and fine-tune it from a medical beginner towards a medical expert (called AntGLM-Med-10B), which leverages a 3-stage optimization procedure, i.e., general medical knowledge injection, medical domain instruction tuning, and specific medical task adaptation. Our contributions are threefold: (1) We specifically investigate how to adapt a pre-trained general LLM in medical domain, especially for a specific medical task. (2) We collect and construct large-scale medical datasets for each stage of the optimization process. These datasets encompass various data types and tasks, such as question-answering, medical reasoning, multi-choice questions, and medical conversations. (3) Specifically for multi-choice questions in the medical domain, we propose a novel Verification-of-Choice approach for prompting engineering, which significantly enhances the reasoning ability of LLMs. Remarkably, by combining the above approaches, our AntGLM-Med-10B model can outperform the most of LLMs on PubMedQA, including both general and medical LLMs, even when these LLMs have larger model size.
翻訳日:2023-12-20 22:02:13 公開日:2023-12-18
# 大規模言語モデルによる自律運転の強化:安全の観点から

Empowering Autonomous Driving with Large Language Models: A Safety Perspective ( http://arxiv.org/abs/2312.00812v3 )

ライセンス: Link先を確認
Yixuan Wang, Ruochen Jiao, Chengtian Lang, Sinong Simon Zhan, Chao Huang, Zhaoran Wang, Zhuoran Yang, Qi Zhu(参考訳) 自律運転(AD)は商業打ち上げの重要なハードルに直面しており、特に、長期にわたる予期せぬ運転シナリオによる公共の信頼と安全上の懸念が減少している。 この予測は、ADソフトウェアにおけるディープニューラルネットワークの制限によるものであり、解釈可能性に苦慮し、配布外および不確実なシナリオにおける一般化能力の低下を示す。 そこで本稿では,大規模言語モデル(llm)を広告システムに統合し,その強固な共通認識知識,推論能力,ヒューマンインタラクション能力を活用することを提案する。 提案手法は,環境安全学習のための安全性検証器を組み込んで,全体的な広告パフォーマンスと安全性を高めることを目的として,計画におけるインテリジェントな意思決定者としてllmを展開する。 本手法の有効性を実証する2つの症例研究の結果を報告する。 さらに、認識、予測、シミュレーションを含む他のADソフトウェアコンポーネントに対するLLMの統合の可能性についても論じる。 ケーススタディで観察された課題にもかかわらず、LDMの統合は、ADにおける安全性と性能の強化に有益であり、有益である。

Autonomous Driving (AD) faces crucial hurdles for commercial launch, notably in the form of diminished public trust and safety concerns from long-tail unforeseen driving scenarios. This predicament is due to the limitation of deep neural networks in AD software, which struggle with interpretability and exhibit poor generalization capabilities in out-of-distribution and uncertain scenarios. To this end, this paper advocates for the integration of Large Language Models (LLMs) into the AD system, leveraging their robust common-sense knowledge, reasoning abilities, and human-interaction capabilities. The proposed approach deploys the LLM as an intelligent decision-maker in planning, incorporating safety verifiers for contextual safety learning to enhance overall AD performance and safety. We present results from two case studies that affirm the efficacy of our approach. We further discuss the potential integration of LLM for other AD software components including perception, prediction, and simulation. Despite the observed challenges in the case studies, the integration of LLMs is promising and beneficial for reinforcing both safety and performance in AD.
翻訳日:2023-12-20 22:01:33 公開日:2023-12-18
# 時間進化によるスペクトル推定のための最大混合状態の爆発

Exploiting Maximally Mixed States for Spectral Estimation by Time Evolution ( http://arxiv.org/abs/2312.00687v2 )

ライセンス: Link先を確認
Kaelyn J. Ferris, Zihang Wang, Itay Hen, Amir Kalev, Nicholas T. Bronn, Vojtech Vlcek(参考訳) 量子時間進化を用いて、量子多体ハミルトニアン、より一般にエルミート作用素のスペクトルを推定するための新しいアプローチを導入する。 このアプローチでは、ハミルトニアンの関心の下で最大混合状態を進化させ、特定の時系列測定値を収集してスペクトルを推定している。 現在使われている古典的統計的サンプリング法よりも,本手法の利点を実証する。 ibm量子バックエンド上での2量子ビットハイゼンベルクハミルトニアンのスペクトル分解を実験的に推定することにより,本手法を実証する。 そこで本研究では,物理的に最も近い量子ビットに対して$n$-qubit Pauli回転を制御し,ネイティブエンタングリング相互作用の点から2キュービット回転を表現できるハードウェア効率の分解法を開発した。 これにより、時間発展シミュレーションプロトコルにおけるノイズの多い2ビット演算からのエラーの蓄積を大幅に削減した。 我々は、我々の研究の潜在的影響と、それが開く研究の今後の方向性について論じる。

We introduce a novel approach for estimating the spectrum of quantum many-body Hamiltonians, and more generally, of Hermitian operators, using quantum time evolution. In our approach we are evolving a maximally mixed state under the Hamiltonian of interest and collecting specific time-series measurements to estimate its spectrum. We demonstrate the advantage of our technique over currently used classical statistical sampling methods. We showcase our approach by experimentally estimating the spectral decomposition of a 2-qubit Heisenberg Hamiltonian on an IBM Quantum backend. For this purpose, we develop a hardware-efficient decomposition that controls $n$-qubit Pauli rotations against the physically closest qubit alongside expressing two-qubit rotations in terms of the native entangling interaction. This substantially reduced the accumulation of errors from noisy two-qubit operations in time evolution simulation protocols. We conclude by discussing the potential impact of our work and the future directions of research it opens.
翻訳日:2023-12-20 22:01:14 公開日:2023-12-18
# RTQ:画像テキストモデルに基づくビデオ言語理解の再考

RTQ: Rethinking Video-language Understanding Based on Image-text Model ( http://arxiv.org/abs/2312.00347v2 )

ライセンス: Link先を確認
Xiao Wang, Yaoyu Li, Tian Gan, Zheng Zhang, Jingjing Lv, and Liqiang Nie(参考訳) 近年の映像理解の進歩は、画像テキストモデルの基礎として確立され、画像と映像の共有知識によって有望な結果をもたらす。 しかし、ビデオ言語理解は、情報冗長性、時間依存、シーンの複雑さをもたらす非常に複雑な意味的詳細を含んでいるため、独特の課題を呈する。 現在の手法はこれらの問題に部分的に取り組んだだけであり、定量的分析によりこれらの手法が相補的であることを示唆している。 そこで我々はRTQ(Refine, Temporal model, Query)と呼ばれる新しいフレームワークを提案し,これらの課題を同時に解決する。 このアプローチでは、フレーム内の冗長な情報を精製し、フレーム間の時間的関係をモデル化し、ビデオからタスク固有の情報をクエリする。 驚くべきことに,本モデルは,映像言語前訓練がなくても優れた性能を示し,最先端前訓練法で達成されたものと同等かそれ以上である。 コードはhttps://github.com/sczwangxiao/rtq-mm2023で入手できる。

Recent advancements in video-language understanding have been established on the foundation of image-text models, resulting in promising outcomes due to the shared knowledge between images and videos. However, video-language understanding presents unique challenges due to the inclusion of highly complex semantic details, which result in information redundancy, temporal dependency, and scene complexity. Current techniques have only partially tackled these issues, and our quantitative analysis indicates that some of these methods are complementary. In light of this, we propose a novel framework called RTQ (Refine, Temporal model, and Query), which addresses these challenges simultaneously. The approach involves refining redundant information within frames, modeling temporal relations among frames, and querying task-specific information from the videos. Remarkably, our model demonstrates outstanding performance even in the absence of video-language pre-training, and the results are comparable with or superior to those achieved by state-of-the-art pre-training methods. Code is available at https://github.com/SCZwangxiao/RTQ-MM2023.
翻訳日:2023-12-20 22:00:30 公開日:2023-12-18
# CFDソルバと結合した物理拘束型ニューラル正規微分方程式による剛性化学速度論のモデル化

A Posteriori Evaluation of a Physics-Constrained Neural Ordinary Differential Equations Approach Coupled with CFD Solver for Modeling Stiff Chemical Kinetics ( http://arxiv.org/abs/2312.00038v2 )

ライセンス: Link先を確認
Tadbhagya Kumar, Anuj Kumar, Pinaki Pal(参考訳) 詳細な化学の解法に関連する高い計算コストは、乱流反応流の予測計算流体力学(CFD)シミュレーションに重大な課題をもたらす。 これらのモデルは、しばしば結合された強常微分方程式(ODE)の系を必要とする。 より高速なサロゲートモデルを開発するためにディープラーニング技術が実験されているが、CFDソルバと確実に統合できないことが多い。 この不安定性は、深層学習手法がodeソルバとの互換性を保証せずにトレーニングエラーを最適化し、時間とともにエラーの蓄積につながるため生じる。 近年,neuralodeに基づく手法は,化学動力学を効果的にモデル化することで,有望な解決法を提供している。 本研究では,トレーニング中の損失関数に直接質量保存制約を組み込むことにより,強固な化学動力学のためのニューロデドフレームワークを拡張する。 これにより、総質量と元素質量が保存されることが保証され、cfdソルバとの信頼性の高い下流統合のための重要な要件となる。 物理拘束型ニューラルネットワーク(PC-NODE)による水素-空気混合物の均一自己着火に関する概念実証実験を行った。 以上の結果から, この強化は, 物質保存基準に対する物理的整合性を向上するだけでなく, 堅牢性も向上することが示された。 最後に、訓練されたpcノードモデルと3d cfdソルバを結合して化学源の項を計算する事で後進研究を行う。 PC-NODEは純粋にデータ駆動型ニューラルドアプローチと比較してより正確であることが示されている。 さらに、PC-NODEは、トレーニング体制の内部(補間能力)と外部(補間能力)から初期状態を確認するための堅牢性と一般化性を示す。

The high computational cost associated with solving for detailed chemistry poses a significant challenge for predictive computational fluid dynamics (CFD) simulations of turbulent reacting flows. These models often require solving a system of coupled stiff ordinary differential equations (ODEs). While deep learning techniques have been experimented with to develop faster surrogate models, they often fail to integrate reliably with CFD solvers. This instability arises because deep learning methods optimize for training error without ensuring compatibility with ODE solvers, leading to accumulation of errors over time. Recently, NeuralODE-based techniques have offered a promising solution by effectively modeling chemical kinetics. In this study, we extend the NeuralODE framework for stiff chemical kinetics by incorporating mass conservation constraints directly into the loss function during training. This ensures that the total mass and the elemental mass are conserved, a critical requirement for reliable downstream integration with CFD solvers. Proof-of-concept studies are performed with physics-constrained neuralODE (PC-NODE) approach for homogeneous autoignition of hydrogen-air mixture over a range of composition and thermodynamic conditions. Our results demonstrate that this enhancement not only improves the physical consistency with respect to mass conservation criteria but also ensures better robustness. Lastly, a posteriori studies are performed wherein the trained PC-NODE model is coupled with a 3D CFD solver for computing the chemical source terms. PC-NODE is shown to be more accurate relative to the purely data-driven neuralODE approach. Moreover, PC-NODE also exhibits robustness and generalizability to unseen initial conditions from within (interpolative capability) as well as outside (extrapolative capability) the training regime.
翻訳日:2023-12-20 22:00:09 公開日:2023-12-18
# レイユーザフィードバックがAIフェアネス改善に与える影響を探る

Exploring the Impact of Lay User Feedback for Improving AI Fairness ( http://arxiv.org/abs/2312.08064v2 )

ライセンス: Link先を確認
Evdoxia Taka, Yuri Nakao, Ryosuke Sonoda, Takuya Yokota, Lin Luo, Simone Stumpf(参考訳) AIにおける公正さは、高い意思決定に対する関心が高まっている。 公平なAI開発において利害関係者、特にレイユーザを増やすことは、まだ見過ごされがちだ。 近年の取り組みでは,レイユーザによるAIフェアネス関連のフィードバックの提供が検討されているが,ユーザからのフィードバックをAIモデルに統合する方法や,その影響についてはまだ理解されていない。 このギャップを埋めるために,ホームクレジットデータセット上でトレーニングされたxgboostモデルの公平性に関する58 layユーザからのフィードバックを収集し,リトレーニングモデルが正確性,個人的および集団的公平性に与える影響を調査するためにオフライン実験を行った。 我々の研究は、XGBoostにユーザフェアネスフィードバックを統合することのベースライン結果に貢献し、AIフェアネスにおける利害関係者の研究をブートストラップするデータセットとコードフレームワークを提供しています。 我々の議論は、AIフェアネスにユーザフィードバックを採用する際の課題を強調し、対話型機械学習の将来の応用分野への道を示す。

Fairness in AI is a growing concern for high-stakes decision making. Engaging stakeholders, especially lay users, in fair AI development is promising yet overlooked. Recent efforts explore enabling lay users to provide AI fairness-related feedback, but there is still a lack of understanding of how to integrate users' feedback into an AI model and the impacts of doing so. To bridge this gap, we collected feedback from 58 lay users on the fairness of a XGBoost model trained on the Home Credit dataset, and conducted offline experiments to investigate the effects of retraining models on accuracy, and individual and group fairness. Our work contributes baseline results of integrating user fairness feedback in XGBoost, and a dataset and code framework to bootstrap research in engaging stakeholders in AI fairness. Our discussion highlights the challenges of employing user feedback in AI fairness and points the way to a future application area of interactive machine learning.
翻訳日:2023-12-20 21:54:12 公開日:2023-12-18
# semantic lens: ビデオ超解像のためのインスタンス中心の意味アライメント

Semantic Lens: Instance-Centric Semantic Alignment for Video Super-Resolution ( http://arxiv.org/abs/2312.07823v2 )

ライセンス: Link先を確認
Qi Tang, Yao Zhao, Meiqin Liu, Jian Jin, and Chao Yao(参考訳) ビデオ超解像(VSR)の重要な手がかりとして、フレーム間のアライメントは全体的なパフォーマンスに大きな影響を及ぼす。 しかし、正確なピクセルレベルのアライメントはビデオ内の複雑な動きのために難しい課題である。 この問題に対して、劣化ビデオから引き出されたセマンティック・レンズのセマンティック・レンズという新しいパラダイムを導入する。 具体的には、ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。 これらのセマンティクスは、回復したコンテンツを理解し、よりリアルなビジュアル結果を生成するピクセルエンハンサーを支援する。 蒸留されたグローバルセマンティクスは各フレームのシーン情報を具現化し、インスタンス固有のセマンティクスは各インスタンスに関連する時空間コンテキストを組み立てる。 さらに,GPS(Global Perspective Shifter)とISEE(Instance-Specific Semantic Embedding Encoder)で構成される,ピクセルレベルの特徴を意味知識でブリッジするためのセマンティックス・パワード・アテンション・クロスエンベディング(SPACE)ブロックを考案した。 具体的には,グローバルセマンティクスに基づく画素レベルの特徴変調のためのアフィン変換パラメータのペアを生成する。 その後、ISEEモジュールはアテンションメカニズムを利用して、隣接するフレームをインスタンス中心のセマンティック空間に整列させる。 さらに,モデルトレーニングの難しさを軽減するために,単純かつ効果的な事前調整モジュールを組み込んだ。 広範な実験により、既存のvsrメソッドよりも優れたモデルが示されました。

As a critical clue of video super-resolution (VSR), inter-frame alignment significantly impacts overall performance. However, accurate pixel-level alignment is a challenging task due to the intricate motion interweaving in the video. In response to this issue, we introduce a novel paradigm for VSR named Semantic Lens, predicated on semantic priors drawn from degraded videos. Specifically, video is modeled as instances, events, and scenes via a Semantic Extractor. Those semantics assist the Pixel Enhancer in understanding the recovered contents and generating more realistic visual results. The distilled global semantics embody the scene information of each frame, while the instance-specific semantics assemble the spatial-temporal contexts related to each instance. Furthermore, we devise a Semantics-Powered Attention Cross-Embedding (SPACE) block to bridge the pixel-level features with semantic knowledge, composed of a Global Perspective Shifter (GPS) and an Instance-Specific Semantic Embedding Encoder (ISEE). Concretely, the GPS module generates pairs of affine transformation parameters for pixel-level feature modulation conditioned on global semantics. After that, the ISEE module harnesses the attention mechanism to align the adjacent frames in the instance-centric semantic space. In addition, we incorporate a simple yet effective pre-alignment module to alleviate the difficulty of model training. Extensive experiments demonstrate the superiority of our model over existing state-of-the-art VSR methods.
翻訳日:2023-12-20 21:53:21 公開日:2023-12-18
# 表表現学習のための多項式に基づく自己認識

Polynomial-based Self-Attention for Table Representation learning ( http://arxiv.org/abs/2312.07753v2 )

ライセンス: Link先を確認
Jayoung Kim, Yehjin Shin, Jeongwhan Choi, Hyowon Wi, Noseong Park(参考訳) 既存のデータ型の大部分を構成する構造化データは、機械学習の分野で長年研究されてきたトピックである。 エンコーダ・デコーダ構造からトランスフォーマーまで,様々な表型データ表現学習手法が提案されている。 これらのうち、Transformerベースの手法は、表データだけでなく、コンピュータビジョンや自然言語処理など、様々な分野で最先端のパフォーマンスを実現している。 しかし、最近の研究では、トランスフォーマーのキーコンポーネントである自己注意が過度な問題を引き起こす可能性があることが明らかになっている。 表型データ用トランスフォーマーもこの問題に直面することを示し、この問題に対処するため、モデルのスケーラビリティを高めるために、元の自己アテンション層に代わる新しい行列多項式ベースの自己アテンション層を提案する。 提案層を具備した3つの表学習モデルを用いて実験を行った結果,提案層はオーバースムーシング問題を効果的に軽減し,既存手法の表現性能を向上し,最先端の表表現法を上回った。

Structured data, which constitutes a significant portion of existing data types, has been a long-standing research topic in the field of machine learning. Various representation learning methods for tabular data have been proposed, ranging from encoder-decoder structures to Transformers. Among these, Transformer-based methods have achieved state-of-the-art performance not only in tabular data but also in various other fields, including computer vision and natural language processing. However, recent studies have revealed that self-attention, a key component of Transformers, can lead to an oversmoothing issue. We show that Transformers for tabular data also face this problem, and to address the problem, we propose a novel matrix polynomial-based self-attention layer as a substitute for the original self-attention layer, which enhances model scalability. In our experiments with three representative table learning models equipped with our proposed layer, we illustrate that the layer effectively mitigates the oversmoothing problem and enhances the representation performance of the existing methods, outperforming the state-of-the-art table representation methods.
翻訳日:2023-12-20 21:52:54 公開日:2023-12-18
# SAMにおけるRelax画像特異的プロンプト要件:カモフラージュオブジェクトの分割のための単一のジェネリックプロンプト

Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects ( http://arxiv.org/abs/2312.07374v3 )

ライセンス: Link先を確認
Jian Hu, Jiayi Lin, Weitong Cai, Shaogang Gong(参考訳) camouflaged object detection (cod)アプローチはピクセルレベルの注釈付きデータセットに大きく依存している。 弱教師付きCOD (WSCOD) アプローチでは、スクリブルやポイントのようなスパースアノテーションを使用してアノテーションの労力を削減するが、精度が低下する可能性がある。 Segment Anything Model (SAM)は、ポイントのようなスパースプロンプトで顕著なセグメンテーション能力を示す。 しかし、手動プロンプトは現実世界のアプリケーションではアクセスできない可能性があるため、必ずしも実現可能であるとは限らない。 さらに、セマンティックな情報の代わりにローカライズ情報のみを提供するので、ターゲットを解釈する際の曖昧さを本質的に引き起こすことができる。 この作業では,手作業によるプロンプトの不要化を目標としている。 鍵となる考え方は、一般的なテキストプロンプトによって与えられる意味情報を用いて視覚的なプロンプトを推論するために、CCTP(Cross-modal Chains of Thought Prompting)を採用することである。 そこで我々は,ジェネリザブルSAM(GenSAM)と呼ばれるテスト時適応機構を導入し,視覚的プロンプトを最適化し,WSCODの汎用タスクプロンプトを最適化する。 特に、CCTPは視覚言語モデルを用いて画像固有のコンセンサスフォアグラウンドと背景ヒートマップに単一のジェネリックテキストプロンプトをマッピングし、信頼できる視覚的プロンプトを取得する。 さらに,視覚プロンプトをテスト時間に適応させるために,入力画像の繰り返し重み付けを行うプログレッシブマスク生成(pmg)を提案する。 重要なのは、すべてのネットワークパラメータが修正され、追加のトレーニングが不要になることだ。 GenSAMの優位性を示す実験。 3つのベンチマークによる実験は、gensamがポイント監督アプローチよりも優れており、プロンプトとして一般的なタスク記述のみに依存する、スクリブル監督アプローチと同等の結果を達成していることを示している。 私たちのコードは以下のとおりです。

Camouflaged object detection (COD) approaches heavily rely on pixel-level annotated datasets. Weakly-supervised COD (WSCOD) approaches use sparse annotations like scribbles or points to reduce annotation effort, but this can lead to decreased accuracy. The Segment Anything Model (SAM) shows remarkable segmentation ability with sparse prompts like points. However, manual prompt is not always feasible, as it may not be accessible in real-world application. Additionally, it only provides localization information instead of semantic one, which can intrinsically cause ambiguity in interpreting the targets. In this work, we aim to eliminate the need for manual prompt. The key idea is to employ Cross-modal Chains of Thought Prompting (CCTP) to reason visual prompts using the semantic information given by a generic text prompt. To that end, we introduce a test-time adaptation per-instance mechanism called Generalizable SAM (GenSAM) to automatically enerate and optimize visual prompts the generic task prompt for WSCOD. In particular, CCTP maps a single generic text prompt onto image-specific consensus foreground and background heatmaps using vision-language models, acquiring reliable visual prompts. Moreover, to test-time adapt the visual prompts, we further propose Progressive Mask Generation (PMG) to iteratively reweight the input image, guiding the model to focus on the targets in a coarse-to-fine manner. Crucially, all network parameters are fixed, avoiding the need for additional training. Experiments demonstrate the superiority of GenSAM. Experiments on three benchmarks demonstrate that GenSAM outperforms point supervision approaches and achieves comparable results to scribble supervision ones, solely relying on general task descriptions as prompts. our codes is in: https://lwpyh.github.io/GenSAM/.
翻訳日:2023-12-20 21:52:37 公開日:2023-12-18
# 容量のない施設位置問題に対する変分量子アルゴリズム

A variational quantum algorithm for the uncapacitated facility location problem ( http://arxiv.org/abs/2312.06922v2 )

ライセンス: Link先を確認
Sha-Sha Wang, Hai-Ling Liu, Fei Gao, Su-Juan Qin, and Qiao-Yan Wen(参考訳) 非容量施設配置問題(Uncapacitated Facility Location Problem, UFLP)は、多くの分野において幅広いアプリケーションにおいて重要なNPハード問題であり、非制約変数による制約付き最適化問題に変換することができる。 量子交換演算子アンサッツ(Quantum Alternating Operator Ansatz、QAOA+)は、UVPを解くために使用できるハイブリッド量子古典アルゴリズムの一種である。 しかし,QAOA+ の成功確率は UVP に適用されるエンタングルメントゲートの欠如により低下する可能性がある。 本稿では、UFLPを例として、UVPに適した保存可能な空間可変量子アルゴリズム(PFS-VQA)を設計した。 QAOA+の混合作用素は実現可能な部分空間を保持し、ハードウェア効率アンサッツ(HEA)は回路深さを減少させるため、PFS-VQAは制約変数上の混合演算子と非制約変数上のHEAの両方の利点を組み合わせる。 HEAのより多くのCNOTゲートとパラメータを導入することで、PSS-VQAは十分な量子状態を横断し、成功確率を向上させることができる。 さらに、PFS-VQAの混合演算子とHEAがそれぞれ異なる量子ビットに作用するため、並列化を実現でき、回路深さが小さくなる。 最後に、PFS-VQAは回路深さを減少させ、成功確率を高め、QAOA+、量子近似最適化アルゴリズム(QAOA)、HEAよりも高速に収束することを示した。 提案するアルゴリズムは、より効率的なansatzが利用可能であればheaを置き換えることができるため、柔軟である。 さらに,本アルゴリズムは,そのような UVP を解くための一般的な手法である。

The Uncapacitated Facility Location Problem (UFLP) is an important NP-hard problem with wide applications in many fields, which can be transformed into a constrained optimization problem with unconstrained variables, and we call such problem as Unconstrained-Variables Problem (UVP). The Quantum Alternating Operator Ansatz (QAOA+) is a kind of hybrid quantum-classical algorithm, which can be used to solve the UVP. However, we find that the success probability of QAOA+ may be decreased by the lack of entanglement gates as applied to UVP. In this paper, taking the UFLP as an example, the Preserving Feasible Space-Variational Quantum Algorithm (PFS-VQA) suitable for the UVP was designed. As the mixed operators in QAOA+ preserve the feasible subspace and Hardware-Efficient Ansatz (HEA) reduces the circuit depth, PFS-VQA combines the advantages of both by performing mixed operators on constrained variables and HEA on unconstrained variables. By introducing more CNOT gates and parameters of HEA, PFS-VQA can traverse enough quantum states, thereby improving the success probability. Moreover, since the mixed operators and HEA of PFS-VQA act on different qubits respectively, parallelization can be realized, leading to a lower circuit depth. Finally, the numerical results demonstrate that PFS-VQA decreases the circuit depth, enhances the success probability, and converges faster compared to QAOA+, Quantum Approximation Optimization Algorithm (QAOA), and HEA. The proposed algorithm is flexible as HEA can be replaced if a more efficient ansatz is available. Moreover, our algorithm is general and instructive for solving such UVPs.
翻訳日:2023-12-20 21:51:13 公開日:2023-12-18
# 学習可能な長さ制御戦略を用いた教師なし抽出要約

Unsupervised Extractive Summarization with Learnable Length Control Strategies ( http://arxiv.org/abs/2312.06901v2 )

ライセンス: Link先を確認
Renlong Jie, Xiaojun Meng, Xin Jiang, Qun Liu(参考訳) 教師なし抽出要約は情報抽出と検索において重要な手法である。 教師付き手法と比較して、トレーニングに質の高い人間ラベルのサマリーを必要としないため、異なるタイプ、ドメイン、言語を持つ文書に容易に適用できる。 textrankやpacsumなど既存の教師なしの手法のほとんどは、文中心性に基づくグラフベースのランキングに依存している。 しかし、このスコアラはエンドツーエンドのトレーニングでは直接適用できず、良い要約を得るためには位置関係の事前仮定がしばしば必要となる。 さらに、ユーザーが特定の長さ制約の下でテキストを要約することを決定できる長さ制御可能な抽出器にはあまり注意が払わない。 本稿では,シムズネットワークに基づく教師なし抽出要約モデルを紹介し,選択した要約と原文書間の訓練可能な双方向予測目標を開発する。 集中性に基づくランキング手法と異なり, 抽出スコアは, 位置推定を必要とせず, エンドツーエンドでトレーニングすることができる。 さらに,0-1knapsackソルバを終端から終端までの長さ制御可能な抽出に近似することにより,可変長制御モジュールを導入する。 実験の結果, 教師なし手法は, 同じ文エンコーダを用いて, 集中度に基づくベースラインよりも優れていた。 トレーニング可能なknapsackモジュールによる長さ制御能力では、エンドツーエンドのトレーニングを使わずに、パフォーマンスが一貫して強力なベースラインを上回っます。 人的評価はさらに,本手法がベースライン間において,関連性と一貫性の観点から最良であることを示す。

Unsupervised extractive summarization is an important technique in information extraction and retrieval. Compared with supervised method, it does not require high-quality human-labelled summaries for training and thus can be easily applied for documents with different types, domains or languages. Most of existing unsupervised methods including TextRank and PACSUM rely on graph-based ranking on sentence centrality. However, this scorer can not be directly applied in end-to-end training, and the positional-related prior assumption is often needed for achieving good summaries. In addition, less attention is paid to length-controllable extractor, where users can decide to summarize texts under particular length constraint. This paper introduces an unsupervised extractive summarization model based on a siamese network, for which we develop a trainable bidirectional prediction objective between the selected summary and the original document. Different from the centrality-based ranking methods, our extractive scorer can be trained in an end-to-end manner, with no other requirement of positional assumption. In addition, we introduce a differentiable length control module by approximating 0-1 knapsack solver for end-to-end length-controllable extracting. Experiments show that our unsupervised method largely outperforms the centrality-based baseline using a same sentence encoder. In terms of length control ability, via our trainable knapsack module, the performance consistently outperforms the strong baseline without utilizing end-to-end training. Human evaluation further evidences that our method performs the best among baselines in terms of relevance and consistency.
翻訳日:2023-12-20 21:50:37 公開日:2023-12-18
# 潜在ノードと構造騒音下におけるネットワーク力学系の因果構造学習

Learning the Causal Structure of Networked Dynamical Systems under Latent Nodes and Structured Noise ( http://arxiv.org/abs/2312.05974v2 )

ライセンス: Link先を確認
Augusto Santos, Diogo Rente, Rui Seabra and Jos\'e M. F. Moura(参考訳) 本稿では,線形ネットワーク型力学系(NDS)の隠れ因果ネットワークを,そのノードの一部の時系列データから学習する。 NDSのダイナミクスは、一対のノード間で急激な関連を生み出す色付きノイズによって駆動され、問題をはるかに難しくする。 ノイズ相関と部分可観測性の課題に対処するため,観測ノードの時系列データから計算した特徴ベクトルを各ノードに割り当てる。 特徴の集合を一貫して分割するアフィン超平面が存在し、接続されたノードのペアに対応する特徴ベクトルと非連結なペアに対応するものとを分離する。 従って因果推論問題は、設計された特徴をクラスタリングすることで解決される。 単純なベースライン教師付き手法を用いて,実世界ネットワークを含む広帯域接続環境と雑音相関レベル下での因果推論機構の競合性能を実証する。 さらに,線形NDSにおける構造整合性の新たな技術的保証を考察した。

This paper considers learning the hidden causal network of a linear networked dynamical system (NDS) from the time series data at some of its nodes -- partial observability. The dynamics of the NDS are driven by colored noise that generates spurious associations across pairs of nodes, rendering the problem much harder. To address the challenge of noise correlation and partial observability, we assign to each pair of nodes a feature vector computed from the time series data of observed nodes. The feature embedding is engineered to yield structural consistency: there exists an affine hyperplane that consistently partitions the set of features, separating the feature vectors corresponding to connected pairs of nodes from those corresponding to disconnected pairs. The causal inference problem is thus addressed via clustering the designed features. We demonstrate with simple baseline supervised methods the competitive performance of the proposed causal inference mechanism under broad connectivity regimes and noise correlation levels, including a real world network. Further, we devise novel technical guarantees of structural consistency for linear NDS under the considered regime.
翻訳日:2023-12-20 21:49:37 公開日:2023-12-18
# コードリポジトリのためのコンテキスト対応コード生成フレームワーク:ローカル、グローバル、サードパーティライブラリの認識

Context-Aware Code Generation Framework for Code Repositories: Local, Global, and Third-Party Library Awareness ( http://arxiv.org/abs/2312.05772v2 )

ライセンス: Link先を確認
Dianshu Liao, Shidong Pan, Qing Huang, Xiaoxue Ren, Zhenchang Xing, Huan Jin, Qinying Li(参考訳) コード生成ツールは、ソフトウェア開発プロセスの開発者を助けるために不可欠です。 既存のツールはしばしば作業コンテキスト、すなわちコードリポジトリと切り離され、生成されたコードは人間の開発者と似ていない。 本稿では,コードリポジトリ内の情報を利用して,論理エラーやコードの冗長性,ライブラリ関連の互換性問題などの少ないコードを生成するための,新しいコード生成フレームワークである \textbf{$a^3$}-codgenを提案する。 本稿では,現在のコードファイルからのローカル認識情報,他のコードファイルからのグローバル認識情報,サードパーティライブラリ情報の3つのカテゴリを識別する。 結果は、 \textbf{$a^3$}-codgenフレームワークを採用することで、コードのリポジトリ情報をllmに抽出、融合、フィードし、より正確で効率的で再利用可能なコードを生成することに成功した。 我々のフレームワークの有効性は、人間の開発者に比べて高い再利用率のコードを生成することでさらに強調されている。 この研究はコード生成の分野に大きく貢献し、開発者が実際にソフトウェア開発の進化する要求に対処するためのより強力なツールを提供する。

Code generation tools are essential to help developers in the software development process. Existing tools often disconnect with the working context, i.e., the code repository, causing the generated code to be not similar to human developers. In this paper, we propose a novel code generation framework, dubbed \textbf{$A^3$}-CodGen, to harness information within the code repository to generate code with fewer logical errors, code redundancy, and library-related compatibility issues. We identify three categories of representative information for the code repository: local-aware information from current code file, global-aware information from other code files, and third-party-library information. Results demonstrate that by adopting the \textbf{$A^3$}-CodGen framework, we successfully extract, fuse, and feed code repository information into the LLM, generating more accurate, efficient, and highly reusable code. The effectiveness of our framework is further underscored by generating code with a higher reuse rate, compared to human developers. This research contributes significantly to the field of code generation, providing developers with a more powerful tool to address the evolving demands in software development in practice.
翻訳日:2023-12-20 21:49:21 公開日:2023-12-18
# 慣性境界はきつくない

The inertia bound is far from tight ( http://arxiv.org/abs/2312.04925v2 )

ライセンス: Link先を確認
Matthew Kwan and Yuval Wigderson(参考訳) inertia bound と ratio bound(cvetkovi\'c bound および hoffman bound とも呼ばれる)は、スペクトルグラフ理論における2つの基本的な不等式であり、重み付き隣接行列に関するスペクトル情報に関して、グラフの独立数 $\alpha(g)$ の上限を与える。 2つの不等式に対して、グラフ $g$ が与えられると、できるだけ強い束縛を得るためには重み付き隣接行列を公平に選択する必要がある。 比境界を取り巻くよく確立された理論があるが、慣性境界はずっと神秘的であり、その限界はかなり不明瞭である。 実際、最近になってシュノビッチは、慣性束縛が(任意の重み付き隣接行列に対して)タイトでないグラフの最初の例を見つけ、ゴドシルの長年の疑問に答えた。 例えば、我々の結果の1つは、無限に多くの$n$に対して、非重み付き比縛でさえ$\alpha(G)\leq 4n^{3/4}$を証明できる$n$-vertex graphが存在するが、慣性境界は常に$n/4$である。 特に、これらの結果はrooney、stovic、wocjan--elphick-abiadの疑問に答えている。

The inertia bound and ratio bound (also known as the Cvetkovi\'c bound and Hoffman bound) are two fundamental inequalities in spectral graph theory, giving upper bounds on the independence number $\alpha(G)$ of a graph $G$ in terms of spectral information about a weighted adjacency matrix of $G$. For both inequalities, given a graph $G$, one needs to make a judicious choice of weighted adjacency matrix to obtain as strong a bound as possible. While there is a well-established theory surrounding the ratio bound, the inertia bound is much more mysterious, and its limits are rather unclear. In fact, only recently did Sinkovic find the first example of a graph for which the inertia bound is not tight (for any weighted adjacency matrix), answering a longstanding question of Godsil. We show that the inertia bound can be extremely far from tight, and in fact can significantly underperform the ratio bound: for example, one of our results is that for infinitely many $n$, there is an $n$-vertex graph for which even the unweighted ratio bound can prove $\alpha(G)\leq 4n^{3/4}$, but the inertia bound is always at least $n/4$. In particular, these results address questions of Rooney, Sinkovic, and Wocjan--Elphick--Abiad.
翻訳日:2023-12-20 21:48:01 公開日:2023-12-18
# MagicScroll:多層セマンティック認識によるビジュアルストーリーテリングのための非定型アスペクト比画像生成

MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual Storytelling via Multi-Layered Semantic-Aware Denoising ( http://arxiv.org/abs/2312.10899v1 )

ライセンス: Link先を確認
Bingyuan Wang, Hengyu Meng, Zeyu Cai, Lanjiong Li, Yue Ma, Qifeng Chen, Zeyu Wang(参考訳) ビジュアルなストーリーテリングは、スクロール絵画、コミックストリップ、パノラマのような非典型的なアスペクト比のイメージを使って表現的で魅力的な物語を作成する。 生成AIは大きな成功を収め、クリエイティブ産業を再形成する可能性を示しているが、任意のサイズとコントロール可能なスタイル、コンセプト、レイアウトを備えた一貫性とエンゲージメントのあるコンテンツを生成することは、視覚的なストーリーテリングに不可欠な課題である。 繰り返しコンテンツやスタイルの不整合,制御性の欠如など,従来の手法の欠点を克服するために,新しい意味認識記述プロセスを備えた多層・プログレッシブ拡散ベース画像生成フレームワークMagicScrollを提案する。 このモデルは、オブジェクト、シーン、背景レベルの生成された画像をテキスト、画像、レイアウト条件できめ細かい制御を可能にする。 また,絵,漫画,映画パノラマなどを含むビジュアルストーリーテリングのための非定型的なアスペクト比画像生成のための最初のベンチマークを,体系的評価のためにカスタマイズしたメトリクスで確立した。 比較とアブレーションの研究を通じて、MagicScrollは物語のテキストと整合し、視覚的コヒーレンスを改善し、観客を惹きつけるという有望な結果を示した。 私たちは、ビジュアルストーリーテリングに関わるai研究者と創造的な実践者とのコラボレーションを改善するために、コードとベンチマークをリリースする予定です。

Visual storytelling often uses nontypical aspect-ratio images like scroll paintings, comic strips, and panoramas to create an expressive and compelling narrative. While generative AI has achieved great success and shown the potential to reshape the creative industry, it remains a challenge to generate coherent and engaging content with arbitrary size and controllable style, concept, and layout, all of which are essential for visual storytelling. To overcome the shortcomings of previous methods including repetitive content, style inconsistency, and lack of controllability, we propose MagicScroll, a multi-layered, progressive diffusion-based image generation framework with a novel semantic-aware denoising process. The model enables fine-grained control over the generated image on object, scene, and background levels with text, image, and layout conditions. We also establish the first benchmark for nontypical aspect-ratio image generation for visual storytelling including mediums like paintings, comics, and cinematic panoramas, with customized metrics for systematic evaluation. Through comparative and ablation studies, MagicScroll showcases promising results in aligning with the narrative text, improving visual coherence, and engaging the audience. We plan to release the code and benchmark in the hope of a better collaboration between AI researchers and creative practitioners involving visual storytelling.
翻訳日:2023-12-20 21:41:30 公開日:2023-12-18
# ループにおける大規模言語モデルを用いた一般化カテゴリー探索

Generalized Category Discovery with Large Language Models in the Loop ( http://arxiv.org/abs/2312.10897v1 )

ライセンス: Link先を確認
Wenbin An, Wenkai Shi, Feng Tian, Haonan Lin, QianYing Wang, Yaqiang Wu, Mingxiang Cai, Luyan Wang, Yan Chen, Haiping Zhu, Ping Chen(参考訳) Generalized Category Discovery (GCD) は、既知のカテゴリと新しいカテゴリの両方をラベルなしデータの集合から認識することを目的とした重要なタスクである。 監視やカテゴリ情報の欠如のため、現在の手法では、通常、新しいカテゴリではパフォーマンスが悪く、検出されたクラスタの意味的な意味を明らかにするのに苦労している。 上記の問題を緩和するために,大規模言語モデル(LLM)をトレーニングループに導入するエンドツーエンドのアクティブラーニングフレームワークであるLoopを提案する。 具体的には,近傍の予測一貫性とクラスタ割り当て確率のエントロピーに基づいて,間違ったクラスタに落下する確率の高いサンプルを選択するための局所的不整合サンプリング(lis)を提案する。 次に,複数の候補から選択したサンプルの真隣をllmが選択できるように,スケーラブルなクエリ戦略を提案する。 LLMからのフィードバックに基づき、我々はRefined Neighborhood Contrastive Learning (RNCL)を実行し、サンプルと隣人を引き抜いてクラスタリングフレンドリーな表現を学ぶ。 最後に,新たなカテゴリに対応するクラスタから代表サンプルを選択し,それらのカテゴリ名を生成する。 3つのベンチマークデータセットの大規模な実験により、LoopはSOTAモデルを大きなマージンで上回り、発見したクラスタの正確なカテゴリ名を生成する。 公開後、コードとデータをリリースします。

Generalized Category Discovery (GCD) is a crucial task that aims to recognize both known and novel categories from a set of unlabeled data by utilizing a few labeled data with only known categories. Due to the lack of supervision and category information, current methods usually perform poorly on novel categories and struggle to reveal semantic meanings of the discovered clusters, which limits their applications in the real world. To mitigate above issues, we propose Loop, an end-to-end active-learning framework that introduces Large Language Models (LLMs) into the training loop, which can boost model performance and generate category names without relying on any human efforts. Specifically, we first propose Local Inconsistent Sampling (LIS) to select samples that have a higher probability of falling to wrong clusters, based on neighborhood prediction consistency and entropy of cluster assignment probabilities. Then we propose a Scalable Query strategy to allow LLMs to choose true neighbors of the selected samples from multiple candidate samples. Based on the feedback from LLMs, we perform Refined Neighborhood Contrastive Learning (RNCL) to pull samples and their neighbors closer to learn clustering-friendly representations. Finally, we select representative samples from clusters corresponding to novel categories to allow LLMs to generate category names for them. Extensive experiments on three benchmark datasets show that Loop outperforms SOTA models by a large margin and generates accurate category names for the discovered clusters. We will release our code and data after publication.
翻訳日:2023-12-20 21:41:05 公開日:2023-12-18
# MAX-CUT問題に対する欲求的建設ヒューリスティックスの詳細

More on greedy construction heuristics for the MAX-CUT problem ( http://arxiv.org/abs/2312.10895v1 )

ライセンス: Link先を確認
Jianan Wang, Chuixiong Wu, Fen Zuo(参考訳) グラフの切断は多くの異なる方法で表現できる。 ここでは、符号付きエッジを持つスパンディングツリーである ``relation tree'' を通して切断を表現することを提案する。 この図は, 最大カット問題に対して, 最小スパンディングツリー問題に類似して, 主欲のヒューリスティックを分類するのに役立つことを示す。 すなわち、Sahni-Gonzalez~(SG)アルゴリズムのすべてのバージョンはPrimクラスに分類されるが、Edge-Contraction~(EC)アルゴリズムはKruskalクラスである。 我々は、このフレームワークと量子コンピューティングにおける安定化形式との関係をさらに解明し、最近提案された \textit{ADAPT-Clifford} アルゴリズムは SG アルゴリズムの洗練されたバージョンである SG3 の再構成であると指摘した。 2つのクラスからの典型的なアルゴリズムの数値的性能を各種グラフを用いて検討した。 その結果、Primクラスアルゴリズムは一般の高密度グラフに対してより良い性能を示し、Kruskalクラスアルゴリズムはグラフが十分にスパースである場合により良い性能を示すことがわかった。

A cut of a graph can be represented in many different ways. Here we propose to represent a cut through a ``relation tree'', which is a spanning tree with signed edges. We show that this picture helps to classify the main greedy heuristics for the maximum cut problem, in analogy with the minimum spanning tree problem. Namely, all versions of the Sahni-Gonzalez~(SG) algorithms could be classified as the Prim class, while various Edge-Contraction~(EC) algorithms are of the Kruskal class. We further elucidate the relation of this framework to the stabilizer formalism in quantum computing, and point out that the recently proposed \textit{ADAPT-Clifford} algorithm is a reformulation of a refined version of the SG algorithm, SG3. Numerical performance of the typical algorithms from the two classes are studied with various kinds of graphs. It turns out that, the Prim-class algorithms perform better for general dense graphs, and the Kruskal-class algorithms performs better when the graphs are sparse enough.
翻訳日:2023-12-20 21:40:40 公開日:2023-12-18
# マルコフ lsa における定常ステップズの有効性と統計的推論

Effectiveness of Constant Stepsize in Markovian LSA and Statistical Inference ( http://arxiv.org/abs/2312.10894v1 )

ライセンス: Link先を確認
Dongyan Huo, Yudong Chen, Qiaomin Xie(参考訳) 本稿では,マルコフデータを用いた線形確率近似 (lsa) アルゴリズムを用いた統計的推論における定ステップ化の有効性について検討する。 CLT(Central Limit Theorem)を確立した後、平均的なLSA反復を用いて信頼区間(CI)を構築する推論手順を概説する。 本手法では, 定数ステップサイズLAAの高速混合特性を利用して共分散推定を行い, 定数ステップサイズとマルコフデータによるバイアスを低減するためにリチャードソン・ロームバーグ外挿法を用いる。 RR外挿における段差選択を導くための理論的結果を開発し、外挿なしでバイアスが確実に消えるいくつかの重要な設定を同定する。 広範な数値実験を行い,古典的推論手法と比較する。 この結果から,データに制限がある場合,一定のステップサイズを使用すれば,容易にハイパーパラメータチューニングや高速収束,CIカバレッジの向上が期待できることがわかった。

In this paper, we study the effectiveness of using a constant stepsize in statistical inference via linear stochastic approximation (LSA) algorithms with Markovian data. After establishing a Central Limit Theorem (CLT), we outline an inference procedure that uses averaged LSA iterates to construct confidence intervals (CIs). Our procedure leverages the fast mixing property of constant-stepsize LSA for better covariance estimation and employs Richardson-Romberg (RR) extrapolation to reduce the bias induced by constant stepsize and Markovian data. We develop theoretical results for guiding stepsize selection in RR extrapolation, and identify several important settings where the bias provably vanishes even without extrapolation. We conduct extensive numerical experiments and compare against classical inference approaches. Our results show that using a constant stepsize enjoys easy hyperparameter tuning, fast convergence, and consistently better CI coverage, especially when data is limited.
翻訳日:2023-12-20 21:40:19 公開日:2023-12-18
# 人工フーリエ変換(AFT)ネットを用いた深層学習型MRI再構成

Deep Learning-based MRI Reconstruction with Artificial Fourier Transform (AFT)-Net ( http://arxiv.org/abs/2312.10892v1 )

ライセンス: Link先を確認
Yanting Yang, Jeffery Siyuan Tian, Matthieu Dagommer, Jia Guo(参考訳) 複雑な数値を持つニューラルネットワークは、複雑な数値演算と表現を活用する強力な方法を提供する。 しかし、前述したネットワークのほとんどは、周波数領域における複雑な値のネットワークの影響に完全にはアクセスしていない。 そこで本研究では,複合値学習と複合値ニューラルネットワークを組み合わせた複合値学習フレームワークであるaft-net(artificial fourier transform network)を導入した。 AFT-Netは、領域変換における画像逆問題、特に加速磁気共鳴画像(MRI)再構成などの用途に容易に利用できる。 従来の手法ではマグニチュード画像のみを受け入れるが、提案手法では周波数領域の生のk空間データを入力とし、k空間領域と画像領域のマッピングをクロスドメイン学習により決定する。 AFT-NetはMRIの高速化に優れており,既存のアプローチに匹敵するものである。 また,mrsリコンストラクションの非正規化や,コントラストの異なるデータセットなど,さまざまなタスクに適用可能である。 ここで提示されたATT-Netは、様々な前臨床研究のための貴重な前処理コンポーネントであり、イメージングと分光における逆問題を解決する革新的な代替手段を提供する。

The deep complex-valued neural network provides a powerful way to leverage complex number operations and representations, which has succeeded in several phase-based applications. However, most previously published networks have not fully accessed the impact of complex-valued networks in the frequency domain. Here, we introduced a unified complex-valued deep learning framework - artificial Fourier transform network (AFT-Net) - which combined domain-manifold learning and complex-valued neural networks. The AFT-Net can be readily used to solve the image inverse problems in domain-transform, especially for accelerated magnetic resonance imaging (MRI) reconstruction and other applications. While conventional methods only accept magnitude images, the proposed method takes raw k-space data in the frequency domain as inputs, allowing a mapping between the k-space domain and the image domain to be determined through cross-domain learning. We show that AFT-Net achieves superior accelerated MRI reconstruction and is comparable to existing approaches. Also, our approach can be applied to different tasks like denoised MRS reconstruction and different datasets with various contrasts. The AFT-Net presented here is a valuable preprocessing component for different preclinical studies and provides an innovative alternative for solving inverse problems in imaging and spectroscopy.
翻訳日:2023-12-20 21:40:00 公開日:2023-12-18
# LatentEditor: 3Dシーンのテキスト駆動ローカル編集

LatentEditor: Text Driven Local Editing of 3D Scenes ( http://arxiv.org/abs/2312.09313v2 )

ライセンス: Link先を確認
Umar Khalid, Hasan Iqbal, Nazmul Karim, Jing Hua, Chen Chen(参考訳) ニューラルネットワークは、画像合成とシーン再構成において大きな進歩を遂げてきたが、それらを編集することは、多視点入力から幾何やテクスチャ情報を暗黙的にエンコードするため、非常に難しい課題となる。 本稿では,テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集をユーザに提供する,革新的なフレームワークである‘textsc{LatentEditor} を紹介する。 拡散モデルを活用することで、現実のシーンを潜在空間に埋め込むことで、従来の方法に比べて高速で適応性の高いNeRFバックボーンが得られる。 編集精度を向上させるため,非関連領域を保存しながら局所修正のためのガイドとして機能する潜伏空間の2次元マスクを計算するデルタスコアを導入する。 InstructPix2Pix (IP2P) のパワーを利用して, 遅延空間におけるIP2P条件と非条件雑音の差を識別する。 2Dマスクに調整された被写体は、トレーニングセットで反復的に更新され、3Dローカル編集が達成される。 提案手法は,既存の3D編集モデルに比べて高速な編集速度と出力品質を実現し,テキスト命令と高品質な3Dシーン編集とのギャップを埋める。 LLFF,IN2N,NeRFStudio,NeRF-Artの4つのベンチマーク3Dデータセットに対するアプローチの優位性を示す。

While neural fields have made significant strides in view synthesis and scene reconstruction, editing them poses a formidable challenge due to their implicit encoding of geometry and texture information from multi-view inputs. In this paper, we introduce \textsc{LatentEditor}, an innovative framework designed to empower users with the ability to perform precise and locally controlled editing of neural fields using text prompts. Leveraging denoising diffusion models, we successfully embed real-world scenes into the latent space, resulting in a faster and more adaptable NeRF backbone for editing compared to traditional methods. To enhance editing precision, we introduce a delta score to calculate the 2D mask in the latent space that serves as a guide for local modifications while preserving irrelevant regions. Our novel pixel-level scoring approach harnesses the power of InstructPix2Pix (IP2P) to discern the disparity between IP2P conditional and unconditional noise predictions in the latent space. The edited latents conditioned on the 2D masks are then iteratively updated in the training set to achieve 3D local editing. Our approach achieves faster editing speeds and superior output quality compared to existing 3D editing models, bridging the gap between textual instructions and high-quality 3D scene editing in latent space. We show the superiority of our approach on four benchmark 3D datasets, LLFF, IN2N, NeRFStudio and NeRF-Art.
翻訳日:2023-12-20 21:38:41 公開日:2023-12-18
# 家畜の給餌行動:反響モニタリングの自動化技術に関するチュートリアルレビュー

Livestock feeding behavior: A tutorial review on automated techniques for ruminant monitoring ( http://arxiv.org/abs/2312.09259v2 )

ライセンス: Link先を確認
Jos\'e Chelotti, Luciano Martinez-Rau, Mariano Ferrero, Leandro Vignolo, Julio Galli, Alejandra Planisich, H. Leonardo Rufiner and Leonardo Giovanini(参考訳) 家畜の飼育行動は、畜産と農業に関わる人々にとって重要な研究分野である。 近年,反響者の行動を監視する自動化システムへの関心が高まっている。 過去10年間に達成された進歩にもかかわらず、家畜の摂食行動を測定する方法や分析方法について学ぶことはまだまだたくさんある。 自動監視システムは、主に動き、音響、画像センサーを使用して動物の行動データを収集する。 既存の手法の性能評価は複雑な作業であり,研究間の直接比較は困難である。 実験で使用されるデータやパフォーマンス指標の多様性から、いくつかの要因が直接比較を妨げている。 本研究は, 放射能の摂食行動の分析に関する最初のチュートリアルスタイルのレビューであり, センシング手法, 信号処理, 計算知能手法の関係を強調した。 主な感知方法(動き、音、画像、映像、圧力に基づく)と、摂食行動に関連する信号を計測し分析する主要な技術を評価し、異なる設定や状況におけるそれらの使用を評価する。 また、家畜の給餌行動の理解を深めるための貴重な情報を提供する自動監視システムの可能性を強調した。 これらのシステムは、生産システムや研究に影響を及ぼすため、ますます重要になっている。 最後に、家畜の給餌行動モニタリングにおける今後の課題と機会について論じる。

Livestock feeding behavior is an influential research area for those involved in animal husbandry and agriculture. In recent years, there has been a growing interest in automated systems for monitoring the behavior of ruminants. Despite the developments accomplished in the last decade, there is still much to do and learn about the methods for measuring and analyzing livestock feeding behavior. Automated monitoring systems mainly use motion, acoustic, and image sensors to collect animal behavioral data. The performance evaluation of existing methods is a complex task and direct comparisons between studies are difficult. Several factors prevent a direct comparison, starting from the diversity of data and performance metrics used in the experiments. To the best of our knowledge, this work represents the first tutorial-style review on the analysis of the feeding behavior of ruminants, emphasizing the relationship between sensing methodologies, signal processing and computational intelligence methods. It assesses the main sensing methodologies (i.e. based on movement, sound, images/videos and pressure) and the main techniques to measure and analyze the signals associated with feeding behavior, evaluating their use in different settings and situations. It also highlights the potentiality of automated monitoring systems to provide valuable information that improves our understanding of livestock feeding behavior. The relevance of these systems is increasingly important due to their impact on production systems and research. Finally, the paper closes by discussing future challenges and opportunities in livestock feeding behavior monitoring.
翻訳日:2023-12-20 21:38:15 公開日:2023-12-18
# マルチタスクニューラルネットワークフレームワークを用いたマルチモーダルMRIデータからのCT画像合成の強化

Enhancing CT Image synthesis from multi-modal MRI data based on a multi-task neural network framework ( http://arxiv.org/abs/2312.08343v2 )

ライセンス: Link先を確認
Zhuoyao Xin, Christopher Wu, Dong Liu, Chunming Gu, Jia Guo, Jun Hua(参考訳) 画像分割, 実値予測, クロスモーダル変換は, 医療画像における重要な課題である。 本研究では,これらの医療画像タスクを同時に,選択的,適応的に処理可能な,拡張型Transformer U-Netアーキテクチャに基づく多目的マルチタスクニューラルネットワークフレームワークを提案する。 検証はヒト脳MRIおよびCT画像の公開リポジトリで行われる。 頭蓋骨分割, ハウンズフィールド単位(HU)値予測, 画像シーケンシャル再構成など, CT画像を個別のサブタスクに分解する従来の課題について述べる。 マルチモーダルデータを扱うフレームワークの汎用性を高めるため、複数のイメージチャネルでモデルを拡張します。 T1強調画像とT2フレア画像の合成CT画像の比較を行い、形態的・画素的両面から多モード情報を統合する能力を評価した。

Image segmentation, real-value prediction, and cross-modal translation are critical challenges in medical imaging. In this study, we propose a versatile multi-task neural network framework, based on an enhanced Transformer U-Net architecture, capable of simultaneously, selectively, and adaptively addressing these medical image tasks. Validation is performed on a public repository of human brain MR and CT images. We decompose the traditional problem of synthesizing CT images into distinct subtasks, which include skull segmentation, Hounsfield unit (HU) value prediction, and image sequential reconstruction. To enhance the framework's versatility in handling multi-modal data, we expand the model with multiple image channels. Comparisons between synthesized CT images derived from T1-weighted and T2-Flair images were conducted, evaluating the model's capability to integrate multi-modal information from both morphological and pixel value perspectives.
翻訳日:2023-12-20 21:36:21 公開日:2023-12-18
# アストロモーフィックトランスフォーマーに深く入り込む

Delving Deeper Into Astromorphic Transformers ( http://arxiv.org/abs/2312.10925v1 )

ライセンス: Link先を確認
Md Zesun Ahmed Mia, Malyaban Bal, Abhronil Sengupta(参考訳) 脳にインスパイアされた神経形コンピューティングにおけるアストロサイト(ヒト脳細胞の50%以上を占める細胞)のクリティカルな役割を組み込むための予備的な試みは、まだ初期段階にある。 本稿では,トランスフォーマーの自己保持機構を模倣するために,ニューロン-シナプス-アストロサイト相互作用の様々な重要な側面を深く掘り下げる。 この研究で探求されたクロスレイヤーの視点は、ニューロン-アストロサイトネットワークにおけるヘビアンおよびシナプス前可塑性のバイオプラスティックなモデリング、非線型性の影響とフィードバック、およびアルゴリズムによる定式化を取り入れて、ニューロン-アストロサイト計算を自己保持機構にマッピングし、機械学習アプリケーション側からバイオリアリスティック効果を取り入れた影響を評価することである。 IMDBおよびCIFAR10データセットの感情・イメージ分類タスクの解析は、精度と学習速度の改善の観点から、アストロモルフィックトランスフォーマーを構築することの重要性を強調している。

Preliminary attempts at incorporating the critical role of astrocytes - cells that constitute more than 50% of human brain cells - in brain-inspired neuromorphic computing remain in infancy. This paper seeks to delve deeper into various key aspects of neuron-synapse-astrocyte interactions to mimic self-attention mechanisms in Transformers. The cross-layer perspective explored in this work involves bio-plausible modeling of Hebbian and pre-synaptic plasticities in neuron-astrocyte networks, incorporating effects of non-linearities and feedback along with algorithmic formulations to map the neuron-astrocyte computations to self-attention mechanism and evaluating the impact of incorporating bio-realistic effects from the machine learning application side. Our analysis on sentiment and image classification tasks on the IMDB and CIFAR10 datasets underscores the importance of constructing Astromorphic Transformers from both accuracy and learning speed improvement perspectives.
翻訳日:2023-12-20 21:31:56 公開日:2023-12-18
# NTrack:Infield Cotton Boll Countingのためのマルチオブジェクトトラッカーとデータセット

NTrack: A Multiple-Object Tracker and Dataset for Infield Cotton Boll Counting ( http://arxiv.org/abs/2312.10922v1 )

ライセンス: Link先を確認
Md Ahmed Al Muzaddid and William J. Beksi(参考訳) 農業では、果物、野菜、繊維の正確な追跡を自動化することが非常に難しい。 この問題は動的場環境において非常に困難になる。 しかし、この情報は、日々の農業の意思決定、育種プログラムの支援などにおいて重要である。 このジレンマに対処するために,隣接するトラックの位置間の線形関係に基づく新しいマルチオブジェクト追跡フレームワークNTrackを導入する。 NTrackは高密度光フローを計算し、粒子フィルタリングを用いて各トラッカーを誘導する。 検出とトラック間の対応は、直接的観測と間接的手がかりを通じてデータアソシエーションを通して見出され、それらを組み合わせて更新された観測を得る。 我々のモジュラー多重物体追跡システムは、基礎となる検出方法とは無関係であり、オフザシェルフ物体検出装置の交換可能な使用を可能にする。 本研究は,内野綿棒の追跡・数え方に対するアプローチの有効性を示す。 実験結果から,同時代の追跡法と綿棒法による計数法を大きく超えることがわかった。 さらに,最初のアノテートされたコットンボールビデオデータセットを研究コミュニティに公開する。

In agriculture, automating the accurate tracking of fruits, vegetables, and fiber is a very tough problem. The issue becomes extremely challenging in dynamic field environments. Yet, this information is critical for making day-to-day agricultural decisions, assisting breeding programs, and much more. To tackle this dilemma, we introduce NTrack, a novel multiple object tracking framework based on the linear relationship between the locations of neighboring tracks. NTrack computes dense optical flow and utilizes particle filtering to guide each tracker. Correspondences between detections and tracks are found through data association via direct observations and indirect cues, which are then combined to obtain an updated observation. Our modular multiple object tracking system is independent of the underlying detection method, thus allowing for the interchangeable use of any off-the-shelf object detector. We show the efficacy of our approach on the task of tracking and counting infield cotton bolls. Experimental results show that our system exceeds contemporary tracking and cotton boll-based counting methods by a large margin. Furthermore, we publicly release the first annotated cotton boll video dataset to the research community.
翻訳日:2023-12-20 21:31:34 公開日:2023-12-18
# AE-NeRF:頭部合成のための音声強調ニューラル放射場

AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head Synthesis ( http://arxiv.org/abs/2312.10921v1 )

ライセンス: Link先を確認
Dongze Li, Kang Zhao, Wei Wang, Bo Peng, Yingya Zhang, Jing Dong and Tieniu Tan(参考訳) 音声駆動の頭部合成は、デジタル人間、映画製作、仮想現実の幅広い応用において有望な話題である。 最近のNeRFベースのアプローチは、以前の研究と比べて品質と忠実性に優れていた。 しかし、数秒の対話ヘッドジェネレーションでは、1つのアイデンティティで数秒のビデオしか利用できない現実的なシナリオとして、2つの制限が現れる。 1) ベースモデルがなく,ファストコンバージェンスに先行する顔として機能するか,あるいは事前構築時の音声の重要性を無視するか。 2) それらの多くは異なる顔領域と音声の相関関係の度合いを見落としている。例えば、口は音声関連であり、耳は音声に依存しない。 本稿では,この課題に対処するためにAE-NeRF(Audio Enhanced Neural Radiance Field)を提案する。 具体的には、参照方式の特徴融合段階にオーディオ認識集約モジュールを導入し、参照画像と対象画像のオーディオの類似性によって重みが決定される。 次に,デュアル・ナーフ・フレームワークを用いて,音声関連領域と音声独立領域をそれぞれモデル化するために,音声対応顔生成戦略を提案する。 AE-NeRFは、限られたトレーニングセットやトレーニングイテレーションであっても、画像の忠実さ、オーディオ-リップ同期、一般化能力に最先端を超越している。

Audio-driven talking head synthesis is a promising topic with wide applications in digital human, film making and virtual reality. Recent NeRF-based approaches have shown superiority in quality and fidelity compared to previous studies. However, when it comes to few-shot talking head generation, a practical scenario where only few seconds of talking video is available for one identity, two limitations emerge: 1) they either have no base model, which serves as a facial prior for fast convergence, or ignore the importance of audio when building the prior; 2) most of them overlook the degree of correlation between different face regions and audio, e.g., mouth is audio related, while ear is audio independent. In this paper, we present Audio Enhanced Neural Radiance Field (AE-NeRF) to tackle the above issues, which can generate realistic portraits of a new speaker with fewshot dataset. Specifically, we introduce an Audio Aware Aggregation module into the feature fusion stage of the reference scheme, where the weight is determined by the similarity of audio between reference and target image. Then, an Audio-Aligned Face Generation strategy is proposed to model the audio related and audio independent regions respectively, with a dual-NeRF framework. Extensive experiments have shown AE-NeRF surpasses the state-of-the-art on image fidelity, audio-lip synchronization, and generalization ability, even in limited training set or training iterations.
翻訳日:2023-12-20 21:31:15 公開日:2023-12-18
# シェールガス製造における領域適応と物理制約伝達学習

Domain adaption and physical constrains transfer learning for shale gas production ( http://arxiv.org/abs/2312.10920v1 )

ライセンス: Link先を確認
Zhaozhong Yang, Liangjie Gou, Chao Min, Duo Yi, Xiaogang Li and Guoquan Wen(参考訳) シェールガス生産の効果的な予測は戦略的貯水池開発に不可欠である。 しかし,新しいシェールガスブロックでは,(1)データ不足による負の伝達の発生,(2)深層学習モデル(dl)モデルの限定解釈可能性の2つの課題に遭遇した。 そこで本研究では,ドメイン適応と物理的制約を利用した新しいトランスファー学習手法を提案する。 この手法は、ソースドメインからの履歴データを効果的に活用し、データ分散の観点からの負の転送を減らすと同時に、様々な種類のデータを統合する堅牢で信頼性の高い予測モデルを構築するために物理的制約を用いる。 この方法論は、プロダクションデータをソースドメインから複数のサブドメインに分割して、データの多様性を高めることから始まります。 次に、最大平均差(mmd)とグローバル平均距離尺度を使用して転送可能性を決定する。 ドメイン適応により、転送可能な知識をすべて統合し、より包括的なターゲットモデルを作ります。 最後に, 掘削, 完成, 地質データを物理制約として組み込むことで, ハイブリッドモデルを構築する。 このモデルは、多層パーセプトロン(MLP)とトランスフォーマー(Transformer-MLP)を組み合わせたもので、解釈可能性の最大化を目的としている。 中国南西部での実験検証の結果、この方法の有効性が確認された。

Effective prediction of shale gas production is crucial for strategic reservoir development. However, in new shale gas blocks, two main challenges are encountered: (1) the occurrence of negative transfer due to insufficient data, and (2) the limited interpretability of deep learning (DL) models. To tackle these problems, we propose a novel transfer learning methodology that utilizes domain adaptation and physical constraints. This methodology effectively employs historical data from the source domain to reduce negative transfer from the data distribution perspective, while also using physical constraints to build a robust and reliable prediction model that integrates various types of data. The methodology starts by dividing the production data from the source domain into multiple subdomains, thereby enhancing data diversity. It then uses Maximum Mean Discrepancy (MMD) and global average distance measures to decide on the feasibility of transfer. Through domain adaptation, we integrate all transferable knowledge, resulting in a more comprehensive target model. Lastly, by incorporating drilling, completion, and geological data as physical constraints, we develop a hybrid model. This model, a combination of a multi-layer perceptron (MLP) and a Transformer (Transformer-MLP), is designed to maximize interpretability. Experimental validation in China's southwestern region confirms the method's effectiveness.
翻訳日:2023-12-20 21:30:49 公開日:2023-12-18
# ロボットのための高次元構成空間の可視化:定量的・質的分析のための包括的アプローチ

Visualizing High-Dimensional Configuration Spaces For Robots: A Comprehensive Approach for Quantitative and Qualitative Analysis ( http://arxiv.org/abs/2312.10918v1 )

ライセンス: Link先を確認
Jorge Ocampo Jimenez and Wael Suleiman(参考訳) 少数のサンプルから構成空間(CS)を再構築することは、ランダムツリーアルゴリズムの運動計画の迅速化に重要な役割を果たす。 従来,CS再建の評価は衝突検査によって行われている。 しかし, 衝突チェッカーを評価指標として用いることは誤解を招く可能性がある。 特に、衝突チェッカーは、元のcsのサブセットのみが再構成された場合でも高い精度を示し、運動プランナーが元のcsに匹敵する経路を見つける能力を制限することができる。 さらに,高次元CSを扱う場合には,3次元以上の作業を行う場合の定性的評価が困難になるため,大きな課題が生じる。 本稿では,マニピュレータロボットの高次元CSを2次元形式で表現するための新しい手法を提案する。 具体的には,マニピュレータロボットのキネマティック・チェーンと,色調に基づく人間の知覚能力を利用する。 これにより、一連の2次元投影からなる可視化を構築することができる。 本研究では,マニピュレータロボットの7自由度CSを2次元投影で表現する手法の有効性を示す。 この表現は、ロボットの関節境界と衝突状態の組み合わせに関する質的な洞察を与える。 定量的な見地から,提案した表現は精度を捉えるだけでなく,追加情報も提供し,通常衝突チェッカーによって提供されるものを超えて,配置段階で2つの異なる高次元CSを比較する能力を高めた。 ソースコードは私たちのリポジトリで公開されています。

The reconstruction of Configuration Space (CS) from a limited number of samples plays a vital role in expediting motion planning for random tree algorithms. Traditionally, the evaluation of CS reconstruction is performed through collision checking. However, employing the collision checker as an evaluation measure can be misleading. In particular, a collision checker may exhibit high accuracy even when only a subset of the original CS is reconstructed, limiting the motion planner's ability to find paths comparable to those in the original CS. Additionally, a significant challenge arises when dealing with high-dimensional CSs, as it becomes increasingly difficult, if not impossible, to perform qualitative evaluations when working in dimensions higher than three. In this paper, we introduce a novel approach for representing high-dimensional CSs of manipulator robots in a 2D format. Specifically, we leverage the kinematic chain of manipulator robots and the human ability to perceive colors based on hue. This allows us to construct a visualization comprising a series of pairs of 2D projections. We showcase the efficacy of our method in representing a 7-degree-of-freedom CS of a manipulator robot in a 2D projection. This representation provides qualitative insights into the joint boundaries of the robot and the collision state combinations. From a quantitative perspective, we show that the proposed representation not only captures accuracy but also furnishes additional information, enhancing our ability to compare two different high-dimensional CSs during the deployment phase, beyond what is usually offered by the collision checker. The source code is publicly available on our repository.
翻訳日:2023-12-20 21:30:26 公開日:2023-12-18
# 制約の異なる構造エントロピーによる半監督クラスタリング

Semi-Supervised Clustering via Structural Entropy with Different Constraints ( http://arxiv.org/abs/2312.10917v1 )

ライセンス: Link先を確認
Guangjie Zeng, Hao Peng, Angsheng Li, Zhiwei Liu, Runze Yang, Chunyang Liu, Lifang He(参考訳) 半教師付きクラスタリング技術は、クラスタリング結果の品質を改善するために制約の形で事前情報を活用するための貴重なツールとして登場した。 このような手法の普及にもかかわらず、様々な種類の制約をシームレスに統合する能力は限られている。 構造的エントロピーは広い範囲のアプリケーションで強力なクラスタリングアプローチであることが証明されているが、これらの制約を適応できる派生型が欠如している。 本研究では,多様なソースから異なるタイプの制約を組み込んで,パーティショニングと階層クラスタリングを両立させる新しい手法であるStructure Entropy (SSE) による半教師付きクラスタリングを提案する。 具体的には、一般的に使用されるペアワイドの統一ビューと、クラスタリングの両タイプのラベル制約を定式化する。 そして,これらの制約を構造エントロピーに組み込んだ目的を設計し,最適化のためのアルゴリズムを開発する。 9つのクラスタリングデータセットのsseを評価し,11の半教師あり分割法と階層クラスタリング法と比較した。 実験の結果,SSEのクラスタリング精度は制約の種類によって異なることがわかった。 さらに,4つの単細胞rnaseqデータセットを用いた細胞クラスタリング実験により,生物データ解析におけるsseの機能を示した。

Semi-supervised clustering techniques have emerged as valuable tools for leveraging prior information in the form of constraints to improve the quality of clustering outcomes. Despite the proliferation of such methods, the ability to seamlessly integrate various types of constraints remains limited. While structural entropy has proven to be a powerful clustering approach with wide-ranging applications, it has lacked a variant capable of accommodating these constraints. In this work, we present Semi-supervised clustering via Structural Entropy (SSE), a novel method that can incorporate different types of constraints from diverse sources to perform both partitioning and hierarchical clustering. Specifically, we formulate a uniform view for the commonly used pairwise and label constraints for both types of clustering. Then, we design objectives that incorporate these constraints into structural entropy and develop tailored algorithms for their optimization. We evaluate SSE on nine clustering datasets and compare it with eleven semi-supervised partitioning and hierarchical clustering methods. Experimental results demonstrate the superiority of SSE on clustering accuracy with different types of constraints. Additionally, the functionality of SSE for biological data analysis is demonstrated by cell clustering experiments conducted on four single-cell RNAseq datasets.
翻訳日:2023-12-20 21:29:54 公開日:2023-12-18
# GINN-LP:多変量ローラン多項式方程式の探索のための成長する解釈可能なニューラルネットワーク

GINN-LP: A Growing Interpretable Neural Network for Discovering Multivariate Laurent Polynomial Equations ( http://arxiv.org/abs/2312.10913v1 )

ライセンス: Link先を確認
Nisal Ranasinghe, Damith Senanayake, Sachith Seneviratne, Malin Premaratne, Saman Halgamuge(参考訳) 従来の機械学習は一般にブラックボックス最適化問題として扱われ、通常、入力と出力を繋ぐ解釈可能な関数を生成しない。 しかし、そのような解釈可能な関数を発見する能力は望ましい。 本研究では,この方程式が多変量ローレント多項式の形をとると仮定された場合,データセットの基底方程式の形式と係数を解釈可能なニューラルネットワークであるGINN-LPを提案する。 これは、対数的および指数的活性化関数からなる「パワーターム近似ブロック」と呼ばれる新しいタイプの解釈可能なニューラルネットワークブロックによって促進される。 GINN-LPはエンドツーエンドの差別化が可能で、トレーニングにバックプロパゲーションを使用することができる。 本研究では,データを表すローラン多項式の適切な項数を見つけることを可能にするニューラルネットワーク成長戦略と,簡潔な方程式の発見を促進するスパーシティ正規化を提案する。 我々の知る限りでは、これは順序に関する事前情報なしで任意の多変量ローラン多項式項を発見できる最初のモデルである。 このアプローチはまず,シンボリック回帰のベンチマークであるsrbenchで使用されるデータのサブセット上で評価する。 GINN-LPは,48個の実世界の方程式を多変量ローレント多項式の形で生成したデータセットに対して,最先端の記号回帰法より優れることを示す。 次に,本手法を高性能な記号回帰法と組み合わせたアンサンブル法を提案し,非ローラン多項式方程式の発見を可能にする。 このアンサンブル法をSRBench内の113個のデータセットに適用し, 既知の接地トラス方程式を用いて, 絶対的な7.1%の精度向上を図った。

Traditional machine learning is generally treated as a black-box optimization problem and does not typically produce interpretable functions that connect inputs and outputs. However, the ability to discover such interpretable functions is desirable. In this work, we propose GINN-LP, an interpretable neural network to discover the form and coefficients of the underlying equation of a dataset, when the equation is assumed to take the form of a multivariate Laurent Polynomial. This is facilitated by a new type of interpretable neural network block, named the "power-term approximator block", consisting of logarithmic and exponential activation functions. GINN-LP is end-to-end differentiable, making it possible to use backpropagation for training. We propose a neural network growth strategy that will enable finding the suitable number of terms in the Laurent polynomial that represents the data, along with sparsity regularization to promote the discovery of concise equations. To the best of our knowledge, this is the first model that can discover arbitrary multivariate Laurent polynomial terms without any prior information on the order. Our approach is first evaluated on a subset of data used in SRBench, a benchmark for symbolic regression. We first show that GINN-LP outperforms the state-of-the-art symbolic regression methods on datasets generated using 48 real-world equations in the form of multivariate Laurent polynomials. Next, we propose an ensemble method that combines our method with a high-performing symbolic regression method, enabling us to discover non-Laurent polynomial equations. We achieve state-of-the-art results in equation discovery, showing an absolute improvement of 7.1% over the best contender, by applying this ensemble method to 113 datasets within SRBench with known ground-truth equations.
翻訳日:2023-12-20 21:29:20 公開日:2023-12-18
# ヒッグスコヒーレンス干渉による非典型的な量子エコーの発見

Discovery of an Unconventional Quantum Echo by Interference of Higgs Coherence ( http://arxiv.org/abs/2312.10912v1 )

ライセンス: Link先を確認
C. Huang, M. Mootz, L. Luo, D. Cheng, J. M. Park, R. H. J. Kim, Y. Qiang, V. L. Quito, Yongxin Yao, P. P. Orth, I. E. Perakis and J. Wang(参考訳) 量子系の非線形性は、位相コヒーレンス、干渉、状態遷移振幅の相互作用によって特徴づけられる。 しかし、過渡的で巨大なヒッグス励起において量子コヒーレンスと干渉がどのように現れるのかという問題は、量子真空と超伝導の両方で広く見られる。 一つは光子エコーで、複数の励起の中で位相コヒーレンスの生成、保存、検索が可能である。 ここでは、超伝導体のヒッグスコヒーレンスから生じる非伝統的な量子エコーを明らかにし、ヒッグス非調和性に起因する特徴を同定する。 超伝導ギャップのテラヘルツパルスペア変調はコヒーレントヒッグス集団の「時間格子」を生成し、原子や半導体の従来のスピンおよびフォトンエコーとは異なるエコー信号を散乱させる。 これらの現象は、平衡粒子-ホール対称性によって禁止される周波数で発生するヒッグスエコースペクトルピーク、"反応性"超伝導状態のダイナミクスからのエコー形成の非対称遅延、ヒッグス-四粒子アンハーモニックカップリングから生じる負の時間信号として現れる。 ヒッグス干渉と非調和性は駆動型超伝導のデコヒーレンスを制御し、量子記憶や絡み合いへの応用を可能にする。

Nonlinearities in quantum systems are fundamentally characterized by the interplay of phase coherences, their interference, and state transition amplitudes. Yet the question of how quantum coherence and interference manifest in transient, massive Higgs excitations, prevalent within both the quantum vacuum and superconductors, remains elusive. One hallmark example is photon echo, enabled by the generation, preservation, and retrieval of phase coherences amid multiple excitations. Here we reveal an unconventional quantum echo arising from the Higgs coherence in superconductors, and identify distinctive signatures attributed to Higgs anharmonicity. A terahertz pulse-pair modulation of the superconducting gap generates a "time grating" of coherent Higgs population, which scatters echo signals distinct from conventional spin- and photon-echoes in atoms and semiconductors. These manifestations appear as Higgs echo spectral peaks occurring at frequencies forbidden by equilibrium particle-hole symmetry, an asymmetric delay in the echo formation from the dynamics of the "reactive" superconducting state, and negative time signals arising from Higgs-quasiparticle anharmonic coupling. The Higgs interference and anharmonicity control the decoherence of driven superconductivity and may enable applications in quantum memory and entanglement.
翻訳日:2023-12-20 21:28:27 公開日:2023-12-18
# 敵対的強固さの長所と短所

The Pros and Cons of Adversarial Robustness ( http://arxiv.org/abs/2312.10911v1 )

ライセンス: Link先を確認
Yacine Izza and Joao Marques-Silva(参考訳) ロバストネスは機械学習(ML)モデルの解析における根本的な問題として広く見なされている。 多くの場合、ロバスト性は、いくつかの入力に対する小さな変化が予測の変化を引き起こす状況を示す敵の例の非存在性を決定することに匹敵する。 MLモデルの堅牢性の重要性は、過去10年の大半で観察された継続的な進歩を説明する。 ロバスト性はしばしば局所的に評価されるが、例えば特徴空間の目標点が与えられた場合、ロバスト性はグローバルに定義することもできる。 MLモデルの堅牢性の重要性は、例えば、堅牢性ツールの進歩を評価する競争の存在、ニューラルネットワーク(NN)の場合、あるいは堅牢性認証への取り組みによって説明される。 最近では、MLモデルの厳密な説明の計算にもロバストネスツールが使用されている。 この論文は、ロバスト性が観察された成功とは対照的に、グローバルとローカルの両方において、既存のロバスト性の定義にはいくつかの制限があるが、ロバスト性認定への取り組みについても明らかにしている。 本稿は,ロバスト性に関連するものに加えて,逆行例の利用についても検討する。

Robustness is widely regarded as a fundamental problem in the analysis of machine learning (ML) models. Most often robustness equates with deciding the non-existence of adversarial examples, where adversarial examples denote situations where small changes on some inputs cause a change in the prediction. The perceived importance of ML model robustness explains the continued progress observed for most of the last decade. Whereas robustness is often assessed locally, i.e. given some target point in feature space, robustness can also be defined globally, i.e. where any point in feature space can be considered. The importance of ML model robustness is illustrated for example by the existence of competitions evaluating the progress of robustness tools, namely in the case of neural networks (NNs) but also by efforts towards robustness certification. More recently, robustness tools have also been used for computing rigorous explanations of ML models. In contrast with the observed successes of robustness, this paper uncovers some limitations with existing definitions of robustness, both global and local, but also with efforts towards robustness certification. The paper also investigates uses of adversarial examples besides those related with robustness.
翻訳日:2023-12-20 21:27:20 公開日:2023-12-18
# CLOVA:ツール使用とアップデートを備えたクローズドループビジュアルアシスタント

CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update ( http://arxiv.org/abs/2312.10908v1 )

ライセンス: Link先を確認
Zhi Gao, Yuntao Du, Xintong Zhang, Xiaojian Ma, Wenjuan Han, Song-Chun Zhu, Qing Li(参考訳) 大型言語モデル(LLM)を活用して市販のツール(例えば、ビジュアルモデルや画像処理機能)を統合することは、多様な視覚的タスクを解決する強力なビジュアルアシスタントを構築するための有望な研究方向である。 しかし、デプロイ後に使用するツールを凍結し、特定の知識を必要とする新しい環境への一般化を制限するため、既存の方法では学習能力が探求されることは滅多にない。 本稿では,この制限に対処するクローズドループビジュアルアシスタントであるCLOVAを提案し,クローズドループフレームワークにおける推論,リフレクション,学習の各フェーズを包含する。 推論中、LLMはプログラムを生成し、与えられたタスクを達成するための対応するツールを実行する。 リフレクションフェーズでは、環境フィードバックに基づいてどのツールを更新する必要があるかを分析するために、マルチモーダルグローバルローカルリフレクションスキームが導入されている。 最後に、学習フェーズは3つのフレキシブルな方法でトレーニングデータをリアルタイムで収集し、ツールを更新するための新しいプロンプトチューニングスキームを導入し、CLOVAが人間の関与なしに新しい環境に関する特定の知識を効率的に学習できるようにする。 実験の結果,CLOVAは視覚的質問応答や複数画像推論タスクで5%,知識タグ付けタスクで10%,画像編集タスクで20%,一般的な視覚アシスタントにおける学習能力の意義を強調してツール利用方法よりも優れていた。

Leveraging large language models (LLMs) to integrate off-the-shelf tools (e.g., visual models and image processing functions) is a promising research direction to build powerful visual assistants for solving diverse visual tasks. However, the learning capability is rarely explored in existing methods, as they freeze the used tools after deployment, thereby limiting the generalization to new environments requiring specific knowledge. In this paper, we propose CLOVA, a Closed-LOop Visual Assistant to address this limitation, which encompasses inference, reflection, and learning phases in a closed-loop framework. During inference, LLMs generate programs and execute corresponding tools to accomplish given tasks. The reflection phase introduces a multimodal global-local reflection scheme to analyze whether and which tool needs to be updated based on environmental feedback. Lastly, the learning phase uses three flexible manners to collect training data in real-time and introduces a novel prompt tuning scheme to update the tools, enabling CLOVA to efficiently learn specific knowledge for new environments without human involvement. Experiments show that CLOVA outperforms tool-usage methods by 5% in visual question answering and multiple-image reasoning tasks, by 10% in knowledge tagging tasks, and by 20% in image editing tasks, highlighting the significance of the learning capability for general visual assistants.
翻訳日:2023-12-20 21:26:30 公開日:2023-12-18
# 衛星キャプション:ラベリングを強化するための大型言語モデル

Satellite Captioning: Large Language Models to Augment Labeling ( http://arxiv.org/abs/2312.10905v1 )

ライセンス: Link先を確認
Grant Rosario, David Noever(参考訳) 現代のオブジェクト検出ネットワークとそれらを訓練するデータセットの能力が増大するにつれて、より簡単で、最も重要なことに、さまざまなオブジェクトを検知するモデルを使いこなすのに手間がかからなくなりました。 しかし、オブジェクト検出のためのイメージデータセットは成長し、増加を続けている(現在の最も広範なパブリックセットであるImageNetは、1400万以上のインスタンスを持つ1400万以上のイメージを含んでいる)が、テキストのキャプションデータセットでは、同じことが言えない。 彼らは近年確実に成長しているが、字幕データセットは、言語の違い、文法、そして人間が生成するのに要する時間などにより、はるかに難しい課題を示している。 現在のデータセットは確かに多くのインスタンスを扱えるが、キャプタがより限定的な語彙を持つ場合や、言語に十分に習熟していない場合、あるいは単純な文法ミスがある場合、問題となる。 これらの困難は、リモートセンシング画像など、画像がより具体的になると増加する。 本稿では,キャプションデータセットにおける潜在的な情報とコミュニケーションの欠点の問題に対処することを目的とする。 より正確な解析を行うため、RSICDデータセット内のリモートセンシング画像である画像の領域を指定し、ここで提供されるキャプションを実験する。 以上の結果から,chatgpt文法の修正は,データキャプションをより多様で文法的に正確にすることでキャプションモデルの精度を高めるための簡便かつ効果的な方法であることが示唆された。

With the growing capabilities of modern object detection networks and datasets to train them, it has gotten more straightforward and, importantly, less laborious to get up and running with a model that is quite adept at detecting any number of various objects. However, while image datasets for object detection have grown and continue to proliferate (the current most extensive public set, ImageNet, contains over 14m images with over 14m instances), the same cannot be said for textual caption datasets. While they have certainly been growing in recent years, caption datasets present a much more difficult challenge due to language differences, grammar, and the time it takes for humans to generate them. Current datasets have certainly provided many instances to work with, but it becomes problematic when a captioner may have a more limited vocabulary, one may not be adequately fluent in the language, or there are simple grammatical mistakes. These difficulties are increased when the images get more specific, such as remote sensing images. This paper aims to address this issue of potential information and communication shortcomings in caption datasets. To provide a more precise analysis, we specify our domain of images to be remote sensing images in the RSICD dataset and experiment with the captions provided here. Our findings indicate that ChatGPT grammar correction is a simple and effective way to increase the performance accuracy of caption models by making data captions more diverse and grammatically correct.
翻訳日:2023-12-20 21:26:04 公開日:2023-12-18
# 人工知能(DRAGON-AI)を用いた動的検索オントロジー生成

Dynamic Retrieval Augmented Generation of Ontologies using Artificial Intelligence (DRAGON-AI) ( http://arxiv.org/abs/2312.10904v1 )

ライセンス: Link先を確認
Sabrina Toro, Anna V Anagnostopoulos, Sue Bello, Kai Blumberg, Rhiannon Cameron, Leigh Carmody, Alexander D Diehl, Damion Dooley, William Duncan, Petra Fey, Pascale Gaudet, Nomi L Harris, Marcin Joachimiak, Leila Kiani, Tiago Lubiana, Monica C Munoz-Torres, Shawn O'Neil, David Osumi-Sutherland, Aleix Puig, Justin P Reese, Leonore Reiser, Sofia Robb, Troy Ruemping, James Seager, Eric Sid, Ray Stefancsik, Magalie Weber, Valerie Wood, Melissa A Haendel, Christopher J Mungall(参考訳) オントロジーは、バイオメディカル、環境、食品科学といった分野における情報基盤の基本的な構成要素であり、正確で計算可能な形でコンセンサス知識を表す。 しかし、その建設と維持にはかなりの資源が必要であり、ドメインの専門家、キュレーター、オントロジーの専門家の協力を必要としている。 本稿では,Large Language Models (LLM) とRetrieval Augmented Generation (RAG) を用いたオントロジー生成手法であるAI (DRAGON-AI) を用いた動的検索用拡張オントロジー生成について述べる。 本手法は,複数オントロジーにおける既存の知識と非構造化テキストソースから,テキストおよび論理オントロジー要素を生成する。 10種類のオントロジでDRAGON-AIを評価し,手作業による評価を行った。 論理に基づく推論の精度は, ほぼ同じでも精度が低い関係生成の精度を示す。 また,人為的な定義に匹敵する定義生成を示す。 特に、専門家の評価者は、AIが生成した定義の微妙な欠陥をよりよく識別することができた。 GitHubイシューの形で自然言語命令を組み込むDRAGON-AIの能力を実証した。 これらの結果から,DRAGON-AIが手動オントロジー構築に有効である可能性が示唆された。 しかし,我々は,専門家キュレーターとオントロジー編集者がオントロジー生成プロセスを推進することの重要性を強調する。

Ontologies are fundamental components of informatics infrastructure in domains such as biomedical, environmental, and food sciences, representing consensus knowledge in an accurate and computable form. However, their construction and maintenance demand substantial resources, necessitating substantial collaborative efforts of domain experts, curators, and ontology experts. We present Dynamic Retrieval Augmented Generation of Ontologies using AI (DRAGON-AI), an ontology generation method employing Large Language Models (LLMs) and Retrieval Augmented Generation (RAG). This method can generate textual and logical ontology components, drawing from existing knowledge in multiple ontologies, as well as unstructured textual sources. We assessed DRAGON-AI across ten diverse ontologies, making use of extensive manual evaluation of results. We demonstrate high precision for relationship generation, close to but lower than precision from logic-based reasoning. We also demonstrate definition generation comparable with but lower than human-generated definitions. Notably, expert evaluators were better able to discern subtle flaws in AI-generated definitions. We also demonstrated the ability of DRAGON-AI to incorporate natural language instructions in the form of GitHub issues. These findings suggest DRAGON-AI's potential to substantially aid the manual ontology construction process. However, our results also underscore the importance of having expert curators and ontology editors drive the ontology generation process.
翻訳日:2023-12-20 21:25:39 公開日:2023-12-18
# グラフ変動拡散ネットワークによるロバストノード表現学習

Robust Node Representation Learning via Graph Variational Diffusion Networks ( http://arxiv.org/abs/2312.10903v1 )

ライセンス: Link先を確認
Jun Zhuang, Mohammad Al Hasan(参考訳) グラフニューラルネットワーク(GNN)を用いたノード表現学習が広く研究されている。 しかし近年,グラフ構造の微妙な乱れによって,GNNに基づくノード表現学習が著しく劣化する可能性が示唆されている。 摂動の存在下で頑健なノード表現を学習するために、GNNを保護するための様々な研究が提案されている。 これらの既存の作品の中で、ベイズラベルの遷移はより効果的であることが証明されているが、この方法は十分に構築された事前分布に依存する。 変分推論はガウス事前分布から潜伏ノードの埋め込みをサンプリングすることでこの制限に対処できる。 さらに、隠れた層におけるガウス分布(ノイズ)を活用することは、GNNの堅牢性を強化するための魅力的な戦略である。 しかし,本実験により,ノード集約時に過剰にスムースな問題を引き起こす可能性が示唆された。 本研究では,gaussian diffusion と node embedded propagation の2つの機構を用いて,グラフの頑健性を確保するためにガウス雑音を効果的に操作する新しいノードエンコーダである graph variational diffusion network (gvdn) を提案する。 これら2つのメカニズムにより、我々のモデルは回復のための堅牢なノード埋め込みを生成することができる。 具体的には,摂動の存在下でのノード分類の性能を回復するために,生成されたノード埋め込みを用いた再訓練機構を設計する。 実験により,提案モデルの有効性を6つの公開データセットで検証した。

Node representation learning by using Graph Neural Networks (GNNs) has been widely explored. However, in recent years, compelling evidence has revealed that GNN-based node representation learning can be substantially deteriorated by delicately-crafted perturbations in a graph structure. To learn robust node representation in the presence of perturbations, various works have been proposed to safeguard GNNs. Within these existing works, Bayesian label transition has been proven to be more effective, but this method is extensively reliant on a well-built prior distribution. The variational inference could address this limitation by sampling the latent node embedding from a Gaussian prior distribution. Besides, leveraging the Gaussian distribution (noise) in hidden layers is an appealing strategy to strengthen the robustness of GNNs. However, our experiments indicate that such a strategy can cause over-smoothing issues during node aggregation. In this work, we propose the Graph Variational Diffusion Network (GVDN), a new node encoder that effectively manipulates Gaussian noise to safeguard robustness on perturbed graphs while alleviating over-smoothing issues through two mechanisms: Gaussian diffusion and node embedding propagation. Thanks to these two mechanisms, our model can generate robust node embeddings for recovery. Specifically, we design a retraining mechanism using the generated node embedding to recover the performance of node classifications in the presence of perturbations. The experiments verify the effectiveness of our proposed model across six public datasets.
翻訳日:2023-12-20 21:25:14 公開日:2023-12-18
# プログラマブル安定化状態を用いた自律安定化

Autonomous stabilization with programmable stabilized state ( http://arxiv.org/abs/2312.10902v1 )

ライセンス: Link先を確認
Ziqian Li, Tanay Roy, Yao Lu, Eliot Kapit, David Schuster(参考訳) 貯留層工学は量子状態を自律的に安定化する強力な技術である。 多体状態を含む伝統的なスキームは、通常離散交絡状態に対して機能する。 本研究では,複数の連続チューニングパラメータを用いて,プログラム可能な安定状態選択を伴う連続的な状態多様体の安定化能力を向上させる。 奇数のベル状態に対する8,4.6\%と82.5\%の安定化忠実度を多様体の2つの特別な点として実験的に達成する。 また、異なる安定化ドライブを順次適用することにより、1.8\mu s$ と $0.9\mu s$ でこれらの対向パリティ状態間の高速消散スイッチを行う。 その結果,新しい貯留層工学に基づく誤差補正手法の前駆体となる。

Reservoir engineering is a powerful technique to autonomously stabilize a quantum state. Traditional schemes involving multi-body states typically function for discrete entangled states. In this work, we enhance the stabilization capability to a continuous manifold of states with programmable stabilized state selection using multiple continuous tuning parameters. We experimentally achieve $84.6\%$ and $82.5\%$ stabilization fidelity for the odd and even-parity Bell states as two special points in the manifold. We also perform fast dissipative switching between these opposite parity states within $1.8\mu s$ and $0.9\mu s$ by sequentially applying different stabilization drives. Our result is a precursor for new reservoir engineering-based error correction schemes.
翻訳日:2023-12-20 21:24:49 公開日:2023-12-18
# RetroOOD:再合成予測における分布外一般化の理解

RetroOOD: Understanding Out-of-Distribution Generalization in Retrosynthesis Prediction ( http://arxiv.org/abs/2312.10900v1 )

ライセンス: Link先を確認
Yemin Yu, Luotian Yuan, Ying Wei, Hanyu Gao, Xinhai Ye, Zhihua Wang, Fei Wu(参考訳) 機械学習が支援するレトロシンセシス予測モデルが広く採用されているが、その性能は、od(out-of-distribution)分子や反応を取り入れた現実世界のアプリケーションでデプロイされた場合、著しく低下することが多い。 標準ベンチマークの着実な進歩にもかかわらず、分布シフトの前提下での既存の再合成予測モデルの理解は停滞している。 そこで我々はまず,回帰合成予測における2種類の分布シフトを正式に分類し,ベンチマークデータセットの2つのグループを構築する。 次に,包括的実験により,2つのベンチマーク群における最先端の逆合成予測モデルを体系的に比較し,過去の分布評価の限界を明らかにし,各モデルの利点を再検討する。 以上の経験的知見から,任意のオフザシェルフ逆合成予測アルゴリズムのOOD一般化を改善する2つのモデルに依存しない手法を提案する。 予備実験では, 平均性能が4.6%向上する可能性を示し, 確立されたベンチマークは, OOD一般化に向けた再合成予測研究の足場となる。

Machine learning-assisted retrosynthesis prediction models have been gaining widespread adoption, though their performances oftentimes degrade significantly when deployed in real-world applications embracing out-of-distribution (OOD) molecules or reactions. Despite steady progress on standard benchmarks, our understanding of existing retrosynthesis prediction models under the premise of distribution shifts remains stagnant. To this end, we first formally sort out two types of distribution shifts in retrosynthesis prediction and construct two groups of benchmark datasets. Next, through comprehensive experiments, we systematically compare state-of-the-art retrosynthesis prediction models on the two groups of benchmarks, revealing the limitations of previous in-distribution evaluation and re-examining the advantages of each model. More remarkably, we are motivated by the above empirical insights to propose two model-agnostic techniques that can improve the OOD generalization of arbitrary off-the-shelf retrosynthesis prediction algorithms. Our preliminary experiments show their high potential with an average performance improvement of 4.6%, and the established benchmarks serve as a foothold for further retrosynthesis prediction research towards OOD generalization.
翻訳日:2023-12-20 21:24:38 公開日:2023-12-18
# エンドツーエンド音声翻訳におけるモーダリティ空間のソフトアライメント

Soft Alignment of Modality Space for End-to-end Speech Translation ( http://arxiv.org/abs/2312.10952v1 )

ライセンス: Link先を確認
Yuhao Zhang, Kaiqi Kou, Bei Li, Chen Xu, Chunliang Zhang, Tong Xiao, Jingbo Zhu(参考訳) エンドツーエンド音声翻訳(ST)は、統一されたモデル内で音声をターゲットテキストに変換することを目的としている。 音声とテキストのモダリティに固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの転送を妨げる。 既存の手法は通常、個々の音声とテキストセグメントのハードアライメント(H-Align)を使用し、テキスト表現を劣化させる。 これに対処するために,両様相の表現空間の整列化に逆訓練を用いたソフトアライメント(s-align)を導入する。 s-アラングは個々のモダリティ品質を維持しながらモダリティ不変空間を作る。 MuST-Cデータセットによる3つの言語の実験では、複数のタスクでS-AlignがH-Alignより優れており、特殊な翻訳モデルと同等の翻訳機能を提供する。

End-to-end Speech Translation (ST) aims to convert speech into target text within a unified model. The inherent differences between speech and text modalities often impede effective cross-modal and cross-lingual transfer. Existing methods typically employ hard alignment (H-Align) of individual speech and text segments, which can degrade textual representations. To address this, we introduce Soft Alignment (S-Align), using adversarial training to align the representation spaces of both modalities. S-Align creates a modality-invariant space while preserving individual modality quality. Experiments on three languages from the MuST-C dataset show S-Align outperforms H-Align across multiple tasks and offers translation capabilities on par with specialized translation models.
翻訳日:2023-12-20 21:18:48 公開日:2023-12-18
# バイラルプライバシー:コンテンツクリエイターのプライバシー認識と突然の注意の後のニーズを理解するためのレンズとしての文脈的完全性

Viral Privacy: Contextual Integrity as a Lens to Understand Content Creators' Privacy Perceptions and Needs After Sudden Attention ( http://arxiv.org/abs/2312.10951v1 )

ライセンス: Link先を確認
Joseph S. Schafer, Annie Denton, Chloe Seelhoff, Jordyn Vo, Kate Starbird(参考訳) マルチステイクホルダプライバシシステムを設計する場合には,ソーシャルメディアユーザのさまざまなグループが,プライバシに関する目標や要件をいかに持っているかを検討することが重要である。 さらに、オンラインの可視性と存在感が変化するにつれて、単一のクリエーターのニーズでさえ変化し、堅牢なマルチステイクホルダプライバシシステムがこれらの変化を考慮すべきであるということを念頭に置いておく必要がある。 コンテキスト整合性の枠組みを用いて、プロフィールがオンラインの注目を集めるにつれてユーザーのプライバシーニーズが変化する可能性を評価するための理論的根拠を説明し、これらの潜在的な変化を理解するために進行中のプロジェクトについて説明する。

When designing multi-stakeholder privacy systems, it is important to consider how different groups of social media users have different goals and requirements for privacy. Additionally, we must acknowledge that it is important to keep in mind that even a single creator's needs can change as their online visibility and presence shifts, and that robust multi-stakeholder privacy systems should account for these shifts. Using the framework of contextual integrity, we explain a theoretical basis for how to evaluate the potential changing privacy needs of users as their profiles undergo a sudden rise in online attention, and ongoing projects to understand these potential shifts in perspectives.
翻訳日:2023-12-20 21:18:30 公開日:2023-12-18
# 導出決定を伴う量子LDPC符号の信念伝搬復号

Belief Propagation Decoding of Quantum LDPC Codes with Guided Decimation ( http://arxiv.org/abs/2312.10950v1 )

ライセンス: Link先を確認
Hanwen Yao, Waleed Abu Laban, Christian H\"ager, Alexandre Graell i Amat, and Henry D. Pfister(参考訳) 量子低密度パリティチェック(QLDPC)符号は、量子エラー訂正のための有望な手法として登場した。 QLDPC符号には様々なデコーダが提案されており、その多くが何らかの方法で信念伝達(BP)デコーダを使用している。 しかし、縮退QLDPC符号に対するBPデコードの使用は収束の問題に直面することが知られている。 これらの問題は一般的に、Tannerグラフの短いサイクルと、コードの縮退による複数のシンドロームマッチングエラーパターンに起因する。 統計復号法 (BP-OSD) や安定化器不活性化法 (BP-SI) などの非収束問題を緩和する様々な手法が提案されているが、より少ない複雑さで高い性能を達成することは研究の活発な領域である。 本研究では,BPガイドデシミテーション(BPGD)を用いたQLDPC符号の復号法を提案する。 決定過程は二元系BPと四元系BPの両方に適用でき、BP収束を促進するために最も信頼性の高い量子ビットの値を順次凍結する。 その単純さにもかかわらず,BPGDは非収束性によるBP故障を著しく低減するとともに,BP-OSDとBP-SIと同等の性能を有する。 BPGDの性能向上の方法と理由をよりよく理解するために,BPGDの解釈とBP症候群の復号化との関連について考察する。

Quantum low-density parity-check (QLDPC) codes have emerged as a promising technique for quantum error correction. A variety of decoders have been proposed for QLDPC codes and many of them utilize belief propagation (BP) decoding in some fashion. However, the use of BP decoding for degenerate QLDPC codes is known to face issues with convergence. These issues are commonly attributed to short cycles in the Tanner graph and multiple syndrome-matching error patterns due to code degeneracy. Although various methods have been proposed to mitigate the non-convergence issue, such as BP with ordered statistics decoding (BP-OSD) and BP with stabilizer inactivation (BP-SI), achieving better performance with lower complexity remains an active area of research. In this work, we propose to decode QLDPC codes with BP guided decimation (BPGD), which has been previously studied for constraint satisfaction and lossy compression problems. The decimation process is applicable to both binary BP and quaternary BP and involves sequentially freezing the value of the most reliable qubits to encourage BP convergence. Despite its simplicity, we find that BPGD significantly reduces BP failures due to non-convergence while maintaining a low probability of error given convergence, achieving performance on par with BP-OSD and BP-SI. To better understand how and why BPGD improves performance, we discuss several interpretations of BPGD and their connection to BP syndrome decoding.
翻訳日:2023-12-20 21:18:16 公開日:2023-12-18
# 音声感情認識における高調波成分とパーカッシブ成分を用いたメル分光法

Leveraged Mel spectrograms using Harmonic and Percussive Components in Speech Emotion Recognition ( http://arxiv.org/abs/2312.10949v1 )

ライセンス: Link先を確認
David Hason Rudd, Huan Huo, Guandong Xu(参考訳) 音声感情認識(ser)感情技術は、インテリジェントな組み込みデバイスが感度と対話することを可能にする。 同様に、コールセンターの従業員は、ピッチ、エネルギー、声のトーンから顧客の感情を認識し、顧客との高品質な対話のためにスピーチを変更する。 この研究は、初めてメル分光図の高調波成分と打楽器成分の影響を探求するものである。 本研究では,新しい特徴マップ生成アルゴリズム,cnnに基づくネットワーク特徴抽出器,多層パーセプトロン(mlp)分類器を含む,提案手法を用いて識別可能な音響特徴を分解し,メルスペクトログラムの活用を試みる。 本研究は,リッチなハイブリッド機能マップ構築のための効果的なデータ拡張技術に焦点を当てた。 これにより、2D画像を出力し、事前訓練されたCNN-VGG16特徴抽出器の入力データとして使用できるようにする。 さらに, MFCC, クロマグラム, スペクトルコントラスト, トネッツなどの音響特性についても検討し, 提案手法の評価を行った。 ベルリンのemo-dbデータベースにおけるテスト精度は92.79%である。 その結果,従来のCNN-VGG16よりも高い結果を得た。

Speech Emotion Recognition (SER) affective technology enables the intelligent embedded devices to interact with sensitivity. Similarly, call centre employees recognise customers' emotions from their pitch, energy, and tone of voice so as to modify their speech for a high-quality interaction with customers. This work explores, for the first time, the effects of the harmonic and percussive components of Mel spectrograms in SER. We attempt to leverage the Mel spectrogram by decomposing distinguishable acoustic features for exploitation in our proposed architecture, which includes a novel feature map generator algorithm, a CNN-based network feature extractor and a multi-layer perceptron (MLP) classifier. This study specifically focuses on effective data augmentation techniques for building an enriched hybrid-based feature map. This process results in a function that outputs a 2D image so that it can be used as input data for a pre-trained CNN-VGG16 feature extractor. Furthermore, we also investigate other acoustic features such as MFCCs, chromagram, spectral contrast, and the tonnetz to assess our proposed framework. A test accuracy of 92.79% on the Berlin EMO-DB database is achieved. Our result is higher than previous works using CNN-VGG16.
翻訳日:2023-12-20 21:17:46 公開日:2023-12-18
# 高度害虫検出・分類のためのマルチモーダルアプローチ

A Multimodal Approach for Advanced Pest Detection and Classification ( http://arxiv.org/abs/2312.10948v1 )

ライセンス: Link先を確認
Jinli Duan, Haoyu Ding, Sung Kim(参考訳) 本稿では,小型BERTの自然言語処理とR-CNNとResNet-18の画像処理を組み合わせた,農業害虫検出のための新しい多モード深層学習フレームワークを提案する。 従来のCNNに基づく視覚的手法の限界に対処するため、本手法はテキストコンテキストを統合してより正確な害虫識別を行う。 R-CNNとResNet-18の統合は、グラデーションの消失のような深いCNNの問題に対処する。 線形回帰モデルとランダム森林モデルを用いたアンサンブル学習を用いて、ROCおよびAUC分析で示されるように、優れた識別能力を示す。 テキストと画像データを組み合わせたこのマルチモーダルアプローチは、農業における害虫検出を著しく促進する。 この研究は、複雑な実世界のシナリオにおけるマルチモーダルディープラーニングの可能性を強調し、将来のデータセットの多様性の拡大、高度なデータ拡張、モデルパフォーマンスを高めるためのモーダルアテンションメカニズムを提案する。

This paper presents a novel multi modal deep learning framework for enhanced agricultural pest detection, combining tiny-BERT's natural language processing with R-CNN and ResNet-18's image processing. Addressing limitations of traditional CNN-based visual methods, this approach integrates textual context for more accurate pest identification. The R-CNN and ResNet-18 integration tackles deep CNN issues like vanishing gradients, while tiny-BERT ensures computational efficiency. Employing ensemble learning with linear regression and random forest models, the framework demonstrates superior discriminate ability, as shown in ROC and AUC analyses. This multi modal approach, blending text and image data, significantly boosts pest detection in agriculture. The study highlights the potential of multi modal deep learning in complex real-world scenarios, suggesting future expansions in diversity of datasets, advanced data augmentation, and cross-modal attention mechanisms to enhance model performance.
翻訳日:2023-12-20 21:17:27 公開日:2023-12-18
# lavip: 言語に基づく視覚プロンプト

LaViP:Language-Grounded Visual Prompts ( http://arxiv.org/abs/2312.10945v1 )

ライセンス: Link先を確認
Nilakshan Kunananthaseelan, Jing Zhang, Mehrtash Harandi(参考訳) 下流タスクに視覚言語モデルの視覚エンコーダを適応させるための言語基底型視覚プロンプト手法を提案する。 言語統合を利用することで、視覚的エンコーダの入力を調整するパラメータ効率の高い戦略を考案し、モデルのパラメータの変更や追加を不要にする。 この設計選択により,提案アルゴリズムはブラックボックスシナリオでも動作可能であり,モデルパラメータへのアクセスが制約された状況において適応性を示す。 我々は、先行技術と比較して、言語による視覚的プロンプトが適応の精度と速度の両方を高めることを実証的に実証する。 さらに本アルゴリズムは,可視的プロンプトの限界を克服し,見掛けたクラスを超えて一般化する能力を示す,基本からノベルへのクラス一般化に優れる。 提案手法はeurosat, ucf101, dtd, clevrなどの画像認識データセットにまたがって評価・評価を行い, マイナショット学習, ベースツーノベルクラス一般化, 転送学習など, さまざまな学習状況に適用した。

We introduce a language-grounded visual prompting method to adapt the visual encoder of vision-language models for downstream tasks. By capitalizing on language integration, we devise a parameter-efficient strategy to adjust the input of the visual encoder, eliminating the need to modify or add to the model's parameters. Due to this design choice, our algorithm can operate even in black-box scenarios, showcasing adaptability in situations where access to the model's parameters is constrained. We will empirically demonstrate that, compared to prior art, grounding visual prompts with language enhances both the accuracy and speed of adaptation. Moreover, our algorithm excels in base-to-novel class generalization, overcoming limitations of visual prompting and exhibiting the capacity to generalize beyond seen classes. We thoroughly assess and evaluate our method across a variety of image recognition datasets, such as EuroSAT, UCF101, DTD, and CLEVR, spanning different learning situations, including few-shot learning, base-to-novel class generalization, and transfer learning.
翻訳日:2023-12-20 21:17:10 公開日:2023-12-18
# 全スライダー画像からバイオマーカー予測へ:計算病理学におけるエンド・ツー・エンド深層学習プロトコル

From Whole-slide Image to Biomarker Prediction: A Protocol for End-to-End Deep Learning in Computational Pathology ( http://arxiv.org/abs/2312.10944v1 )

ライセンス: Link先を確認
Omar S. M. El Nahhas, Marko van Treeck, Georg W\"olflein, Michaela Unger, Marta Ligero, Tim Lenz, Sophia J. Wagner, Katherine J. Hewitt, Firas Khader, Sebastian Foersch, Daniel Truhn, Jakob Nikolas Kather(参考訳) Hematoxylin- and eosin (H&E) stained whole-slide image (WSIs) は癌の診断の基礎である。 近年,計算病理学における深層学習に基づく手法の開発により,WSIから直接バイオマーカーの予測が可能となった。 しかし、組織表現型とバイオマーカーを大規模に正確に結びつけることは、複雑なバイオマーカーを精密腫瘍学で民主化する上で重要な課題である。 本プロトコルは, 病理学における固形腫瘍連想モデル(STAMP)の実践的ワークフローを記述し, 深層学習を用いてWSIから直接バイオマーカーの予測を可能にする。 STAMPワークフローはバイオマーカー非依存であり、遺伝子および臨床病理学的表層データを、病理画像とともに追加入力として含めることができる。 このプロトコルは、形式的問題定義、データ前処理、モデリング、評価、臨床翻訳という、様々な研究課題にうまく適用された5つの主要な段階から構成されている。 stamp workflowは、臨床医やエンジニアが計算病理学の分野で研究プロジェクトをセットアップするために使用できる協調的なフレームワークとして機能することに焦点を当てている点を差別化している。 症例として, 大腸癌におけるマイクロサテライト不安定性(MSI)の予測にSTAMPを適用し, MSI高腫瘍の同定精度を示した。 さらに,計算病理ワークフローをセットアップするために,世界中の病院にデプロイされたオープンソースのコードベースも提供している。 STAMPワークフローには、1日分の計算実行と基本的なコマンドライン知識が必要である。

Hematoxylin- and eosin (H&E) stained whole-slide images (WSIs) are the foundation of diagnosis of cancer. In recent years, development of deep learning-based methods in computational pathology enabled the prediction of biomarkers directly from WSIs. However, accurately linking tissue phenotype to biomarkers at scale remains a crucial challenge for democratizing complex biomarkers in precision oncology. This protocol describes a practical workflow for solid tumor associative modeling in pathology (STAMP), enabling prediction of biomarkers directly from WSIs using deep learning. The STAMP workflow is biomarker agnostic and allows for genetic- and clinicopathologic tabular data to be included as an additional input, together with histopathology images. The protocol consists of five main stages which have been successfully applied to various research problems: formal problem definition, data preprocessing, modeling, evaluation and clinical translation. The STAMP workflow differentiates itself through its focus on serving as a collaborative framework that can be used by clinicians and engineers alike for setting up research projects in the field of computational pathology. As an example task, we applied STAMP to the prediction of microsatellite instability (MSI) status in colorectal cancer, showing accurate performance for the identification of MSI-high tumors. Moreover, we provide an open-source codebase which has been deployed at several hospitals across the globe to set up computational pathology workflows. The STAMP workflow requires one workday of hands-on computational execution and basic command line knowledge.
翻訳日:2023-12-20 21:16:48 公開日:2023-12-18
# 真正性・不確実性・多様性を考慮したグラフ分類に対するモデル盗み攻撃

Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity ( http://arxiv.org/abs/2312.10943v1 )

ライセンス: Link先を確認
Zhihao Zhu, Chenwang Wu, Rui Fan, Yi Yang, Defu Lian, Enhong Chen(参考訳) 近年の研究では、gnnがモデル盗み攻撃に対して脆弱であることを実証している。 しかしながら、主にノード分類タスクに重点を置いており、グラフ分類タスクのドメイン内で発生する潜在的な脅威を無視している。 さらに、その実用性は、特に大規模データ要求と広範なモデル知識に関する不合理な仮定のために疑わしい。 そこで本研究では,実データに制限のある厳密な設定と,合成データを生成するためのハードラベル認識を推奨する。 Specifically, following important data generation principles, we introduce three model stealing attacks to adapt to different actual scenarios: MSA-AU is inspired by active learning and emphasizes the uncertainty to enhance query value of generated samples; MSA-AD introduces diversity based on Mixup augmentation strategy to alleviate the query inefficiency issue caused by over-similar samples generated by MSA-AU; MSA-AUD combines the above two strategies to seamlessly integrate the authenticity, uncertainty, and diversity of the generated samples. 最後に、広範囲にわたる実験により、隠れ、クエリ効率、盗み性能の観点から提案手法の優位性を一貫して示している。

Recent research demonstrates that GNNs are vulnerable to the model stealing attack, a nefarious endeavor geared towards duplicating the target model via query permissions. However, they mainly focus on node classification tasks, neglecting the potential threats entailed within the domain of graph classification tasks. Furthermore, their practicality is questionable due to unreasonable assumptions, specifically concerning the large data requirements and extensive model knowledge. To this end, we advocate following strict settings with limited real data and hard-label awareness to generate synthetic data, thereby facilitating the stealing of the target model. Specifically, following important data generation principles, we introduce three model stealing attacks to adapt to different actual scenarios: MSA-AU is inspired by active learning and emphasizes the uncertainty to enhance query value of generated samples; MSA-AD introduces diversity based on Mixup augmentation strategy to alleviate the query inefficiency issue caused by over-similar samples generated by MSA-AU; MSA-AUD combines the above two strategies to seamlessly integrate the authenticity, uncertainty, and diversity of the generated samples. Finally, extensive experiments consistently demonstrate the superiority of the proposed methods in terms of concealment, query efficiency, and stealing performance.
翻訳日:2023-12-20 21:16:23 公開日:2023-12-18
# ShuttleSHAP:バドミントンにおける予測モデル解析のためのターンベース特徴属性アプローチ

ShuttleSHAP: A Turn-Based Feature Attribution Approach for Analyzing Forecasting Models in Badminton ( http://arxiv.org/abs/2312.10942v1 )

ライセンス: Link先を確認
Wei-Yao Wang, Wen-Chih Peng, Wei Wang, Philip S. Yu(参考訳) エージェント予測システムは,歩行者予測やマーケティング入札など,様々な領域におけるエージェントパターンの調査や意思決定の改善を目的としている。 バドミントンは多面的なターンベースのスポーツの魅力的な例であり、洗練された戦術開発と代替的な意思決定の両方を必要とする。 近年のバドミントンにおけるプレイヤー戦術予測の深層学習手法は,ラリー・プレイヤ相互作用の効果的な推論に起因する有望な性能を示している。 しかし、ブラックボックスモデルによってプレイヤーの振る舞いをシミュレートするための特徴が学習される不明瞭な機能には重要な障害があり、既存の説明者はターンベースおよびマルチアウトプット属性を装備していない。 このギャップを埋めるために,シャプリー値の変種に基づいてバドミントンの予測モデルを分析するために,ターン型特徴帰属アプローチであるshuttleshapを提案する。 ShuttleSHAPは、時間的側面だけでなく、多面的キューのプレイヤー側面によるコントリビューションの定量化を目的としたモデルに依存しない説明器である。 提案した解析ツールをベンチマークデータセット上の最先端のターンベース予測モデルに組み込むことで、従来のシーケンシャルモデルは大きな影響を与える一方で、過去のストロークを推論することが重要でないことが明らかになった。 その代わり、選手のスタイルは将来のラリーのシミュレーションのモデルに影響を与える。 そこで本研究では,これらの知見の因果解析について検討し,局所分析による実践性を示す。

Agent forecasting systems have been explored to investigate agent patterns and improve decision-making in various domains, e.g., pedestrian predictions and marketing bidding. Badminton represents a fascinating example of a multifaceted turn-based sport, requiring both sophisticated tactic developments and alternate-dependent decision-making. Recent deep learning approaches for player tactic forecasting in badminton show promising performance partially attributed to effective reasoning about rally-player interactions. However, a critical obstacle lies in the unclear functionality of which features are learned for simulating players' behaviors by black-box models, where existing explainers are not equipped with turn-based and multi-output attributions. To bridge this gap, we propose a turn-based feature attribution approach, ShuttleSHAP, for analyzing forecasting models in badminton based on variants of Shapley values. ShuttleSHAP is a model-agnostic explainer that aims to quantify contribution by not only temporal aspects but also player aspects in terms of multifaceted cues. Incorporating the proposed analysis tool into the state-of-the-art turn-based forecasting model on the benchmark dataset reveals that it is, in fact, insignificant to reason about past strokes, while conventional sequential models have greater impacts. Instead, players' styles influence the models for the future simulation of a rally. On top of that, we investigate and discuss the causal analysis of these findings and demonstrate the practicability with local analysis.
翻訳日:2023-12-20 21:16:06 公開日:2023-12-18
# 初期状態が記憶に及ぼす影響:早期超放射能の研究

Influence of initial states on memory effects: A study of early-time superradiance ( http://arxiv.org/abs/2312.10938v1 )

ライセンス: Link先を確認
S. C. Hou, G. Q. Shuai, X. Y. Zhang, J. Shen and X. X. Yi(参考訳) 量子系の初期状態は、その将来のダイナミクス、特に環境記憶効果による非マルコバイン量子過程に大きな影響を与えることができる。 本稿では,従来の研究に基づいて,特定のシステムの初期状態に条件付けされた非マルコフ量子プロセスのメモリ効果を定量化する手法を提案する。 我々は,N$原子 (システム) が単一モード真空空洞 (環境) といくつかの初期状態と相互作用する超放射能モデルの早期ダイナミクスの研究に本手法を適用した。 初期状態における記憶効果の値は、(脱相した)ディック状態の環境光子数の半分であることがわかった。 また、記憶効果、環境光子数、超放射度は、いくつかの初期状態のコヒーレンスや絡み合いによって同時に向上することができる。 本研究では, 超ラジアント初期状態から超ラジアント状態への遷移は, 常に記憶効果の増大を伴い, スーパーラジアンスにおける記憶効果の重要性を示した。

The initial state of a quantum system can significantly influence its future dynamics, especially in non-Markovain quantum processes due to the environmental memory effects. Based on a previous work of ours, we propose a method to quantify the memory effects of a non-Markovian quantum process conditioned on a particular system initial state. We apply our method to study the early-time dynamics of a superradiance model where $N$ atoms (the system) interacting with a single-mode vacuum cavity (the environment) with several types of initial states. We find that the value of the memory effects in the early-time regime is half the environmental photon number for the (dephased) Dicke states. Besides, the memory effects, the environmental photon number and the degree of superradiance can be simultaneously enhanced by the coherence or entanglement of some initial states. In our study, the transitions from non-superradiant initial states to superradiant ones are always accompanied by the enhancement of memory effects, showing the importance of memory effects in superradiance.
翻訳日:2023-12-20 21:15:42 公開日:2023-12-18
# 音声感情認識性能向上のための拡張可変モード分解アルゴリズム

An Extended Variational Mode Decomposition Algorithm Developed Speech Emotion Recognition Performance ( http://arxiv.org/abs/2312.10937v1 )

ライセンス: Link先を確認
David Hason Rudd, Huan Huo, Guandong Xu(参考訳) 音声信号からの感情認識(ER)は、表情やテキストベースの感情分析のように模倣できないため、堅牢なアプローチである。 感情の根底にある貴重な情報は、人間とコンピュータのインタラクションにおいて重要であり、インテリジェントマシンは現実世界の感度と対話できる。 音声信号処理による従来のER研究は、異なる信号モード分解法と隠れ情報的特徴の関連性にのみ焦点をあててきた。 しかし、不適切な分解パラメータ選択は、モード重複と混合による情報信号成分の損失をもたらす。 これとは対照的に,本研究では,有意な音声特徴を識別し,データ忠実度制約に対する分割モードの数と最適なバランスパラメータをVGG16平坦化出力層上で評価することで,VGG-optiVMDを提案する。 様々な特徴ベクトルを用いて、異なるデータベース上でVGG16ネットワークをトレーニングし、VGG-optiVMD再現性と信頼性を評価する。 1, 2, 3次元特徴ベクトルはメル周波数ケプストラム係数, クロマグラム, メル分光図, トネッツ図, スペクトルセントロイドを連結して構成した。 その結果、ベルリンのemo-dbデータベース上で7つの感情を予測する際に、信号サンプルレートの微調整と分解パラメータの分類精度の相乗効果が確認できた。

Emotion recognition (ER) from speech signals is a robust approach since it cannot be imitated like facial expression or text based sentiment analysis. Valuable information underlying the emotions are significant for human-computer interactions enabling intelligent machines to interact with sensitivity in the real world. Previous ER studies through speech signal processing have focused exclusively on associations between different signal mode decomposition methods and hidden informative features. However, improper decomposition parameter selections lead to informative signal component losses due to mode duplicating and mixing. In contrast, the current study proposes VGG-optiVMD, an empowered variational mode decomposition algorithm, to distinguish meaningful speech features and automatically select the number of decomposed modes and optimum balancing parameter for the data fidelity constraint by assessing their effects on the VGG16 flattening output layer. Various feature vectors were employed to train the VGG16 network on different databases and assess VGG-optiVMD reproducibility and reliability. One, two, and three-dimensional feature vectors were constructed by concatenating Mel-frequency cepstral coefficients, Chromagram, Mel spectrograms, Tonnetz diagrams, and spectral centroids. Results confirmed a synergistic relationship between the fine-tuning of the signal sample rate and decomposition parameters with classification accuracy, achieving state-of-the-art 96.09% accuracy in predicting seven emotions on the Berlin EMO-DB database.
翻訳日:2023-12-20 21:15:28 公開日:2023-12-18
# AEDFL: 異種デバイスを用いた効率的な非同期分散フェデレーション学習

AEDFL: Efficient Asynchronous Decentralized Federated Learning with Heterogeneous Devices ( http://arxiv.org/abs/2312.10935v1 )

ライセンス: Link先を確認
Ji Liu and Tianshi Che and Yang Zhou and Ruoming Jin and Huaiyu Dai and Dejing Dou and Patrick Valduriez(参考訳) フェデレーション学習(fl)は、エッジデバイス上の分散データ上での協調モデルトレーニングを可能にすることで、近年大きな成果を上げている。 標準FLパラダイムにおけるデバイスと集中型サーバ間の反復的な勾配やモデル交換は、サーバ上で深刻な効率上のボトルネックに悩まされる。 集中サーバなしで協調トレーニングを可能にする一方で、既存の分散FLは、FL収束を低下させる同期メカニズムに焦点を当てるか、非同期メカニズムでデバイスの安定化を無視し、FL精度が劣る。 本稿では,3つのユニークなコントリビューションを持つ異種環境における非同期効率的な分散FLフレームワークであるAEDFLを提案する。 まず、FL収束を改善するための効率的なモデル集約手法を用いた非同期FLシステムモデルを提案する。 次に,より優れた精度を実現するために,動的安定化モデル更新手法を提案する。 第3に,コミュニケーションコストと計算コストを低減し,精度を低下させることなく適応的スパーストレーニング手法を提案する。 4つの公開データセットと4つのモデルに対する大規模な実験は、精度(最大16.3%)、効率(最大92.9%)、計算コスト(最大42.3%)の点でAEDFLの強さを示している。

Federated Learning (FL) has achieved significant achievements recently, enabling collaborative model training on distributed data over edge devices. Iterative gradient or model exchanges between devices and the centralized server in the standard FL paradigm suffer from severe efficiency bottlenecks on the server. While enabling collaborative training without a central server, existing decentralized FL approaches either focus on the synchronous mechanism that deteriorates FL convergence or ignore device staleness with an asynchronous mechanism, resulting in inferior FL accuracy. In this paper, we propose an Asynchronous Efficient Decentralized FL framework, i.e., AEDFL, in heterogeneous environments with three unique contributions. First, we propose an asynchronous FL system model with an efficient model aggregation method for improving the FL convergence. Second, we propose a dynamic staleness-aware model update approach to achieve superior accuracy. Third, we propose an adaptive sparse training method to reduce communication and computation costs without significant accuracy degradation. Extensive experimentation on four public datasets and four models demonstrates the strength of AEDFL in terms of accuracy (up to 16.3% higher), efficiency (up to 92.9% faster), and computation costs (up to 42.3% lower).
翻訳日:2023-12-20 21:15:01 公開日:2023-12-18
# apidocbooster: 大きな言語モデルを利用してapiドキュメントを補完するextract-then-abstractフレームワーク

APIDocBooster: An Extract-Then-Abstract Framework Leveraging Large Language Models for Augmenting API Documentation ( http://arxiv.org/abs/2312.10934v1 )

ライセンス: Link先を確認
Chengran Yang, Jiakun Liu, Bowen Xu, Christoph Treude, Yunbo Lyu, Ming Li, David Lo(参考訳) APIドキュメントは、しばしばプログラミングの最も信頼できるリソースです。 Stack Overflowのような外部リソースから補完的な情報を要約することで、APIドキュメントの強化に多くのアプローチが提案されている。 既存の抽出に基づく要約手法は、入力長制限なしにソースコンテンツを正確に表現する忠実な要約を生成するのに優れている。 それにもかかわらず、それらは固有の可読性制限に苦しむ。 一方,抽象的要約法であるGPT-4に関する実証研究により,GPT-4はコヒーレントで簡潔な要約を生成できるが,情報性や忠実性の観点から制限を呈することが明らかとなった。 APIDocBoosterは,抽出的(長さ制限のない忠実な要約を可能にする)と抽象的要約(コヒーレントで簡潔な要約を生成する)の両方の利点をシームレスに融合する,抽出-主題抽出フレームワークである。 APIDocBoosterは、(1) \textbf{C}ontext-aware \textbf{S}entence \textbf{S}ection \textbf{C}lassification (CSSC)と(2) \textbf{UP}date \textbf{SUM}marization (UPSUM)の2つのステージで構成される。 CSSCは複数のソースから収集されたAPI関連情報をAPIドキュメントセクションに分類する。 UPSUMはまず、元のAPIドキュメントとは異なる抽出要約を生成し、その後、テキスト内学習を通じて抽出要約によってガイドされた抽象要約を生成する。 APIDocBoosterの自動評価を可能にするため,APIドキュメント拡張のための最初のデータセットを構築した。 自動評価の結果、APIDocBoosterの各ステージはベースラインよりも大きなマージンで優れています。 また, GPT-4 よりも APIDocBooster の方が優れており, それぞれ 13.89 %, 15.15 %, 30.56 % に情報伝達性, 関連性, 忠実性が向上していることを示す。

API documentation is often the most trusted resource for programming. Many approaches have been proposed to augment API documentation by summarizing complementary information from external resources such as Stack Overflow. Existing extractive-based summarization approaches excel in producing faithful summaries that accurately represent the source content without input length restrictions. Nevertheless, they suffer from inherent readability limitations. On the other hand, our empirical study on the abstractive-based summarization method, i.e., GPT-4, reveals that GPT-4 can generate coherent and concise summaries but presents limitations in terms of informativeness and faithfulness. We introduce APIDocBooster, an extract-then-abstract framework that seamlessly fuses the advantages of both extractive (i.e., enabling faithful summaries without length limitation) and abstractive summarization (i.e., producing coherent and concise summaries). APIDocBooster consists of two stages: (1) \textbf{C}ontext-aware \textbf{S}entence \textbf{S}ection \textbf{C}lassification (CSSC) and (2) \textbf{UP}date \textbf{SUM}marization (UPSUM). CSSC classifies API-relevant information collected from multiple sources into API documentation sections. UPSUM first generates extractive summaries distinct from the original API documentation and then generates abstractive summaries guided by extractive summaries through in-context learning. To enable automatic evaluation of APIDocBooster, we construct the first dataset for API document augmentation. Our automatic evaluation results reveal that each stage in APIDocBooster outperforms its baselines by a large margin. Our human evaluation also demonstrates the superiority of APIDocBooster over GPT-4 and shows that it improves informativeness, relevance, and faithfulness by 13.89\%, 15.15\%, and 30.56\%, respectively.
翻訳日:2023-12-20 21:14:41 公開日:2023-12-18
# SeeBel: 見ることは信じられない

SeeBel: Seeing is Believing ( http://arxiv.org/abs/2312.10933v1 )

ライセンス: Link先を確認
Sourajit Saha, Shubhashis Roy Dipta(参考訳) セマンティックセグメンテーションはコンピュータビジョンにおいて重要な研究分野である。 広く研究されている分野であるにもかかわらず、セグメンテーションの品質と、同じ視点でクラス不均衡のようなデータセット統計をキャプチャする多くの可視化ツールは存在しない。 セマンティックセグメンテーション(セマンティックセグメンテーション)のような高密度なコンピュータビジョンタスクに対するデータセット統計とAIモデル性能の相関関係の発見とイントロスペクションの意義はコンピュータビジョン文学においてよく確立されているが、上記のタスクを閲覧・分析するための可視化ツールが提案されていない。 私たちのプロジェクトは、データセットの統計と、データセット内の1つのイメージをセグメンテーションするためのaiのパフォーマンスを比較する3つの視覚化を提案して、aiがトレーニングした画像領域に対するaiモデルの注意を探索し、同じツールの下で選択された(ユーザによる)オブジェクト数に対してaiが予測するマスクの品質を閲覧することで、このギャップを埋めることを目的としています。 我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。 可視化には、相関と特徴をエンコードするためにscatterplotとheatmapを使用します。 さらに,コンピュータビジョンとai領域における可視化ツールの有効性を検討するために,実ユーザに対する調査を行うことを提案する。 完全なシステムはhttps://github.com/dipta007/SeeBelでアクセスできる。

Semantic Segmentation is a significant research field in Computer Vision. Despite being a widely studied subject area, many visualization tools do not exist that capture segmentation quality and dataset statistics such as a class imbalance in the same view. While the significance of discovering and introspecting the correlation between dataset statistics and AI model performance for dense prediction computer vision tasks such as semantic segmentation is well established in the computer vision literature, to the best of our knowledge, no visualization tools have been proposed to view and analyze the aforementioned tasks. Our project aims to bridge this gap by proposing three visualizations that enable users to compare dataset statistics and AI performance for segmenting all images, a single image in the dataset, explore the AI model's attention on image regions once trained and browse the quality of masks predicted by AI for any selected (by user) number of objects under the same tool. Our project tries to further increase the interpretability of the trained AI model for segmentation by visualizing its image attention weights. For visualization, we use Scatterplot and Heatmap to encode correlation and features, respectively. We further propose to conduct surveys on real users to study the efficacy of our visualization tool in computer vision and AI domain. The full system can be accessed at https://github.com/dipta007/SeeBel
翻訳日:2023-12-20 21:13:59 公開日:2023-12-18
# 発作映像解析のための深層学習手法の検討

Deep Learning Approaches for Seizure Video Analysis: A Review ( http://arxiv.org/abs/2312.10930v1 )

ライセンス: Link先を確認
David Ahmedt-Aristizabal, Mohammad Ali Armin, Zeeshan Hayder, Norberto Garcia-Cairasco, Lars Petersson, Clinton Fookes, Simon Denman, Aileen McGonigal(参考訳) 静流現象は運動・行動の過渡的な乱れとして現れる可能性があり、これらの臨床症状の分析はセミロジーと呼ばれ、専門家が臨床現場でビデオ録画イベントを評価する際に観察者によって異なる。 評価の正確性と一貫性を高めるため、発作のコンピュータ支援ビデオ解析が自然な道として登場した。 医学応用の分野では、ディープラーニングとコンピュータビジョンのアプローチが大幅に進歩している。 歴史的に, これらの手法は診断データを用いた疾患の検出, 分類, 予測に用いられているが, 臨床てんかんにおけるビデオベースモーション検出の応用は限定的に検討されている。 ビジョンベースの技術は臨床専門知識を置き換えるものではないが、定量的な証拠と意思決定支援を提供することで、医療の意思決定と患者のケアに大きく貢献することができる。 行動監視ツールは、客観的情報の提供、困難なイベントの検出、ドキュメントの取り組みの削減、限られた専門知識を持つ領域へのアセスメント機能拡張など、いくつかの利点を提供している。 本稿では,視覚系システムにおける発作映像の解析における基礎技術について詳述し,過去7年間の研究に焦点を当てたセミロジカル検出と分析の成功を強調する。 本稿では,これらの手法を体系的に提示し,発作の映像記録解析における深層学習の適用方法を示す。 さらに,映像に基づくセミロジカル解析のための統合システムにより,既存技術が相互接続される方法を示す。 最後に,今後の研究の課題と研究の方向性について論じる。

Seizure events may manifest as transient disruptions in movement and behavior, and the analysis of these clinical signs, referred to as semiology, is subject to observer variations when specialists evaluate video-recorded events in the clinical setting. To enhance the accuracy and consistency of evaluations, computer-aided video analysis of seizures has emerged as a natural avenue. In the field of medical applications, deep learning and computer vision approaches have driven substantial advancements. Historically, these approaches have been used for disease detection, classification, and prediction using diagnostic data; however, there has been limited exploration of their application in evaluating video-based motion detection in the clinical epileptology setting. While vision-based technologies do not aim to replace clinical expertise, they can significantly contribute to medical decision-making and patient care by providing quantitative evidence and decision support. Behavior monitoring tools offer several advantages such as providing objective information, detecting challenging-to-observe events, reducing documentation efforts, and extending assessment capabilities to areas with limited expertise. In this paper, we detail the foundation technologies used in vision-based systems in the analysis of seizure videos, highlighting their success in semiology detection and analysis, focusing on work published in the last 7 years. We systematically present these methods and indicate how the adoption of deep learning for the analysis of video recordings of seizures could be approached. Additionally, we illustrate how existing technologies can be interconnected through an integrated system for video-based semiology analysis. Finally, we discuss challenges and research directions for future studies.
翻訳日:2023-12-20 21:13:32 公開日:2023-12-18
# 半教師付き学習による金融リテラシーの予測

Predicting Financial Literacy via Semi-supervised Learning ( http://arxiv.org/abs/2312.10984v1 )

ライセンス: Link先を確認
David Hason Rudd, Huan Huo, Guandong Xu(参考訳) 金融リテラシー(FL)は、資産を収入に変える能力を表しており、現代の定義にデジタル通貨の理解が加えられている。 flは半教師付き学習(ssl)によって金融ネットワーク内のラベルなし記録データを活用することで予測できる。 flの測定と予測は広く研究されておらず、顧客の金融関係の理解は限られている。 以前の研究では、FLが低いと社会的危害のリスクが増加することが示されている。 したがって、特定の介入プログラムをより少ない財務的なグループに割り当てるために、flを正確に推定することが重要である。 これにより企業利益が増大するだけでなく、政府支出も減少する。 分類タスクにおけるFLの予測について検討する研究もあるが、FLの定義や影響は発展している。 本報告では, ガウス雑音による回帰のための合成マイノリティオーバーサンプリング手法を用いて, 財務データから顧客FLレベルを学習するメカニズムについて検討した。 半教師付き回帰のためのSMOGN-COREGモデルを提案し、不均衡なデータセットにSMOGNを適用し、ラベル付けのための非パラメトリックマルチラーナー共回帰(COREG)アルゴリズムを提案する。 5つのデータセット上でsmogn-coregモデルと6つのよく知られたレグレッシャを比較し,不均衡・未調整金融データに対する提案モデルの有効性を評価した。 実験結果から,提案手法は不均衡な財務データに対するコンパレータモデルよりも優れていた。 したがって、SMOGN-COREGはFLレベルを推定するために非ラベルデータを使用するためのステップである。

Financial literacy (FL) represents a person's ability to turn assets into income, and understanding digital currencies has been added to the modern definition. FL can be predicted by exploiting unlabelled recorded data in financial networks via semi-supervised learning (SSL). Measuring and predicting FL has not been widely studied, resulting in limited understanding of customer financial engagement consequences. Previous studies have shown that low FL increases the risk of social harm. Therefore, it is important to accurately estimate FL to allocate specific intervention programs to less financially literate groups. This will not only increase company profitability, but will also reduce government spending. Some studies considered predicting FL in classification tasks, whereas others developed FL definitions and impacts. The current paper investigated mechanisms to learn customer FL level from their financial data using sampling by synthetic minority over-sampling techniques for regression with Gaussian noise (SMOGN). We propose the SMOGN-COREG model for semi-supervised regression, applying SMOGN to deal with unbalanced datasets and a nonparametric multi-learner co-regression (COREG) algorithm for labeling. We compared the SMOGN-COREG model with six well-known regressors on five datasets to evaluate the proposed models effectiveness on unbalanced and unlabelled financial data. Experimental results confirmed that the proposed method outperformed the comparator models for unbalanced and unlabelled financial data. Therefore, SMOGN-COREG is a step towards using unlabelled data to estimate FL level.
翻訳日:2023-12-20 21:07:22 公開日:2023-12-18
# MatchDet: 画像マッチングとオブジェクト検出のための協調フレームワーク

MatchDet: A Collaborative Framework for Image Matching and Object Detection ( http://arxiv.org/abs/2312.10983v1 )

ライセンス: Link先を確認
Jinxiang Lai, Wenlong Wu, Bin-Bin Gao, Jun Liu, Jiawei Zhan, Congchong Nie, Yi Zeng, Chengjie Wang(参考訳) 画像マッチングとオブジェクト検出は2つの基本的かつ困難なタスクである。 本稿では、画像マッチングとオブジェクト検出のためのMatchDet(タスク協調型)という協調フレームワークを提案し、相互改善を実現する。 本研究では,2つのタスクの協調学習を実現するために,検出器用重み付き空間注意モジュール (WSAM) と,Matcher用重み付き注意モジュール (WAM) とBox Filter の3つの新しいモジュールを提案する。 具体的には、WSAMは、次の検出器のためにターゲット画像の前景領域を強調し、WAMはペア画像の前景領域間の接続を強化して高品質なマッチングを保証し、Box Filterは偽マッチングの影響を緩和する。 Warp-COCOとminiScanNetという2つのデータセットを用いた新しいベンチマークのアプローチを評価する。 実験の結果,本手法の有効性が示され,競争性が向上した。

Image matching and object detection are two fundamental and challenging tasks, while many related applications consider them two individual tasks (i.e. task-individual). In this paper, a collaborative framework called MatchDet (i.e. task-collaborative) is proposed for image matching and object detection to obtain mutual improvements. To achieve the collaborative learning of the two tasks, we propose three novel modules, including a Weighted Spatial Attention Module (WSAM) for Detector, and Weighted Attention Module (WAM) and Box Filter for Matcher. Specifically, the WSAM highlights the foreground regions of target image to benefit the subsequent detector, the WAM enhances the connection between the foreground regions of pair images to ensure high-quality matches, and Box Filter mitigates the impact of false matches. We evaluate the approaches on a new benchmark with two datasets called Warp-COCO and miniScanNet. Experimental results show our approaches are effective and achieve competitive improvements.
翻訳日:2023-12-20 21:06:54 公開日:2023-12-18
# 熱画像を用いた液漏れ検出

Liquid Leak Detection Using Thermal Images ( http://arxiv.org/abs/2312.10980v1 )

ライセンス: Link先を確認
Kalpak Bansod, Yanshan Wan, and Yugesh Rai(参考訳) 本稿では,先進的なコンピュータビジョンと深層学習手法を活用した,石油・ガス産業における液漏れ問題に対する包括的解決策を提案する。 YOLO(You Only Look Once)モデルとRT DETR(Real-Time Detection Transformer)モデルを採用することで,パイプラインやポンプ,タンクなどの重要なインフラストラクチャコンポーネントにおいて,液体リークの早期識別を向上する。 監視熱カメラとセンサーの統合により、YOLOとRT DETRの組み合わせモデルは、石油・ガス施設内の視覚データの連続的な監視と分析において顕著な効果を示した。 YOLOのリアルタイムオブジェクト検出機能は、リークとそのパターンを素早く認識する一方、RT DETRは、特に熱画像において、特定のリークに関連する特徴を識別するのに優れている。 このアプローチはリーク検出の精度と速度を大幅に改善し、最終的に液体漏れに伴う環境や金融のリスクを軽減する。

This paper presents a comprehensive solution to address the critical challenge of liquid leaks in the oil and gas industry, leveraging advanced computer vision and deep learning methodologies. Employing You Only Look Once (YOLO) and Real-Time Detection Transformer (RT DETR) models, our project focuses on enhancing early identification of liquid leaks in key infrastructure components such as pipelines, pumps, and tanks. Through the integration of surveillance thermal cameras and sensors, the combined YOLO and RT DETR models demonstrate remarkable efficacy in the continuous monitoring and analysis of visual data within oil and gas facilities. YOLO's real-time object detection capabilities swiftly recognize leaks and their patterns, while RT DETR excels in discerning specific leak-related features, particularly in thermal images. This approach significantly improves the accuracy and speed of leak detection, ultimately mitigating environmental and financial risks associated with liquid leaks.
翻訳日:2023-12-20 21:06:36 公開日:2023-12-18
# 注釈効率の良いボリュームMR画像分割のための協調学習

Collaborative Learning for Annotation-Efficient Volumetric MR Image Segmentation ( http://arxiv.org/abs/2312.10978v1 )

ライセンス: Link先を確認
Yousuf Babiker M. Osman, Cheng Li, Weijian Huang, and Shanshan Wang(参考訳) 背景: ディープラーニングは、ネットワーク最適化に十分なラベル付きデータが提供される場合に、正確なMR画像セグメンテーションにおいて大きな可能性を示している。 しかし、手動で3dmr画像に注釈を付けるのは面倒で時間がかかり、ドメインの知識と経験が豊富な専門家が必要となる。 目的: 3dトレーニングmr画像毎に1つの2dスライスラベルのみを含む、スパースアノテーションを探索するディープラーニング手法を構築すること。 人口:2つの公開データセットから150名の被験者の3D MR画像を含む。 そのうち50(画像スライス1,377)は前立腺分画である。 残りの100枚(8,800枚)は左房分断用である。 最初のデータセットを用いて5倍のクロスバリデーション実験を行った。 第2のデータセットでは、トレーニングに80の被験者を使用し、テストに20の被験者を使用した。 評価: 半教師付き学習と自己教師付き学習の強みを統合する協調学習法を開発した。 この方法はラベル付き中央スライスとラベルなし非中央スライスを用いて訓練された。 テストセットのセグメンテーション性能を定量的に定性的に報告した。 結果: FS-LCS, MT, UA-MT, DCT-Seg, ICT, AC-MTと比較すると, 前立腺区では平均B-IoUが10.0%以上(B-IoU: 70.3%対ICT B-IoU: 60.3%),左房区では6.0%以上(B-IoU:66.1%対ICT B-IoU: 601%)で有意に増加した。

Background: Deep learning has presented great potential in accurate MR image segmentation when enough labeled data are provided for network optimization. However, manually annotating 3D MR images is tedious and time-consuming, requiring experts with rich domain knowledge and experience. Purpose: To build a deep learning method exploring sparse annotations, namely only a single 2D slice label for each 3D training MR image. Population: 3D MR images of 150 subjects from two publicly available datasets were included. Among them, 50 (1,377 image slices) are for prostate segmentation. The other 100 (8,800 image slices) are for left atrium segmentation. Five-fold cross-validation experiments were carried out utilizing the first dataset. For the second dataset, 80 subjects were used for training and 20 were used for testing. Assessment: A collaborative learning method by integrating the strengths of semi-supervised and self-supervised learning schemes was developed. The method was trained using labeled central slices and unlabeled non-central slices. Segmentation performance on testing set was reported quantitatively and qualitatively. Results: Compared to FS-LCS, MT, UA-MT, DCT-Seg, ICT, and AC-MT, the proposed method achieved a substantial improvement in segmentation accuracy, increasing the mean B-IoU significantly by more than 10.0% for prostate segmentation (proposed method B-IoU: 70.3% vs. ICT B-IoU: 60.3%) and by more than 6.0% for left atrium segmentation (proposed method B-IoU: 66.1% vs. ICT B-IoU: 60.1%).
翻訳日:2023-12-20 21:06:20 公開日:2023-12-18
# EHRを用いた一般患者からの健康リスクの予測と解釈

Predict and Interpret Health Risk using EHR through Typical Patients ( http://arxiv.org/abs/2312.10977v1 )

ライセンス: Link先を確認
Zhihao Yu, Chaohe Zhang, Yasha Wang, Wen Tang, Jiangtao Wang, Liantao Ma(参考訳) 電子健康記録(EHR)から健康リスクを予測することは近年の関心事である。 ディープラーニングモデルは、時間的および機能的相互作用をモデル化することで成功しました。 しかし、これらの手法は不十分な表現を学習し、訪問や疎外記録の少ない患者ではパフォーマンスが低下する。 医師が患者を通常の患者と比較し、同様の症例から意思決定をすることができるという事実に触発されて、典型的な患者をプロトタイプとして選択し、その情報を利用して患者の表現を高めるプログレッシブ・プロトタイプ・ネットワーク(PPN)を提案する。 特にプロトタイプ更新のためにプログレッシブプロトタイプメモリと2つのプロトタイプ分離損失が提案されている。 さらに、患者やプロトタイプからの情報の拡散を改善するために、新たな統合が導入されている。 3つの実世界のデータセットの実験は、我々のモデルがすべてのメトリクスを改善することを示した。 医師の理解を深めるため, http://ppn.ai-care.top.comでアプリケーションを開発した。 私たちのコードはhttps://github.com/yzhhoward/ppnでリリースしています。

Predicting health risks from electronic health records (EHR) is a topic of recent interest. Deep learning models have achieved success by modeling temporal and feature interaction. However, these methods learn insufficient representations and lead to poor performance when it comes to patients with few visits or sparse records. Inspired by the fact that doctors may compare the patient with typical patients and make decisions from similar cases, we propose a Progressive Prototypical Network (PPN) to select typical patients as prototypes and utilize their information to enhance the representation of the given patient. In particular, a progressive prototype memory and two prototype separation losses are proposed to update prototypes. Besides, a novel integration is introduced for better fusing information from patients and prototypes. Experiments on three real-world datasets demonstrate that our model brings improvement on all metrics. To make our results better understood by physicians, we developed an application at http://ppn.ai-care.top. Our code is released at https://github.com/yzhHoward/PPN.
翻訳日:2023-12-20 21:05:46 公開日:2023-12-18
# Point Operator Transformer: PDEを解くための柔軟でスケーラブルなアーキテクチャ

Inducing Point Operator Transformer: A Flexible and Scalable Architecture for Solving PDEs ( http://arxiv.org/abs/2312.10975v1 )

ライセンス: Link先を確認
Seungjun Lee, Taeil Oh(参考訳) 解演算子を学習することで偏微分方程式(PDE)を解くことは、従来の数値法に代わる魅力的な方法として登場した。 しかし、このようなアーキテクチャの実装には、不規則な入力および出力形式を扱う際の柔軟性と、大きな離散化へのスケーラビリティの2つの大きな課題がある。 ほとんどの既存のアーキテクチャは所望の構造によって制限されるか、大規模なインプットとアウトプットをスケールできない。 これらの問題に対処するために、誘導点演算子変換器(IPOT)と呼ばれる注意モデルを導入する。 IPOTは、ポイントメソッドをインジェクションして、任意の入力関数と出力クエリを処理し、グローバルなインタラクションを計算的に効率的な方法でキャプチャするように設計されている。 IPOTは、プロセッサからのインプット/アウトプットの離散化を小さくすることで、任意の離散化処理の柔軟性を提供し、インプット/アウトプットのサイズと線形にスケールする。 実験の結果,pdeベンチマークや実世界の天気予報シナリオにおいて,ipotは最先端の手法と比較して,計算複雑性を管理できる強力な性能を実現することがわかった。

Solving partial differential equations (PDEs) by learning the solution operators has emerged as an attractive alternative to traditional numerical methods. However, implementing such architectures presents two main challenges: flexibility in handling irregular and arbitrary input and output formats and scalability to large discretizations. Most existing architectures are limited by their desired structure or infeasible to scale large inputs and outputs. To address these issues, we introduce an attention-based model called an inducing-point operator transformer (IPOT). Inspired by inducing points methods, IPOT is designed to handle any input function and output query while capturing global interactions in a computationally efficient way. By detaching the inputs/outputs discretizations from the processor with a smaller latent bottleneck, IPOT offers flexibility in processing arbitrary discretizations and scales linearly with the size of inputs/outputs. Our experimental results demonstrate that IPOT achieves strong performances with manageable computational complexity on an extensive range of PDE benchmarks and real-world weather forecasting scenarios, compared to state-of-the-art methods.
翻訳日:2023-12-20 21:05:31 公開日:2023-12-18
# 値不確定観測値に基づく二元量子乱数生成

Binary Quantum Random Number Generator Based on Value Indefinite Observables ( http://arxiv.org/abs/2312.10973v1 )

ライセンス: Link先を確認
Cristian S. Calude and Karl Svozil(参考訳) 値の不定値観測量に基づくすべての量子乱数生成器は、コッヘン・スペックルの定理と配置されたコッヘン・スペックルの定理が次元 2 において偽であるので少なくとも3次元である。 本稿では,3次値と同一のランダム性特性を持つ2値量子乱数を生成する3次元値不定可観測値に基づいて,量子乱数生成器を構築し,その出力は最大で予測不可能である。

All quantum random number generators based on measuring value indefinite observables are at least three-dimensional because the Kochen-Specker Theorem and the Located Kochen-Specker Theorem are false in dimension two. In this article, we construct a quantum random number generator based on measuring a three-dimensional value indefinite observable that generates binary quantum random outputs with the same randomness qualities as the ternary ones: its outputs are maximally unpredictable.
翻訳日:2023-12-20 21:05:09 公開日:2023-12-18
# 1+1)次元におけるKlein-Fock-Gordon-Majorana粒子の特性

Characterizing Klein-Fock-Gordon-Majorana particles in (1+1) dimensions ( http://arxiv.org/abs/2312.10971v1 )

ライセンス: Link先を確認
Salvatore De Vincenzo(参考訳) 理論的には(1+1)次元では、クラインフォック・ゴルドン・メジャーナ(kfgm)粒子を持つことができる。 より正確には、1次元(1D)クライン・フォック=ゴルドン(KFG)とマヨラナ粒子が同時に存在する。 原理的には、そのような第一量子化粒子を記述すると考えられる波動方程式は、標準の1D KFG方程式と/または1D Feshbach-Villars(FV)方程式である。 本論文の目的は,後者の仮定を完全かつ体系的に解析することである。さらに,それらの粒子が区間内(あるいは点に小さな穴がある直線上)にあるときに,それらの粒子を特徴づけるために,特定の方程式と境界条件を導入する。 実際、ハミルトン形式を持たない時間微分に一階方程式を記述する。 これらの方程式を1次元KFGM粒子の1次1Dマヨラナ方程式と呼ぶことができる。 さらに、スカラーポテンシャルが時間に依存しない場合、それぞれが標準の1d kfg方程式となる時間内の2次方程式を導く。 さらに、一階 1d majorana 方程式の1つの非相対論的極限について検討する。

Theoretically, in (1+1) dimensions, one can have Klein-Fock-Gordon-Majorana (KFGM) particles. More precisely, these are one-dimensional (1D) Klein-Fock-Gordon (KFG) and Majorana particles at the same time. In principle, the wave equations considered to describe such first-quantized particles are the standard 1D KFG equation and/or the 1D Feshbach-Villars (FV) equation, each with a real Lorentz scalar potential and some kind of Majorana condition. The aim of this paper is to analyze the latter assumption fully and systematically; additionally, we introduce specific equations and boundary conditions to characterize these particles when they lie within an interval (or on a line with a tiny hole at a point). In fact, we write first-order equations in the time derivative that do not have a Hamiltonian form. We may refer to these equations as first-order 1D Majorana equations for 1D KFGM particles. Moreover, each of them leads to a second-order equation in time that becomes the standard 1D KFG equation when the scalar potential is independent of time. Additionally, we examine the nonrelativistic limit of one of the first-order 1D Majorana equations.
翻訳日:2023-12-20 21:04:56 公開日:2023-12-18
# pars: 効率的かつ正確なモデル非依存な説明のための述語に基づく連想規則

PARs: Predicate-based Association Rules for Efficient and Accurate Model-Agnostic Anomaly Explanation ( http://arxiv.org/abs/2312.10968v1 )

ライセンス: Link先を確認
Cheng Feng(参考訳) 異常検出のための新しい効果的な手法が頻繁に導入されているが、多くの研究は説明可能性を考慮することなく検出課題を優先している。 しかし、現実世界のアプリケーションでは、特定のデータインスタンスが異常として識別される理由を説明することを目的とした異常説明も同じように重要なタスクである。 本稿では,述語に基づく連想規則(pars)を用いた表データに対して,効率良く正確なモデル非依存的異常説明を行うための新しい手法を提案する。 PARは、異常なインスタンスのどの特徴が異常であるかだけでなく、異常の原因についても直感的な説明を提供することができる。 本研究は, 従来のモデルに依存しない説明オプションと比較して, PARsの異常説明形式は, 異常検出システムの常用ユーザの方が好適であることが示唆された。 さらに,様々なベンチマークデータセットに対する広範な実験を行い,計算効率と異常説明タスクの説明精度の観点から,PARが最先端のモデルに依存しない手法に好適に比較できることを実証した。 PARsツールのコードはhttps://github.com/NSIBF/PARs-EXADで公開されている。

While new and effective methods for anomaly detection are frequently introduced, many studies prioritize the detection task without considering the need for explainability. Yet, in real-world applications, anomaly explanation, which aims to provide explanation of why specific data instances are identified as anomalies, is an equally important task. In this work, we present a novel approach for efficient and accurate model-agnostic anomaly explanation for tabular data using Predicate-based Association Rules (PARs). PARs can provide intuitive explanations not only about which features of the anomaly instance are abnormal, but also the reasons behind their abnormality. Our user study indicates that the anomaly explanation form of PARs is better comprehended and preferred by regular users of anomaly detection systems as compared to existing model-agnostic explanation options. Furthermore, we conduct extensive experiments on various benchmark datasets, demonstrating that PARs compare favorably to state-of-the-art model-agnostic methods in terms of computing efficiency and explanation accuracy on anomaly explanation tasks. The code for PARs tool is available at https://github.com/NSIBF/PARs-EXAD.
翻訳日:2023-12-20 21:04:33 公開日:2023-12-18
# 会話推薦システムのための表現学習強化のための知識グラフと事前学習言語モデル

Knowledge Graphs and Pre-trained Language Models enhanced Representation Learning for Conversational Recommender Systems ( http://arxiv.org/abs/2312.10967v1 )

ライセンス: Link先を確認
Zhangchi Qiu, Ye Tao, Shirui Pan and Alan Wee-Chung Liew(参考訳) 会話推薦システム(CRS)は、自然言語の対話と対話履歴を利用してユーザの好みを推測し、正確なレコメンデーションを提供する。 会話のコンテキストや背景知識が限られているため、既存のCRSは知識グラフのような外部ソースに依存してコンテキストとモデルエンティティを相互関係に基づいて強化する。 しかし、これらの手法はエンティティ内の豊富な固有情報を無視する。 これを解決するために,知識グラフと事前学習言語モデルの両方を活用する知識強化エンティティ表現学習(KERL)フレームワークを導入し,CRSのエンティティの意味的理解を改善する。 KERLフレームワークでは、エンティティのテキスト記述は事前訓練された言語モデルを介して符号化され、知識グラフはそれらのエンティティの表現を強化するのに役立つ。 また,会話中の実体の時間的情報を効果的に捉えるために位置符号化を用いる。 強化されたエンティティ表現は、よりインフォームドなレコメンデーションのためにエンティティとコンテキストの両方の表現を融合するレコメンデーションコンポーネントと、応答テキストで有用なエンティティ関連情報を生成する対話コンポーネントの開発に使用される。 本研究は,Wiki Movie Knowledge Graph (WikiMKG) という,エンティティ記述に整合した高品質な知識グラフを構築した。 実験の結果,kerlはレコメンデーションタスクとレスポンス生成タスクの両方において最先端の結果を得ることができた。

Conversational recommender systems (CRS) utilize natural language interactions and dialogue history to infer user preferences and provide accurate recommendations. Due to the limited conversation context and background knowledge, existing CRSs rely on external sources such as knowledge graphs to enrich the context and model entities based on their inter-relations. However, these methods ignore the rich intrinsic information within entities. To address this, we introduce the Knowledge-Enhanced Entity Representation Learning (KERL) framework, which leverages both the knowledge graph and a pre-trained language model to improve the semantic understanding of entities for CRS. In our KERL framework, entity textual descriptions are encoded via a pre-trained language model, while a knowledge graph helps reinforce the representation of these entities. We also employ positional encoding to effectively capture the temporal information of entities in a conversation. The enhanced entity representation is then used to develop a recommender component that fuses both entity and contextual representations for more informed recommendations, as well as a dialogue component that generates informative entity-related information in the response text. A high-quality knowledge graph with aligned entity descriptions is constructed to facilitate our study, namely the Wiki Movie Knowledge Graph (WikiMKG). The experimental results show that KERL achieves state-of-the-art results in both recommendation and response generation tasks.
翻訳日:2023-12-20 21:04:15 公開日:2023-12-18
# 双極子分子のボース・アインシュタイン凝縮の観察

Observation of Bose-Einstein Condensation of Dipolar Molecules ( http://arxiv.org/abs/2312.10965v1 )

ライセンス: Link先を確認
Niccol\`o Bigagli, Weijun Yuan, Siwei Zhang, Boris Bulatovic, Tijs Karman, Ian Stevenson, Sebastian Will(参考訳) 量子力学法則によって支配される粒子の集合は、顕著な創発的な挙動を示す。 量子物質の原子性気体、液体ヘリウム、電子は全て、その組成と相互作用によって異なる性質を示す。 ボソニック双極子分子の量子縮退サンプルは、波長可変双極子相互作用を持つ物質の新しい相と量子シミュレーションと量子計算のための新しい方法の実現を約束する。 しかし、衝突遮蔽技術によって減らされた場合でも、急激な損失はボース・アインシュタイン凝縮体(BEC)の冷却を妨げている。 本稿では,双極子分子のBECの実現について報告する。 衝突遮蔽強化による2体と3体の損失を強く抑制することにより, ナトリウムセシウム(NaCs)分子を蒸発冷却して量子縮退する。 BECはバイモーダル分布と位相空間密度が1を超えることで自身を明らかにする。 縮合率60(10)%のBECと温度6(2)nKのBECが生成され、寿命が2秒近く安定であることが判明した。 この研究は、これまでアクセスできなかった領域での双極子量子物質の探索への扉を開き、光学格子内の異種双極子液滴、自己組織化結晶相、双極子スピン液体の生成を約束する。

Ensembles of particles governed by quantum mechanical laws exhibit fascinating emergent behavior. Atomic quantum gases, liquid helium, and electrons in quantum materials all show distinct properties due to their composition and interactions. Quantum degenerate samples of bosonic dipolar molecules promise the realization of novel phases of matter with tunable dipolar interactions and new avenues for quantum simulation and quantum computation. However, rapid losses, even when reduced through collisional shielding techniques, have so far prevented cooling to a Bose-Einstein condensate (BEC). In this work, we report on the realization of a BEC of dipolar molecules. By strongly suppressing two- and three-body losses via enhanced collisional shielding, we evaporatively cool sodium-cesium (NaCs) molecules to quantum degeneracy. The BEC reveals itself via a bimodal distribution and a phase-space-density exceeding one. BECs with a condensate fraction of 60(10) % and a temperature of 6(2) nK are created and found to be stable with a lifetime close to 2 seconds. This work opens the door to the exploration of dipolar quantum matter in regimes that have been inaccessible so far, promising the creation of exotic dipolar droplets, self-organized crystal phases, and dipolar spin liquids in optical lattices.
翻訳日:2023-12-20 21:03:50 公開日:2023-12-18
# 音声言語識別のための生成言語表現

Generative linguistic representation for spoken language identification ( http://arxiv.org/abs/2312.10964v1 )

ライセンス: Link先を確認
Peng Shen, Xuguang Lu, Hisashi Kawai(参考訳) 言語特徴の効果的な抽出と応用は、音声言語識別(LID)性能の向上の中心である。 近年のGPTやWhisperのような大規模モデルの成功により、LIDタスクの言語的特徴を抽出するために事前訓練されたモデルを活用する可能性が高まっている。 本稿では,LIDタスクの分類精度向上のための生成機構を通じて,Whisperモデルから言語特徴を抽出するためのデコーダネットワークの利用について検討する。 一つは言語埋め込み法に基づく手法であり、もう一つは音声認識タスクの強化と同時に、lid出力の直接最適化に焦点をあてた戦略である。 我々は,MLS,VoxLingua107,CommonVoiceといった大規模多言語データセットの実験を行った。 実験の結果,提案手法がLIDタスクの領域内および領域外データセットに与える影響が示された。

Effective extraction and application of linguistic features are central to the enhancement of spoken Language IDentification (LID) performance. With the success of recent large models, such as GPT and Whisper, the potential to leverage such pre-trained models for extracting linguistic features for LID tasks has become a promising area of research. In this paper, we explore the utilization of the decoder-based network from the Whisper model to extract linguistic features through its generative mechanism for improving the classification accuracy in LID tasks. We devised two strategies - one based on the language embedding method and the other focusing on direct optimization of LID outputs while simultaneously enhancing the speech recognition tasks. We conducted experiments on the large-scale multilingual datasets MLS, VoxLingua107, and CommonVoice to test our approach. The experimental results demonstrated the effectiveness of the proposed method on both in-domain and out-of-domain datasets for LID tasks.
翻訳日:2023-12-20 21:03:28 公開日:2023-12-18
# 明示的な感情増進を伴うアスペクトベース感情分析

Aspect-Based Sentiment Analysis with Explicit Sentiment Augmentations ( http://arxiv.org/abs/2312.10961v1 )

ライセンス: Link先を確認
Jihong Ouyang, Zhiyao Yang, Silong Liang, Bing Wang, Yimeng Wang, Ximing Li(参考訳) 近年,微粒な感情分類タスクであるアスペクトベース感情分析(ABSA)が注目されている。 「良い」や「悪い」といった意見の言葉で感情情報を調査する作品が多い。 しかし、absaデータセットには暗黙的な感情が広く存在し、明確な意見の言葉は含まないが、アスペクト用語に対する感情を表現する文を指す。 暗黙の感情に対処するために,明示的な感情増強を組み込んだABSA法を提案する。 そこで本研究では,ABSA固有の拡張手法を提案する。 具体的には、ルールベースのデータでT5をトレーニングします。 訓練手順では,構文的距離重み付けと非自明な対比正規化を用い,モデルに明示的な感情を生成するよう指導する。 一方,制約付きビーム探索を用いて,増補文がアスペクト項を含むことを保証する。 ABSA-ESAをABSAの最も人気のあるベンチマークの2つでテストする。 その結果、ABSA-ESAは、暗黙的および明示的な感情精度に基づいてSOTAのベースラインを上回ります。

Aspect-based sentiment analysis (ABSA), a fine-grained sentiment classification task, has received much attention recently. Many works investigate sentiment information through opinion words, such as ''good'' and ''bad''. However, implicit sentiment widely exists in the ABSA dataset, which refers to the sentence containing no distinct opinion words but still expresses sentiment to the aspect term. To deal with implicit sentiment, this paper proposes an ABSA method that integrates explicit sentiment augmentations. And we propose an ABSA-specific augmentation method to create such augmentations. Specifically, we post-trains T5 by rule-based data. We employ Syntax Distance Weighting and Unlikelihood Contrastive Regularization in the training procedure to guide the model to generate an explicit sentiment. Meanwhile, we utilize the Constrained Beam Search to ensure the augmentation sentence contains the aspect terms. We test ABSA-ESA on two of the most popular benchmarks of ABSA. The results show that ABSA-ESA outperforms the SOTA baselines on implicit and explicit sentiment accuracy.
翻訳日:2023-12-20 21:03:13 公開日:2023-12-18
# basic-to-advanced hierarchy diffusion model による詳細なテキスト・モーション合成に向けて

Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced Hierarchical Diffusion Model ( http://arxiv.org/abs/2312.10960v1 )

ライセンス: Link先を確認
Zhenyu Xie and Yang Wu and Xuehao Gao and Zhongqian Sun and Wei Yang and Xiaodan Liang(参考訳) テキスト誘導型モーション合成は、テキスト記述を正確に反映するだけでなく、動きの詳細を可能な限り明らかにする3Dモーションを生成することを目的としている。 ピオネリング法はテキスト間合成の拡散モデルを探索し、大きな優位性を得る。 しかしながら、これらの手法は、原データ分布または低次元潜在空間上で拡散過程を行い、通常、モダリティの不整合やディテールスカースの問題に悩まされる。 そこで,本稿では,低次元・高次元拡散モデルを用いて高精度な動き合成を実現するために,新しい階層拡散モデルであるb2a-hdmを提案する。 具体的には、低次元ラテント空間における基本拡散モデルにより、テキスト記述と整合する中間偏微分結果が得られ、高次元ラテント空間における高度な拡散モデルは、以下の詳細化のプロセスに焦点をあてる。 さらに,高次元モデルの学習を容易にし,拡散モデルの生成可能性を完全に探求する,高度な拡散モデルのためのマルチデノワフレームワークを提案する。 2つのテキスト間ベンチマーク(HumanML3DとKIT-ML)の定量的および定性的な実験結果から、B2A-HDMは、忠実性、モダリティの整合性、多様性の点で既存の最先端手法より優れていることが示された。

Text-guided motion synthesis aims to generate 3D human motion that not only precisely reflects the textual description but reveals the motion details as much as possible. Pioneering methods explore the diffusion model for text-to-motion synthesis and obtain significant superiority. However, these methods conduct diffusion processes either on the raw data distribution or the low-dimensional latent space, which typically suffer from the problem of modality inconsistency or detail-scarce. To tackle this problem, we propose a novel Basic-to-Advanced Hierarchical Diffusion Model, named B2A-HDM, to collaboratively exploit low-dimensional and high-dimensional diffusion models for high quality detailed motion synthesis. Specifically, the basic diffusion model in low-dimensional latent space provides the intermediate denoising result that to be consistent with the textual description, while the advanced diffusion model in high-dimensional latent space focuses on the following detail-enhancing denoising process. Besides, we introduce a multi-denoiser framework for the advanced diffusion model to ease the learning of high-dimensional model and fully explore the generative potential of the diffusion model. Quantitative and qualitative experiment results on two text-to-motion benchmarks (HumanML3D and KIT-ML) demonstrate that B2A-HDM can outperform existing state-of-the-art methods in terms of fidelity, modality consistency, and diversity.
翻訳日:2023-12-20 21:02:49 公開日:2023-12-18
# マルチトーカーオーバーラップ音声認識のための話者マスク変換器

Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition ( http://arxiv.org/abs/2312.10959v1 )

ライセンス: Link先を確認
Peng Shen, Xugang Lu, Hisashi Kawai(参考訳) 複数話者重複音声認識は重要な課題であり、音声認識だけでなく話者ダイアリゼーションタスクも必要である。 本稿では,まず,マルチ話者重複音声認識をサポートするために,自己回帰トランスフォーマベース音声認識モデルに話者ラベルを導入する。 そして、話者ダイアリゼーションを改善するために、個々の話者の音声セグメントを検出する新しい話者マスク分岐を提案する。 提案モデルでは,単一モデルを用いて音声認識と話者ダイアリゼーションの両方を同時に行うことができる。 LibriSpeechをベースとした重複データセットの実験結果は、音声認識と話者ダイアリゼーションの両方において提案手法の有効性を示し、特に比較的複雑なマルチトーカーシナリオにおける話者ダイアリゼーションの精度を高める。

Multi-talker overlapped speech recognition remains a significant challenge, requiring not only speech recognition but also speaker diarization tasks to be addressed. In this paper, to better address these tasks, we first introduce speaker labels into an autoregressive transformer-based speech recognition model to support multi-speaker overlapped speech recognition. Then, to improve speaker diarization, we propose a novel speaker mask branch to detection the speech segments of individual speakers. With the proposed model, we can perform both speech recognition and speaker diarization tasks simultaneously using a single model. Experimental results on the LibriSpeech-based overlapped dataset demonstrate the effectiveness of the proposed method in both speech recognition and speaker diarization tasks, particularly enhancing the accuracy of speaker diarization in relatively complex multi-talker scenarios.
翻訳日:2023-12-20 21:02:09 公開日:2023-12-18
# T符号:効率的な動的ビュー合成のための簡易時間遅延符号

T-Code: Simple Temporal Latent Code for Efficient Dynamic View Synthesis ( http://arxiv.org/abs/2312.11015v1 )

ライセンス: Link先を確認
Zhenhuan Liu, Shuai Liu, Jie Yang, Wei Liu(参考訳) 動的シーンのための新しいビュー合成はコンピュータビジョンにおけるスポットライトの1つである。 効率的な動的ビュー合成の鍵は、時間にわたって情報を格納するコンパクトな表現を見つけることである。 既存の手法はテンソル分解やハッシュグリッド機能結合による高速ダイナミックビュー合成を実現するが、それらの混合表現は時間領域と空間領域の構造的差異を無視し、結果としてサブ最適計算と記憶コストをもたらす。 本稿では,時間次元のみの効率的な非結合遅延符号であるT-Codeについて述べる。 分解された機能設計により、モジュールをカスタマイズすることで、個々の専門性を備えたさまざまなシナリオに対応でき、低コストで望ましい結果が得られる。 本稿では,T-Code(DNGP-T)を用いたマルチカメラ設定および変形型ニューラルネットワークプリミティブのための,高コンパクトなハイブリッドニューラルネットワークプリミティブ(HybridNGP)を提案する。 実験の結果,HybridNGPはトップ処理速度で高い忠実度を実現し,ストレージ消費をはるかに低減し,DNGP-Tはモノクル再構成のための最先端品質と高いトレーニング速度を実現していることがわかった。

Novel view synthesis for dynamic scenes is one of the spotlights in computer vision. The key to efficient dynamic view synthesis is to find a compact representation to store the information across time. Though existing methods achieve fast dynamic view synthesis by tensor decomposition or hash grid feature concatenation, their mixed representations ignore the structural difference between time domain and spatial domain, resulting in sub-optimal computation and storage cost. This paper presents T-Code, the efficient decoupled latent code for the time dimension only. The decomposed feature design enables customizing modules to cater for different scenarios with individual specialty and yielding desired results at lower cost. Based on T-Code, we propose our highly compact hybrid neural graphics primitives (HybridNGP) for multi-camera setting and deformation neural graphics primitives with T-Code (DNGP-T) for monocular scenario. Experiments show that HybridNGP delivers high fidelity results at top processing speed with much less storage consumption, while DNGP-T achieves state-of-the-art quality and high training speed for monocular reconstruction.
翻訳日:2023-12-20 20:55:00 公開日:2023-12-18
# PPT4J: Javaバイナリのパッチ存在テスト

PPT4J: Patch Presence Test for Java Binaries ( http://arxiv.org/abs/2312.11013v1 )

ライセンス: Link先を確認
Zhiyuan Pan, Xing Hu, Xin Xia, Xian Zhan, David Lo, Xiaohu Yang(参考訳) オープンソースソフトウェアで報告されている脆弱性の数は近年大幅に増加している。 セキュリティパッチは、ソフトウェアを攻撃や脆弱性から守るために必要な手段を提供する。 実際には、特にバイナリファイルしか持たない場合、パッチがソフトウェアに統合されているかどうかを特定するのは難しい。 したがって、対象のバイナリ、すなわちパッチ存在テストにパッチを適用するかどうかをテストする能力は、実践者にとって不可欠である。 しかし、パッチから正確な意味情報を得るのは難しいため、誤った結果につながる可能性がある。 本稿では,ppt4j(\textbf{p}$atch$\textbf{p}$resence$\textbf{t}$est$\textbf{for}$$\textbf{j}$avaバイナリ)という新しいパッチ存在テストフレームワークを提案する。 PPT4JはオープンソースのJavaライブラリ用に設計されている。 Javaバイナリ(バイトコードファイル)を入力として、パッチから意味情報を抽出し、機能ベースの技術を使ってバイナリ内のパッチ線を識別する。 提案手法の有効性を評価するため,110個の脆弱性を含むバイナリを持つデータセットを構築した。 その結果、ppt4jは有効効率で98.5%のf1スコアを達成し、ベースラインを15.6%向上した。 さらに,JetBrains IntelliJ IDEA 上で PPT4J の評価を行う。 その結果、ソフトウェアに含まれるサードパーティ製ライブラリが2つのCVEにパッチされていないことが示唆され、この潜在的なセキュリティ問題をベンダーに報告しました。

The number of vulnerabilities reported in open source software has increased substantially in recent years. Security patches provide the necessary measures to protect software from attacks and vulnerabilities. In practice, it is difficult to identify whether patches have been integrated into software, especially if we only have binary files. Therefore, the ability to test whether a patch is applied to the target binary, a.k.a. patch presence test, is crucial for practitioners. However, it is challenging to obtain accurate semantic information from patches, which could lead to incorrect results. In this paper, we propose a new patch presence test framework named PPT4J ($\textbf{P}$atch $\textbf{P}$resence $\textbf{T}$est $\textbf{for}$ $\textbf{J}$ava Binaries). PPT4J is designed for open-source Java libraries. It takes Java binaries (i.e. bytecode files) as input, extracts semantic information from patches, and uses feature-based techniques to identify patch lines in the binaries. To evaluate the effectiveness of our proposed approach PPT4J, we construct a dataset with binaries that include 110 vulnerabilities. The results show that PPT4J achieves an F1 score of 98.5% with reasonable efficiency, improving the baseline by 15.6%. Furthermore, we conduct an in-the-wild evaluation of PPT4J on JetBrains IntelliJ IDEA. The results suggest that a third-party library included in the software is not patched for two CVEs, and we have reported this potential security problem to the vendor.
翻訳日:2023-12-20 20:54:36 公開日:2023-12-18
# 量子コンピューティングに適した結合クラスタ法

Coupled cluster method tailored with quantum computing ( http://arxiv.org/abs/2312.11012v1 )

ライセンス: Link先を確認
Luca Erhart, Yuichiro Yoshida, Viktor Khinevich, Wataru Mizukami(参考訳) 化学系の量子計算では、アクティブ空間近似の導入は避けられない。 しかし、この近似は非活性軌道に関連する電子相関を無視する。 本稿では,結合クラスタ理論と呼ばれる古典理論を用いて量子計算結果を補正する計算手法を提案する。 本手法は,量子デバイスから計算基底トモグラフィにより効率的に量子状態を抽出する。 量子状態の抽出された膨張係数は、調整された結合クラスタ法の枠組み内に結合クラスタアンサッツに埋め込まれる。 相関エネルギー補正方式を用いて,LH,H2O,N2のポテンシャルエネルギー曲線を検証し,本手法の性能を示す。 本手法は,標準結合クラスターが故障しても合理的なポテンシャルエネルギー曲線を示す。 トモグラフィの十分な測定数についても検討した。 さらに1,5-ヘキサジエンのコープ転位反応と摂動三重項補正の活性化エネルギーを推定した。 これらの実証は、量子コンピュータを用いた実用的な量子化学計算の可能性を示唆している。

Introducing an active space approximation is inevitable for the quantum computations of chemical systems. However, this approximation ignores the electron correlations related to non-active orbitals. Here, we propose a computational method for correcting quantum computing results using a well-established classical theory called coupled cluster theory. Our approach efficiently extracts the quantum state from a quantum device by computational basis tomography. The extracted expansion coefficients of the quantum state are embedded into the coupled cluster ansatz within the framework of the tailored coupled cluster method. We demonstrate the performance of our method by verifying the potential energy curves of LiH, H2O, and N2 with a correlation-energy correction scheme. Our method demonstrates reasonable potential energy curves even when the standard coupled cluster fails. The sufficient numbers of measurements for tomography were also investigated. Furthermore, this method successfully estimated the activation energy of the Cope rearrangement reaction of 1,5-hexadiene together with perturbative triples correction. These demonstrations suggest that our approach has the potential for practical quantum chemical calculations using quantum computers.
翻訳日:2023-12-20 20:54:03 公開日:2023-12-18
# VinaLLaMA:LLaMAベースのベトナム財団モデル

VinaLLaMA: LLaMA-based Vietnamese Foundation Model ( http://arxiv.org/abs/2312.11011v1 )

ライセンス: Link先を確認
Quan Nguyen, Huy Pham and Dung Dao(参考訳) 本稿では,ベトナム語のためのオープンウェイトで最先端(SOTA)な大規模言語モデルであるVinaLLaMAについて紹介する。 VinaLLaMAはベトナムの流行を示すだけでなく、ベトナム文化の深い理解も示しており、真に固有のモデルとなっている。 100万の高品質な合成サンプルに基づいてトレーニングされたVinaLLaMA-7B-chatは、VLSP、VMLU、Vicuna Benchmark Vietnamといった主要なベンチマークでSOTA結果を達成する。

In this technical report, we present VinaLLaMA, an open-weight, state-of-the-art (SOTA) Large Language Model for the Vietnamese language, built upon LLaMA-2 with an additional 800 billion trained tokens. VinaLLaMA not only demonstrates fluency in Vietnamese but also exhibits a profound understanding of Vietnamese culture, making it a truly indigenous model. VinaLLaMA-7B-chat, trained on 1 million high-quality synthetic samples, achieves SOTA results on key benchmarks, including VLSP, VMLU, and Vicuna Benchmark Vietnamese, marking a significant advancement in the Vietnamese AI landscape and offering a versatile resource for various applications.
翻訳日:2023-12-20 20:53:51 公開日:2023-12-18
# 外観と動きに基づくカオス条件下のグローバルローカルMAV検出

Global-Local MAV Detection under Challenging Conditions based on Appearance and Motion ( http://arxiv.org/abs/2312.11008v1 )

ライセンス: Link先を確認
Hanqing Guo, Ye Zheng, Yin Zhang, Zhi Gao, Shiyu Zhao(参考訳) マイクロエアロビー(MAV)の視覚的検出は、多くの応用において重要であるため、近年研究の注目を集めている。 しかし,MAVの外観や動作の特徴に基づく既存手法は,背景が複雑であったり,MAVターゲットが小さかったり,計算資源が限られていたりしても,依然として課題に直面している。 本稿では,MAV検出のための動作特徴と外観特徴を融合させるグローバルなMAV検出器を提案する。 この検出器はまずグローバル検出器を用いてMAVターゲットを探索し、次に適応探索領域で動作する局所検出器に切り替えて精度と効率を高める。 さらに、グローバル検出器とローカル検出器の調整に検出器切換器が用いられる。 新しいデータセットが作成され、提案する検出器の有効性を訓練し検証する。 このデータセットには、実際に起こり得るより困難なシナリオが含まれている。 3つの挑戦的データセットに関する広範囲な実験により、提案する検出器は検出精度と計算効率の点で最先端の検出器よりも優れていることが示された。 特に、この検出器はnvidia jetson nx xavier上でほぼリアルタイムフレームレートで動作し、実世界のアプリケーションに対する我々のアプローチの有用性を示しています。 データセットはhttps://github.com/WestlakeIntelligentRobotics/GLADで公開されている。 さらに、この作業を要約したビデオがhttps://youtu.be/Tv473mAzHbUで公開されている。

Visual detection of micro aerial vehicles (MAVs) has received increasing research attention in recent years due to its importance in many applications. However, the existing approaches based on either appearance or motion features of MAVs still face challenges when the background is complex, the MAV target is small, or the computation resource is limited. In this paper, we propose a global-local MAV detector that can fuse both motion and appearance features for MAV detection under challenging conditions. This detector first searches MAV target using a global detector and then switches to a local detector which works in an adaptive search region to enhance accuracy and efficiency. Additionally, a detector switcher is applied to coordinate the global and local detectors. A new dataset is created to train and verify the effectiveness of the proposed detector. This dataset contains more challenging scenarios that can occur in practice. Extensive experiments on three challenging datasets show that the proposed detector outperforms the state-of-the-art ones in terms of detection accuracy and computational efficiency. In particular, this detector can run with near real-time frame rate on NVIDIA Jetson NX Xavier, which demonstrates the usefulness of our approach for real-world applications. The dataset is available at https://github.com/WestlakeIntelligentRobotics/GLAD. In addition, A video summarizing this work is available at https://youtu.be/Tv473mAzHbU.
翻訳日:2023-12-20 20:53:37 公開日:2023-12-18
# 共振器量子電池

Resonator-qutrits quantum battery ( http://arxiv.org/abs/2312.11006v1 )

ライセンス: Link先を確認
Fang-Mei Yang and Fu-Quan Dou(参考訳) 量子バッテリ(quantum battery、qbs)は、エネルギー技術の新たな可能性を開くエネルギー貯蔵および転送マイクロデバイスである。 ここでは、マルチモード共振器とn$超伝導トランスモンクトリッツからなる共振器量子電池(qb)モデルを導出する。 本稿では,qbの帯電特性と自己放出特性を調査し,量子コヒーレンスと量子絡み合いの役割について考察する。 その結果,qbシステムでは環境騒音が必ずしも有害ではないことがわかった。 劣化ノイズを考慮し、エネルギーギャップを操作することにより、効率的な充電、安定したエネルギー貯蔵、遅い自己放電プロセスを備えたQBを実現することができる。 チャーリングエネルギーはコヒーレンスや絡み合いと正に関係しているのに対し、安定エネルギーと自己放出エネルギーはコヒーレンスと負に関係していることがわかった。 消滅する絡み合いの現象は、QBの定常状態の動的疎結合挙動に対応する。 その結果,超伝導基板上での多体QBを実現する方法が得られた。

Quantum batteries (QBs) are energy storage and transfer microdevices that open up new possibilities in energy technology. Here, we derive a resonator-qutrits quantum battery (QB) model consisting of a multi-modes resonator and $N$ superconducting transmon qutrits. We investigate the charging and self-discharging performance of the QB and discuss the roles of quantum coherence and quantum entanglement. The results show that environment noise is not always detrimental for QB systems. The QB with efficient charging, stable energy-storage and slow self-discharging processes can be realized by considering the dephasing noise and manipulating the energy gap. We find that the charing energy is positively related to coherence and entanglement while the stable energy and the self-discharing energy are negatively related to coherence. The phenomenon of the vanishing entanglement corresponds to the dynamic decoupling behavior of the QB's steady states. Our results provide a way to realize many-body QBs on superconducting circuits platform.
翻訳日:2023-12-20 20:53:16 公開日:2023-12-18
# 因果関係の隠れ変数を許容する多用途因果発見フレームワーク

A Versatile Causal Discovery Framework to Allow Causally-Related Hidden Variables ( http://arxiv.org/abs/2312.11001v1 )

ライセンス: Link先を確認
Xinshuai Dong, Biwei Huang, Ignavier Ng, Xiangchen Song, Yujia Zheng, Songyao Jin, Roberto Legaspi, Peter Spirtes, Kun Zhang(参考訳) 既存の因果発見手法のほとんどは、潜在する共同設立者の仮定に依拠しており、実際の問題を解決する上での応用性が制限されている。 本稿では,因果ネットワークにおける因果関係の隠れた変数(例えば,観測変数の効果)の存在を,観測変数上の共分散行列のランク情報に基づいて満たす,因果関係の隠れ変数の存在を想定した,新しい汎用的な因果発見フレームワークを提案する。 まず,条件付き独立性と比較してランクの有効性を検証し,理論的には,特定の潜在構造パターンの識別性に必要十分条件を確立する。 さらに,ランクに基づく潜在因果探索アルゴリズム RLCD を開発し,隠れ変数を効率よく探索し,その濃度を判定し,測定値と隠れ変数の双方に対して因果構造全体を検出する。 また、あるグラフィカルな条件下では、rlcdは潜在因果グラフ全体のマルコフ同値クラスを漸近的に正しく識別する。 合成および実世界のパーソナリティデータセットにおける実験結果は,有限サンプルの場合において提案手法の有効性を示す。

Most existing causal discovery methods rely on the assumption of no latent confounders, limiting their applicability in solving real-life problems. In this paper, we introduce a novel, versatile framework for causal discovery that accommodates the presence of causally-related hidden variables almost everywhere in the causal network (for instance, they can be effects of observed variables), based on rank information of covariance matrix over observed variables. We start by investigating the efficacy of rank in comparison to conditional independence and, theoretically, establish necessary and sufficient conditions for the identifiability of certain latent structural patterns. Furthermore, we develop a Rank-based Latent Causal Discovery algorithm, RLCD, that can efficiently locate hidden variables, determine their cardinalities, and discover the entire causal structure over both measured and hidden ones. We also show that, under certain graphical conditions, RLCD correctly identifies the Markov Equivalence Class of the whole latent causal graph asymptotically. Experimental results on both synthetic and real-world personality data sets demonstrate the efficacy of the proposed approach in finite-sample cases.
翻訳日:2023-12-20 20:53:00 公開日:2023-12-18
# ID-Blau: 急激な拡散に基づく再ブラッシングによる画像劣化

ID-Blau: Image Deblurring by Implicit Diffusion-based reBLurring AUgmentation ( http://arxiv.org/abs/2312.10998v1 )

ライセンス: Link先を確認
Jia-Hao Wu, Fu-Jen Tsai, Yan-Tsung Peng, Chung-Chi Tsai, Chia-Wen Lin, Yen-Yu Lin(参考訳) Image Deblurringは、ダイナミックなシーンで撮影された画像から望ましくないぼやけを取り除くことを目的としている。 モデルアーキテクチャ設計による劣化性能の改善に多くの研究が費やされている。 しかし、画像の劣化に対するデータ拡張に関する研究はほとんどない。 連続動作は画像露光中にぼやけたアーチファクトを生じさせるため,連続空間における動き軌跡をシミュレートして多様なぼやけた画像を生成するための画期的なぼやけ強調法の開発を目指している。 本稿では、制御可能なぼかし条件マップと組み合わせたシャープな画像を用いて、インプリシット拡散に基づく再ブラッシングAUgmentation (ID-Blau)を提案する。 動きの軌跡をシミュレートし,暗黙的に連続空間で表現するために,ぼかし画像の向きや大きさをピクセル単位のぼかし条件マップとしてパラメータ化する。 多様なぼやけた条件をサンプリングすることで、ID-Blauはトレーニングセットに見えない様々なぼやけた画像を生成することができる。 実験結果から,ID-Blauはリアルなぼやけた画像を生成することができ,最先端のデブロアリングモデルの性能を大幅に向上させることができることがわかった。

Image deblurring aims to remove undesired blurs from an image captured in a dynamic scene. Much research has been dedicated to improving deblurring performance through model architectural designs. However, there is little work on data augmentation for image deblurring. Since continuous motion causes blurred artifacts during image exposure, we aspire to develop a groundbreaking blur augmentation method to generate diverse blurred images by simulating motion trajectories in a continuous space. This paper proposes Implicit Diffusion-based reBLurring AUgmentation (ID-Blau), utilizing a sharp image paired with a controllable blur condition map to produce a corresponding blurred image. We parameterize the blur patterns of a blurred image with their orientations and magnitudes as a pixel-wise blur condition map to simulate motion trajectories and implicitly represent them in a continuous space. By sampling diverse blur conditions, ID-Blau can generate various blurred images unseen in the training set. Experimental results demonstrate that ID-Blau can produce realistic blurred images for training and thus significantly improve performance for state-of-the-art deblurring models.
翻訳日:2023-12-20 20:52:38 公開日:2023-12-18
# 大規模言語モデルのための検索型生成:調査

Retrieval-Augmented Generation for Large Language Models: A Survey ( http://arxiv.org/abs/2312.10997v1 )

ライセンス: Link先を確認
Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun and Haofen Wang(参考訳) 大きな言語モデル(LLM)は強力な能力を示しているが、幻覚、知識更新の遅さ、回答の透明性の欠如など、実践的なアプリケーションでは依然として課題に直面している。 Retrieval-Augmented Generation (RAG)は、LLMで質問に答える前に、外部知識ベースから関連する情報を検索することを指す。 RAGは、特に知識集約的なタスクにおいて、解答精度を大幅に向上し、モデル幻覚を減らすことが示されている。 情報源を引用することで、ユーザーは回答の正確さを確認し、モデルの出力に対する信頼を高めることができる。 また、知識の更新やドメイン固有の知識の導入も促進します。 RAGは、LLMのパラメータ化された知識と非パラメータ化された外部知識ベースを効果的に組み合わせ、大規模な言語モデルを実装する上で最も重要な方法の1つである。 本稿では,LLM時代のRAGの発展パラダイムを概説し,Naive RAG,Advanced RAG,Modular RAGの3つのパラダイムを要約する。 次に、RAGの3つの主要コンポーネントの要約と構成を提供する:レトリバー、ジェネレータ、拡張メソッド、そして各コンポーネントの主要な技術である。 さらに、RAGモデルの有効性の評価方法、RAGの2つの評価手法の導入、主要な指標と評価能力の強調、最新の自動評価フレームワークの提示について論じる。 最後に、垂直最適化、水平スケーラビリティ、RAGの技術スタックとエコシステムの3つの側面から将来の研究方向性が紹介される。

Large language models (LLMs) demonstrate powerful capabilities, but they still face challenges in practical applications, such as hallucinations, slow knowledge updates, and lack of transparency in answers. Retrieval-Augmented Generation (RAG) refers to the retrieval of relevant information from external knowledge bases before answering questions with LLMs. RAG has been demonstrated to significantly enhance answer accuracy, reduce model hallucination, particularly for knowledge-intensive tasks. By citing sources, users can verify the accuracy of answers and increase trust in model outputs. It also facilitates knowledge updates and the introduction of domain-specific knowledge. RAG effectively combines the parameterized knowledge of LLMs with non-parameterized external knowledge bases, making it one of the most important methods for implementing large language models. This paper outlines the development paradigms of RAG in the era of LLMs, summarizing three paradigms: Naive RAG, Advanced RAG, and Modular RAG. It then provides a summary and organization of the three main components of RAG: retriever, generator, and augmentation methods, along with key technologies in each component. Furthermore, it discusses how to evaluate the effectiveness of RAG models, introducing two evaluation methods for RAG, emphasizing key metrics and abilities for evaluation, and presenting the latest automatic evaluation framework. Finally, potential future research directions are introduced from three aspects: vertical optimization, horizontal scalability, and the technical stack and ecosystem of RAG.
翻訳日:2023-12-20 20:52:18 公開日:2023-12-18
# 材料設計に関するポジションペーパー --近代的アプローチ-

Position Paper on Materials Design -- A Modern Approach ( http://arxiv.org/abs/2312.10996v1 )

ライセンス: Link先を確認
Willi Grossmann and Sebastian Eilermann and Tim Rensmeyer and Artur Liebert and Michael Hohmann and Christian Wittke and Oliver Niggemann(参考訳) 新しい材料や集合体の伝統的な設計サイクルには2つの根本的な欠点がある。 基礎となる物理的関係は、しばしば複雑すぎて正確に計算され説明できない。 それとは別に、正確な製造パラメータや材料組成など多くの未知の不確実性が実際の組み立て動作を支配している。 機械学習(ML)メソッドは、データ駆動学習を通じてこれらの基本的な制限を克服する。 さらに、現代のアプローチはシステム知識を特に向上させることができる。 表現学習は、物理的かつ必要に応じて、学習した解の象徴的な解釈を可能にする。 このように、最も複雑な物理的関係を考察し、迅速に記述することができる。 さらに、生成MLアプローチは、定義条件に基づいて材料の可能な形態を合成し、不確実性の影響を可視化することができる。 このアプローチは、新しい材料の設計プロセスを加速し、現実的な材料行動の予測と解釈を可能にする。

Traditional design cycles for new materials and assemblies have two fundamental drawbacks. The underlying physical relationships are often too complex to be precisely calculated and described. Aside from that, many unknown uncertainties, such as exact manufacturing parameters or materials composition, dominate the real assembly behavior. Machine learning (ML) methods overcome these fundamental limitations through data-driven learning. In addition, modern approaches can specifically increase system knowledge. Representation Learning allows the physical, and if necessary, even symbolic interpretation of the learned solution. In this way, the most complex physical relationships can be considered and quickly described. Furthermore, generative ML approaches can synthesize possible morphologies of the materials based on defined conditions to visualize the effects of uncertainties. This modern approach accelerates the design process for new materials and enables the prediction and interpretation of realistic materials behavior.
翻訳日:2023-12-20 20:51:52 公開日:2023-12-18
# 交叉拡散モデルを用いたリアルな人間運動生成

Realistic Human Motion Generation with Cross-Diffusion Models ( http://arxiv.org/abs/2312.10993v1 )

ライセンス: Link先を確認
Zeping Ren, Shaoli Huang, Xiu Li(参考訳) テキスト記述に基づく高品質な人間の動きを生成する新しい手法であるクロスヒューマンモーション拡散モデル(CrossDiff)を紹介する。 拡散モデルのトレーニングにおいて,共有トランスネットワークを用いた3次元および2次元情報を統合し,単一の特徴空間に運動雑音を統一する。 これにより、元の次元に関係なく、特徴を3dと2dのモーション表現にクロスデコードすることができる。 CrossDiffの最大の利点はクロス拡散機構で、2Dノイズまたは3Dノイズをトレーニング中にクリーンな動作に戻すことができる。 この能力は両動作表現の相補的な情報を活用し、3D情報のみに依存するモデルによってしばしば見逃される複雑な人間の動きの詳細をキャプチャする。 その結果、CrossDiffは両方の表現の強みを効果的に組み合わせ、より現実的な動き列を生成する。 本実験では,テキスト・トゥ・モーション・ベンチマークにおける最先端性能の競争力を示す。 さらに,本手法は運動生成の質を一貫して向上させ,複雑な全身運動をキャプチャする。 さらに、事前訓練されたモデルでは、トレーニング中に3dモーショングラウンド真理のないワイルドな2dモーションデータを使用して3dモーションを生成し、幅広いアプリケーションの可能性と利用可能なデータリソースの効率的な利用を強調する。 プロジェクトページ: https://wonderno.github.io/crossdiff-webpage/

We introduce the Cross Human Motion Diffusion Model (CrossDiff), a novel approach for generating high-quality human motion based on textual descriptions. Our method integrates 3D and 2D information using a shared transformer network within the training of the diffusion model, unifying motion noise into a single feature space. This enables cross-decoding of features into both 3D and 2D motion representations, regardless of their original dimension. The primary advantage of CrossDiff is its cross-diffusion mechanism, which allows the model to reverse either 2D or 3D noise into clean motion during training. This capability leverages the complementary information in both motion representations, capturing intricate human movement details often missed by models relying solely on 3D information. Consequently, CrossDiff effectively combines the strengths of both representations to generate more realistic motion sequences. In our experiments, our model demonstrates competitive state-of-the-art performance on text-to-motion benchmarks. Moreover, our method consistently provides enhanced motion generation quality, capturing complex full-body movement intricacies. Additionally, with a pretrained model,our approach accommodates using in the wild 2D motion data without 3D motion ground truth during training to generate 3D motion, highlighting its potential for broader applications and efficient use of available data resources. Project page: https://wonderno.github.io/CrossDiff-webpage/.
翻訳日:2023-12-20 20:51:42 公開日:2023-12-18
# ハイブリッドフォトニックプラズモニックキャビティにおける分子光学を用いた室温での単一光子生成

Single-photon generation at room temperature using molecular optomechanics in a hybrid photonic-plasmonic cavity ( http://arxiv.org/abs/2312.10990v1 )

ライセンス: Link先を確認
Shabnam Abutalebi B.A., Seyed Mahmoud Ashrafi, Hassan RanjbarAskari, Alireza Bahrampour(参考訳) 本論文では, ハイブリッドフォトニック・プラズモニックキャビティにおける分子光学系に基づく室温単一光子発生のための新しい集積構造を提案する。 提案構造は、2dフォトニック結晶共振器と結合したプラズモニックキャビティ内の1分子を含む。 本稿では,4つの異なる結合系に対する第2次相関関数g^2 (0) の計算により,スキームの能力を理論的に同定する。 量子経路と破壊的干渉機構を効率的かつ望ましい基礎の選択を通じて実証する。 さらに, 弱い分子オプトメカニクスカップリングにおいて, 従来と異なる光子遮断効果が生じることが判明した。 この構造は、室温での量子ネットワークのための統合単一光子源として機能する可能性を秘めている。

We propose a novel integrated structure for single photon generation at room temperature based on a molecular optomechanics system in a hybrid photonic-plasmonic cavity. The proposed structure comprises a single molecule within a plasmonic cavity, coupled to a 2D photonic crystal resonator. In this paper, we theoretically identify the ability of the scheme through calculation second order correlation function g^2 (0) for four different coupling regimes. We demonstrate the quantum paths and the destructive interference mechanism through the selection of efficient and preferred basis. Furthermore, we find that the unconventional photon blockade effects can occurs in the weak molecular optomechanics coupling. This structure holds the potential to serve as an integrated single-photon source for quantum networks at room temperature.
翻訳日:2023-12-20 20:51:17 公開日:2023-12-18
# 外部分布一般化のためのグラフ共混合によるグラフ不変学習

Graph Invariant Learning with Subgraph Co-mixup for Out-Of-Distribution Generalization ( http://arxiv.org/abs/2312.10988v1 )

ライセンス: Link先を確認
Tianrui Jia, Haoyang Li, Cheng Yang, Tao Tao, Chuan Shi(参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習においてよく機能することが実証されているが、アウト・オブ・ディストリビューション(OOD)データを扱う場合、常に一般化能力に欠ける。 定義された複数の環境間の不変原理を背景としたグラフ不変学習手法は,この問題に対処する上で有効であることを示す。 しかし、既存の手法はよく定義された、あるいは正確に生成された環境分割に大きく依存しており、実際は得られにくいため、OODの準最適一般化性能に繋がる。 本稿では,混合した複数の環境を共同で生成し,混合したグラフデータから不変パターンをキャプチャできる,不変パターンと変種パターンの共混合戦略に基づく新しいグラフ不変学習手法を提案する。 具体的には、まず、不変部分グラフを識別する部分グラフ抽出器を採用する。 その後、我々は新しい混合戦略、すなわち共同実行環境ミックスアップと不変ミックスアップを設計する。 環境混合では, 変動環境関連サブグラフを混在させて, 多様な環境を十分に生成し, グラフ不変学習の品質を保証することが重要である。 invariant mixupでは、不変部分グラフを混合し、さらに、ood一般化のためのスプリアス相関を取り除きながら、グラフの背後にある不変パターンをキャプチャすることを奨励する。 提案する環境ミックスアップと不変ミックスアップは相互に促進可能であることを示す。 人工的および実世界の両方のデータセットに対する大規模な実験により、我々の手法は様々な分布シフトの下で最先端を著しく上回ることを示した。

Graph neural networks (GNNs) have been demonstrated to perform well in graph representation learning, but always lacking in generalization capability when tackling out-of-distribution (OOD) data. Graph invariant learning methods, backed by the invariance principle among defined multiple environments, have shown effectiveness in dealing with this issue. However, existing methods heavily rely on well-predefined or accurately generated environment partitions, which are hard to be obtained in practice, leading to sub-optimal OOD generalization performances. In this paper, we propose a novel graph invariant learning method based on invariant and variant patterns co-mixup strategy, which is capable of jointly generating mixed multiple environments and capturing invariant patterns from the mixed graph data. Specifically, we first adopt a subgraph extractor to identify invariant subgraphs. Subsequently, we design one novel co-mixup strategy, i.e., jointly conducting environment Mixup and invariant Mixup. For the environment Mixup, we mix the variant environment-related subgraphs so as to generate sufficiently diverse multiple environments, which is important to guarantee the quality of the graph invariant learning. For the invariant Mixup, we mix the invariant subgraphs, further encouraging to capture invariant patterns behind graphs while getting rid of spurious correlations for OOD generalization. We demonstrate that the proposed environment Mixup and invariant Mixup can mutually promote each other. Extensive experiments on both synthetic and real-world datasets demonstrate that our method significantly outperforms state-of-the-art under various distribution shifts.
翻訳日:2023-12-20 20:51:06 公開日:2023-12-18
# 脳とテキストのデコードにおけるデータ汚染問題

Data Contamination Issues in Brain-to-Text Decoding ( http://arxiv.org/abs/2312.10987v1 )

ライセンス: Link先を確認
Congchi Yin, Qian Yu, Zhiwei Fang, Jie He, Changping Peng, Zhangang Lin, Jingping Shao, Piji Li(参考訳) 非侵襲的な認知信号を自然言語にデコードすることは、長年、実用的な脳-コンピュータインターフェース(BCI)の構築の目標であった。 最近の大きなマイルストーンは、機能的磁気共鳴イメージング(fMRI)や脳波(EEG)といった認知信号をオープンな語彙設定下でテキストに復号することに成功している。 しかし、認知信号復号タスクのトレーニング、検証、テストのためにデータセットを分割する方法はまだ議論の余地がある。 本稿では,現在のデータセット分割手法を体系的に分析し,データ汚染の存在がモデル性能を大幅に上回ることを示す。 具体的には、まず被験者の認知信号の漏洩が、堅牢なエンコーダの訓練を損なうことを明らかにする。 第2に,テキスト刺激の漏洩により,自動回帰デコーダがテストセットに情報を記憶することを証明する。 デコーダは、認知信号を真に理解するためではなく、高精度なテキストを生成する。 データ汚染の影響をなくし、異なるモデルの一般化能力を十分に評価するために、異なるタイプの認知データセット(例えば、fmri、脳波)に対する新しい分割法を提案する。 また,提案したデータセット分割パラダイムに基づくSOTA脳テキスト復号モデルの性能を,さらなる研究のベースラインとして検証した。

Decoding non-invasive cognitive signals to natural language has long been the goal of building practical brain-computer interfaces (BCIs). Recent major milestones have successfully decoded cognitive signals like functional Magnetic Resonance Imaging (fMRI) and electroencephalogram (EEG) into text under open vocabulary setting. However, how to split the datasets for training, validating, and testing in cognitive signal decoding task still remains controversial. In this paper, we conduct systematic analysis on current dataset splitting methods and find the existence of data contamination largely exaggerates model performance. Specifically, first we find the leakage of test subjects' cognitive signals corrupts the training of a robust encoder. Second, we prove the leakage of text stimuli causes the auto-regressive decoder to memorize information in test set. The decoder generates highly accurate text not because it truly understands cognitive signals. To eliminate the influence of data contamination and fairly evaluate different models' generalization ability, we propose a new splitting method for different types of cognitive datasets (e.g. fMRI, EEG). We also test the performance of SOTA Brain-to-Text decoding models under the proposed dataset splitting paradigm as baselines for further research.
翻訳日:2023-12-20 20:50:38 公開日:2023-12-18
# 2次元遅延核融合によるロングテール3次元検出

Long-Tailed 3D Detection via 2D Late Fusion ( http://arxiv.org/abs/2312.10986v1 )

ライセンス: Link先を確認
Yechi Ma, Neehar Peri, Shuoquan Wei, Wei Hua, Deva Ramanan, Yanan Li, Shu Kong(参考訳) 自律走行車(AV)は、安全ナビゲーションのために、一般的なクラスと稀なクラスのオブジェクトを正確に検出する必要がある。 現代のLiDARベースの3D検出器は、希少なクラス(例えば、CenterPointはベビーカーで5.1 APしか達成していない)で性能が良くない。 RGB画像は、そのような曖昧さを解決するための視覚的証拠を提供し、RGB-LiDAR融合の研究を動機付けている。 本稿では,RGBおよびLiDAR検出器を独立に訓練した,シンプルな遅延融合フレームワークを探索する。 Unlike recent end-to-end methods which require paired multi-modal training data, our late-fusion approach can easily leverage large-scale uni-modal datasets, significantly improving rare class detection.In particular, we examine three critical components in this late-fusion framework from first principles, including whether to train 2D or 3D RGB detectors, whether to match RGB and LiDAR detections in 3D or the projected 2D image plane, and how to fuse matched detections.Extensive experiments reveal that 2D RGB detectors achieve better recognition accuracy than 3D RGB detectors, matching on the 2D image plane mitigates depth estimation errors, and fusing scores probabilistically with calibration leads to state-of-the-art LT3D performance. 我々のレイトフュージョンアプローチは、確立されたnuScenes LT3Dベンチマークで51.4 mAPを達成する。

Autonomous vehicles (AVs) must accurately detect objects from both common and rare classes for safe navigation, motivating the problem of Long-Tailed 3D Object Detection (LT3D). Contemporary LiDAR-based 3D detectors perform poorly on rare classes (e.g., CenterPoint only achieves 5.1 AP on stroller) as it is difficult to recognize objects from sparse LiDAR points alone. RGB images provide visual evidence to help resolve such ambiguities, motivating the study of RGB-LiDAR fusion. In this paper, we delve into a simple late-fusion framework that ensembles independently trained RGB and LiDAR detectors. Unlike recent end-to-end methods which require paired multi-modal training data, our late-fusion approach can easily leverage large-scale uni-modal datasets, significantly improving rare class detection.In particular, we examine three critical components in this late-fusion framework from first principles, including whether to train 2D or 3D RGB detectors, whether to match RGB and LiDAR detections in 3D or the projected 2D image plane, and how to fuse matched detections.Extensive experiments reveal that 2D RGB detectors achieve better recognition accuracy than 3D RGB detectors, matching on the 2D image plane mitigates depth estimation errors, and fusing scores probabilistically with calibration leads to state-of-the-art LT3D performance. Our late-fusion approach achieves 51.4 mAP on the established nuScenes LT3D benchmark, improving over prior work by 5.9 mAP.
翻訳日:2023-12-20 20:50:18 公開日:2023-12-18
# Laguerre-Gaussianモードを用いた3次元超局所化実験

Experimental 3D super-localization with Laguerre-Gaussian modes ( http://arxiv.org/abs/2312.11044v1 )

ライセンス: Link先を確認
Chenyu Hu, Liang Xu, Ben Wang, Zhiwen Li, Yipeng Zhang, Yong Zhang, Lijian Zhang(参考訳) 超高分解能イメージングでは3次元の3次元局所化精度の向上が最重要となる。 Laguerre-Gaussian (LG) モードとその重ね合わせなどの点展開関数 (PSF) を適切に設計することにより、3次元局所化精度の究極の限界を高めることができる。 しかし、複雑な検出戦略と実用上の限界がしばしば伴うため、これらの限界を達成することは困難である。 本稿では,多パラメータ推定フレームワークにおいて,LGモードの究極の3次元局所化限界とその重畳,特に回転モードを厳密に導出する。 以上の結果から,lgモードの3次元超局所化を実現するために必要な情報の大部分は,実現可能な強度検出によって得られることがわかった。 さらに、3次元の究極の精度は、アジミュタール指数 $l$ が 0 であるときに達成できる。 画素や検出器ノイズを考慮して点源の3次元位置に収束する反復的最大推定(MLE)アルゴリズムを提案する。 実験により,lgモードをガウスモードと比較した場合,最大2倍,最大20倍の軸方向位置決め精度が向上した。 また, 近点領域における回転モードの軸方向局所化能力も向上し, 単一LGモードの限界を克服した。 特に、現実的な収差が存在する場合、アルゴリズムはCram\'{e}r-Rao の下界を強く達成する。 本研究は,超高分解能顕微鏡の進歩を促進するため,実現可能な3次元位置推定精度の評価と最適化に有用な知見を提供する。

Improving three-dimensional (3D) localization precision is of paramount importance for super-resolution imaging. By properly engineering the point spread function (PSF), such as utilizing Laguerre-Gaussian (LG) modes and their superposition, the ultimate limits of 3D localization precision can be enhanced. However, achieving these limits is challenging, as it often involves complicated detection strategies and practical limitations. In this work, we rigorously derive the ultimate 3D localization limits of LG modes and their superposition, specifically rotation modes, in the multi-parameter estimation framework. Our findings reveal that a significant portion of the information required for achieving 3D super-localization of LG modes can be obtained through feasible intensity detection. Moreover, the 3D ultimate precision can be achieved when the azimuthal index $l$ is zero. To provide a proof-of-principle demonstration, we develop an iterative maximum likelihood estimation (MLE) algorithm that converges to the 3D position of a point source, considering the pixelation and detector noise. The experimental implementation exhibits an improvement of up to two-fold in lateral localization precision and up to twenty-fold in axial localization precision when using LG modes compared to Gaussian mode. We also showcase the superior axial localization capability of the rotation mode within the near-focus region, effectively overcoming the limitations encountered by single LG modes. Notably, in the presence of realistic aberration, the algorithm robustly achieves the Cram\'{e}r-Rao lower bound. Our findings provide valuable insights for evaluating and optimizing the achievable 3D localization precision, which will facilitate the advancements in super-resolution microscopy.
翻訳日:2023-12-20 20:44:17 公開日:2023-12-18
# tdelta:学習テキストアレンジメントに基づく軽量でロバストなテーブル検出手法

TDeLTA: A Light-weight and Robust Table Detection Method based on Learning Text Arrangement ( http://arxiv.org/abs/2312.11043v1 )

ライセンス: Link先を確認
Yang Fan, Xiangping Wu, Qingcai Chen, Heng Li, Yan Huang, Zhixiang Cai, Qitian Wu(参考訳) テーブルの多様性により、テーブル検出は大きな課題となり、既存のモデルはより退屈で複雑になる。 ハイパフォーマンスを達成したにも関わらず、トレーニングセットのテーブルスタイルに過度に適合することが多く、他のドメインで分散テーブルに遭遇すると、パフォーマンスが著しく低下する。 この問題に取り組むために、テーブルの本質から始めます。テーブルは行と列に配置されたテキストのセットです。 そこで本研究では,学習テキストアレンジメント(TDeLTA)に基づく,新しい,軽量で堅牢なテーブル検出手法を提案する。 TDeLTAはテキストブロックを入力として取り、シーケンシャルエンコーダとアテンションモジュールでそれらの配列をモデル化する。 表を正確に特定するために,表内の意味的役割に応じてテキストブロックを4つのカテゴリに分類するテキスト分類タスクを設計する。 PDF から解析したテキストブロックとオープンソース OCR ツールで抽出したテキストブロックについて実験を行った。 いくつかの最先端の手法と比較して、TDeLTAは大規模な公開データセットの3.1Mモデルパラメータで競合する結果を得る。 さらに、0ショット設定下でのクロスドメインデータに直面した場合、tdeltaはベースラインを7%近くという大きなマージンで上回り、提案モデルの強固さと転送性を示している。

The diversity of tables makes table detection a great challenge, leading to existing models becoming more tedious and complex. Despite achieving high performance, they often overfit to the table style in training set, and suffer from significant performance degradation when encountering out-of-distribution tables in other domains. To tackle this problem, we start from the essence of the table, which is a set of text arranged in rows and columns. Based on this, we propose a novel, light-weighted and robust Table Detection method based on Learning Text Arrangement, namely TDeLTA. TDeLTA takes the text blocks as input, and then models the arrangement of them with a sequential encoder and an attention module. To locate the tables precisely, we design a text-classification task, classifying the text blocks into 4 categories according to their semantic roles in the tables. Experiments are conducted on both the text blocks parsed from PDF and extracted by open-source OCR tools, respectively. Compared to several state-of-the-art methods, TDeLTA achieves competitive results with only 3.1M model parameters on the large-scale public datasets. Moreover, when faced with the cross-domain data under the 0-shot setting, TDeLTA outperforms baselines by a large margin of nearly 7%, which shows the strong robustness and transferability of the proposed model.
翻訳日:2023-12-20 20:43:49 公開日:2023-12-18
# UniChest:マルチソース胸部X線分類のためのコンカレント・ディバイド事前トレーニング

UniChest: Conquer-and-Divide Pre-training for Multi-Source Chest X-Ray Classification ( http://arxiv.org/abs/2312.11038v1 )

ライセンス: Link先を確認
Tianjie Dai, Ruipeng Zhang, Feng Hong, Jiangchao Yao, Ya Zhang, Yanfeng Wang(参考訳) マルチモーダル情報を利用してトレーニング効率と有効性を促進する視覚言語前訓練(vlp)は、自然領域の視覚認識において大きな成功を収め、胸部x線(cxrs)の医用画像診断において有望である。 しかし、現在の研究は主にcxrの単一データセットの探索に注意を払っており、これはマルチソースcxrsデータセットのより大きなハイブリッド上にこの強力なパラダイムの可能性を封じている。 多様なソースからサンプルをブレンドすることで、モデル一般化を改善する利点があるが、既存のソース間の不均一性のため、各ソースのタスクに対して一貫した優位性を維持することは依然として困難である。 このジレンマに対処するために、UniChestと呼ばれるコンカー・アンド・ディヴィッド事前学習フレームワークを設計し、CXRの複数ソースの協調利益をフル活用することを目的として、ソースの不均一性の負の影響を低減した。 特に、UniChestの ``Conquer' ステージは、モデルに十分なマルチソース共通パターンのキャプチャを奨励し、 ‘`Divide' ステージは、パーソナライズされたパターンを異なる小さな専門家(クエリネットワーク)に絞り込むのに役立つ。 chestx-ray14, chexpert, vindr-cxr, shenzhen, open-i, siim-acr pneumothorax など,多くのベンチマークで徹底的な実験を行い,unichest の有効性の検証を行い,https://github.com/elfenreigen/unichest でコードと事前トレーニングモデルをリリースする。

Vision-Language Pre-training (VLP) that utilizes the multi-modal information to promote the training efficiency and effectiveness, has achieved great success in vision recognition of natural domains and shown promise in medical imaging diagnosis for the Chest X-Rays (CXRs). However, current works mainly pay attention to the exploration on single dataset of CXRs, which locks the potential of this powerful paradigm on larger hybrid of multi-source CXRs datasets. We identify that although blending samples from the diverse sources offers the advantages to improve the model generalization, it is still challenging to maintain the consistent superiority for the task of each source due to the existing heterogeneity among sources. To handle this dilemma, we design a Conquer-and-Divide pre-training framework, termed as UniChest, aiming to make full use of the collaboration benefit of multiple sources of CXRs while reducing the negative influence of the source heterogeneity. Specially, the ``Conquer" stage in UniChest encourages the model to sufficiently capture multi-source common patterns, and the ``Divide" stage helps squeeze personalized patterns into different small experts (query networks). We conduct thorough experiments on many benchmarks, e.g., ChestX-ray14, CheXpert, Vindr-CXR, Shenzhen, Open-I and SIIM-ACR Pneumothorax, verifying the effectiveness of UniChest over a range of baselines, and release our codes and pre-training models at https://github.com/Elfenreigen/UniChest.
翻訳日:2023-12-20 20:43:25 公開日:2023-12-18
# SinMPI: 拡張多面体画像を用いた単一画像からの新たなビュー合成

SinMPI: Novel View Synthesis from a Single Image with Expanded Multiplane Images ( http://arxiv.org/abs/2312.11037v1 )

ライセンス: Link先を確認
Guo Pu, Peng-Shuai Wang, Zhouhui Lian(参考訳) シングルイメージの新規ビュー合成は、単一入力画像から無限の一貫性のあるビューを生成することを目的とした、困難かつ進行中の課題である。 生成した新規ビューの質を高めるために重要な努力がなされているが、現実的な新規ビュー画像の生成に欠かせないシーン表現の拡大にはあまり注意が払われていない。 本稿では,拡張多面体画像(MPI)を3次元シーン表現として用いて,MPIの視点範囲を大幅に拡大し,大規模な多面体空間から高品質な新規ビューを生成するSinMPIを提案する。 本手法の主な考え方は,立体深度推定器によって予測される深度に応じて,すべてのシーンコンテンツを拡張多面画像に投影し,深度対応のワープ・インペイントモジュールによって生成された擬似多面データの下で,多面画像の最適化を行うことである。 本手法の最先端性を検証するために,定性的および定量的な実験が実施されている。 私たちのコードとデータはhttps://github.com/TrickyGo/SinMPI.comで公開されています。

Single-image novel view synthesis is a challenging and ongoing problem that aims to generate an infinite number of consistent views from a single input image. Although significant efforts have been made to advance the quality of generated novel views, less attention has been paid to the expansion of the underlying scene representation, which is crucial to the generation of realistic novel view images. This paper proposes SinMPI, a novel method that uses an expanded multiplane image (MPI) as the 3D scene representation to significantly expand the perspective range of MPI and generate high-quality novel views from a large multiplane space. The key idea of our method is to use Stable Diffusion to generate out-of-view contents, project all scene contents into an expanded multiplane image according to depths predicted by monocular depth estimators, and then optimize the multiplane image under the supervision of pseudo multi-view data generated by a depth-aware warping and inpainting module. Both qualitative and quantitative experiments have been conducted to validate the superiority of our method to the state of the art. Our code and data are available at https://github.com/TrickyGo/SinMPI.
翻訳日:2023-12-20 20:42:48 公開日:2023-12-18
# UniGen: 大規模言語モデルによる検索と質問応答のための統合生成フレームワーク

UniGen: A Unified Generative Framework for Retrieval and Question Answering with Large Language Models ( http://arxiv.org/abs/2312.11036v1 )

ライセンス: Link先を確認
Xiaoxi Li, Yujia Zhou, Zhicheng Dou(参考訳) GDR(Generative Document Retrieval)とGAR(Geunded Answer Generation)の2つの主要なタスクを含む生成情報検索は、情報検索と自然言語処理の分野で大きな注目を集めている。 GDRとGARの既存の手法は別個の検索モジュールと読み取りモジュールに依存しており、同時最適化を妨げている。 これを解決するために、大きな言語モデルの能力を生かした単一生成モデルに両方のタスクを統合する、検索と質問応答のための \textbf{Uni}fied \textbf{Gen}erative フレームワークである \textbf{UniGen} を提案する。 UniGenは共有エンコーダと2つの異なるデコーダを使用して生成検索と質問応答を行う。 両タスクの学習を容易にするために,大規模な言語モデルによって生成されたコネクタを導入し,クエリ入力と生成対象,およびドキュメント識別子と回答のギャップを埋める。 さらに,両タスクを反復的に改善するために,生成した回答と検索文書を活用する反復的拡張戦略を提案する。 ms marcoとnqデータセットの広範な実験を通じて、ユニゲンの有効性を実証し、検索と質問応答タスクの両方において優れた性能を示す。

Generative information retrieval, encompassing two major tasks of Generative Document Retrieval (GDR) and Grounded Answer Generation (GAR), has gained significant attention in the area of information retrieval and natural language processing. Existing methods for GDR and GAR rely on separate retrieval and reader modules, which hinder simultaneous optimization. To overcome this, we present \textbf{UniGen}, a \textbf{Uni}fied \textbf{Gen}erative framework for retrieval and question answering that integrates both tasks into a single generative model leveraging the capabilities of large language models. UniGen employs a shared encoder and two distinct decoders for generative retrieval and question answering. To facilitate the learning of both tasks, we introduce connectors, generated by large language models, to bridge the gaps between query inputs and generation targets, as well as between document identifiers and answers. Furthermore, we propose an iterative enhancement strategy that leverages generated answers and retrieved documents to iteratively improve both tasks. Through extensive experiments on the MS MARCO and NQ datasets, we demonstrate the effectiveness of UniGen, showcasing its superior performance in both the retrieval and the question answering tasks.
翻訳日:2023-12-20 20:42:25 公開日:2023-12-18
# 新しいデータセットとグローバルリンクモデルを用いた多動カメラ歩行者追跡

Multi-Moving Camera Pedestrian Tracking with a New Dataset and Global Link Model ( http://arxiv.org/abs/2312.11035v1 )

ライセンス: Link先を確認
Yanting Zhang, Shuanghong Wang, Qingxiang Wang, Cairong Yan, Rui Fan(参考訳) 自動運転車の運転安全性の確保はますます重要になってきており、道路上の歩行者の系統的な追跡の必要性が浮き彫りになっている。 ほとんどの車両には視覚センサーが装備されているが、異なるエージェントによる大規模なビジュアルデータセットはまだ十分に研究されていない。 基本的に、MTMC(Multi-target Multi-camera)追跡システムは、シングルカメラトラッキング(SCT)とインターカメラトラッキング(ICT)の2つのモジュールで構成されている。 MTMCのトラッキングは非常に複雑な作業だが、複数のカメラをまたいで追跡することはさらに困難だ。 本稿では,MTMMC(Multi-target Multi-moving Camera)の追跡に焦点をあて,研究コミュニティから注目が集まっている。 MTMMC追跡のためのデータセットはほとんどないため、さまざまな駆動シナリオの下でシーケンスを含むMulti-Moving Camera Track (MMCT)と呼ばれる新しいデータセットを収集します。 既存のほとんどのSCTトラッカーで直面するアイデンティティスイッチの一般的な問題,特にカメラとターゲット間のエゴモーションによる移動カメラに対処するため,Linkerと呼ばれる軽量なグローバルリンクモデルが提案され,同じターゲットの2つの解離トラックレットを同一カメラ内の完全な軌道に関連付けることでアイデンティティスイッチを緩和する。 Linkerを組み込んだ既存のSCTトラッカーは、一般的に大幅に改善されている。 さらに,ICT 用移動カメラ間の歩行者関連環境下での堅牢な外観特徴を抽出するために,Re-ID (Re-ID) の強力なベースラインアプローチを効果的に組み込むことにより,MTMMC トラッキングシステムを大幅に改良し,複数の移動カメラの協調マイニングに向けた一歩を踏み出すことができる。 データセットはhttps://github.com/dhu-mmct/DHU-MMCT}{https://github.com/dhu-mmct/DHU-MMCTで入手できる。

Ensuring driving safety for autonomous vehicles has become increasingly crucial, highlighting the need for systematic tracking of pedestrians on the road. Most vehicles are equipped with visual sensors, however, the large-scale visual dataset from different agents has not been well studied yet. Basically, most of the multi-target multi-camera (MTMC) tracking systems are composed of two modules: single camera tracking (SCT) and inter-camera tracking (ICT). To reliably coordinate between them, MTMC tracking has been a very complicated task, while tracking across multi-moving cameras makes it even more challenging. In this paper, we focus on multi-target multi-moving camera (MTMMC) tracking, which is attracting increasing attention from the research community. Observing there are few datasets for MTMMC tracking, we collect a new dataset, called Multi-Moving Camera Track (MMCT), which contains sequences under various driving scenarios. To address the common problems of identity switch easily faced by most existing SCT trackers, especially for moving cameras due to ego-motion between the camera and targets, a lightweight appearance-free global link model, called Linker, is proposed to mitigate the identity switch by associating two disjoint tracklets of the same target into a complete trajectory within the same camera. Incorporated with Linker, existing SCT trackers generally obtain a significant improvement. Moreover, a strong baseline approach of re-identification (Re-ID) is effectively incorporated to extract robust appearance features under varying surroundings for pedestrian association across moving cameras for ICT, resulting in a much improved MTMMC tracking system, which can constitute a step further towards coordinated mining of multiple moving cameras. The dataset is available at https://github.com/dhu-mmct/DHU-MMCT}{https://github.com/dhu-mmct/DHU-MMCT .
翻訳日:2023-12-20 20:42:02 公開日:2023-12-18
# パートナーによる部分的ラベル学習

Partial Label Learning with a Partner ( http://arxiv.org/abs/2312.11034v1 )

ライセンス: Link先を確認
Chongjie Si, Zekun Jiang, Xuehui Wang, Yan Wang, Xiaokang Yang, Wei Shen(参考訳) 部分的ラベル学習(pll)では、各インスタンスは1つだけが基底である候補ラベルの集合に関連付けられる。 既存の研究の大部分は、正しいラベルを特定するためのラベル付けの信頼性を推定するために、堅牢な分類器の構築に焦点を当てている。 しかし、これらの方法は通常、ラベルのずれたサンプルの修正に苦労する。 本稿では,既存のPLL手法によるサンプルの識別と修正を支援するため,新しいパートナー分類法を導入し,新しい「相互監視」パラダイムを提案する。 具体的には、サンプルの非候補ラベルを割り当てるべきではないという暗黙の事実に基づいて、パートナー分類器をインスタンス化するが、これは本質的に正確であり、PLLでは十分に研究されていない。 さらに、ベース分類器とパートナー分類器を結びつけるために、新しい協調用語を定式化する。 相互監視のそれぞれの段階では、両方の分類器は、特定のラベルの過信を防止するために、ぼやけたメカニズムによってお互いの予測をぼかす。 広汎な実験により、この学習パラダイムと組み合わせることで、確立されたスタンドアローンおよび深層学習に基づくPLLアプローチの性能と曖昧さを著しく改善できることが示されている。

In partial label learning (PLL), each instance is associated with a set of candidate labels among which only one is ground-truth. The majority of the existing works focuses on constructing robust classifiers to estimate the labeling confidence of candidate labels in order to identify the correct one. However, these methods usually struggle to rectify mislabeled samples. To help existing PLL methods identify and rectify mislabeled samples, in this paper, we introduce a novel partner classifier and propose a novel ``mutual supervision'' paradigm. Specifically, we instantiate the partner classifier predicated on the implicit fact that non-candidate labels of a sample should not be assigned to it, which is inherently accurate and has not been fully investigated in PLL. Furthermore, a novel collaborative term is formulated to link the base classifier and the partner one. During each stage of mutual supervision, both classifiers will blur each other's predictions through a blurring mechanism to prevent overconfidence in a specific label. Extensive experiments demonstrate that the performance and disambiguation ability of several well-established stand-alone and deep-learning based PLL approaches can be significantly improved by coupling with this learning paradigm.
翻訳日:2023-12-20 20:41:26 公開日:2023-12-18
# 量子力学の経路積分定式化におけるパワーダイアリティ

Power-Duality in Path Integral Formulation of Quantum Mechanics ( http://arxiv.org/abs/2312.11033v1 )

ライセンス: Link先を確認
Akira Inomata and Georg Junker(参考訳) 量子力学のファインマン経路積分定式化におけるパワー双対性について検討した。 パワー双対変換は座標と時間変数の変化、エネルギーと結合の交換、古典的な角運動量置換からなる。 変換によって接続された2つの物理系は、力双対対を形成する。 ファインマンの経路積分で表されるプロパゲータ(ファインマンの核)は変換の下で形式不変とはならないが、ファインマンの経路積分を変更することで構成されるプロモーターは、角運動量が古典的であるため形式不変である。 角量子化の際、パワー双対性は崩壊する。 パワー双対性の概念を抑えるため、準パワー双対性の概念が提案され、これはアドホック角運動量を置き換えるものである。 パワー-dual invariant promotor は準dual invariant green function につながる。 双対対の一方のグリーン関数を、もう一方のグリーン関数を知ることによって決定する公式が提案されている。 例えば、クーロン-フック二重対とゼロエネルギー状態に対する2項の閉じ込めポテンシャルの族について論じる。

Power duality in Feynman's path integral formulation of quantum mechanics is investigated. The power duality transformation consists of a change in coordinate and time variables, an exchange of energy and coupling, and a classical angular momentum replacement. Two physical systems connected by the transformation form a power-dual pair. The propagator (Feynman's kernel) expressed by Feynman's path integral cannot be form-invariant under the transformation, whereas the promotor constructed by modifying Feynman's path integral is found form-invariant insofar as the angular momentum is classical. Upon angular quantization, the power duality breaks down. To save the notion of power duality, the idea of quasi power duality is proposed, which constitutes of an ad hoc angular momentum replacement. The power-dual invariant promotor leads to the quasi-dual invariant Green function. A formula is proposed, which determines the Green function for one of a dual pair by knowing the Green function for the other. As examples, the Coulomb-Hooke dual pair and a family of two-term confinement potentials for a zero-energy state are discussed.
翻訳日:2023-12-20 20:41:06 公開日:2023-12-18
# 学術出版物におけるジャーナルの方針とソフトウェア/データ管理における再現性,再現性,再現性,再利用性(4r) : 調査,議論,展望

Repeatability, Reproducibility, Replicability, Reusability (4R) in Journals' Policies and Software/Data Management in Scientific Publications: A Survey, Discussion, and Perspectives ( http://arxiv.org/abs/2312.11028v1 )

ライセンス: Link先を確認
Jos\'e Armando Hern\'andez (CB), Miguel Colom (CB, CMLA)(参考訳) 科学研究における信頼性の危機が認識され、コンピュータ科学における再現可能性の研究が成長し、既存の調査では様々な観点から再現性についてレビューされているが、再現性のある科学論文の出版における著者と出版者の関係には対処していない。 この側面は、信頼できる研究の基盤であるため、大きな注意を要する。 再現性重視のプラクティス,ジャーナルポリシ,レコメンデーション,出版者アーティファクトの説明・評価ガイドライン,提出ガイド,技術的再現性進化,危機対策への効果的な導入との間には,大きなギャップがある。 再現性研究を実現するために,著者,雑誌,技術関係者が必要とする相互努力を総合的に概観し,議論を行った。 論文の再現性を向上させるための相互努力における著者と学術雑誌の関係を分析した。 最終的に、著者への科学論文提出のための統一的で標準化された再現性ガイドとともに、雑誌政策の勧告を提案する。 この研究の主な目的は、再現性ポリシー、技術と技術、標準、方法論、ソフトウェア、および科学的再現性出版に必要なデータ管理ツールの実装と経験を分析することである。 また、そのような採用の利点と欠点、そしてオープンな課題や将来性のあるトレンドは、特定されたギャップを軽減するための戦略と努力を提案する。 そこで本研究では,200の科学論文を分析し,16の学術雑誌を調査し,再現性戦略,技術,政策,コード引用,編集業務に応じて体系的に分類した。 学術出版物にはまだ再現性ギャップがあるが、同時に著者、出版者、技術提供者の協力によってこのギャップを減らす機会もあると結論づけた。

With the recognized crisis of credibility in scientific research, there is a growth of reproducibility studies in computer science, and although existing surveys have reviewed reproducibility from various perspectives, especially very specific technological issues, they do not address the author-publisher relationship in the publication of reproducible computational scientific articles. This aspect requires significant attention because it is the basis for reliable research. We have found a large gap between the reproducibility-oriented practices, journal policies, recommendations, publisher artifact Description/Evaluation guidelines, submission guides, technological reproducibility evolution, and its effective adoption to contribute to tackling the crisis. We conducted a narrative survey, a comprehensive overview and discussion identifying the mutual efforts required from Authors, Journals, and Technological actors to achieve reproducibility research. The relationship between authors and scientific journals in their mutual efforts to jointly improve the reproducibility of scientific results is analyzed. Eventually, we propose recommendations for the journal policies, as well as a unified and standardized Reproducibility Guide for the submission of scientific articles for authors. The main objective of this work is to analyze the implementation and experiences of reproducibility policies, techniques and technologies, standards, methodologies, software, and data management tools required for scientific reproducible publications. Also, the benefits and drawbacks of such an adoption, as well as open challenges and promising trends, to propose possible strategies and efforts to mitigate the identified gaps. To this purpose, we analyzed 200 scientific articles, surveyed 16 Computer Science journals, and systematically classified them according to reproducibility strategies, technologies, policies, code citation, and editorial business. We conclude there is still a reproducibility gap in scientific publications, although at the same time also the opportunity to reduce this gap with the joint effort of authors, publishers, and technological providers.
翻訳日:2023-12-20 20:40:47 公開日:2023-12-18
# 決定のための識別表現事前学習に基づくトップkサブタスク計画木学習

Learning Top-k Subtask Planning Tree based on Discriminative Representation Pre-training for Decision Making ( http://arxiv.org/abs/2312.11027v1 )

ライセンス: Link先を確認
Jingqing Ruan, Kaishen Wang, Qingyang Zhang, Dengpeng Xing, Bo Xu(参考訳) 複雑な現実世界のタスクの多くは、より小さく、より管理しやすい部分に分割される可能性がある。 しかし、このプロセスを複製することはAIエージェントにとって課題であり、自然に2つの疑問を提起する。 複雑な問題を分解する合理的プランを開発するには? 単一エンコーダ構造を用いた既存の表現学習手法の多くは脆弱で、複雑で多様な力学に敏感である。 この問題に対処するために,単純なサブタスクのための十分なデータからタスク必須表現を学ぶために,マルチエンコーダと個人予測レジームを導入する。 複数のエンコーダは混乱なく適切なタスク関連ダイナミクスを抽出でき、共有予測器はタスク特性を識別することができる。 また,注意機構を用いてトップkのサブタスクプランニングツリーを生成し,サブタスクの実行計画をカスタマイズし,未知のタスクの複雑な決定を導く。 このプロセスは、計画木の深さと幅を柔軟に調整し、前方視とグローバル性を実現する。 いくつかの基本的な単純なタスクと組合せ的にリッチな合成タスクからなる挑戦的なプラットフォームにおける実証的な結果は、競争力のあるベースラインを一貫して上回り、我々の設計の利点を実証する。

Many complicated real-world tasks can be broken down into smaller, more manageable parts, and planning with prior knowledge extracted from these simplified pieces is crucial for humans to make accurate decisions. However, replicating this process remains a challenge for AI agents and naturally raises two questions: How to extract discriminative knowledge representation from priors? How to develop a rational plan to decompose complex problems? Most existing representation learning methods employing a single encoder structure are fragile and sensitive to complex and diverse dynamics. To address this issue, we introduce a multiple-encoder and individual-predictor regime to learn task-essential representations from sufficient data for simple subtasks. Multiple encoders can extract adequate task-relevant dynamics without confusion, and the shared predictor can discriminate the task characteristics. We also use the attention mechanism to generate a top-k subtask planning tree, which customizes subtask execution plans in guiding complex decisions on unseen tasks. This process enables forward-looking and globality by flexibly adjusting the depth and width of the planning tree. Empirical results on a challenging platform composed of some basic simple tasks and combinatorially rich synthetic tasks consistently outperform some competitive baselines and demonstrate the benefits of our design.
翻訳日:2023-12-20 20:40:16 公開日:2023-12-18
# プロシージャ・アウェア・インストラクショナル・ビデオ分析のための協調的弱視映像相関学習

Collaborative Weakly Supervised Video Correlation Learning for Procedure-Aware Instructional Video Analysis ( http://arxiv.org/abs/2312.11024v1 )

ライセンス: Link先を確認
Tianyao He, Huabin Liu, Yuxi Li, Xiao Ma, Cheng Zhong, Yang Zhang, Weiyao Lin(参考訳) ビデオ間の関係を分析することを目的としたビデオ相関学習(VCL)は,様々な一般的なビデオタスクにおいて広く研究され,適用されてきた。 しかし,本質的な手続き時間構造のため,vclを授業映像に適用することは依然として困難である。 特に,授業ビデオの正確な相関分析には手続き的知識が重要である。 しかし、現在の手順学習手法は、コストが高くスケーラブルではないステップレベルのアノテーションに大きく依存している。 そこで本研究では,CPA (Collaborative procedure Alignment) と呼ばれる,プロシージャ・アウェア・相関学習のための弱教師付きフレームワークを提案する。 私たちのフレームワークは2つのコアモジュールで構成されています。 協調ステップマイニングモジュールは、フレーム間の意味的および時間的類似性を利用して、ペアビデオの同時かつ一貫したステップセグメンテーションを可能にする。 特定されたステップに基づいて、フレーム間アライメントモジュールは、フレームとビデオ間のアライメントを実行する。 アライメント結果は、2つのビデオ間の相関距離の測定として機能する。 我々は,我々のフレームワークを,シーケンス検証と行動品質評価という2つの異なる指導ビデオタスクでインスタンス化する。 広範な実験により,本手法の有効性を検証し,授業映像の正確かつ解釈可能な相関分析を行った。

Video Correlation Learning (VCL), which aims to analyze the relationships between videos, has been widely studied and applied in various general video tasks. However, applying VCL to instructional videos is still quite challenging due to their intrinsic procedural temporal structure. Specifically, procedural knowledge is critical for accurate correlation analyses on instructional videos. Nevertheless, current procedure-learning methods heavily rely on step-level annotations, which are costly and not scalable. To address this problem, we introduce a weakly supervised framework called Collaborative Procedure Alignment (CPA) for procedure-aware correlation learning on instructional videos. Our framework comprises two core modules: collaborative step mining and frame-to-step alignment. The collaborative step mining module enables simultaneous and consistent step segmentation for paired videos, leveraging the semantic and temporal similarity between frames. Based on the identified steps, the frame-to-step alignment module performs alignment between the frames and steps across videos. The alignment result serves as a measurement of the correlation distance between two videos. We instantiate our framework in two distinct instructional video tasks: sequence verification and action quality assessment. Extensive experiments validate the effectiveness of our approach in providing accurate and interpretable correlation analyses for instructional videos.
翻訳日:2023-12-20 20:39:32 公開日:2023-12-18
# 周波数スペクトルはマルチモーダル表現と融合に有効である:マルチモーダルスペクトル放射検出器

Frequency Spectrum is More Effective for Multimodal Representation and Fusion: A Multimodal Spectrum Rumor Detector ( http://arxiv.org/abs/2312.11023v1 )

ライセンス: Link先を確認
An Lao, Qi Zhang, Chongyang Shi, Longbing Cao, Kun Yi, Liang Hu, Duoqian Miao(参考訳) テキストと画像の混合などのマルチモーダルコンテンツは、ソーシャルメディアにおけるうわさ検出に重大な課題がある。 既存のマルチモーダルなうわさの検出は、ユニモーダル表現のための空間的および逐次的な場所間のトークンの混合に重点を置いている。 しかし、識別的なユニモーダル表現が少なく、空間トークンとシーケンシャルトークンの時間を要する融合において複雑な位置依存性に弱い。 この研究は、周波数領域におけるマルチモーダルなうわさ検出の最初の試みであり、空間的特徴を周波数スペクトルに効率的に変換し、マルチモーダル表現と融合のための高識別スペクトル特徴を得る。 デュアルコントラスト学習による新しい周波数スペクトル表現とfUsionネットワーク(FSRU)は、周波数スペクトルがマルチモーダル表現と融合により効果的であることを明らかにし、噂検出のための情報成分を抽出する。 FSRUは、空間領域の特徴を周波数領域に変換するフーリエ変換、周波数領域における非モードスペクトル圧縮、周波数領域におけるクロスモーダルスペクトル共選択モジュールの3つの新しいメカニズムを含む。 実測実験により,FSRUは良好なマルチモーダル噂検出性能を発揮することが示された。

Multimodal content, such as mixing text with images, presents significant challenges to rumor detection in social media. Existing multimodal rumor detection has focused on mixing tokens among spatial and sequential locations for unimodal representation or fusing clues of rumor veracity across modalities. However, they suffer from less discriminative unimodal representation and are vulnerable to intricate location dependencies in the time-consuming fusion of spatial and sequential tokens. This work makes the first attempt at multimodal rumor detection in the frequency domain, which efficiently transforms spatial features into the frequency spectrum and obtains highly discriminative spectrum features for multimodal representation and fusion. A novel Frequency Spectrum Representation and fUsion network (FSRU) with dual contrastive learning reveals the frequency spectrum is more effective for multimodal representation and fusion, extracting the informative components for rumor detection. FSRU involves three novel mechanisms: utilizing the Fourier transform to convert features in the spatial domain to the frequency domain, the unimodal spectrum compression, and the cross-modal spectrum co-selection module in the frequency domain. Substantial experiments show that FSRU achieves satisfactory multimodal rumor detection performance.
翻訳日:2023-12-20 20:39:11 公開日:2023-12-18
# コントラスト型タスク特化文エンコーダを用いた情報型分類

Information Type Classification with Contrastive Task-Specialized Sentence Encoders ( http://arxiv.org/abs/2312.11020v1 )

ライセンス: Link先を確認
Philipp Seeberger, Tobias Bocklet, Korbinian Riedhammer(参考訳) ユーザ生成情報コンテンツは危機的状況において重要な情報ソースとなっている。 しかし、分類モデルはノイズやイベント関連のバイアスに悩まされ、これは依然として困難な課題であり、高度なタスク適応を必要とする。 これらの課題に対処するために,下流分類におけるタスク特化文エンコーダの利用を提案する。 本稿では,CrisisLex,HumAID,TrecIS情報型分類タスクにタスク特殊化を適用し,F1スコアによる性能向上を示す。 さらに、ドイツの2つの事象関連分類データセットのクロスコーパスとクロスランガル機能を分析した。

User-generated information content has become an important information source in crisis situations. However, classification models suffer from noise and event-related biases which still poses a challenging task and requires sophisticated task-adaptation. To address these challenges, we propose the use of contrastive task-specialized sentence encoders for downstream classification. We apply the task-specialization on the CrisisLex, HumAID, and TrecIS information type classification tasks and show performance gains w.r.t. F1-score. Furthermore, we analyse the cross-corpus and cross-lingual capabilities for two German event relevancy classification datasets.
翻訳日:2023-12-20 20:38:48 公開日:2023-12-18
# バンドルレコメンデーションのためのHypergrah-Enhanced Dual Convolutional Network

Hypergrah-Enhanced Dual Convolutional Network for Bundle Recommendation ( http://arxiv.org/abs/2312.11018v1 )

ライセンス: Link先を確認
Kangbo Liu, Yang Li, Yaoxin Wu, Zhaoxuan Wang, Xiaoxu Wang(参考訳) bundle recommendationsは、bundleという名前のパッケージとして一連のアイテムを提供し、利便性を高め、販売者の収益に貢献することを目的としている。 これまでのアプローチでは顕著なパフォーマンスを示していたが,ユーザ,アイテム,バンドル間の3次関係を損なう可能性がある。 この妥協は情報損失をもたらし、最終的にはモデル全体のパフォーマンスに影響を及ぼす。 このギャップに対処するため,我々は,hypergraph-enhanced dual convolutional neural network (hed)と呼ばれる,バンドルレコメンデーションのための統一モデルを開発した。 我々のアプローチは2つの重要な側面によって特徴づけられる。 まず、ユーザ、アイテム、バンドル間のインタラクションダイナミクスをキャプチャするために、完全なハイパーグラフを構築します。 次に、u-bインタラクション情報を取り込んで、ユーザから派生した情報表現と埋め込みベクトルをバンドルする。 YoushuとNeteaseデータセットの大規模な実験結果によると、HEDは最先端のベースラインを超え、その有効性を証明している。 さらに, 各種アブレーション研究および感度解析により作業機構が明らかになり, 有効性が確認された。 コードとデータセットはhttps://github.com/aai-lab/hedで入手できる。

Bundle recommendations strive to offer users a set of items as a package named bundle, enhancing convenience and contributing to the seller's revenue. While previous approaches have demonstrated notable performance, we argue that they may compromise the ternary relationship among users, items, and bundles. This compromise can result in information loss, ultimately impacting the overall model performance. To address this gap, we develop a unified model for bundle recommendation, termed hypergraph-enhanced dual convolutional neural network (HED). Our approach is characterized by two key aspects. Firstly, we construct a complete hypergraph to capture interaction dynamics among users, items, and bundles. Secondly, we incorporate U-B interaction information to enhance the information representation derived from users and bundle embedding vectors. Extensive experimental results on the Youshu and Netease datasets have demonstrated that HED surpasses state-of-the-art baselines, proving its effectiveness. In addition, various ablation studies and sensitivity analyses revealed the working mechanism and proved our effectiveness. Codes and datasets are available at https://github.com/AAI-Lab/HED
翻訳日:2023-12-20 20:38:38 公開日:2023-12-18
# PPOのカラーノイズ:相関行動サンプリングによる探索と性能向上

Colored Noise in PPO: Improved Exploration and Performance Through Correlated Action Sampling ( http://arxiv.org/abs/2312.11091v1 )

ライセンス: Link先を確認
Jakob Hollenstein, Georg Martius, Justus Piater(参考訳) PPO(Proximal Policy Optimization, Proximal Policy Optimization)は、政治の深い強化学習手法であり、探索に確率的政策を用いる。 本稿では,色付き雑音に基づくPPOの確率的ポリシー変種を提案する。 従来の研究では、活動雑音における時間的相関の重要性を強調した。 そこで本研究では,PPOのような政治手法における相関ノイズの探索効果について検討する。 行動選択のための相関ノイズは学習性能を向上し,現在普及している非相関性ホワイトノイズ手法よりも優れることがわかった。 ピンクノイズが効果的であることが判明したオフポリシー学習とは異なり,白とピンクの中間色雑音は,ppoにおけるオンポリシー学習に最適であった。 我々は,データ収集のための並列シミュレーション環境の数を変更することで,更新毎に収集したデータ量を変化させる影響について検討し,より多くの並列環境において,より強い相関ノイズが有効であることを示した。 実装の大幅な影響と容易さのため、PPOのデフォルトノイズ源として相関ノイズに切り替えることを推奨する。

Proximal Policy Optimization (PPO), a popular on-policy deep reinforcement learning method, employs a stochastic policy for exploration. In this paper, we propose a colored noise-based stochastic policy variant of PPO. Previous research highlighted the importance of temporal correlation in action noise for effective exploration in off-policy reinforcement learning. Building on this, we investigate whether correlated noise can also enhance exploration in on-policy methods like PPO. We discovered that correlated noise for action selection improves learning performance and outperforms the currently popular uncorrelated white noise approach in on-policy methods. Unlike off-policy learning, where pink noise was found to be highly effective, we found that a colored noise, intermediate between white and pink, performed best for on-policy learning in PPO. We examined the impact of varying the amount of data collected for each update by modifying the number of parallel simulation environments for data collection and observed that with a larger number of parallel environments, more strongly correlated noise is beneficial. Due to the significant impact and ease of implementation, we recommend switching to correlated noise as the default noise source in PPO.
翻訳日:2023-12-20 20:31:16 公開日:2023-12-18
# 層状材料における量子エミッタのコヒーレント光制御の限界

Limits for coherent optical control of quantum emitters in layered materials ( http://arxiv.org/abs/2312.11090v1 )

ライセンス: Link先を確認
Michael K. Koch, Vibhav Bharadwaj and Alexander Kubanek(参考訳) 2レベル系のコヒーレント制御は、現代の量子光学において最も重要な課題の一つである。 その基本的な限界を理解することは、次世代量子デバイスの実現にも不可欠である。 2つの準位系の量子コヒーレンスは、光遷移によって2つの準位が接続されたときに特に脆弱である。 このような量子放出体が固体中にある場合、コヒーレンスは光遷移と固体環境との相互作用に悩まされ、サンプルをケルビン以下の温度まで冷却する必要がある。 ここでは、六方晶窒化ホウ素の機械的に孤立した量子エミッタを用いて、共振駆動下での光遷移のコヒーレンスに影響を与える個々の機構を探索する。 我々は, スペクトル拡散によらず, 劣化の開始と温度依存性を研究するため, 機械的孤立が崩壊するしきい値でシステムを操作する。 物理デコヒーレンス機構に関する新たな知見は、系のコヒーレント駆動が可能であるまで温度の限界を明らかにする。 本研究により, 量子デバイスの動作温度が向上し, 低温冷却の必要性が軽減される。

The coherent control of a two-level system is among the most essential challenges in modern quantum optics. Understanding its fundamental limitations is crucial, also for the realization of next generation quantum devices. The quantum coherence of a two level system is fragile in particular, when the two levels are connected via an optical transition. When such quantum emitters are located in solids the coherence suffers from the interaction of the optical transition with the solid state environment, which requires the sample to be cooled to temperatures of a few Kelvin or below. Here, we use a mechanically isolated quantum emitter in hexagonal boron nitride to explore the individual mechanisms which affect the coherence of an optical transition under resonant drive. We operate the system at the threshold where the mechanical isolation collapses in order to study the onset and temperature-dependence of dephasing and independently of spectral diffusion. The new insights on the underlying physical decoherence mechanisms reveals a limit in temperature until which coherent driving of the system is possible. This study enables to increase the operation temperature of quantum devices, therefore reducing the need for cryogenic cooling.
翻訳日:2023-12-20 20:30:56 公開日:2023-12-18
# MA-BBOB:アフィン組合せとシフトを用いたブラックボックス最適化問題生成装置

MA-BBOB: A Problem Generator for Black-Box Optimization Using Affine Combinations and Shifts ( http://arxiv.org/abs/2312.11083v1 )

ライセンス: Link先を確認
Diederick Vermetten, Furong Ye, Thomas B\"ack, Carola Doerr(参考訳) 一連のベンチマーク問題を選択することは、反復最適化ヒューリスティックスの実験的評価の重要な要素であることが多い。 連続的な単目的最適化では、確立されたBBOBスイートを含むいくつかの問題セットが広まっている。 このスイートは厳密なベンチマークを可能にするように設計されているが、アルゴリズムの選択のようなテスト手法でも一般的に使用される。 BBOBスイートをアフィン結合のコンポーネント関数として用いるMA-BBOB関数生成器を提案する。 本稿では、これらのアフィンの組み合わせを作成するための完全な手順を説明し、いくつかの設計決定のトレードオフを強調し、特にドメイン内の最適値をランダムに配置する選択について述べる。 次に、このジェネレータを用いて、探索的景観解析を用いて、関数ランドスケープのより低レベルな洞察を得る方法について説明する。 最後に,MA-BBOBがアルゴリズムセレクタの幅広いトレーニングデータとテストデータを生成する可能性を示す。 この設定を用いて,最適なアルゴリズムを予測するために一連のランドスケープ特徴を用いた基本スキームは最適結果に至らず,bbob関数に純粋にトレーニングされたアルゴリズムセレクタはアフィンの組み合わせにあまり一般化しないことを示す。

Choosing a set of benchmark problems is often a key component of any empirical evaluation of iterative optimization heuristics. In continuous, single-objective optimization, several sets of problems have become widespread, including the well-established BBOB suite. While this suite is designed to enable rigorous benchmarking, it is also commonly used for testing methods such as algorithm selection, which the suite was never designed around. We present the MA-BBOB function generator, which uses the BBOB suite as component functions in an affine combination. In this work, we describe the full procedure to create these affine combinations and highlight the trade-offs of several design decisions, specifically the choice to place the optimum uniformly at random in the domain. We then illustrate how this generator can be used to gain more low-level insight into the function landscapes through the use of exploratory landscape analysis. Finally, we show a potential use-case of MA-BBOB in generating a wide set of training and testing data for algorithm selectors. Using this setup, we show that the basic scheme of using a set of landscape features to predict the best algorithm does not lead to optimal results, and that an algorithm selector trained purely on the BBOB functions generalizes poorly to the affine combinations.
翻訳日:2023-12-20 20:30:39 公開日:2023-12-18
# Few-Shot LearningとRelevance Feedbackによる画像検索の改善

Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback ( http://arxiv.org/abs/2312.11078v1 )

ライセンス: Link先を確認
Boaz Lerner, Nir Darshan and Rami Ben-Ari(参考訳) このような画像数の増加に伴い、データベース内の効率的な検索は画像検索システムによって管理される重要な課題となっている。 Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に人間との反復的な相互作用を伴い、より有意義な結果をもたらす。 このプロセスは一般に、ユーザフィードバックから派生したラベル付きサンプルのみを含むバイナリ分類問題としてキャストすることができる。 irrfタスクフレームには,不均衡クラスと非対称クラスのバイナリ分類を含む,ユニークな少数ショット学習特性がある。 本稿では,この課題を数発の学習手法のレンズを用いて研究する。 本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。 提案手法の有効性は,複数のベンチマークと2つの補足タスクの包括的評価によって検証され,理論的解析によって裏付けられる。 我々は、IRRFの4つの異なるデータセットの強いベースラインよりもモデルの利点を実証し、複数のオブジェクトによる画像の検索にも対処する。 さらに,本手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。

With such a massive growth in the number of images stored, efficient search in a database has become a crucial endeavor managed by image retrieval systems. Image Retrieval with Relevance Feedback (IRRF) involves iterative human interaction during the retrieval process, yielding more meaningful outcomes. This process can be generally cast as a binary classification problem with only {\it few} labeled samples derived from user feedback. The IRRF task frames a unique few-shot learning characteristics including binary classification of imbalanced and asymmetric classes, all in an open-set regime. In this paper, we study this task through the lens of few-shot learning methods. We propose a new scheme based on a hyper-network, that is tailored to the task and facilitates swift adjustment to user feedback. Our approach's efficacy is validated through comprehensive evaluations on multiple benchmarks and two supplementary tasks, supported by theoretical analysis. We demonstrate the advantage of our model over strong baselines on 4 different datasets in IRRF, addressing also retrieval of images with multiple objects. Furthermore, we show that our method can attain SoTA results in few-shot one-class classification and reach comparable results in binary classification task of few-shot open-set recognition.
翻訳日:2023-12-20 20:30:15 公開日:2023-12-18
# 密度に基づくクラスタリングとスレッドに基づくアグリゲーション技術を組み合わせたジオ依存ストーリーの発見

Discovering Geo-dependent Stories by Combining Density-based Clustering and Thread-based Aggregation techniques ( http://arxiv.org/abs/2312.11076v1 )

ライセンス: Link先を確認
H\'ector Cerezo-Costas, Ana Fern\'andez Vilas, Manuela Mart\'in-Vicente, Rebeca P. D\'iaz-Redondo(参考訳) 市民は周囲、特にソーシャルメディアを通じて積極的に交流している。 共有投稿は、何が起きているのか(ユーザの視点から)の重要な情報を提供するだけでなく、これらの投稿にリンクされたメタデータは、位置情報ベースのソーシャルネットワーク(LBSN)におけるGPSロケーションのような関連データを提供する。 本稿では,ソーシャルメディアにおけるジオタグ付き投稿のグローバル分析を紹介する。 (i)都市における予期せぬ行動の検出と対応 (ii)何が起こっているのかを推測する投稿の分析。 前者は密度に基づくクラスタリング手法を適用し,後者は自然言語処理を適用した結果である。 提案手法を,ニューヨーク市におけるInstagramの活動から得られたデータセットに7ヶ月間適用し,有望な結果を得た。 開発されたアルゴリズムは非常に低リソースで、複雑な並列化技術を適用することなく、1時間以内で数百万のデータポイントを分析できる。 さらに、このソリューションは、余分な労力なしで、他のジオタグ付きデータソースに容易に適応できる。

Citizens are actively interacting with their surroundings, especially through social media. Not only do shared posts give important information about what is happening (from the users' perspective), but also the metadata linked to these posts offer relevant data, such as the GPS-location in Location-based Social Networks (LBSNs). In this paper we introduce a global analysis of the geo-tagged posts in social media which supports (i) the detection of unexpected behavior in the city and (ii) the analysis of the posts to infer what is happening. The former is obtained by applying density-based clustering techniques, whereas the latter is consequence of applying natural language processing. We have applied our methodology to a dataset obtained from Instagram activity in New York City for seven months obtaining promising results. The developed algorithms require very low resources, being able to analyze millions of data-points in commodity hardware in less than one hour without applying complex parallelization techniques. Furthermore, the solution can be easily adapted to other geo-tagged data sources without extra effort.
翻訳日:2023-12-20 20:29:51 公開日:2023-12-18
# コレクサフィケーションにおける近さと抽象性のパターン--アメリカ大陸の先住民言語を事例として

Patterns of Closeness and Abstractness in Colexifications: The Case of Indigenous Languages in the Americas ( http://arxiv.org/abs/2312.11069v1 )

ライセンス: Link先を確認
Yiyi Chen, Johannes Bjerva(参考訳) コレキシフィケーションとは、複数の概念(意味)がポリセミーやホモフォニーのような同じ語彙形式で表現される言語現象を指す。 コレキシフィケーションは言語や文化に広く浸透している。 概念の具体性/抽象性の問題は学際的であり、言語学、心理学、心理言語学、神経生理学などの認知的観点から研究されている。 本稿では,具体性や抽象性に親しむ概念が語彙化によく似ていると仮定し,アメリカ大陸の土着言語をまたいだ仮説を検証した。

Colexification refers to linguistic phenomena where multiple concepts (meanings) are expressed by the same lexical form, such as polysemy or homophony. Colexifications have been found to be pervasive across languages and cultures. The problem of concreteness/abstractness of concepts is interdisciplinary, studied from a cognitive standpoint in linguistics, psychology, psycholinguistics, neurophysiology, etc. In this paper, we hypothesize that concepts that are closer in concreteness/abstractness are more likey to colexify, and we test the hypothesis across indigenous languages in Americas.
翻訳日:2023-12-20 20:29:18 公開日:2023-12-18
# 量子状態検証におけるメモリ効果

Memory Effects in Quantum State Verification ( http://arxiv.org/abs/2312.11066v1 )

ライセンス: Link先を確認
Siyuan Chen, Wei Xie, and Kun Wang(参考訳) 我々は、局所検証者が量子状態のコピーを保存し、それらをまとめて測定できる量子メモリ支援状態検証タスクについて検討する。 ベル測度のみを含むマルチキュービットグラフ状態に対して,2つのコピー状態検証を最適化するための正確な解析式を確立した。 本稿では,メモリの任意の利用のために,GHZライクな状態への応用を示す,効率的な検証戦略を設計する次元展開手法を提案する。 これらの戦略は、メモリリソースの増加にますます有利になり、最終的に効率の理論的限界に近づいている。 本研究により, 量子メモリは, 状態検証効率を劇的に向上させ, エラー耐性戦略に光を当て, 大規模量子メモリ支援検証の実用化を図っている。

We consider the quantum memory assisted state verification task, where the local verifiers can store copies of quantum states and measure them collectively. We establish an exact analytic formula for optimizing two-copy state verification and give a globally optimal two-copy strategy for multi-qubit graph states involving only Bell measurements. For arbitrary memory availability, we present a dimension expansion technique that designs efficient verification strategies, showcasing its application to GHZ-like states. These strategies become increasingly advantageous with growing memory resources, ultimately approaching the theoretical limit of efficiency. Our findings demonstrate that quantum memories dramatically enhance state verification efficiency, sheding light on error-resistant strategies and practical applications of large-scale quantum memory-assisted verification.
翻訳日:2023-12-20 20:29:07 公開日:2023-12-18
# 有限正規形ゲームにおけるナッシュ平衡のアルゴリズムに関する調査

A survey on algorithms for Nash equilibria in finite normal-form games ( http://arxiv.org/abs/2312.11063v1 )

ライセンス: Link先を確認
Hanyu Li, Wenhan Huang, Zhijian Duan, David Henry Mguni, Kun Shao, Jun Wang, Xiaotie Deng(参考訳) ナッシュ均衡はゲーム理論における最も影響力のある解の1つである。 計算機科学と人工知能の発展に伴い、特にインターネット経済学やマルチエージェント学習において、nash平衡計算の需要が高まっている。 本稿では,有限正規形ゲームにおけるナッシュ均衡とその近似解を理論的および経験的観点から計算する様々なアルゴリズムについて検討する。 理論的には,文献中のアルゴリズムを分類し,アルゴリズム設計と解析に関する基本的な考え方を提案する。 そこで本研究では,様々なゲームに関する文献におけるアルゴリズムの包括的比較を行った。 これらの結果に基づき,これらのアルゴリズムの実装と利用について実践的な提案を行う。 最後に、理論的および実践的な考察から、一連のオープンな問題を提示する。

Nash equilibrium is one of the most influential solution concepts in game theory. With the development of computer science and artificial intelligence, there is an increasing demand on Nash equilibrium computation, especially for Internet economics and multi-agent learning. This paper reviews various algorithms computing the Nash equilibrium and its approximation solutions in finite normal-form games from both theoretical and empirical perspectives. For the theoretical part, we classify algorithms in the literature and present basic ideas on algorithm design and analysis. For the empirical part, we present a comprehensive comparison on the algorithms in the literature over different kinds of games. Based on these results, we provide practical suggestions on implementations and uses of these algorithms. Finally, we present a series of open problems from both theoretical and practical considerations.
翻訳日:2023-12-20 20:28:54 公開日:2023-12-18
# エンティティやリレーションシップの埋め込み? 関係抽出のための符号化戦略の解析

Entity or Relation Embeddings? An Analysis of Encoding Strategies for Relation Extraction ( http://arxiv.org/abs/2312.11062v1 )

ライセンス: Link先を確認
Frank Mtumbuka and Steven Schockaert(参考訳) 関係抽出は、本質的にはテキスト分類の問題であり、事前訓練された言語モデル(LM)を微調整することで取り組める。 しかし、関係抽出が直接的にシーケンスやトークンの分類に還元できないという事実から重要な課題が生じる。 したがって、既存のアプローチは間接的な方法で問題を解決している:彼らは、頭と尾のエンティティの埋め込みを学ぶためにlmを微調整し、それらのエンティティの埋め込みから関係を予測する。 本稿では,より直接的な方法で関係を捉えることにより関係抽出モデルを改善することができるという仮説を立てる。 特に、[MASK]トークンにプロンプトを付加して、文脈表現を関係埋め込みとして扱う実験を行った。 この戦略は, 上述のアプローチを著しく下回っているが, 結果として得られる関係埋め込みは, 頭部と尾部の埋め込みによって得られるものと極めて相補的であることがわかった。 両種類の表現を共同で考えることで、いくつかの関係抽出ベンチマークで最先端の単純なモデルが得られる。

Relation extraction is essentially a text classification problem, which can be tackled by fine-tuning a pre-trained language model (LM). However, a key challenge arises from the fact that relation extraction cannot straightforwardly be reduced to sequence or token classification. Existing approaches therefore solve the problem in an indirect way: they fine-tune an LM to learn embeddings of the head and tail entities, and then predict the relationship from these entity embeddings. Our hypothesis in this paper is that relation extraction models can be improved by capturing relationships in a more direct way. In particular, we experiment with appending a prompt with a [MASK] token, whose contextualised representation is treated as a relation embedding. While, on its own, this strategy significantly underperforms the aforementioned approach, we find that the resulting relation embeddings are highly complementary to what is captured by embeddings of the head and tail entity. By jointly considering both types of representations, we end up with a simple model that outperforms the state-of-the-art across several relation extraction benchmarks.
翻訳日:2023-12-20 20:28:45 公開日:2023-12-18
# DataElixir: 拡散モデルによるバックドアアタックを緩和するポゾンデータセット

DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via Diffusion Models ( http://arxiv.org/abs/2312.11057v1 )

ライセンス: Link先を確認
Jiachen Zhou, Peizhuo Lv, Yibing Lan, Guozhu Meng, Kai Chen, Hualong Ma(参考訳) Dataset sanitizationは、トレーニングデータセットから有毒なサンプルをフィルタリングし除去することを目的とした、中毒ベースのバックドア攻撃に対する、広く採用されている積極的な防御である。 しかし、既存の手法では進化を続けるトリガー機能に対抗する効果が限られており、しばしば良性精度が著しく低下する。 本稿では,毒性データセットの浄化に適した新しい衛生手法であるDataElixirを提案する。 我々は拡散モデルを利用してトリガーを取り除き、良性の特徴を復元し、有毒なサンプルを良性なものに変える。 具体的には、前処理と逆処理を複数回繰り返して、原データセットの各サンプルに対して中間画像とその予測ラベルを抽出する。 そして,中間画像のラベル遷移の有無から異常サンプルを識別し,分布不一致を定量化して対象ラベルを検出し,画素と特徴距離を考慮した精製画像を選択し,良質なモデルをトレーニングしてその地味ラベルを決定する。 9つの一般的な攻撃実験により、DataElixirは様々な複雑な攻撃を効果的に軽減し、良識の精度に最小限の影響を及ぼし、ベースライン防御法の性能を上回っていることが示された。

Dataset sanitization is a widely adopted proactive defense against poisoning-based backdoor attacks, aimed at filtering out and removing poisoned samples from training datasets. However, existing methods have shown limited efficacy in countering the ever-evolving trigger functions, and often leading to considerable degradation of benign accuracy. In this paper, we propose DataElixir, a novel sanitization approach tailored to purify poisoned datasets. We leverage diffusion models to eliminate trigger features and restore benign features, thereby turning the poisoned samples into benign ones. Specifically, with multiple iterations of the forward and reverse process, we extract intermediary images and their predicted labels for each sample in the original dataset. Then, we identify anomalous samples in terms of the presence of label transition of the intermediary images, detect the target label by quantifying distribution discrepancy, select their purified images considering pixel and feature distance, and determine their ground-truth labels by training a benign model. Experiments conducted on 9 popular attacks demonstrates that DataElixir effectively mitigates various complex attacks while exerting minimal impact on benign accuracy, surpassing the performance of baseline defense methods.
翻訳日:2023-12-20 20:28:27 公開日:2023-12-18
# 隣接スペクトル埋め込みとグラフエンコーダ埋め込みによるランダムドット製品グラフにおけるモデルベース植込み擬似傾きの検出

Detection of Model-based Planted Pseudo-cliques in Random Dot Product Graphs by the Adjacency Spectral Embedding and the Graph Encoder Embedding ( http://arxiv.org/abs/2312.11054v1 )

ライセンス: Link先を確認
Tong Qi and Vince Lyzinski(参考訳) 本稿では、ランダムドット積グラフ設定に擬似斜め構造を組み込むための、ASE(Adjacency Spectral Embedding)とGEE(Graph Encoder Embedding)の両機能について検討する。 理論と実験の両方において、このモデルと手法の組み合わせは、最良のスペクトル傾き検出方法よりも悪い結果をもたらすことが示され、同時に、擬似傾きを極小サイズの擬似傾きでも捕捉できない可能性や、擬似傾き構造をもたらすモデル汚染に対する手法の堅牢性を示す。 分析をさらに強化するために、シミュレーションおよび実データ実験における変分グラフオートエンコーダ(VGAE)モデルについても検討する。

In this paper, we explore the capability of both the Adjacency Spectral Embedding (ASE) and the Graph Encoder Embedding (GEE) for capturing an embedded pseudo-clique structure in the random dot product graph setting. In both theory and experiments, we demonstrate that this pairing of model and methods can yield worse results than the best existing spectral clique detection methods, demonstrating at once the methods' potential inability to capture even modestly sized pseudo-cliques and the methods' robustness to the model contamination giving rise to the pseudo-clique structure. To further enrich our analysis, we also consider the Variational Graph Auto-Encoder (VGAE) model in our simulation and real data experiments.
翻訳日:2023-12-20 20:28:02 公開日:2023-12-18
# 時間的知識グラフの競合検出:高速制約マイニングアルゴリズムと新しいベンチマーク

Conflict Detection for Temporal Knowledge Graphs:A Fast Constraint Mining Algorithm and New Benchmarks ( http://arxiv.org/abs/2312.11053v1 )

ライセンス: Link先を確認
Jianhao Chen, Junyang Ren, Wentao Ding, Haoyuan Ouyang, Wei Hu, Yuzhong Qu(参考訳) 特定の期間に発生する事象を記述するために使用される時間的事実は、知識グラフ(KG)研究分野への関心の高まりのトピックとなっている。 品質管理の面では、時間制限の導入は、KGの時間的一貫性を維持する上で、新たな課題をもたらします。 従来の研究は、労働集約的で粒度の問題のある紛争を検出するために、手動で列挙された時間的制約に依存していた。 この問題に対処するために、時間的事実の共通パターンから始め、パターンに基づく時間的制約マイニング手法PaTeConを提案する。 従来の研究とは異なり、PaTeConは人間の専門家を必要とせずに、与えられたKGに関連するグラフパターンと統計情報を使って時間的制約を自動的に生成する。 本稿では,本手法の高速化を実現するための最適化について述べる。 また、WikidataとFreebaseに、コンフリクト検出のための2つの新しいベンチマークを構築しました。 広範な実験により,我々のパターンに基づく自動制約マイニング手法は,貴重な時間的制約の生成に非常に有効であることが示された。

Temporal facts, which are used to describe events that occur during specific time periods, have become a topic of increased interest in the field of knowledge graph (KG) research. In terms of quality management, the introduction of time restrictions brings new challenges to maintaining the temporal consistency of KGs. Previous studies rely on manually enumerated temporal constraints to detect conflicts, which are labor-intensive and may have granularity issues. To address this problem, we start from the common pattern of temporal facts and propose a pattern-based temporal constraint mining method, PaTeCon. Unlike previous studies, PaTeCon uses graph patterns and statistical information relevant to the given KG to automatically generate temporal constraints, without the need for human experts. In this paper, we illustrate how this method can be optimized to achieve significant speed improvement. We also annotate Wikidata and Freebase to build two new benchmarks for conflict detection. Extensive experiments demonstrate that our pattern-based automatic constraint mining approach is highly effective in generating valuable temporal constraints.
翻訳日:2023-12-20 20:27:45 公開日:2023-12-18
# 3次元単一物体追跡のための高密度接続を持つ多相関シアムトランスネットワーク

Multi-Correlation Siamese Transformer Network with Dense Connection for 3D Single Object Tracking ( http://arxiv.org/abs/2312.11051v1 )

ライセンス: Link先を確認
Shihao Feng, Pengpeng Liang, Jin Gao, Erkang Cheng(参考訳) ポイントクラウドベースの3Dオブジェクトトラッキングは、自動運転において重要なタスクである。 シームズをベースとした3Dトラッキングに関する大きな進歩は近年行われているが、スパースLIDARポイントクラウドデータでテンプレートと検索ブランチの相関を効果的に学習することは依然として困難である。 本稿では,2つの分岐の相関関係をネットワークの1つの点で行う代わりに,複数のステージを持つマルチ相関・シームズ・トランスフォーマネットワークを提案し,スパース・ピラーに基づいて各ステージの最後に特徴相関を行う。 より具体的には、各ステージでは、最初に各ブランチに自己アテンションを適用して、非ローカルなコンテキスト情報をキャプチャする。 次に、テンプレート情報を検索領域に注入するためにクロスアテンションを使用する。 この戦略により、テンプレートの個々の特性をそのまま保ちながら、検索領域の特徴学習がテンプレートを認識することができる。 ネットワークが学習した情報を異なる段階で容易に保存し、最適化を容易にするため、探索領域において、初期入力スパース柱と各ステージの出力をその後の全てのステージに密に接続し、ターゲットのローカライゼーションネットワークは、柱を鳥の目視(BEV)特徴マップに変換して、小さな密結合畳み込みネットワークでターゲットの状態を予測する。 パフォーマンスをさらに向上させるために、各ステージに深い監視を追加する。 提案アルゴリズムはKITTI, nuScenes, Waymoのデータセットを用いて評価し, 実験結果から, 提案手法が最先端技術と比較して有望な性能を達成することを示す。 各成分の有効性を示すアブレーション研究も提供される。 コードはhttps://github.com/liangp/mcstn-3dsotで入手できる。

Point cloud-based 3D object tracking is an important task in autonomous driving. Though great advances regarding Siamese-based 3D tracking have been made recently, it remains challenging to learn the correlation between the template and search branches effectively with the sparse LIDAR point cloud data. Instead of performing correlation of the two branches at just one point in the network, in this paper, we present a multi-correlation Siamese Transformer network that has multiple stages and carries out feature correlation at the end of each stage based on sparse pillars. More specifically, in each stage, self-attention is first applied to each branch separately to capture the non-local context information. Then, cross-attention is used to inject the template information into the search area. This strategy allows the feature learning of the search area to be aware of the template while keeping the individual characteristics of the template intact. To enable the network to easily preserve the information learned at different stages and ease the optimization, for the search area, we densely connect the initial input sparse pillars and the output of each stage to all subsequent stages and the target localization network, which converts pillars to bird's eye view (BEV) feature maps and predicts the state of the target with a small densely connected convolution network. Deep supervision is added to each stage to further boost the performance as well. The proposed algorithm is evaluated on the popular KITTI, nuScenes, and Waymo datasets, and the experimental results show that our method achieves promising performance compared with the state-of-the-art. Ablation study that shows the effectiveness of each component is provided as well. Code is available at https://github.com/liangp/MCSTN-3DSOT.
翻訳日:2023-12-20 20:27:27 公開日:2023-12-18
# 深層学習を用いた救急心電図からの心・心外放電診断予測

Cardiac and extracardiac discharge diagnosis prediction from emergency department ECGs using deep learning ( http://arxiv.org/abs/2312.11050v1 )

ライセンス: Link先を確認
Nils Strodthoff, Juan Miguel Lopez Alcaraz, Wilhelm Haverkamp(参考訳) 自動心電図解析のために設計された現在のディープラーニングアルゴリズムは、顕著な精度を示している。 しかし、従来の心電図と同様に、狭く焦点を合わせる傾向があり、典型的には特異な診断条件に対処している。 本研究は,救急部門で収集した心電図に基づいて,心臓および非心臓の退院診断の多様な範囲を予測できる単一モデルの有用性を具体的に示すものである。 1,076の階層的に構成されたicd符号のうち439で0.8以上のaurocを実現する。 これは、幅広い診断シナリオを扱うモデルの習熟度を低下させる。 我々は,このモデルをスクリーニングツールとして活用する可能性を強調し,救急部門の患者を効果的にトリアージするための総合的臨床決定支援システムに統合する可能性を強調した。 本研究は,オープンMIMIC-IV-ECGデータセットによる包括的ECG分析アルゴリズムの顕著な機能と,幅広い可能性について述べる。 最後に、我々のデータは、ECG分析の方法に革命をもたらす重要な役割を担っているかもしれない。

Current deep learning algorithms designed for automatic ECG analysis have exhibited notable accuracy. However, akin to traditional electrocardiography, they tend to be narrowly focused and typically address a singular diagnostic condition. In this study, we specifically demonstrate the capability of a single model to predict a diverse range of both cardiac and non-cardiac discharge diagnoses based on a sole ECG collected in the emergency department. Among the 1,076 hierarchically structured ICD codes considered, our model achieves an AUROC exceeding 0.8 in 439 of them. This underscores the models proficiency in handling a wide array of diagnostic scenarios. We emphasize the potential of utilizing this model as a screening tool, potentially integrated into a holistic clinical decision support system for efficiently triaging patients in the emergency department. This research underscores the remarkable capabilities of comprehensive ECG analysis algorithms and the extensive range of possibilities facilitated by the open MIMIC-IV-ECG dataset. Finally, our data may play a pivotal role in revolutionizing the way ECG analysis is performed, marking a significant advancement in the field.
翻訳日:2023-12-20 20:26:56 公開日:2023-12-18
# グラウンドドおよびリフトドプランニングのためのドメイン独立ヒューリスティックス学習

Learning Domain-Independent Heuristics for Grounded and Lifted Planning ( http://arxiv.org/abs/2312.11143v1 )

ライセンス: Link先を確認
Dillon Z. Chen and Felipe Trevizan and Sylvie Thiebaux(参考訳) 本稿では,グラフニューラルネットワーク(gnns)を用いた領域非依存ヒューリスティックス学習に適した計画タスクの3つの新しいグラフ表現法を提案する。 特に,大規模なGNNによる問題を軽減するために,計画課題の持ち上げ表現のみを用いて,ドメインに依存しないヒューリスティックスを学ぶための最初の方法を提案する。 また,本モデルの表現性に関する理論的解析を行い,ドメイン非依存のヒューリスティック学習モデルであるSTRIPS-HGNよりも強力であることを示す。 我々の実験は、我々のヒューリスティックスがトレーニングセットにあるものよりもずっと大きな問題に一般化していることを示しました。

We present three novel graph representations of planning tasks suitable for learning domain-independent heuristics using Graph Neural Networks (GNNs) to guide search. In particular, to mitigate the issues caused by large grounded GNNs we present the first method for learning domain-independent heuristics with only the lifted representation of a planning task. We also provide a theoretical analysis of the expressiveness of our models, showing that some are more powerful than STRIPS-HGN, the only other existing model for learning domain-independent heuristics. Our experiments show that our heuristics generalise to much larger problems than those in the training set, vastly surpassing STRIPS-HGN heuristics.
翻訳日:2023-12-20 20:20:07 公開日:2023-12-18
# 自己教師付き音声表現学習のための効率性指向アプローチ

Efficiency-oriented approaches for self-supervised speech representation learning ( http://arxiv.org/abs/2312.11142v1 )

ライセンス: Link先を確認
Luis Lugo and Valentin Vielzeuf(参考訳) 自己教師付き学習は、大きなラベル付きデータセットを必要とせずに、大きなニューラルネットワークモデルのトレーニングを可能にする。 コンピュータビジョン、自然言語処理、生物学、音声など、いくつかの分野でブレークスルーを生み出している。 特に、自動音声認識や話者識別など、いくつかの音声処理アプリケーションにおける最先端技術は、潜在表現が自己教師付きアプローチで学習されるモデルである。 音声の自己教師型学習には、コントラスト、予測、多言語アプローチなど、いくつかの構成が存在する。 しかし、既存のアプローチのほとんどに重大な制限がある:高い計算コストである。 これらのコストは、モデルのデプロイ、トレーニングデータセットのサイズ、そして大規模な自己管理モデルによる研究に余裕のある研究グループの数を制限する。 同様に、高エネルギー消費がもたらす環境コストも考慮すべきである。 この方向への取り組みは、既存のモデルの最適化、ニューラルアーキテクチャの効率、音声処理タスクの微調整の改善、データ効率が含まれる。 しかし、現在の努力にもかかわらず、自己教師付き表現学習における高い計算コストに対処するために、さらに多くの作業を行うことができる。

Self-supervised learning enables the training of large neural models without the need for large, labeled datasets. It has been generating breakthroughs in several fields, including computer vision, natural language processing, biology, and speech. In particular, the state-of-the-art in several speech processing applications, such as automatic speech recognition or speaker identification, are models where the latent representation is learned using self-supervised approaches. Several configurations exist in self-supervised learning for speech, including contrastive, predictive, and multilingual approaches. There is, however, a crucial limitation in most existing approaches: their high computational costs. These costs limit the deployment of models, the size of the training dataset, and the number of research groups that can afford research with large self-supervised models. Likewise, we should consider the environmental costs that high energy consumption implies. Efforts in this direction comprise optimization of existing models, neural architecture efficiency, improvements in finetuning for speech processing tasks, and data efficiency. But despite current efforts, more work could be done to address high computational costs in self-supervised representation learning.
翻訳日:2023-12-20 20:19:53 公開日:2023-12-18
# 適応原理学習による迅速なオープンワールド適応

Rapid Open-World Adaptation by Adaptation Principles Learning ( http://arxiv.org/abs/2312.11138v1 )

ライセンス: Link先を確認
Cheng Xue, Ekaterina Nikonova, Peng Zhang, Jochen Renz(参考訳) 新奇な適応とは、知的エージェントがその環境の変化に応じて行動を調整する能力である。 これは知的エージェントの重要な特徴であり、新しい状況や予期せぬ状況で効果的に機能し続けることができるが、深層強化学習(DRL)にとって重要な課題である。 この課題に取り組むために,訓練されたdrlエージェントがオープンワールドの異なるクラスに迅速に対応できる,単純かつ効果的なnapping (novelty adapt principles learning) 手法を提案する。 NAPPINGでは、DRLエージェントは必要に応じてトレーニングされたポリシーを調整することができる。 彼らは、まだ機能する訓練されたポリシーの一部に影響を与えずに、同様の新しい状況に素早く一般化することができる。 ナッピングの効率性と有効性を示すために,報奨構造とタスクの種類が異なる4つのアクションドメインについて評価を行った。 ドメインはCartPoleとMountainCar(古典的な制御)、CrossRoad(パスフィニング)、AngryBirds(物理推論)である。 我々はNAPPingを、CartPole、MountainCar、CrossRoadの標準的なオンラインおよび微調整DRLメソッドと、より複雑なAngryBirdsドメインの最先端メソッドと比較する。 提案手法により,drlエージェントは,すべてのテスト領域において,迅速かつ効果的に新たな状況に適応できることが実証された。

Novelty adaptation is the ability of an intelligent agent to adjust its behavior in response to changes in its environment. This is an important characteristic of intelligent agents, as it allows them to continue to function effectively in novel or unexpected situations, but still stands as a critical challenge for deep reinforcement learning (DRL). To tackle this challenge, we propose a simple yet effective novel method, NAPPING (Novelty Adaptation Principles Learning), that allows trained DRL agents to respond to different classes of novelties in open worlds rapidly. With NAPPING, DRL agents can learn to adjust the trained policy only when necessary. They can quickly generalize to similar novel situations without affecting the part of the trained policy that still works. To demonstrate the efficiency and efficacy of NAPPING, we evaluate our method on four action domains that are different in reward structures and the type of task. The domains are CartPole and MountainCar (classic control), CrossRoad (path-finding), and AngryBirds (physical reasoning). We compare NAPPING with standard online and fine-tuning DRL methods in CartPole, MountainCar and CrossRoad, and state-of-the-art methods in the more complicated AngryBirds domain. Our evaluation results demonstrate that with our proposed method, DRL agents can rapidly and effectively adjust to a wide range of novel situations across all tested domains.
翻訳日:2023-12-20 20:19:38 公開日:2023-12-18
# 直交記憶による線形注意

Linear Attention via Orthogonal Memory ( http://arxiv.org/abs/2312.11135v1 )

ライセンス: Link先を確認
Jun Zhang, Shuyang Jiang, Jiangtao Feng, Lin Zheng, Lingpeng Kong(参考訳) 効率的な注意がトランスフォーマーの計算効率を大幅に改善した。 しかし、既存の線形アテンション機構のほとんどは「emph{efficiency degradation}」問題に悩まされており、因果言語モデリングの非効率性や長距離言語モデルへの応用を妨げる。 この問題は、境界のないコンテキストを持つ言語モデルの下でより顕著である。 本稿では,これらの制約に対処し,線形複雑性を保ちながら高い性能を実現するために, {textbf{L}inear \textbf{A}ttention \textbf{V}ia \textbf{O}rthogonal memory~(\shortname)を提案する。 \shortnameは直交分解を用いてコンテキストを固定サイズの直交メモリに圧縮し、コンテキスト内の冗長性を効果的に最小化する。 直交メモリはグローバルな情報を圧縮するので、より微細なローカル情報を増幅するためにコンテキストを識別する。 さらに、相対的な位置エンコーディングを \shortname に組み込んで、外挿能力を向上させる。 実験の結果, 'shortname' は最高の外挿性能で因果言語モデルの効率を大幅に改善し, その他の効率的なベースラインよりも優れていた。 さらに,非有界言語モデリングに \shortname を用い,文脈長を128Kに拡張する試みを行った。

Efficient attentions have greatly improved the computational efficiency of Transformers. However, most existing linear attention mechanisms suffer from an \emph{efficiency degradation} problem, leading to inefficiencies in causal language modeling and hindering their application in long-range language models. This problem is more pronounced under language modeling with unbounded contexts. In this paper, we propose \textbf{L}inear \textbf{A}ttention \textbf{V}ia \textbf{O}rthogonal memory~(\shortname) to address these limitations, achieving strong performance while maintaining linear complexity. \shortname employs orthogonal decomposition to compress a context into a fixed-size orthogonal memory while effectively minimizing redundancy within the context. Given that orthogonal memory compresses global information, we further dissect the context to amplify fine-grained local information. Additionally, we embed the relative position encoding into \shortname to improve the extrapolation ability. Experimental results show that \shortname greatly improves the efficiency of the causal language model with the best extrapolation performance and outperforms other efficient baselines. Further, we endeavor to employ \shortname for unbounded language modeling and successfully scale the context length to 128K.
翻訳日:2023-12-20 20:19:16 公開日:2023-12-18
# 平衡rgb-eventビデオ認識のためのcnnとtransformerのパワー解放

Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video Recognition ( http://arxiv.org/abs/2312.11128v1 )

ライセンス: Link先を確認
Xiao Wang, Yao Rong, Shiao Wang, Yuan Chen, Zhe Wu, Bo Jiang, Yonghong Tian, Jin Tang(参考訳) RGB-Eventデータに基づくパターン認識は新たな研究トピックであり、以前の研究は通常、CNNやTransformerを使って機能を学ぶ。 私たちが知っているように、CNNは局所的な特徴をうまく捉えており、ケースド・セルフアテンション・メカニズムは長距離のグローバルな関係を抽出するのに優れている。 高性能なRGBイベントベースのビデオ認識に組み合わせることは直感的であるが、Figに示されているように、既存の研究は精度とモデルパラメータのバランスが良くない。 ~\ref{firstimage}。 本稿では,比較的軽量なcnn-transformerモデルであるtscformerと呼ばれる新しいrgbイベントベースの認識フレームワークを提案する。 具体的には、主にCNNをバックボーンネットワークとして採用し、まずRGBとイベントデータをエンコードする。 一方、グローバルトークンを入力として初期化し、bridgeformerモジュールを使用してrgbとイベント機能を融合します。 両方のモダリティ間のグローバルな長距離関係をうまく捉え、同時にモデルアーキテクチャ全体の単純さを維持する。 拡張された機能は、それぞれRGBとEvent CNNブロックに投影され、F2EとF2Vモジュールを使用して対話的に融合される。 他のCNNブロックに対して同様の操作を行い、異なる解像度で適応融合と局所的特徴強調を実現する。 最後に、これら3つの特徴を結合させ、パターン認識のための分類ヘッドに供給する。 2つの大規模RGB-Eventベンチマークデータセット(PokerEventとHARDVS)に対する大規模な実験により、提案したTSCFormerの有効性が完全に検証された。 ソースコードと事前トレーニングされたモデルはhttps://github.com/event-ahu/tscformerでリリースされる。

Pattern recognition based on RGB-Event data is a newly arising research topic and previous works usually learn their features using CNN or Transformer. As we know, CNN captures the local features well and the cascaded self-attention mechanisms are good at extracting the long-range global relations. It is intuitive to combine them for high-performance RGB-Event based video recognition, however, existing works fail to achieve a good balance between the accuracy and model parameters, as shown in Fig.~\ref{firstimage}. In this work, we propose a novel RGB-Event based recognition framework termed TSCFormer, which is a relatively lightweight CNN-Transformer model. Specifically, we mainly adopt the CNN as the backbone network to first encode both RGB and Event data. Meanwhile, we initialize global tokens as the input and fuse them with RGB and Event features using the BridgeFormer module. It captures the global long-range relations well between both modalities and maintains the simplicity of the whole model architecture at the same time. The enhanced features will be projected and fused into the RGB and Event CNN blocks, respectively, in an interactive manner using F2E and F2V modules. Similar operations are conducted for other CNN blocks to achieve adaptive fusion and local-global feature enhancement under different resolutions. Finally, we concatenate these three features and feed them into the classification head for pattern recognition. Extensive experiments on two large-scale RGB-Event benchmark datasets (PokerEvent and HARDVS) fully validated the effectiveness of our proposed TSCFormer. The source code and pre-trained models will be released at https://github.com/Event-AHU/TSCFormer.
翻訳日:2023-12-20 20:18:49 公開日:2023-12-18
# 量子機械学習におけるプライバシー保護のための固有ノイズの活用

Harnessing Inherent Noises for Privacy Preservation in Quantum Machine Learning ( http://arxiv.org/abs/2312.11126v1 )

ライセンス: Link先を確認
Keyi Ju, Xiaoqi Qin, Hui Zhong, Xinyue Zhang, Miao Pan, Baoling Liu(参考訳) 量子コンピューティングは複雑な問題を解決する方法に革命をもたらし、膨大なデータセットを扱う。 しかし、量子機械学習(QML)におけるデータ漏洩は、プライバシー上のリスクをもたらす可能性がある。 人工ノイズを注入することでプライバシーを保護する差分プライバシー(DP)は、確立されたアプローチであるが、QMLドメインでのその応用は未検討のままである。 本稿では,QMLにおけるデータプライバシ保護に固有の量子ノイズを活用することを提案する。 特に、NISQ(Noisy Intermediate-Scale Quantum)デバイスを考えると、量子コンピューティングにおける避けられないショットノイズと非コヒーレントノイズを利用して、バイナリ分類のためのQMLモデルのプライバシを保存する。 我々はQMLにおける量子回路パラメータの勾配がガウス分布を満たすことを数学的に解析し、その分散の上下境界を導出し、DP保証を提供する可能性がある。 シミュレーションにより,量子回路を複数回動作させることで,ターゲットのプライバシ保護レベルを実現できることを示す。

Quantum computing revolutionizes the way of solving complex problems and handling vast datasets, which shows great potential to accelerate the machine learning process. However, data leakage in quantum machine learning (QML) may present privacy risks. Although differential privacy (DP), which protects privacy through the injection of artificial noise, is a well-established approach, its application in the QML domain remains under-explored. In this paper, we propose to harness inherent quantum noises to protect data privacy in QML. Especially, considering the Noisy Intermediate-Scale Quantum (NISQ) devices, we leverage the unavoidable shot noise and incoherent noise in quantum computing to preserve the privacy of QML models for binary classification. We mathematically analyze that the gradient of quantum circuit parameters in QML satisfies a Gaussian distribution, and derive the upper and lower bounds on its variance, which can potentially provide the DP guarantee. Through simulations, we show that a target privacy protection level can be achieved by running the quantum circuit a different number of times.
翻訳日:2023-12-20 20:18:19 公開日:2023-12-18
# プライマリ話者と非プライマリ話者の協調モデルによる長文音声認識の改善

Improved Long-Form Speech Recognition by Jointly Modeling the Primary and Non-primary Speakers ( http://arxiv.org/abs/2312.11123v1 )

ライセンス: Link先を確認
Guru Prakash Arumugam, Shuo-yiin Chang, Tara N. Sainath, Rohit Prabhavalkar, Quan Wang, Shaan Bijwadia(参考訳) ASRモデルは長い音声を(数分または数時間の順序で)翻訳する際に、単語の代わりに逐次空白を予測できる長文の削除問題に悩まされることが多い。 ASRの結果を消費するユーザや下流システムの観点からすると、この振る舞いはモデルが"立ち往生している"と見なされ、製品の使用を難しくする可能性がある。 これは、モデルが複数のアプリケーションドメインから収集された多種多様な大規模データに基づいてトレーニングされた場合でも起こり得る。 本稿では,音声中の異なる話者群と標準書き起こしトークンを同時にモデル化する新しい手法を提案する。 話者はプライマリおよび非プライマリとしてグループ化され、アプリケーションドメインを接続し、長い形式の削除問題を著しく軽減する。 この改善されたモデルは、追加のトレーニングデータや追加のトレーニングや推論コストを必要としない。

ASR models often suffer from a long-form deletion problem where the model predicts sequential blanks instead of words when transcribing a lengthy audio (in the order of minutes or hours). From the perspective of a user or downstream system consuming the ASR results, this behavior can be perceived as the model "being stuck", and potentially make the product hard to use. One of the culprits for long-form deletion is training-test data mismatch, which can happen even when the model is trained on diverse and large-scale data collected from multiple application domains. In this work, we introduce a novel technique to simultaneously model different groups of speakers in the audio along with the standard transcript tokens. Speakers are grouped as primary and non-primary, which connects the application domains and significantly alleviates the long-form deletion problem. This improved model neither needs any additional training data nor incurs additional training or inference cost.
翻訳日:2023-12-20 20:18:00 公開日:2023-12-18
# クロスチャネル空間スペクトル手がかりの組合せ埋め込みによるハイパースペクトル画像再構成

Hyperspectral Image Reconstruction via Combinatorial Embedding of Cross-Channel Spatio-Spectral Clues ( http://arxiv.org/abs/2312.11119v1 )

ライセンス: Link先を確認
Xingxing Yang, Jie Chen, Zaifeng Yang(参考訳) 既存の学習に基づくハイパースペクトル再構成手法は、ハイパースペクトルバンド間の情報を完全に活用する際の限界を示す。 そこで本研究では,それぞれの超スペクトル埋め込み空間における色間依存性について検討する。 これらの組込み機能は、チャネル間相関を組合せ形式でクエリすることで完全に活用でき、そのユニークで補完的な情報を最終予測に効率的に融合することができる。 我々は、特に長波長帯のスペクトルの特徴を明らかにするために、このような独立したモデリングと組合せ的掘削機構が極めて有用であることを見出した。 さらに,空間スペクトル注意ブロックとスペクトル拡散注意モジュールを提案し,意味論的に長距離かつ細粒度な画素レベルでの情報抽出と融合を大いに促進した。 大規模な定量的および定性的実験により,本手法(CESST)がSOTA性能を実現することを示す。 このプロジェクトのコードは以下の通りである。

Existing learning-based hyperspectral reconstruction methods show limitations in fully exploiting the information among the hyperspectral bands. As such, we propose to investigate the chromatic inter-dependencies in their respective hyperspectral embedding space. These embedded features can be fully exploited by querying the inter-channel correlations in a combinatorial manner, with the unique and complementary information efficiently fused into the final prediction. We found such independent modeling and combinatorial excavation mechanisms are extremely beneficial to uncover marginal spectral features, especially in the long wavelength bands. In addition, we have proposed a spatio-spectral attention block and a spectrum-fusion attention module, which greatly facilitates the excavation and fusion of information at both semantically long-range levels and fine-grained pixel levels across all dimensions. Extensive quantitative and qualitative experiments show that our method (dubbed CESST) achieves SOTA performance. Code for this project is at: https://github.com/AlexYangxx/CESST.
翻訳日:2023-12-20 20:17:45 公開日:2023-12-18
# 対実行動結果による強化学習エージェントの解説

Explaining Reinforcement Learning Agents Through Counterfactual Action Outcomes ( http://arxiv.org/abs/2312.11118v1 )

ライセンス: Link先を確認
Yotam Amitai, Yael Septon and Ofra Amir(参考訳) 説明可能な強化学習(XRL)手法は、エージェントポリシーと意思決定プロセスの解明を支援する。 XRLのアプローチの大半は局所的な説明に焦点をあてており、エージェントが特定の世界の状況でそのように振る舞う理由を明かそうとしている。 このような説明は有用かつ必要であるが、通常はエージェントの選択した行動選択の結果を表すものではない。 本研究では,エージェントが選択したアクションの結果を反事実と視覚的に比較する,新しい局所的説明手法である`coviz'を提案する。 エージェントのモチベーションを州限定で観察するほとんどのローカルな説明とは対照的に,本手法はエージェントが与えられた状態と結果から取るべき代替の軌跡を描いている。 本研究では,エージェントの嗜好に対する理解を支援するcovizの有用性を評価し,その評価を,エージェントが期待する異なる行動に対する有用性を説明する局所的な説明法である報酬分解と比較した。 さらに,両手法の統合による相補的利点について検討した。 その結果,この統合により,参加者のパフォーマンスが著しく向上した。

Explainable reinforcement learning (XRL) methods aim to help elucidate agent policies and decision-making processes. The majority of XRL approaches focus on local explanations, seeking to shed light on the reasons an agent acts the way it does at a specific world state. While such explanations are both useful and necessary, they typically do not portray the outcomes of the agent's selected choice of action. In this work, we propose ``COViz'', a new local explanation method that visually compares the outcome of an agent's chosen action to a counterfactual one. In contrast to most local explanations that provide state-limited observations of the agent's motivation, our method depicts alternative trajectories the agent could have taken from the given state and their outcomes. We evaluated the usefulness of COViz in supporting people's understanding of agents' preferences and compare it with reward decomposition, a local explanation method that describes an agent's expected utility for different actions by decomposing it into meaningful reward types. Furthermore, we examine the complementary benefits of integrating both methods. Our results show that such integration significantly improved participants' performance.
翻訳日:2023-12-20 20:17:31 公開日:2023-12-18
# ConDaFormer: 3Dポイントクラウド理解のための局所構造強化型分解変換器

ConDaFormer: Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding ( http://arxiv.org/abs/2312.11112v1 )

ライセンス: Link先を確認
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Gui-Song Xia, Dacheng Tao(参考訳) トランスフォーマーは最近、3Dポイントクラウド理解のために調査され、目覚ましい進歩を遂げた。 0.1万を超える多数のポイントは、ポイントクラウドデータに対してグローバルな自己注意を可能にする。 したがって、ほとんどの方法は、例えば球面窓や立方体窓のような局所領域に変換器を適用することを提案する。 しかし、それでも高い計算コストを必要とする大量のクエリーキーペアを含んでいる。 加えて、従来の手法は通常、局所的な3次元幾何学構造をモデル化せずに線形射影を用いてクエリ、キー、値を学ぶ。 本稿では,新しい変圧器ブロックであるConDaFormerの開発に先立って,コスト削減と局所幾何学のモデル化を試みる。 技術的には、ConDaFormerは立方体窓を3つの直交2次元平面に分解し、同様の範囲で注意をモデル化する際のポイントを減らした。 分解操作は、計算複雑性を増大させることなく注意範囲を拡大するのに有益であるが、いくつかの文脈を無視する。 注意の前後に深部的な畳み込みをもたらす局所構造強化戦略を開発する。 このスキームは局所幾何情報をキャプチャすることもできる。 これらの設計を活用することで、ConDaFormerは長距離コンテキスト情報とローカル事前情報をキャプチャする。 この効果は、いくつかの3dポイントクラウド理解ベンチマークで実験結果によって実証される。 コードはhttps://github.com/LHDuan/ConDaFormerで入手できる。

Transformers have been recently explored for 3D point cloud understanding with impressive progress achieved. A large number of points, over 0.1 million, make the global self-attention infeasible for point cloud data. Thus, most methods propose to apply the transformer in a local region, e.g., spherical or cubic window. However, it still contains a large number of Query-Key pairs, which requires high computational costs. In addition, previous methods usually learn the query, key, and value using a linear projection without modeling the local 3D geometric structure. In this paper, we attempt to reduce the costs and model the local geometry prior by developing a new transformer block, named ConDaFormer. Technically, ConDaFormer disassembles the cubic window into three orthogonal 2D planes, leading to fewer points when modeling the attention in a similar range. The disassembling operation is beneficial to enlarging the range of attention without increasing the computational complexity, but ignores some contexts. To provide a remedy, we develop a local structure enhancement strategy that introduces a depth-wise convolution before and after the attention. This scheme can also capture the local geometric information. Taking advantage of these designs, ConDaFormer captures both long-range contextual information and local priors. The effectiveness is demonstrated by experimental results on several 3D point cloud understanding benchmarks. Code is available at https://github.com/LHDuan/ConDaFormer .
翻訳日:2023-12-20 20:17:14 公開日:2023-12-18
# 大規模グラフ用グラフトランスフォーマー

Graph Transformers for Large Graphs ( http://arxiv.org/abs/2312.11109v1 )

ライセンス: Link先を確認
Vijay Prakash Dwivedi, Yozen Liu, Anh Tuan Luu, Xavier Bresson, Neil Shah, Tong Zhao(参考訳) トランスフォーマーは最近、グラフプロパティ予測タスクにおける最先端のパフォーマンスを示す、グラフ学習のための強力なニューラルネットワークとして登場した。 しかし、これらの結果は、グローバルアテンション機構の計算可能性が可能な小規模グラフに限られている。 次の目標は、これらのアーキテクチャをスケールアップして、数百万から数十億のノード規模の非常に大きなグラフを処理することです。 大規模グラフでは、ノード数の2次複雑さのため、グローバルアテンション学習は非現実的であることが証明されている。 一方, 大規模なグラフサイズ管理には近傍サンプリング技術が不可欠だが, サンプリング技術による速度と精度の最適なトレードオフを見つけることは困難である。 本研究は,スケーラブルグラフトランスフォーマ(gt)アーキテクチャを開発する上で,モデル特性の同定と重要な設計制約に着目し,単一大規模グラフの表現学習を前進させる。 このようなGTは、グラフトポロジーを迅速にサンプリングしながら、局所グラフ表現と大域グラフ表現の両方を十分に学習できる層を必要とする。 このようにして、本研究の重要な革新は、4ホップの受信フィールドを含むが、2ホップの操作のみによって達成されるローカルアテンション機構と組み合わされた高速な近傍サンプリング技法の作成である。 このローカルノードの埋め込みは、グローバルノードの埋め込みと統合され、近似的なグローバルコードブックを持つ別のセルフアテンション層を介して取得され、最終的にノード予測のために下流層に送信される。 提案したGTフレームワークはLargeGTと呼ばれ、従来の計算ボトルネックを克服し、3つの大規模ノード分類ベンチマークで検証されている。 ogbn-products と snap-patents の 3 倍の高速化と 16.8% の性能向上を報告し, ogbn-papers 100M で LargeGT を5.9% の性能改善で拡張した。

Transformers have recently emerged as powerful neural networks for graph learning, showcasing state-of-the-art performance on several graph property prediction tasks. However, these results have been limited to small-scale graphs, where the computational feasibility of the global attention mechanism is possible. The next goal is to scale up these architectures to handle very large graphs on the scale of millions or even billions of nodes. With large-scale graphs, global attention learning is proven impractical due to its quadratic complexity w.r.t. the number of nodes. On the other hand, neighborhood sampling techniques become essential to manage large graph sizes, yet finding the optimal trade-off between speed and accuracy with sampling techniques remains challenging. This work advances representation learning on single large-scale graphs with a focus on identifying model characteristics and critical design constraints for developing scalable graph transformer (GT) architectures. We argue such GT requires layers that can adeptly learn both local and global graph representations while swiftly sampling the graph topology. As such, a key innovation of this work lies in the creation of a fast neighborhood sampling technique coupled with a local attention mechanism that encompasses a 4-hop reception field, but achieved through just 2-hop operations. This local node embedding is then integrated with a global node embedding, acquired via another self-attention layer with an approximate global codebook, before finally sent through a downstream layer for node predictions. The proposed GT framework, named LargeGT, overcomes previous computational bottlenecks and is validated on three large-scale node classification benchmarks. We report a 3x speedup and 16.8% performance gain on ogbn-products and snap-patents, while we also scale LargeGT on ogbn-papers100M with a 5.9% performance improvement.
翻訳日:2023-12-20 20:16:34 公開日:2023-12-18
# 空洞内の原子トウィーザーアレイへの光の結合

Coupling light to an atomic tweezer array in a cavity ( http://arxiv.org/abs/2312.11104v1 )

ライセンス: Link先を確認
Yakov Solomons, Inbar Shani, Ofer Firstenberg, Nir Davidson, Ephraim Shahmoon(参考訳) 光共振器を介して、格子間隔が光の波長を超える2次元原子配列への光の結合を考える。 このような「超波長」間隔は光ツイーザーアレイの典型である。 サブ波長アレイは自由空間における高い光学反射率を特徴とする強い原子-光子結合を示すが、集団散乱損失により高回折次数となるスーパー波長アレイの結合効率が低下する。 この損失は中程度の細い空洞で克服できることを示す。 散乱損失は格子間隔の特定の離散値でピークとなるため、空洞内の効率的な原子-光子結合を達成するためにスペーシングを最適化することができる。 我々のキャビティ-QED理論は、損失、非キャビティ強化光子モードを介する集団双極子相互作用と、アレイと光場の両方の有限サイズ効果を適切に説明する。 これらの発見は、量子コンピューティング、ネットワーク、非線形光学の応用において、トワイザーアレイの汎用性を効率的な原子光子インタフェースに活用する道を開いた。

We consider the coupling of light, via an optical cavity, to two-dimensional atomic arrays whose lattice spacing exceeds the wavelength of the light. Such 'superwavelength' spacing is typical of optical tweezer arrays. While subwavelength arrays exhibit strong atom-photon coupling, characterized by high optical reflectivity in free space, the coupling efficiency of superwavelength arrays is reduced due to collective scattering losses to high diffraction orders. We show that a moderate-finesse cavity overcomes these losses. As the scattering losses peak at certain discrete values of the lattice spacing, the spacing can be optimized to achieve efficient atom-photon coupling in the cavity. Our cavity-QED theory properly accounts for collective dipolar interactions mediated by the lossy, non-cavity-confined photon modes and for finite-size effects of both the array and the light field. These findings pave the way to harnessing the versatility of tweezer arrays for efficient atom-photon interfaces in applications of quantum computing, networking, and nonlinear optics.
翻訳日:2023-12-20 20:16:02 公開日:2023-12-18
# Kane-Meleモデルのエッジ状態がRKKY相互作用に及ぼす影響の解析的および数値計算

Analytical and numerical calculation of the effect of edge states of the Kane-Mele model on the RKKY interaction ( http://arxiv.org/abs/2312.11100v1 )

ライセンス: Link先を確認
Y. Alsayyid J. Ahmadi M. Soltani G. Rashedi Z. Noorinejad(参考訳) 本稿では,Kene-MeleモデルとCene-Meleモデルを用いて,解析計算により,位相境界状態の存在がRKKY相互作用に与える影響を実証する。 端から離れると効果が低下することを示す。 解析的アプローチを容易にするために,まず,各スピンに線形分散を示す一次元ワイヤをKene-Meleモデルに近似として利用する。 RKKY相互作用への影響について検討する。 その後,ケイン-メレ模型のエッジ状態と1次元量子ワイヤモデルとの対応を確立し,その結合強度はエッジからの距離が大きくなるにつれて減少する。 最後に,landauer-buttiker法を用いて解析結果と数値結果を比較した。

In this paper, we investigate the Kane-Mele model and endeavor to demonstrate, through analytical calculations, how the presence of topological edge states influences the RKKY interaction. We illustrate that the effect diminishes as one moves away from the edges. To facilitate our analytical approach, we initially utilize a one-dimensional wire exhibiting linear dispersion for each spin as an approximation to the Kane-Mele model. We examine its impact on the RKKY interaction. Subsequently, we establish a correspondence between the edge states of the Kane-Mele model and a one-dimensional quantum wire model, wherein the coupling strength diminishes with increasing distance from the edges. Finally, we compare the analytical results with numerical findings obtained using the Landauer-Buttiker formulation.
翻訳日:2023-12-20 20:15:43 公開日:2023-12-18
# 犯罪関連時系列における変化点検出:形状空間表現に基づくオンラインファジィアプローチ

Change points detection in crime-related time series: an on-line fuzzy approach based on a shape space representation ( http://arxiv.org/abs/2312.11097v1 )

ライセンス: Link先を確認
Fabrizio Albertetti, Lionel Grossrieder, Olivier Ribaux, Kilian Stoffel(参考訳) 伝統的なデータマイニング手法を時系列に拡張することは、金融、計量学、生物学、セキュリティ、医学など幅広い分野に効果的に適用されている。 既存のマイニング手法の多くは変化点検出のタスクを扱うが、柔軟なアプローチを提供するものはほとんどない。 特定の変化点を言語変数でクエリすることは、直感的で理解しやすく、適切な変化の検出が、タイムリーかつ簡潔な操作のためのリソース割り当てを大幅に改善する犯罪解析において特に有用である。 本稿では,有意義な表現とファジィ推論システムを用いて,犯罪関連時系列における変化点の検出と問合せを行うオンライン手法を提案する。 変化点検出は形状空間表現に基づいており、変化点の幾何学的性質を記述する言語用語はクエリを表現するために使われ、直感性と柔軟性の利点を提供する。 まず,提案手法の有効性を確認するための犯罪データと,その汎用性をテストするための財務データを用いて,経験的評価を行う。 また、同様の変化点検出アルゴリズムと感度解析との比較を行った。 その結果,非常に低い計算コストで変化点を正確に検出できることがわかった。 より広義には、データマイニングに関係のない専門家であっても、事実上あらゆる領域の時系列における特定の変化点の検出をより直感的で理解しやすいものにしている。

The extension of traditional data mining methods to time series has been effectively applied to a wide range of domains such as finance, econometrics, biology, security, and medicine. Many existing mining methods deal with the task of change points detection, but very few provide a flexible approach. Querying specific change points with linguistic variables is particularly useful in crime analysis, where intuitive, understandable, and appropriate detection of changes can significantly improve the allocation of resources for timely and concise operations. In this paper, we propose an on-line method for detecting and querying change points in crime-related time series with the use of a meaningful representation and a fuzzy inference system. Change points detection is based on a shape space representation, and linguistic terms describing geometric properties of the change points are used to express queries, offering the advantage of intuitiveness and flexibility. An empirical evaluation is first conducted on a crime data set to confirm the validity of the proposed method and then on a financial data set to test its general applicability. A comparison to a similar change-point detection algorithm and a sensitivity analysis are also conducted. Results show that the method is able to accurately detect change points at very low computational costs. More broadly, the detection of specific change points within time series of virtually any domain is made more intuitive and more understandable, even for experts not related to data mining.
翻訳日:2023-12-20 20:15:28 公開日:2023-12-18
# 全数統計におけるカスプによる量子相の識別

Distinguishing Quantum Phases through Cusps in Full Counting Statistics ( http://arxiv.org/abs/2312.11191v1 )

ライセンス: Link先を確認
Chang-Yan Wang, Tian-Gang Zhou, Yi-Neng Zhou, and Pengfei Zhang(参考訳) 物理観測量の測定には、複数の同一の測定値に対する平均的な結果が必要となる。 可能な結果の完全な分布関数またはそのフーリエ変換は、完全な数え上げ統計として知られ、より詳細な説明を提供する。 この手法は多体系における基本的な量子揺らぎを捉え、量子輸送研究において大きな注目を集めている。 本稿では,完全カウント統計におけるカスプ特異点が,秩序相と乱相を区別するための新しいツールであることを示す。 具体的な例として、Bose-Hubbardモデルにおける超流動-モット遷移に注目し、$Z_A(\alpha)=\langle \exp({i\alpha \sum_{i\in A}(\hat{n}_i}-\overline{n}))\rangle $ with $\overline{n}=\langle n_i \rangle$を導入する。 解析的解析と数値シミュレーションの両方を通して、$\partial_\alpha \log z_a(\alpha)$ はサブシステムのサイズが十分大きいとき、超流動相で$\alpha=\pi$ に近い不連続性を示すが、mott相では滑らかである。 この不連続性は、渦の異なる半古典的な構成の間の一階遷移と解釈できる。 我々の発見は、最先端の超低温原子と超伝導量子ビットプラットフォームを用いて容易に検証できると期待している。

Measuring physical observables requires averaging experimental outcomes over numerous identical measurements. The complete distribution function of possible outcomes or its Fourier transform, known as the full counting statistics, provides a more detailed description. This method captures the fundamental quantum fluctuations in many-body systems and has gained significant attention in quantum transport research. In this letter, we propose that cusp singularities in the full counting statistics are a novel tool for distinguishing between ordered and disordered phases. As a specific example, we focus on the superfluid-to-Mott transition in the Bose-Hubbard model and introduce $Z_A(\alpha)=\langle \exp({i\alpha \sum_{i\in A}(\hat{n}_i}-\overline{n}))\rangle $ with $\overline{n}=\langle n_i \rangle$. Through both analytical analysis and numerical simulations, we demonstrate that $\partial_\alpha \log Z_A(\alpha)$ exhibits a discontinuity near $\alpha=\pi$ in the superfluid phase when the subsystem size is sufficiently large, while it remains smooth in the Mott phase. This discontinuity can be interpreted as a first-order transition between different semi-classical configurations of vortices. We anticipate that our discoveries can be readily tested using state-of-the-art ultracold atom and superconducting qubit platforms.
翻訳日:2023-12-20 20:10:52 公開日:2023-12-18
# オープンシステムにおける量子異常の検出

Detecting Quantum Anomalies in Open Systems ( http://arxiv.org/abs/2312.11188v1 )

ライセンス: Link先を確認
Yunlong Zang, Yingfei Gu, Shenghan Jiang(参考訳) 対称性と量子異常は複雑な量子多体系を制約する強力なツールであり、紫外線構造に基づく低エネルギー特性に関する貴重な洞察を提供する。 それにもかかわらず、それらの応用性は伝統的に閉量子系に限定されており、密度行列によって記述される開量子系ではほとんど研究されていない。 本研究では,オープンシステムの量子異常を検出するための新しい実験可能な手法を提案する。 Specifically, we claim that, when coupled with an external environment, the mixed 't Hooft anomaly between spin rotation symmetry and lattice translation symmetry gives distinctive characteristics for half-integer and integer spin chains in measurements of $\exp(\rm{i}\theta S^z_{\rm tot})$ as a function of $\theta$. Notably, the half-integer spin chain manifests a topological phenomenon akin to the ``level crossing" observed in closed systems. To substantiate our assertion, we develop a lattice-level spacetime rotation to analyze the aforementioned measurements. Based on the matrix product density operator and transfer matrix formalism, we analytically establish and numerically demonstrate the unavoidable singular behavior of $\exp(\rm{i}\theta S^z_{\rm tot})$ for half-integer spin chains. Conceptually, our work demonstrates a way to discuss notions like ``spectral flow'' and ``flux threading'' in open systems not necessarily with a Hamiltonian.

Symmetries and quantum anomalies serve as powerful tools for constraining complicated quantum many-body systems, offering valuable insights into low-energy characteristics based on their ultraviolet structure. Nevertheless, their applicability has traditionally been confined to closed quantum systems, rendering them largely unexplored for open quantum systems described by density matrices. In this work, we introduce a novel and experimentally feasible approach to detect quantum anomalies in open systems. Specifically, we claim that, when coupled with an external environment, the mixed 't Hooft anomaly between spin rotation symmetry and lattice translation symmetry gives distinctive characteristics for half-integer and integer spin chains in measurements of $\exp(\rm{i}\theta S^z_{\rm tot})$ as a function of $\theta$. Notably, the half-integer spin chain manifests a topological phenomenon akin to the ``level crossing" observed in closed systems. To substantiate our assertion, we develop a lattice-level spacetime rotation to analyze the aforementioned measurements. Based on the matrix product density operator and transfer matrix formalism, we analytically establish and numerically demonstrate the unavoidable singular behavior of $\exp(\rm{i}\theta S^z_{\rm tot})$ for half-integer spin chains. Conceptually, our work demonstrates a way to discuss notions like ``spectral flow'' and ``flux threading'' in open systems not necessarily with a Hamiltonian.
翻訳日:2023-12-20 20:10:23 公開日:2023-12-18
# 不完全知識の文脈における決定のモデル化のための認識論理

An epistemic logic for modeling decisions in the context of incomplete knowledge ( http://arxiv.org/abs/2312.11186v1 )

ライセンス: Link先を確認
{\DJ}or{\dj}e Markovi\'c and Simon Vandevelde and Linde Vanbesien and Joost Vennekens and Marc Denecker(参考訳) 産業とアカデミックの両方から様々な決定モデリング形式を開発するための実質的な努力がなされている。 難しい問題は、不完全な知識の文脈で決定的な知識を表現することである。 このような文脈では、決定は未知か未知かに依存する。 モデル決定のための既存の形式主義はいずれも、そのような決定の認識的性質を正しく把握することができず、必然的に不確実な状況において問題を引き起こすことはない、と我々は主張する。 本稿では,不完全な知識で意思決定をモデル化するための新しい言語を提案する。 階層化、自己認識論理、定義の3つの原則を組み合わせる。 この言語の知識基盤は、認識論的理論の階層であり、各構成要素理論は下位理論の知識を認識論的に推論し、認識論的条件を持つ定義を用いて決定する。

Substantial efforts have been made in developing various Decision Modeling formalisms, both from industry and academia. A challenging problem is that of expressing decision knowledge in the context of incomplete knowledge. In such contexts, decisions depend on what is known or not known. We argue that none of the existing formalisms for modeling decisions are capable of correctly capturing the epistemic nature of such decisions, inevitably causing issues in situations of uncertainty. This paper presents a new language for modeling decisions with incomplete knowledge. It combines three principles: stratification, autoepistemic logic, and definitions. A knowledge base in this language is a hierarchy of epistemic theories, where each component theory may epistemically reason on the knowledge in lower theories, and decisions are made using definitions with epistemic conditions.
翻訳日:2023-12-20 20:10:00 公開日:2023-12-18
# ビュー遷移に基づくデュアルカメラ画像融合

View Transition based Dual Camera Image Fusion ( http://arxiv.org/abs/2312.11184v1 )

ライセンス: Link先を確認
Tiantian Cao, Xuan Dong, Chunli Peng, Zhengqing Li, Xinyu Guo, Weixin Li(参考訳) 広角カメラ(\bf{w}$)と望遠カメラ(\bf{t}$)のデュアルカメラシステムは、一般的な携帯電話で広く採用されている。 重なり合う領域では、$\bf{W}$と$\bf{T}$画像は、より高い画質の画像を生成することができる。 関連する作品では、$\bf{t}$画像から$\bf{w}$画像のピクセルレベルの動きアライメントまたは高次元特徴アライメントを実行し、画像/特徴融合を行うが、咬合領域の強化は不適切であり、$\bf{t}$画像からのデータを利用できない。 我々の洞察は、オクルージョン面積を最小化し、$\bf{T}$画像からのピクセルの使用を最大化することである。 出力を$\bf{w}$ビューに配置する代わりに、$\bf{w}$と$\bf{t}$の両方の画像を混合ビューに変換し、それらを出力にブレンドするビュー遷移法を提案する。 変換率を小さく保ち、ユーザには明らかにせず、十分な量の変換を蓄積した出力の中心領域は、Tビューからのコンテンツを直接使用してオクルージョンを最小化することができる。 実験結果から,SOTA法と比較してオクルージョン面積が大幅に減少し,出力画像の品質向上に$\bf{T}$画像の画素数が増えることが示唆された。

The dual camera system of wide-angle ($\bf{W}$) and telephoto ($\bf{T}$) cameras has been widely adopted by popular phones. In the overlap region, fusing the $\bf{W}$ and $\bf{T}$ images can generate a higher quality image. Related works perform pixel-level motion alignment or high-dimensional feature alignment of the $\bf{T}$ image to the view of the $\bf{W}$ image and then perform image/feature fusion, but the enhancement in occlusion area is ill-posed and can hardly utilize data from $\bf{T}$ images. Our insight is to minimize the occlusion area and thus maximize the use of pixels from $\bf{T}$ images. Instead of insisting on placing the output in the $\bf{W}$ view, we propose a view transition method to transform both $\bf{W}$ and $\bf{T}$ images into a mixed view and then blend them into the output. The transformation ratio is kept small and not apparent to users, and the center area of the output, which has accumulated a sufficient amount of transformation, can directly use the contents from the T view to minimize occlusions. Experimental results show that, in comparison with the SOTA methods, occlusion area is largely reduced by our method and thus more pixels of the $\bf{T}$ image can be used for improving the quality of the output image.
翻訳日:2023-12-20 20:09:46 公開日:2023-12-18
# 自動符号化保存則によるニューラル演算子の力の調和

Harnessing the Power of Neural Operators with Automatically Encoded Conservation Laws ( http://arxiv.org/abs/2312.11176v1 )

ライセンス: Link先を確認
Ning Liu, Yiming Fan, Xianyi Zeng, Milan Klower, Yue Yu(参考訳) ニューラルネットワーク(NO)は、科学機械学習において複雑な物理システムをモデリングするための効果的なツールとして登場した。 nos の中心的な特徴は、データから直接物理法則を学習することである。 他の機械学習の応用とは対照的に、部分的な知識は、質量、エネルギー、運動量などの量が正確に保存される物理系に関する先入観としてよく知られている。 現在、nosはデータからこれらの保存則を学習しなければならず、有限のトレーニングデータとランダムノイズのため、それをほぼ満たすことができる。 本研究では,保護法則の自動満足度を推論するNOsスイートである保護法符号化ニューラル演算子(clawNOs)を紹介する。 ClawNOsは、連続性方程式が自動的に保証される解場の分岐のない予測で構築される。 その結果、ClawNOsは物理的整合性に不可欠な最も基本的でユビキタスな保存法に準拠している。 実演として,物質変形の構成的モデリング,非圧縮性流体力学,大気シミュレーションなど,さまざまな科学的応用を考察する。 ClawNOsは、特に小規模データ体制において、学習効率において最先端のNOsを著しく上回る。

Neural operators (NOs) have emerged as effective tools for modeling complex physical systems in scientific machine learning. In NOs, a central characteristic is to learn the governing physical laws directly from data. In contrast to other machine learning applications, partial knowledge is often known a priori about the physical system at hand whereby quantities such as mass, energy and momentum are exactly conserved. Currently, NOs have to learn these conservation laws from data and can only approximately satisfy them due to finite training data and random noise. In this work, we introduce conservation law-encoded neural operators (clawNOs), a suite of NOs that endow inference with automatic satisfaction of such conservation laws. ClawNOs are built with a divergence-free prediction of the solution field, with which the continuity equation is automatically guaranteed. As a consequence, clawNOs are compliant with the most fundamental and ubiquitous conservation laws essential for correct physical consistency. As demonstrations, we consider a wide variety of scientific applications ranging from constitutive modeling of material deformation, incompressible fluid dynamics, to atmospheric simulation. ClawNOs significantly outperform the state-of-the-art NOs in learning efficacy, especially in small-data regimes.
翻訳日:2023-12-20 20:09:13 公開日:2023-12-18
# UniDCP:動的クロスモーダル学習プロンプトによる複数の医用視覚言語タスクの統合

UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic Cross-modal Learnable Prompts ( http://arxiv.org/abs/2312.11171v1 )

ライセンス: Link先を確認
Chenlu Zhan, Yufei Zhang, Yu Lin, Gaoang Wang, Hongwei Wang(参考訳) 医療ビジョン言語事前訓練(Med-VLP)モデルは、最近急速に成長する医療診断の応用を加速した。 しかしながら、ほとんどのMed-VLPモデルは、スクラッチからタスク固有の表現を学習し、複数の微調整タスクにまたがる作業において、大きな柔軟性をもたらす。 本研究では,複数の医療用視覚言語タスクに可塑性に適用可能な,動的にクロスモーダル学習可能なプロンプトを備えた統一医療用視覚言語モデルunidcpを提案する。 具体的には,複数のプリトレーニングタスクからの多様な入力を調和させるための統一フレームワークを,統一のためのクロスモーダルプロンプトを利用して明示的に構築する。 さらに,共有可能なクリニック知識を暗黙的に処理するために,共有可能な空間内のプロンプトを最適化する動的クロスモーダルプロンプト最適化戦略を提案する。 UniDCPは、14のデータセットで8つの医学的ユニモーダルタスクとクロスモーダルタスクすべてを実行することができる最初のMed-VLPモデルである。

Medical vision-language pre-training (Med-VLP) models have recently accelerated the fast-growing medical diagnostics application. However, most Med-VLP models learn task-specific representations independently from scratch, thereby leading to great inflexibility when they work across multiple fine-tuning tasks. In this work, we propose UniDCP, a Unified medical vision-language model with Dynamic Cross-modal learnable Prompts, which can be plastically applied to multiple medical vision-language tasks. Specifically, we explicitly construct a unified framework to harmonize diverse inputs from multiple pretraining tasks by leveraging cross-modal prompts for unification, which accordingly can accommodate heterogeneous medical fine-tuning tasks. Furthermore, we conceive a dynamic cross-modal prompt optimizing strategy that optimizes the prompts within the shareable space for implicitly processing the shareable clinic knowledge. UniDCP is the first Med-VLP model capable of performing all 8 medical uni-modal and cross-modal tasks over 14 corresponding datasets, consistently yielding superior results over diverse state-of-the-art methods.
翻訳日:2023-12-20 20:08:54 公開日:2023-12-18
# 一般化パウリ安定化符号の2次元における位相次数抽出

Extracting topological orders of generalized Pauli stabilizer codes in two dimensions ( http://arxiv.org/abs/2312.11170v1 )

ライセンス: Link先を確認
Zijian Liang, Yijia Xu, Joseph T. Iosue, and Yu-An Chen(参考訳) 本稿では,2次元システムにおける一般化されたパウリ安定化符号からトポロジカルデータを抽出するアルゴリズムを提案する。 このアルゴリズムは$d$が非素数であるようなインスタンスを含む$\mathbb{z}_d$ quditsに適用する。 この能力により、$\mathbb{z}_d$ toric 符号と異なる位相的順序の識別が可能となり、それによってパウリ安定化符号の $\mathbb{z}_p$ qudits が $\mathbb{z}_p$ toric 符号と自明な安定化符号の有限コピーと等価であるという確立された定理を超えて範囲を広げることができる。 このアルゴリズムは、全てのエノンとその弦演算子を決定し、融合規則、トポロジカルスピン、ブレイディング統計の計算を可能にするように設計されている。 この方法は、位相的順序の同定をガウス的除去、エルミート正規形式、スミス正規形式のトランケートされたローラン多項式を含む計算問題に変換する。 さらにアルゴリズムは、量子誤り訂正符号を研究するための体系的なアプローチを提供する。 カラーコードから修正された自己双対CSS量子コードや、ダブルセミオントポロジ的順序や6セムトポロジ的順序を含む非CSS量子コードなど、様々なコードに適用する。

In this paper, we introduce an algorithm for extracting topological data from translation invariant generalized Pauli stabilizer codes in two-dimensional systems, focusing on the analysis of anyon excitations and string operators. The algorithm applies to $\mathbb{Z}_d$ qudits, including instances where $d$ is a nonprime number. This capability allows the identification of topological orders that may differ from $\mathbb{Z}_d$ toric codes, thereby extending the scope beyond the established theorem that Pauli stabilizer codes of $\mathbb{Z}_p$ qudits (with $p$ being a prime) are equivalent to finite copies of $\mathbb{Z}_p$ toric codes and trivial stabilizers. The algorithm is designed to determine all anyons and their string operators, enabling the computation of their fusion rules, topological spins, and braiding statistics. The method converts the identification of topological orders into computational tasks, including Gaussian elimination, the Hermite normal form, and the Smith normal form of truncated Laurent polynomials. Furthermore, the algorithm provides a systematic approach for studying quantum error-correcting codes. We apply it to various codes, such as self-dual CSS quantum codes modified from the color code and non-CSS quantum codes that contain the double semion topological order or the six-semion topological order.
翻訳日:2023-12-20 20:08:32 公開日:2023-12-18
# フェデレート学習におけるディリクレプロセス混合モデルのための分散崩壊ギブズサンプリング

Distributed Collapsed Gibbs Sampler for Dirichlet Process Mixture Models in Federated Learning ( http://arxiv.org/abs/2312.11169v1 )

ライセンス: Link先を確認
Reda Khoufache, Mustapha Lebbah, Hanene Azzag, Etienne Goffinet, Djamel Bouchaffra(参考訳) ディリクレプロセス混合モデル(DPMM)はクラスタリング問題に対処するために広く使われている。 彼らの主な利点は、ベイズ非パラメトリックフレームワークを通じて推論プロセス中にクラスタ数を自動的に見積もる能力である。 しかし、データセットのサイズが大きくなるにつれて、推論はかなり遅くなる。 本稿では,十分な統計量を用いたdpmmsの分散マルコフ連鎖モンテカルロ(mcmc)推定法を提案する。 我々のアプローチは崩壊したgibbsサンプラーを使用しており、独立および異種マシン間の分散データを扱うよう特別に設計されている。 提案手法は高い有望な結果と優れたスケーラビリティを実現する。 例えば、100kのデータポイントのデータセットでは、集中型アルゴリズムは100回のイテレーションを完了するのに約12時間かかりますが、我々のアプローチは3分で同じイテレーション数を達成し、クラスタのパフォーマンスを損なうことなく実行時間を200倍に削減します。 ソースコードはhttps://github.com/redakhoufache/DisCGSで公開されている。

Dirichlet Process Mixture Models (DPMMs) are widely used to address clustering problems. Their main advantage lies in their ability to automatically estimate the number of clusters during the inference process through the Bayesian non-parametric framework. However, the inference becomes considerably slow as the dataset size increases. This paper proposes a new distributed Markov Chain Monte Carlo (MCMC) inference method for DPMMs (DisCGS) using sufficient statistics. Our approach uses the collapsed Gibbs sampler and is specifically designed to work on distributed data across independent and heterogeneous machines, which habilitates its use in horizontal federated learning. Our method achieves highly promising results and notable scalability. For instance, with a dataset of 100K data points, the centralized algorithm requires approximately 12 hours to complete 100 iterations while our approach achieves the same number of iterations in just 3 minutes, reducing the execution time by a factor of 200 without compromising clustering performance. The code source is publicly available at https://github.com/redakhoufache/DisCGS.
翻訳日:2023-12-20 20:07:54 公開日:2023-12-18
# パラメトリッドハミルトン系の学習のための構造保存トランス

Structure-Preserving Transformers for Learning Parametrized Hamiltonian Systems ( http://arxiv.org/abs/2312.11166v1 )

ライセンス: Link先を確認
Benedikt Brantner, Guillaume de Romemont, Michael Kraus, Zeyuan Li(参考訳) 過去数年間のニューラルネットワーク研究における多くのトレンドのうちの2つは (i)動的システムの学習、特にlong short-term memory network(lstms)やrecurrent neural networkにおける学習 (II)自然言語処理(NLP)タスクのためのトランスフォーマーニューラルネットワークの導入。 これらの傾向はどちらも膨大なトラクションを生み出しており、特に第2の傾向は、トランスフォーマーネットワークがNLPの分野を支配していることである。 この2つの傾向の交点でいくつかの作業が行われたが、この作業は物理的なシステムの設定のためにアーキテクチャを調整せずにバニラ変圧器を直接使用することに限られた。 本研究では、トランスフォーマティブニューラルネットワークを用いて、複雑な非線形力学系を学習し、さらに(初めて)構造保存特性を付与して長期安定性を向上させる。 ニューラルネットワークを現実世界のアプリケーションに適用する場合、これは極めて重要である。

Two of the many trends in neural network research of the past few years have been (i) the learning of dynamical systems, especially with recurrent neural networks such as long short-term memory networks (LSTMs) and (ii) the introduction of transformer neural networks for natural language processing (NLP) tasks. Both of these trends have created enormous amounts of traction, particularly the second one: transformer networks now dominate the field of NLP. Even though some work has been performed on the intersection of these two trends, this work was largely limited to using the vanilla transformer directly without adjusting its architecture for the setting of a physical system. In this work we use a transformer-inspired neural network to learn a complicated non-linear dynamical system and furthermore (for the first time) imbue it with structure-preserving properties to improve long-term stability. This is shown to be extremely important when applying the neural network to real world applications.
翻訳日:2023-12-20 20:07:26 公開日:2023-12-18
# エージェントベースシミュレータのための介入整合サロゲート

Interventionally Consistent Surrogates for Agent-based Simulators ( http://arxiv.org/abs/2312.11158v1 )

ライセンス: Link先を確認
Joel Dyer, Nicholas Bishop, Yorgos Felekis, Fabio Massimo Zennaro, Anisoara Calinescu, Theodoros Damoulas, Michael Wooldridge(参考訳) エージェントベースのシミュレータは、システムの構成エージェントの相互作用を直接モデル化することにより、複雑なインテリジェントシステムの粒度表現を提供する。 その忠実度の高い性質は、ハイパーローカルなポリシーの評価とwhat-ifシナリオの検証を可能にするが、その普及を阻害する大きな計算コストと関連している。 代理モデルはこれらの計算制限に対処できるが、関心の政策介入の下でエージェントベースのモデルと一貫して振る舞う必要がある。 本稿では,エージェントベースシミュレータの介入的一貫したサロゲートモデルを学習するためのフレームワークを開発するために,因果抽象化の最近の発展に乗じる。 提案手法は, 複雑なシステムにおける政策介入の迅速な実験を促進するとともに, エージェントベースシミュレータに対して, エージェントの介入に対して高い確率で一貫した動作を誘導する。 我々は、観察的に訓練された代理店が、介入や政策立案者の最適下方政策に対する影響を誤認し得るという実証的研究を実証し、提案手法と干渉整合性を訓練した代理店は、関心の介入下でのエージェントベースモデルの挙動をよく模倣する。

Agent-based simulators provide granular representations of complex intelligent systems by directly modelling the interactions of the system's constituent agents. Their high-fidelity nature enables hyper-local policy evaluation and testing of what-if scenarios, but is associated with large computational costs that inhibits their widespread use. Surrogate models can address these computational limitations, but they must behave consistently with the agent-based model under policy interventions of interest. In this paper, we capitalise on recent developments on causal abstractions to develop a framework for learning interventionally consistent surrogate models for agent-based simulators. Our proposed approach facilitates rapid experimentation with policy interventions in complex systems, while inducing surrogates to behave consistently with high probability with respect to the agent-based simulator across interventions of interest. We demonstrate with empirical studies that observationally trained surrogates can misjudge the effect of interventions and misguide policymakers towards suboptimal policies, while surrogates trained for interventional consistency with our proposed method closely mimic the behaviour of an agent-based model under interventions of interest.
翻訳日:2023-12-20 20:07:00 公開日:2023-12-18
# マルチビューグラフクラスタリングのための低ランク非凸ノルム法

A low-rank non-convex norm method for multiview graph clustering ( http://arxiv.org/abs/2312.11157v1 )

ライセンス: Link先を確認
Alaeddine Zahir, Khalide Jbilou, Ahmed Ratnani(参考訳) 本研究では,「低ランク非凸ノルムを用いたコンセンサスグラフベースマルチビュークラスタリング手法」(cgmvc-nc)として知られるマルチビュークラスタリングのための新しい手法を提案する。 マルチビュークラスタリングは、複数のデータソースやビューからクラスタデータポイントへの情報を正確に統合する必要があるため、機械学習において難しいタスクである。 提案手法では,マルチビューデータテンソルの構造的特徴を利用し,非凸テンソルノルムを導入して相関関係を同定する。 従来の手法とは対照的に,本手法は複数のベンチマークデータセットのクラスタリング精度が優れていることを示す。 テンソルノルムの非凸性にもかかわらず、提案手法は既存のアルゴリズムを用いて効率よく最適化できる。 このアプローチは、マルチビューデータ分析に有用なツールを提供し、様々な分野における複雑なシステムの理解を深める可能性を秘めています。 さらなる研究により、この手法を他の種類のデータに適用し、他の機械学習タスクに拡張することができる。

This study introduces a novel technique for multi-view clustering known as the "Consensus Graph-Based Multi-View Clustering Method Using Low-Rank Non-Convex Norm" (CGMVC-NC). Multi-view clustering is a challenging task in machine learning as it requires the integration of information from multiple data sources or views to cluster data points accurately. The suggested approach makes use of the structural characteristics of multi-view data tensors, introducing a non-convex tensor norm to identify correlations between these views. In contrast to conventional methods, this approach demonstrates superior clustering accuracy across several benchmark datasets. Despite the non-convex nature of the tensor norm used, the proposed method remains amenable to efficient optimization using existing algorithms. The approach provides a valuable tool for multi-view data analysis and has the potential to enhance our understanding of complex systems in various fields. Further research can explore the application of this method to other types of data and extend it to other machine-learning tasks.
翻訳日:2023-12-20 20:06:26 公開日:2023-12-18
# 多言語自然シーンテキスト検出アルゴリズムに関する研究

Research on Multilingual Natural Scene Text Detection Algorithm ( http://arxiv.org/abs/2312.11153v1 )

ライセンス: Link先を確認
Tao Wang(参考訳) 自然シーンのテキスト検出はコンピュータビジョンにおいて重要な課題であり、多言語、多言語、多様、複雑なテキストシナリオに膨大な可能性を持つ。 自然界における多言語テキストの検出において,低精度と高難易度の問題に対処する多言語テキスト検出モデルを提案する。 複数の文字集合と様々なフォントスタイルを持つ多言語テキスト画像の課題に対応するために,SFM Swin Transformer機能抽出ネットワークを導入し,異なる言語をまたいだ文字やフォントの検出において,モデルの堅牢性を高める。 自然シーンのテキスト画像におけるテキストスケールや複雑な配置のかなりの変化に対応して,アダプティブ空間特徴融合モジュールと空間ピラミッドプールモジュールを組み込んだAS-HRFPN特徴融合ネットワークを提案する。 機能融合ネットワークの改善により、モデルがテキストサイズや方向を検出する能力が向上する。 多言語シーンのテキスト画像における多様な背景やフォントのバリエーションに対処することは、既存の手法の課題である。 限定的な局所受容場は検出性能を妨げる。 そこで本研究では,より効果的なテキスト検出のためにグローバル特徴抽出と保存を行い,包括的情報の必要性に対応するグローバルセマンティックセグメンテーションブランチを提案する。 本研究では,実世界の多言語自然シーン画像データセットを収集し,総合的な実験と分析を行った。 実験の結果,提案アルゴリズムはベースラインモデルよりも4.71\%高い85.02\%のF値が得られることがわかった。 また,MSRA-TD500, ICDAR2017MLT, ICDAR2015データセットのクロスデータセット検証を行った。 コードとデータセットはhttps://github.com/wangmelon/CEMLTで確認できる。

Natural scene text detection is a significant challenge in computer vision, with tremendous potential applications in multilingual, diverse, and complex text scenarios. We propose a multilingual text detection model to address the issues of low accuracy and high difficulty in detecting multilingual text in natural scenes. In response to the challenges posed by multilingual text images with multiple character sets and various font styles, we introduce the SFM Swin Transformer feature extraction network to enhance the model's robustness in detecting characters and fonts across different languages. Dealing with the considerable variation in text scales and complex arrangements in natural scene text images, we present the AS-HRFPN feature fusion network by incorporating an Adaptive Spatial Feature Fusion module and a Spatial Pyramid Pooling module. The feature fusion network improvements enhance the model's ability to detect text sizes and orientations. Addressing diverse backgrounds and font variations in multilingual scene text images is a challenge for existing methods. Limited local receptive fields hinder detection performance. To overcome this, we propose a Global Semantic Segmentation Branch, extracting and preserving global features for more effective text detection, aligning with the need for comprehensive information. In this study, we collected and built a real-world multilingual natural scene text image dataset and conducted comprehensive experiments and analyses. The experimental results demonstrate that the proposed algorithm achieves an F-measure of 85.02\%, which is 4.71\% higher than the baseline model. We also conducted extensive cross-dataset validation on MSRA-TD500, ICDAR2017MLT, and ICDAR2015 datasets to verify the generality of our approach. The code and dataset can be found at https://github.com/wangmelon/CEMLT.
翻訳日:2023-12-20 20:05:42 公開日:2023-12-18
# プロンプトに基づく三チャネルグラフ畳み込みニューラルネットワークによる三重項抽出

Prompt Based Tri-Channel Graph Convolution Neural Network for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2312.11152v1 )

ライセンス: Link先を確認
Kun Peng, Lei Jiang, Hao Peng, Rui Liu, Zhengtao Yu, Jiaqian Ren, Zhifeng Hao, Philip S.Yu(参考訳) アスペクト感情三重項抽出(aspect sentiment triplet extraction, aste)は、アスペクト、意見、感情からなる、ある文の三重項を抽出するための新たなタスクである。 最近の研究では、単語関係を2次元のテーブルにエンコードするテーブルフィルングパラダイムでこの問題に対処し、そのプロセスでは、全ての細胞を明確化し、3つを抽出している。 しかし、これらの研究は近隣細胞間の深い相互作用を無視しており、正確な抽出に非常に役立っている。 そこで本研究では,関係表をグラフに変換し,より包括的な関係情報を探索する,Prompt-based Tri-Channel Graph Convolution Neural Network (PT-GCN) と呼ばれるASTEタスクの新しいモデルを提案する。 具体的には,元のテーブルセルをノードとして扱い,注目スコア計算モジュールを用いてエッジの重みを決定する。 これにより、ターゲット認識グリッドのようなグラフを構築し、全体的な抽出プロセスを強化することができる。 その後、三チャンネル畳み込みモジュールを行い、正確な感情知識を抽出する。 ベンチマークデータセットの大規模な実験は、我々のモデルが最先端のパフォーマンスを達成することを示す。 コードはhttps://github.com/KunPunCN/PT-GCNで入手できる。

Aspect Sentiment Triplet Extraction (ASTE) is an emerging task to extract a given sentence's triplets, which consist of aspects, opinions, and sentiments. Recent studies tend to address this task with a table-filling paradigm, wherein word relations are encoded in a two-dimensional table, and the process involves clarifying all the individual cells to extract triples. However, these studies ignore the deep interaction between neighbor cells, which we find quite helpful for accurate extraction. To this end, we propose a novel model for the ASTE task, called Prompt-based Tri-Channel Graph Convolution Neural Network (PT-GCN), which converts the relation table into a graph to explore more comprehensive relational information. Specifically, we treat the original table cells as nodes and utilize a prompt attention score computation module to determine the edges' weights. This enables us to construct a target-aware grid-like graph to enhance the overall extraction process. After that, a triple-channel convolution module is conducted to extract precise sentiment knowledge. Extensive experiments on the benchmark datasets show that our model achieves state-of-the-art performance. The code is available at https://github.com/KunPunCN/PT-GCN.
翻訳日:2023-12-20 20:04:52 公開日:2023-12-18
# クトリッツのゲルマン特徴写像とその分類問題への応用

The Gell-Mann feature map of qutrits and its applications in classification tasks ( http://arxiv.org/abs/2312.11150v1 )

ライセンス: Link先を確認
T. Valtinos, A. Mandilara, D. Syvridis(参考訳) 近年の量子ハードウェアの進歩により、高次元量子状態の実現が可能となった。 本研究は量子機械学習における量子トリットの可能性を調査し,そのより大きな状態空間を教師付き学習タスクの強化に活用する。 この目的のために、$8 次元ヒルベルト空間内の情報をエンコードするゲルマン特徴写像が導入された。 この研究は分類問題に焦点を当て、ゲルマン特徴マップと確立されたキュービットおよび古典モデルによって生成された地図を比較した。 異なる回路アーキテクチャをテストし、最適化手法の可能性を探る。 本研究は,量子回路の性能と限界に光を当てることで,低深度量子回路の応用を推し進めることを目的とする。

Recent advancements in quantum hardware have enabled the realization of high-dimensional quantum states. This work investigates the potential of qutrits in quantum machine learning, leveraging their larger state space for enhanced supervised learning tasks. To that end, the Gell-Mann feature map is introduced which encodes information within an $8$-dimensional Hilbert space. The study focuses on classification problems, comparing Gell-Mann feature map with maps generated by established qubit and classical models. We test different circuit architectures and explore possibilities in optimization techniques. By shedding light on the capabilities and limitations of qutrit-based systems, this research aims to advance applications of low-depth quantum circuits.
翻訳日:2023-12-20 20:04:31 公開日:2023-12-18
# OsmLocator:クラスタリングによる再視覚化のシミュレーションによる重なり合う散乱点の探索

OsmLocator: locating overlapping scatter marks by simulated annealing on clustering-based re-visualization ( http://arxiv.org/abs/2312.11146v1 )

ライセンス: Link先を確認
Yuming Qiu, Aleksandra Pizurica, Qi Ming, Nicolas Nadisic(参考訳) 散乱画像におけるマークの自動定位は、膨大な文書画像の発見と理解に大いに役立ち、視覚的質問応答aiシステムにおける推論は、重複するマークの普遍性のため、非常に難しい問題である。 重複するマークの配置には、テクスチャの欠如、文脈の少ない情報、ハロー形状、小さなサイズなど、多くの困難がある。 本稿では,クラスタリングに基づく再視覚化における組合せ最適化問題として定式化し,対象関数が最小値に達したときの多変数状態を見つけ,散乱点を見つける。 目的関数は、2値化散乱画像とそれに対応するクラスタリングに基づく再視覚化の差に基づいて構成される。 基本的に、再視覚化は、ラスタ化された散乱画像を入力としてのみ新しい散乱グラフを再描画し、再視覚化のための情報を提供するためにクラスタリングを用いる。 この方法は、トレーニングデータセットや参照に依存することなく、散乱画像に重なり合い、可変サイズ、可変形状のマークを安定的に配置することができる。 一方,本研究では,様々な接続領域で動作するシミュレートアニーリングの適応型を提案する。 さらに,sml2023というデータセットを特に構築し,異なるマーカーと重なり合う重大さのさまざまなレベルを持つ数百の散乱画像を用いて,提案手法をテストし,既存の手法と比較した。 その結果,重複重畳度やマーカータイプが異なる散乱画像において,割当コストに基づく測定値に対して0.3 % の絶対値の増加を,最先端法と比較して精度良く検出できることがわかった。 この研究は、巨大なウェブページや文献のデータマイニングに価値があり、バブル計数などの画像計測に新たな光を当てている。

Automated mark localization in scatter images, greatly helpful for discovering knowledge and understanding enormous document images and reasoning in visual question answering AI systems, is a highly challenging problem because of the ubiquity of overlapping marks. Locating overlapping marks faces many difficulties such as no texture, less contextual information, hallow shape and tiny size. Here, we formulate it as a combinatorial optimization problem on clustering-based re-visualization, to locate scatter marks by finding the status of multi-variables when an objective function reaches a minimum. The objective function is constructed on difference between binarized scatter images and corresponding re-visualization based on their clustering. Fundamentally, re-visualization tries to redraw a new scatter graph only taking a rasterized scatter image as an input, and clustering is employed to provide the information for such re-visualization. This method could stably locate severely-overlapping, variable-size and variable-shape marks in scatter images without dependence of any training dataset or reference. Meanwhile, we propose an adaptive variant of simulated annealing which can works on various connected regions. In addition, we especially built a dataset named SML2023 containing hundreds of scatter images with different markers and various levels of overlapping severity, and tested the proposed method and compared it to existing methods. The results show that it can accurately locate most marks in scatter images with different overlapping severity and marker types, with about 0.3 absolute increase on an assignment-cost-based metric in comparison with state-of-the-art methods. This work is of value to data mining on massive web pages and literatures, and shedding new light on image measurement such as bubble counting.
翻訳日:2023-12-20 20:04:21 公開日:2023-12-18
# 改良された後進ネットワークを用いた個人化連合学習のためのdirichlet-based uncertainty quantification

Dirichlet-based Uncertainty Quantification for Personalized Federated Learning with Improved Posterior Networks ( http://arxiv.org/abs/2312.11230v1 )

ライセンス: Link先を確認
Nikita Kotelevskii, Samuel Horv\'ath, Karthik Nandakumar, Martin Tak\'a\v{c}, Maxim Panov(参考訳) 現代の連合学習において、主な課題の1つは、異なるクライアントに対する固有の不均一性とデータ分散の多様性を考慮に入れることである。 この問題は、特定のクライアントのデータ配信に向けてモデルのパーソナライズを導入することで解決されることが多い。 しかし、パーソナライズされたモデルは、このクライアントに典型的でないデータに適用すると信頼できないかもしれない。 最終的には、すべてのクライアントからのデータのフェデレーション方法でトレーニングされた非パーソナライズドグローバルモデルよりも、これらのデータに対してパフォーマンスが悪くなります。 本稿では,グローバルかつパーソナライズされたモデルから,特定の入力ポイントに対して優れたモデルを選択することを可能にする,フェデレーション学習への新しいアプローチを提案する。 予測の不確かさを慎重にモデル化することで,局所的およびグローバルな流通データの検出を支援し,この情報を用いて予測に自信のあるモデルを選択する。 一般的な実世界画像データセットの包括的実験評価は、標準シナリオにおける最先端のパーソナライズされたフェデレーション学習アルゴリズムと同等の性能を保ちながら、分散データの存在下でのモデルの優れた性能を示す。

In modern federated learning, one of the main challenges is to account for inherent heterogeneity and the diverse nature of data distributions for different clients. This problem is often addressed by introducing personalization of the models towards the data distribution of the particular client. However, a personalized model might be unreliable when applied to the data that is not typical for this client. Eventually, it may perform worse for these data than the non-personalized global model trained in a federated way on the data from all the clients. This paper presents a new approach to federated learning that allows selecting a model from global and personalized ones that would perform better for a particular input point. It is achieved through a careful modeling of predictive uncertainties that helps to detect local and global in- and out-of-distribution data and use this information to select the model that is confident in a prediction. The comprehensive experimental evaluation on the popular real-world image datasets shows the superior performance of the model in the presence of out-of-distribution data while performing on par with state-of-the-art personalized federated learning algorithms in the standard scenarios.
翻訳日:2023-12-20 19:57:20 公開日:2023-12-18
# モデル不確かさ下におけるロバスト能動計測

Robust Active Measuring under Model Uncertainty ( http://arxiv.org/abs/2312.11227v1 )

ライセンス: Link先を確認
Merlijn Krale, Thiago D. Sim\~ao, Jana Tumova, Nils Jansen(参考訳) 部分可観測性と不確実性は、特にマルコフ決定プロセス(MDP)のような形式モデルの使用を妨げるシーケンシャルな意思決定において一般的な問題である。 しかし実際には、エージェントは高価なセンサーを使って環境を計測し、情報収集によって部分的可観測性を解決することができる。 さらに、不正確な遷移関数はモデルの不確かさを捉えることができる。 これらの概念を組み合わせて,MDPをRAM-MDPに拡張する。 本稿では,RAM-MDPを効率よく解き,モデルの不確実性によってエージェントがより少ない測定値を取ることができることを示す。 そこで本稿では, 追加コストを抑えながら, この行動に対処する手法を提案する。 経験的にメソッドをいくつかのベースラインと比較し、優れたスケーラビリティとパフォーマンスを示します。

Partial observability and uncertainty are common problems in sequential decision-making that particularly impede the use of formal models such as Markov decision processes (MDPs). However, in practice, agents may be able to employ costly sensors to measure their environment and resolve partial observability by gathering information. Moreover, imprecise transition functions can capture model uncertainty. We combine these concepts and extend MDPs to robust active-measuring MDPs (RAM-MDPs). We present an active-measure heuristic to solve RAM-MDPs efficiently and show that model uncertainty can, counterintuitively, let agents take fewer measurements. We propose a method to counteract this behavior while only incurring a bounded additional cost. We empirically compare our methods to several baselines and show their superior scalability and performance.
翻訳日:2023-12-20 19:56:59 公開日:2023-12-18
# CDRHが公開コメント:糖尿病と未診断型2型糖尿病を診断するデジタルヘルス技術

CDRH Seeks Public Comment: Digital Health Technologies for Detecting Prediabetes and Undiagnosed Type 2 Diabetes ( http://arxiv.org/abs/2312.11226v1 )

ライセンス: Link先を確認
Manuel Cossio(参考訳) この文書は、プレ糖尿病および未診断型2型糖尿病の検出におけるデジタルヘルス技術(DHT)の役割について、FDAの公開コメント要求(ドケットNo FDA 2023 N 4853)に対する回答を提供する。 現在のdhtアプリケーションは、プレ糖尿病の予防、検出、治療、反転、aiチャットボット、オンラインフォーラム、ウェアラブル、モバイルアプリを強調する。 DHTがグルコース、ダイエット、症状、コミュニティの洞察などの健康信号を捉える方法が概説されている。 リモートスクリーニングツールの恩恵を最も受けられるのは、農村住民、少数派グループ、リスクの高い個人、医療アクセスに制限のある人々だ。 許容される高インパクトリスク要因は、血糖変動、心血管パラメータ、呼吸状態、血液バイオマーカー、患者の症状を含む。 非侵襲的なモニタリングツールの配列について論じるが、多様なグループの精度に関するさらなる研究は保証されている。 AIとMLベースのリスクモデリングのための大きな機会を提供する広範な健康データセットが提示される。 AIとMLアルゴリズムによるスクリーニングを強化するために、EHR、イメージング、ウェアラブル、サーベイを活用するプロトタイプテクニックが紹介されている。 ソーシャルメディアとストリーミングデータの解析により、人口全体にわたる疾病の予測がさらに可能になる。 インクリビティとアクセシビリティに焦点をあてたイノベーションは、糖尿病の予防と治療を変革するDHTの可能性を解き放つ鍵として強調されている。

This document provides responses to the FDA's request for public comments (Docket No FDA 2023 N 4853) on the role of digital health technologies (DHTs) in detecting prediabetes and undiagnosed type 2 diabetes. It explores current DHT applications in prevention, detection, treatment and reversal of prediabetes, highlighting AI chatbots, online forums, wearables and mobile apps. The methods employed by DHTs to capture health signals like glucose, diet, symptoms and community insights are outlined. Key subpopulations that could benefit most from remote screening tools include rural residents, minority groups, high-risk individuals and those with limited healthcare access. Capturable high-impact risk factors encompass glycemic variability, cardiovascular parameters, respiratory health, blood biomarkers and patient reported symptoms. An array of non-invasive monitoring tools are discussed, although further research into their accuracy for diverse groups is warranted. Extensive health datasets providing immense opportunities for AI and ML based risk modeling are presented. Promising techniques leveraging EHRs, imaging, wearables and surveys to enhance screening through AI and ML algorithms are showcased. Analysis of social media and streaming data further allows disease prediction across populations. Ongoing innovation focused on inclusivity and accessibility is highlighted as pivotal in unlocking DHTs potential for transforming prediabetes and diabetes prevention and care.
翻訳日:2023-12-20 19:56:45 公開日:2023-12-18
# 基本熱操作の普遍性と分類

Universality and classification of elementary thermal operations ( http://arxiv.org/abs/2312.11223v1 )

ライセンス: Link先を確認
Pedro Hack and Christian B. Mendl(参考訳) 基本的な熱操作は、システムの最大2つのエネルギーレベルで同時に非自明に作用する熱操作である。 熱操作を実験可能なものにするために最近導入された。 主な課題は, 基本的熱操作が普遍的であるかどうか, 基本的熱操作が実現可能であるか, という点である。 これは一般には誤りであることが示されているが、基本的な熱操作が普遍的である範囲は分かっていない。 ここでは、上記の感覚とより弱い感覚の両方において、それらの普遍性を特徴付け、熱操作を分解する必要はなく、熱操作を介して接続された任意の入出力ペアを再現することができる。 さらに, 提案した2つの基本熱演算の変種に対して, 決定論的プロトコルのみを許容し, ランダム変数の実現によりプロトコルを条件付けできる場合と, 基本熱演算が普遍的である場合(弱さの有無)に, 熱演算をエミュレートするアルゴリズムを提供する。 最後に, 非決定論的プロトコルは, 普遍的でない場合でも, 決定論的プロトコルよりも熱的操作を再現することを示す。 その過程で、基本的な熱操作とグラフ上のランダムウォークを関連付ける。

Elementary thermal operations are thermal operations that act non-trivially on at most two energy levels of a system at the same time. They were recently introduced in order to bring thermal operations closer to experimental feasibility. A key question to address is whether any thermal operation could be realized via elementary ones, that is, whether elementary thermal operations are universal. This was shown to be false in general, although the extent to which elementary thermal operations are universal remained unknown. Here, we characterize their universality in both the sense described above and a weaker one, where we do not require them to decompose any thermal operation, but to be able to reproduce any input-output pair connected via thermal operations. Moreover, we do so for the two variants of elementary thermal operations that have been proposed, one where only deterministic protocols are allowed and one where protocols can be conditioned via the realization of a random variable, and provide algorithms to emulate thermal operations whenever their elementary counterparts are (weakly or not) universal. Lastly, we show that non-deterministic protocols reproduce thermal operations better than deterministic ones in most scenarios, even when they are not universal. Along the way, we relate elementary thermal operations to random walks on graphs.
翻訳日:2023-12-20 19:56:23 公開日:2023-12-18
# 再生可能エネルギー応用における連合学習の展望 : 可能性,課題,今後の方向性

A review of federated learning in renewable energy applications: Potential, challenges, and future directions ( http://arxiv.org/abs/2312.11220v1 )

ライセンス: Link先を確認
Albin Grataloup, Stefan Jonas, Angela Meyer(参考訳) フェデレーション学習は、プライバシ保護の分散機械学習アプローチとして最近登場した。 フェデレートラーニングは、関連するトレーニングデータセットを共有することなく、複数のクライアントと全体の共同トレーニングを可能にする。 データのプライバシを保護することによって、連合学習は、イノベーション、研究、開発を妨げる再生可能エネルギー分野におけるデータ共有の欠如を克服する可能性がある。 本稿では,再生可能エネルギー応用における連合学習の概要について述べる。 我々は,フェデレーション学習アルゴリズムについて論じ,再生可能エネルギーの発生と消費におけるその応用とケーススタディを調査した。 また,力とエネルギーの文脈で適用される連合学習の可能性と課題についても検討した。 最後に,再生可能エネルギー応用のための連合学習における将来研究の方向性について概説する。

Federated learning has recently emerged as a privacy-preserving distributed machine learning approach. Federated learning enables collaborative training of multiple clients and entire fleets without sharing the involved training datasets. By preserving data privacy, federated learning has the potential to overcome the lack of data sharing in the renewable energy sector which is inhibiting innovation, research and development. Our paper provides an overview of federated learning in renewable energy applications. We discuss federated learning algorithms and survey their applications and case studies in renewable energy generation and consumption. We also evaluate the potential and the challenges associated with federated learning applied in power and energy contexts. Finally, we outline promising future research directions in federated learning for applications in renewable energy.
翻訳日:2023-12-20 19:56:01 公開日:2023-12-18
# オンライン蒸留のためのアンサンブル学習による分離知識

Decoupled Knowledge with Ensemble Learning for Online Distillation ( http://arxiv.org/abs/2312.11218v1 )

ライセンス: Link先を確認
Baitan Shao, Ying Chen(参考訳) オフライン蒸留は2段階のパイプラインであり、教師のネットワークを訓練し、その知識を学生に供給するためには高価なリソースを必要とする。 一方、オンライン知識蒸留は、相互学習と協調学習による要求を緩和する一段階戦略である。 最近のピアコラボレーティブラーニング(pcl)は、効果的な知識を構築するために、オンラインアンサンブル、ベースネットワークと時間平均教師のコラボレーションを統合する。 しかし,PCLでは,生徒と教師の同質性が高いため,モデルが時々崩壊する。 本稿では,高い均質化の原因を解析し,その解を提示する。 オンライン知識蒸留のための分離知識は、学生とは別に独立した教師によって生成される。 このような設計はネットワーク間の多様性を高め、モデル崩壊の可能性を低減する。 早期の分別知識を得るために,教師の初期化手法を考案し,理想条件下で2次元幾何学に基づく解析実験を行い,その効果を示す。 また、教師の指導力を向上させるために、減衰するアンサンブル方式を考案した。 トレーニング開始時に大きく、トレーニングの過程で徐々に減少するダイナミックウェイトが割り当てられる教師の知識を組み立てる。 組み立てられた知識は、初期の訓練の間、強固な教師として機能し、重み付けの少ない知識は、潜在的に過剰な教師の監督下での分布偏差を取り除くことができる。 この収束を評価するためにモンテカルロに基づくシミュレーションを行う。 CIFAR-10, CIFAR-100, TinyImageNetの大規模実験により, 本手法の優位性を示した。 アブレーション研究とさらなる分析は効果を示す。

Offline distillation is a two-stage pipeline that requires expensive resources to train a teacher network and then distill the knowledge to a student for deployment. Online knowledge distillation, on the other hand, is a one-stage strategy that alleviates the requirement with mutual learning and collaborative learning. Recent peer collaborative learning (PCL) integrates online ensemble, collaboration of base networks and temporal mean teacher to construct effective knowledge. However, the model collapses occasionally in PCL due to high homogenization between the student and the teacher. In this paper, the cause of the high homogenization is analyzed and the solution is presented. A decoupled knowledge for online knowledge distillation is generated by an independent teacher, separate from the student. Such design can increase the diversity between the networks and reduce the possibility of model collapse. To obtain early decoupled knowledge, an initialization scheme for the teacher is devised, and a 2D geometry-based analysis experiment is conducted under ideal conditions to showcase the effectiveness of this scheme. Moreover, to improve the teacher's supervisory resilience, a decaying ensemble scheme is devised. It assembles the knowledge of the teacher to which a dynamic weight which is large at the start of the training and gradually decreases with the training process is assigned. The assembled knowledge serves as a strong teacher during the early training and the decreased-weight-assembled knowledge can eliminate the distribution deviation under the potentially overfitted teacher's supervision. A Monte Carlo-based simulation is conducted to evaluate the convergence. Extensive experiments on CIFAR-10, CIFAR-100 and TinyImageNet show the superiority of our method. Ablation studies and further analysis demonstrate the effectiveness.
翻訳日:2023-12-20 19:55:52 公開日:2023-12-18
# アームチェア二層ホスホレンナノリボンの熱電特性に及ぼす空隙誘起局所状態の影響

The effect of vacancy induced localized states on thermoelectric properties of armchair bilayer phosphorene nanoribbons ( http://arxiv.org/abs/2312.11216v1 )

ライセンス: Link先を確認
S. Jalilvand, S. Sodagar, Z. Noorinejad, H. Karbaschi, M. Soltani(参考訳) 両面から高温および低温の2つの鉛に結合したアームチェア二層蛍光体を考察し,ナノリボンの中央およびアームチェア方向に周期的な空孔を有する系の熱電特性について検討した。 この目的のために、まず、空き地を作成することにより、その周辺に局所状態が生成されることを解析的に示す。 そして, 周期的空孔では, エネルギーバンド構造に新しいエネルギーバンドを形成し, 空孔, 伝送路幅, 最終的に電力と熱電効率を調整できることを実証した。

We consider an armchair bilayer phosphorene that is connected to two hot and cold leads from both sides and study the thermoelectric properties of such a system with periodic vacancies at the middle of nanoribbon and in the armchair direction. For this purpose, we first analytically show that by creating a vacancy, a localized state is generated around it. Then we demonstrate that in the presence periodic vacancies, a new energy band will be formed in the energy bandstructure, and by changing the distance between the vacancies, the width of the transmission channel and finally the electric power and thermoelectric efficiency can be tuned.
翻訳日:2023-12-20 19:55:26 公開日:2023-12-18
# 生成的adversarial imitation learningにおける勾配爆発の探索:確率論的展望

Exploring Gradient Explosion in Generative Adversarial Imitation Learning: A Probabilistic Perspective ( http://arxiv.org/abs/2312.11214v1 )

ライセンス: Link先を確認
Wanying Wang, Yichen Zhu, Yirui Zhou, Chaomin Shen, Jian Tang, Zhiyuan Xu, Yaxin Peng, Yangchun Zhang(参考訳) GAIL(Generative Adversarial Imitation Learning)は、模倣学習における基礎的なアプローチである。 本稿では,2種類のゲイルにおける勾配爆発について検討する。ゲイルは決定論的政策(デゲイル),ゲイルは確率的政策(ストゲイル)である。 まず,トレーニングの開始時に,脱ゲールに対して高度に不安定なトレーニングを行い,最終的に発散する観察から始める。 逆にST-GAIL訓練軌道は一貫しており、確実に収束している。 これらの相違に光を当てるために、理論的観点から説明を与える。 GAILの確率的下限を確立することで,ST-GAILに問題があるのに対して,時折大きな専門家・イミテータ政策の相違により,勾配爆発がDE-GAILにとって避けられない結果であることを示す。 我々の主張を裏付けるために、報酬関数の修正が勾配爆発を緩和する方法について説明する。 最後に,トレーニング期間中に報酬関数をカットし,GAILが高いデータ効率と安定したトレーニング性を享受できる簡易かつ効果的な戦略であるCREDOを提案する。

Generative Adversarial Imitation Learning (GAIL) stands as a cornerstone approach in imitation learning. This paper investigates the gradient explosion in two types of GAIL: GAIL with deterministic policy (DE-GAIL) and GAIL with stochastic policy (ST-GAIL). We begin with the observation that the training can be highly unstable for DE-GAIL at the beginning of the training phase and end up divergence. Conversely, the ST-GAIL training trajectory remains consistent, reliably converging. To shed light on these disparities, we provide an explanation from a theoretical perspective. By establishing a probabilistic lower bound for GAIL, we demonstrate that gradient explosion is an inevitable outcome for DE-GAIL due to occasionally large expert-imitator policy disparity, whereas ST-GAIL does not have the issue with it. To substantiate our assertion, we illustrate how modifications in the reward function can mitigate the gradient explosion challenge. Finally, we propose CREDO, a simple yet effective strategy that clips the reward function during the training phase, allowing the GAIL to enjoy high data efficiency and stable trainability.
翻訳日:2023-12-20 19:55:14 公開日:2023-12-18
# FAKEPCD:ソース属性によるフェイクポイントクラウド検出

FAKEPCD: Fake Point Cloud Detection via Source Attribution ( http://arxiv.org/abs/2312.11213v1 )

ライセンス: Link先を確認
Yiting Qu, Zhikun Zhang, Yun Shen, Michael Backes, Yang Zhang(参考訳) 生成モデルによる合成(フェイク)点雲の誤用を防止するため,点雲の真正性の検出とそれらの発生源への帰属に関する研究の先駆者となる。 本研究では,それぞれの生成モデル(あるいは実世界のコレクション)に点雲を属性付けるための属性フレームワークFAKEPCDを提案する。 FAKEPCDの主な考え方は、異なるソースからポイントクラウドの特徴を学習する属性モデルをトレーニングし、属性信号を使用してこれらのソースを識別することである。 トレーニングポイント雲の特徴,すなわちソースと形状によって,近接世界,オープン世界,単一形状,複数形状の4つの属性シナリオを定式化し,各シナリオにおけるFAKEPCDの性能を評価する。 FAKEPCDが様々なシナリオにおけるソース属性に与える影響を実験的に検証した。 FAKEPCDの属性は、0.82-0.98の精度で既知のソースに点雲を向け、0.73-1.00の精度で未知のソースに向ける。 さらに、各ソースに関連付けられた点雲におけるユニークなパターン(指紋)を可視化するアプローチを導入する。 これにより、fakepcdがさまざまなソースからポイントクラウドを認識する方法が説明される。 全体として、我々の研究が(偽)点雲の源泉属性の基準となることを願っている。

To prevent the mischievous use of synthetic (fake) point clouds produced by generative models, we pioneer the study of detecting point cloud authenticity and attributing them to their sources. We propose an attribution framework, FAKEPCD, to attribute (fake) point clouds to their respective generative models (or real-world collections). The main idea of FAKEPCD is to train an attribution model that learns the point cloud features from different sources and further differentiates these sources using an attribution signal. Depending on the characteristics of the training point clouds, namely, sources and shapes, we formulate four attribution scenarios: close-world, open-world, single-shape, and multiple-shape, and evaluate FAKEPCD's performance in each scenario. Extensive experimental results demonstrate the effectiveness of FAKEPCD on source attribution across different scenarios. Take the open-world attribution as an example, FAKEPCD attributes point clouds to known sources with an accuracy of 0.82-0.98 and to unknown sources with an accuracy of 0.73-1.00. Additionally, we introduce an approach to visualize unique patterns (fingerprints) in point clouds associated with each source. This explains how FAKEPCD recognizes point clouds from various sources by focusing on distinct areas within them. Overall, we hope our study establishes a baseline for the source attribution of (fake) point clouds.
翻訳日:2023-12-20 19:54:54 公開日:2023-12-18
# 自律型ドローンの分散交通管理

Decentralized traffic management of autonomous drones ( http://arxiv.org/abs/2312.11207v1 )

ライセンス: Link先を確認
Boldizs\'ar Bal\'azs, Tam\'as Vicsek, Gerg\H{o} Somorjai, Tam\'as Nepusz, G\'abor V\'as\'arhelyi(参考訳) 地域とグローバルな航空交通の調整は、共通空域における無人車両の数が増加し続けており、法的、技術的ボトルネックとなっている。 この課題に対処するため、制御の自動化と分散化は避けられない要件である。 本稿では,協調型自律エージェントの自己組織化を,コンフリクトに満ちた共通航空協調タスクが解決される効果的な交通流状態へと導くためのソリューションを提案する。 現実的なシミュレーションを用いて、我々のアルゴリズムはドローンの数と速度範囲に関して安全で効率的でスケーラブルであり、異種エージェントやペアの優先順位を扱うこともできる。 このアルゴリズムはスパースまたは密度の高い交通シナリオを2次元で処理し、3次元の層状飛行空間構造によってより効率的にすることができる。 提案手法の実現可能性を支えるため,125mの円圏内における100機の自律ドローンの航空交通の協調実験を行った。

Coordination of local and global aerial traffic has become a legal and technological bottleneck as the number of unmanned vehicles in the common airspace continues to grow. To meet this challenge, automation and decentralization of control is an unavoidable requirement. In this paper, we present a solution that enables self-organization of cooperating autonomous agents into an effective traffic flow state in which the common aerial coordination task - filled with conflicts - is resolved. Using realistic simulations, we show that our algorithm is safe, efficient, and scalable regarding the number of drones and their speed range, while it can also handle heterogeneous agents and even pairwise priorities between them. The algorithm works in any sparse or dense traffic scenario in two dimensions and can be made increasingly efficient by a layered flight space structure in three dimensions. To support the feasibility of our solution, we experimentally demonstrate coordinated aerial traffic of 100 autonomous drones within a circular area with a radius of 125 meters.
翻訳日:2023-12-20 19:54:29 公開日:2023-12-18
# QDA$^2$: 電荷安定性図の自動アノテートのための原理的アプローチ

QDA$^2$: A principled approach to automatically annotating charge stability diagrams ( http://arxiv.org/abs/2312.11206v1 )

ライセンス: Link先を確認
Brian Weber and Justyna P. Zwolak(参考訳) ゲート定義半導体量子ドット(QD)アレイは量子コンピューティングのための有望なプラットフォームである。 しかし、現在、大きな構成空間と固有のノイズにより、QDデバイスのチューニングは非自明な作業となり、QD量子ビットの増加に伴い、人間による実験的制御は不可能となる。 近年、QDシステムを扱う研究者は、特に機械学習駆動の手法に焦点を当てたデバイス制御の自動化に多大な努力を払っている。 しかし、報告された性能統計は、テストに使用されるデバイスの種類と意味において大きく異なる。 提案手法の体系的ベンチマークは信頼性とスケーラブルなチューニング手法の開発には不可欠であるが、実験データのオープンに利用可能な標準データセットが欠如しているため、そのようなテストは不可能である。 実験的なデータの自動解釈とラベル付けのための古典的なアルゴリズムであるQDauto-Annotatorは、これを修正するための重要なステップである。 QDauto-annotatorは、ジオメトリの原理を利用して、実験的な二重QD電荷安定性図のための状態ラベルを生成し、ラベル付きQDデータの大規模な公開リポジトリを構築するための第一歩である。

Gate-defined semiconductor quantum dot (QD) arrays are a promising platform for quantum computing. However, presently, the large configuration spaces and inherent noise make tuning of QD devices a nontrivial task and with the increasing number of QD qubits, the human-driven experimental control becomes unfeasible. Recently, researchers working with QD systems have begun putting considerable effort into automating device control, with a particular focus on machine-learning-driven methods. Yet, the reported performance statistics vary substantially in both the meaning and the type of devices used for testing. While systematic benchmarking of the proposed tuning methods is necessary for developing reliable and scalable tuning approaches, the lack of openly available standardized datasets of experimental data makes such testing impossible. The QD auto-annotator -- a classical algorithm for automatic interpretation and labeling of experimentally acquired data -- is a critical step toward rectifying this. QD auto-annotator leverages the principles of geometry to produce state labels for experimental double-QD charge stability diagrams and is a first step towards building a large public repository of labeled QD data.
翻訳日:2023-12-20 19:54:12 公開日:2023-12-18
# 連続時間ダイナミクスモデリングのための符号付きグラフニューラル常微分方程式

Signed Graph Neural Ordinary Differential Equation for Modeling Continuous-time Dynamics ( http://arxiv.org/abs/2312.11198v1 )

ライセンス: Link先を確認
Lanlan Chen, Kai Wu, Jian Lou, Jing Liu(参考訳) 連続時間ダイナミクスのモデリングは基礎的な課題であり、複雑なシステム内のコンポーネント間相関を明らかにすることは、動的モデリングの有効性を高めることを約束する。 グラフニューラルネットワークを通常の微分方程式と統合する一般的なアプローチは、有望な性能を示している。 しかし、グラフに固有の重要な署名された情報を無視し、現実世界の現象を正確に捉える能力が妨げられ、結果が分断される。 これに対し,符号付きグラフニューラル微分方程式は,符号付き情報の誤キャプチャの限界に十分対処する。 提案するソリューションは柔軟性と効率性の両方を誇っている。 その効果を実証するため,提案手法をグラフニューラル常微分方程式,グラフニューラル制御微分方程式,グラフリカレントニューラルネットワークの3つのグラフベース動的モデリングフレームワークにシームレスに統合した。 厳密な評価は、物理と生物学の3つの複雑な動的シナリオを包含すると同時に、実際の4つの現実世界のトラフィックデータセットを精査する。 私たちのコードはhttps://github.com/beautyonce/sgode.com/beautyonce/sgodeにある。

Modeling continuous-time dynamics constitutes a foundational challenge, and uncovering inter-component correlations within complex systems holds promise for enhancing the efficacy of dynamic modeling. The prevailing approach of integrating graph neural networks with ordinary differential equations has demonstrated promising performance. However, they disregard the crucial signed information intrinsic to graphs, impeding their capacity to accurately capture real-world phenomena and leading to subpar outcomes. In response, we introduce a novel approach: a signed graph neural ordinary differential equation, adeptly addressing the limitations of miscapturing signed information. Our proposed solution boasts both flexibility and efficiency. To substantiate its effectiveness, we seamlessly integrate our devised strategies into three preeminent graph-based dynamic modeling frameworks: graph neural ordinary differential equations, graph neural controlled differential equations, and graph recurrent neural networks. Rigorous assessments encompass three intricate dynamic scenarios from physics and biology, as well as scrutiny across four authentic real-world traffic datasets. Remarkably outperforming the trio of baselines, empirical results underscore the substantial performance enhancements facilitated by our proposed approach.Our code can be found at https://github.com/beautyonce/SGODE.
翻訳日:2023-12-20 19:53:52 公開日:2023-12-18
# 光双極子トラップにおける1つのセシウム原子と20sのコヒーレンス時間

Coherence time of 20 s with a single cesium atom in an optical dipole trap ( http://arxiv.org/abs/2312.11196v1 )

ライセンス: Link先を確認
Zhuangzhuang Tian, Haobo Chang, Xin Lv, Mengna Yang, Zhihui Wang, Pengfei Yang, Pengfei Zhang, Gang Li, Tiancai Zhang(参考訳) 我々は、原子波動関数の完全な説明を用いて、光学的に捕捉された原子の2つの基底電子状態間のデコヒーレンスを分析する。 運動状態、すなわちフォノン状態が考慮される。 差分光シフト(DLS)のばらつきによるデコヒーレンスに加え、新しいデコヒーレンス機構、フォノンジャンピング誘発デコヒーレンス(PJID)が発見され、実験的に検証された。 次に、DLSとPJIDの両分散を抑えることにより、1つのCs原子に対して、BBTに原子をトラップし、原子を3次元の運動基底状態に準備することにより、T_2\approx 20$ sのコヒーレンス時間を得る。 我々の研究は、光学的に閉じ込められた単一原子のコヒーレンス時間を拡張する新しい可能性を開く。

We analyze the decoherence between two ground electronic states of an optically trapped atom by adopting a full description of the atomic wavefunction. The motional state, i.e., the phonon state, is taken into account. In addition to the decoherence due to the variance of differential light shift (DLS), a new decoherence mechanism, phonon-jumping-induced decoherence (PJID), is discovered and verified experimentally. A coherence time of $T_2\approx 20$ s is then obtained for a single Cs atom by suppressing both variances of DLS and PJID by trapping the atom in a blue-detuned BBT and preparing the atom into its three-dimensional motional ground states. Our work opens a new prospect to extend the coherence time of optically trapped single atoms.
翻訳日:2023-12-20 19:53:24 公開日:2023-12-18
# 年齢不変顔認識のためのクロスエイジコントラスト学習

Cross-Age Contrastive Learning for Age-Invariant Face Recognition ( http://arxiv.org/abs/2312.11195v1 )

ライセンス: Link先を確認
Haoyi Wang, Victor Sanchez, Chang-Tsun Li(参考訳) クロスエイジの顔画像は、一般的には困難で、収集コストがかかるため、ノイズのない年齢指向のデータセットは、広く使われている大規模な顔データセットに比べて比較的小さい。 さらに、現実のシナリオでは、異なる年齢の同じ対象のイメージは通常、入手が困難または不可能である。 これらの要因はどちらも教師付きデータの欠如を招き、年齢不変の顔認識における教師付き手法の汎用性を制限し、セキュリティやバイオメトリックスといったアプリケーションにおいて重要な課題となる。 そこで本研究では,クロスエイジコントラスト学習(cacon)という,新しい半教師付き学習手法を提案する。 最近の顔合成モデルのアイデンティティ保存力により、CAConは入力画像から追加の合成サンプルを活用する新しいコントラスト学習手法を導入した。 また,サンプル三重項に対してコントラスト学習を行うために,caconと連携した新たな損失関数を提案する。 提案手法は, 年齢不変顔認証ベンチマークにおける同質なデータセット実験において, 最先端の性能を達成するだけでなく, クロスデータセット実験において他の手法よりも優れていることを示す。

Cross-age facial images are typically challenging and expensive to collect, making noise-free age-oriented datasets relatively small compared to widely-used large-scale facial datasets. Additionally, in real scenarios, images of the same subject at different ages are usually hard or even impossible to obtain. Both of these factors lead to a lack of supervised data, which limits the versatility of supervised methods for age-invariant face recognition, a critical task in applications such as security and biometrics. To address this issue, we propose a novel semi-supervised learning approach named Cross-Age Contrastive Learning (CACon). Thanks to the identity-preserving power of recent face synthesis models, CACon introduces a new contrastive learning method that leverages an additional synthesized sample from the input image. We also propose a new loss function in association with CACon to perform contrastive learning on a triplet of samples. We demonstrate that our method not only achieves state-of-the-art performance in homogeneous-dataset experiments on several age-invariant face recognition benchmarks but also outperforms other methods by a large margin in cross-dataset experiments.
翻訳日:2023-12-20 19:53:06 公開日:2023-12-18
# adv-diffusion:潜在拡散モデルによる不可避な顔同一性攻撃

Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent Diffusion Model ( http://arxiv.org/abs/2312.11285v1 )

ライセンス: Link先を確認
Decheng Liu, Xijun Wang, Chunlei Peng, Nannan Wang, Ruiming Hu, Xinbo Gao(参考訳) 敵対的攻撃は、ターゲットモデルによる誤分類を引き起こすためにソースイメージに摂動を加えることを含み、顔認識モデルを攻撃する可能性を示す。 既存の対向顔画像生成法は, 転送性が低く, 検出性が高いため, 良好な性能が得られない。 本稿では,潜在拡散モデルの強いインパインティング機能を利用して現実の逆画像を生成する,潜在空間における非受容的な逆向きの同一性摂動を生のピクセル空間で生成できる統一フレームワークadv-diffusionを提案する。 具体的には、周囲のセマンティックな摂動を生成するために、識別に敏感な条件付き拡散生成モデルを提案する。 適応強度に基づく逆摂動アルゴリズムは、攻撃伝達性とステルス性の両方を保証することができる。 公開FFHQおよびCelebA-HQデータセットの大規模定性的および定量的実験により、この提案手法は、余分な生成モデルトレーニングプロセスを持たない最先端の手法と比較して、優れた性能を示す。 ソースコードはhttps://github.com/kopper-xdu/adv-diffusionで入手できる。

Adversarial attacks involve adding perturbations to the source image to cause misclassification by the target model, which demonstrates the potential of attacking face recognition models. Existing adversarial face image generation methods still can't achieve satisfactory performance because of low transferability and high detectability. In this paper, we propose a unified framework Adv-Diffusion that can generate imperceptible adversarial identity perturbations in the latent space but not the raw pixel space, which utilizes strong inpainting capabilities of the latent diffusion model to generate realistic adversarial images. Specifically, we propose the identity-sensitive conditioned diffusion generative model to generate semantic perturbations in the surroundings. The designed adaptive strength-based adversarial perturbation algorithm can ensure both attack transferability and stealthiness. Extensive qualitative and quantitative experiments on the public FFHQ and CelebA-HQ datasets prove the proposed method achieves superior performance compared with the state-of-the-art methods without an extra generative model training process. The source code is available at https://github.com/kopper-xdu/Adv-Diffusion.
翻訳日:2023-12-20 19:46:39 公開日:2023-12-18
# LLM-ARK:Deep Reinforcement Learningによる大規模言語モデルを用いた知識グラフ推論

LLM-ARK: Knowledge Graph Reasoning Using Large Language Models via Deep Reinforcement Learning ( http://arxiv.org/abs/2312.11282v1 )

ライセンス: Link先を確認
Yuxuan Huang(参考訳) 事前学習手法の進化に伴い、大規模言語モデル(LLM)は、即時エンジニアリングによる模範推論能力を示した。 しかし、知識グラフ(KG)環境認識の欠如と中間推論プロセスの工学的最適化機構の課題により、より小さなモデルと比較して、KG推論タスク上でのLLMの性能は制限される。 LLM-ARKは,KG経路の正確かつ適応的な予測を行うために設計された,LLM基底KG推論エージェントである。 LLM-ARKはFTE(Full Textual Environment)を利用して、ステップサイズのインテリジェンスごとに状態情報を同化させる。 llmを活用して、様々なタイプの入力をリッチにエンコードし、知識グラフをパス環境データに統合し、最終決定を下す。 知識グラフ(KG)マルチホップ推論問題を逐次意思決定問題とみなして,PPO(Proximal Policy Optimization)オンラインポリシー強化学習アルゴリズムを用いて,多様なタスクや環境にまたがる膨大な報酬信号からモデルを学習する。 我々は,OpenDialKGデータセット上で,様々なサイズのオープンソースモデルを用いて,最先端LLM(GPT-4)の評価を行った。 実験の結果,LLaMA7B-ARKは目標@1評価値に対して48.75%の精度で優れた結果が得られることがわかった。 一方、GPT-4は14.91%のスコアを達成し、我々の方法論の有効性と複雑さをさらに強調した。 私たちのコードはGitHubでさらにアクセスできます。

With the evolution of pre-training methods, large language models (LLMs) have exhibited exemplary reasoning capabilities via prompt engineering. However, the absence of Knowledge Graph (KG) environment awareness and the challenge of engineering viable optimization mechanisms for intermediary reasoning processes, constrict the performance of LLMs on KG reasoning tasks compared to smaller models. We introduce LLM-ARK, a LLM grounded KG reasoning agent designed to deliver precise and adaptable predictions on KG paths. LLM-ARK utilizes Full Textual Environment (FTE) prompts to assimilate state information for each step-sized intelligence. Leveraging LLMs to richly encode and represent various types of inputs and integrate the knowledge graph further with path environment data, before making the final decision. Reframing the Knowledge Graph (KG) multi-hop inference problem as a sequential decision-making issue, we optimize our model using the Proximal Policy Optimization (PPO) online policy gradient reinforcement learning algorithm which allows the model to learn from a vast array of reward signals across diverse tasks and environments. We evaluate state-of-the-art LLM(GPT-4) and our method which using open-source models of varying sizes on OpenDialKG dataset. Our experiment shows that LLaMA7B-ARK provides excellent results with a performance rate of 48.75% for the target@1 evaluation metric, far exceeding the current state-of-the-art model by 17.64 percentage points. Meanwhile, GPT-4 accomplished a score of only 14.91%, further highlighting the efficacy and complexity of our methodology. Our code is available on GitHub for further access.
翻訳日:2023-12-20 19:46:21 公開日:2023-12-18
# 人間の移動性は、データから自動的に学習されるクローズドフォーム重力モデルによってよく説明される

Human mobility is well described by closed-form gravity-like models learned automatically from data ( http://arxiv.org/abs/2312.11281v1 )

ライセンス: Link先を確認
Oriol Cabanas-Tirapu, Llu\'is Dan\'us, Esteban Moro, Marta Sales-Pardo, Roger Guimer\`a(参考訳) 人間のモビリティのモデリングは、都市計画や交通、持続可能性、公衆衛生、経済開発における世界的な課題に対処するために重要である。 しかし,都市内と都市間の移動流をモデル化する我々の理解と能力は未完成である。 モデリングスペクトルの一端には単純な重力モデルがあり、簡単に解釈でき、モビリティフローの適度に正確な予測を提供する。 一方で、複雑な機械学習とディープラーニングモデルがあり、何十もの機能と何千というパラメータを持ち、解釈不可能で人間の行動に関する洞察を提供しないコストで、重力モデルよりも正確な移動性を予測しています。 ここでは,単純な機械学習による移動性モデルが,重力モデルや複雑な機械モデル,深層学習モデルよりも,全体として移動性フローをより正確に予測できることを示す。 同時に、これらのモデルは単純で重力的であり、標準重力モデルと同様に解釈することができる。 さらに、これらのモデルは異なるデータセットと異なるスケールで動作するため、人間の移動性の基本的な普遍的な特徴を捉えることができる。

Modeling of human mobility is critical to address questions in urban planning and transportation, as well as global challenges in sustainability, public health, and economic development. However, our understanding and ability to model mobility flows within and between urban areas are still incomplete. At one end of the modeling spectrum we have simple so-called gravity models, which are easy to interpret and provide modestly accurate predictions of mobility flows. At the other end, we have complex machine learning and deep learning models, with tens of features and thousands of parameters, which predict mobility more accurately than gravity models at the cost of not being interpretable and not providing insight on human behavior. Here, we show that simple machine-learned, closed-form models of mobility are able to predict mobility flows more accurately, overall, than either gravity or complex machine and deep learning models. At the same time, these models are simple and gravity-like, and can be interpreted in terms similar to standard gravity models. Furthermore, these models work for different datasets and at different scales, suggesting that they may capture the fundamental universal features of human mobility.
翻訳日:2023-12-20 19:45:51 公開日:2023-12-18
# kサーバによるオンラインサービスにおける公正性と公正食品配送への応用

Towards Fairness in Online Service with k Servers and its Application on Fair Food Delivery ( http://arxiv.org/abs/2312.11280v1 )

ライセンス: Link先を確認
Daman Deep Singh, Amit Kumar, Abhijnan Chakraborty(参考訳) k-SERVER問題(k-SERVER problem)は、いくつかの変種と拡張を持つオンラインアルゴリズムにおいて最も顕著な問題の1つである。 しかしながら、即時サーバの動作やサービス時間ゼロといった仮定を単純化することは、現実の問題への適用性を制限している。 本稿では,そのような前提を満たさないk-サーバの現実的な一般化について紹介する。k-food問題とは,送信先の位置と関連するピックアップタイムウインドウに関する要求がオンライン形式で到着し,それぞれが利用可能なkサーバの1つで提供されなければならないという問題である。 k-FOOD問題は、フードデリバリー、ライドシェアリング、クイックコマースなど、さまざまな現実世界のユースケースをモデル化する汎用性を提供する。 さらに,オンラインプラットフォームにおける公平性の必要性に動機づけられ,fair k-food問題をmax-min目的に導入する。 k-food問題とfair k-food問題の両方がnp-hardであり、時間拡張フローネットワークから自然に発生する最適なオフラインアルゴリズムを開発する。 次に,サーバの仮想移動を最寄りの要求位置へ伝達するオンラインアルゴリズムdoc4foodを提案する。 合成データセットと共に実世界の食品配送データセットに関する実験は、最先端のフードデリバリーアルゴリズムに対する提案アルゴリズムの有効性を確立した。

The k-SERVER problem is one of the most prominent problems in online algorithms with several variants and extensions. However, simplifying assumptions like instantaneous server movements and zero service time has hitherto limited its applicability to real-world problems. In this paper, we introduce a realistic generalization of k-SERVER without such assumptions - the k-FOOD problem, where requests with source-destination locations and an associated pickup time window arrive in an online fashion, and each has to be served by exactly one of the available k servers. The k-FOOD problem offers the versatility to model a variety of real-world use cases such as food delivery, ride sharing, and quick commerce. Moreover, motivated by the need for fairness in online platforms, we introduce the FAIR k-FOOD problem with the max-min objective. We establish that both k-FOOD and FAIR k-FOOD problems are strongly NP-hard and develop an optimal offline algorithm that arises naturally from a time-expanded flow network. Subsequently, we propose an online algorithm DOC4FOOD involving virtual movements of servers to the nearest request location. Experiments on a real-world food-delivery dataset, alongside synthetic datasets, establish the efficacy of the proposed algorithm against state-of-the-art fair food delivery algorithms.
翻訳日:2023-12-20 19:45:30 公開日:2023-12-18
# 変圧器に基づく文埋め込みにおける連続的および離散的言語信号の分離

Disentangling continuous and discrete linguistic signals in transformer-based sentence embeddings ( http://arxiv.org/abs/2312.11272v1 )

ライセンス: Link先を確認
Vivi Nastase and Paola Merlo(参考訳) 文と単語の埋め込みは、構造的および意味的情報を分散的にエンコードする。 符号化された情報の一部(特に語彙情報)は連続的に見ることができ、他の情報(構造情報など)は多くの場合離散的である。 我々は、トランスフォーマーに基づく文の埋め込みを、異なる言語信号(特に主語・動詞の一致や動詞の交替に関連する情報)を分離する表現に圧縮できるかどうかを探る。 可変オートエンコーダのようなシステムの潜在層に対象の事象を共有する入力シーケンスを圧縮することで、対象言語情報がより明確になることを示す。 離散的かつ連続的なコンポーネントを持つ潜伏層は、離散的または連続的なコンポーネントのみを持つ潜伏層よりも標的となる現象を捉える。 これらの実験は、言語信号を分散テキスト埋め込みから分離し、より象徴的な表現に結びつけるステップである。

Sentence and word embeddings encode structural and semantic information in a distributed manner. Part of the information encoded -- particularly lexical information -- can be seen as continuous, whereas other -- like structural information -- is most often discrete. We explore whether we can compress transformer-based sentence embeddings into a representation that separates different linguistic signals -- in particular, information relevant to subject-verb agreement and verb alternations. We show that by compressing an input sequence that shares a targeted phenomenon into the latent layer of a variational autoencoder-like system, the targeted linguistic information becomes more explicit. A latent layer with both discrete and continuous components captures better the targeted phenomena than a latent layer with only discrete or only continuous components. These experiments are a step towards separating linguistic signals from distributed text embeddings and linking them to more symbolic representations.
翻訳日:2023-12-20 19:44:48 公開日:2023-12-18
# sphere mask: 球面表現を用いた3dポイントクラウドインスタンスセグメンテーション

Spherical Mask: Coarse-to-Fine 3D Point Cloud Instance Segmentation with Spherical Representation ( http://arxiv.org/abs/2312.11269v1 )

ライセンス: Link先を確認
Sangyun Shin, Kaichen Zhou, Madhu Vankadari, Andrew Markham, Niki Trigoni(参考訳) 最近のGroupingベース, Kernelベース, Transformerベースの手法と比較して, 粗大な3次元インスタンスセグメンテーション手法は弱い性能を示す。 これは2つの制限によると我々は主張する。 1)軸配向バウンディングボックス(AABB)によるインスタンスサイズ過大評価 2) 不正確な箱から精製相への偽陰誤差蓄積。 本稿では,球面表現に基づく新しい粗面法である球面マスクを紹介し,これら2つの限界を克服し,いくつかの利点を享受する。 具体的には,AABBの過大なサイズ推定を回避するために,中心および半径距離予測を用いた3次元ポリゴンを用いて各インスタンスを推定する。 既存の粗大なアプローチにおける誤差の伝搬を削減するために,ポリゴンに基づいて仮想的に点を移動し,偽陰性を含むすべての前景点を改良する。 推論の間、プロポーザルとポイントマイグレーションモジュールは並列に動作し、インスタンスのバイナリマスクを形成するために組み立てられる。 また,ポイントマイグレーションのマージンベース損失を2つ導入し,偽陽性/陰性点の補正と前景点の凝集を強制し,性能を著しく改善した。 ScanNetV2, S3DIS, STPLS3Dの3つのデータセットによる実験結果から, 提案手法は既存手法よりも優れており, 球面座標を用いた新しいインスタンス表現の有効性が示された。

Coarse-to-fine 3D instance segmentation methods show weak performances compared to recent Grouping-based, Kernel-based and Transformer-based methods. We argue that this is due to two limitations: 1) Instance size overestimation by axis-aligned bounding box(AABB) 2) False negative error accumulation from inaccurate box to the refinement phase. In this work, we introduce Spherical Mask, a novel coarse-to-fine approach based on spherical representation, overcoming those two limitations with several benefits. Specifically, our coarse detection estimates each instance with a 3D polygon using a center and radial distance predictions, which avoids excessive size estimation of AABB. To cut the error propagation in the existing coarse-to-fine approaches, we virtually migrate points based on the polygon, allowing all foreground points, including false negatives, to be refined. During inference, the proposal and point migration modules run in parallel and are assembled to form binary masks of instances. We also introduce two margin-based losses for the point migration to enforce corrections for the false positives/negatives and cohesion of foreground points, significantly improving the performance. Experimental results from three datasets, such as ScanNetV2, S3DIS, and STPLS3D, show that our proposed method outperforms existing works, demonstrating the effectiveness of the new instance representation with spherical coordinates.
翻訳日:2023-12-20 19:44:33 公開日:2023-12-18
# カイラル量子輸送の不変測度

An invariant measure of chiral quantum transport ( http://arxiv.org/abs/2312.11266v1 )

ライセンス: Link先を確認
Klaus Ziegler(参考訳) キラルハミルトニアンに対する輸送相関器の不変測度について検討し,その特性を解析する。 不変測度のヤコビアン(Jacobian)はランダム位相の函数である。 次に、位相積分の前後における不変測度を区別する。 前者の場合、フェルミオンの量子拡散と粒子保存に関連する一様零モードが発見された。 位相積分の後、トランスポートコリレータは、古典拡散とバックフォールドランダムウォークという2種類の進化過程を明らかにする。 どちらが支配的かは、基礎となるキラルハミルトニアンの詳細に依存し、古典的拡散または拡散の抑制に繋がる可能性がある。

We study the invariant measure of the transport correlator for a chiral Hamiltonian and analyze its properties. The Jacobian of the invariant measure is a function of random phases. Then we distinguish the invariant measure before and after the phase integration. In the former case we found quantum diffusion of fermions and a uniform zero mode that is associated with particle conservation. After the phase integration the transport correlator reveals two types of evolution processes, namely classical diffusion and back-folded random walks. Which one dominates the other depends on the details of the underlying chiral Hamiltonian and may lead either to classical diffusion or to the suppression of diffusion.
翻訳日:2023-12-20 19:44:06 公開日:2023-12-18
# プログレッシブラーニングと適応蒸留を併用したクロスドメインFew-Shot学習における正規化層の導入

Leveraging Normalization Layer in Adapters With Progressive Learning and Adaptive Distillation for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2312.11260v1 )

ライセンス: Link先を確認
Yongjin Yang, Taehyeon Kim, Se-Young Yun(参考訳) モデルはベースクラスでトレーニングされ、手元に数個のサンプルしか持たない、さまざまなドメインの新しいクラスでテストされなければならない。 以前のアプローチは、主にアダプタを使用するパラメータ効率のよい方法に焦点を当てていたが、バッチ統計のシフトと、ドメインの相違から生じるノイズの多いサンプル統計の2つの重要な問題を見落としていることが多い。 本稿では,Progressive Learning and Adaptive Distillation (ProLAD) を用いたアダプタにおける正規化層を利用した新しい汎用フレームワークを提案する。 まず, 同一のドメインに対してより有効である正規化層を欠いたものと, 対象ドメインのバッチ統計を利用した正規化層を組み込んだもので, 異種ドメインに対して有効であることを示す。 第2に,ノイズ統計の落とし穴に対処するために,2つのアダプタのプログレッシブなトレーニングと,モデルを正規化層を欠いたアダプタのみで決定する特徴から生じる適応蒸留技術という,2つの戦略を展開する。 この適応蒸留により,本手法は変調器として機能し,各領域に基づいて適応用プライマリアダプタを制御する。 標準領域間数ショット学習ベンチマークの評価により,本手法が既存の最先端手法より優れていることを確認した。

Cross-domain few-shot learning presents a formidable challenge, as models must be trained on base classes and then tested on novel classes from various domains with only a few samples at hand. While prior approaches have primarily focused on parameter-efficient methods of using adapters, they often overlook two critical issues: shifts in batch statistics and noisy sample statistics arising from domain discrepancy variations. In this paper, we introduce a novel generic framework that leverages normalization layer in adapters with Progressive Learning and Adaptive Distillation (ProLAD), marking two principal contributions. First, our methodology utilizes two separate adapters: one devoid of a normalization layer, which is more effective for similar domains, and another embedded with a normalization layer, designed to leverage the batch statistics of the target domain, thus proving effective for dissimilar domains. Second, to address the pitfalls of noisy statistics, we deploy two strategies: a progressive training of the two adapters and an adaptive distillation technique derived from features determined by the model solely with the adapter devoid of a normalization layer. Through this adaptive distillation, our approach functions as a modulator, controlling the primary adapter for adaptation, based on each domain. Evaluations on standard cross-domain few-shot learning benchmarks confirm that our technique outperforms existing state-of-the-art methodologies.
翻訳日:2023-12-20 19:43:56 公開日:2023-12-18
# 多心性一般化の課題:Rux-en-Y胃バイパス手術における位相とステップ認識

Challenges in Multi-centric Generalization: Phase and Step Recognition in Roux-en-Y Gastric Bypass Surgery ( http://arxiv.org/abs/2312.11250v1 )

ライセンス: Link先を確認
Joel L. Lavanchy, Sanat Ramesh, Diego Dall'Alba, Cristians Gonzalez, Paolo Fiorini, Beat Muller-Stich, Philipp C. Nett, Jacques Marescaux, Didier Mutter, Nicolas Padoy(参考訳) ai(artificial intelligence)を用いた外科的活動認識に関するほとんどの研究は、小規模および単中心の手術用ビデオデータセットからの1つのタイプの活動の認識に重点を置いている。 これらのモデルが他のセンターに一般化するかどうかはまだ推測されている。 本研究は,StrasBypass70(University Hospital of Strasbourg)とBern University Hospital(BernBypass70)とInselspital(Inselspital)の2つの病院で実施した腹腔鏡下Rux-en-Y胃バイパス術(LRYGB)の140ビデオ(MultiBypass140)からなる多心性多動性データセットを紹介する。 データセットはフェーズとステップで完全に注釈付けされている。 さらに,7つの実験研究において,異なるディープラーニングモデルの一般化可能性とベンチマークを評価する。 1)BernBypass70の訓練と評価 2) StrasBypass70 の訓練と評価 3)MultiBypass140の訓練と評価 4) BernBypass70 の訓練, StrasBypass70 の評価 5) StrasBypass70のトレーニング、BernBypass70の評価、MultiBypass140のトレーニング、評価 6) BernBypass70 および 7)およびStrasBypass70。 モデルのパフォーマンスはトレーニングデータによって著しく影響を受けます。 最悪の結果は実験で得られた 4) および。 5) モノセントリックデータでトレーニングされたモデルの限定的な一般化能力の確認。 多中心トレーニングデータの利用, 実験 6) と 7) はモデルの一般化能力を改善し、独立した単中心トレーニングと検証(実験)のレベルを超えさせる。 1)および2))。 MultiBypass140は、センター間におけるLRYGB手術の術式とワークフローに大きな変化を示す。 したがって、一般化実験はモデル性能に顕著な差を示す。 これらの結果は、外科的手法やワークフローのばらつきを考慮したaiモデルの一般化における多中心データセットの重要性を強調している。

Most studies on surgical activity recognition utilizing Artificial intelligence (AI) have focused mainly on recognizing one type of activity from small and mono-centric surgical video datasets. It remains speculative whether those models would generalize to other centers. In this work, we introduce a large multi-centric multi-activity dataset consisting of 140 videos (MultiBypass140) of laparoscopic Roux-en-Y gastric bypass (LRYGB) surgeries performed at two medical centers: the University Hospital of Strasbourg (StrasBypass70) and Inselspital, Bern University Hospital (BernBypass70). The dataset has been fully annotated with phases and steps. Furthermore, we assess the generalizability and benchmark different deep learning models in 7 experimental studies: 1) Training and evaluation on BernBypass70; 2) Training and evaluation on StrasBypass70; 3) Training and evaluation on the MultiBypass140; 4) Training on BernBypass70, evaluation on StrasBypass70; 5) Training on StrasBypass70, evaluation on BernBypass70; Training on MultiBypass140, evaluation 6) on BernBypass70 and 7) on StrasBypass70. The model's performance is markedly influenced by the training data. The worst results were obtained in experiments 4) and 5) confirming the limited generalization capabilities of models trained on mono-centric data. The use of multi-centric training data, experiments 6) and 7), improves the generalization capabilities of the models, bringing them beyond the level of independent mono-centric training and validation (experiments 1) and 2)). MultiBypass140 shows considerable variation in surgical technique and workflow of LRYGB procedures between centers. Therefore, generalization experiments demonstrate a remarkable difference in model performance. These results highlight the importance of multi-centric datasets for AI model generalization to account for variance in surgical technique and workflows.
翻訳日:2023-12-20 19:43:29 公開日:2023-12-18
# InGaAs半導体2次元電子系を用いた分割ゲート超伝導量子点接触の量子伝導

Quantized conductance in split gate superconducting quantum point contacts with InGaAs semiconducting two-dimensional electron systems ( http://arxiv.org/abs/2312.11248v1 )

ライセンス: Link先を確認
Kaveh Delfanazari, Jiahui Li, Yusheng Xiong, Pengcheng Ma, Reuben K. Puddy, Teng Yi, Ian Farrer, Sachio Komori, Jason W. A. Robinson, Llorenc Serra, David A. Ritchie, Michael J. Kelly, Hannah J. Joyce, and Charles G. Smith(参考訳) 量子点接触 (quantum point contact, QPC) は、量子化コンダクタンスを持つ半導体2次元(2次元)電子系の収縮であり、新しいスピントロニクスおよびトポロジカル電子回路の構成要素である。 読み出し電子、電荷センサー、または量子ナノ回路のスイッチとしても使うことができる。 超伝導接触を持つ短かつ不純物のない制限は、超伝導量子点接触(SQPC)として知られるクーパー対QPCアナログである。 このような量子デバイスの技術開発は、幾何学的要求とほぼ単位の超伝導体-半導体界面の透明性を維持するという課題のために長引いた。 本稿では, ナノファブリケーション, 材料, デバイス工学の先進的な技術を開発し, 半導体2次元電子系における分割ゲート技術によるナノスケールSQPCアレイの革新的実現, 量子井戸の特別なゲートチューニング性を活用し, ハイブリッドInGaAs-Nb SQPCにおける導電性量子化の初めての実験的観察を報告する。 単一チップで作製した複数の量子ナノデバイスにおいて、ゼロ磁場での再現可能な量子化コンダクタンスを観測し、超高精度の電圧標準および耐故障性量子技術のための量子メロロジーへの応用の可能性について、低・高磁場でのSQPCの量子輸送を系統的に検討する。

Quantum point contact or QPC -- a constriction in a semiconducting two-dimensional (2D) electron system with a quantized conductance -- has been found as the building block of novel spintronic, and topological electronic circuits. They can also be used as readout electronic, charge sensor or switch in quantum nanocircuits. A short and impurity-free constriction with superconducting contacts is a Cooper pairs QPC analogue known as superconducting quantum point contact (SQPC). The technological development of such quantum devices has been prolonged due to the challenges of maintaining their geometrical requirement and near-unity superconductor-semiconductor interface transparency. Here, we develop advanced nanofabrication, material and device engineering techniques and report on an innovative realisation of nanoscale SQPC arrays with split gate technology in semiconducting 2D electron systems, exploiting the special gate tunability of the quantum wells, and report the first experimental observation of conductance quantization in hybrid InGaAs-Nb SQPCs. We observe reproducible quantized conductance at zero magnetic fields in multiple quantum nanodevices fabricated in a single chip and systematically investigate the quantum transport of SQPCs at low and high magnetic fields for their potential applications in quantum metrology, for extremely accurate voltage standards, and fault-tolerant quantum technologies.
翻訳日:2023-12-20 19:42:56 公開日:2023-12-18
# MAC-SQL: テキストからSQLへのマルチエージェントコラボレーション

MAC-SQL: Multi-Agent Collaboration for Text-to-SQL ( http://arxiv.org/abs/2312.11242v1 )

ライセンス: Link先を確認
Bing Wang, Changyu Ren, Jian Yang, Xinnian Liang, Jiaqi Bai, Qian-Wen Zhang, Zhao Yan, Zhoujun Li(参考訳) 大規模言語モデル(LLM)を用いたテキストからSQLへの手法の最近の進歩は顕著な性能を示している。 それでもこれらのアプローチは、広範なデータベース処理、複雑なユーザクエリ、誤ったSQL結果の処理において、引き続き困難に直面する。 これらの課題に対処するために, LLM をベースとした多エージェント協調型テキスト- to-SQL フレームワークである \textbf{MAC-SQL} を提案する。 このフレームワークは、3つのエージェントで構成されている: \textit{Selector}, voluminous databaseの凝縮とユーザ質問に関連するテーブルスキーマの保存, 複雑なユーザ質問をより単純なサブプロブレムに分解して徐々に解決する \textit{Decomposer}, 欠陥SQLクエリの検証と精査を行う \textit{Refiner}。 BIRDとSpiderの2つのText-to-SQLデータセットに対して徹底的な実験を行い、BIRDテストセット上で59.59\%の最先端実行精度を実現する。 さらに,コードLlama 7Bをベースとした命令微調整モデル \textbf{SQL-Llama} と,BIRDとSpiderに基づくトレーニングデータから導出されたエージェント命令データセットをオープンソース化した。 sql-llamaモデルは、birdとspiderの開発セットで奨励的な結果を示している。 しかし, GPT-4モデルと比較すると, 改善の可能性は顕著である。 私たちのコードとデータは、 \href{https://github.com/wbbeyourself/MAC-SQL}{https://github.com/wbbeyourself/MAC-SQL}で公開されています。

Recent advancements in Text-to-SQL methods employing Large Language Models (LLMs) have demonstrated remarkable performance. Nonetheless, these approaches continue to encounter difficulties when handling extensive databases, intricate user queries, and erroneous SQL results. To tackle these challenges, we present \textbf{MAC-SQL}, a LLM-based multi-agent collaborative Text- to-SQL framework based on LLMs. This framework comprises three agents: the \textit{Selector}, accountable for condensing voluminous databases and preserving relevant table schemas for user questions; the \textit{Decomposer}, which disassembles complex user questions into more straightforward sub-problems and resolves them progressively; and the \textit{Refiner}, tasked with validating and refining defective SQL queries. We perform thorough experiments on two Text-to-SQL datasets, BIRD and Spider, attaining a state-of-the-art execution accuracy of 59.59\% on the BIRD test set. Moreover, we have open-sourced an instruction fine-tuning model, \textbf{SQL-Llama}, based on Code Llama 7B, in addition to an agent instruction dataset derived from training data based on BIRD and Spider. The SQL-Llama model has demonstrated encouraging outcomes on the development sets of both BIRD and Spider. However, when compared to the GPT-4 model, there remains a notable potential for enhancement. Our code and data can be accessed publicly at \href{https://github.com/wbbeyourself/MAC-SQL}{https://github.com/wbbeyourself/MAC-SQL}.
翻訳日:2023-12-20 19:42:29 公開日:2023-12-18
# 解釈可能なオーディオタギングのための知覚音楽的特徴

Perceptual Musical Features for Interpretable Audio Tagging ( http://arxiv.org/abs/2312.11234v1 )

ライセンス: Link先を確認
Vassilis Lyberatos, Spyridon Kantarelis, Edmund Dervakos and Giorgos Stamou(参考訳) 音楽ストリーミングプラットフォームの時代において、音楽オーディオを自動的にタグ付けするタスクは大きな注目を集め、研究者は標準データセットのパフォーマンス指標を向上する手法を考案した。 最近のアプローチのほとんどがディープニューラルネットワークに依存しており、そのパフォーマンスは素晴らしいが、不透明性があり、入力に対する出力の解明が困難である。 解釈の問題は医学など他の分野でも強調されているが、音楽関連の課題には注目されていない。 本研究では,音楽の自動タグ付けにおける解釈可能性の関連について検討した。 3つの異なる情報抽出技術を組み込んだワークフローを構築した。 a) 象徴的知識の活用 ロ 補助深部神経回路網の利用、及び c) 音声ファイルから知覚的特徴を抽出するために信号処理を利用する。 これらの特徴はその後、タグ予測のための解釈可能な機械学習モデルをトレーニングするために使用された。 MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。 提案手法は,両タスクにおけるベースラインモデルの性能を上回っており,その場合,現状との競合性を示した。 性能劣化が解釈可能性の値によって上回っているユースケースが存在すると結論付けている。

In the age of music streaming platforms, the task of automatically tagging music audio has garnered significant attention, driving researchers to devise methods aimed at enhancing performance metrics on standard datasets. Most recent approaches rely on deep neural networks, which, despite their impressive performance, possess opacity, making it challenging to elucidate their output for a given input. While the issue of interpretability has been emphasized in other fields like medicine, it has not received attention in music-related tasks. In this study, we explored the relevance of interpretability in the context of automatic music tagging. We constructed a workflow that incorporates three different information extraction techniques: a) leveraging symbolic knowledge, b) utilizing auxiliary deep neural networks, and c) employing signal processing to extract perceptual features from audio files. These features were subsequently used to train an interpretable machine-learning model for tag prediction. We conducted experiments on two datasets, namely the MTG-Jamendo dataset and the GTZAN dataset. Our method surpassed the performance of baseline models in both tasks and, in certain instances, demonstrated competitiveness with the current state-of-the-art. We conclude that there are use cases where the deterioration in performance is outweighed by the value of interpretability.
翻訳日:2023-12-20 19:41:56 公開日:2023-12-18
# 画像の超解像と劣化に対する自己教師付き学習

Self-Supervised Learning for Image Super-Resolution and Deblurring ( http://arxiv.org/abs/2312.11232v1 )

ライセンス: Link先を確認
J\'er\'emy Scanvic, Mike Davies, Patrice Abry, Juli\'an Tachella(参考訳) 近年、自己監督法は、様々な画像逆問題において教師あり手法と同じくらい有効であることが証明され、地上の真理データが入手しづらい、あるいは高価である科学・医学画像の応用において、学習に基づく手法の道を開いた。 これは磁気共鳴画像とctの例である。 これらの手法は、不完全な測定データのみから学ぶために、画像分布の変換や回転に大きく依存する。 しかし、既存の手法は、ほとんどの撮像システムにおいて重要な役割を果たす超解像とデブラリングの問題において、競合的な性能を得ることができない。 本研究では,低周波情報のみを含む測定結果から,翻訳や回転に対する不変性が十分でないことを示す。 代わりに,多くの画像分布が大まかにスケール不変であり,測定過程で高周波情報が失われる任意の逆問題に適用可能な,新しい自己教師付き手法を提案する。 提案手法は他の自己教師付きアプローチよりも優れており,完全な教師付き学習と同等の性能が得られることを示す。

Self-supervised methods have recently proved to be nearly as effective as supervised methods in various imaging inverse problems, paving the way for learning-based methods in scientific and medical imaging applications where ground truth data is hard or expensive to obtain. This is the case in magnetic resonance imaging and computed tomography. These methods critically rely on invariance to translations and/or rotations of the image distribution to learn from incomplete measurement data alone. However, existing approaches fail to obtain competitive performances in the problems of image super-resolution and deblurring, which play a key role in most imaging systems. In this work, we show that invariance to translations and rotations is insufficient to learn from measurements that only contain low-frequency information. Instead, we propose a new self-supervised approach that leverages the fact that many image distributions are approximately scale-invariant, and that can be applied to any inverse problem where high-frequency information is lost in the measurement process. We demonstrate throughout a series of experiments on real datasets that the proposed method outperforms other self-supervised approaches, and obtains performances on par with fully supervised learning.
翻訳日:2023-12-20 19:41:42 公開日:2023-12-18
# グローバルな特徴ピラミッドネットワーク

Global Feature Pyramid Network ( http://arxiv.org/abs/2312.11231v1 )

ライセンス: Link先を確認
Weilin Xiao, Ming Xu and Yonggui Lin(参考訳) 視覚的特徴ピラミッドは、目標検出タスクの有効性と効率性を証明している。 しかし、現在の手法は層間特徴の相互作用を過度に強調し、層間特徴調整の重要な側面を無視する傾向にある。 experienceは、ターゲット検出タスクの強化における層内特徴の相互作用の重要な利点を強調する。 いくつかのアプローチでは、注意機構や視覚変換器を用いて層内特徴表現の凝縮を学習しようとするが、グローバルな情報相互作用の組み入れを見落としている。 この見落としは、誤検出の増加と目標の欠落を招き、この問題に対処するため、本論文では、ターゲット検出にグローバル情報を統合したpafpnの拡張版であるglobal feature pyramid network(gfpnet)を紹介する。 具体的には、軽量MLPを利用してグローバルな特徴情報をキャプチャし、VNCエンコーダを使ってこれらの特徴を処理し、並列学習機構を用いて入力画像から層内特徴を抽出する。 この基盤の上に構築したPAFPN法は,多層的特徴の相互作用を促進するため,多層的特徴の相互作用の促進,多層的特徴の抽出,および従来の特徴のピラミッドと対比して,GFPNは層間特徴情報を効果的に重視するだけでなく,グローバルな特徴の詳細を捉え,層間特徴の相互作用を育み,より包括的でインパクトのある特徴の表現を生成する。 GFPNは一貫してオブジェクト検出ベースラインよりもパフォーマンスが向上している。

The visual feature pyramid has proven its effectiveness and efficiency in target detection tasks. Yet, current methodologies tend to overly emphasize inter-layer feature interaction, neglecting the crucial aspect of intra-layer feature adjustment. Experience underscores the significant advantages of intra-layer feature interaction in enhancing target detection tasks. While some approaches endeavor to learn condensed intra-layer feature representations using attention mechanisms or visual transformers, they overlook the incorporation of global information interaction. This oversight results in increased false detections and missed targets.To address this critical issue, this paper introduces the Global Feature Pyramid Network (GFPNet), an augmented version of PAFPN that integrates global information for enhanced target detection. Specifically, we leverage a lightweight MLP to capture global feature information, utilize the VNC encoder to process these features, and employ a parallel learnable mechanism to extract intra-layer features from the input image. Building on this foundation, we retain the PAFPN method to facilitate inter-layer feature interaction, extracting rich feature details across various levels.Compared to conventional feature pyramids, GFPN not only effectively focuses on inter-layer feature information but also captures global feature details, fostering intra-layer feature interaction and generating a more comprehensive and impactful feature representation. GFPN consistently demonstrates performance improvements over object detection baselines.
翻訳日:2023-12-20 19:41:13 公開日:2023-12-18
# 多様性最適化のための密度降下

Density Descent for Diversity Optimization ( http://arxiv.org/abs/2312.11331v1 )

ライセンス: Link先を確認
David H. Lee, Anishalakshmi V. Palaparthi, Matthew C. Fontaine, Bryon Tjanaka, Stefanos Nikolaidis(参考訳) 多様性の最適化は、多様な特徴を引き出す一連のソリューションを見つけ出そうとする。 従来の研究で提案されたノベルティ・サーチ(英語版)(NS)は、現在の解の集合から、特徴空間の低密度領域の点を見つけることによって集合を拡張しようとするものである。 しかし、密度を推定するためには、NSは特徴空間の探索点の k-アネレス近傍を考えるヒューリスティックに依存し、より弱い安定性を保証する。 本稿では, より強い安定性を保証するために, 特徴空間の連続密度推定に基づく勾配降下による特徴空間の探索を行うアルゴリズムである密度 Descent Search (DDS)を提案する。 我々はDDSとカーネル密度推定(KDE)と連続正規化フロー(CNF)の2つの密度推定法を実験した。 いくつかの標準多様性最適化ベンチマークでは、DDSはNS、最近提案されたMAP-Annealingアルゴリズム、その他の最先端のベースラインよりも優れている。 さらに、KDE を用いた DDS が NS よりも強い安定性を保証することを示し、適応最適化により適していることを示す。 さらに、NS は特徴空間の KDE を下降させる DDS の特別な場合であることを示す。

Diversity optimization seeks to discover a set of solutions that elicit diverse features. Prior work has proposed Novelty Search (NS), which, given a current set of solutions, seeks to expand the set by finding points in areas of low density in the feature space. However, to estimate density, NS relies on a heuristic that considers the k-nearest neighbors of the search point in the feature space, which yields a weaker stability guarantee. We propose Density Descent Search (DDS), an algorithm that explores the feature space via gradient descent on a continuous density estimate of the feature space that also provides stronger stability guarantee. We experiment with DDS and two density estimation methods: kernel density estimation (KDE) and continuous normalizing flow (CNF). On several standard diversity optimization benchmarks, DDS outperforms NS, the recently proposed MAP-Annealing algorithm, and other state-of-the-art baselines. Additionally, we prove that DDS with KDE provides stronger stability guarantees than NS, making it more suitable for adaptive optimizers. Furthermore, we prove that NS is a special case of DDS that descends a KDE of the feature space.
翻訳日:2023-12-20 19:33:15 公開日:2023-12-18
# 部分可観測性と空間色雑音下におけるネットワーク力学系のグラフ推定

Inferring the Graph of Networked Dynamical Systems under Partial Observability and Spatially Colored Noise ( http://arxiv.org/abs/2312.11324v1 )

ライセンス: Link先を確認
Augusto Santos, Diogo Rente, Rui Seabra, Jos\'e M. F. Moura(参考訳) ネットワーク動的システム(Networked Dynamical System, NDS)では、各ノードが近隣ノードのダイナミクスと結合されたシステムである。 グローバルダイナミクスは自然にこの結合ネットワーク上に構築され、しばしば非自明な構造を持つノイズ入力によって励起される。 基盤となるネットワークは多くのアプリケーションで未知であり、観測データから推測されるべきである。 と仮定する。 i) 部分可観測性 -- 時系列データは,ノードのサブセット上でのみ利用可能である。 ii)入力ノイズ -- 異なるノード間で相関する一方で、時間的に独立している、すなわち空間的に色付けされている。 観測ノード間の基礎的依存関係を復元する一貫したネットワーク推定器が存在するという,ノイズ相関構造に対する実現可能性条件を提案する。 さらに,ネットワーク接続性,可観測性,ノイズ相関の異なる領域における競合性能を示す構造同定アルゴリズムについて述べる。

In a Networked Dynamical System (NDS), each node is a system whose dynamics are coupled with the dynamics of neighboring nodes. The global dynamics naturally builds on this network of couplings and it is often excited by a noise input with nontrivial structure. The underlying network is unknown in many applications and should be inferred from observed data. We assume: i) Partial observability -- time series data is only available over a subset of the nodes; ii) Input noise -- it is correlated across distinct nodes while temporally independent, i.e., it is spatially colored. We present a feasibility condition on the noise correlation structure wherein there exists a consistent network inference estimator to recover the underlying fundamental dependencies among the observed nodes. Further, we describe a structure identification algorithm that exhibits competitive performance across distinct regimes of network connectivity, observability, and noise correlation.
翻訳日:2023-12-20 19:32:53 公開日:2023-12-18
# UniForCE:クラスタリングとクラスタ数推定のための一様森林法

UniForCE: The Unimodality Forest Method for Clustering and Estimation of the Number of Clusters ( http://arxiv.org/abs/2312.11323v1 )

ライセンス: Link先を確認
Georgios Vardakas, Argyris Kalogeratos, Aristidis Likas(参考訳) データをクラスタ化しながらクラスタ数kを見積もるのは難しい作業です。 間違ったクラスタ仮定は、クラスタ数kが誤って推定されることを示す。 これにより、モデルフィッティングがより重要になる。 本稿では,ユニモダリティの概念に着目し,局所ユニモダリティクラスタと呼ばれる柔軟なクラスタ定義を提案する。 ローカルなユニモダリティクラスタは、データのサブクラスタのペア間でユニモダリティがローカルに保存される限り拡張される。 そこで本研究では,UniForCE法を提案する。 この方法は、データの初期オーバークラスタ化から始まり、サブクラスタを接続する一様性グラフに依存している。 このようなペアは適切な統計テストを用いて識別される。 UniForCEは、一様グラフ内の広がる森林を計算することで、最大局所的な一様クラスタを特定する。 実データと合成データの両方を用いた実験結果から,提案手法は正則かつ複雑なクラスタ形状の発見に特に柔軟で堅牢であることが示された。 最も重要なのは、自動的にクラスタ数を適切に見積もることです。

Estimating the number of clusters k while clustering the data is a challenging task. An incorrect cluster assumption indicates that the number of clusters k gets wrongly estimated. Consequently, the model fitting becomes less important. In this work, we focus on the concept of unimodality and propose a flexible cluster definition called locally unimodal cluster. A locally unimodal cluster extends for as long as unimodality is locally preserved across pairs of subclusters of the data. Then, we propose the UniForCE method for locally unimodal clustering. The method starts with an initial overclustering of the data and relies on the unimodality graph that connects subclusters forming unimodal pairs. Such pairs are identified using an appropriate statistical test. UniForCE identifies maximal locally unimodal clusters by computing a spanning forest in the unimodality graph. Experimental results on both real and synthetic datasets illustrate that the proposed methodology is particularly flexible and robust in discovering regular and highly complex cluster shapes. Most importantly, it automatically provides an adequate estimation of the number of clusters.
翻訳日:2023-12-20 19:32:38 公開日:2023-12-18
# ガウス過程のドメイン不変学習とベイズ探索

Domain Invariant Learning for Gaussian Processes and Bayesian Exploration ( http://arxiv.org/abs/2312.11318v1 )

ライセンス: Link先を確認
Xilong Zhao, Siyuan Bian, Yaoyun Zhang, Yuliang Zhang, Qinying Gu, Xinbing Wang, Chenghu Zhou and Nanyang Ye(参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は長い間、ほとんど未解決の課題であった。 ガウス過程(GP: Gaussian process)は、確率論的モデルクラスとして、特に小さなデータ構造において、強いOOD一般化能力を前提としている。 驚くべきことに、彼らのood一般化能力はgp研究の他の行と比較される前には未熟に研究されている。 本稿では,gpが問題から自由でないことを明らかにし,確率を最小に最適化したガウス過程(dil-gp)に対するドメイン不変学習アルゴリズムを提案する。 DIL-GPはデータの不均一性を発見し、データの分割されたサブセット間で不変性を強制する。 さらに,DIL-GPを拡張し,ベイズ最適化の環境適応性を向上させる。 数値実験により、複数の合成および実世界のデータセットの予測におけるDIL-GPの優位性を示す。 さらに,DIL-GPベイズ最適化法のPIDパラメータチューニング実験への適用性を示す。 完全なバージョンとソースコードは、https://github.com/Billzxl/DIL-GPで入手できる。

Out-of-distribution (OOD) generalization has long been a challenging problem that remains largely unsolved. Gaussian processes (GP), as popular probabilistic model classes, especially in the small data regime, presume strong OOD generalization abilities. Surprisingly, their OOD generalization abilities have been under-explored before compared with other lines of GP research. In this paper, we identify that GP is not free from the problem and propose a domain invariant learning algorithm for Gaussian processes (DIL-GP) with a min-max optimization on the likelihood. DIL-GP discovers the heterogeneity in the data and forces invariance across partitioned subsets of data. We further extend the DIL-GP to improve Bayesian optimization's adaptability on changing environments. Numerical experiments demonstrate the superiority of DIL-GP for predictions on several synthetic and real-world datasets. We further demonstrate the effectiveness of the DIL-GP Bayesian optimization method on a PID parameters tuning experiment for a quadrotor. The full version and source code are available at: https://github.com/Billzxl/DIL-GP.
翻訳日:2023-12-20 19:32:25 公開日:2023-12-18
# 強化学習における安全進歩:制御政策合成のための安全ベイズ探索

Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis ( http://arxiv.org/abs/2312.11314v1 )

ライセンス: Link先を確認
Rohan Mitta, Hosein Hasanbeig, Jun Wang, Daniel Kroening, Yiannis Kantaros, Alessandro Abate(参考訳) 本稿では,Reinforcement Learning (RL) におけるトレーニング中の安全維持の問題に対処する。 様々なRLアプリケーションにおいて、エージェントの安全性は特に重要であり、例えば、自律的なプラットフォームや人間に近い作業を行うロボットなどである。 訓練中の安全性の確保はエージェントの探索を著しく制限する可能性があるため、探索中の効率的な進捗と安全性の間のトレードオフを処理する新しいアーキテクチャを提案する。 探索が進むにつれて、我々は環境力学を記述するマルコフ決定過程の遷移確率のベイズ推論ディリクレ分類モデルを通じて更新する。 本稿では,行動選択政策に関連するリスクに関する信念の瞬間を近似する方法を提案する。 これらの近似を構築し、収束結果を証明する。 本研究では,予測近似を利用してリスクが一定のレベル以下であるという信頼度に近似した近似を導出する手法を提案する。 このアプローチはRLと容易にインターリーブでき、アーキテクチャ全体の性能を示す実験結果を示す。

This paper addresses the problem of maintaining safety during training in Reinforcement Learning (RL), such that the safety constraint violations are bounded at any point during learning. In a variety of RL applications the safety of the agent is particularly important, e.g. autonomous platforms or robots that work in proximity of humans. As enforcing safety during training might severely limit the agent's exploration, we propose here a new architecture that handles the trade-off between efficient progress and safety during exploration. As the exploration progresses, we update via Bayesian inference Dirichlet-Categorical models of the transition probabilities of the Markov decision process that describes the environment dynamics. This paper proposes a way to approximate moments of belief about the risk associated to the action selection policy. We construct those approximations, and prove the convergence results. We propose a novel method for leveraging the expectation approximations to derive an approximate bound on the confidence that the risk is below a certain level. This approach can be easily interleaved with RL and we present experimental results to showcase the performance of the overall architecture.
翻訳日:2023-12-20 19:31:48 公開日:2023-12-18
# ape-then-qe: mtトレーニングデータ作成のための疑似並列コーパスの修正

APE-then-QE: Correcting then Filtering Pseudo Parallel Corpora for MT Training Data Creation ( http://arxiv.org/abs/2312.11312v1 )

ライセンス: Link先を確認
Akshay Batheja, Sourabh Deoghare, Diptesh Kanojia, Pushpak Bhattacharyya(参考訳) 自動後編集(automatic post-editing, ape)は、機械翻訳(mt)出力の誤りを自動的に識別し修正するタスクである。 MTトレーニングデータのターゲット側の誤差を補正するために, APE システムを用いた補修フィルタ利用手法を提案する。 品質推定(QE)モデルを用いて計算した品質スコアに基づいて,原文と修正文のペアから文対を選択する。 我々の知る限り、これは擬似並列コーパスから品質並列コーパスを抽出するための APE と QE の新たな適応である。 このフィルタ付きコーパスを用いて学習することにより,ベースラインモデルを用いて5.64点と9.91点の機械翻訳システムの性能向上を観察した。 ベースラインモデルは、擬似並列コーパス全体をトレーニングしたモデルである。 我々の研究は英語やマラティー語の特徴に制限されず、必要なQEデータやAPEデータから言語ペアに依存しない。

Automatic Post-Editing (APE) is the task of automatically identifying and correcting errors in the Machine Translation (MT) outputs. We propose a repair-filter-use methodology that uses an APE system to correct errors on the target side of the MT training data. We select the sentence pairs from the original and corrected sentence pairs based on the quality scores computed using a Quality Estimation (QE) model. To the best of our knowledge, this is a novel adaptation of APE and QE to extract quality parallel corpus from the pseudo-parallel corpus. By training with this filtered corpus, we observe an improvement in the Machine Translation system's performance by 5.64 and 9.91 BLEU points, for English-Marathi and Marathi-English, over the baseline model. The baseline model is the one that is trained on the whole pseudo-parallel corpus. Our work is not limited by the characteristics of English or Marathi languages; and is language pair-agnostic, given the necessary QE and APE data.
翻訳日:2023-12-20 19:31:32 公開日:2023-12-18
# sacによるacrobotとpendubotのswing-up and balanceタスクの解決

Solving the swing-up and balance task for the Acrobot and Pendubot with SAC ( http://arxiv.org/abs/2312.11311v1 )

ライセンス: Link先を確認
Chi Zhang, Akhil Sathuluri, Markus Zimmermann(参考訳) 我々は,IJCAI 2023のAIオリンピック大会に参加するために,ペンデュボットとアクロボットのスイング・アンド・バランスタスクのソリューションを提案する。 本手法は,2重振り子を最上位位置で安定化するための線形2次レギュレータ(LQR)制御器の振上げとアトラクション領域への進入を訓練するための,ソフトアクタCrtic(SAC)強化学習(RL)アルゴリズムに基づいている。 我々のコントローラは、ペンデュボットとアクロボットの両方のパフォーマンスと堅牢性において、競合するスコアを達成します。

We present a solution of the swing-up and balance task for the pendubot and acrobot for the participation in the AI Olympics competition at IJCAI 2023. Our solution is based on the Soft Actor Crtic (SAC) reinforcement learning (RL) algorithm for training a policy for the swing-up and entering the region of attraction of a linear quadratic regulator(LQR) controller for stabilizing the double pendulum at the top position. Our controller achieves competitive scores in performance and robustness for both, pendubot and acrobot, problem scenarios.
翻訳日:2023-12-20 19:31:14 公開日:2023-12-18
# アルティメット・コンボ:データ拡張による逆例転送性の向上

The Ultimate Combo: Boosting Adversarial Example Transferability by Composing Data Augmentations ( http://arxiv.org/abs/2312.11309v1 )

ライセンス: Link先を確認
Zebin Yun, Achi-Or Weingarten, Eyal Ronen and Mahmood Sharif(参考訳) 代理機械学習(ML)モデルからターゲットモデルへの逆数例(AE)の転送は、ブラックボックスの逆数ロバストネス評価において一般的に用いられる。 ランダムリサイズのような特定のデータ拡張を利用する攻撃は、AEsがサロゲートからターゲットへの一般化に役立つ。 しかし、以前の研究は限定的な拡張とその構成を探求している。 このギャップを埋めるために,データ拡張が転送性に与える影響を体系的に研究した。 特に,当初提案した7つのカテゴリの46の拡張手法を探索し,MLモデルが未知の良性サンプルに一般化するのを支援し,それらが個別に,あるいは構成された場合の伝達性にどのように影響するかを検討した。 補足技術のごく一部を徹底的に探索し,すべての手法を遺伝的に探索することにより,伝達性を促進するための補足の組み合わせを同定した。 ImageNetとCIFAR-10データセットと18モデルによる大規模な実験により、単純な色空間拡張(例えば、色からグレースケール)は、翻訳やスケーリングといった標準的な拡張と組み合わせることで、芸術の状態を上回ります。 さらに、増大が伝達可能性に大きく影響することを発見した(つまり、より多くのメソッドが$\rightarrow$$\ge$転送可能性を構成する)。 また、最高の構成が芸術の状態を著しく上回りました(例えば、93.7%対$\le$82.7%の平均転送可能性)。 最後に、実験的な証拠によって裏付けられた我々の理論的分析は、ある拡張がトランスファービリティを向上させる理由を直感的に説明します。

Transferring adversarial examples (AEs) from surrogate machine-learning (ML) models to target models is commonly used in black-box adversarial robustness evaluation. Attacks leveraging certain data augmentation, such as random resizing, have been found to help AEs generalize from surrogates to targets. Yet, prior work has explored limited augmentations and their composition. To fill the gap, we systematically studied how data augmentation affects transferability. Particularly, we explored 46 augmentation techniques of seven categories originally proposed to help ML models generalize to unseen benign samples, and assessed how they impact transferability, when applied individually or composed. Performing exhaustive search on a small subset of augmentation techniques and genetic search on all techniques, we identified augmentation combinations that can help promote transferability. Extensive experiments with the ImageNet and CIFAR-10 datasets and 18 models showed that simple color-space augmentations (e.g., color to greyscale) outperform the state of the art when combined with standard augmentations, such as translation and scaling. Additionally, we discovered that composing augmentations impacts transferability mostly monotonically (i.e., more methods composed $\rightarrow$ $\ge$ transferability). We also found that the best composition significantly outperformed the state of the art (e.g., 93.7% vs. $\le$ 82.7% average transferability on ImageNet from normally trained surrogates to adversarially trained targets). Lastly, our theoretical analysis, backed up by empirical evidence, intuitively explain why certain augmentations help improve transferability.
翻訳日:2023-12-20 19:31:03 公開日:2023-12-18
# 不確実性に基づく公正対策

Uncertainty-based Fairness Measures ( http://arxiv.org/abs/2312.11299v1 )

ライセンス: Link先を確認
Selim Kuzucu, Jiaee Cheong, Hatice Gunes, Sinan Kalkan(参考訳) 機械学習(ML)モデルの異常予測は、現実の環境で広く受け入れられることを妨げる。 この困難な課題に対処するには、まずMLモデルが公正であることの意味を定義する必要がある。 これは、MLモデルの予測結果、グループレベルまたは個人レベルでの予測結果に依存する様々な公平性の尺度によって、MLコミュニティによって対処されてきた。 これらの公平さの尺度は、ポイント予測、ばらつきや不確実性を無視し、ノイズ、欠如、データのシフトに影響を受けやすいという点で制限されている。 本稿では,MLモデルが既存の点ベース公正度尺度と同等であるように見えるが,予測の不確実性の観点からは人口集団に偏っていることを示す。 次に,様々な不確実性,すなわちアレエータ的不確実性と認識的不確実性に基づく新しい公平性尺度を提案する。 私たちは多くのデータセットを実演します (i)我々の不確実性に基づく措置は、既存の公正度対策と相補的であり、 (ii)バイアスにつながる根本的な問題に関する洞察を提供する。

Unfair predictions of machine learning (ML) models impede their broad acceptance in real-world settings. Tackling this arduous challenge first necessitates defining what it means for an ML model to be fair. This has been addressed by the ML community with various measures of fairness that depend on the prediction outcomes of the ML models, either at the group level or the individual level. These fairness measures are limited in that they utilize point predictions, neglecting their variances, or uncertainties, making them susceptible to noise, missingness and shifts in data. In this paper, we first show that an ML model may appear to be fair with existing point-based fairness measures but biased against a demographic group in terms of prediction uncertainties. Then, we introduce new fairness measures based on different types of uncertainties, namely, aleatoric uncertainty and epistemic uncertainty. We demonstrate on many datasets that (i) our uncertainty-based measures are complementary to existing measures of fairness, and (ii) they provide more insights about the underlying issues leading to bias.
翻訳日:2023-12-20 19:30:34 公開日:2023-12-18
# 一般娘からパーソナライズドチャックルへ:主観的音波検出におけるデータ融合のパワーを解き放つ

From Generalized Laughter to Personalized Chuckles: Unleashing the Power of Data Fusion in Subjective Humor Detection ( http://arxiv.org/abs/2312.11296v1 )

ライセンス: Link先を確認
Julita Bielaniewicz, Przemys{\l}aw Kazienko(参考訳) 自然言語処理(NLP)における主観性の広大な領域は、一般的に一般化されたタスクで使用されるソリューションに挑戦する。 一般化されたnlpの範囲の探求ははるかに進んでいるため、意見や味、感情が固有のすべての実現可能なタスクにおいて、依然として対処すべき膨大なギャップが暗示されるため、データ融合が起こる可能性のあるソリューションの必要性が生まれます。 私たちは、基本的に主観的なユーモアの感覚に大きく依存するため、面白さのタスクを選択しました。 複数のパーソナライズされたディープ・ニューラル・アーキテクチャを含む5つのパーソナライズされた4つの汎用データセットを対象とした実験では、トレーニングプロセスにパーソナライズされたデータを含めることで、ユーモア検出のタスクが大きなメリットがあることが示されている。 汎用的(多数決)か,あるいはユーモア検出へのパーソナライズされたアプローチに焦点をあてた,データ融合トレーニングの5つのシナリオをテストした。 最適な結果はセットアップのために得られ、利用可能なパーソナライズされたデータセットが結合され、パーソナライズされた推論モデルがトレーニングされた。 これにより、マクロF1スコアの約35%の予測性能が向上した。 このような大きな増加は、5つのパーソナライズされたテストセットすべてにおいて観察された。 同時に、モデルのアーキテクチャの影響は、パーソナライズ自体よりもずっと少なくなりました。 パーソナライズされたデータセットを連結することは、すべてのデータセットにまたがるアノテーションの範囲を正規化するコストがかかるにもかかわらず、パーソナライズされたモデルと組み合わせると、ユーモア検出のパフォーマンスが大幅に向上するように見える。

The vast area of subjectivity in Natural Language Processing (NLP) poses a challenge to the solutions typically used in generalized tasks. As exploration in the scope of generalized NLP is much more advanced, it implies the tremendous gap that is still to be addressed amongst all feasible tasks where an opinion, taste, or feelings are inherent, thus creating a need for a solution, where a data fusion could take place. We have chosen the task of funniness, as it heavily relies on the sense of humor, which is fundamentally subjective. Our experiments across five personalized and four generalized datasets involving several personalized deep neural architectures have shown that the task of humor detection greatly benefits from the inclusion of personalized data in the training process. We tested five scenarios of training data fusion that focused on either generalized (majority voting) or personalized approaches to humor detection. The best results were obtained for the setup, in which all available personalized datasets were joined to train the personalized reasoning model. It boosted the prediction performance by up to approximately 35% of the macro F1 score. Such a significant gain was observed for all five personalized test sets. At the same time, the impact of the model's architecture was much less than the personalization itself. It seems that concatenating personalized datasets, even with the cost of normalizing the range of annotations across all datasets, if combined with the personalized models, results in an enormous increase in the performance of humor detection.
翻訳日:2023-12-20 19:30:04 公開日:2023-12-18
# ロバスト系検証に基づくテンソル解析のための強力な顔前処理

A Powerful Face Preprocessing For Robust Kinship Verification based Tensor Analyses ( http://arxiv.org/abs/2312.11290v1 )

ライセンス: Link先を確認
Ammar chouchane, Mohcene Bessaoudi, Abdelmalik Ouamane(参考訳) 野生で撮影された顔写真を用いた交配検証は、コンピュータビジョン科学における研究の難しい領域である。 画像アノテーションや行方不明の子どもの検索など、さまざまなアプリケーションで使用される可能性がある。 実際には、親子写真と子写真が互いに大きく異なるという事実が、親子認証の最大の課題である。 このような課題に効果的に対応するには、親族検証の効率を改善することが重要である。 そこで本研究では,子どもと親の対面画像から開始した関連性をチェックするシステムを提案する。 このアプローチの最初のステップは、retinexフィルタとellipseマスクという2つの方法による顔前処理であり、それから、txqdaと呼ばれる効率的な次元縮小法の前に使用されるhist-gaborウェーブレットに基づく特徴抽出ステップである。 最後に、関係があるかどうかを決定する。 Cornell KinFaceベンチマークデータベースを使用することで、戦略の有効性を示すために、数多くのテストを実行しました。 その結果,現在使用されている他の戦略と比較すると,システムは非常に堅牢であることがわかった。

Kinship verification using facial photographs captured in the wild is difficult area of research in the science of computer vision. It might be used for a variety of applications, including image annotation and searching for missing children, etc. The largest challenge to kinship verification in practice is the fact that parent and child photos frequently differ significantly from one another. How to effectively respond to such a challenge is important improving the efficiency of kinship verification. For this purpose, we introduce a system to check relatedness that starts with a pair of face images of a child and a parent, after which it is revealed whether two people are related or not. The first step in our approach is face preprocessing with two methods, a Retinex filter and an ellipse mask, then a feature extraction step based on hist-Gabor wavelets, which is used before an efficient dimensionality reduction method called TXQDA. Finally, determine if there is a relationship. By using Cornell KinFace benchmark database, we ran a number of tests to show the efficacy of our strategy. Our findings show that, in comparison to other strategies currently in use, our system is robust.
翻訳日:2023-12-20 19:29:32 公開日:2023-12-18
# Pseudoのパーソナルモビリティを学習する

Learning to Generate Pseudo Personal Mobility ( http://arxiv.org/abs/2312.11289v1 )

ライセンス: Link先を確認
Peiran Li, Haoran Zhang, Wenjing Li, Dou Huang, Jinyu Chen, Junxiang Zhang, Xuan Song, Pengjun Zhao, Shibasaki Ryosuke(参考訳) 個人移動データの重要性は様々な分野で広く認識されている。 しかし、実際の個人移動データの利用はプライバシーの懸念を引き起こす。 したがって、ユーザのプライバシーを保護しつつ、現実世界のモビリティパターンを正確に反映する疑似パーソナルモビリティデータを生成することが重要である。 それでも、メカニズムベースやディープラーニングベースのアプローチのような、擬似モビリティデータを生成する既存の方法は、十分な個々人の不均一性を捉えるのに限界がある。 これらのギャップに対処するため、擬似人物(ヴァタール)をゼロとして、空間的・時間的意思決定における個別の不均一性を考慮し、人口統計学的特徴を取り入れ、解釈可能性を提供するGeoAvatarと呼ばれる新規な人体移動発電機が提案されている。 本手法は,不均質な個体生活パターンをシミュレートする深層生成モデル,個体群特性を推定する信頼性の高いラベラー,空間的選択を生成するベイズ的手法を用いる。 本手法により,個人レベルの個人情報にアクセスせずに,良好な品質で不均一な個人移動データを生成することができた。本手法は,物理的特徴,活動パターン,空間的時間的特性に基づいて評価し,メカニズムベースのモデリングやブラックボックスディープラーニングアプローチと比較して,その優れた性能を示す。 さらに,本手法は広範なアプリケーションの拡張性を維持し,人間の移動データを生成する上で有望なパラダイムとなる。

The importance of personal mobility data is widely recognized in various fields. However, the utilization of real personal mobility data raises privacy concerns. Therefore, it is crucial to generate pseudo personal mobility data that accurately reflects real-world mobility patterns while safeguarding user privacy. Nevertheless, existing methods for generating pseudo mobility data, such as mechanism-based and deep-learning-based approaches, have limitations in capturing sufficient individual heterogeneity. To address these gaps, taking pseudo-person(avatar) as ground-zero, a novel individual-based human mobility generator called GeoAvatar has been proposed - which considers individual heterogeneity in spatial and temporal decision-making, incorporates demographic characteristics, and provides interpretability. Our method utilizes a deep generative model to simulate heterogeneous individual life patterns, a reliable labeler for inferring individual demographic characteristics, and a Bayesian approach for generating spatial choices. Through our method, we have achieved the generation of heterogeneous individual human mobility data without accessing individual-level personal information, with good quality - we evaluated the proposed method based on physical features, activity patterns, and spatial-temporal characteristics, demonstrating its good performance, compared to mechanism-based modeling and black-box deep learning approaches. Furthermore, this method maintains extensibility for broader applications, making it a promising paradigm for generating human mobility data.
翻訳日:2023-12-20 19:29:16 公開日:2023-12-18
# 古典量子境界の除去について

On Removing the Classical-Quantum Boundary ( http://arxiv.org/abs/2312.11288v1 )

ライセンス: Link先を確認
Khaled Mnaymneh(参考訳) ベルの不等式違反の原因となる局所性や現実主義ではなく、反実的確定性の仮定であると主張する。 さらに、この反事実的定性という仮定は古典力学では支持されない。 これはベルの不等式が古典的に失敗しなければならず、ベル自身が予言した古典量子境界を事実上取り除かなければならないことを意味する。 ここでの示唆は、古典力学の構成空間における局所的な隠れ変数理論は除外できないということである。 非常に驚くべき結果の1つは、ハミルトンの定常原理の文脈において、古典力学が量子力学よりも強い相関を持つかもしれないということである。

We argue that it is the assumption of counterfactual definiteness and not locality or realism that results in Bell inequality violations. Furthermore, this assumption of counterfactual definiteness is not supported in classical mechanics. This means that the Bell inequality must fail classically, effectively removing the classical-quantum boundary, a conclusion prophesized by Bell himself. An implication here is that a local hidden variable theory, in the configuration space of classical mechanics cannot be ruled out. One very surprising result is that classical mechanics, in the context of Hamiltons stationary principle, may in fact have stronger correlations than quantum mechanics, in that it may be the key to beat Tsirelsons bound.
翻訳日:2023-12-20 19:28:51 公開日:2023-12-18
# G-LLaVA:多モード大言語モデルによる幾何学的問題の解法

G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model ( http://arxiv.org/abs/2312.11370v1 )

ライセンス: Link先を確認
Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong(参考訳) 大規模言語モデル(llm)は、人間レベルの推論と生成能力に顕著な能力を示しており、数学的問題解決への応用に関する広範な研究を奨励している。 しかし、現在の研究は主にテキストに基づく数学的問題に焦点を当てており、幾何学的情報を含む問題の研究は限られている。 このギャップに対処するため,LLMが画像入力を理解することで幾何学的問題を解決することを目指している。 我々はまず,この領域における現在のマルチモーダル大言語モデル(MLLM)の限界を解析し,基本的な幾何学的要素とそれらの関係を正確に理解するのに苦労する。 これらの課題を克服するために,我々は,幾何学的問題(一意な幾何学的論理形式や幾何学的拡張性など)のユニークな特徴と,既存のデータに基づいて拡張された多様幾何学データセットを構築するためのテキスト的llmの能力を利用する。 拡張データセットgeo170kには,170k以上の幾何学的イメージキャプチャと質問応答ペアが含まれている。 構築したGeo170Kデータセットを用いてG-LLaVAを開発し、7Bパラメータしか持たないMathVistaベンチマークでGPT-4-Vを著しく上回った。

Large language models (LLMs) have shown remarkable proficiency in human-level reasoning and generation capabilities, which encourages extensive research on their application in mathematical problem solving. However, current work has been largely focused on text-based mathematical problems, with limited investigation in problems involving geometric information. Addressing this gap, we aim to enable LLMs to solve geometric problems by understanding image input. We first analyze the limitations of current Multimodal Large Language Models (MLLMs) in this area: they struggle to accurately comprehending basic geometric elements and their relationships. To overcome these challenges, we take advantage of the unique characteristics of geometric problems (such as unique geometric logical form, and geometric scalability) and the capacity of the textual LLMs to build an enriched multimodal geometry dataset based on existing data. The augmented dataset, Geo170K, contains more than 170K geometric image-caption and question-answer pairs. Utilizing our constructed Geo170K dataset, we develop G-LLaVA, which demonstrates exceptional performance in solving geometric problems, significantly outperforming GPT-4-V on the MathVista benchmark with only 7B parameters.
翻訳日:2023-12-20 19:22:03 公開日:2023-12-18
# count reward automata: 報酬関数構造の活用による効率的な強化学習のサンプル

Counting Reward Automata: Sample Efficient Reinforcement Learning Through the Exploitation of Reward Function Structure ( http://arxiv.org/abs/2312.11364v1 )

ライセンス: Link先を確認
Tristan Bester, Benjamin Rosman, Steven James, Geraud Nangue Tasse(参考訳) 形式言語として表現可能な任意の報酬関数をモデル化できる有限状態マシンであるカウント報酬オートマトンを提案する。 通常の言語としてのタスク表現に限られる従来のアプローチとは異なり、我々のフレームワークは制約のない文法で記述されたタスクを許容する。 このような抽象機械を備えたエージェントは、現在のアプローチを利用するエージェントよりも大きなタスク群を解決できることを実証する。 この表現力の増大は、オートマトンの複雑さの増加のコストを伴わないことを示す。 サンプル効率を向上させるためにオートマトン構造を利用する学習アルゴリズムの選定を行う。 提案手法では,大規模言語モデルを用いて自然言語タスク記述から要求される状態機械を特定できることを示す。 実験の結果,本手法は,サンプル効率,自動複雑度,タスク完了度の観点から,競合する手法よりも優れていた。

We present counting reward automata-a finite state machine variant capable of modelling any reward function expressible as a formal language. Unlike previous approaches, which are limited to the expression of tasks as regular languages, our framework allows for tasks described by unrestricted grammars. We prove that an agent equipped with such an abstract machine is able to solve a larger set of tasks than those utilising current approaches. We show that this increase in expressive power does not come at the cost of increased automaton complexity. A selection of learning algorithms are presented which exploit automaton structure to improve sample efficiency. We show that the state machines required in our formulation can be specified from natural language task descriptions using large language models. Empirical results demonstrate that our method outperforms competing approaches in terms of sample efficiency, automaton complexity, and task completion.
翻訳日:2023-12-20 19:21:38 公開日:2023-12-18
# 協調スペクトルセンシングのためのオンライン垂直フェデレーション学習

Online Vertical Federated Learning for Cooperative Spectrum Sensing ( http://arxiv.org/abs/2312.11363v1 )

ライセンス: Link先を確認
Heqiang Wang, Jie Xu(参考訳) 無線通信の需要の増加は、無線周波数スペクトルの利用を最適化する必要性を浮き彫りにする。 未使用のライセンス周波数帯域を活用する効果的な戦略は、複数の二次ユーザ(sus)が、ライセンスされたスペクトルにアクセスする前に、プライマリユーザ(pus)のスペクトル使用を共同的に検出できる協調スペクトルセンシング(css)である。 機械学習の人気が高まり、従来のcssメソッドからディープラーニングに基づいたものへとシフトした。 しかし、ディープラーニングベースのCSSメソッドは、しばしば集中的な学習に依存し、通信オーバーヘッドやデータプライバシリスクといった課題を提起する。 近年の研究では、ディープニューラルネットワークを別のセグメントに分割することを中心に、垂直連合学習(VFL)が潜在的なソリューションとして提案されている。 しかしながら、既存のVFLベースのCSS作業は、ストリーミングデータと客観的シフトに起因する現実的な課題を完全に解決するものではない。 本研究では,現在進行中のデータストリームの課題に対処し,学習目標のシフトを図った頑健なフレームワークであるオンライン垂直統合学習(OVFL)を紹介する。 理論的解析により,OVFLはサブ線形後悔境界を達成し,その効率性を明らかにする。 実験の結果、ovflはcssタスクのベンチマークよりも優れています。 また,学習性能に及ぼす各種パラメータの影響についても検討する。

The increasing demand for wireless communication underscores the need to optimize radio frequency spectrum utilization. An effective strategy for leveraging underutilized licensed frequency bands is cooperative spectrum sensing (CSS), which enable multiple secondary users (SUs) to collaboratively detect the spectrum usage of primary users (PUs) prior to accessing the licensed spectrum. The increasing popularity of machine learning has led to a shift from traditional CSS methods to those based on deep learning. However, deep learning-based CSS methods often rely on centralized learning, posing challenges like communication overhead and data privacy risks. Recent research suggests vertical federated learning (VFL) as a potential solution, with its core concept centered on partitioning the deep neural network into distinct segments, with each segment is trained separately. However, existing VFL-based CSS works do not fully address the practical challenges arising from streaming data and the objective shift. In this work, we introduce online vertical federated learning (OVFL), a robust framework designed to address the challenges of ongoing data stream and shifting learning goals. Our theoretical analysis reveals that OVFL achieves a sublinear regret bound, thereby evidencing its efficiency. Empirical results from our experiments show that OVFL outperforms benchmarks in CSS tasks. We also explore the impact of various parameters on the learning performance.
翻訳日:2023-12-20 19:21:24 公開日:2023-12-18
# nomiracl: 頑健な多言語検索型世代を知らない時を知る

NoMIRACL: Knowing When You Don't Know for Robust Multilingual Retrieval-Augmented Generation ( http://arxiv.org/abs/2312.11361v1 )

ライセンス: Link先を確認
Nandan Thakur, Luiz Bonifacio, Xinyu Zhang, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Boxing Chen, Mehdi Rezagholizadeh, Jimmy Lin(参考訳) Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。 しかし、先行研究は異なる言語ファミリーの包括的評価を欠いているため、外部検索された知識におけるエラーに対するllmの堅牢性の評価が困難である。 この問題を解決するために,18言語にまたがるRAGにおけるLDMロバスト性を評価するための人間アノテーション付きデータセットであるNoMIRACLを構築した。 NoMIRACLは非関連サブセットと関連するサブセットの両方を含んでいる。 非関連部分集合のクエリは、手動で非関連またはノイズと判断される文を含むが、関連する部分集合のクエリは、少なくとも1つの関連する節を含む。 2つの指標を用いてLCMのロバスト性を測定する。 (i)幻覚率、非関連部分集合の通路に回答が存在しない場合、回答を幻覚する傾向の測定モデル、及び (二)誤差率、関係部分集合内の関連通路を認識するためのモデル不正確さの測定。 我々はGPT-4ベースラインを構築し、関連するサブセットの平均で33.2%の幻覚率と14.9%のエラー率を達成する。 評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。 本研究は,RAGの非関連情報をよりよく拒否する方法を学ぶために,LCMの堅牢性を改善するための今後の研究の道のりを浮き彫りにしている。

Retrieval-augmented generation (RAG) grounds large language model (LLM) output by leveraging external knowledge sources to reduce factual hallucinations. However, prior works lack a comprehensive evaluation of different language families, making it challenging to evaluate LLM robustness against errors in external retrieved knowledge. To overcome this, we establish NoMIRACL, a human-annotated dataset for evaluating LLM robustness in RAG across 18 typologically diverse languages. NoMIRACL includes both a non-relevant and a relevant subset. Queries in the non-relevant subset contain passages manually judged as non-relevant or noisy, whereas queries in the relevant subset include at least a single judged relevant passage. We measure LLM robustness using two metrics: (i) hallucination rate, measuring model tendency to hallucinate an answer, when the answer is not present in passages in the non-relevant subset, and (ii) error rate, measuring model inaccuracy to recognize relevant passages in the relevant subset. We build a GPT-4 baseline which achieves a 33.2% hallucination rate on the non-relevant and a 14.9% error rate on the relevant subset on average. Our evaluation reveals that GPT-4 hallucinates frequently in high-resource languages, such as French or English. This work highlights an important avenue for future research to improve LLM robustness to learn how to better reject non-relevant information in RAG.
翻訳日:2023-12-20 19:21:02 公開日:2023-12-18
# Paint-it:Deep Convolutional Texture Map最適化と物理ベースレンダリングによるテクスチャ間合成

Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering ( http://arxiv.org/abs/2312.11360v1 )

ライセンス: Link先を確認
Kim Youwang, Tae-Hyun Oh, Gerard Pons-Moll(参考訳) 本研究では,ニューラルネットワークによる3次元メッシュのテクスチャマップ合成手法Paint-itを提案する。 paint-itはスコア蒸留サンプリング(sds)を利用してテキスト記述からテクスチャマップを合成する。 我々は,SDSを直接塗布すると,ノイズ勾配のため,望ましくない質感が得られることを観察した。 SDSを用いた場合のテクスチャパラメータ化の重要性を明らかにする。 具体的には,Dep Convolutional Physical-Based Rendering (DC-PBR)パラメータ化を提案し,PBRテクスチャマップを標準的なピクセルベースのパラメータ化ではなく,ランダムに初期化した畳み込みベースのニューラルネットワークで再パラメータ化する。 我々は,DC-PBRがテクスチャ周波数に応じて最適化カリキュラムをスケジュールし,SDSからノイズ信号を自然にフィルタすることを示した。 実験では、Paint-itはテキスト記述だけで15分以内で優れたPBRテクスチャマップを得る。 本研究では,大規模メッシュデータセットのための高品質なテクスチャマップを合成し,リライトやマテリアルコントロールなどのテストタイムアプリケーションを示すことで,ペイントイットの汎用性と実用性を示す。 プロジェクトページ: https://kim-youwang.github.io/paint-it

We present Paint-it, a text-driven high-fidelity texture map synthesis method for 3D meshes via neural re-parameterized texture optimization. Paint-it synthesizes texture maps from a text description by synthesis-through-optimization, exploiting the Score-Distillation Sampling (SDS). We observe that directly applying SDS yields undesirable texture quality due to its noisy gradients. We reveal the importance of texture parameterization when using SDS. Specifically, we propose Deep Convolutional Physically-Based Rendering (DC-PBR) parameterization, which re-parameterizes the physically-based rendering (PBR) texture maps with randomly initialized convolution-based neural kernels, instead of a standard pixel-based parameterization. We show that DC-PBR inherently schedules the optimization curriculum according to texture frequency and naturally filters out the noisy signals from SDS. In experiments, Paint-it obtains remarkable quality PBR texture maps within 15 min., given only a text description. We demonstrate the generalizability and practicality of Paint-it by synthesizing high-quality texture maps for large-scale mesh datasets and showing test-time applications such as relighting and material control using a popular graphics engine. Project page: https://kim-youwang.github.io/paint-it
翻訳日:2023-12-20 19:20:36 公開日:2023-12-18
# 自己レンズによる他者のエージェント評価

Agent Assessment of Others Through the Lens of Self ( http://arxiv.org/abs/2312.11357v1 )

ライセンス: Link先を確認
Jasmine A. Berry(参考訳) 認知の成熟は、内観から他人を理解することまで、長い間人間の発達の目印であった。 本稿では、aiシステムが真に人間のようなインタラクションをエミュレートし、あるいはアプローチするためには、特に多様なエージェントが住む多面的な環境において、まず、自己の深い、ニュアンス的な理解を達成する必要があると仮定する。 自己認識からメンタライジング(心の理論とも呼ばれる)に至る人間の発達の軌跡と並行して、自律エージェントの自己に関する内省的能力の質は、他のエージェントの人間的な理解を反映させる上で重要であると論じている。 反論は実用性、計算効率、倫理的懸念を強調する一方で、この立場は自己参照処理のアルゴリズム的考察を融合した開発アプローチを提案する。 究極的には、ビジョンは単に計算する機械ではなく、人間の認識の複雑な構成を内省し、共感し、理解し、調和する実体である。

The maturation of cognition, from introspection to understanding others, has long been a hallmark of human development. This position paper posits that for AI systems to truly emulate or approach human-like interactions, especially within multifaceted environments populated with diverse agents, they must first achieve an in-depth and nuanced understanding of self. Drawing parallels with the human developmental trajectory from self-awareness to mentalizing (also called theory of mind), the paper argues that the quality of an autonomous agent's introspective capabilities of self are crucial in mirroring quality human-like understandings of other agents. While counterarguments emphasize practicality, computational efficiency, and ethical concerns, this position proposes a development approach, blending algorithmic considerations of self-referential processing. Ultimately, the vision set forth is not merely of machines that compute but of entities that introspect, empathize, and understand, harmonizing with the complex compositions of human cognition.
翻訳日:2023-12-20 19:20:12 公開日:2023-12-18
# 勧告の自然言語説明における一貫性の問題

The Problem of Coherence in Natural Language Explanations of Recommendations ( http://arxiv.org/abs/2312.11356v1 )

ライセンス: Link先を確認
Jakub Raczy\'nski, Mateusz Lango, Jerzy Stefanowski(参考訳) 推奨のために自然言語の説明を提供することは、専門家でないユーザーの観点から特に有用である。 近年,このような説明方法がいくつか提案されているが,実験的な評価では,説明品質の重要な側面が見過ごされている。 具体的には、現在使われている評価尺度では、説明が有用であるために必要な条件である生成テキストと予測格付けとの一貫性を適切に捉えていない。 本稿では,説明と予測コヒーレンスの問題を強調する。 1)最先端のアプローチの1つが生み出した説明の手作業による検証の結果 2)自動コヒーレンス評価手法の提案 3)最先端の手法よりも一貫性のある説明をすることを目的とした新しい変圧器方式の導入 4)レコメンデーション性能の他の側面に影響を与えることなく,この手法が説明コヒーレンスを大幅に改善することを示す実験的評価を行うこと。

Providing natural language explanations for recommendations is particularly useful from the perspective of a non-expert user. Although several methods for providing such explanations have recently been proposed, we argue that an important aspect of explanation quality has been overlooked in their experimental evaluation. Specifically, the coherence between generated text and predicted rating, which is a necessary condition for an explanation to be useful, is not properly captured by currently used evaluation measures. In this paper, we highlight the issue of explanation and prediction coherence by 1) presenting results from a manual verification of explanations generated by one of the state-of-the-art approaches 2) proposing a method of automatic coherence evaluation 3) introducing a new transformer-based method that aims to produce more coherent explanations than the state-of-the-art approaches 4) performing an experimental evaluation which demonstrates that this method significantly improves the explanation coherence without affecting the other aspects of recommendation performance.
翻訳日:2023-12-20 19:19:53 公開日:2023-12-18
# 信頼性の高い確率アウトプットを用いた尿管逆流検出

Vesicoureteral Reflux Detection with Reliable Probabilistic Outputs ( http://arxiv.org/abs/2312.11355v1 )

ライセンス: Link先を確認
Harris Papadopoulos and George Anastassopoulos(参考訳) 膀胱尿管逆流(vesicoureteral reflux, vur)は、膀胱から上尿路へ尿が逆流する小児疾患である。 尿路感染症のリスクが高く、細菌が腎臓に直接アクセスする可能性があるため、腎臓感染症につながる可能性があるため、検出は極めて重要である。 残念なことに、VURの検出には、子どもに放射線を照射するVCUG(voking cysteourethrogram)と呼ばれる、かなり痛みを伴う医療検査が必要である。 VCUGが必要とする放射線への曝露を避けるために、近年の研究では、子どもを放射線に曝すことなく得られるデータに基づいて、VURの検出に機械学習技術を用いることを検討した。 この研究はさらに一歩進んで、vurを持つある子供の条件付き確率の下限と上限を提供するアプローチを提案している。 これらの境界の重要な特性は、観測が独立かつ同一に分布するという唯一の要件(すなわち、統計的なゆらぎによって)が十分に調整された確率を含むことが保証されていることである。 それゆえ、それらは他の手法によって提供される単純なyes/noの回答よりもずっと有益で信頼性が高い。

Vesicoureteral Reflux (VUR) is a pediatric disorder in which urine flows backwards from the bladder to the upper urinary tract. Its detection is of great importance as it increases the risk of a Urinary Tract Infection, which can then lead to a kidney infection since bacteria may have direct access to the kidneys. Unfortunately the detection of VUR requires a rather painful medical examination, called voiding cysteourethrogram (VCUG), that exposes the child to radiation. In an effort to avoid the exposure to radiation required by VCUG some recent studies examined the use of machine learning techniques for the detection of VUR based on data that can be obtained without exposing the child to radiation. This work takes one step further by proposing an approach that provides lower and upper bounds for the conditional probability of a given child having VUR. The important property of these bounds is that they are guaranteed (up to statistical fluctuations) to contain well-calibrated probabilities with the only requirement that observations are independent and identically distributed (i.i.d.). Therefore they are much more informative and reliable than the plain yes/no answers provided by other techniques.
翻訳日:2023-12-20 19:19:37 公開日:2023-12-18
# 遷移不確かさの存在下でのモンテカルロ木探索

Monte Carlo Tree Search in the Presence of Transition Uncertainty ( http://arxiv.org/abs/2312.11348v1 )

ライセンス: Link先を確認
Farnaz Kohankhaki, Kiarash Aghakasiri, Hongming Zhang, Ting-Han Wei, Chao Gao, Martin M\"uller(参考訳) Monte Carlo Tree Search (MCTS)は、意思決定に使用される非常に人気のある検索ベースのフレームワークである。 伝統的に、環境の完全なシミュレーションモデルが利用可能である領域に適用される。 環境モデルが与えられたが不完全な状況下でMCTSを研究・改善する。 本稿では,モデルと実際の環境の相違が,標準MCTSによる性能劣化を引き起こすことを示す。 そこで我々は, MCTSフレームワーク内でより堅牢なアルゴリズムである不確実性適応MCTS (UA-MCTS) を開発した。 与えられたモデルにおける遷移の不確かさを推定し、状態空間内のより特定の遷移への探索を指示する。 これらの推定を考慮し, 探索行動を改善するため, 4つのMCTS位相を全て修正する。 UCBを適応させるために不確実性情報を加えると、通常の UCB よりも後悔の束縛が強くなることを示す。 実験的に,MinAtarテストスイートからUA-MCTSとその個々のコンポーネントを決定論的ドメイン上で評価する。 その結果,UA-MCTSはモデル遷移誤差の存在下でMCTSを強く改善することが示された。

Monte Carlo Tree Search (MCTS) is an immensely popular search-based framework used for decision making. It is traditionally applied to domains where a perfect simulation model of the environment is available. We study and improve MCTS in the context where the environment model is given but imperfect. We show that the discrepancy between the model and the actual environment can lead to significant performance degradation with standard MCTS. We therefore develop Uncertainty Adapted MCTS (UA-MCTS), a more robust algorithm within the MCTS framework. We estimate the transition uncertainty in the given model, and direct the search towards more certain transitions in the state space. We modify all four MCTS phases to improve the search behavior by considering these estimates. We prove, in the corrupted bandit case, that adding uncertainty information to adapt UCB leads to tighter regret bound than standard UCB. Empirically, we evaluate UA-MCTS and its individual components on the deterministic domains from the MinAtar test suite. Our results demonstrate that UA-MCTS strongly improves MCTS in the presence of model transition errors.
翻訳日:2023-12-20 19:19:17 公開日:2023-12-18
# 因果行動モデルによる映像領域のインプシット・アフォーダンス獲得

Implicit Affordance Acquisition via Causal Action-Effect Modeling in the Video Domain ( http://arxiv.org/abs/2312.11345v1 )

ライセンス: Link先を確認
Hsiu-Yu Yang and Carina Silberer(参考訳) 余裕知識は常識知識の基本的な側面である。 近年の知見は、世界知識が大規模自己指導型事前学習を通じて出現することを示し、視覚領域から手頃な知識を得るための探索を動機付けている。 そこで我々は,新しいCausal Action-Effect(CAE)データセットを作成し,Masked Action Modeling(MAM)とMasked Effect Modeling(MEM)という2つの新しい事前トレーニングタスクを設計するために,既存の指導ビデオリソースを拡張した。 提案手法の有効性を実証的に実証した。 さらに,両タスクで事前学習したモデルが,ゼロショット物理推論タスクにおける純粋言語モデルと同様に,強力な画像ベース視覚言語基礎モデル(flava)よりも優れていることを示す。

Affordance knowledge is a fundamental aspect of commonsense knowledge. Recent findings indicate that world knowledge emerges through large-scale self-supervised pretraining, motivating our exploration of acquiring affordance knowledge from the visual domain. To this end, we augment an existing instructional video resource to create the new Causal Action-Effect (CAE) dataset and design two novel pretraining tasks -- Masked Action Modeling (MAM) and Masked Effect Modeling (MEM) -- promoting the acquisition of two affordance properties in models: behavior and entity equivalence, respectively. We empirically demonstrate the effectiveness of our proposed methods in learning affordance properties. Furthermore, we show that a model pretrained on both tasks outperforms a strong image-based visual-linguistic foundation model (FLAVA) as well as pure linguistic models on a zero-shot physical reasoning probing task.
翻訳日:2023-12-20 19:19:00 公開日:2023-12-18
# Muted:多言語目標音声の識別と可視化

Muted: Multilingual Targeted Offensive Speech Identification and Visualization ( http://arxiv.org/abs/2312.11344v1 )

ライセンス: Link先を確認
Christoph Tillmann, Aashka Trivedi, Sara Rosenthal, Santosh Borse, Rong Zhang, Avirup Sil, Bishwaranjan Bhattacharjee(参考訳) 憎しみ、虐待、預言(hap)といった攻撃的言語は、ウェブ上の様々なコンテンツに現れる。 これまでは主に文レベルのアノテーションを扱っていたが、最近は攻撃的なスパンを識別する試みもいくつか行われている。 この研究に基づいて,攻撃的議論とその対象を熱マップを用いて表示し,その強度を示すことで多言語HAP内容を特定するシステムであるMutedを紹介する。 MutedはトランスフォーマーベースのHAP分類モデルとその注意機構を利用して有害なスパンを識別する。 さらに,注目ヒートマップによって予測される単語の特定のターゲットと引数を特定するために,paCyライブラリを使用する。 本稿では,既存のデータセットにおける攻撃的スパンとそのターゲットを識別するモデルの性能と,ドイツ語テキストに対する新しいアノテーションを提案する。 最後に,多言語入力の可視化ツールを提案する。

Offensive language such as hate, abuse, and profanity (HAP) occurs in various content on the web. While previous work has mostly dealt with sentence level annotations, there have been a few recent attempts to identify offensive spans as well. We build upon this work and introduce Muted, a system to identify multilingual HAP content by displaying offensive arguments and their targets using heat maps to indicate their intensity. Muted can leverage any transformer-based HAP-classification model and its attention mechanism out-of-the-box to identify toxic spans, without further fine-tuning. In addition, we use the spaCy library to identify the specific targets and arguments for the words predicted by the attention heatmaps. We present the model's performance on identifying offensive spans and their targets in existing datasets and present new annotations on German text. Finally, we demonstrate our proposed visualization tool on multilingual inputs.
翻訳日:2023-12-20 19:18:43 公開日:2023-12-18
# マシンビジョン対応スポーツパフォーマンス分析

Machine Vision-Enabled Sports Performance Analysis ( http://arxiv.org/abs/2312.11340v1 )

ライセンス: Link先を確認
Timilehin B. Aderinola, Hananeh Younesian, Cathy Goulding, Darragh Whelan, Brian Caulfield, Georgiana Ifrim(参考訳) $\textbf{Goal:}$ この研究は、単一のスマートフォンを用いた単眼2Dマーカーレスモーションキャプチャー(MMC)の実現可能性を調査し、運動中のジャンプ高さ、速度、飛行時間、接触時間、運動範囲(ROM)を測定する。 健康な成人16人が、力のプレート、光学式モーションキャプチャー(omc)、スマートフォンのカメラで体の動きを記録しながら、3回繰り返しテストを行った。 MMCはOpenPose v1.7.0を使ってスマートフォンの動画で演奏された。 $\textbf{Results:}$ MMCは、ジャンプ高さと速度の測定において、基底真理と優れた一致を示した。 しかし、mmcの性能は飛行時間、接触時間、rom、角速度測定において低さから中程度に変化した。 これらの発見は、ジャンプや速度ベースのテストでスポーツのパフォーマンスを評価するために、単眼の2d mmcがoccやフォースプレートの代替となる可能性を示唆している。 さらに、MCCは飛行時間、接触時間、ROM、角速度の測定に貴重な視覚フィードバックを提供することができた。

$\textbf{Goal:}$ This study investigates the feasibility of monocular 2D markerless motion capture (MMC) using a single smartphone to measure jump height, velocity, flight time, contact time, and range of motion (ROM) during motor tasks. $\textbf{Methods:}$ Sixteen healthy adults performed three repetitions of selected tests while their body movements were recorded using force plates, optical motion capture (OMC), and a smartphone camera. MMC was then performed on the smartphone videos using OpenPose v1.7.0. $\textbf{Results:}$ MMC demonstrated excellent agreement with ground truth for jump height and velocity measurements. However, MMC's performance varied from poor to moderate for flight time, contact time, ROM, and angular velocity measurements. $\textbf{Conclusions:}$ These findings suggest that monocular 2D MMC may be a viable alternative to OMC or force plates for assessing sports performance during jumps and velocity-based tests. Additionally, MMC could provide valuable visual feedback for flight time, contact time, ROM, and angular velocity measurements.
翻訳日:2023-12-20 19:18:28 公開日:2023-12-18
# 量子コンピューティングにおける強化学習の課題

Challenges for Reinforcement Learning in Quantum Computing ( http://arxiv.org/abs/2312.11337v1 )

ライセンス: Link先を確認
Philipp Altmann, Adelina B\"arligea, Jonas Stein, Michael K\"olle, Thomas Gabor, Thomy Phan, Claudia Linnhoff-Popien(参考訳) 現在のNISQ時代の量子コンピューティング(QC)はまだ限られている。 早期の洞察と優位性を得るために、ハイブリッドアプリケーションはこれらの欠点を緩和すると考えられている。 ハイブリッド量子機械学習(QML)は、機械学習(ML)を改善するためのQCの適用と、QCアーキテクチャを改善するためのMLの適用の両方を含む。 この研究は後者を考察し、現在のQCアプローチを改善するために強化学習(RL)を活用することに重点を置いている。 したがって、RLアルゴリズムは、より複雑なアプリケーションとそれらの組み合わせに利益をもたらすために解決する必要がある量子アーキテクチャ探索と量子回路最適化から生じる様々な一般的な課題を導入する。 これらの課題に基づいてマルコフ決定プロセスとして定式化された具体的な枠組みを提案し、量子ゲートの普遍的な集合を制御できるポリシーを学習できるようにする。 さらに,現在の最先端アルゴリズムの欠点と強みを評価するためのベンチマーク結果を提供する。

Quantum computing (QC) in the current NISQ-era is still limited. To gain early insights and advantages, hybrid applications are widely considered mitigating those shortcomings. Hybrid quantum machine learning (QML) comprises both the application of QC to improve machine learning (ML), and the application of ML to improve QC architectures. This work considers the latter, focusing on leveraging reinforcement learning (RL) to improve current QC approaches. We therefore introduce various generic challenges arising from quantum architecture search and quantum circuit optimization that RL algorithms need to solve to provide benefits for more complex applications and combinations of those. Building upon these challenges we propose a concrete framework, formalized as a Markov decision process, to enable to learn policies that are capable of controlling a universal set of quantum gates. Furthermore, we provide benchmark results to assess shortcomings and strengths of current state-of-the-art algorithms.
翻訳日:2023-12-20 19:18:09 公開日:2023-12-18
# DRDT:LLMに基づくシーケンスレコメンデーションのためのダイバージェント思考を用いた動的リフレクション

DRDT: Dynamic Reflection with Divergent Thinking for LLM-based Sequential Recommendation ( http://arxiv.org/abs/2312.11336v1 )

ライセンス: Link先を確認
Yu Wang, Zhiwei Liu, Jianguo Zhang, Weiran Yao, Shelby Heinecke, Philip S. Yu(参考訳) 大規模言語モデル(llm)の台頭は、支援的なアイテム情報を提供するため、逐次レコメンデーションタスクへのアプリケーションへの関心を喚起した。 しかし、データセット間のシーケンシャルなパターンやシーケンス内のノイズ、ユーザの好みの時間的進化といったシーケンシャルなレコメンデーションの複雑さのため、インコンテキスト学習やチェーンオブ思考といった既存のLCM推論戦略は完全には効果がない。 これらの課題に対処するために、リトリバー・リランダ・フレームワーク内でのダイバージェント思考による動的リフレクションという新しい推論原理を導入する。 提案手法は,協調的な動作を示すシーケンスをインコンテキストの例として収集する,協調的なインコンテキストデモ検索から始まる。 これに続いて,複数の側面にわたるハイレベルなユーザの好みを抽象化し,ユーザの興味をより微妙な理解と,生のシーケンス内のノイズを回避する。 提案手法の基盤となるのはダイナミックリフレクション(動的リフレクション)であり,ユーザのフィードバックを用いて,対象ユーザに対して時間的により効率的に分析を調整し,人間の学習をエミュレートするプロセスである。 6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。 これらのモデルで観察される優れた性能は, LLMを微調整することなく, 我々の推論戦略の有効性を示すものである。 NDCG@10では、Vicuna-7bやOpenchat-7bといった7bモデルを使用して、GPT-Turbo-3.5を3つのデータセットで上回りました。 この研究は、逐次レコメンデーションシステムの強化におけるLLMの可能性を強調するだけでなく、それらの能力を完全に活用するための適切な推論戦略を開発することの重要性を強調する。

The rise of Large Language Models (LLMs) has sparked interest in their application to sequential recommendation tasks as they can provide supportive item information. However, due to the inherent complexities of sequential recommendation, such as sequential patterns across datasets, noise within sequences, and the temporal evolution of user preferences, existing LLM reasoning strategies, such as in-context learning and chain-of-thought are not fully effective. To address these challenges, we introduce a novel reasoning principle: Dynamic Reflection with Divergent Thinking within a retriever-reranker framework. Our approach starts with a collaborative in-context demonstration retriever, which collects sequences exhibiting collaborative behaviors as in-context examples. Following this, we abstract high-level user preferences across multiple aspects, providing a more nuanced understanding of user interests and circumventing the noise within the raw sequences. The cornerstone of our methodology is dynamic reflection, a process that emulates human learning through probing, critiquing, and reflecting, using user feedback to tailor the analysis more effectively to the target user in a temporal manner. We evaluate our approach on three datasets using six pre-trained LLMs. The superior performance observed across these models demonstrates the efficacy of our reasoning strategy, notably achieved without the need to fine-tune the LLMs. With our principle, we managed to outperform GPT-Turbo-3.5 on three datasets using 7b models e.g., Vicuna-7b and Openchat-7b on NDCG@10. This research not only highlights the potential of LLMs in enhancing sequential recommendation systems but also underscores the importance of developing tailored reasoning strategies to fully harness their capabilities.
翻訳日:2023-12-20 19:17:57 公開日:2023-12-18
# 最適化と縮小: 画像ベクトル化のためのトップダウンアプローチ

Optimize and Reduce: A Top-Down Approach for Image Vectorization ( http://arxiv.org/abs/2312.11334v1 )

ライセンス: Link先を確認
Or Hirschorn, Amir Jevnisek, Shai Avidan(参考訳) ベクター画像表現は、編集性と解像度の柔軟性が要求される場合に一般的な選択である。 しかし、ほとんどの画像はラスタ形式でのみ利用可能であり、ラスタからベクトルへの画像変換(ベクトル化)が重要なタスクである。 ベクトル化の古典的手法はドメイン固有か、編集可能性と解釈可能性を制限する多くの形状をもたらす。 異なるレンダリングを使用する学習ベースの手法は、トレーニング外分布領域への一般化が不十分なコストでベクトル化に革命をもたらし、最適化ベースの手法は遅いか、非編集可能で冗長な形状を生成する。 本研究では,高速かつドメインに依存しないベクトル化へのトップダウンアプローチであるOptimize & Reduce (O&R)を提案する。 o&rの目的は、b\'ezier曲線パラメータを反復的に最適化し、重要度尺度を用いて形状数を大幅に削減することで、入力画像のコンパクトな表現を実現することである。 絵文字から自然な画像まで、幅広い画像群からの画像からなる5つのデータセットのベンチマークに貢献する。 多数の画像に対する広範囲な実験を通して,本手法は領域に依存しないものであり,固定数の形状に対する再現性および知覚品質の両方において,既存手法よりも優れていることを示す。 さらに,本アルゴリズムは最先端の最適化手法よりも10ドル高速であることを示す。

Vector image representation is a popular choice when editability and flexibility in resolution are desired. However, most images are only available in raster form, making raster-to-vector image conversion (vectorization) an important task. Classical methods for vectorization are either domain-specific or yield an abundance of shapes which limits editability and interpretability. Learning-based methods, that use differentiable rendering, have revolutionized vectorization, at the cost of poor generalization to out-of-training distribution domains, and optimization-based counterparts are either slow or produce non-editable and redundant shapes. In this work, we propose Optimize & Reduce (O&R), a top-down approach to vectorization that is both fast and domain-agnostic. O&R aims to attain a compact representation of input images by iteratively optimizing B\'ezier curve parameters and significantly reducing the number of shapes, using a devised importance measure. We contribute a benchmark of five datasets comprising images from a broad spectrum of image complexities - from emojis to natural-like images. Through extensive experiments on hundreds of images, we demonstrate that our method is domain agnostic and outperforms existing works in both reconstruction and perceptual quality for a fixed number of shapes. Moreover, we show that our algorithm is $\times 10$ faster than the state-of-the-art optimization-based method.
翻訳日:2023-12-20 19:17:23 公開日:2023-12-18
# PolyDiff: 拡散モデルによる3次元多角形メッシュの生成

PolyDiff: Generating 3D Polygonal Meshes with Diffusion Models ( http://arxiv.org/abs/2312.11417v1 )

ライセンス: Link先を確認
Antonio Alliegro, Yawar Siddiqui, Tatiana Tommasi, Matthias Nie{\ss}ner(参考訳) 現実的で多様な3次元多角形メッシュを直接生成できる最初の拡散に基づくアプローチであるPolyDiffを紹介する。 代替3次元形状表現(暗黙的表現など)を使用する手法とは対照的に,本手法は多角形メッシュデータ構造をネイティブに動作させる離散微分拡散確率モデルである。 これにより、頂点の幾何学的性質と顔の位相特性の両方を学ぶことができる。 具体的には, メッシュを量化された三角形スープとして扱い, 前方拡散相におけるカテゴリーノイズにより徐々に劣化する。 逆拡散相では、変圧器に基づく復調ネットワークがトレーニングされ、元のメッシュ構造を復元する。 推測では、完全にノイズの多い三角形のスープから始まるこのデノナイジングネットワークを反復的に適用することで、新しいメッシュを生成することができる。 これにより、下流3Dワークフローに統合可能な高品質な3D多角形メッシュを生成できる。 以上の結果から, ポリディフは現状の手法に比べて大きな優位性(FIDおよびJSDの改善18.2および5.8)を達成できた。

We introduce PolyDiff, the first diffusion-based approach capable of directly generating realistic and diverse 3D polygonal meshes. In contrast to methods that use alternate 3D shape representations (e.g. implicit representations), our approach is a discrete denoising diffusion probabilistic model that operates natively on the polygonal mesh data structure. This enables learning of both the geometric properties of vertices and the topological characteristics of faces. Specifically, we treat meshes as quantized triangle soups, progressively corrupted with categorical noise in the forward diffusion phase. In the reverse diffusion phase, a transformer-based denoising network is trained to revert the noising process, restoring the original mesh structure. At inference, new meshes can be generated by applying this denoising network iteratively, starting with a completely noisy triangle soup. Consequently, our model is capable of producing high-quality 3D polygonal meshes, ready for integration into downstream 3D workflows. Our extensive experimental analysis shows that PolyDiff achieves a significant advantage (avg. FID and JSD improvement of 18.2 and 5.8 respectively) over current state-of-the-art methods.
翻訳日:2023-12-20 19:10:30 公開日:2023-12-18
# mend the gap: ノイズ多角形タイルのスマート修復アルゴリズム

Mend the gap: A smart repair algorithm for noisy polygonal tilings ( http://arxiv.org/abs/2312.11415v1 )

ライセンス: Link先を確認
Jeanne N. Clelland(参考訳) t^* = \{p^*_1, \ldots, p^*_n\}$ を平面内の単連結領域の多角形ティリングとし、$t = \{p_1, \ldots, p_n\}$ を$t^*$ で多角形の頂点の座標に小さな摂動によって得られる$t^*$ のノイズバージョンとする。 一般に、$t$は、摂動多角形の間のギャップと重なりが$t$で存在するため、近似的なタイリングである。 これらのギャップと重なり合いの領域は、典型的にはポリゴン自体の領域と比較して小さい。 およそのティリング$t$ が与えられ、ティリング$t^*$ を回収したいと仮定する。 この問題に対処するために、新しいアルゴリズムである {\tt smart\_repair} を導入して、$t$ で多角形を修飾し、$t^*$ で多角形間の共役関係を再現するために、$t^*$ と密接に近似する$\widetilde{t} = \{\widetilde{p}_1, \ldots, \widetilde{p}_n\}$ を生成する。 このアルゴリズムの動機は、より小さな地理的単位からディストリクトを構築するためにアルゴリズムを使用する計算再帰にある。 合衆国のほとんどの州の地区は連続性が必要であるので、これらのアルゴリズムは基本的に単位間の隣接関係に基づいている。 残念ながら、単位の境界に関する最良の地図データは、しばしば騒がしく、隣接関係のかなりの不正確さにつながる単位間のギャップと重なりを含んでいる。 単純な修復アルゴリズムは、これらの不正確さを悪化させ、`repaired'ユニットに基づいてアルゴリズム的に地区を描画する結果が不連続であり、従って法的に適合しない可能性がある。 ここで示されるアルゴリズムは、このような問題を避けるために特別に設計されている。 Pythonの実装は、MGGG Redistricting Lab's {\tt Maup}パッケージの一部として公開されており、 \url{https://github.com/mggg/maup}で利用可能である。

Let $T^* = \{P^*_1, \ldots, P^*_N\}$ be a polygonal tiling of a simply connected region in the plane, and let $T = \{P_1, \ldots, P_N\}$ be a noisy version of $T^*$ obtained by making small perturbations to the coordinates of the vertices of the polygons in $T^*$. In general, $T$ will only be an approximate tiling, due to the presence of gaps and overlaps between the perturbed polygons in $T$. The areas of these gaps and overlaps are typically small relative to the areas of the polygons themselves. Suppose that we are given the approximate tiling $T$ and we wish to recover the tiling $T^*$. To address this problem, we introduce a new algorithm, called {\tt smart\_repair}, to modify the polygons in $T$ to produce a tiling $\widetilde{T} = \{\widetilde{P}_1, \ldots, \widetilde{P}_N\}$ that closely approximates $T^*$, with special attention given to reproducing the {\em adjacency relations} between the polygons in $T^*$ as closely as possible. The motivation for this algorithm comes from computational redistricting, where algorithms are used to build districts from smaller geographic units. Because districts in most U.S. states are required to be contiguous, these algorithms are fundamentally based on adjacency relations between units. Unfortunately, the best available map data for unit boundaries is often noisy, containing gaps and overlaps between units that can lead to substantial inaccuracies in the adjacency relations. Simple repair algorithms can exacerbate these inaccuracies, with the result that algorithmically drawn districts based on the ``repaired" units may be discontiguous, and hence not legally compliant. The algorithm presented here is specifically designed to avoid such problems. A Python implementation is publicly available as part of the MGGG Redistricting Lab's {\tt Maup} package, available at \url{https://github.com/mggg/maup}.
翻訳日:2023-12-20 19:09:57 公開日:2023-12-18
# animal-ai 3: 最新情報と注意すべき理由

Animal-AI 3: What's New & Why You Should Care ( http://arxiv.org/abs/2312.11414v1 )

ライセンス: Link先を確認
Konstantinos Voudouris, Ibrahim Alhas, Wout Schellaert, Matthew Crosby, Joel Holmes, John Burden, Niharika Chaubey, Niall Donnelly, Matishalin Patel, Marta Halina, Jos\'e Hern\'andez-Orallo, Lucy G. Cheke(参考訳) animal-ai environmentは、人工知能と認知科学の両方の研究コミュニティのために設計された、ユニークなゲームベースの研究プラットフォームである。 本稿では,環境の最新バージョンであるanimal-ai 3について,ゲームが人間にとってより魅力的で,aiシステムにとってより複雑になるような,いくつかの重要な新機能を概説する。 新機能には、インタラクティブボタン、報酬ディスペンサー、プレイヤー通知、環境のグラフィックと処理のオーバーホールが含まれており、エージェントのトレーニング時間と人間のプレイヤー体験の質が大幅に向上している。 Animal-AI 3による計算および行動実験の作り方に関する詳細なガイダンスを提供する。 本稿では,最新のDeep Reinforcement Learning Agent (dreamer-v3) や,比較心理学の研究から着想を得た900のタスクからなるAnimal-AI Testbed など,一連のエージェントの結果を紹介する。 Animal-AI 3は認知科学と人工知能の協力を促進するように設計されている。 本稿では,動物AI 3をエンドユーザー向けにモチベーション,記述,実証するスタンドアロン文書として機能する。

The Animal-AI Environment is a unique game-based research platform designed to serve both the artificial intelligence and cognitive science research communities. In this paper, we present Animal-AI 3, the latest version of the environment, outlining several major new features that make the game more engaging for humans and more complex for AI systems. New features include interactive buttons, reward dispensers, and player notifications, as well as an overhaul of the environment's graphics and processing for significant increases in agent training time and quality of the human player experience. We provide detailed guidance on how to build computational and behavioural experiments with Animal-AI 3. We present results from a series of agents, including the state-of-the-art Deep Reinforcement Learning agent (dreamer-v3), on newly designed tests and the Animal-AI Testbed of 900 tasks inspired by research in comparative psychology. Animal-AI 3 is designed to facilitate collaboration between the cognitive sciences and artificial intelligence. This paper serves as a stand-alone document that motivates, describes, and demonstrates Animal-AI 3 for the end user.
翻訳日:2023-12-20 19:09:09 公開日:2023-12-18
# DeRDaVa: マシンラーニングのための削除ロバストデータ評価

DeRDaVa: Deletion-Robust Data Valuation for Machine Learning ( http://arxiv.org/abs/2312.11413v1 )

ライセンス: Link先を確認
Xiao Tian, Rachael Hwee Ling Sim, Jue Fan, Bryan Kian Hsiang Low(参考訳) データバリュエーションは、データソースからのデータの公正なバリュエーションを決定して補正するか、あるいは予測に最も、または最も有用でないトレーニング例を特定することである。 個人データ所有とデータ保護に関する規制への関心が高まる中、モデル所有者はより多くのデータ削除要求を強制する必要がある。 これは、既存の作業で対処されていない問題を引き起こす。 データ評価スコアは、削除と同等か? スコアは高価な再計算が必要か? 答えはノーです。 再計算を避けるために,我々はデータバリュエーションフレームワーク derdava upfront を用いて,予測したデータ削除後のロバストなモデル性能を維持するための各データソースの貢献度を評価する。 derdavaは効率的に近似することができ、より有用で削除されやすいデータに高い値を割り当てる。 DeRDaVaをリスク-DeRDaVaに一般化し、最悪の/ベストケースモデルユーティリティに関心のあるリスク/リバース/サーキングモデルオーナーに対処する。 ソリューションの実用性も実証的に実証しています。

Data valuation is concerned with determining a fair valuation of data from data sources to compensate them or to identify training examples that are the most or least useful for predictions. With the rising interest in personal data ownership and data protection regulations, model owners will likely have to fulfil more data deletion requests. This raises issues that have not been addressed by existing works: Are the data valuation scores still fair with deletions? Must the scores be expensively recomputed? The answer is no. To avoid recomputations, we propose using our data valuation framework DeRDaVa upfront for valuing each data source's contribution to preserving robust model performance after anticipated data deletions. DeRDaVa can be efficiently approximated and will assign higher values to data that are more useful or less likely to be deleted. We further generalize DeRDaVa to Risk-DeRDaVa to cater to risk-averse/seeking model owners who are concerned with the worst/best-cases model utility. We also empirically demonstrate the practicality of our solutions.
翻訳日:2023-12-20 19:08:48 公開日:2023-12-18
# ポイントクラウド強化学習によるアクティブ検索とカバレッジ

Active search and coverage using point-cloud reinforcement learning ( http://arxiv.org/abs/2312.11410v1 )

ライセンス: Link先を確認
Matthias Rosynski and Alexandru Pop and Lucian Busoniu(参考訳) 移動体3dセンサの軌道を最適化して、特定の物体が全体シーンに存在し、ポイントクラウドによってカバーされるようにしなくてはならない問題を考える。 この問題は対象探索とカバレッジと呼ばれ、本論文はそれを解くためにエンドツーエンドの深層強化学習(RL)ソリューションを提供する。 ディープニューラルネットワークは、第1段階での深層階層的特徴学習と、第2段階でのマルチヘッドトランスフォーマー、第3段階での空間的関係を維持するためにバイパスされた情報とマージされた最大プールと、最終段階での分散デュエルネットワークの4つのコンポーネントを組み合わせる。 この方法を評価するために、kinectセンサでシリンダーを探さなければならないシミュレータを開発した。 ネットワークアーキテクチャの研究では、RLの深い階層的特徴学習が有効であり、FPS(Fastthest Point sample)を用いることで、ポイントの量を削減し、ネットワークサイズを削減できるだけでなく、より良い結果が得られることが示されている。 また,ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化すると同時に,同じ結果に収束することを示す。 最後に、最適なネットワークを用いてRLを、即時報酬を最大化し、次の観測を予測できる託宣を要求する欲求ベースラインと比較する。 我々はRLが欲張り戦略よりもはるかに優れた、より堅牢な結果が得られると判断した。

We consider a problem in which the trajectory of a mobile 3D sensor must be optimized so that certain objects are both found in the overall scene and covered by the point cloud, as fast as possible. This problem is called target search and coverage, and the paper provides an end-to-end deep reinforcement learning (RL) solution to solve it. The deep neural network combines four components: deep hierarchical feature learning occurs in the first stage, followed by multi-head transformers in the second, max-pooling and merging with bypassed information to preserve spatial relationships in the third, and a distributional dueling network in the last stage. To evaluate the method, a simulator is developed where cylinders must be found by a Kinect sensor. A network architecture study shows that deep hierarchical feature learning works for RL and that by using farthest point sampling (FPS) we can reduce the amount of points and achieve not only a reduction of the network size but also better results. We also show that multi-head attention for point-clouds helps to learn the agent faster but converges to the same outcome. Finally, we compare RL using the best network with a greedy baseline that maximizes immediate rewards and requires for that purpose an oracle that predicts the next observation. We decided RL achieves significantly better and more robust results than the greedy strategy.
翻訳日:2023-12-20 19:08:27 公開日:2023-12-18
# HVACシステムの故障検出のための教師なし学習:終端空調ユニットに対するOPTICSに基づくアプローチ

Unsupervised Learning for Fault Detection of HVAC Systems: An OPTICS -based Approach for Terminal Air Handling Units ( http://arxiv.org/abs/2312.11405v1 )

ライセンス: Link先を確認
Farivar Rajabi, J.J. McArthur(参考訳) AIを用いた分類技術の台頭は、スマートビルディングシステムにおけるデータ駆動型障害検出と診断の新しい時代を幕開けた。 広範囲にわたる研究がfddアプローチの監督を支持しているが、教師なしの手法の現実世界での応用は限られている。 その中でも、クラスタ分析は、構築管理システムデータにおけるその可能性を示している。 本研究では,ターミナルエアハンドリングユニットとその関連システムの障害を検出するための教師なし学習戦略を提案する。 この手法は、主成分分析を用いて歴史的センサデータを前処理して次元を合理化する。 これに続いてOPTICSクラスタリングが行われ、比較のためにk-平均に対して並置される。 提案手法の有効性を,種々の障害シナリオと実世界のBMS構築データを示すラベル付きデータセットを用いて評価した。 その結果,オプティクスは季節ごとの精度で常にk平均を上回っていた。 特にOPTICSは、到達可能性距離と呼ばれるユーザのためのユニークな視覚化機能を提供し、しきい値を設定する前に検出されたクラスタのプレビューを可能にする。 さらに,PCAは計算コストの低減とノイズ低減に有効であり,これにより,到達距離におけるクラスタ分化の明確性の向上が図られる。 また、特に複雑な障害シナリオでは、その制限がある。 そのような場合、pcaの次元的縮小は重要な情報を失う結果となり、いくつかのクラスターは識別不能または完全に検出されない。 これらの見過ごされたクラスタは、基盤となる障害を示す可能性があり、その不明瞭さは、複雑なデータセットの潜在的な障害線を特定する際のPCAの重大な制限を表している。

The rise of AI-powered classification techniques has ushered in a new era for data-driven Fault Detection and Diagnosis in smart building systems. While extensive research has championed supervised FDD approaches, the real-world application of unsupervised methods remains limited. Among these, cluster analysis stands out for its potential with Building Management System data. This study introduces an unsupervised learning strategy to detect faults in terminal air handling units and their associated systems. The methodology involves pre-processing historical sensor data using Principal Component Analysis to streamline dimensions. This is then followed by OPTICS clustering, juxtaposed against k-means for comparison. The effectiveness of the proposed strategy was gauged using several labeled datasets depicting various fault scenarios and real-world building BMS data. Results showed that OPTICS consistently surpassed k-means in accuracy across seasons. Notably, OPTICS offers a unique visualization feature for users called reachability distance, allowing a preview of detected clusters before setting thresholds. Moreover, according to the results, while PCA is beneficial for reducing computational costs and enhancing noise reduction, thereby generally improving the clarity of cluster differentiation in reachability distance. It also has its limitations, particularly in complex fault scenarios. In such cases, PCA's dimensionality reduction may result in the loss of critical information, leading to some clusters being less discernible or entirely undetected. These overlooked clusters could be indicative of underlying faults, and their obscurity represents a significant limitation of PCA when identifying potential fault lines in intricate datasets.
翻訳日:2023-12-20 19:08:01 公開日:2023-12-18
# News Signals: テキストと時系列のためのNLPライブラリ

News Signals: An NLP Library for Text and Time Series ( http://arxiv.org/abs/2312.11399v1 )

ライセンス: Link先を確認
Chris Hokamp and Demian Gholipour Ghalandari and Parsa Ghaffari(参考訳) 入力をテキストデータのクラスタとし,出力を1つ以上の時系列信号を表す実値列とする,データセットの構築と使用のためのオープンソースのPythonライブラリを提案する。 ニュース署名ライブラリは、テキストデータフィードを使用した時系列行動の予測に関連する多様なデータサイエンスとNLP問題設定をサポートする。 例えば、ニュースドメインでは、入力は特定のエンティティに関する日々のニュース記事に対応する文書クラスタであり、ターゲットは明確に関連づけられた実数値の時系列である:特定の人や企業に関するニュースの量、特定のウィキメディアページのページビューの数。 このタイプの問題設定の多くの業界や研究のユースケースにもかかわらず、news signalsは、自然言語入力と時系列ターゲットによるデータサイエンスや研究設定を促進するために特別に設計された唯一のオープンソースライブラリです。 データセットの構築とインタラクションのためのコアコードベースに加えて,テキスト入力を用いた時系列異常予測のベースラインを確立するために,一般的な機械学習ライブラリを使用した一連の実験も実施しています。

We present an open-source Python library for building and using datasets where inputs are clusters of textual data, and outputs are sequences of real values representing one or more time series signals. The news-signals library supports diverse data science and NLP problem settings related to the prediction of time series behaviour using textual data feeds. For example, in the news domain, inputs are document clusters corresponding to daily news articles about a particular entity, and targets are explicitly associated real-valued time series: the volume of news about a particular person or company, or the number of pageviews of specific Wikimedia pages. Despite many industry and research use cases for this class of problem settings, to the best of our knowledge, News Signals is the only open-source library designed specifically to facilitate data science and research settings with natural language inputs and time series targets. In addition to the core codebase for building and interacting with datasets, we also conduct a suite of experiments using several popular Machine Learning libraries, which are used to establish baselines for time series anomaly prediction using textual inputs.
翻訳日:2023-12-20 19:07:38 公開日:2023-12-18
# mag-edit:$\underline{m}$ask-based$\underline{a}$ttention-adjusted $\underline{g}$uidanceによる複雑なシナリオでのローカライズ画像編集

MAG-Edit: Localized Image Editing in Complex Scenarios via $\underline{M}$ask-Based $\underline{A}$ttention-Adjusted $\underline{G}$uidance ( http://arxiv.org/abs/2312.11396v1 )

ライセンス: Link先を確認
Qi Mao, Lan Chen, Yuchao Gu, Zhen Fang, Mike Zheng Shou(参考訳) 近年の拡散型画像編集手法は, 単純な構成を持つ画像に印象的な編集機能を備えている。 しかし、複雑なシナリオにおけるローカライズド編集は、現実の要求が増大しているにもかかわらず、文献では十分に研究されていない。 既存のマスクベースの塗り込み方法は、編集領域の基盤構造を保持するのに不足している。 一方、マスフリーアテンションベースの手法では、より複雑な構成の編集漏れや修正ミスがしばしば現れる。 本研究では,複雑なシナリオにおける局所的な画像編集を可能にする,トレーニングフリーな推論段階最適化手法である$\textbf{mag-edit}$を開発した。 特に、MAG-Editは、2つのマスクベースの編集トークンのクロスアテンション制約を最大化することにより拡散モデルのノイズ潜時特性を最適化し、徐々に所望のプロンプトとの局所アライメントを高める。 大規模定量的・質的実験により,複雑なシナリオにおける局所編集におけるテキストアライメントと構造保存の両立が本手法の有効性を実証した。

Recent diffusion-based image editing approaches have exhibited impressive editing capabilities in images with simple compositions. However, localized editing in complex scenarios has not been well-studied in the literature, despite its growing real-world demands. Existing mask-based inpainting methods fall short of retaining the underlying structure within the edit region. Meanwhile, mask-free attention-based methods often exhibit editing leakage and misalignment in more complex compositions. In this work, we develop $\textbf{MAG-Edit}$, a training-free, inference-stage optimization method, which enables localized image editing in complex scenarios. In particular, MAG-Edit optimizes the noise latent feature in diffusion models by maximizing two mask-based cross-attention constraints of the edit token, which in turn gradually enhances the local alignment with the desired prompt. Extensive quantitative and qualitative experiments demonstrate the effectiveness of our method in achieving both text alignment and structure preservation for localized editing within complex scenarios.
翻訳日:2023-12-20 19:07:21 公開日:2023-12-18
# ヒンディー語問題解決のための動詞分類

Verb Categorisation for Hindi Word Problem Solving ( http://arxiv.org/abs/2312.11395v1 )

ライセンス: Link先を確認
Harshita Sharma, Pruthwik Mishra, Dipti Misra Sharma(参考訳) 単語問題解決は自然言語で記述された数学的問題解決を扱うnlp課題である。 近年,インド語における単語問題解決への関心が高まっている。 本稿では,動詞を利用したヒンディー語算術語問題解法を開発した。 さらに,ヒンディー語の動詞分類データも作成した。 動詞は、単語問題を解くのに必要な操作の集合を特定するのに役立つため、追加/減算操作で単語問題を解決するのに非常に重要である。 本稿では,動詞分類を用いて単語問題の操作を識別し,それに対する回答を生成するルールベースソルバを提案する。 動詞分類を行うために,いくつかのアプローチを検討し,比較研究を行った。

Word problem Solving is a challenging NLP task that deals with solving mathematical problems described in natural language. Recently, there has been renewed interest in developing word problem solvers for Indian languages. As part of this paper, we have built a Hindi arithmetic word problem solver which makes use of verbs. Additionally, we have created verb categorization data for Hindi. Verbs are very important for solving word problems with addition/subtraction operations as they help us identify the set of operations required to solve the word problems. We propose a rule-based solver that uses verb categorisation to identify operations in a word problem and generate answers for it. To perform verb categorisation, we explore several approaches and present a comparative study.
翻訳日:2023-12-20 19:07:00 公開日:2023-12-18
# SCEdit: スキップ接続編集による効率よく制御可能な画像拡散生成

SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing ( http://arxiv.org/abs/2312.11392v1 )

ライセンス: Link先を確認
Zeyinzi Jiang, Chaojie Mao, Yulin Pan, Zhen Han, Jingfeng Zhang(参考訳) 画像拡散モデルは、テキストから画像への生成や制御可能な画像合成など、様々なタスクで利用されている。 近年の研究では、原モデルに微調整を施し、基本生成拡散モデルの特定の適応に有望な結果をもたらすチューニング手法が導入された。 拡散モデルの主要なバックボーンを変更するのではなく、u-netにおけるスキップ接続の役割を調べ、エンコーダとデコーダ間の長距離情報を集約する階層的特徴が画像生成のコンテンツと品質に大きな影響を与えていることを明らかにする。 そこで本研究では,SC-Tuner という軽量チューニングモジュールを用いて,Skip Connection の統合と編集を行う,SCEdit と呼ばれる効率的な生成チューニングフレームワークを提案する。 さらに,制御可能なsc-tunerで異なる条件を注入し,多条件入力のためのネットワーク設計を簡素化し統一することにより,制御可能な画像合成への簡易な拡張を実現する。 このsceditは、その軽量チューナによるトレーニングパラメータ、メモリ使用量、計算コストを大幅に削減し、デコーダブロックへの後方伝播のみを行う。 テキスト対画像生成および制御可能な画像合成タスクに関する広範な実験により,提案手法の効率と性能の面での優位性が示された。 プロジェクトページ: \url{https://scedit.github.io/}

Image diffusion models have been utilized in various tasks, such as text-to-image generation and controllable image synthesis. Recent research has introduced tuning methods that make subtle adjustments to the original models, yielding promising results in specific adaptations of foundational generative diffusion models. Rather than modifying the main backbone of the diffusion model, we delve into the role of skip connection in U-Net and reveal that hierarchical features aggregating long-distance information across encoder and decoder make a significant impact on the content and quality of image generation. Based on the observation, we propose an efficient generative tuning framework, dubbed SCEdit, which integrates and edits Skip Connection using a lightweight tuning module named SC-Tuner. Furthermore, the proposed framework allows for straightforward extension to controllable image synthesis by injecting different conditions with Controllable SC-Tuner, simplifying and unifying the network design for multi-condition inputs. Our SCEdit substantially reduces training parameters, memory usage, and computational expense due to its lightweight tuners, with backward propagation only passing to the decoder blocks. Extensive experiments conducted on text-to-image generation and controllable image synthesis tasks demonstrate the superiority of our method in terms of efficiency and performance. Project page: \url{https://scedit.github.io/}
翻訳日:2023-12-20 19:06:50 公開日:2023-12-18
# FedCompetitors: 競合する参加者とのフェデレーション学習における調和したコラボレーション

FedCompetitors: Harmonious Collaboration in Federated Learning with Competing Participants ( http://arxiv.org/abs/2312.11391v1 )

ライセンス: Link先を確認
Shanli Tan, Hao Cheng, Xiaohu Wu, Han Yu, Tiantian He, Yew-Soon Ong, Chongjun Wang, and Xiaofeng Tao(参考訳) Federated Learning(FL)は、機械学習モデルの協調トレーニングのためのプライバシ保護アプローチを提供する。 データの不均一性を考えると、データの相補性に基づいて各FL参加者(FL-PT)に対して適切なコラボレータを選択することが重要である。 最近の研究はこの課題に対処している。 同様に、FL-PTが競合するFL-PT間の個人間関係を考えることが不可欠である。 flの文献はこのシナリオの重要性を認めているが、flエコシステムを確立するための実践的な方法はほとんど解明されていない。 本稿では,flエコシステムにおける相反する利害関係の欠如を保証するために,均衡理論から「敵の友は敵である」という原理を拡張した。 拡張原理と結果の問題はグラフ理論と整数線形計画法によって定式化される。 各FL-PTの協調者を決定するために多項式時間アルゴリズムを提案する。 このソリューションは高いスケーラビリティを保証し、競合するfl-ptさえも利害の衝突なしにスムーズにエコシステムに参加することができる。 提案フレームワークは競合やデータの均一性を共同で検討する。 実世界および合成データの大規模な実験は、5つの代替手法と比較して有効であり、FL-PT間の効率的な協調ネットワークを確立する能力を示している。

Federated learning (FL) provides a privacy-preserving approach for collaborative training of machine learning models. Given the potential data heterogeneity, it is crucial to select appropriate collaborators for each FL participant (FL-PT) based on data complementarity. Recent studies have addressed this challenge. Similarly, it is imperative to consider the inter-individual relationships among FL-PTs where some FL-PTs engage in competition. Although FL literature has acknowledged the significance of this scenario, practical methods for establishing FL ecosystems remain largely unexplored. In this paper, we extend a principle from the balance theory, namely ``the friend of my enemy is my enemy'', to ensure the absence of conflicting interests within an FL ecosystem. The extended principle and the resulting problem are formulated via graph theory and integer linear programming. A polynomial-time algorithm is proposed to determine the collaborators of each FL-PT. The solution guarantees high scalability, allowing even competing FL-PTs to smoothly join the ecosystem without conflict of interest. The proposed framework jointly considers competition and data heterogeneity. Extensive experiments on real-world and synthetic data demonstrate its efficacy compared to five alternative approaches, and its ability to establish efficient collaboration networks among FL-PTs.
翻訳日:2023-12-20 19:06:26 公開日:2023-12-18
# 半監督型分類用ハイパーグラフ変換器

Hypergraph Transformer for Semi-Supervised Classification ( http://arxiv.org/abs/2312.11385v1 )

ライセンス: Link先を確認
Zexi Liu, Bohan Tang, Ziyuan Ye, Xiaowen Dong, Siheng Chen, Yanfeng Wang(参考訳) ハイパーグラフは、2つ以上のエンティティを含む高次関係を特徴とするデータのモデリングにおいて重要な役割を果たす。 ハイパーグラフニューラルネットワークは、ハイパーグラフ構造データを処理する強力なツールとして登場し、ハイパーグラフノードの分類など、様々なタスクで優れたパフォーマンスを提供する。 しかし、これらのモデルは、局所的なメッセージパッシングに依存するため、グローバルな構造情報を捉えるのに苦労している。 この課題に対処するために,新しいハイパーグラフ学習フレームワークHyperGraph Transformer(HyperGT)を提案する。 HyperGTはTransformerベースのニューラルネットワークアーキテクチャを使用して、すべてのノードとハイパーエッジのグローバル相関を効果的に検討する。 ローカルな構造情報を組み込むため、HyperGTには2つの異なる設計がある。 一 ハイパーグラフ発生行列に基づく位置符号化であって、ノード-ノード及びハイパーエッジ-ハイパーエッジ相互作用に関する貴重な洞察を提供するもの 二 損失関数におけるハイパーグラフ構造を規則化し、ノードとハイパーエッジ間の接続性を捉えること。 これらの設計を通じて、HyperGTは局所接続パターンを維持しながら、グローバルな相互作用を効果的に組み込むことで、包括的なハイパーグラフ表現学習を実現する。 実世界のハイパーグラフノード分類タスクで実施された大規模な実験は、HyperGTが既存の手法を一貫して上回り、新しい最先端ベンチマークを確立することを示した。 アブレーション研究は,モデル個々の設計の有効性を肯定する。

Hypergraphs play a pivotal role in the modelling of data featuring higher-order relations involving more than two entities. Hypergraph neural networks emerge as a powerful tool for processing hypergraph-structured data, delivering remarkable performance across various tasks, e.g., hypergraph node classification. However, these models struggle to capture global structural information due to their reliance on local message passing. To address this challenge, we propose a novel hypergraph learning framework, HyperGraph Transformer (HyperGT). HyperGT uses a Transformer-based neural network architecture to effectively consider global correlations among all nodes and hyperedges. To incorporate local structural information, HyperGT has two distinct designs: i) a positional encoding based on the hypergraph incidence matrix, offering valuable insights into node-node and hyperedge-hyperedge interactions; and ii) a hypergraph structure regularization in the loss function, capturing connectivities between nodes and hyperedges. Through these designs, HyperGT achieves comprehensive hypergraph representation learning by effectively incorporating global interactions while preserving local connectivity patterns. Extensive experiments conducted on real-world hypergraph node classification tasks showcase that HyperGT consistently outperforms existing methods, establishing new state-of-the-art benchmarks. Ablation studies affirm the effectiveness of the individual designs of our model.
翻訳日:2023-12-20 19:06:07 公開日:2023-12-18
# コンピュータビジョンに基づく建物における配向拘束型ランプ検出システム

Orientation-Constrained System for Lamp Detection in Buildings Based on Computer Vision ( http://arxiv.org/abs/2312.11380v1 )

ライセンス: Link先を確認
Francisco Troncoso-Pastoriza, Pablo Egu\'ia-Oller, Rebeca P. D\'iaz-Redondo, Enrique Granada-\'Alvarez, Aitor Erkoreka(参考訳) コンピュータビジョンは、以前の方法の精度を改善し、ランプの位置と状態の正確な在庫を提供するために、建物内の照明要素を検出するために使用される。 Using the framework developed in our previous works, we introduce two new modifications to enhance the system: first, a constraint on the orientation of the detected poses in the optimization methods for both the initial and the refined estimates based on the geometric information of the building information modelling (BIM) model; second, an additional reprojection error filtering step to discard the erroneous poses introduced with the orientation restrictions, keeping the identification and localization errors low while greatly increasing the number of detections. これらの~エンハンスメントは、3万以上の画像を用いた5つの異なるケーススタディでテストされ、検出回数、正しいモデルと状態の識別率、検出と参照位置の間の距離が改善された。

Computer vision is used in this work to detect lighting elements in buildings with the goal of improving the accuracy of previous methods to provide a precise inventory of the location and state of lamps. Using the framework developed in our previous works, we introduce two new modifications to enhance the system: first, a constraint on the orientation of the detected poses in the optimization methods for both the initial and the refined estimates based on the geometric information of the building information modelling (BIM) model; second, an additional reprojection error filtering step to discard the erroneous poses introduced with the orientation restrictions, keeping the identification and localization errors low while greatly increasing the number of detections. These~enhancements are tested in five different case studies with more than 30,000 images, with results showing improvements in the number of detections, the percentage of correct model and state identifications, and the distance between detections and reference positions
翻訳日:2023-12-20 19:05:45 公開日:2023-12-18
# ビルの照明要素検出におけるBIMデータの入力・出力への応用

Use of BIM Data as Input and Output for Improved Detection of Lighting Elements in Buildings ( http://arxiv.org/abs/2312.11375v1 )

ライセンス: Link先を確認
Francisco Troncoso-Pastoriza, Pablo Egu\'ia-Oller, Rebeca P. D\'iaz-Redondo, Enrique Granada-\'Alvarez(参考訳) 本稿では,建物内の照明要素の自動検出,識別,位置決定のための完全手法を提案する。ビルのビル情報モデリング(BIM)データを活用し,省エネ戦略の鍵となる新しい収集情報でBIMモデルに供給する。 検出システムは,これまでの作業から大きく改善され,次の2つの大きな貢献がある。 (i)同等の計算資源でより優れた検出率と識別性能を提供するための新しい改良アルゴリズム (二)BIM情報を利用した新しい平面推定、フィルタリング、投射のステップを、吊り下げ、埋設したランプに適用する。 2つの修正は5つの異なるケーススタディで徹底的にテストされ、検出、識別、ローカライズの観点からより良い結果が得られる。

This paper introduces a complete method for the automatic detection, identification and localization of lighting elements in buildings, leveraging the available building information modeling (BIM) data of a building and feeding the BIM model with the new collected information, which is key for energy-saving strategies. The detection system is heavily improved from our previous work, with the following two main contributions: (i) a new refinement algorithm to provide a better detection rate and identification performance with comparable computational resources and (ii) a new plane estimation, filtering and projection step to leverage the BIM information earlier for lamps that are both hanging and embedded. The two modifications are thoroughly tested in five different case studies, yielding better results in terms of detection, identification and localization.
翻訳日:2023-12-20 19:05:07 公開日:2023-12-18
# hybrid internal model: アジャイル脚歩行のためのシンプルで効率的な学習者

Hybrid Internal Model: A Simple and Efficient Learner for Agile Legged Locomotion ( http://arxiv.org/abs/2312.11460v1 )

ライセンス: Link先を確認
Junfeng Long, Zirui Wang, Quanyi Li, Jiawei Gao, Liu Cao, Jiangmiao Pang(参考訳) ロバストな移動制御は正確な状態推定に依存する。 しかし、ほとんどの脚を持つロボットのセンサーは、部分的かつ騒がしい観測しか行えないため、特に地形摩擦や標高マップのような外部状態において、推定は困難である。 従来の内部モデル制御原理に触発されて,これらの外部状態は外乱であり,ロボットの応答に応じて推定するためにハイブリッド内部モデル(him)を導入する。 この応答は、ロボットの明示的な速度と暗黙的な安定性の表現を含み、移動タスクの2つの主要な目標、すなわち、速度を明示的に追跡し、安定性を暗黙的に維持する。 我々は、ロボットの後継状態に近いように埋め込みを最適化するために、対照的な学習を使用し、その応答が自然に埋め込まれている。 HIMにはいくつかの魅力的な利点がある: ロボットのプロトリオセプション、すなわち関節エンコーダとIMUを観察するのみである。 シミュレーション参照と現実の間の一貫した観察を革新的に維持し、学習を模倣する情報損失を避ける。 ノイズに対してより堅牢なバッチレベルの情報を活用し、より優れたサンプル効率を維持する。 RTX 4090のトレーニングには1時間しかかからず、四足歩行ロボットはどんな障害でも地形を横切ることができる。 実世界の豊富な実験が、トレーニングプロセス中に発生したことのない高ディフィキュティなタスクやケースでさえも、その俊敏さを示しています。

Robust locomotion control depends on accurate state estimations. However, the sensors of most legged robots can only provide partial and noisy observations, making the estimation particularly challenging, especially for external states like terrain frictions and elevation maps. Inspired by the classical Internal Model Control principle, we consider these external states as disturbances and introduce Hybrid Internal Model (HIM) to estimate them according to the response of the robot. The response, which we refer to as the hybrid internal embedding, contains the robot's explicit velocity and implicit stability representation, corresponding to two primary goals for locomotion tasks: explicitly tracking velocity and implicitly maintaining stability. We use contrastive learning to optimize the embedding to be close to the robot's successor state, in which the response is naturally embedded. HIM has several appealing benefits: It only needs the robot's proprioceptions, i.e., those from joint encoders and IMU as observations. It innovatively maintains consistent observations between simulation reference and reality that avoids information loss in mimicking learning. It exploits batch-level information that is more robust to noises and keeps better sample efficiency. It only requires 1 hour of training on an RTX 4090 to enable a quadruped robot to traverse any terrain under any disturbances. A wealth of real-world experiments demonstrates its agility, even in high-difficulty tasks and cases never occurred during the training process, revealing remarkable open-world generalizability.
翻訳日:2023-12-20 18:58:12 公開日:2023-12-18
# volumediffusion:効率的なボリュームエンコーダを用いた柔軟なテキストから3d生成

VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder ( http://arxiv.org/abs/2312.11459v1 )

ライセンス: Link先を確認
Zhicong Tang, Shuyang Gu, Chunyu Wang, Ting Zhang, Jianmin Bao, Dong Chen, Baining Guo(参考訳) 本稿では,テキストから3D生成のための3次元ボリュームエンコーダを提案する。 拡散モデルのトレーニングデータをスケールアップするために,マルチビュー画像から特徴量の効率よく取得する軽量ネットワークを開発した。 3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。 本研究では,不正確なオブジェクトキャプションと高次元特徴ボリュームの課題をさらに解決する。 提案モデルは、公開のobjaverseデータセットでトレーニングされ、テキストプロンプトから多様で認識可能なサンプルを生成する際の有望な結果を示している。 特に、テキストの手がかりを通じてオブジェクトの部分の特徴をより細かく制御し、1つのオブジェクトに複数の概念をシームレスに組み合わせることで、モデルの創造性を育む。 本研究は,効率的でフレキシブルでスケーラブルな表現手法を導入することで,3次元生成の進展に大きく貢献する。 コードはhttps://github.com/tzco/volumediffusionで入手できる。

This paper introduces a pioneering 3D volumetric encoder designed for text-to-3D generation. To scale up the training data for the diffusion model, a lightweight network is developed to efficiently acquire feature volumes from multi-view images. The 3D volumes are then trained on a diffusion model for text-to-3D generation using a 3D U-Net. This research further addresses the challenges of inaccurate object captions and high-dimensional feature volumes. The proposed model, trained on the public Objaverse dataset, demonstrates promising outcomes in producing diverse and recognizable samples from text prompts. Notably, it empowers finer control over object part characteristics through textual cues, fostering model creativity by seamlessly combining multiple concepts within a single object. This research significantly contributes to the progress of 3D generation by introducing an efficient, flexible, and scalable representation methodology. Code is available at https://github.com/tzco/VolumeDiffusion.
翻訳日:2023-12-20 18:57:46 公開日:2023-12-18
# GauFRe: リアルタイム動的新規ビュー合成のためのガウス変形場

GauFRe: Gaussian Deformation Fields for Real-time Dynamic Novel View Synthesis ( http://arxiv.org/abs/2312.11458v1 )

ライセンス: Link先を確認
Yiqing Liang, Numair Khan, Zhengqin Li, Thu Nguyen-Phuoc, Douglas Lanman, James Tompkin, Lei Xiao(参考訳) モノクロ映像に適した変形可能な3次元ガウスを用いた動的シーン再構成手法を提案する。 ガウススプラッティングの効率性に基づいて,本手法は多層パーセプトロン (MLP) によって定義される時間依存変形場と標準空間に居住するガウスの変形可能な集合を通して,動的要素に対応するための表現を拡張する。 さらに、ほとんどの自然シーンが静的に残る大きな領域を持つという仮定の下で、mlpは静的ガウス点クラウドを含むことにより、その表現力に集中することができる。 連結された動的および静的な点雲はガウススプラッティングラスタライザの入力を形成し、リアルタイムレンダリングを可能にする。 差別化可能なパイプラインは、セルフ教師付きレンダリング損失でエンドツーエンドに最適化されている。 本手法は,最先端の動的ニューラルネットワークラミアンスフィールド法に匹敵する結果を得るとともに,より高速な最適化とレンダリングを実現する。 プロジェクトwebサイト: https://lynl7130.github.io/gaufre/index.html

We propose a method for dynamic scene reconstruction using deformable 3D Gaussians that is tailored for monocular video. Building upon the efficiency of Gaussian splatting, our approach extends the representation to accommodate dynamic elements via a deformable set of Gaussians residing in a canonical space, and a time-dependent deformation field defined by a multi-layer perceptron (MLP). Moreover, under the assumption that most natural scenes have large regions that remain static, we allow the MLP to focus its representational power by additionally including a static Gaussian point cloud. The concatenated dynamic and static point clouds form the input for the Gaussian Splatting rasterizer, enabling real-time rendering. The differentiable pipeline is optimized end-to-end with a self-supervised rendering loss. Our method achieves results that are comparable to state-of-the-art dynamic neural radiance field methods while allowing much faster optimization and rendering. Project website: https://lynl7130.github.io/gaufre/index.html
翻訳日:2023-12-20 18:57:33 公開日:2023-12-18
# 人間のフィードバックから学ぶギブズ:RLHFのための確率的KL制約フレームワーク

Gibbs Sampling from Human Feedback: A Provable KL- constrained Framework for RLHF ( http://arxiv.org/abs/2312.11456v1 )

ライセンス: Link先を確認
Wei Xiong, Hanze Dong, Chenlu Ye, Han Zhong, Nan Jiang, Tong Zhang(参考訳) 本稿では,RLHF(Reinforcement Learning from Human Feedback)を用いた生成モデルのアライメント過程の理論的枠組みについて考察する。 我々は、標準的な数学的定式化、RLHFの逆KL正規化文脈帯域を考える。 広く応用されているにもかかわらず、この定式化の厳密な理論解析はいまだに開かれていない。 オフラインとオンラインの両方で理論的性質を調べ,有限サンプル理論保証による効率的なアルゴリズムを提案する。 我々の研究は、理論的な洞察とDPO(Direct Preference Optimization)やRSO(Rejection Sampling Optimization)といった既存の実用的なアライメントアルゴリズムを結びつけることによって、理論と実践のギャップを埋める。 さらに、これらの発見と関連は、アライメントアルゴリズムの将来のアルゴリズム設計のための理論的および実践的なコミュニティに新しいツールと洞察を提供する。

This paper studies the theoretical framework of the alignment process of generative models with Reinforcement Learning from Human Feedback (RLHF). We consider a standard mathematical formulation, the reverse-KL regularized contextual bandit for RLHF. Despite its widespread practical application, a rigorous theoretical analysis of this formulation remains open. We investigate its theoretical properties both in offline and online settings and propose efficient algorithms with finite-sample theoretical guarantees. Our work bridges the gap between theory and practice by linking our theoretical insights with existing practical alignment algorithms such as Direct Preference Optimization (DPO) and Rejection Sampling Optimization (RSO). Furthermore, these findings and connections also offer both theoretical and practical communities new tools and insights for future algorithmic design of alignment algorithms.
翻訳日:2023-12-20 18:57:15 公開日:2023-12-18
# 言語支援型3次元シーン理解

Language-Assisted 3D Scene Understanding ( http://arxiv.org/abs/2312.11451v1 )

ライセンス: Link先を確認
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang(参考訳) ポイントクラウドデータセットの規模と品質は、ポイントクラウド学習の進歩を制約している。 近年,マルチモーダル学習の発展に伴い,画像やテキストといった他のモダリティからドメインに依存しない事前知識を取り入れ,ポイントクラウド機能学習を支援することが有望な道のりとなってきた。 既存手法は点雲におけるマルチモーダルコントラストトレーニングと特徴蒸留の有効性を示した。 しかし、ペア三重項データの必要性、教師付き特徴の冗長性とあいまいさ、元の先行事項の破壊など、課題は残る。 本稿では,llmsに基づくテキストエンリッチメントを通じて意味概念を豊かにする,ポイントクラウド機能学習(last-pcl)のための言語支援手法を提案する。 統計的・訓練不要の有意特徴選択により,先行文を妥協することなく,冗長性と特徴次元の削減を実現する。 さらに、テキストコントラストトレーニングがポイントクラウドに与える影響について、詳細な分析も行っています。 提案手法は,3次元セマンティックセグメンテーション,3次元オブジェクト検出,および3次元シーン分類タスクにおいて,意味的に意味のあるポイントクラウドの特徴を学習し,最先端ないし同等のパフォーマンスを実現する。 ソースコードはhttps://github.com/yanmin-wu/LAST-PCLで公開されている。

The scale and quality of point cloud datasets constrain the advancement of point cloud learning. Recently, with the development of multi-modal learning, the incorporation of domain-agnostic prior knowledge from other modalities, such as images and text, to assist in point cloud feature learning has been considered a promising avenue. Existing methods have demonstrated the effectiveness of multi-modal contrastive training and feature distillation on point clouds. However, challenges remain, including the requirement for paired triplet data, redundancy and ambiguity in supervised features, and the disruption of the original priors. In this paper, we propose a language-assisted approach to point cloud feature learning (LAST-PCL), enriching semantic concepts through LLMs-based text enrichment. We achieve de-redundancy and feature dimensionality reduction without compromising textual priors by statistical-based and training-free significant feature selection. Furthermore, we also delve into an in-depth analysis of the impact of text contrastive training on the point cloud. Extensive experiments validate that the proposed method learns semantically meaningful point cloud features and achieves state-of-the-art or comparable performance in 3D semantic segmentation, 3D object detection, and 3D scene classification tasks. The source code is available at https://github.com/yanmin-wu/LAST-PCL.
翻訳日:2023-12-20 18:57:01 公開日:2023-12-18
# Geminiの言語能力について

An In-depth Look at Gemini's Language Abilities ( http://arxiv.org/abs/2312.11444v1 )

ライセンス: Link先を確認
Syeda Nahida Akter, Zichun Yu, Aashiq Muhamed, Tianyue Ou, Alex B\"auerle, \'Angel Alexander Cabrera, Krish Dholakia, Chenyan Xiong, Graham Neubig(参考訳) 最近リリースされたGoogle Geminiクラスは、さまざまなタスクでOpenAI GPTシリーズと競合する結果を総合的に報告した最初のモデルだ。 本稿では,geminiの言語能力について深く検討し,2つの貢献を行った。 まず、再現可能なコードと完全な透過的な結果を備えたOpenAI GPTとGoogle Geminiモデルの能力の客観的比較を行う。 次に、2つのモデルクラスのうちの1つが優れている領域を特定する。 我々は、推論、知識に基づく質問への回答、数学の問題解決、言語間の翻訳、コード生成、命令追従エージェントとしての役割など、さまざまな言語能力をテストする10以上のデータセットを分析します。 この分析から、Gemini Proは、ベンチマークした全てのタスクにおいて、対応するGPT 3.5 Turboよりも近いがわずかに劣る精度を実現していることがわかった。 我々はさらに,数桁数による数学的推論の失敗,複数項目の回答順序に対する感度,積極的なコンテンツフィルタリングなど,この低パフォーマンスのいくつかの説明を提供する。 また,非英語言語への生成や,より長く複雑な推論チェーンの処理など,geminiが比較可能なハイパフォーマンスを示す領域も特定した。 コードとデータはhttps://github.com/neulab/gemini-benchmarkにある。

The recently released Google Gemini class of models are the first to comprehensively report results that rival the OpenAI GPT series across a wide variety of tasks. In this paper, we do an in-depth exploration of Gemini's language abilities, making two contributions. First, we provide a third-party, objective comparison of the abilities of the OpenAI GPT and Google Gemini models with reproducible code and fully transparent results. Second, we take a closer look at the results, identifying areas where one of the two model classes excels. We perform this analysis over 10 datasets testing a variety of language abilities, including reasoning, answering knowledge-based questions, solving math problems, translating between languages, generating code, and acting as instruction-following agents. From this analysis, we find that Gemini Pro achieves accuracy that is close but slightly inferior to the corresponding GPT 3.5 Turbo on all tasks that we benchmarked. We further provide explanations for some of this under-performance, including failures in mathematical reasoning with many digits, sensitivity to multiple-choice answer ordering, aggressive content filtering, and others. We also identify areas where Gemini demonstrates comparably high performance, including generation into non-English languages, and handling longer and more complex reasoning chains. Code and data for reproduction can be found at https://github.com/neulab/gemini-benchmark
翻訳日:2023-12-20 18:56:36 公開日:2023-12-18
# 自動誘導デモによるリワードモデルによる3次元ダンス生成の探索

Explore 3D Dance Generation via Reward Model from Automatically-Ranked Demonstrations ( http://arxiv.org/abs/2312.11442v1 )

ライセンス: Link先を確認
Zilin Wang, Haolin Zhuang, Lu Li, Yinmin Zhang, Junjie Zhong, Jun Chen, Yu Yang, Boshi Tang, Zhiyong Wu(参考訳) 本稿では,既存の音楽条件の3Dダンス生成モデルにおいて,探索的3Dダンス生成フレームワークであるE3D2を提案する。 現在のモデルは、探索能力に欠けるため人間の好みを誤認する単調で簡素なダンスシーケンスを生成することが多い。 e3d2フレームワークには、自動ランク付けされたダンスデモからトレーニングされた報酬モデルが含まれており、強化学習プロセスをガイドする。 このアプローチは、エージェントが高品質で多様なダンス運動シーケンスを探索し、生成することを奨励する。 報酬モデルの健全性は理論的および実験的に検証される。 実証実験は、AIST++データセットにおけるE3D2の有効性を実証している。 プロジェクトページ: https://sites.google.com/view/e3d2。

This paper presents an Exploratory 3D Dance generation framework, E3D2, designed to address the exploration capability deficiency in existing music-conditioned 3D dance generation models. Current models often generate monotonous and simplistic dance sequences that misalign with human preferences because they lack exploration capabilities. The E3D2 framework involves a reward model trained from automatically-ranked dance demonstrations, which then guides the reinforcement learning process. This approach encourages the agent to explore and generate high quality and diverse dance movement sequences. The soundness of the reward model is both theoretically and experimentally validated. Empirical experiments demonstrate the effectiveness of E3D2 on the AIST++ dataset. Project Page: https://sites.google.com/view/e3d2.
翻訳日:2023-12-20 18:56:13 公開日:2023-12-18
# 社会学習:大規模言語モデルによる協調学習を目指して

Social Learning: Towards Collaborative Learning with Large Language Models ( http://arxiv.org/abs/2312.11441v1 )

ライセンス: Link先を確認
Amirkeivan Mohtashami, Florian Hartmann, Sian Gooding, Lukas Zilka, Matt Sharifi, Blaise Aguera y Arcas(参考訳) 本稿では,大規模言語モデル (LLM) の文脈における「社会学習」の枠組みを紹介する。 LLM間の知識伝達のための2つのアプローチを提案し,評価する。 最初のシナリオでは、モデルをタスクを教えるための抽象的なプロンプトを生成する。 第2のアプローチでは、モデルが合成例を生成して知識を伝達する。 我々は,これらの手法を多様なデータセットにわたって評価し,プライバシ損失のプロキシとして記憶の定量化を行う。 社会学習に触発されたこれらの手法は、元のデータを低記憶化して有望な結果をもたらす。 特に,これらの手法を用いた性能は,元のラベルとプロンプトを用いた結果に匹敵することを示す。 我々の研究は、LCMの社会的学習の可能性を実証し、ベースラインのアプローチを確立し、将来の研究のために探索されていない領域をいくつか強調する。

We introduce the framework of "social learning" in the context of large language models (LLMs), whereby models share knowledge with each other in a privacy-aware manner using natural language. We present and evaluate two approaches for knowledge transfer between LLMs. In the first scenario, we allow the model to generate abstract prompts aiming to teach the task. In our second approach, models transfer knowledge by generating synthetic examples. We evaluate these methods across diverse datasets and quantify memorization as a proxy for privacy loss. These techniques inspired by social learning yield promising results with low memorization of the original data. In particular, we show that performance using these methods is comparable to results with the use of original labels and prompts. Our work demonstrates the viability of social learning for LLMs, establishes baseline approaches and highlights several unexplored areas for future work.
翻訳日:2023-12-20 18:56:02 公開日:2023-12-18
# 階層的複雑性マッチング学習は皮質領域V2の改良モデルをもたらす

Layerwise complexity-matched learning yields an improved model of cortical area V2 ( http://arxiv.org/abs/2312.11436v1 )

ライセンス: Link先を確認
Nikhil Parthasarathy, Olivier J. H\'enaff, Eero P. Simoncelli(参考訳) 複雑な視覚パターンを認識する人間の能力は、腹側視覚野の連続した領域によって行われる変換によって生じる。 ディープニューラルネットワークは、オブジェクト認識のためのエンドツーエンドを人間の能力に訓練し、階層の後期における神経応答の現在までの最良の記述を提供する。 しかしこれらのネットワークは、従来の手作りのモデルや、コーディングの効率や予測に最適化されたモデルと比べて、初期の段階をうまく説明していない。 さらに、エンド・ツー・エンド学習で使われる勾配バックプロパゲーションは、一般的に生物学的に有意義であると考えられている。 ここでは,これらの制約を克服するために,ボトムアップ型自己監督型学習手法を開発し,各層を独立して運用する。 具体的には,局所的に変形した1対の自然画像パッチ間の特徴の類似性を最大化し,他の画像からサンプリングされたパッチ間で特徴を関連付ける。 重要なことに、変形振幅は各層の受容磁場サイズに比例して調整され、処理の各段階でのタスク複雑性とキャパシティとが一致する。 先行モデルのアーキテクチャマッチング版との比較により,我々は2段階モデル(lcl-v2)を作成し,霊長類領域v2における選択性特性と神経活動との整合性が向上することを示した。 複雑性にマッチした学習パラダイムが,生物的アライメントの改善に不可欠であることを実証する。 最後に、オブジェクト認識を行うために訓練されたディープネットワークの固定フロントエンドとして2段階モデルを使用する場合、結果モデル(LCL-V2Net)は、分布外タスクへの一般化と人間の行動との整合性の観点から、標準のエンドツーエンドの自己監督モデル、教師付きモデル、対角訓練モデルよりも大幅に優れている。

Human ability to recognize complex visual patterns arises through transformations performed by successive areas in the ventral visual cortex. Deep neural networks trained end-to-end for object recognition approach human capabilities, and offer the best descriptions to date of neural responses in the late stages of the hierarchy. But these networks provide a poor account of the early stages, compared to traditional hand-engineered models, or models optimized for coding efficiency or prediction. Moreover, the gradient backpropagation used in end-to-end learning is generally considered to be biologically implausible. Here, we overcome both of these limitations by developing a bottom-up self-supervised training methodology that operates independently on successive layers. Specifically, we maximize feature similarity between pairs of locally-deformed natural image patches, while decorrelating features across patches sampled from other images. Crucially, the deformation amplitudes are adjusted proportionally to receptive field sizes in each layer, thus matching the task complexity to the capacity at each stage of processing. In comparison with architecture-matched versions of previous models, we demonstrate that our layerwise complexity-matched learning (LCL) formulation produces a two-stage model (LCL-V2) that is better aligned with selectivity properties and neural activity in primate area V2. We demonstrate that the complexity-matched learning paradigm is critical for the emergence of the improved biological alignment. Finally, when the two-stage model is used as a fixed front-end for a deep network trained to perform object recognition, the resultant model (LCL-V2Net) is significantly better than standard end-to-end self-supervised, supervised, and adversarially-trained models in terms of generalization to out-of-distribution tasks and alignment with human behavior.
翻訳日:2023-12-20 18:55:48 公開日:2023-12-18
# 多エージェントpomdpにおけるファクタド・オンライン・プランニング

Factored Online Planning in Many-Agent POMDPs ( http://arxiv.org/abs/2312.11434v1 )

ライセンス: Link先を確認
Maris F.L. Galesloot, Thiago D. Simao, Sebastian Junges, Nils Jansen(参考訳) 集中型マルチエージェントシステムでは、しばしばマルチエージェントの部分可観測マルコフ決定プロセス (mpomdps) としてモデル化され、行動空間と観察空間はエージェント数で指数関数的に成長し、シングルエージェントオンライン計画の価値と信念状態の推定が効果的ではない。 事前作業は、いわゆるコーディネーショングラフを通じて、マルチエージェント設定の固有の構造を利用して、部分的に価値見積もりに取り組む。 さらに、近似に観測の可能性を取り入れることで、信念状態の推定が改善された。 しかし、値推定と状態推定の課題は個別にのみ取り組まれており、これらの手法が多くのエージェントへのスケーリングを妨げている。 したがって、これらの課題を同時に解決する。 まず,MPOMDPにおけるサンプルベースオンラインプランナに重み付き粒子フィルタリングを導入する。 第二に、我々は信念状態のスケーラブルな近似を示す。 第3に,sparse particle filter belief tree 上で動作する mpomdps に対して,エージェントインタラクションの典型的な局所性を活用した新たなオンライン計画アルゴリズムを提案する。 提案アルゴリズムは,少数のエージェントで設定を行う場合の競合性能と,多数のエージェントでベンチマークを行う場合の最先端アルゴリズムよりも優れることを示す。

In centralized multi-agent systems, often modeled as multi-agent partially observable Markov decision processes (MPOMDPs), the action and observation spaces grow exponentially with the number of agents, making the value and belief state estimation of single-agent online planning ineffective. Prior work partially tackles value estimation by exploiting the inherent structure of multi-agent settings via so-called coordination graphs. Additionally, belief state estimation has been improved by incorporating the likelihood of observations into the approximation. However, the challenges of value estimation and state estimation have only been tackled individually, which prevents these methods from scaling to many agents. Therefore, we address these challenges simultaneously. First, we introduce weighted particle filtering to sample-based online planners in MPOMDPs. Second, we present a scalable approximation of the belief state. Third, we bring an approach that exploits the typical locality of agent interactions to novel online planning algorithms for MPOMDPs operating on a so-called sparse particle filter belief tree. Our algorithms show competitive performance for settings with only a few agents and outperform state-of-the-art algorithms on benchmarks with many agents.
翻訳日:2023-12-20 18:55:04 公開日:2023-12-18
# 強Rydberg Dressing Regimeにおける多成分猫状態の高速生成

Fast generation of multi-component cat states under the Strong Rydberg Dressing Regime ( http://arxiv.org/abs/2312.11432v1 )

ライセンス: Link先を確認
Mohammadsadegh Khazali(参考訳) この研究は、ライドバーグの強いドレッシング体制における猫の状態形成を探求し、すべての順序の非線形性にもかかわらず猫の状態が出現することを明らかにする。 この未発見の体制は、迅速な猫の状態形成の可能性を示し、特にライドバーグ研究所の2次元格子の操作に有用である。 さらに、ブロックド半径$m=\sqrt{N}$内の原子数によって最大mが決定されるmコヒーレントスピン状態(m-SCSS)の重ね合わせを生成する可能性についても論じる。

The study explores cat state formation in the strong Rydberg dressing regime, uncovering the emergence of cat states despite the presence of all orders of nonlinearities. This unexplored regime demonstrates potential for rapid cat state formation, particularly beneficial for operation in 2D lattices in Rydberg labs. Additionally, the paper discusses the potential for creating a superposition of m coherent spin states (m-SCSS), where the maximum m is determined by the number of atoms within the blockade radius $m=\sqrt{N}$.
翻訳日:2023-12-20 18:54:44 公開日:2023-12-18
# Make It Make Sense! 計算ノートのセンスメイキングの理解と促進

Make It Make Sense! Understanding and Facilitating Sensemaking in Computational Notebooks ( http://arxiv.org/abs/2312.11431v1 )

ライセンス: Link先を確認
Souti Chattopadhyay, Zixuan Feng, Emily Arteaga, Audrey Au, Gonzalo Ramos, Titus Barik, Anita Sarma(参考訳) 他の科学者の計算ノートの再利用と利用。 しかし、これらの参照ノートブックはしばしば探索的であり、乱雑な構造を持ち、複数の代替物を含み、説明がほとんどないため、既存のノートブックを理解することは困難である。 これらの問題を緩和するために,感覚形成過程に関連する認知的タスクのカタログを開発した。 このカタログを利用して,計算ノートにインタラクティブオーバーレイするporpoiseを提案する。 porpoiseは計算ノートブックの機能をデジタルデザインと統合し、セルをラベル付きセクションにグループ化し、拡張、崩壊、あるいはセンスメイキングの改善のために注釈をつける。 本研究では,不慣れな計算ノートを用いたデータ科学者のニーズを調査し,ポルポア適応が理解過程に与える影響について検討した。 24人のデータサイエンティストによる対照研究では、ポルポアズの拡張コード理解が発見され、ある参加者が本を読むのが本当に好きだと説明し、本を読むのとよく似た体験になりました。

Reusing and making sense of other scientists' computational notebooks. However, making sense of existing notebooks is a struggle, as these reference notebooks are often exploratory, have messy structures, include multiple alternatives, and have little explanation. To help mitigate these issues, we developed a catalog of cognitive tasks associated with the sensemaking process. Utilizing this catalog, we introduce Porpoise: an interactive overlay on computational notebooks. Porpoise integrates computational notebook features with digital design, grouping cells into labeled sections that can be expanded, collapsed, or annotated for improved sensemaking. We investigated data scientists' needs with unfamiliar computational notebooks and investigated the impact of Porpoise adaptations on their comprehension process. Our counterbalanced study with 24 data scientists found Porpoise enhanced code comprehension, making the experience more akin to reading a book, with one participant describing it as It's really like reading a book.
翻訳日:2023-12-20 18:54:32 公開日:2023-12-18
# 機能の選択をいつ信頼できますか? --I:LASSOの条件に基づく解析と近似の一般化硬度

When can you trust feature selection? -- I: A condition-based analysis of LASSO and generalised hardness of approximation ( http://arxiv.org/abs/2312.11425v1 )

ライセンス: Link先を確認
Alexander Bastounis, Felipe Cucker, Anders C. Hansen(参考訳) 幻覚と非ロマンス性の可能性を持つ計算におけるAI技術の到来は、アルゴリズムの信頼性を焦点にしている。 しかし、多くの古典的アプローチの信頼性はよく分かっていない。 これは、科学、統計、機械学習などにおける古典的な問題である特徴選択のケースである。 ここでは、LASSO最適化問題は標準である。 広く利用されているにもかかわらず、機能選択を行うためにLASSOのミニミサのサポートセットを計算しようとするアルゴリズムの出力が信頼されるのは定かではない。 本稿では,全ての入力に作用する(ランダム化された)アルゴリズムが,精度や計算能力に関わらず,近似入力を読み取る際に,LASSOのミニミサの正しいサポートセット(確率$>1/2$)を決定する方法を確立する。 しかし、入力データが条件番号の次元と対数における時間多項式において十分(有限条件数)であるならば、LASSO条件数を定義し、これらのサポートセットを計算するための効率的なアルゴリズムを設計する。 不正な入力の場合、アルゴリズムは永久に実行されるため、間違った答えを生成することはない。 さらに、このアルゴリズムは、条件数に対する上限を有限であるときに計算する。 最後に、無限条件数を持つ点を含む開集合上で定義される任意のアルゴリズムに対して、アルゴリズムが永久に実行されるか間違った解を生成するような入力が存在する。 我々の不合理性は、近似の硬さの古典的な現象を一般化する一般化された硬さ(Solvability Complexity Index (SCI) 階層フレームワーク)から生じる。

The arrival of AI techniques in computations, with the potential for hallucinations and non-robustness, has made trustworthiness of algorithms a focal point. However, trustworthiness of the many classical approaches are not well understood. This is the case for feature selection, a classical problem in the sciences, statistics, machine learning etc. Here, the LASSO optimisation problem is standard. Despite its widespread use, it has not been established when the output of algorithms attempting to compute support sets of minimisers of LASSO in order to do feature selection can be trusted. In this paper we establish how no (randomised) algorithm that works on all inputs can determine the correct support sets (with probability $> 1/2$) of minimisers of LASSO when reading approximate input, regardless of precision and computing power. However, we define a LASSO condition number and design an efficient algorithm for computing these support sets provided the input data is well-posed (has finite condition number) in time polynomial in the dimensions and logarithm of the condition number. For ill-posed inputs the algorithm runs forever, hence, it will never produce a wrong answer. Furthermore, the algorithm computes an upper bound for the condition number when this is finite. Finally, for any algorithm defined on an open set containing a point with infinite condition number, there is an input for which the algorithm will either run forever or produce a wrong answer. Our impossibility results stem from generalised hardness of approximation -- within the Solvability Complexity Index (SCI) hierarchy framework -- that generalises the classical phenomenon of hardness of approximation.
翻訳日:2023-12-20 18:54:16 公開日:2023-12-18
# StyleGANによる画像編集のための残像のウォーキング

Warping the Residuals for Image Editing with StyleGAN ( http://arxiv.org/abs/2312.11422v1 )

ライセンス: Link先を確認
Ahmet Burak Yildirim, Hamza Pehlivan, Aysegul Dundar(参考訳) StyleGANモデルは、実際の画像の編集にGANインバージョンメソッドを成功させる必要のある、意味論的に解釈可能な潜在組織を介して編集機能を示す。 StyleGANの潜伏空間に画像を反転させる多くの研究が提案されている。 しかし、これらの結果は入力画像への忠実度が低いか、編集品質が低いか、特に大きな変換を必要とする編集に悩まされる。 これは、編集可能な空間を提供するにもかかわらず、情報ボトルネックのため、低レートの遅延空間が多くの画像の詳細を失うためである。 一方、高速度の潜在空間は、画像の完全な再構成のためにすべての画像詳細をstyleganに渡すことができるが、編集品質は低い。 本稿では,高速度潜伏特徴を抽出し,これらの特徴を編集に適応させるために警告するフロー推定モジュールを含む,新しい画像インバージョンアーキテクチャを提案する。 フローは、編集および未編集の潜伏符号のスタイルGAN特徴から推定される。 高いレートの機能を推定し、編集のために警告することで、入力画像に対する忠実度と高品質の編集を両立させる。 広範な実験を行い,その手法を最先端のインバージョン法と比較した。 質的指標と視覚的比較は大幅な改善を示している。

StyleGAN models show editing capabilities via their semantically interpretable latent organizations which require successful GAN inversion methods to edit real images. Many works have been proposed for inverting images into StyleGAN's latent space. However, their results either suffer from low fidelity to the input image or poor editing qualities, especially for edits that require large transformations. That is because low-rate latent spaces lose many image details due to the information bottleneck even though it provides an editable space. On the other hand, higher-rate latent spaces can pass all the image details to StyleGAN for perfect reconstruction of images but suffer from low editing qualities. In this work, we present a novel image inversion architecture that extracts high-rate latent features and includes a flow estimation module to warp these features to adapt them to edits. The flows are estimated from StyleGAN features of edited and unedited latent codes. By estimating the high-rate features and warping them for edits, we achieve both high-fidelity to the input image and high-quality edits. We run extensive experiments and compare our method with state-of-the-art inversion methods. Qualitative metrics and visual comparisons show significant improvements.
翻訳日:2023-12-20 18:53:48 公開日:2023-12-18
# 注意のチューニング層ノルム:効率的なマルチモーダルllm微調整に向けて

Tuning LayerNorm in Attention: Towards Efficient Multi-Modal LLM Finetuning ( http://arxiv.org/abs/2312.11420v1 )

ライセンス: Link先を確認
Bingchen Zhao, Haoqin Tu, Chen Wei, Jieru Mei, Cihang Xie(参考訳) 本稿では,Large Language Models(LLM)をMLLM(Multi-Modal Large Language Models)に変換するための効率的な戦略を提案する。 この変換を、テキスト理解から複数のモダリティの受け入れへと移行するドメイン適応プロセスとして概念化することで、各アテンションブロック内で、レイヤノルムのチューニングが強力なパフォーマンスをもたらすことに興味深いことに気付きます。 さらに、フルパラメータファインタニングやLoRAといった他のチューニングアプローチと比較した場合、その効率性に対するメリットはかなり大きい。 例えば、13BモデルスケールのLoRAと比較して、パフォーマンスは5つのマルチモーダルタスクで平均20%以上向上し、トレーニング可能なパラメータを41.9%削減し、GPUメモリ使用率を17.6%削減することができる。 このLayerNorm戦略に加えて、対話データのみを選択的にチューニングすることで、効率をさらに向上できることを示す。 これらの経験的結果の他に、マルチモーダル領域へのLLMの適用とモデルの表現力向上におけるLayerNormの役割を総合的に分析する。

This paper introduces an efficient strategy to transform Large Language Models (LLMs) into Multi-Modal Large Language Models (MLLMs). By conceptualizing this transformation as a domain adaptation process, i.e., transitioning from text understanding to embracing multiple modalities, we intriguingly note that, within each attention block, tuning LayerNorm suffices to yield strong performance. Moreover, when benchmarked against other tuning approaches like full parameter finetuning or LoRA, its benefits on efficiency are substantial. For example, when compared to LoRA on a 13B model scale, performance can be enhanced by an average of over 20% across five multi-modal tasks, and meanwhile, results in a significant reduction of trainable parameters by 41.9% and a decrease in GPU memory usage by 17.6%. On top of this LayerNorm strategy, we showcase that selectively tuning only with conversational data can improve efficiency further. Beyond these empirical outcomes, we provide a comprehensive analysis to explore the role of LayerNorm in adapting LLMs to the multi-modal domain and improving the expressive power of the model.
翻訳日:2023-12-20 18:53:31 公開日:2023-12-18
# 物体中心運動セグメンテーションのための外観ベースリファインメント

Appearance-based Refinement for Object-Centric Motion Segmentation ( http://arxiv.org/abs/2312.11463v1 )

ライセンス: Link先を確認
Junyu Xie, Weidi Xie, Andrew Zisserman(参考訳) 本研究の目的は,複雑な視覚シーンにおける独立して動く物体の発見,セグメント化,追跡である。 従来のアプローチでは、動きのセグメンテーションに光の流れを用いることが検討されており、部分的な動き、背景の注意散らし、物体の関節と相互作用による不完全な予測につながっている。 この問題に対処するために,ビデオストリームの時間的一貫性を活用し,不正確なフローベース提案を補正する外観改善手法を提案する。 提案手法は,正確なフロー予測マスクを例示として識別する簡易な選択機構と,問題のあるマスクを例示情報に基づいて洗練するオブジェクト中心アーキテクチャを含む。 このモデルは、合成データに基づいて事前訓練され、実際のビデオに自己監督的に適応し、人間のアノテーションを必要としない。 パフォーマンスは、davis、youtubevos、segtrackv2、fbms-59を含む複数のビデオセグメンテーションベンチマークで評価される。 単一対象セグメンテーションにおける競合性能は高いが,複数対象セグメンテーションの課題では既存モデルよりも優れていた。 最後に、フレームごとのセグメンテーションモデルに対するプロンプトとして、我々のモデルを使用することの利点について検討する。

The goal of this paper is to discover, segment, and track independently moving objects in complex visual scenes. Previous approaches have explored the use of optical flow for motion segmentation, leading to imperfect predictions due to partial motion, background distraction, and object articulations and interactions. To address this issue, we introduce an appearance-based refinement method that leverages temporal consistency in video streams to correct inaccurate flow-based proposals. Our approach involves a simple selection mechanism that identifies accurate flow-predicted masks as exemplars, and an object-centric architecture that refines problematic masks based on exemplar information. The model is pre-trained on synthetic data and then adapted to real-world videos in a self-supervised manner, eliminating the need for human annotations. Its performance is evaluated on multiple video segmentation benchmarks, including DAVIS, YouTubeVOS, SegTrackv2, and FBMS-59. We achieve competitive performance on single-object segmentation, while significantly outperforming existing models on the more challenging problem of multi-object segmentation. Finally, we investigate the benefits of using our model as a prompt for a per-frame Segment Anything Model.
翻訳日:2023-12-20 18:42:37 公開日:2023-12-18
# より高速なLDM推論のためのカスケード投機

Cascade Speculative Drafting for Even Faster LLM Inference ( http://arxiv.org/abs/2312.11462v1 )

ライセンス: Link先を確認
Ziyi Chen, Xiaocong Yang, Jiacheng Lin, Chenkai Sun, Jie Huang, Kevin Chen-Chuan Chang(参考訳) 投機的復号化は、ドラフトモデルを利用して、より大きなターゲットモデルをレビューするためのドラフトを作成することにより、大規模言語モデル(llm)の効率を高める。 しかし、投機的復号法における起草には、自己回帰生成が遅くなり、同じ時間割当で異なる重要性のトークンが生成される。 この2つの非効率さは、その準最適性能につながる。 この問題に対処するために,2種類のカスケードを用いた新しいアプローチであるカスケード投機ドラフト(CS. Drafting)を紹介する。 垂直カスケードは神経モデルから自己回帰生成を除去する。 水平方向カスケードは, 設計時の効率的な時間割当を構成し, その最適性は理論解析によって支持される。 どちらのカスケードも組み合わせて、CSです。 ドラフトアルゴリズムは,同じ出力分布を維持しながら,投機的復号よりも最大72パーセントの高速化を達成している。

Speculative decoding enhances the efficiency of large language models (LLMs) by leveraging a draft model to draft for a larger target model to review. However, drafting in speculative decoding involves slow autoregressive generation and generating tokens of different importance with the same time allocation. These two inefficiencies lead to its suboptimal performance. To address this issue, we introduce Cascade Speculative Drafting (CS. Drafting), a novel approach that employs two types of cascades. The Vertical Cascade eliminates autoregressive generation from neural models. The Horizontal Cascade constitutes efficient time allocation in drafting with its optimality supported by our theoretical analysis. Combining both cascades, our CS. Drafting algorithm has achieved up to 72 percent additional speedup over speculative decoding in our experiments while keeping the same output distribution.
翻訳日:2023-12-20 18:42:14 公開日:2023-12-18
# gavatar: 暗黙のメッシュ学習による3次元ガウスアバター

GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning ( http://arxiv.org/abs/2312.11461v1 )

ライセンス: Link先を確認
Ye Yuan, Xueting Li, Yangyi Huang, Shalini De Mello, Koki Nagano, Jan Kautz, Umar Iqbal(参考訳) ガウススプラッティングは、明示的(メッシュ)と暗黙的(NeRF)の両方の3D表現の利点を利用する強力な3D表現として登場した。 本稿では,メッシュやNeRFに基づく表現によって課される制限(柔軟性や効率性など)に対処するため,ガウススプラッティングを利用してテキスト記述から現実的なアニマタブルアバターを生成する。 しかし、ガウス・スプレーティングの素直な応用は、高品質のアニメーション可能なアバターを生成できず、不安定な学習に苦しむ。 これらの問題に対処するために,まず,ポーズ駆動型プリミティブ内でガウスが定義され,アニメーションを容易にするプリミティブベースの3次元ガウス表現を提案する。 第2に,数百万ガウスの学習を安定させ,償却するために,神経的暗黙的場を用いてガウスの属性(例えば色)を予測することを提案する。 最後に,細かなアバタージオメトリを捕捉し,詳細なメッシュを抽出するために,基礎となるジオメトリを規則化し,高度に詳細なテクスチャー化されたメッシュを抽出する3次元ガウス系のための,新しいsdfベースの暗黙的メッシュ学習手法を提案する。 提案手法であるGAvatarは,テキストプロンプトのみを用いて,多様なアニマタブルアバターを大規模に生成する。 GAvatarは外観と幾何学的品質の両方で既存の手法を大幅に上回り、1K解像度で非常に高速なレンダリング(100 fps)を実現している。

Gaussian splatting has emerged as a powerful 3D representation that harnesses the advantages of both explicit (mesh) and implicit (NeRF) 3D representations. In this paper, we seek to leverage Gaussian splatting to generate realistic animatable avatars from textual descriptions, addressing the limitations (e.g., flexibility and efficiency) imposed by mesh or NeRF-based representations. However, a naive application of Gaussian splatting cannot generate high-quality animatable avatars and suffers from learning instability; it also cannot capture fine avatar geometries and often leads to degenerate body parts. To tackle these problems, we first propose a primitive-based 3D Gaussian representation where Gaussians are defined inside pose-driven primitives to facilitate animation. Second, to stabilize and amortize the learning of millions of Gaussians, we propose to use neural implicit fields to predict the Gaussian attributes (e.g., colors). Finally, to capture fine avatar geometries and extract detailed meshes, we propose a novel SDF-based implicit mesh learning approach for 3D Gaussians that regularizes the underlying geometries and extracts highly detailed textured meshes. Our proposed method, GAvatar, enables the large-scale generation of diverse animatable avatars using only text prompts. GAvatar significantly surpasses existing methods in terms of both appearance and geometry quality, and achieves extremely fast rendering (100 fps) at 1K resolution.
翻訳日:2023-12-20 18:41:59 公開日:2023-12-18
# 内因的分解とポーズ制御を備えた快楽性ニューラルアクタ

Relightable Neural Actor with Intrinsic Decomposition and Pose Control ( http://arxiv.org/abs/2312.11587v1 )

ライセンス: Link先を確認
Diogo Luvizon and Vladislav Golyanik and Adam Kortylewski and Marc Habermann and Christian Theobalt(参考訳) ライティング、ドライビング、フォトリアリスティックなデジタル人間のアバターを作ることは、ビジョンとグラフィックにおいて困難で重要な問題である。 人間は、自己シャドウやしわのようなポーズ依存の外観効果を生み出し、肌や衣服は複雑で空間的なbrdfモデルを必要とする。 近年のヒューマン・リライト・アプローチは、多視点ビデオから可能な物質光分解を回復するが、それらは新しいポーズに一般化せず、まだ視覚的なアーティファクトに苦しむ。 そこで本研究では,リライティングが可能で,外観編集が可能で,任意の骨格ポーズで制御可能な,フォトリアリスティックなニューラルヒューマンモデルを学ぶための,最初のビデオベース手法であるRelightable Neural Actorを提案する。 重要なことは、人間のアバターを学習するためには、既知のが静的な照明条件下での人間の多視点記録のみが必要である。 これを実現するために,ポーズ依存の衣料変形をモデル化し,正常,視認性,材料を符号化した3d空間とuv空間のマッピングを提供する,divable density fieldのアクタの形状を表現する。 実際のシナリオにおける我々のアプローチを評価するために、屋内と屋外の異なる光条件下で記録された4人のアクターによる新しいデータセットを収集し、その種の人間のライティングのための最初のベンチマークを提供し、新しい人間のポーズに対する最先端のライティング結果を実証する。

Creating a digital human avatar that is relightable, drivable, and photorealistic is a challenging and important problem in Vision and Graphics. Humans are highly articulated creating pose-dependent appearance effects like self-shadows and wrinkles, and skin as well as clothing require complex and space-varying BRDF models. While recent human relighting approaches can recover plausible material-light decompositions from multi-view video, they do not generalize to novel poses and still suffer from visual artifacts. To address this, we propose Relightable Neural Actor, the first video-based method for learning a photorealistic neural human model that can be relighted, allows appearance editing, and can be controlled by arbitrary skeletal poses. Importantly, for learning our human avatar, we solely require a multi-view recording of the human under a known, but static lighting condition. To achieve this, we represent the geometry of the actor with a drivable density field that models pose-dependent clothing deformations and provides a mapping between 3D and UV space, where normal, visibility, and materials are encoded. To evaluate our approach in real-world scenarios, we collect a new dataset with four actors recorded under different light conditions, indoors and outdoors, providing the first benchmark of its kind for human relighting, and demonstrating state-of-the-art relighting results for novel human poses.
翻訳日:2023-12-20 18:24:13 公開日:2023-12-18
# contranovo:de novoペプチドシークエンシング強化のためのコントラスト学習アプローチ

ContraNovo: A Contrastive Learning Approach to Enhance De Novo Peptide Sequencing ( http://arxiv.org/abs/2312.11584v1 )

ライセンス: Link先を確認
Zhi Jin, Sheng Xu, Xiang Zhang, Tianze Ling, Nanqing Dong, Wanli Ouyang, Zhiqiang Gao, Cheng Chang, Siqi Sun(参考訳) 質量分析(MS)データからのデノボペプチドの塩基配列決定は、プロテオミクス研究において重要な課題である。 従来のde novoアルゴリズムは、プロテオミクスデータ固有の複雑さのために、精度のボトルネックに直面している。 深層学習に基づく手法は進歩しているものの、スペクトルとペプチド間の重要なニュアンスを見落とし、翻訳タスクに問題を還元する。 本研究では,コントラノボ(ContraNovo)という,コントラスト学習を利用してスペクトルとペプチドの関係を抽出し,質量情報をペプチドデコーディングに組み込む手法を提案する。 2つのベンチマークデータセットの厳密な評価を通じて、ContraNovoは一貫して現代の最先端のソリューションを誇示し、de novoペプチドシークエンシングの可能性を秘めている。 ソースコードはhttps://github.com/BEAM-Labs/ContraNovoで入手できる。

De novo peptide sequencing from mass spectrometry (MS) data is a critical task in proteomics research. Traditional de novo algorithms have encountered a bottleneck in accuracy due to the inherent complexity of proteomics data. While deep learning-based methods have shown progress, they reduce the problem to a translation task, potentially overlooking critical nuances between spectra and peptides. In our research, we present ContraNovo, a pioneering algorithm that leverages contrastive learning to extract the relationship between spectra and peptides and incorporates the mass information into peptide decoding, aiming to address these intricacies more efficiently. Through rigorous evaluations on two benchmark datasets, ContraNovo consistently outshines contemporary state-of-the-art solutions, underscoring its promising potential in enhancing de novo peptide sequencing. The source code is available at https://github.com/BEAM-Labs/ContraNovo.
翻訳日:2023-12-20 18:23:46 公開日:2023-12-18
# AIに基づくエネルギー輸送安全:インテリジェントセンシングシステムを用いたパイプラインラジアル脅威推定

AI-Based Energy Transportation Safety: Pipeline Radial Threat Estimation Using Intelligent Sensing System ( http://arxiv.org/abs/2312.11583v1 )

ライセンス: Link先を確認
Chengyuan Zhu, Yiyuan Yang, Kaixiang Yang, Haifeng Zhang, Qinmin Yang, C. L. Philip Chen(参考訳) 人工知能技術の応用は、特に外部の脅威に対する防御において、エネルギーパイプラインの安全性を大幅に強化し、強化している。 主な方法は、外部振動を検出するためのインテリジェントセンサーの統合、イベントタイプや位置の識別、手作業による検出方法の置き換えなどである。 しかし、実用的な実装は、脅威イベントの認証を複雑にする外部信号の空間的寸法を正確に識別する能力を制限する現在の方法の限界を露呈している。 本研究は,より詳細な認識と局所化を実現するために,深層学習技術を活用することで,上記の課題を克服しようとするものである。 この改良はパイプラインの真の脅威を効果的に識別するために不可欠であり、エネルギー輸送の安全性を高める。 本稿では,分散光ファイバーセンシング技術に基づくエネルギーパイプラインの放射状脅威推定手法を提案する。 具体的には,包括的信号特徴を抽出し,脅威推定・認識ネットワークを構築するための連続的マルチビュー・マルチドメイン特徴融合手法を提案する。 収集した音響信号データの利用を最適化し,基礎となる原理を解明する。 さらに,事前学習モデルによる伝達学習の概念を取り入れ,認識精度と学習効率の両立を図る。 実世界のシナリオから収集された実証的証拠は,本手法の有効性,特に誤報の大幅な低減と認識精度の顕著な向上を裏付けるものである。 より一般的に,本手法は汎用性を示し,広い範囲の認識タスクやシナリオに当てはめることができる。

The application of artificial intelligence technology has greatly enhanced and fortified the safety of energy pipelines, particularly in safeguarding against external threats. The predominant methods involve the integration of intelligent sensors to detect external vibration, enabling the identification of event types and locations, thereby replacing manual detection methods. However, practical implementation has exposed a limitation in current methods - their constrained ability to accurately discern the spatial dimensions of external signals, which complicates the authentication of threat events. Our research endeavors to overcome the above issues by harnessing deep learning techniques to achieve a more fine-grained recognition and localization process. This refinement is crucial in effectively identifying genuine threats to pipelines, thus enhancing the safety of energy transportation. This paper proposes a radial threat estimation method for energy pipelines based on distributed optical fiber sensing technology. Specifically, we introduce a continuous multi-view and multi-domain feature fusion methodology to extract comprehensive signal features and construct a threat estimation and recognition network. The utilization of collected acoustic signal data is optimized, and the underlying principle is elucidated. Moreover, we incorporate the concept of transfer learning through a pre-trained model, enhancing both recognition accuracy and training efficiency. Empirical evidence gathered from real-world scenarios underscores the efficacy of our method, notably in its substantial reduction of false alarms and remarkable gains in recognition accuracy. More generally, our method exhibits versatility and can be extrapolated to a broader spectrum of recognition tasks and scenarios.
翻訳日:2023-12-20 18:23:30 公開日:2023-12-18
# shapley-pc:shapley値を用いた制約に基づく因果構造学習

Shapley-PC: Constraint-based Causal Structure Learning with Shapley Values ( http://arxiv.org/abs/2312.11582v1 )

ライセンス: Link先を確認
Fabrizio Russo and Francesca Toni(参考訳) データセット内の変数間の因果関係を抽出するための因果構造学習(csl)は、堅牢で透明なモデルへの重要なステップとして広く認識されている。 制約ベースのCSLは条件付き独立テストを利用して因果発見を行う。 そこで本研究では,制約に基づくcslアルゴリズムを改善するための新しい手法であるshapley-pcを提案する。 CSLの標準指標によれば、音質と漸近的な一貫性を証明し、最先端の制約ベース、検索ベース、機能的因果モデルに基づく手法より優れていることを示す。

Causal Structure Learning (CSL), amounting to extracting causal relations among the variables in a dataset, is widely perceived as an important step towards robust and transparent models. Constraint-based CSL leverages conditional independence tests to perform causal discovery. We propose Shapley-PC, a novel method to improve constraint-based CSL algorithms by using Shapley values over the possible conditioning sets to decide which variables are responsible for the observed conditional (in)dependences. We prove soundness and asymptotic consistency and demonstrate that it can outperform state-of-the-art constraint-based, search-based and functional causal model-based methods, according to standard metrics in CSL.
翻訳日:2023-12-20 18:23:06 公開日:2023-12-18
# スコアを守る:差分プライバシー保証付き連絡先追跡

Protect Your Score: Contact Tracing With Differential Privacy Guarantees ( http://arxiv.org/abs/2312.11581v1 )

ライセンス: Link先を確認
Rob Romijnders, Christos Louizos, Yuki M. Asano, Max Welling(参考訳) 2020年と2021年のパンデミックは、経済と社会に大きな影響をもたらし、研究は、接触追跡アルゴリズムがウイルスの早期封じ込めの鍵であることを示している。 より効果的なコンタクトトレースアルゴリズムに向けて、大きな努力が続けられていますが、プライバシーに関する懸念が現在、デプロイを後退させています。 接触追跡アルゴリズムの本質は、リスクスコアの通信を構成する。 しかし、相手が個人個人の健康状態を測定するために利用できるのは、まさにこのスコアのコミュニケーションとリリースである。 我々は、現実的な攻撃シナリオを特定し、この攻撃に対して差分プライバシー保証を持つ接触追跡アルゴリズムを提案する。 このアルゴリズムは2つの最も広く使われているエージェントベースのCOVID19シミュレータでテストされ、幅広い設定で優れた性能を示す。 特に現実的なテストシナリオでは、それぞれのリスクスコアをepsilon=1差分プライバシでリリースしながら、ウイルスの感染率を2倍から10倍に削減します。 我々の知る限り、COVID-19のリスクスコアを明らかにする際に、差分プライバシーを保証する最初の接触追跡アルゴリズムを示す。

The pandemic in 2020 and 2021 had enormous economic and societal consequences, and studies show that contact tracing algorithms can be key in the early containment of the virus. While large strides have been made towards more effective contact tracing algorithms, we argue that privacy concerns currently hold deployment back. The essence of a contact tracing algorithm constitutes the communication of a risk score. Yet, it is precisely the communication and release of this score to a user that an adversary can leverage to gauge the private health status of an individual. We pinpoint a realistic attack scenario and propose a contact tracing algorithm with differential privacy guarantees against this attack. The algorithm is tested on the two most widely used agent-based COVID19 simulators and demonstrates superior performance in a wide range of settings. Especially for realistic test scenarios and while releasing each risk score with epsilon=1 differential privacy, we achieve a two to ten-fold reduction in the infection rate of the virus. To the best of our knowledge, this presents the first contact tracing algorithm with differential privacy guarantees when revealing risk scores for COVID19.
翻訳日:2023-12-20 18:22:50 公開日:2023-12-18
# PlaNet-S: 胎盤の自動セマンティックセグメンテーション

PlaNet-S: Automatic Semantic Segmentation of Placenta ( http://arxiv.org/abs/2312.11580v1 )

ライセンス: Link先を確認
Shinnosuke Yamamoto, Isso Saito, Eichi Takaya, Ayaka Harigai, Tomomi Sato, Tomoya Kobayashi, Kei Takase, Takuya Ueda(参考訳) [目的]アンサンブル学習を通じてU-NetとSegNeXtアーキテクチャを統合する完全に自動化されたセマンティックプレースンタセグメンテーションモデルを開発する。 方法〕mriを施行した胎盤異常の疑いのある妊婦218名を登録し,胎盤分割のための深部学習モデルを開発するための注釈付き画像1090点を得た。 画像は標準化され、トレーニングとテストセットに分割された。 U-NetとSegNeXtをアンサンブルフレームワークに統合したPlaNet-Sの性能は、Intersection over Union(IoU)と接続コンポーネント(CCC)をU-Netモデルと比較して評価した。 結果]PlaNet-SはU-Net (0.78 +/0.010) よりもIoU (0.73 +/- 0.13) が有意に高かった(p<0.01。 PlaNet-S の CCC は U-Net の 86.0\% と 56.7\% で一致した (p<0.01) 。 結論]PlaNet-Sは胎盤分割タスクにおいて従来のU-Netよりも優れていた。 本モデルは,医師支援手動セグメンテーションの課題に対処し,胎盤画像解析における多様な応用の可能性を提供する。

[Purpose] To develop a fully automated semantic placenta segmentation model that integrates the U-Net and SegNeXt architectures through ensemble learning. [Methods] A total of 218 pregnant women with suspected placental anomalies who underwent magnetic resonance imaging (MRI) were enrolled, yielding 1090 annotated images for developing a deep learning model for placental segmentation. The images were standardized and divided into training and test sets. The performance of PlaNet-S, which integrates U-Net and SegNeXt within an ensemble framework, was assessed using Intersection over Union (IoU) and counting connected components (CCC) against the U-Net model. [Results] PlaNet-S had significantly higher IoU (0.73 +/- 0.13) than that of U-Net (0.78 +/- 0.010) (p<0.01). The CCC for PlaNet-S was significantly higher than that for U-Net (p<0.01), matching the ground truth in 86.0\% and 56.7\% of the cases, respectively. [Conclusion]PlaNet-S performed better than the traditional U-Net in placental segmentation tasks. This model addresses the challenges of time-consuming physician-assisted manual segmentation and offers the potential for diverse applications in placental imaging analyses.
翻訳日:2023-12-20 18:22:33 公開日:2023-12-18
# BEV知覚のための拡散型粒子DETR

Diffusion-Based Particle-DETR for BEV Perception ( http://arxiv.org/abs/2312.11578v1 )

ライセンス: Link先を確認
Asen Nachkov, Martin Danelljan, Danda Pani Paudel, Luc Van Gool(参考訳) バードアイビュー(Bird-Eye-View、BEV)は、自動運転車(AV)における視覚的知覚のための最も広く使われているシーンの1つである。 AVの安全性を高めるためには、BEVにおける認識の不確かさのモデル化が不可欠である。 近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの大部分をカバーする小さな物体を効果的に検出できない。 このようなパフォーマンスの低下は、主に特定のネットワークアーキテクチャとトレーニングで使用されるマッチング戦略に起因する。 本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。 決定論的検出器では存在しないこのアプローチのユニークな課題を分析し,拡散ノイズの存在下でもモデルが位置依存性を学習できるオブジェクトクエリ補間に基づく単純な手法を提案する。 これに基づいて,粒子法と類似性を有する物体検出のための拡散型DETRモデルを提案する。 NuScenesデータセットの冗長な実験は、決定論的手法と比較して、我々の生成的アプローチに等しく、より優れた性能を示す。 私たちのソースコードは公開されます。

The Bird-Eye-View (BEV) is one of the most widely-used scene representations for visual perception in Autonomous Vehicles (AVs) due to its well suited compatibility to downstream tasks. For the enhanced safety of AVs, modeling perception uncertainty in BEV is crucial. Recent diffusion-based methods offer a promising approach to uncertainty modeling for visual perception but fail to effectively detect small objects in the large coverage of the BEV. Such degradation of performance can be attributed primarily to the specific network architectures and the matching strategy used when training. Here, we address this problem by combining the diffusion paradigm with current state-of-the-art 3D object detectors in BEV. We analyze the unique challenges of this approach, which do not exist with deterministic detectors, and present a simple technique based on object query interpolation that allows the model to learn positional dependencies even in the presence of the diffusion noise. Based on this, we present a diffusion-based DETR model for object detection that bears similarities to particle methods. Abundant experimentation on the NuScenes dataset shows equal or better performance for our generative approach, compared to deterministic state-of-the-art methods. Our source code will be made publicly available.
翻訳日:2023-12-20 18:22:08 公開日:2023-12-18
# PR-NeuS: 高速多視点ニューラルサーフェス再構成のための事前学習パラダイム

PR-NeuS: A Prior-based Residual Learning Paradigm for Fast Multi-view Neural Surface Reconstruction ( http://arxiv.org/abs/2312.11577v1 )

ライセンス: Link先を確認
Jianyao Xu, Qingshan Xu, Xinyao Liao, Wanjuan Su, Chen Zhang, Yew-Soon Ong, Wenbing Tao(参考訳) ニューラルサーフェス学習は多視点表面再構成において顕著な性能を示した。 しかし、既存のほとんどの方法は、大きな多層パーセプトロン(MLP)を使用してモデルをスクラッチからトレーニングし、1つのシーンで何時間もトレーニングする。 近年、ニューラルサーフェス学習の加速には多くの注目を集めており、未解決の問題となっている。 本研究では,高速多視点ニューラルサーフェス再構成のための事前学習パラダイムを提案する。 このパラダイムは2つの最適化段階から構成される。 第一段階では,一般化モデルを用いて基本符号付き距離関数(SDF)場を生成することを提案する。 この初期場は、一般化モデルによって生成された複数の局所SDF場を融合させることで迅速に得ることができる。 これはそれ以前の粗い大域幾何学を与える。 このことから,第2段階では,基本sdfフィールドに対するオフセットsdfフィールドを符号化するために,ハッシュエンコーディングネットワークに基づく高速残差学習戦略が提案されている。 さらに,残差学習段階の収束を支援するための事前誘導サンプリング手法を導入し,より微細な構造を復元する。 設計したパラダイムを用いて,実験結果から,1つのシーンの表面を再構築するのに3分程度しかかからず,競争力のある表面品質を達成できないことがわかった。 私たちのコードは出版時に公開される。

Neural surfaces learning has shown impressive performance in multi-view surface reconstruction. However, most existing methods use large multilayer perceptrons (MLPs) to train their models from scratch, resulting in hours of training for a single scene. Recently, how to accelerate the neural surfaces learning has received a lot of attention and remains an open problem. In this work, we propose a prior-based residual learning paradigm for fast multi-view neural surface reconstruction. This paradigm consists of two optimization stages. In the first stage, we propose to leverage generalization models to generate a basis signed distance function (SDF) field. This initial field can be quickly obtained by fusing multiple local SDF fields produced by generalization models. This provides a coarse global geometry prior. Based on this prior, in the second stage, a fast residual learning strategy based on hash-encoding networks is proposed to encode an offset SDF field for the basis SDF field. Moreover, we introduce a prior-guided sampling scheme to help the residual learning stage converge better, and thus recover finer structures. With our designed paradigm, experimental results show that our method only takes about 3 minutes to reconstruct the surface of a single scene, while achieving competitive surface quality. Our code will be released upon publication.
翻訳日:2023-12-20 18:21:49 公開日:2023-12-18
# 没入学習のための最適軌道計画の文脈における感情に基づく予測

Emotion Based Prediction in the Context of Optimized Trajectory Planning for Immersive Learning ( http://arxiv.org/abs/2312.11576v1 )

ライセンス: Link先を確認
Akey Sungheetha, Rajesh Sharma R, Chinnaiyan R(参考訳) 没入型学習の仮想要素として,google expeditionとタッチスクリーンに基づく感情について検討した。 本研究の目的は,これらの技術を組み合わせて仮想学習環境と学習者の感情的エンゲージメントを高めることにある。 教育的応用、余裕、認知的負荷が関係する対応する手段である。 学生は、技術を活用するこの研究を通じて、評価後の予測システムスコアがかなり高い理由を知ることができる。 これは、没入型学習シナリオに感情要素を組み込むことが効果的であることを示している。 本研究は、仮想現実と拡張現実体験を改善するために、教育技術における没入型学習技術の機能を活用し、新しい戦略の開発に役立つかもしれない。 さらに、物体追跡を大幅に改善する磁気、光学、ハイブリッドトラッカーを利用することで、没入学習環境の有効性を高めることができる。

In the virtual elements of immersive learning, the use of Google Expedition and touch-screen-based emotion are examined. The objective is to investigate possible ways to combine these technologies to enhance virtual learning environments and learners emotional engagement. Pedagogical application, affordances, and cognitive load are the corresponding measures that are involved. Students will gain insight into the reason behind their significantly higher post-assessment Prediction Systems scores compared to preassessment scores through this work that leverages technology. This suggests that it is effective to include emotional elements in immersive learning scenarios. The results of this study may help develop new strategies by leveraging the features of immersive learning technology in educational technologies to improve virtual reality and augmented reality experiences. Furthermore, the effectiveness of immersive learning environments can be raised by utilizing magnetic, optical, or hybrid trackers that considerably improve object tracking.
翻訳日:2023-12-20 18:21:28 公開日:2023-12-18
# 複数の治療におけるネットワーク設定における個別因果効果の推定

Estimation of individual causal effects in network setup for multiple treatments ( http://arxiv.org/abs/2312.11573v1 )

ライセンス: Link先を確認
Abhinav Thorat, Ravi Kolla, Niranjan Pedanekar, Naoyuki Onoe(参考訳) 複数治療とネットワーク観測データを用いた個別治療効果(ITE)の推定問題について検討した。 ネットワーク情報を活用することで、観測データに直接アクセスできない隠れた共同設立者を活用し、強い無知の仮定の実践的適用性を高めることを目指す。 これを実現するために、私たちはまずGraph Convolutional Networks (GCN)を使用し、共同設立者の共有表現を学ぶ。 そして, それぞれの治療結果の予測に, 別個のニューラルネットワークを応用した。 実結果に対する表現損失と平均正方形誤差(MSE)の2つの成分の重み付けした組み合わせとして損失関数を設計する。 表現損失を測定するために、ワッサースタインや最大平均離散性(MMD)といった既存のメトリクスをバイナリ処理設定から多重処理シナリオに拡張する。 提案手法の有効性を検証するため,BlogCatalogやFlickrなどのベンチマークデータセット上で,一連の実験を行った。 実験結果は,ベースライン法と比較してモデルの性能が優れていることを示す。

We study the problem of estimation of Individual Treatment Effects (ITE) in the context of multiple treatments and networked observational data. Leveraging the network information, we aim to utilize hidden confounders that may not be directly accessible in the observed data, thereby enhancing the practical applicability of the strong ignorability assumption. To achieve this, we first employ Graph Convolutional Networks (GCN) to learn a shared representation of the confounders. Then, our approach utilizes separate neural networks to infer potential outcomes for each treatment. We design a loss function as a weighted combination of two components: representation loss and Mean Squared Error (MSE) loss on the factual outcomes. To measure the representation loss, we extend existing metrics such as Wasserstein and Maximum Mean Discrepancy (MMD) from the binary treatment setting to the multiple treatments scenario. To validate the effectiveness of our proposed methodology, we conduct a series of experiments on the benchmark datasets such as BlogCatalog and Flickr. The experimental results consistently demonstrate the superior performance of our models when compared to baseline methods.
翻訳日:2023-12-20 18:21:17 公開日:2023-12-18
# 多領域テキスト分類のための規則化条件アライメント

Regularized Conditional Alignment for Multi-Domain Text Classification ( http://arxiv.org/abs/2312.11572v1 )

ライセンス: Link先を確認
Juntao Hu, Yuan Wu(参考訳) 最も成功したマルチドメインテキスト分類(MDTC)アプローチは、ドメイン固有の属性によるドメイン不変性の向上を促進するために、共有プライベートパラダイムを使用している。 さらに、彼らは限界特徴分布を調整するために敵の訓練を施している。 しかし,これらの手法は,(1)敵対的アライメント中のクラス認識情報の無視は誤認識のリスクを生じ,(2)複数のドメインにまたがるラベル付きデータの可用性の制限は,モデルの適切な識別能力を確保するのに失敗する。 これらの課題に対処するために、ドメインとクラスの連立分布を整列させ、同じカテゴリ内の特徴をマッチングし、取得した特徴の識別特性を増幅するRCA(Regularized Conditional Alignment)手法を提案する。 さらに,エントロピー最小化と仮想敵意学習を用いて,ラベルなしデータに関する予測の不確実性を抑制し,モデルの頑健性を高める。 2つのベンチマークデータセットの実証結果は、rcaアプローチが最先端mdtc技術よりも優れていることを示している。

The most successful multi-domain text classification (MDTC) approaches employ the shared-private paradigm to facilitate the enhancement of domain-invariant features through domain-specific attributes. Additionally, they employ adversarial training to align marginal feature distributions. Nevertheless, these methodologies encounter two primary challenges: (1) Neglecting class-aware information during adversarial alignment poses a risk of misalignment; (2) The limited availability of labeled data across multiple domains fails to ensure adequate discriminative capacity for the model. To tackle these issues, we propose a method called Regularized Conditional Alignment (RCA) to align the joint distributions of domains and classes, thus matching features within the same category and amplifying the discriminative qualities of acquired features. Moreover, we employ entropy minimization and virtual adversarial training to constrain the uncertainty of predictions pertaining to unlabeled data and enhance the model's robustness. Empirical results on two benchmark datasets demonstrate that our RCA approach outperforms state-of-the-art MDTC techniques.
翻訳日:2023-12-20 18:20:59 公開日:2023-12-18
# レコメンダシステムに対するモデル盗み攻撃

Model Stealing Attack against Recommender System ( http://arxiv.org/abs/2312.11571v1 )

ライセンス: Link先を確認
Zhihao Zhu, Rui Fan, Chenwang Wu, Yi Yang, Defu Lian, Enhong Chen(参考訳) 近年,データプライバシ攻撃に対するレコメンダシステムの脆弱性が実証されている。 しかし、モデル盗み攻撃のようなレコメンダシステムにおけるプライバシモデルへの脅威に関する研究はまだ初期段階にある。 いくつかの敵攻撃は、ターゲットモデル(ターゲットデータ)の豊富なトレーニングデータを収集したり、大量のクエリを作成することによって、リコメンダシステムに対するモデル盗難攻撃をある程度達成している。 本稿では,利用可能な対象データとクエリの量を制限するとともに,対象データとセットしたアイテムを共有する補助データを利用して,モデル盗み攻撃を促進させる。 ターゲットモデルは、ターゲットと補助データを異なる方法で扱うが、同様の行動パターンにより、アタックメカニズムを用いて攻撃を支援することができる。 また,対象モデルに照会した推薦リストを効果的に抽出するために,盗み機能を設計する。 実験の結果,提案手法は,多くのレコメンダシステムや様々なシナリオに適用でき,複数のデータセットに対して優れた攻撃性能を示すことがわかった。

Recent studies have demonstrated the vulnerability of recommender systems to data privacy attacks. However, research on the threat to model privacy in recommender systems, such as model stealing attacks, is still in its infancy. Some adversarial attacks have achieved model stealing attacks against recommender systems, to some extent, by collecting abundant training data of the target model (target data) or making a mass of queries. In this paper, we constrain the volume of available target data and queries and utilize auxiliary data, which shares the item set with the target data, to promote model stealing attacks. Although the target model treats target and auxiliary data differently, their similar behavior patterns allow them to be fused using an attention mechanism to assist attacks. Besides, we design stealing functions to effectively extract the recommendation list obtained by querying the target model. Experimental results show that the proposed methods are applicable to most recommender systems and various scenarios and exhibit excellent attack performance on multiple datasets.
翻訳日:2023-12-20 18:20:38 公開日:2023-12-18
# 事前学習型視覚言語モデルのマルチモーダルプロンプトの理解

Understanding the Multi-modal Prompts of the Pre-trained Vision-Language Model ( http://arxiv.org/abs/2312.11570v1 )

ライセンス: Link先を確認
Shuailei Ma, Chen-Wei Xie, Ying Wei, Siyang Sun, Jiaqi Fan, Xiaoyi Bao, Yuxin Guo, Yun Zheng(参考訳) プロンプト学習は、様々な下流タスクのためのCLIPなどの微調整基盤モデルの効率的な代替手段として登場した。 しかし,マルチモーダルプロンプトの動作メカニズムを包括的に説明する作業は行われていない。 本稿では,マルチモーダルプロンプトの直接分析を行い,以下の質問を行う。 (i)$ 学習したマルチモーダルプロンプトは認識性能を改善するか? $ (ii)$マルチモーダルプロンプトは何を学ぶのか? これらの質問に答えるために、各層における自己注意の計算にプロンプトが影響を及ぼす公式のコンポーネントを2つの異なる方法で分離することから始めます。 $(2)$ プロンプトはトークン埋め込みの更新中にバイアス項を学習し、モデルがターゲットドメインに適応できるようにする。 その後,11種類のダウンストリーム認識データセットを広範囲に可視化し,統計実験を行った。 実験結果から,学習が主に第2の方法で,データセットバイアスとして機能し,事前学習したモデルの認識性能を向上させることを明らかにする。 そこで本研究では,学習可能なバイアスを直接組み込むことで,学習可能なプロンプトが同じパラメータ設定で優れていることを示す。 限定されたカテゴリ情報を持つデータセットでは、EuroSATでは、バイアスチューニングがプロンプトチューニングを大きなマージンで上回る。 マルチモーダルなプロンプトをより深く理解することで、私たちの研究が、この方向への新しい確固たる研究を刺激できることを願っています。

Prompt learning has emerged as an efficient alternative for fine-tuning foundational models, such as CLIP, for various downstream tasks. However, there is no work that provides a comprehensive explanation for the working mechanism of the multi-modal prompts. In this paper, we conduct a direct analysis of the multi-modal prompts by asking the following questions: $(i)$ How do the learned multi-modal prompts improve the recognition performance? $(ii)$ What do the multi-modal prompts learn? To answer these questions, we begin by isolating the component of the formula where the prompt influences the calculation of self-attention at each layer in two distinct ways, \ie, $(1)$ introducing prompt embeddings makes the $[cls]$ token focus on foreground objects. $(2)$ the prompts learn a bias term during the update of token embeddings, allowing the model to adapt to the target domain. Subsequently, we conduct extensive visualization and statistical experiments on the eleven diverse downstream recognition datasets. From the experiments, we reveal that the learned prompts improve the performance mainly through the second way, which acts as the dataset bias to improve the recognition performance of the pre-trained model on the corresponding dataset. Based on this finding, we propose the bias tuning way and demonstrate that directly incorporating the learnable bias outperforms the learnable prompts in the same parameter settings. In datasets with limited category information, \ie, EuroSAT, bias tuning surpasses prompt tuning by a large margin. With a deeper understanding of the multi-modal prompt, we hope our work can inspire new and solid research in this direction.
翻訳日:2023-12-20 18:20:21 公開日:2023-12-18
# VectorTalker: SVGがプログレッシブベクタライゼーションによる顔生成を語る

VectorTalker: SVG Talking Face Generation with Progressive Vectorisation ( http://arxiv.org/abs/2312.11568v1 )

ライセンス: Link先を確認
Hao Hu, Xuan Wang, Jingxiang Sun, Yanbo Fan, Yu Guo, Caigui Jiang(参考訳) 高忠実で効率的な音声駆動音声ヘッド生成は、コンピュータグラフィックスとコンピュータビジョンにおいて重要な研究トピックである。 本研究では,ベクトル画像に基づく音声駆動音声ヘッド生成について検討する。 既存の作品で広く使われているrasterイメージを直接アニメーションするのに比べ、vector imageは多くのアプリケーションで使われている優れたスケーラビリティを享受しています。 ベクター画像に基づく音声ヘッド生成には、音源ポートレート画像の高品質なベクター画像再構成w.r.tと、音声信号の鮮やかなアニメーションw.r.tの2つの主な課題がある。 そこで本研究では,VectorTalkerと呼ばれる,スケーラブルなベクトルグラフィック再構成とアニメーション手法を提案する。 具体的には、高忠実度再構成のために、VectorTalkerは階層的に粗い方法でベクトル画像を階層的に再構成する。 そこで本研究では,顔ランドマークを中間運動表現として使用し,効率的なランドマーク駆動ベクター画像変形モジュールを提案する。 本手法は,日本漫画,漫画,フォトリアリズム画像など,統一された枠組み内で様々なポートレート画像を扱うことができる。 本研究では,ベクトル画像再構成と音声駆動アニメーションの両面において,VectorTalkerの優位性を実証し,定量的・定性的な評価を行った。

High-fidelity and efficient audio-driven talking head generation has been a key research topic in computer graphics and computer vision. In this work, we study vector image based audio-driven talking head generation. Compared with directly animating the raster image that most widely used in existing works, vector image enjoys its excellent scalability being used for many applications. There are two main challenges for vector image based talking head generation: the high-quality vector image reconstruction w.r.t. the source portrait image and the vivid animation w.r.t. the audio signal. To address these, we propose a novel scalable vector graphic reconstruction and animation method, dubbed VectorTalker. Specifically, for the highfidelity reconstruction, VectorTalker hierarchically reconstructs the vector image in a coarse-to-fine manner. For the vivid audio-driven facial animation, we propose to use facial landmarks as intermediate motion representation and propose an efficient landmark-driven vector image deformation module. Our approach can handle various styles of portrait images within a unified framework, including Japanese manga, cartoon, and photorealistic images. We conduct extensive quantitative and qualitative evaluations and the experimental results demonstrate the superiority of VectorTalker in both vector graphic reconstruction and audio-driven animation.
翻訳日:2023-12-20 18:19:55 公開日:2023-12-18
# 複数の2量子ユニタリを有する切断回路

Cutting circuits with multiple two-qubit unitaries ( http://arxiv.org/abs/2312.11638v1 )

ライセンス: Link先を確認
Lukas Schmitt, Christophe Piveteau, and David Sutter(参考訳) 準確率的切断法により、非局所ゲートを局所ゲートの確率混合に置き換えることで、大きな量子回路を小さなサブ回路に分割することができる。 この方法のコストはサンプリングオーバーヘッドであり、カット数で指数関数的にスケールする。 ゲート切断の最小コストを決定するとともに,回路間の古典的な通信がサンプリングオーバーヘッドを改善できるかどうかを理解することが重要である。 本研究では,任意の数の2量子ユニタリを切断する最適なサンプリングオーバーヘッドの計算式を導出し,それに対応する分解を行う。 興味深いことに、任意の2ビットのユニタリをひとつに切ることは、それらを個別に切るよりも安く、古典的なコミュニケーションには利点がない。 これは、回路内で遠くに配置された複数の非局所ゲートを切断することさえある。

Quasiprobabilistic cutting techniques allow us to partition large quantum circuits into smaller subcircuits by replacing non-local gates with probabilistic mixtures of local gates. The cost of this method is a sampling overhead that scales exponentially in the number of cuts. It is crucial to determine the minimal cost for gate cutting and to understand whether allowing for classical communication between subcircuits can improve the sampling overhead. In this work, we derive a closed formula for the optimal sampling overhead for cutting an arbitrary number of two-qubit unitaries and provide the corresponding decomposition. Interestingly, cutting several arbitrary two-qubit unitaries together is cheaper than cutting them individually and classical communication does not give any advantage. This is even the case when one cuts multiple non-local gates that are placed far apart in the circuit.
翻訳日:2023-12-20 18:11:37 公開日:2023-12-18
# ハミルトン格子場理論の時間発展シミュレーションのための戦略

Strategies for simulating time evolution of Hamiltonian lattice field theories ( http://arxiv.org/abs/2312.11637v1 )

ライセンス: Link先を確認
Siddharth Hariprakash, Neel S. Modi, Michael Kreshchuk, Christopher F. Kane, Christian W Bauer(参考訳) 量子場理論の時間発展をシミュレートするには、ユニタリ作用素 $e^{-iht}$ を実装するためのアルゴリズムの開発が必要である。 この課題を達成するための様々な技術が存在しており、この分野でこれまでに最も一般的な技術は、製品公式の適用の特別な場合であるトロタライズである。 しかし、理論の特定のパラメータにおいてより優れた漸近的スケーリングを約束する他の手法は存在し、最も効率的なものはブロックエンコーディングの概念に基づいている。 本研究は、ハミルトニアン格子場理論(HLFT)に適用するために、よく用いられるいくつかのシミュレーション手法の漸近複雑性を導出し、比較する。 図示として、空間格子上で離散化されたスカラー場理論の場合に適用する。 また,ボソニック自由度に対する2つの新しいブロック符号化法を提案する。 第一はユニタリ行列の線形結合(lcu)に基づいてアプローチを改善し、第二はユニタリ行列(qetu)の量子固有値変換(quantum eigenvalue transformation)に基づいている。 本論文は,特に製品フォーミュラ,LCU,Qubitization,QSP,QETUの活用技術と,発明者に基づいてHHKLと呼ぶ手法の教育的レビューを含む。

Simulating the time evolution of quantum field theories given some Hamiltonian $H$ requires developing algorithms for implementing the unitary operator $e^{-iHt}$. A variety of techniques exist that accomplish this task, with the most common technique used in this field so far being Trotterization, which is a special case of the application of a product formula. However, other techniques exist that promise better asymptotic scaling in certain parameters of the theory being simulated, the most efficient of which are based on the concept of block encoding. In this work we derive and compare the asymptotic complexities of several commonly used simulation techniques in application to Hamiltonian Lattice Field Theories (HLFTs). As an illustration, we apply them to the case of a scalar field theory discretized on a spatial lattice. We also propose two new types of block encodings for bosonic degrees of freedom. The first improves the approach based on the Linear Combination of Unitaries (LCU), while the second is based on the Quantum Eigenvalue Transformation for Unitary Matrices (QETU). The paper includes a pedagogical review of utilized techniques, in particular Product Formulas, LCU, Qubitization, QSP, QETU, as well as a technique we call HHKL based on its inventors.
翻訳日:2023-12-20 18:11:23 公開日:2023-12-18
# 計測誘起非ユニタリダイナミクスとゼノ効果の拡散複雑性

Spread complexity for measurement-induced non-unitary dynamics and Zeno effect ( http://arxiv.org/abs/2312.11635v1 )

ライセンス: Link先を確認
Aranya Bhattacharya, Rathindra Nath Das, Bidyut Dey, Johanna Erdmenger(参考訳) 拡散複雑性と拡散エントロピーを用いて、非単位量子力学を研究する。 非エルミート的ハミルトニアンに対しては、クリロフ基底のビランツォス構成をシュリンガー図形に拡張する。 さらに,複素対称ハミルトニアンに適応したアルゴリズムを実装した。 これにより、Bi-Lanczosの構成に比べて計算メモリの要求が半減する。 この構成を1次元の強結合ハミルトニアン対象物に適用し, 一定時間間隔での繰り返し測定を行い, 非ユニタリダイナミクスを効果的に生み出した。 拡散複雑性は最初は時間とともに増大し,その後に長期の崩壊期間と飽和が続く。 初期状態の選択は複雑性とエントロピーの飽和値を決定する。 測定誘起相転移と類似して、異なる周波数で通常の測定をオンにすることで誘導されるエルミートと非エルミートハミルトンの進化のクエンチを考える。 その結果, 測定周波数の関数として, 拡散複雑性が増大し始める時間が増えることがわかった。 この時間は、測定値の間の時間差がゼロになったとき無限大に漸近し、量子ゼノン効果の開始を示し、その測定値が時間発展を妨げる。

Using spread complexity and spread entropy, we study non-unitary quantum dynamics. For non-hermitian Hamiltonians, we extend the bi-Lanczos construction for the Krylov basis to the Schr\"odinger picture. Moreover, we implement an algorithm adapted to complex symmetric Hamiltonians. This reduces the computational memory requirements by half compared to the bi-Lanczos construction. We apply this construction to the one-dimensional tight-binding Hamiltonian subject to repeated measurements at fixed small time intervals, resulting in effective non-unitary dynamics. We find that the spread complexity initially grows with time, followed by an extended decay period and saturation. The choice of initial state determines the saturation value of complexity and entropy. In analogy to measurement-induced phase transitions, we consider a quench between hermitian and non-hermitian Hamiltonian evolution induced by turning on regular measurements at different frequencies. We find that as a function of the measurement frequency, the time at which the spread complexity starts growing increases. This time asymptotes to infinity when the time gap between measurements is taken to zero, indicating the onset of the quantum Zeno effect, according to which measurements impede time evolution.
翻訳日:2023-12-20 18:11:01 公開日:2023-12-18
# 典型的な量子多体状態のパウリスペクトルとマジック

Pauli Spectrum and Magic of Typical Quantum Many-Body States ( http://arxiv.org/abs/2312.11631v1 )

ライセンス: Link先を確認
Xhek Turkeshi and Anatoly Dymarsky and Piotr Sierant(参考訳) 量子情報の重要な疑問は、普遍量子コンピューティングに必要な真に量子的なリソースを特徴づけることである。 ここで、我々はパウリスペクトルを用いて、クリフォード以外の典型的な多量子ビット状態がいかにマジックであるかを定量化する。 まず、パウリスペクトルの量子的特異性に基づく現象論的図を示し、次にハール確率状態について確認する。 次に,典型的な状態と非定型状態の違いを解消する魔法の手段であるフィルタ付き安定化器エントロピーを導入する。 我々は、ランダム回路によって生成される状態のパウリスペクトルとカオスハミルトニアンの固有状態の数値的研究を行う。 どちらの場合も、パウリスペクトルはハールランダム状態の1つに近づき、指数的に抑制された尾を持つ。 我々の結果は、量子情報の観点から、典型的な状態と非定型状態の相違点となる。

An important question of quantum information is to characterize genuinely quantum (beyond-Clifford) resources necessary for universal quantum computing. Here, we use the Pauli spectrum to quantify how magic, beyond Clifford, typical many-qubit states are. We first present a phenomenological picture of the Pauli spectrum based on quantum typicality and then confirm it for Haar random states. We then introduce filtered stabilizer entropy, a magic measure that can resolve the difference between typical and atypical states. We proceed with the numerical study of the Pauli spectrum of states created by random circuits as well as for eigenstates of chaotic Hamiltonians. We find that in both cases the Pauli spectrum approaches the one of Haar random states, up to exponentially suppressed tails. Our results underscore differences between typical and atypical states from the point of view of quantum information.
翻訳日:2023-12-20 18:10:43 公開日:2023-12-18
# 残留腺

Residual ANODE ( http://arxiv.org/abs/2312.11629v1 )

ライセンス: Link先を確認
Ranit Das, Gregor Kasieczka and David Shih(参考訳) 本稿では,データ駆動型,モデル非依存の共振異常検出のための新しい手法であるr-anodeを提案する。 R-ANODEの鍵は、サイドバンドから学習した背景モデル(正規化フロー)を固定したまま、小さく未知の信号成分に直接正規化フローを組み込むことで、異常検出タスクの誘導バイアスを高めることである。 これにより、R-ANODEは、信号領域だけでなく、信号領域内のすべてのデータに密度推定器を適合させる従来のANODE法と同様に、分類器ベースの弱教師付きアプローチを全て上回ることができる。 本手法は未知の信号分数を学習するか固定するかに等しく有効であり,信号分数を不特定化するのにも頑健であることを示す。 最後に、学習信号モデルを用いて、基礎となる異常に関する定性的な洞察をサンプリングし得ることにより、共鳴異常検出の解釈可能性を大幅に向上し、データに隠れている可能性のある新しい物理を同時に発見および特徴付けることができる。

We present R-ANODE, a new method for data-driven, model-agnostic resonant anomaly detection that raises the bar for both performance and interpretability. The key to R-ANODE is to enhance the inductive bias of the anomaly detection task by fitting a normalizing flow directly to the small and unknown signal component, while holding fixed a background model (also a normalizing flow) learned from sidebands. In doing so, R-ANODE is able to outperform all classifier-based, weakly-supervised approaches, as well as the previous ANODE method which fit a density estimator to all of the data in the signal region instead of just the signal. We show that the method works equally well whether the unknown signal fraction is learned or fixed, and is even robust to signal fraction misspecification. Finally, with the learned signal model we can sample and gain qualitative insights into the underlying anomaly, which greatly enhances the interpretability of resonant anomaly detection and offers the possibility of simultaneously discovering and characterizing the new physics that could be hiding in the data.
翻訳日:2023-12-20 18:10:30 公開日:2023-12-18
# 強結合光と物質に対する非平衡ダイソン方程式:多モードキャビティqedにおけるスピンガラス形成

Nonequilibrium Dyson equations for strongly coupled light and matter: spin glass formation in multi-mode cavity QED ( http://arxiv.org/abs/2312.11624v1 )

ライセンス: Link先を確認
Hossein Hosseinabadi, Darrick E. Chang, Jamir Marino(参考訳) 光物質界面は現在、駆動散逸条件下で量子相関状態を設計する能力に特徴付けられる新しい段階に入った。 この新しい世代の実験を推進するために、量子光学における従来のアプローチを超越することで、強い結合状態における非単体多体力学をモデル化する必要がある。 本研究では,従来高エネルギー物理学で用いられてきた関数積分法を応用し,光物質相互作用系に対する非平衡ジソン方程式を導出する。 提案手法は, 時間的多項式コストで量子進化を記述するための非摂動的・保存的枠組みを提供する2粒子既約(2PI)実効作用の構築に基礎を置いている。 この記事の目的は、量子光学、凝縮物質、高エネルギー物理学など、様々な科学コミュニティから読者を橋渡しするための教育的な紹介を提供することである。 本研究は, フラストレーションを伴う多モード空洞量子力学(H. Hosseinabadi, D. Chang, J. Marino, arXiv:2311.05682]の文脈におけるスピンガラス形成の解析を補完する手法である。 最後に、多体量子光学における他の近距離プラットフォームを記述する手法の能力と、この新しいタイプの実験の予測可能性について概説する。

Light-matter interfaces have now entered a new stage marked by the ability to engineer quantum correlated states under driven-dissipative conditions. To propel this new generation of experiments, we are confronted with the need to model non-unitary many-body dynamics in strongly coupled regimes, by transcending traditional approaches in quantum optics. In this work, we contribute to this program by adapting a functional integral technique, conventionally employed in high-energy physics, in order to derive nonequilibrium Dyson equations for interacting light-matter systems. Our approach is grounded in constructing two-particle irreducible (2PI) effective actions, which provide a non-perturbative and conserving framework for describing quantum evolution at a polynomial cost in time. One of the aims of the article is to offer a pedagogical introduction designed to bridge readers from diverse scientific communities, including those in quantum optics, condensed matter, and high-energy physics. We apply our method to complement the analysis of spin glass formation in the context of frustrated multi-mode cavity quantum electrodynamics, initiated in our accompanying work [H. Hosseinabadi, D. Chang, J. Marino, arXiv:2311.05682]. Finally, we outline the capability of the technique to describe other near-term platforms in many-body quantum optics, and its potential to make predictions for this new class of experiments.
翻訳日:2023-12-20 18:10:10 公開日:2023-12-18
# 量子情報スクランブルの操作的定義

An operational definition of quantum information scrambling ( http://arxiv.org/abs/2312.11619v1 )

ライセンス: Link先を確認
Gabriele Lo Monaco, Luca Innocenti, Dario Cilluffo, Diana A. Chisholm, Salvatore Lorenzo and G. Massimo Palma(参考訳) 量子情報スクランブル(QIS)は、ブラックホールから量子通信ネットワークまで、いくつかの量子システムの特徴である。 QISの正確な定量化は多くの現象を理解するために重要であるが、三部情報に基づく共通アプローチは、量子相互情報のアクセシビリティの問題による制限があり、符号化入力ベースへの依存を常に適切に考慮していない。 これらの問題に対処するために、量子状態の識別の観点からのQISの定式化に基づく、新しい計算効率の高いQIS量化器を提案する。 等尺的量子進化によって引き起こされるQISの度合いを反映した最適推定確率は、コンベックスプログラムとしてキャストされ、効率的に計算できる条件最小エントロピーに基づく一般化チャネル容量である、アクセス可能な最小情報に直接接続されていることを示す。 複雑性が増大する様々な事例に本提案を適用することで,QISの多面的性質を,その複雑さをすべて捉えることができることを示す。

Quantum information scrambling (QIS) is a characteristic feature of several quantum systems, ranging from black holes to quantum communication networks. While accurately quantifying QIS is crucial to understanding many such phenomena, common approaches based on the tripartite information have limitations due to the accessibility issues of quantum mutual information, and do not always properly take into consideration the dependence on the encoding input basis. To address these issues, we propose a novel and computationally efficient QIS quantifier, based on a formulation of QIS in terms of quantum state discrimination. We show that the optimal guessing probability, which reflects the degree of QIS induced by an isometric quantum evolution, is directly connected to the accessible min-information, a generalized channel capacity based on conditional min-entropy, which can be cast as a convex program and thus computed efficiently. By applying our proposal to a range of examples with increasing complexity, we illustrate its ability to capture the multifaceted nature of QIS in all its intricacy.
翻訳日:2023-12-20 18:09:43 公開日:2023-12-18
# 多体基底状態における測定誘起情報の普遍構造

Universal structure of measurement-induced information in many-body ground states ( http://arxiv.org/abs/2312.11615v1 )

ライセンス: Link先を確認
Zihan Cheng, Rui Wen, Sarang Gopalakrishnan, Romain Vasseur and Andrew C. Potter(参考訳) ユニタリダイナミクスとは異なり、サブシステムの測定は量子テレポーテーションによって長距離の絡み合いを引き起こす。 計測によって引き起こされる絡み合いや相互情報の量は、(測定前の)状態の計測基底と絡み合い構造に共同で依存し、状態が測定に基づく量子計算のリソースであるか否か、および量子コンピュータや古典コンピュータを用いて状態をシミュレートする計算複雑性の操作上の意義を有する。 本研究では,1次元と2次元の量子多体系の基底状態に対する測定誘起絡み合い(MIE)と情報(MII)のエントロピー測度について検討する。 臨界点、量子ホール状態、弦-ネットトポロジカル秩序、フェルミ液体を含む様々なモデルの数値解析および解析から、状態の基底相や臨界普遍性クラスにのみ依存するMIEとMIIの長距離構造の普遍的特徴を同定する。 1d$では長距離ミエとmiiへの主要な貢献は普遍的であるが、2d$では、有限深さ回路のテレポーテーション遷移の存在は、自明な2d$状態が長距離ミエを表現でき、普遍的な特徴はサブリーディング補正にあると主張する。 我々はこれらのユニバーサルコントリビューションを直接抽出する修正MIE尺度を導入する。 結論として、トポロジカル位相を数値的に同定するために用いられる奇妙な相関子への主要な貢献は、実際には2つ以上の次元においてユニバーサルではないことを示し、我々の修正された構造が普遍成分を分離することを可能にする方法を説明する。 量子材料の古典的および量子計算シミュレーションにおけるこれらの結果の影響について論じる。

Unlike unitary dynamics, measurements of a subsystem can induce long-range entanglement via quantum teleportation. The amount of measurement-induced entanglement or mutual information depends jointly on the measurement basis and the entanglement structure of the state (before measurement), and has operational significance for whether the state is a resource for measurement-based quantum computing, as well as for the computational complexity of simulating the state using quantum or classical computers. In this work, we examine entropic measures of measurement-induced entanglement (MIE) and information (MII) for the ground-states of quantum many-body systems in one- and two- spatial dimensions. From numerical and analytic analysis of a variety of models encompassing critical points, quantum Hall states, string-net topological orders, and Fermi liquids, we identify universal features of the long-distance structure of MIE and MII that depend only on the underlying phase or critical universality class of the state. We argue that, whereas in $1d$ the leading contributions to long-range MIE and MII are universal, in $2d$, the existence of a teleportation transition for finite-depth circuits implies that trivial $2d$ states can exhibit long-range MIE, and the universal features lie in sub-leading corrections. We introduce modified MIE measures that directly extract these universal contributions. As a corollary, we show that the leading contributions to strange-correlators, used to numerically identify topological phases, are in fact non-universal in two or more dimensions, and explain how our modified constructions enable one to isolate universal components. We discuss the implications of these results for classical- and quantum- computational simulation of quantum materials.
翻訳日:2023-12-20 18:09:23 公開日:2023-12-18
# 回路レベルでの誤差補正アダマールゲート

Error-corrected Hadamard gate simulated at the circuit level ( http://arxiv.org/abs/2312.11605v1 )

ライセンス: Link先を確認
Gy\"orgy P. Geh\'er, Campbell McLauchlan, Earl T. Campbell, Alexandra E. Moylett, Ophelia Crawford(参考訳) 我々は,回路レベルのノイズモデルに基づく表面符号の論理アダマールゲートをシミュレートし,正方形グリッド接続ハードウェア上の物理回路にコンパイルする。 本論文は,量子誤り訂正符号上の論理的ユニタリゲートに対して,これを初めて行うものである。 ひとつは、論理的な$x$と$z$文字列を交換するためにトランスバーサル・アダマールゲート(すなわち、時間を通してドメインウォール)を適用するもので、もうひとつは、この交換を達成するために空間を通してドメインウォールを適用するものです。 量子誤り訂正ラウンド毎に安定化器と論理演算子がどのように変換されるかを追跡することにより、なぜ論理アダマールゲートを行うのかを詳細に説明する。 我々は、物理回路を最適化し、その論理故障確率を評価する。これは、同じ数の量子誤り訂正ラウンドの量子メモリ実験に匹敵するものと考えられる。 本稿では,現象ノイズと同一の有効距離を回路レベルで保持するシンドローム抽出回路を提案する。 さらに、SWAP$-quantumエラー訂正ラウンド(パッチを初期位置に戻そうとしている)を4つの2ビットゲート層にコンパイルする方法も説明します。 これはより一般的なシナリオに適用でき、副産物として、最近のGoogleの論文(McEwen, Bacon, and Gidney, Quantum 7, 1172 (2023))の'stepping'回路をどのように構築するかという第一原理から説明できる。

We simulate the logical Hadamard gate in the surface code under a circuit-level noise model, compiling it to a physical circuit on square-grid connectivity hardware. Our paper is the first to do this for a logical unitary gate on a quantum error-correction code. We consider two proposals, both via patch-deformation: one that applies a transversal Hadamard gate (i.e. a domain wall through time) to interchange the logical $X$ and $Z$ strings, and another that applies a domain wall through space to achieve this interchange. We explain in detail why they perform the logical Hadamard gate by tracking how the stabilisers and the logical operators are transformed in each quantum error-correction round. We optimise the physical circuits and evaluate their logical failure probabilities, which we find to be comparable to those of a quantum memory experiment for the same number of quantum error-correction rounds. We present syndrome-extraction circuits that maintain the same effective distance under circuit-level noise as under phenomenological noise. We also explain how a $SWAP$-quantum error-correction round (required to return the patch to its initial position) can be compiled to only four two-qubit gate layers. This can be applied to more general scenarios and, as a byproduct, explains from first principles how the ''stepping'' circuits of the recent Google paper [McEwen, Bacon, and Gidney, Quantum 7, 1172 (2023)] can be constructed.
翻訳日:2023-12-20 18:08:50 公開日:2023-12-18
# skilldiffuser: 拡散型タスク実行におけるスキル抽象化による解釈可能な階層計画

SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution ( http://arxiv.org/abs/2312.11598v1 )

ライセンス: Link先を確認
Zhixuan Liang, Yao Mu, Hengbo Ma, Masayoshi Tomizuka, Mingyu Ding, Ping Luo(参考訳) 拡散モデルは、ロボット軌道計画の強力な可能性を示している。 しかしながら、特に複数のシーケンシャルなスキルを必要とする複雑なタスクにおいて、ハイレベルな命令からコヒーレントで長いホリゾンの軌跡を生成することは困難である。 本稿では,解釈可能なスキル学習と条件付き拡散計画を統合したエンドツーエンドの階層的計画フレームワークであるSkillDiffuserを提案する。 より高いレベルでは、スキル抽象化モジュールは、視覚的な観察と言語指示から、個別に理解可能なスキル表現を学習する。 これらの学習されたスキル埋め込みは、拡散モデルを条件づけて、スキルに合わせてカスタマイズされた潜在軌道を生成する。 学習可能なスキルに準拠した多様な状態軌跡を生成することができる。 スキル学習と条件付き軌道生成を統合することで、SkillDiffuserはさまざまなタスクにまたがる抽象的な指示に従ってコヒーレントな振る舞いを生成する。 meta-worldやlorelのようなマルチタスクロボット操作ベンチマークの実験は、スキルディフューザによる最先端のパフォーマンスと人間解釈可能なスキル表現を示している。

Diffusion models have demonstrated strong potential for robotic trajectory planning. However, generating coherent and long-horizon trajectories from high-level instructions remains challenging, especially for complex tasks requiring multiple sequential skills. We propose SkillDiffuser, an end-to-end hierarchical planning framework integrating interpretable skill learning with conditional diffusion planning to address this problem. At the higher level, the skill abstraction module learns discrete, human-understandable skill representations from visual observations and language instructions. These learned skill embeddings are then used to condition the diffusion model to generate customized latent trajectories aligned with the skills. It allows for generating diverse state trajectories that adhere to the learnable skills. By integrating skill learning with conditional trajectory generation, SkillDiffuser produces coherent behavior following abstract instructions across diverse tasks. Experiments on multi-task robotic manipulation benchmarks like Meta-World and LOReL demonstrate state-of-the-art performance and human-interpretable skill representations from SkillDiffuser.
翻訳日:2023-12-20 18:08:22 公開日:2023-12-18
# zx計算による強化学習に基づく量子回路最適化

Reinforcement Learning Based Quantum Circuit Optimization via ZX-Calculus ( http://arxiv.org/abs/2312.11597v1 )

ライセンス: Link先を確認
Jordi Riu, Jan Nogu\'e, Gerard Vilaplana, Artur Garcia-Saez and Marta P. Estarellas(参考訳) 本稿では,ZX-ダイアグラムのグラフ的表現を用いた量子回路の最適化のための新しい強化学習法を提案する。 ppo(proximal policy optimization)アルゴリズムを使用してトレーニングされたエージェントは、ポリシとバリュー関数を近似するためにグラフニューラルネットワークを使用する。 提案手法は,2つの異なる回路サイズ領域において有意性を高める手法をテストし,その分野における回路最適化のための最先端ツールであるpyzxライブラリのzx計算に基づくアルゴリズムと比較する。 本研究では,5量子回路から最大450クリフォードゲートの20量子回路に学習した戦略を一般化し,計算性能の面では競争力を維持しつつ,圧縮性を向上できることを実証する。

We propose a novel Reinforcement Learning (RL) method for optimizing quantum circuits using the graph-like representation of a ZX-diagram. The agent, trained using the Proximal Policy Optimization (PPO) algorithm, employs Graph Neural Networks to approximate the policy and value functions. We test our approach for two differentiated circuit size regimes of increasing relevance, and benchmark it against the best-performing ZX-calculus based algorithm of the PyZX library, a state-of-the-art tool for circuit optimization in the field. We demonstrate that the agent can generalize the strategies learned from 5-qubit circuits to 20-qubit circuits of up to 450 Clifford gates, with enhanced compressions with respect to its counterpart while remaining competitive in terms of computational performance.
翻訳日:2023-12-20 18:08:07 公開日:2023-12-18
# TIP:セマンティックとリカバリの指導によるテキスト駆動画像処理

TIP: Text-Driven Image Processing with Semantic and Restoration Instructions ( http://arxiv.org/abs/2312.11595v1 )

ライセンス: Link先を確認
Chenyang Qi, Zhengzhong Tu, Keren Ye, Mauricio Delbracio, Peyman Milanfar, Qifeng Chen, Hossein Talebi(参考訳) テキスト駆動拡散モデルは、インペインティング、スタイライゼーション、オブジェクト置換など、様々な画像編集タスクで人気が高まっている。 しかし、この言語ビジョンパラダイムを、デノイジング、スーパーレゾリューション、デブラリング、圧縮アーティファクトの除去など、より詳細な画像処理タスクに採用することは、いまだに未解決の課題である。 本稿では、自然言語をユーザフレンドリーなインタフェースとして活用し、画像復元プロセスを制御するテキスト駆動画像処理フレームワークTIPを開発する。 テキスト情報の容量を2次元で検討する。 まず,コンテンツ関連プロンプトを用いて意味的アライメントを強化し,復元結果におけるアイデンティティの曖昧さを効果的に緩和する。 第2に,我々のアプローチは,明示的なタスク特化設計を必要とせず,言語に基づく復元強度の定量化を通じて,細部レベルの命令をサポートする最初のフレームワークである。 さらに,既存のコントロールネットアーキテクチャを改良し,生成元の再スケールを学習し,復元性の向上を図る新しい融合機構を提案する。 大規模な実験により,TIPの復元性能は芸術的状況と比較して優れており,また,復元効果に対するテキスト制御の柔軟性も示された。

Text-driven diffusion models have become increasingly popular for various image editing tasks, including inpainting, stylization, and object replacement. However, it still remains an open research problem to adopt this language-vision paradigm for more fine-level image processing tasks, such as denoising, super-resolution, deblurring, and compression artifact removal. In this paper, we develop TIP, a Text-driven Image Processing framework that leverages natural language as a user-friendly interface to control the image restoration process. We consider the capacity of text information in two dimensions. First, we use content-related prompts to enhance the semantic alignment, effectively alleviating identity ambiguity in the restoration outcomes. Second, our approach is the first framework that supports fine-level instruction through language-based quantitative specification of the restoration strength, without the need for explicit task-specific design. In addition, we introduce a novel fusion mechanism that augments the existing ControlNet architecture by learning to rescale the generative prior, thereby achieving better restoration fidelity. Our extensive experiments demonstrate the superior restoration performance of TIP compared to the state of the arts, alongside offering the flexibility of text-based control over the restoration effects.
翻訳日:2023-12-20 18:07:52 公開日:2023-12-18
# Rydberg原子の短絡制御相ゲート

Shortcut-to-Adiabatic Controlled-Phase Gate in Rydberg Atoms ( http://arxiv.org/abs/2312.11594v1 )

ライセンス: Link先を確認
Luis S. Yag\"ue Bosch, Tim Ehret, Francesco Petiziol, Ennio Arimondo, Sandro Wimberger(参考訳) Rydberg原子における高速かつ高忠実な制御相ゲートの実現のためのショートカット・トゥ・アディバティックプロトコルを開発した。 高ブロック限界で駆動される断熱状態遷移は、反断熱ハミルトニアンを模倣する振動場を介して非断熱遷移を補償することで加速される。 広いパラメータ領域で高いフィダリティが得られる。 元々の断熱パルスを使わずに、素効率の反断熱電界の実装により、ブロッカドに依存した動的位相の蓄積によって生じるゲートエラーを回避でき、ブロッカド値の低いプロトコルも効率的に行える。 量子アルゴリズムへの応用として、ゲートの忠実度が最小限の量子エラー補正回路の効率に与える影響を分析する。

A shortcut-to-adiabatic protocol for the realization of a fast and high-fidelity controlled-phase gate in Rydberg atoms is developed. The adiabatic state transfer, driven in the high-blockade limit, is sped up by compensating nonadiabatic transitions via oscillating fields that mimic a counterdiabatic Hamiltonian. High fidelities are obtained in wide parameter regions. The implementation of the bare effective counterdiabatic field, without original adiabatic pulses, enables to bypass gate errors produced by the accumulation of blockade-dependent dynamical phases, making the protocol efficient also at low blockade values. As an application toward quantum algorithms, how the fidelity of the gate impacts the efficiency of a minimal quantum-error correction circuit is analyzed.
翻訳日:2023-12-20 18:07:29 公開日:2023-12-18
# 多視点冠動脈造影における高密度対応の確立に向けて : ポイント・ツー・ポイントからカーブ・ツー・カーブ・クエリマッチングへ

Towards Establishing Dense Correspondence on Multiview Coronary Angiography: From Point-to-Point to Curve-to-Curve Query Matching ( http://arxiv.org/abs/2312.11593v1 )

ライセンス: Link先を確認
Yifan Wu, Rohit Jena, Mehmet Gulsun, Vivek Singh, Puneet Sharma, James C. Gee(参考訳) 冠動脈造影は冠動脈疾患の研究と診断のためのゴールドスタンダードイメージング技術である。 しかし、結果として生じる2次元x線投影は3d情報を失い、視覚的な曖昧さを示す。 本研究では,多視点血管造影における高密度対応の確立を目指しており,様々な臨床応用や下流業務の基盤となっている。 使用不能なアノテートデータの課題を克服するため,3次元冠動脈ct angiography (ccta) を用いたデータシミュレーションパイプラインを考案した。 得られたビューに対するすべての関心点に対するクエリマッチングタスクとして,高密度対応推定の問題を定式化した。 我々は点対点クエリマッチングを確立し、それを曲線対曲対応に進化させ、曖昧さを最小化し、トポロジカルな認識を改善することでエラーを著しく低減した。 本手法は, 8つの臨床関連抗原群にまたがる異なる視点からの1260枚の画像対を用いて評価し, 有意な結果を示し, 多視点血管造影における高密度対応の実現の可能性を示した。

Coronary angiography is the gold standard imaging technique for studying and diagnosing coronary artery disease. However, the resulting 2D X-ray projections lose 3D information and exhibit visual ambiguities. In this work, we aim to establish dense correspondence in multi-view angiography, serving as a fundamental basis for various clinical applications and downstream tasks. To overcome the challenge of unavailable annotated data, we designed a data simulation pipeline using 3D Coronary Computed Tomography Angiography (CCTA). We formulated the problem of dense correspondence estimation as a query matching task over all points of interest in the given views. We established point-to-point query matching and advanced it to curve-to-curve correspondence, significantly reducing errors by minimizing ambiguity and improving topological awareness. The method was evaluated on a set of 1260 image pairs from different views across 8 clinically relevant angulation groups, demonstrating compelling results and indicating the feasibility of establishing dense correspondence in multi-view angiography.
翻訳日:2023-12-20 18:07:15 公開日:2023-12-18
# 道徳的不確かさと狂信論の問題

Moral Uncertainty and the Problem of Fanaticism ( http://arxiv.org/abs/2312.11589v1 )

ライセンス: Link先を確認
Jazon Szabo, Jose Such, Natalia Criado, Sanjay Modgil(参考訳) エージェントが倫理的に行動すべきという普遍的な合意があるが、倫理的行動を構成するものに関する合意はない。 この問題に対処するために、近年の「道徳的不確実性」に対する哲学的アプローチは、エージェントの振る舞いを導くために複数の倫理理論の集約を提案している。 しかし、アグリゲーションに関する基本的な提案の1つ、最大選択性(MEC)は狂信主義に弱いと批判され、その理論では信頼度が低いにもかかわらず、倫理理論がエージェント行動を支配している。 したがって、ファナティズムは複数の倫理的視点を調節する「民主的」動機を損なう。 狂信主義の問題はまだ数学的に定義されていない。 社会福祉集約の例として道徳的不確実性を表現するため,本論文は道徳不確実性という分野に寄与する。 1)社会福祉機能論の特質としての狂信主義の問題の定式化と展開 2) MEC,すなわち,最高kトリミング平均及び最高メディアの非ファニカルな代替品を提供する。

While there is universal agreement that agents ought to act ethically, there is no agreement as to what constitutes ethical behaviour. To address this problem, recent philosophical approaches to `moral uncertainty' propose aggregation of multiple ethical theories to guide agent behaviour. However, one of the foundational proposals for aggregation - Maximising Expected Choiceworthiness (MEC) - has been criticised as being vulnerable to fanaticism; the problem of an ethical theory dominating agent behaviour despite low credence (confidence) in said theory. Fanaticism thus undermines the `democratic' motivation for accommodating multiple ethical perspectives. The problem of fanaticism has not yet been mathematically defined. Representing moral uncertainty as an instance of social welfare aggregation, this paper contributes to the field of moral uncertainty by 1) formalising the problem of fanaticism as a property of social welfare functionals and 2) providing non-fanatical alternatives to MEC, i.e. Highest k-trimmed Mean and Highest Median.
翻訳日:2023-12-20 18:06:56 公開日:2023-12-18
# 電子雪崩を用いた単一光子による全光変調

All-optical modulation with single-photons using electron avalanche ( http://arxiv.org/abs/2312.11686v1 )

ライセンス: Link先を確認
Demid V. Sychev, Peigang Chen, Morris Yang, Colton Fruhling, Alexei Lagutchev, Alexander V. Kildishev, Alexandra Boltasseva, Vladimir M. Shalaev(参考訳) 高速伝播、低損失、低クロストーク、電力消費、および量子特性のような光の特徴は、通信、高解像度イメージング、光コンピューティング、新興量子情報技術における様々な重要な応用に一意に適合する。 しかし、ある制限要因は従来のメディアの弱い光学非線形性であり、特に超低光子レベルの強度では、光の制御と操作が困難である。 特に、単光子強度で動作するフォトニックトランジスタを作成することは、注目すべき課題である。 本研究では単一光子強度のビームを用いた全光変調を示す。 このような低エネルギー制御は、電荷キャリアの衝撃イオン化によって誘導される半導体中の電子雪崩プロセスによって実現される。 これは、最高の非線形光学媒体よりも2桁高いn2~7*10^-3m^2/Wの非線形屈折率を達成することに相当する(Table S1)。 我々のアプローチは、テラヘルツ高速光スイッチングを単一光子レベルで実現し、新しいフォトニックデバイスと将来の量子フォトニック情報処理と計算、高速論理ゲートなどを可能にします。 重要なことに、このアプローチは業界対応のCMOS互換およびチップ内蔵の光変調プラットフォームを単一光子で動作させる可能性がある。

The distinctive characteristics of light such as high-speed propagation, low-loss, low cross-talk and power consumption as well as quantum properties, make it uniquely suitable for various critical applications in communication, high-resolution imaging, optical computing, and emerging quantum information technologies. One limiting factor though is the weak optical nonlinearity of conventional media that poses challenges for the control and manipulation of light, especially with ultra-low, few-photon-level intensities. Notably, creating a photonic transistor working at single-photon intensities remains an outstanding challenge. In this work, we demonstrate all-optical modulation using a beam with single-photon intensity. Such low-energy control is enabled by the electron avalanche process in a semiconductor triggered by the impact ionization of charge carriers. This corresponds to achieving a nonlinear refractive index of n2~7*10^-3m^2/W, which is two orders of magnitude higher than in the best nonlinear optical media (Table S1). Our approach opens up the possibility of terahertz-speed optical switching at the single-photon level, which could enable novel photonic devices and future quantum photonic information processing and computing, fast logic gates, and beyond. Importantly, this approach could lead to industry-ready CMOS-compatible and chip-integrated optical modulation platforms operating with single photons.
翻訳日:2023-12-20 17:59:20 公開日:2023-12-18
# 量子スイッチによる制御系のヒルベルト空間次元とメモリとの相互作用

Interplay between the Hilbert-space dimension of the control system and the memory induced by quantum SWITCH ( http://arxiv.org/abs/2312.11685v1 )

ライセンス: Link先を確認
Saheli Mukherjee, Bivas Mallick, Sravani Yanamandra, Samyadeb Bhattacharya and Ananda G. Maity(参考訳) 近年,様々な情報処理タスクの性能向上のための重要な資源として,量子SWITCHの有用性が実証されている。 量子SWITCHでは、さらなる制御システムによって制御される量子コンポーネントの代替構成のコヒーレントな重ね合わせにより、利点が顕著に現れる。 本稿では,制御系のヒルベルト空間次元が量子SWITCHの性能に与える影響について検討する。 特に、非マルコフ性の発生を通じて量子スイッチの量子化に焦点をあて、制御系のヒルベルト空間次元を増加させる際にその挙動を明示的に研究する。 制御系のヒルベルト空間次元の増大は、それによって引き起こされる非マルコフ記憶の増大につながることを観察する。 本研究は、SWITCHに基づく情報処理や通信タスクを改善するために、制御システムの寸法をどのように活用できるかを示す。

Several recent studies have demonstrated the utility of the quantum SWITCH as an important resource for enhancing the performance of various information processing tasks. In a quantum SWITCH, the advantages appear significantly due to the coherent superposition of alternative configurations of the quantum components which are controlled by an additional control system. Here we explore the impact of increasing the Hilbert-space dimension of the control system on the performance of the quantum SWITCH. In particular, we focus on a quantifier of the quantum SWITCH through the emergence of non-Markovianity and explicitly study their behavior when we increase the Hilbert-space dimension of the control system. We observe that increasing the Hilbert-space dimension of the control system leads to the corresponding enhancement of the non-Markovian memory induced by it. Our study demonstrates how the dimension of the control system can be harnessed to improve the quantum SWITCH-based information processing or communication tasks.
翻訳日:2023-12-20 17:58:59 公開日:2023-12-18
# クラウドソーシングワークフローからのテクニック適応によるLCMチェーンの設計

Designing LLM Chains by Adapting Techniques from Crowdsourcing Workflows ( http://arxiv.org/abs/2312.11681v1 )

ライセンス: Link先を確認
Madeleine Grunde-McLaughlin, Michelle S. Lam, Ranjay Krishna, Daniel S. Weld, Jeffrey Heer(参考訳) LLMチェーンは、作業を一連のサブタスクに分解することで複雑なタスクを可能にする。 ワークフローのクラウドソーシングも同様に、複雑なタスクを小さなタスクに分解する。 チェーンはLLMエラーに対処し、クラウドソーシングワークフローがヒューマンエラーに対処する方法と類似している。 LLMチェインの機会を特徴付けるため,クラウドソーシングとチェーンリングの文献107論文を調査し,チェーン開発のための設計空間を構築する。 設計空間は、LLM設計者の目的を、それらの目的を達成するために使用できる戦略と、それぞれの戦略を実装するための戦術に結びつける。 クラウドソーシングのテクニックをチェーンに適用する方法を探るため、クラウドソーシングワークフローを3つのケーススタディ – 分類の作成、テキストの短縮、短編記事の執筆 – に適用した。 設計分野と事例研究から,クラウドソーシングからllm連鎖へ移行する技術を特定し,今後の研究・開発へのインパクトを示唆する。

LLM chains enable complex tasks by decomposing work into a sequence of sub-tasks. Crowdsourcing workflows similarly decompose complex tasks into smaller tasks for human crowdworkers. Chains address LLM errors analogously to the way crowdsourcing workflows address human error. To characterize opportunities for LLM chaining, we survey 107 papers across the crowdsourcing and chaining literature to construct a design space for chain development. The design space connects an LLM designer's objectives to strategies they can use to achieve those objectives, and tactics to implement each strategy. To explore how techniques from crowdsourcing may apply to chaining, we adapt crowdsourcing workflows to implement LLM chains across three case studies: creating a taxonomy, shortening text, and writing a short story. From the design space and our case studies, we identify which techniques transfer from crowdsourcing to LLM chaining and raise implications for future research and development.
翻訳日:2023-12-20 17:58:45 公開日:2023-12-18
# 非局所スピン鎖に対するクリロフ複雑性

Krylov complexity for non-local spin chains ( http://arxiv.org/abs/2312.11677v1 )

ライセンス: Link先を確認
Aranya Bhattacharya, Pingal Pratyush Nath, Himanshu Sahu(参考訳) 非局所相互作用を持つスピン系における最近の研究に基づいて、Isingモデルの異なる非局所バージョンにおけるクリロフ複雑性を用いた作用素成長を研究する。 我々は、非局所性がオペレーターをすべてのサイトへより高速にスクランブルする結果をもたらすことを見出した。 局所可積分理論と局所カオス理論のクリロフ複雑性の飽和値はかなりのマージンで異なるが、この差は両政権で非局所項が導入されたときに大きく抑制される。 この結果、非局所性の存在下で情報のスクランブルが速くなる。 さらに,量子カオスのプローブとしてのレベル統計とスペクトル形状因子の挙動を調べ,非局所的相互作用による可積分性の破れの研究を行った。 我々の数値は、非局所の場合でさえ、クリロフ複雑性は異なる基礎となる理論と異なる非局所性の程度を区別できることを示している。

Building upon recent research in spin systems with non-local interactions, this study investigates operator growth using the Krylov complexity in different non-local versions of the Ising model. We find that the non-locality results in a faster scrambling of the operator to all sites. While the saturation value of Krylov complexity of local integrable and local chaotic theories differ by a significant margin, this difference is much suppressed when non-local terms are introduced in both regimes. This results from the faster scrambling of information in the presence of non-locality. In addition, we investigate the behavior of level statistics and spectral form factor as probes of quantum chaos to study the integrability breaking due to non-local interactions. Our numerics indicate that even in the non-local case, Krylov complexity can distinguish between different underlying theories as well as different degrees of non-locality.
翻訳日:2023-12-20 17:58:29 公開日:2023-12-18
# PRP再起動:FOND計画における最先端技術

PRP Rebooted: Advancing the State of the Art in FOND Planning ( http://arxiv.org/abs/2312.11675v1 )

ライセンス: Link先を確認
Christian Muise, Sheila A. McIlraith, J. Christopher Beck(参考訳) 完全な可観測的非決定論的計画(英: Fully Observable Non-Deterministic Planing、FOND)は、行動が非決定論的である古典的象徴的計画の変種である。 ロボット計画から対話エージェント設計、リアクティブ合成まで、様々な応用で人気のある計画パラダイムである。 過去20年間で、FOND計画への多くのアプローチが出現した。 本研究では,これまで最も強力なFONDプランナーの足跡を踏襲して,新たな最先端技術を確立する。 我々のプランナーである \us は、総合的なベンチマークスイートを表す18のドメインのうち17の領域において、4つの主要なFONDプランナーを決定的に上回っている。 アブレーション研究は我々が導入した様々な手法の実証的影響を示し、最も大きな改善は我々の新しい嗜好性ヒューリスティックによるものである。

Fully Observable Non-Deterministic (FOND) planning is a variant of classical symbolic planning in which actions are nondeterministic, with an action's outcome known only upon execution. It is a popular planning paradigm with applications ranging from robot planning to dialogue-agent design and reactive synthesis. Over the last 20 years, a number of approaches to FOND planning have emerged. In this work, we establish a new state of the art, following in the footsteps of some of the most powerful FOND planners to date. Our planner, \us, decisively outperforms the four leading FOND planners, at times by a large margin, in 17 of 18 domains that represent a comprehensive benchmark suite. Ablation studies demonstrate the empirical impact of various techniques we introduce, with the largest improvement coming from our novel FOND-aware heuristic.
翻訳日:2023-12-20 17:58:15 公開日:2023-12-18
# オンサイト室温量子コンピュータにおける最初の量子機械学習応用

First quantum machine learning applications on an on-site room-temperature quantum computer ( http://arxiv.org/abs/2312.11673v1 )

ライセンス: Link先を確認
Nils Herrmann, Mariam Akhtar, Daanish Arya, Marcus W. Doherty, Pascal Macha, Florian Preis, Stefan Prestel, Michael L. Walker(参考訳) 量子機械学習(qml)アルゴリズムを現場の室温量子コンピュータに初めて適用した例を示す。 オーストラリアのパースにあるpawsey supercomputing centreに設置された2量子ビット量子コンピュータは、未発見の2dデータポイントのマルチクラス分類問題を解決するために使用される。 基礎となる1量子ビットモデルは、ユニバーサル量子分類器のデータ再アップロードフレームワークに基づいており、adam optimiserを使って理想的な量子シミュレータでトレーニングされた。 トレーニングプロセスではノイズモデルやデバイス固有の洞察は使用されなかった。 最適化されたモデルは1つのXYX分解によって量子デバイスに展開され、3つのパラメータ化された1量子ビット回転が導かれる。 異なる分類問題に対する結果は、理想的なシミュレータの最適結果と比較される。 室温量子コンピュータは理想的な状態ベクトルシミュレーションと同等に非常に高い分類精度を達成する。

We demonstrate - for the first time - the application of a quantum machine learning (QML) algorithm on an on-site room-temperature quantum computer. A two-qubit quantum computer installed at the Pawsey Supercomputing Centre in Perth, Australia, is used to solve multi-class classification problems on unseen, i.e. untrained, 2D data points. The underlying 1-qubit model is based on the data re-uploading framework of the universal quantum classifier and was trained on an ideal quantum simulator using the Adam optimiser. No noise models or device-specific insights were used in the training process. The optimised model was deployed to the quantum device by means of a single XYX decomposition leading to three parameterised single qubit rotations. The results for different classification problems are compared to the optimal results of an ideal simulator. The room-temperature quantum computer achieves very high classification accuracies, on par with ideal state vector simulations.
翻訳日:2023-12-20 17:57:58 公開日:2023-12-18
# 古典的クライアントのための量子フェデレーション学習フレームワーク

A Quantum Federated Learning Framework for Classical Clients ( http://arxiv.org/abs/2312.11672v1 )

ライセンス: Link先を確認
Yanqi Song, Yusen Wu, Shengyao Wu, Dandan Li, Qiaoyan Wen, Sujuan Qin, and Fei Gao(参考訳) 量子フェデレートラーニング(QFL)は、各ローカルデータを共有することなく、量子コンピューティング能力を持つ複数のクライアント間で量子機械学習(QML)モデルの協調トレーニングを可能にする。 しかし、量子コンピューティングリソースが限られているため、各クライアントが量子コンピューティング能力を取得することは困難である。 代わりに量子コンピューティング機能をサーバにデプロイできるだろうか? 本稿では,この質問に対して,cc-qflと呼ばれる古典的クライアント専用に設計されたqflフレームワークを提案する。 各イテレーションにおいて、QMLモデルの協調トレーニングはシャドウトモグラフィー技術によって支援され、クライアントの量子コンピューティング能力の必要性がなくなる。 具体的には、サーバはQMLモデルの古典的な表現を構築し、クライアントに送信する。 クライアントはローカルデータをオブザーバブルにエンコードし、この古典的な表現を使って局所勾配を計算する。 これらの局所勾配を用いてQMLモデルのパラメータを更新する。 MNISTデータセットからの手書き桁画像を用いて,大規模な数値シミュレーションによりフレームワークの有効性を評価する。 我々のフレームワークは、特に量子コンピューティングリソースが不足しているシナリオにおいて、QFLに関する貴重な洞察を提供する。

Quantum Federated Learning (QFL) enables collaborative training of a Quantum Machine Learning (QML) model among multiple clients possessing quantum computing capabilities, without the need to share their respective local data. However, the limited availability of quantum computing resources poses a challenge for each client to acquire quantum computing capabilities. This raises a natural question: Can quantum computing capabilities be deployed on the server instead? In this paper, we propose a QFL framework specifically designed for classical clients, referred to as CC-QFL, in response to this question. In each iteration, the collaborative training of the QML model is assisted by the shadow tomography technique, eliminating the need for quantum computing capabilities of clients. Specifically, the server constructs a classical representation of the QML model and transmits it to the clients. The clients encode their local data onto observables and use this classical representation to calculate local gradients. These local gradients are then utilized to update the parameters of the QML model. We evaluate the effectiveness of our framework through extensive numerical simulations using handwritten digit images from the MNIST dataset. Our framework provides valuable insights into QFL, particularly in scenarios where quantum computing resources are scarce.
翻訳日:2023-12-20 17:57:44 公開日:2023-12-18
# 現実的自律課題における言語モデルエージェントの評価

Evaluating Language-Model Agents on Realistic Autonomous Tasks ( http://arxiv.org/abs/2312.11671v1 )

ライセンス: Link先を確認
Megan Kinniment, Lucas Jun Koba Sato, Haoxing Du, Brian Goodrich, Max Hasin, Lawrence Chan, Luke Harold Miles, Tao R. Lin, Hjalmar Wijk, Joel Burget, Aaron Ho, Elizabeth Barnes and Paul Christiano(参考訳) 本報告では,言語モデルエージェントがリソースを取得し,自己のコピーを作成し,野生で遭遇する新たな課題に適応する能力について検討する。 この機能のクラスタを "自己複製と適応" あるいは ARA と呼んでいる。 セキュリティ,監視,アライメントに関して,ARAを計測し,予測することは,セキュリティ,監視,アライメントに関する指標を示す上で有用である,と我々は考えている。 さらに、システムがARAを使えるようになると、システムの能力にバウンダリを置くことがかなり難しくなります。 我々は、言語モデルと、世界で行動を起こすためのツールを組み合わせた、単純な4つのサンプルエージェントを構築します。 次に、これらのエージェントをARAに関連する12のタスクで評価する。 これらの言語モデルエージェントは、このリストから最も簡単なタスクしか完了できないが、より困難なタスクについては前進している。 残念ながら、これらの評価は、近未来のエージェントがARAを実現できる可能性を排除するには不十分である。 特に、これらの評価が言語モデルの‘next generation’’(例えば、既存のモデルにおける100倍の効率的な計算スケールアップ)が、事前訓練中に中間評価を行わない限り、ARAが可能なエージェントを得られないことを保証できるとは考えていない。 関連して、既存のモデルの微調整がARAを直接対象としていない場合でも、より有能なエージェントを生み出すことが期待されている。

In this report, we explore the ability of language model agents to acquire resources, create copies of themselves, and adapt to novel challenges they encounter in the wild. We refer to this cluster of capabilities as "autonomous replication and adaptation" or ARA. We believe that systems capable of ARA could have wide-reaching and hard-to-anticipate consequences, and that measuring and forecasting ARA may be useful for informing measures around security, monitoring, and alignment. Additionally, once a system is capable of ARA, placing bounds on a system's capabilities may become significantly more difficult. We construct four simple example agents that combine language models with tools that allow them to take actions in the world. We then evaluate these agents on 12 tasks relevant to ARA. We find that these language model agents can only complete the easiest tasks from this list, although they make some progress on the more challenging tasks. Unfortunately, these evaluations are not adequate to rule out the possibility that near-future agents will be capable of ARA. In particular, we do not think that these evaluations provide good assurance that the ``next generation'' of language models (e.g. 100x effective compute scaleup on existing models) will not yield agents capable of ARA, unless intermediate evaluations are performed during pretraining. Relatedly, we expect that fine-tuning of the existing models could produce substantially more competent agents, even if the fine-tuning is not directly targeted at ARA.
翻訳日:2023-12-20 17:57:28 公開日:2023-12-18
# 連続強化学習における予測と制御

Prediction and Control in Continual Reinforcement Learning ( http://arxiv.org/abs/2312.11669v1 )

ライセンス: Link先を確認
Nishanth Anand, Doina Precup(参考訳) 時間差(TD)学習は、RLエージェントが有用なポリシーを抽出するために使用する値関数の推定を更新するためにしばしば用いられる。 本稿では,連続的強化学習における値関数推定に着目した。 本稿では,時間とともに持続する一般知識を持つ永続値関数と,新しい状況に迅速に適応可能な過渡値関数という,異なる時間スケールで更新される2つのコンポーネントに値関数を分解することを提案する。 我々は,本手法が連続学習に適していることを示す理論的結果を確立し,神経科学から補完学習システム(CLS)理論に関連性を示す。 実験的に、このアプローチは予測と制御の両方の問題のパフォーマンスを著しく改善する。

Temporal difference (TD) learning is often used to update the estimate of the value function which is used by RL agents to extract useful policies. In this paper, we focus on value function estimation in continual reinforcement learning. We propose to decompose the value function into two components which update at different timescales: a permanent value function, which holds general knowledge that persists over time, and a transient value function, which allows quick adaptation to new situations. We establish theoretical results showing that our approach is well suited for continual learning and draw connections to the complementary learning systems (CLS) theory from neuroscience. Empirically, this approach improves performance significantly on both prediction and control problems.
翻訳日:2023-12-20 17:57:02 公開日:2023-12-18
# HAAR:3次元ストランド型ヒューマンヘアスタイルのテキスト記述生成モデル

HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles ( http://arxiv.org/abs/2312.11666v1 )

ライセンス: Link先を確認
Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges, Michael J. Black and Justus Thies(参考訳) 3dヘアスタイルのための新しいストランドベース生成モデルであるhaarを提案する。 具体的には、テキスト入力に基づいて、HAARは現代のコンピュータグラフィックスエンジンで生産レベルの資産として使用できる3Dヘアスタイルを生成する。 現在のAIベースの生成モデルは、強力な2Dプリエントを利用して、ポイントクラウド、メッシュ、ボリューム機能という形で3Dコンテンツを再構築する。 しかし、2Dプリエントを使用することで、視覚的部分のみを回復することに本質的に制限される。 密閉されたヘア構造をこれらの方法で再構築することはできず、物理ベースのレンダリングやシミュレーションパイプラインで使用する準備ができていない 'outer shell' をモデル化するのみである。 対照的に,3dヘアストランドを基本表現とする最初のテキスト誘導生成法を提案する。 2d visual question-answering (vqa) システムを利用することで、人工毛髪モデルを自動的にアノテートします。 これにより、一般的なヘアスタイルUV空間で動作する潜伏拡散モデルを訓練することができる。 質的・定量的な研究では,提案モデルの能力を示し,既存のヘアスタイル生成手法と比較する。

We present HAAR, a new strand-based generative model for 3D human hairstyles. Specifically, based on textual inputs, HAAR produces 3D hairstyles that could be used as production-level assets in modern computer graphics engines. Current AI-based generative models take advantage of powerful 2D priors to reconstruct 3D content in the form of point clouds, meshes, or volumetric functions. However, by using the 2D priors, they are intrinsically limited to only recovering the visual parts. Highly occluded hair structures can not be reconstructed with those methods, and they only model the ''outer shell'', which is not ready to be used in physics-based rendering or simulation pipelines. In contrast, we propose a first text-guided generative method that uses 3D hair strands as an underlying representation. Leveraging 2D visual question-answering (VQA) systems, we automatically annotate synthetic hair models that are generated from a small set of artist-created hairstyles. This allows us to train a latent diffusion model that operates in a common hairstyle UV space. In qualitative and quantitative studies, we demonstrate the capabilities of the proposed model and compare it to existing hairstyle generation approaches.
翻訳日:2023-12-20 17:56:51 公開日:2023-12-18
# ケメニーランクの廃止

Eliciting Kemeny Rankings ( http://arxiv.org/abs/2312.11663v1 )

ライセンス: Link先を確認
Anne-Marie George, Christos Dimitrakakis(参考訳) 我々は,決闘のバンディト問題としてケメニーランキングを求めることを目的として,エージェントの嗜好を誘発する問題を定式化する。 ここで、バンドの腕はランク付けが必要な代替品に対応し、フィードバックはランダムにサンプリングされたエージェントによる代替品のペア比較に対応する。 我々は、サンプリングと置換なしの両方、すなわち、ある比較を複数回行うかどうかを同じエージェントに尋ねる可能性を考える。 ケメニーランキングの近似境界は、アームの勝利確率に対する信頼区間に依存する。 これらに基づいて、確率的近似(PAC)解を見つけるアルゴリズムを述べ、置換の有無にかかわらずサンプリングする際のサンプルの複雑さを詳しく述べる。 さらに,すべてのエージェントの選好が選択肢に対する厳格なランキングである場合,信頼区間を割り引く手段を提供し,それによってより効率的な明確化を導く。 我々は,信頼区間(および近似保証)の厳密化を推定するために,ルックアヘッドを用いた適応サンプリング法をいくつか定式化する。 全ての方法が合成データで比較される。

We formulate the problem of eliciting agents' preferences with the goal of finding a Kemeny ranking as a Dueling Bandits problem. Here the bandits' arms correspond to alternatives that need to be ranked and the feedback corresponds to a pairwise comparison between alternatives by a randomly sampled agent. We consider both sampling with and without replacement, i.e., the possibility to ask the same agent about some comparison multiple times or not. We find approximation bounds for Kemeny rankings dependant on confidence intervals over estimated winning probabilities of arms. Based on these we state algorithms to find Probably Approximately Correct (PAC) solutions and elaborate on their sample complexity for sampling with or without replacement. Furthermore, if all agents' preferences are strict rankings over the alternatives, we provide means to prune confidence intervals and thereby guide a more efficient elicitation. We formulate several adaptive sampling methods that use look-aheads to estimate how much confidence intervals (and thus approximation guarantees) might be tightened. All described methods are compared on synthetic data.
翻訳日:2023-12-20 17:56:33 公開日:2023-12-18
# コード用大規模言語モデルにおける記憶の痕跡

Traces of Memorisation in Large Language Models for Code ( http://arxiv.org/abs/2312.11658v1 )

ライセンス: Link先を確認
Ali Al-Kaswan and Maliheh Izadi and Arie van Deursen(参考訳) 大規模な言語モデルは、ヒューマンライクなテキストを生成する能力と、ソフトウェア工学のような様々な分野の潜在的な応用により、大きな人気を集めている。 コードのための大規模な言語モデルは、一般にインターネットから取り除かれた大量のソースコードコーパスで訓練される。 これらのデータセットの内容は記憶され、データ抽出攻撃の攻撃者によって抽出される。 本研究では,コードに対する大規模言語モデルの記憶率を調査し,その記憶率を自然言語で学習した大規模言語モデルと比較する。 我々は、既存の自然言語ベンチマークを採用し、攻撃に弱いサンプルを識別することで、コードのベンチマークを構築します。 さまざまなモデルに対して両方のベンチマークを実行し、データ抽出攻撃を実行します。 コードのための大きな言語モデルは、自然言語のようなデータ抽出攻撃に弱いことが分かりました。 潜在的に抽出可能なトレーニングデータから,CodeGen-Mono-16Bコード補完モデルから47%を抽出することができた。 また,パラメータ数が増加するにつれてモデルが記憶する量が増え,事前学習データも攻撃に弱いことも観察した。 また、データキャリアは通常のコードやドキュメントよりも高い速度で記憶されており、異なるモデルアーキテクチャが異なるサンプルを記憶していることも分かりました。 データの漏洩は深刻な結果をもたらすため,より広い範囲のモデルと抽出技術を用いて,この現象の程度をさらに調査し,この問題を軽減するための安全対策を構築するよう,研究コミュニティに要請する。

Large language models have gained significant popularity because of their ability to generate human-like text and potential applications in various fields, such as Software Engineering. Large language models for code are commonly trained on large unsanitised corpora of source code scraped from the internet. The content of these datasets is memorised and can be extracted by attackers with data extraction attacks. In this work, we explore memorisation in large language models for code and compare the rate of memorisation with large language models trained on natural language. We adopt an existing benchmark for natural language and construct a benchmark for code by identifying samples that are vulnerable to attack. We run both benchmarks against a variety of models, and perform a data extraction attack. We find that large language models for code are vulnerable to data extraction attacks, like their natural language counterparts. From the training data that was identified to be potentially extractable we were able to extract 47% from a CodeGen-Mono-16B code completion model. We also observe that models memorise more, as their parameter count grows, and that their pre-training data are also vulnerable to attack. We also find that data carriers are memorised at a higher rate than regular code or documentation and that different model architectures memorise different samples. Data leakage has severe outcomes, so we urge the research community to further investigate the extent of this phenomenon using a wider range of models and extraction techniques in order to build safeguards to mitigate this issue.
翻訳日:2023-12-20 17:56:15 公開日:2023-12-18
# ブリッジ論理と学習:ニューラルモデル(ASPER)における強化推論のためのニューラル・シンボリックアプローチ

Bridging Logic and Learning: A Neural-Symbolic Approach for Enhanced Reasoning in Neural Models (ASPER) ( http://arxiv.org/abs/2312.11651v1 )

ライセンス: Link先を確認
Fadi Al Machot(参考訳) ニューラルネットワークとシンボリック推論の交差点であるニューラルシンボリック学習は、ニューラルネットワークの学習能力とシンボリックAIの解釈可能性と推論を融合することを目的としている。 本稿では,学習推論タスクにおけるニューラルモデルの性能向上を目的としたアプローチを提案する。 従来の複雑なニューラルシンボリックモデルから逸脱するアプローチである、解集合プログラミング(asp)とドメイン固有の専門知識を統合することで、これを実現する。 本稿では,浅層ニューラルネットワーク(ANN)を用いて,最小限のトレーニングデータを用いて,スドクパズルの解法を特別に訓練する。 このモデルは、aspソルバ出力で計算された損失を統合するユニークな損失関数を持ち、トレーニング効率を効果的に向上する。 最も注目すべきは、ハイパーパラメータチューニングなしでトレーニングやテストに12のパズルしか使わず、スドクパズルの解法を大幅に改善したことだ。 この進歩は、モデルの強化された推論能力には実用的な応用があり、数独パズルを超えて様々な領域を含む可能性があることを示している。 コードはgithubにある。 https://github.com/fadi2200/aspen。

Neural-symbolic learning, an intersection of neural networks and symbolic reasoning, aims to blend neural networks' learning capabilities with symbolic AI's interpretability and reasoning. This paper introduces an approach designed to improve the performance of neural models in learning reasoning tasks. It achieves this by integrating Answer Set Programming (ASP) solvers and domain-specific expertise, which is an approach that diverges from traditional complex neural-symbolic models. In this paper, a shallow artificial neural network (ANN) is specifically trained to solve Sudoku puzzles with minimal training data. The model has a unique loss function that integrates losses calculated using the ASP solver outputs, effectively enhancing its training efficiency. Most notably, the model shows a significant improvement in solving Sudoku puzzles using only 12 puzzles for training and testing without hyperparameter tuning. This advancement indicates that the model's enhanced reasoning capabilities have practical applications, extending well beyond Sudoku puzzles to potentially include a variety of other domains. The code can be found on GitHub: https://github.com/Fadi2200/ASPEN.
翻訳日:2023-12-20 17:55:54 公開日:2023-12-18
# 3SAT用ディジタルアニールの変換依存性能向上

Transformation-Dependent Performance-Enhancement of Digital Annealer for 3-SAT ( http://arxiv.org/abs/2312.11645v1 )

ライセンス: Link先を確認
Christian M\"unch, Fritz Schinkel, Sebastian Zielinski, Stefan Walter(参考訳) 擬似非拘束バイナリ最適化(QUBO)問題はNPハード問題であり、実世界の多くの問題をQUBOとして定式化することができる。 現在、NPハード問題の任意のインスタンスを効率的に解くアルゴリズムは知られていない。 したがって、Digital Annealer、他のIsingマシン、および量子アニールなどの専用ハードウェアは、そのような問題を解決する利点をもたらす可能性がある。 本稿では,QUBO,すなわちブール充足可能性(SAT)問題,特に3-SAT問題として定式化できる問題について検討する。 3-SAT問題の興味深い点は、3-SATからQUBOへの変換が異なることである。 ディジタルアニーラを専用解法として,問題解に対する変換の影響について検討した。 良く知られた変換の他に、我々はこの文脈でまだ変換を議論していない新しいものを調べ、補助変数を少なくし、非常に優れたパフォーマンスをもたらす。 正確な対角化を用いて、異なる変換から生じる性能の違いを説明する。 私たちはこの知識が、高品質なソリューションを見つけるためにソルバ容量を改善するエンジニアリング変換を可能にすることを想定しています。 さらに,Digital Annealerは,ハード3SATインスタンスの解法において,量子アニールよりも優れていることを示す。

Quadratic Unconstrained Binary Optimization (QUBO) problems are NP-hard problems and many real-world problems can be formulated as QUBO. Currently there are no algorithms known that can solve arbitrary instances of NP-hard problems efficiently. Therefore special-purpose hardware such as Digital Annealer, other Ising machines, as well as quantum annealers might lead to benefits in solving such problems. We study a particularly hard class of problems which can be formulated as QUBOs, namely Boolean satisfiability (SAT) problems, and specifically 3-SAT. One intriguing aspect about 3-SAT problems is that there are different transformations from 3-SAT to QUBO. We study the transformations' influence on the problem solution, using Digital Annealer as a special-purpose solver. Besides well-known transformations we investigate a novel in this context not yet discussed transformation, using less auxiliary variables and leading to very good performance. Using exact diagonalization, we explain the differences in performance originating from the different transformations. We envision that this knowledge allows for specifically engineering transformations that improve a solvers capacity to find high quality solutions. Furthermore, we show that the Digital Annealer outperforms a quantum annealer in solving hard 3-SAT instances.
翻訳日:2023-12-20 17:55:33 公開日:2023-12-18
# 置換演算のための量子回路分解の分類と変換

Classification and transformations of quantum circuit decompositions for permutation operations ( http://arxiv.org/abs/2312.11644v1 )

ライセンス: Link先を確認
Ankit Khandelwal and Handy Kurniawan and Shraddha Aangiras and \"Ozlem Salehi and Adam Glos(参考訳) 置換ユニタリの効率的な分解は、量子コンピューティングで頻繁に現れるため不可欠である。 本稿では,置換ユニタリの分解過程に影響を与える重要な特性を明らかにする。 そして,同定された特性に基づいてこれらの分解を分類し,解析の包括的枠組みを確立する。 本論文は,マルチコントロールトッフォリゲートを用いたフレームワークの適用性を実証し,文献中の既存の分解が同定されたクラスのうち10のうち3つに過ぎなかったことを明らかにする。 この発見により、与えられた分解を他のクラスのメンバーに適応させ、資源削減を可能にする変換を提案する。

Efficient decomposition of permutation unitaries is vital as they frequently appear in quantum computing. In this paper, we identify the key properties that impact the decomposition process of permutation unitaries. Then, we classify these decompositions based on the identified properties, establishing a comprehensive framework for analysis. We demonstrate the applicability of the presented framework through the widely used multi-controlled Toffoli gate, revealing that the existing decompositions in the literature belong to only three out of ten of the identified classes. Motivated by this finding, we propose transformations that can adapt a given decomposition into a member of another class, enabling resource reduction.
翻訳日:2023-12-20 17:55:12 公開日:2023-12-18
# 正規化アテンションスコアを用いたより強いグラフ変換器

Stronger Graph Transformer with Regularized Attention Scores ( http://arxiv.org/abs/2312.11730v1 )

ライセンス: Link先を確認
Eugene Ku, Swetha Arunraj(参考訳) Graph Neural Networksは、そのメモリ消費で有名だ。 最近、Graph Transformerと呼ばれるTransformerベースのGNNでは、長距離依存が存在する場合、優れたパフォーマンスが得られることが示されている。 しかし、グラフデータとトランスフォーマーアーキテクチャを組み合わせることで、メモリの問題がさらに悪化した。 本稿では、位置エンコーディングの必要性を軽減し、GTのメモリ外問題を軽減する「エッジ正規化技術」の新たなバージョンを提案する。 位置符号化の上にエッジ正規化があるかどうかは明らかでない。 しかし、位置符号化が適用されない場合、エッジ正規化技術はGTの性能を安定的に向上する。

Graph Neural Networks are notorious for its memory consumption. A recent Transformer based GNN called Graph Transformer are shown to obtain superior performances when long range dependencies exist. However, combining graph data and Transformer architecture led to a combinationally worse memory issue. We propose a novel version of "edge regularization technique" that alleviates the need for Positional Encoding and ultimately alleviate GT's out of memory issue. We observe that it is not clear whether having an edge regularization on top of positional encoding is helpful. However, it seems evident when no positional encoding is applied, edge regularization technique indeed stably improves GT's performance.
翻訳日:2023-12-20 17:48:03 公開日:2023-12-18
# エンコーダのみ変換器モデルの論理推論能力の評価

Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models ( http://arxiv.org/abs/2312.11720v1 )

ライセンス: Link先を確認
Paulo Pirozelli, Marcos M. Jos\'e, Paulo de Tarso P. Filho, Anarosa A. F. Brand\~ao, Fabio G. Cozman(参考訳) 論理的推論は思考、議論、計画といった複雑な人間の活動の中心であり、多くのAIシステムの中心的なコンポーネントでもある。 本稿では,エンコーダのみのトランスフォーマー言語モデル (LM) が論理規則に則ってどの程度理屈を導けるかを検討する。 これらのlmsが命題計算と一階述語論理の定理を推論できるか、それらの問題の相対的成功が一般的な論理能力を反映しているのか、どの層がそのタスクに最も寄与するかを問う。 まず,複数のエンコーダのみのLMを適度に訓練して,様々なデータセットの論理的妥当性を判定できることを示す。 次に、これらのデータセット上で微調整されたモデルをクロスプロファイリングすることにより、LMはそれらの仮定的論理的推論能力の伝達に困難を持つことを示す。 最後に,階層的探索実験を行い,仮説分類タスクがより上位層を通じて解かれることを示した。

Logical reasoning is central to complex human activities, such as thinking, debating, and planning; it is also a central component of many AI systems as well. In this paper, we investigate the extent to which encoder-only transformer language models (LMs) can reason according to logical rules. We ask whether those LMs can deduce theorems in propositional calculus and first-order logic; if their relative success in these problems reflects general logical capabilities; and which layers contribute the most to the task. First, we show for several encoder-only LMs that they can be trained, to a reasonable degree, to determine logical validity on various datasets. Next, by cross-probing fine-tuned models on these datasets, we show that LMs have difficulty in transferring their putative logical reasoning ability, which suggests that they may have learned dataset-specific features, instead of a general capability. Finally, we conduct a layerwise probing experiment, which shows that the hypothesis classification task is mostly solved through higher layers.
翻訳日:2023-12-20 17:47:54 公開日:2023-12-18
# 距離はどれくらいか? ソフトウェア工学の学習における生成AIの試行と試行

How Far Are We? The Triumphs and Trials of Generative AI in Learning Software Engineering ( http://arxiv.org/abs/2312.11719v1 )

ライセンス: Link先を確認
Rudrajit Choudhuri, Dylan Liu, Igor Steinmacher, Marco Gerosa, Anita Sarma(参考訳) 会話生成AI(convo-genAI)は、エンジニアや学者が自分たちの仕事にこの技術を取り入れているため、ソフトウェア工学(SE)に革命をもたらしている。 しかし、この技術の現在の可能性と落とし穴を理解することにはギャップがあり、特にseタスクの学生を支援する。 本研究では,コンボゲンAIプラットフォームであるChatGPTのSEタスクにおける学生支援効果について,対象間比較(N=22)を通じて評価する。 本研究は,チャットgptを従来の資源と比較すると,参加者の生産性や自己効力の統計的差異は認められなかったが,フラストレーションレベルは有意に増加した。 また,Human-AIインタラクションガイドライン違反による5つの障害が明らかとなり,参加者に対して7つの異なる(負の)結果が得られた。

Conversational Generative AI (convo-genAI) is revolutionizing Software Engineering (SE) as engineers and academics embrace this technology in their work. However, there is a gap in understanding the current potential and pitfalls of this technology, specifically in supporting students in SE tasks. In this work, we evaluate through a between-subjects study (N=22) the effectiveness of ChatGPT, a convo-genAI platform, in assisting students in SE tasks. Our study did not find statistical differences in participants' productivity or self-efficacy when using ChatGPT as compared to traditional resources, but we found significantly increased frustration levels. Our study also revealed 5 distinct faults arising from violations of Human-AI interaction guidelines, which led to 7 different (negative) consequences on participants.
翻訳日:2023-12-20 17:47:35 公開日:2023-12-18
# UAVのための人間-機械チーム:実験プラットフォーム

Human-Machine Teaming for UAVs: An Experimentation Platform ( http://arxiv.org/abs/2312.11718v1 )

ライセンス: Link先を確認
Laila El Moujtahid and Sai Krishna Gottipati and Clod\'eric Mars and Matthew E. Taylor(参考訳) 完全自動化は、高スループットの決定を持つクリティカルなシステムでは実現可能でも望ましいものでもない。 代わりに、人間-AIチームはより良い結果を得ることができます。 このようなコラボレーションに適したアルゴリズムを研究、開発、評価、検証するには、人間と複数のAIエージェント間の相互作用を可能にする軽量な実験プラットフォームが必要である。 しかし、そのような防衛環境の例は限られている。 このギャップに対処するために,我々は,多種多様なマルチエージェントシステムを備え,aiエージェント,静的aiエージェント,人間を学習できるヒューマンマシンチーム(hmt)ユースケースを実装する,cogment human-machine teaming experimentation platformを提案する。 Cogmentプラットフォーム上に構築されており、学術研究に使われており、今年AAMASのALAワークショップで発表された作品[1]を含む。 このプラットフォームにより、重要なシステムや防衛環境における人間と機械の連携に関するさらなる研究が促進されることを願っている。

Full automation is often not achievable or desirable in critical systems with high-stakes decisions. Instead, human-AI teams can achieve better results. To research, develop, evaluate, and validate algorithms suited for such teaming, lightweight experimentation platforms that enable interactions between humans and multiple AI agents are necessary. However, there are limited examples of such platforms for defense environments. To address this gap, we present the Cogment human-machine teaming experimentation platform, which implements human-machine teaming (HMT) use cases that features heterogeneous multi-agent systems and can involve learning AI agents, static AI agents, and humans. It is built on the Cogment platform and has been used for academic research, including work presented at the ALA workshop at AAMAS this year [1]. With this platform, we hope to facilitate further research on human-machine teaming in critical systems and defense environments.
翻訳日:2023-12-20 17:47:20 公開日:2023-12-18
# Squeezed Edge YOLO:エッジデバイス上でのオブジェクト検出

Squeezed Edge YOLO: Onboard Object Detection on Edge Devices ( http://arxiv.org/abs/2312.11716v1 )

ライセンス: Link先を確認
Edward Humes, Mozhgan Navardi, Tinoosh Mohsenin(参考訳) 自律ナビゲーションにおいて重要な役割を担っているため、効率的な搭載物体検出への需要が増加している。 しかし、リソース制約エッジデバイスにYOLOなどのオブジェクト検出モデルをデプロイすることは、そのようなモデルの高い計算要求のため困難である。 本稿では,Squeezed Edge YOLOという圧縮物体検出モデルについて検討する。 このモデルは圧縮され、エッジデバイスに収めるためにキロバイトのパラメータに最適化される。 Squeezed Edge YOLOを評価するために、モデル精度と性能を示すために、人間と形状検出の2つのユースケースが使用される。 さらに、モデルは8つのRISC-Vコアを持つGAP8プロセッサと4GBのメモリを持つNVIDIA Jetson Nanoにデプロイされる。 実験の結果,エッジヨーロモデルのサイズは8倍に最適化され,エネルギー効率が76%向上し,全体の3.3倍高速化された。

Demand for efficient onboard object detection is increasing due to its key role in autonomous navigation. However, deploying object detection models such as YOLO on resource constrained edge devices is challenging due to the high computational requirements of such models. In this paper, an compressed object detection model named Squeezed Edge YOLO is examined. This model is compressed and optimized to kilobytes of parameters in order to fit onboard such edge devices. To evaluate Squeezed Edge YOLO, two use cases - human and shape detection - are used to show the model accuracy and performance. Moreover, the model is deployed onboard a GAP8 processor with 8 RISC-V cores and an NVIDIA Jetson Nano with 4GB of memory. Experimental results show Squeezed Edge YOLO model size is optimized by a factor of 8x which leads to 76% improvements in energy efficiency and 3.3x faster throughout.
翻訳日:2023-12-20 17:47:03 公開日:2023-12-18
# N$-representability条件を用いたシャドウトモグラフィーによる低測定

Fewer measurements from shadow tomography with $N$-representability conditions ( http://arxiv.org/abs/2312.11715v1 )

ライセンス: Link先を確認
Irma Avdic and David A. Mazziotti(参考訳) 古典的なシャドウトモグラフィーは量子状態とその性質を量子コンピューティングの応用による計算コストの低減で近似するランダム化スキームを提供する。 本稿では,多体系のシャドウトモグラフィにおいて,n$-representability 制約を課すことで,より少ない測定量を実現するアルゴリズムを提案する。 2体還元密度行列 (2-RDM) の加速トモグラフィは、2-RDMが$N$-body系を表現するために必要な制約と古典的な影を組み合わせることで達成される。 我々は水素鎖の基底状態エネルギーと2-rdmとn$_{2}$解離曲線を計算する。 その結果、短期量子デバイスにおける量子多体シミュレーションへの重要な応用による測定回数の大幅な削減が示されている。

Classical shadow tomography provides a randomized scheme for approximating the quantum state and its properties at reduced computational cost with applications in quantum computing. In this Letter we present an algorithm for realizing fewer measurements in the shadow tomography of many-body systems by imposing $N$-representability constraints. Accelerated tomography of the two-body reduced density matrix (2-RDM) is achieved by combining classical shadows with necessary constraints for the 2-RDM to represent an $N$-body system, known as $N$-representability conditions. We compute the ground-state energies and 2-RDMs of hydrogen chains and the N$_{2}$ dissociation curve. Results demonstrate a significant reduction in the number of measurements with important applications to quantum many-body simulations on near-term quantum devices.
翻訳日:2023-12-20 17:46:49 公開日:2023-12-18
# Time-Transformer: ローカルおよびグローバル機能の統合による時系列生成の改善

Time-Transformer: Integrating Local and Global Features for Better Time Series Generation ( http://arxiv.org/abs/2312.11714v1 )

ライセンス: Link先を確認
Yuansan Liu, Sudanthi Wijewickrema, Ang Li, Christofer Bester, Stephen O'Leary, James Bailey(参考訳) 時系列データの生成は、データ不足問題に対処するための有望なアプローチである。 しかし、局所的相関やグローバルな依存関係を含む時系列データの複雑な時間的特性のため、これは困難である。 既存の生成モデルは、時系列データの局所的特性と大域的特性の両方を効果的に学べなかった。 この問題に対処するため, 対向オートエンコーダ (AAE) とデコーダ内に新たに設計されたアーキテクチャ "Time-Transformer" から構成される新しい時系列生成モデル「Time-Transformer AAE」を提案する。 Time-Transformerは、まず、時間的畳み込みネットワークとTransformerがそれぞれローカル特徴とグローバル依存関係を抽出する能力を組み合わせて、レイヤワイド並列設計でローカル特徴とグローバル特徴を同時に学習する。 第2に,両枝間の補完的ガイダンスを提供し,局所的特徴とグローバル特徴の適切な融合を実現するために,双方向のクロス・アテンションを提案する。 実験の結果,本モデルは6つのデータセットのうち5つ,特にグローバルプロパティとローカルプロパティの両方を含むデータに対して,既存の最先端モデルよりも優れることがわかった。 さらに,このモデルのアドバンテージとして,人工データセットによるデータ処理を強調する。 最後に、小さなデータセットと不均衡なデータセットによる学習をサポートするデータ拡張という、現実的な問題に対処するモデルの能力を示す。

Generating time series data is a promising approach to address data deficiency problems. However, it is also challenging due to the complex temporal properties of time series data, including local correlations as well as global dependencies. Most existing generative models have failed to effectively learn both the local and global properties of time series data. To address this open problem, we propose a novel time series generative model named 'Time-Transformer AAE', which consists of an adversarial autoencoder (AAE) and a newly designed architecture named 'Time-Transformer' within the decoder. The Time-Transformer first simultaneously learns local and global features in a layer-wise parallel design, combining the abilities of Temporal Convolutional Networks and Transformer in extracting local features and global dependencies respectively. Second, a bidirectional cross attention is proposed to provide complementary guidance across the two branches and achieve proper fusion between local and global features. Experimental results demonstrate that our model can outperform existing state-of-the-art models in 5 out of 6 datasets, specifically on those with data containing both global and local properties. Furthermore, we highlight our model's advantage on handling this kind of data via an artificial dataset. Finally, we show our model's ability to address a real-world problem: data augmentation to support learning with small datasets and imbalanced datasets.
翻訳日:2023-12-20 17:46:35 公開日:2023-12-18
# 言語対応空間オントロジーによる屋内および屋外の3次元シーングラフ生成

Indoor and Outdoor 3D Scene Graph Generation via Language-Enabled Spatial Ontologies ( http://arxiv.org/abs/2312.11713v1 )

ライセンス: Link先を確認
Jared Strader, Nathan Hughes, William Chen, Alberto Speranzon, Luca Carlone(参考訳) 本稿では,任意の(屋内および屋外)環境で3次元シーングラフを構築する手法を提案する。 このような拡張は困難であり、屋外環境を記述する概念の階層は屋内よりも複雑であり、手動でそのような階層を定義するのは時間を要するためスケールしない。 さらに、トレーニングデータの欠如は、屋内環境で使用される学習ツールの直接的な適用を妨げる。 これらの課題に対処するため、我々は2つの新しい拡張を提案する。 まず,室内と屋外のロボット操作に関連する概念と関係を定義する空間オントロジーを構築する手法を開発する。 特に私たちは,このようなオントロジーを構築するために,大規模な言語モデル(llm)を使用しています。 第2に、論理テンソルネットワーク(LTN)を用いた3次元シーングラフ構築のための空間オントロジーを活用し、論理的ルールや公理(例えば「砂を含むビーチ」など)を追加し、トレーニング時に追加の監視信号を提供することにより、ラベル付きデータの必要性を低減し、より良い予測を提供し、トレーニング時に見えない概念を予測できる。 室内環境,農村環境,沿岸環境を含む様々なデータセットで本手法を検証した結果,微少な注釈付きデータによる3Dシーングラフ生成の品質が著しく向上することが確認された。

This paper proposes an approach to build 3D scene graphs in arbitrary (indoor and outdoor) environments. Such extension is challenging; the hierarchy of concepts that describe an outdoor environment is more complex than for indoors, and manually defining such hierarchy is time-consuming and does not scale. Furthermore, the lack of training data prevents the straightforward application of learning-based tools used in indoor settings. To address these challenges, we propose two novel extensions. First, we develop methods to build a spatial ontology defining concepts and relations relevant for indoor and outdoor robot operation. In particular, we use a Large Language Model (LLM) to build such an ontology, thus largely reducing the amount of manual effort required. Second, we leverage the spatial ontology for 3D scene graph construction using Logic Tensor Networks (LTN) to add logical rules, or axioms (e.g., "a beach contains sand"), which provide additional supervisory signals at training time thus reducing the need for labelled data, providing better predictions, and even allowing predicting concepts unseen at training time. We test our approach in a variety of datasets, including indoor, rural, and coastal environments, and show that it leads to a significant increase in the quality of the 3D scene graph generation with sparsely annotated data.
翻訳日:2023-12-20 17:46:09 公開日:2023-12-18
# ディファレンシャルプライバシのばらばらな影響を低減するための単純かつ実用的な方法

A Simple and Practical Method for Reducing the Disparate Impact of Differential Privacy ( http://arxiv.org/abs/2312.11712v1 )

ライセンス: Link先を確認
Lucas Rosenblatt, Julia Stoyanovich, Christopher Musco(参考訳) 異なるプライベート(DP)メカニズムは、様々な影響の高い社会環境(特にアメリカ合衆国国勢調査によって)に展開されている。 全てのDPメカニズムは、統計的クエリの結果にノイズを加えることを含むため、データから正確に分析および学習する能力に影響を与えることが期待されている。 DPが実用性に与える影響は、異なるサブ集団間で大きく異なる。 この格差を減らす簡単な方法は、階層化である。 まず、データセットの各グループ(いくつかの保護されたクラスの交差点かもしれない)の独立したプライベートな見積もりを計算し、それからグローバルな統計の見積もりを計算し、これらのグループ推定を適切に再結合する。 我々の主な観察は、ナイーブな階層化は、追加のプライバシー予算を必要とせずに、しばしば人口レベルの統計の高精度な見積もりをもたらすことである。 我々はこの観察を理論的かつ実証的に支援する。 実験結果は私的平均推定問題を中心に, 実験では私的データ合成に関する広範囲な実験を行い, 様々な私的メカニズムにおける階層化の有効性を実証した。 全体として、この単純なアプローチは、DPメカニズムの実用性格差を減らすための今後の取り組みを比較すべき、強力なベースラインを提供すると論じる。

Differentially private (DP) mechanisms have been deployed in a variety of high-impact social settings (perhaps most notably by the U.S. Census). Since all DP mechanisms involve adding noise to results of statistical queries, they are expected to impact our ability to accurately analyze and learn from data, in effect trading off privacy with utility. Alarmingly, the impact of DP on utility can vary significantly among different sub-populations. A simple way to reduce this disparity is with stratification. First compute an independent private estimate for each group in the data set (which may be the intersection of several protected classes), then, to compute estimates of global statistics, appropriately recombine these group estimates. Our main observation is that naive stratification often yields high-accuracy estimates of population-level statistics, without the need for additional privacy budget. We support this observation theoretically and empirically. Our theoretical results center on the private mean estimation problem, while our empirical results center on extensive experiments on private data synthesis to demonstrate the effectiveness of stratification on a variety of private mechanisms. Overall, we argue that this straightforward approach provides a strong baseline against which future work on reducing utility disparities of DP mechanisms should be compared.
翻訳日:2023-12-20 17:45:45 公開日:2023-12-18
# 機械学習の原子間ポテンシャルによる無機表面の予測の高速化

Accelerating the prediction of inorganic surfaces with machine learning interatomic potentials ( http://arxiv.org/abs/2312.11708v1 )

ライセンス: Link先を確認
Kyle Noordhoek, Christopher J. Bartel(参考訳) 固体材料の表面特性は、特にナノスケール効果が重要となる用途において、しばしばその機能を規定する。 関連した表面とその特性は、大部分において、材料合成または動作条件によって決定される。 これらの条件は、観測された表面構造と形態を生じさせる熱力学的駆動力と運動速度を決定する。 熱化学条件を表面相安定性に結びつけるための計算表面科学法は、特にヘテロジニアス触媒と薄膜成長コミュニティにおいて、長い間適用されてきた。 このレビューは、新しいデータ駆動アプローチを導入する前に、表面相図を計算するための第一原理アプローチを簡単に紹介する。 レビューの残りの部分は、主に学習された原子間ポテンシャルの形で、複雑な表面を研究する機械学習の応用に焦点を当てている。 機械学習アルゴリズムや、それらを訓練する大規模なデータセットが材料科学においてより一般的になるにつれて、計算手法はナノスケールの無機表面の複雑さをモデル化するためにさらに予測的かつ強力なものになりつつある。

The surface properties of solid-state materials often dictate their functionality, especially for applications where nanoscale effects become important. The relevant surface(s) and their properties are determined, in large part, by the materials synthesis or operating conditions. These conditions dictate thermodynamic driving forces and kinetic rates responsible for yielding the observed surface structure and morphology. Computational surface science methods have long been applied to connect thermochemical conditions to surface phase stability, particularly in the heterogeneous catalysis and thin film growth communities. This review provides a brief introduction to first-principles approaches to compute surface phase diagrams before introducing emerging data-driven approaches. The remainder of the review focuses on the application of machine learning, predominantly in the form of learned interatomic potentials, to study complex surfaces. As machine learning algorithms and large datasets on which to train them become more commonplace in materials science, computational methods are poised to become even more predictive and powerful for modeling the complexities of inorganic surfaces at the nanoscale.
翻訳日:2023-12-20 17:45:24 公開日:2023-12-18
# SOにおける拡散生成モデルの統一フレームワーク(3):コンピュータビジョンと天体物理学への応用

Unified framework for diffusion generative models in SO(3): applications in computer vision and astrophysics ( http://arxiv.org/abs/2312.11707v1 )

ライセンス: Link先を確認
Yesukhei Jagvaral, Francois Lanusse, Rachel Mandelbaum(参考訳) 拡散に基づく生成モデルは、画像生成の現在の最先端を表す。 しかし、標準拡散モデルはユークリッド幾何学に基づいており、多様体値のデータに直接変換しない。 本研究では,3次元回転のリー群へのスコアベース生成モデル(SGM)と拡散確率モデル(DDPM)の拡張(SO(3))を開発する。 so(3)はロボティクス、生化学、天文学/コスモロジー科学など多くの分野に特に興味を持っている。 より一般的なリーマン多様体とは対照的に、SO(3) は熱拡散に対する引き込み可能な解を認め、拡散モデルの効率的な訓練を実装できる。 我々は,SO(3) DDPMとSGMの両方をSO(3)上の合成密度に適用し,最先端の結果を示す。 さらに、天体物理学/コスモロジーにおけるポーズ推定タスクや相関銀河方位予測におけるモデルの実践性を示す。

Diffusion-based generative models represent the current state-of-the-art for image generation. However, standard diffusion models are based on Euclidean geometry and do not translate directly to manifold-valued data. In this work, we develop extensions of both score-based generative models (SGMs) and Denoising Diffusion Probabilistic Models (DDPMs) to the Lie group of 3D rotations, SO(3). SO(3) is of particular interest in many disciplines such as robotics, biochemistry and astronomy/cosmology science. Contrary to more general Riemannian manifolds, SO(3) admits a tractable solution to heat diffusion, and allows us to implement efficient training of diffusion models. We apply both SO(3) DDPMs and SGMs to synthetic densities on SO(3) and demonstrate state-of-the-art results. Additionally, we demonstrate the practicality of our model on pose estimation tasks and in predicting correlated galaxy orientations for astrophysics/cosmology.
翻訳日:2023-12-20 17:45:05 公開日:2023-12-18
# テンソルネットワークにおける複素時間発展

Complex Time Evolution in Tensor Networks ( http://arxiv.org/abs/2312.11705v1 )

ライセンス: Link先を確認
M. Grundner, P. Westhoff, F. B. Kugler, O. Parcollet and U. Schollw\"ock(参考訳) テンソルネットワークにおけるリアルタイム計算は、エンタングルメント成長によって時間的に強く制限され、グリーン関数、スペクトル関数、自己エネルギー、その他の関連する量の達成可能な周波数分解能を制限する。 複素平面の輪郭に時間発展を拡大することにより、絡み合いの増大を削減し、時間依存型相関器とグリーン関数の数値的に効率的な高精度計算を可能にする。 複素平面における時間発展への様々なアプローチと、純粋な実時間情報と周波数情報を抽出するのに必要な後処理を比較した。 本研究では, 行列生成状態を用いた単重性アンダーソンモデルと, ツリーテンソルネットワークを用いた3バンドハバード・カナモリモデル, dworin-narathモデルについて評価を行った。 提案手法は,材料の現実的な計算にも応用できることが示唆された。

Real-time calculations in tensor networks are strongly limited in time by entanglement growth, restricting the achievable frequency resolution of Green's functions, spectral functions, self-energies, and other related quantities. By extending the time evolution to contours in the complex plane, entanglement growth is curtailed, enabling numerically efficient high-precision calculations of time-dependent correlators and Green's functions with detailed frequency resolution. Various approaches to time evolution in the complex plane and the required post-processing for extracting the pure real-time and frequency information are compared. We benchmark our results on the examples of the single-impurity Anderson model using matrix-product states and of the three-band Hubbard-Kanamori and Dworin-Narath models using a tree tensor network. Our findings indicate that the proposed methods are also applicable to challenging realistic calculations of materials.
翻訳日:2023-12-20 17:44:48 公開日:2023-12-18
# マルチソースニュース要約を用いた政治談話の形成

Shaping Political Discourse using multi-source News Summarization ( http://arxiv.org/abs/2312.11703v1 )

ライセンス: Link先を確認
Charles Rajan, Nishit Asnani, Shreya Singh(参考訳) マルチドキュメント要約は、同じトピックに関連する複数のドキュメントの簡潔な要約を自動的に生成するプロセスである。 この要約は、ユーザーが大量のドキュメントから重要な情報を素早く理解するのに役立ちます。 複数文書要約システムは、複数のソースからの情報を識別し結合する必要があるため、単一文書要約システムよりも複雑である。 本稿では,複数のニュース文書からトピックの簡潔な要約を生成する機械学習モデルを開発した。 このモデルは、たとえ多くのニュースソースが一方的に傾いたとしても、トピックのさまざまな側面から入力を均等にサンプリングすることで偏りなく設計されている。

Multi-document summarization is the process of automatically generating a concise summary of multiple documents related to the same topic. This summary can help users quickly understand the key information from a large collection of documents. Multi-document summarization systems are more complex than single-document summarization systems due to the need to identify and combine information from multiple sources. In this paper, we have developed a machine learning model that generates a concise summary of a topic from multiple news documents. The model is designed to be unbiased by sampling its input equally from all the different aspects of the topic, even if the majority of the news sources lean one way.
翻訳日:2023-12-20 17:44:31 公開日:2023-12-18
# エネルギー効率・脱炭研究における大規模言語モデルの適用の可能性と課題:探索的概要

Opportunities and Challenges of Applying Large Language Models in Building Energy Efficiency and Decarbonization Studies: An Exploratory Overview ( http://arxiv.org/abs/2312.11701v1 )

ライセンス: Link先を確認
Liang Zhang, Zhelun Chen(参考訳) 近年、大規模言語モデル(llm)の急速な進歩と印象的な能力が様々な領域で明らかにされている。 本稿では, LLMのエネルギー効率と脱炭研究への応用, 意義, 可能性について検討する。 知的制御システム,コード生成,データ基盤,知識抽出,教育など,ビルディングエネルギー分野の文脈において,llmの広帯域化能力について検討した。 LLMの有望な可能性にもかかわらず、複雑で高価な計算、データのプライバシー、セキュリティと著作権、微調整されたLLMの複雑さ、自己整合性といった課題について議論する。 この論文は、ドメイン固有のタスクのためのLLMの強化、マルチモーダルLLM、AIとエネルギー専門家の協調研究に焦点を当てた将来の研究の呼びかけで締めくくっている。

In recent years, the rapid advancement and impressive capabilities of Large Language Models (LLMs) have been evident across various domains. This paper explores the application, implications, and potential of LLMs in building energy efficiency and decarbonization studies. The wide-ranging capabilities of LLMs are examined in the context of the building energy field, including intelligent control systems, code generation, data infrastructure, knowledge extraction, and education. Despite the promising potential of LLMs, challenges including complex and expensive computation, data privacy, security and copyright, complexity in fine-tuned LLMs, and self-consistency are discussed. The paper concludes with a call for future research focused on the enhancement of LLMs for domain-specific tasks, multi-modal LLMs, and collaborative research between AI and energy experts.
翻訳日:2023-12-20 17:44:19 公開日:2023-12-18
# 科学文献からの材料データセットのエージェントベース学習

Agent-based Learning of Materials Datasets from Scientific Literature ( http://arxiv.org/abs/2312.11690v1 )

ライセンス: Link先を確認
Mehrad Ansari and Seyed Mohamad Moosavi(参考訳) 機械学習と人工知能の進歩は、材料発見を変革している。 しかし、構造化実験データの可用性は依然としてボトルネックである。 膨大な科学文献のコーパスは、そのようなデータの貴重な豊富な資源を提供する。 しかし、これらのリソースから手動でデータセットを作成することは、品質と一貫性、スケーラビリティの制限、ヒューマンエラーとバイアスのリスクのために難しい。 そこで本研究では,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,文や段落から広範な科学的研究論文まで,自然言語テキストから構造化データセットを自動生成することで,これらの課題を克服する。 化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文、科学者、インターネット、その他のツールから既存の知識を活用して、アクションを計画し実行することができます。 我々は, 固体不純物ドーピング, 金属-有機系(MOF)化学式, 特性関係など, 複雑度の高い3種類の情報抽出タスクにおいて, 提案手法の性能をベンチマークした。 その結果, ゼロショットエージェントは, 適切なツールを用いて, 最先端の微調整材料情報抽出法に匹敵する性能を得ることができた。 このアプローチは、さまざまな材料発見アプリケーションのための機械学習対応データセットのコンパイルを単純化し、自然言語における初心者向け高度な自然言語処理ツールのアクセシビリティを大幅に緩和する。 本研究の方法論はhttps://github.com/AI4ChemS/Eunomia上のオープンソースソフトウェアとして開発されている。

Advancements in machine learning and artificial intelligence are transforming materials discovery. Yet, the availability of structured experimental data remains a bottleneck. The vast corpus of scientific literature presents a valuable and rich resource of such data. However, manual dataset creation from these resources is challenging due to issues in maintaining quality and consistency, scalability limitations, and the risk of human error and bias. Therefore, in this work, we develop a chemist AI agent, powered by large language models (LLMs), to overcome these challenges by autonomously creating structured datasets from natural language text, ranging from sentences and paragraphs to extensive scientific research articles. Our chemist AI agent, Eunomia, can plan and execute actions by leveraging the existing knowledge from decades of scientific research articles, scientists, the Internet and other tools altogether. We benchmark the performance of our approach in three different information extraction tasks with various levels of complexity, including solid-state impurity doping, metal-organic framework (MOF) chemical formula, and property relations. Our results demonstrate that our zero-shot agent, with the appropriate tools, is capable of attaining performance that is either superior or comparable to the state-of-the-art fine-tuned materials information extraction methods. This approach simplifies compilation of machine learning-ready datasets for various materials discovery applications, and significantly ease the accessibility of advanced natural language processing tools for novice users in natural language. The methodology in this work is developed as an open-source software on https://github.com/AI4ChemS/Eunomia.
翻訳日:2023-12-20 17:44:03 公開日:2023-12-18
# ベイズ空間モデルによる都市クラウドソーシングにおける未報告の補正

A Bayesian Spatial Model to Correct Under-Reporting in Urban Crowdsourcing ( http://arxiv.org/abs/2312.11754v1 )

ライセンス: Link先を確認
Gabriel Agostini, Emma Pierson, Nikhil Garg(参考訳) 意思決定者はしばしば報告プロセスを通じて出来事を観察する。 例えば、市政府は、倒れた街路樹、浸水した地下室、ネズミの感染などの都市インフラの問題を見つけ、解決するために住民の報告に頼っている。 追加の仮定がなければ、発生したイベントを区別する手段はないが、本当に発生しなかったイベントからは報告されない。 報告率の格差は住民人口と相関するため、報告に基づいてのみ事件に対処することは、出来事を報告しにくい地区では体系的に無視される。 イベントが空間的に相関しているという事実を利用して,この課題を克服する方法を示す。 筆者らは, ベイズ空間潜伏変動モデルを用いて, 地震発生確率を推定し, ニューヨーク市の豪雨による洪水報告に適用し, さらに複数の嵐にまたがって結果を収集した。 報告不足と空間的相関を考慮に入れたモデルが,他のモデルよりも正確な将来の報告を予測し,さらに,人口を反映し,非白人・非伝統的・低所得層への公平なサービスの提供という,より公平な検査のセットを導出することを示す。 この発見は、このモデルが学んだ異質な報告行動の反映である: 人口の多い国勢調査管では報告率は高く、白人人口の割合は高く、所有者が占める世帯の割合は高い。 我々の研究は、異なる報告行動であっても、より公平なプロアクティブな政府サービスの基盤となる。

Decision-makers often observe the occurrence of events through a reporting process. City governments, for example, rely on resident reports to find and then resolve urban infrastructural problems such as fallen street trees, flooded basements, or rat infestations. Without additional assumptions, there is no way to distinguish events that occur but are not reported from events that truly did not occur--a fundamental problem in settings with positive-unlabeled data. Because disparities in reporting rates correlate with resident demographics, addressing incidents only on the basis of reports leads to systematic neglect in neighborhoods that are less likely to report events. We show how to overcome this challenge by leveraging the fact that events are spatially correlated. Our framework uses a Bayesian spatial latent variable model to infer event occurrence probabilities and applies it to storm-induced flooding reports in New York City, further pooling results across multiple storms. We show that a model accounting for under-reporting and spatial correlation predicts future reports more accurately than other models, and further induces a more equitable set of inspections: its allocations better reflect the population and provide equitable service to non-white, less traditionally educated, and lower-income residents. This finding reflects heterogeneous reporting behavior learned by the model: reporting rates are higher in Census tracts with higher populations, proportions of white residents, and proportions of owner-occupied households. Our work lays the groundwork for more equitable proactive government services, even with disparate reporting behavior.
翻訳日:2023-12-20 17:35:29 公開日:2023-12-18
# ポーカーハンド履歴ファイルフォーマットの仕様

Poker Hand History File Format Specification ( http://arxiv.org/abs/2312.11753v1 )

ライセンス: Link先を確認
Juho Kim(参考訳) 本稿ではポーカーハンドヒストリー(PHH)ファイルフォーマットを導入し,ポーカーハンドの記録を多種多様なゲームで標準化する。 心身スポーツとしてポーカーが主流の文化で広く普及し、不完全な情報AIエージェントのベンチマークとしての人工知能(AI)研究の分野における卓越しているにもかかわらず、機械で簡単に解析できる様々な種類のポーカーハンドを人間が文書化するために使用できる一貫したフォーマットが欠如している。 このギャップに対処するため,本論文では,初期ゲームパラメータやアクションから,会場,プレーヤ,タイムコントロール情報に制限されないコンテキストパラメータに至るまで,手作業のさまざまな詳細を包括的にキャプチャする,手作業履歴の簡潔で可読なマシンフレンドリーな表現を提供するPHHフォーマットを提案する。 補足では、PHHフォーマットの11種類の変種をカバーする1万以上の手を提供する。 ポーカーハンドシミュレーションツールであるPokerKitに関する以前の研究に基づいて、PHHパーサのオープンソースPython実装の使用例を実演しました。 パーサのソースコードはgithubで入手できる。 https://github.com/uoftcprg/pokerkit

This paper introduces the Poker Hand History (PHH) file format, designed to standardize the recording of poker hands across different game variants. Despite poker's widespread popularity in the mainstream culture as a mind sport and its prominence in the field of artificial intelligence (AI) research as a benchmark for imperfect information AI agents, it lacks a consistent format that humans can use to document poker hands across different variants that can also easily be parsed by machines. To address this gap in the literature, we propose the PHH format which provides a concise human-readable machine-friendly representation of hand history that comprehensively captures various details of the hand, ranging from initial game parameters and actions to contextual parameters including but not limited to the venue, players, and time control information. In the supplementary, we provide over 10,000 hands covering 11 different variants in the PHH format. Building on our previous work on PokerKit, a premier poker hand simulation tool, we demonstrate the usages of our open-source Python implementation of the PHH parser. The source code of the parser is available on GitHub: https://github.com/uoftcprg/pokerkit
翻訳日:2023-12-20 17:35:00 公開日:2023-12-18
# Qスコアマッチングによるリワードからの拡散モデルポリシーの学習

Learning a Diffusion Model Policy from Rewards via Q-Score Matching ( http://arxiv.org/abs/2312.11752v1 )

ライセンス: Link先を確認
Michael Psenka, Alejandro Escontrela, Pieter Abbeel, Yi Ma(参考訳) 拡散モデルは、行動クローニングとオフライン強化学習においてアクターポリシーを表現するために一般的な選択肢となっている。 これは、連続空間上の表現的分布のクラスを最適化する自然な能力のためである。 しかし、以前の作品では拡散モデルのスコアベースの構造を活用できず、俳優の訓練に単純な行動クローンの用語を使い、俳優の批判的な設定における能力を制限する。 本稿では,オフ・ポリシー強化学習に着目し,ポリシーのスコアとq関数の動作勾配の関連構造を活用した拡散モデルポリシーの学習手法を提案する。 本手法をq-score matching と表現し,このアプローチを理論的に正当化する。 提案手法の有効性を実証するため,シミュレーション環境で実験を行い,一般的なベースラインと比較した。

Diffusion models have become a popular choice for representing actor policies in behavior cloning and offline reinforcement learning. This is due to their natural ability to optimize an expressive class of distributions over a continuous space. However, previous works fail to exploit the score-based structure of diffusion models, and instead utilize a simple behavior cloning term to train the actor, limiting their ability in the actor-critic setting. In this paper, we focus on off-policy reinforcement learning and propose a new method for learning a diffusion model policy that exploits the linked structure between the score of the policy and the action gradient of the Q-function. We denote this method Q-score matching and provide theoretical justification for this approach. We conduct experiments in simulated environments to demonstrate the effectiveness of our proposed method and compare to popular baselines.
翻訳日:2023-12-20 17:34:40 公開日:2023-12-18
# CycleGANと知覚損失を用いた超音波画像強調

Ultrasound Image Enhancement using CycleGAN and Perceptual Loss ( http://arxiv.org/abs/2312.11748v1 )

ライセンス: Link先を確認
Shreeram Athreya, Ashwath Radhachandran, Vedrana Ivezi\'c, Vivek Sant, Corey W. Arnold, William Speier(参考訳) 目的: 本研究の目的は, 超音波画像, 特に携帯型ハンドヘルドデバイスで捉えた画像に, ハードウェアの制約により, 画質の低い画像を生成する高度なフレームワークを導入することである。 さらに、このフレームワークは、非登録の入力超音波画像ペアを効果的に処理することができ、医療画像における一般的な課題に対処できる。 材料と方法: この回顧研究では, 5つの臓器システムにわたる超音波画像強調のために, 拡張型ジェネレーティブ・アドバーサリー・ネットワーク(cyclegan)モデルを用いた。 トレーニング済みニューラルネットワークの深い特徴から派生した知覚的損失は、強化された画像の人間の知覚的品質を保証するために適用される。 これらの画像は、高分解能デバイスから取得したペア画像と比較され、オルガンシステム間で現実的な高画質画像を生成する能力を示す。 結果: フレームワークの予備的な検証は、有望なパフォーマンス指標を明らかにします。 このモデルは、構造類似度指数(SSI)スコアが0.722、局所正規化相互相関(LNCC)スコアが0.902、ピーク信号対雑音比(PSNR)メトリックが28.802となる画像を生成する。 結論: 本研究は, 知覚損失(pl)により拡張されたサイクガンモデルの開発を通じて, 超音波画像間の品質ギャップを効果的に橋渡しし, 医用画像の高度化を実現する。 ペアイメージのトレーニングによって、モデルは画質を向上させるだけでなく、重要な解剖学的構造コンテンツの保存も保証する。 このアプローチは、より広範な臨床応用にはさらなるバリデーションと最適化が必要であるが、ポータブルデバイス機能を強化することにより、医療へのアクセスの公平性を向上させる可能性がある。

Purpose: The objective of this work is to introduce an advanced framework designed to enhance ultrasound images, especially those captured by portable hand-held devices, which often produce lower quality images due to hardware constraints. Additionally, this framework is uniquely capable of effectively handling non-registered input ultrasound image pairs, addressing a common challenge in medical imaging. Materials and Methods: In this retrospective study, we utilized an enhanced generative adversarial network (CycleGAN) model for ultrasound image enhancement across five organ systems. Perceptual loss, derived from deep features of pretrained neural networks, is applied to ensure the human-perceptual quality of the enhanced images. These images are compared with paired images acquired from high resolution devices to demonstrate the model's ability to generate realistic high-quality images across organ systems. Results: Preliminary validation of the framework reveals promising performance metrics. The model generates images that result in a Structural Similarity Index (SSI) score of 0.722, Locally Normalized Cross-Correlation (LNCC) score of 0.902 and 28.802 for the Peak Signal-to-Noise Ratio (PSNR) metric. Conclusion: This work presents a significant advancement in medical imaging through the development of a CycleGAN model enhanced with Perceptual Loss (PL), effectively bridging the quality gap between ultrasound images from varied devices. By training on paired images, the model not only improves image quality but also ensures the preservation of vital anatomic structural content. This approach may improve equity in access to healthcare by enhancing portable device capabilities, although further validation and optimizations are necessary for broader clinical application.
翻訳日:2023-12-20 17:34:27 公開日:2023-12-18
# 非現実的説明のためのロバスト確率グラフ生成器

Robust Stochastic Graph Generator for Counterfactual Explanations ( http://arxiv.org/abs/2312.11747v1 )

ライセンス: Link先を確認
Mario Alfonso Prado-Romero, Bardh Prenkaj, Giovanni Stilo(参考訳) 対実的説明(CE)技術は、AIシステムに関わるユーザに洞察を提供する手段として注目を集めている。 医療画像や自動運転車などの分野で広く研究されているが、グラフ対実説明法(GCE)の手法は比較的研究が進んでいない。 gcesは元のグラフに似た新しいグラフを生成し、基礎となる予測モデルに基づいて異なる結果を生成する。 これらのGCE技法のうち、生成機構に根ざしたものは、芸術的スタイルや自然言語モデリングなど、他の領域における顕著な成果にもかかわらず、比較的限定的な調査を受けている。 生成的説明器の好みは、入力グラフの自律的な摂動を利用して、推論中に反実例を生成する能力に起因している。 そこで,本研究では,部分的に順序付けされた生成系列を考慮した学習潜在空間から反実例を生成可能なロバスト確率グラフ生成器RSGG-CEを紹介した。 さらに, RSGG-CEの性能をSoA生成的説明器と比較するため, 定量的, 質的な分析を行い, 有効な対策候補を育成する能力の向上を強調した。

Counterfactual Explanation (CE) techniques have garnered attention as a means to provide insights to the users engaging with AI systems. While extensively researched in domains such as medical imaging and autonomous vehicles, Graph Counterfactual Explanation (GCE) methods have been comparatively under-explored. GCEs generate a new graph similar to the original one, with a different outcome grounded on the underlying predictive model. Among these GCE techniques, those rooted in generative mechanisms have received relatively limited investigation despite demonstrating impressive accomplishments in other domains, such as artistic styles and natural language modelling. The preference for generative explainers stems from their capacity to generate counterfactual instances during inference, leveraging autonomously acquired perturbations of the input graph. Motivated by the rationales above, our study introduces RSGG-CE, a novel Robust Stochastic Graph Generator for Counterfactual Explanations able to produce counterfactual examples from the learned latent space considering a partially ordered generation sequence. Furthermore, we undertake quantitative and qualitative analyses to compare RSGG-CE's performance against SoA generative explainers, highlighting its increased ability to engendering plausible counterfactual candidates.
翻訳日:2023-12-20 17:33:57 公開日:2023-12-18
# アクセシブルおよび対称性解決エンタングルメントエントロピーによる誘引ハバードモデルの物理学の遠心化

Disentangling the Physics of the Attractive Hubbard Model via the Accessible and Symmetry-Resolved Entanglement Entropies ( http://arxiv.org/abs/2312.11746v1 )

ライセンス: Link先を確認
Tong Shen, Hatem Barghathi, Adrian Del Maestro, and Brenda Rubenstein(参考訳) 電子が分子や物質などの多体系で相互作用する複雑な方法は、局所電子相関と関連する相関関数のレンズを通して長い間観察されてきた。 しかし、量子情報科学は、絡み合いエントロピーのような量子状態のよりグローバルな診断が、電子的挙動の相補的かつ明快なレンズを提供できることを証明した。 量子エンタングルメントと古典的エンタングルメントの区別に利用できる特に有用な尺度は、量子エンタングルメント(英語版)であり、超選択規則(英語版)による固定粒子数などの保存法則に従うシステムの量子資源として利用できる。 本研究では, 相互作用するフェルミオン系に対して, アクセシブルおよび対称性を解いたエンタングルメントの計算方法を紹介する。 これはスワップアルゴリズムのインクリメンタルバージョンと、最近著者らが開発した再帰的 Auxiliary Field Quantum Monte Carlo アルゴリズムを組み合わせることで実現されている。 我々はこれらのツールを用いて、交絡によるパラダイム的魅力的なハバードモデルに現れるペアリングと電荷密度波の研究を行う。 粒子とスピン対称性を解いた絡み合いとそれに関連する全確率分布関数は、より伝統的な相関関数においてそれらの特徴があまり発音されない場合でも、基礎となる電子行動の特異な特徴を示す。 全体として、この研究は量子系内の絡み合いを体系的に特徴づける手段を提供し、多体系における量子相転移と交叉の基盤となる複雑な電子的挙動をより深く理解することができる。

The complicated ways in which electrons interact in many-body systems such as molecules and materials have long been viewed through the lens of local electron correlation and associated correlation functions. However, quantum information science has demonstrated that more global diagnostics of quantum states, like the entanglement entropy, can provide a complementary and clarifying lens on electronic behavior. One particularly useful measure that can be used to distinguish between quantum and classical sources of entanglement is the accessible entanglement, the entanglement available as a quantum resource for systems subject to conservation laws, such as fixed particle number, due to superselection rules. In this work, we introduce an algorithm and demonstrate how to compute accessible and symmetry-resolved entanglements for interacting fermion systems. This is accomplished by combining an incremental version of the swap algorithm with a recursive Auxiliary Field Quantum Monte Carlo algorithm recently developed by the authors. We apply these tools to study the pairing and charge density waves exhibited in the paradigmatic attractive Hubbard model via entanglement. We find that the particle and spin symmetry-resolved entanglements and their related full probability distribution functions show very clear - and unique - signatures of the underlying electronic behavior even when those features are less pronounced in more conventional correlation functions. Overall, this work provides a systematic means of characterizing the entanglement within quantum systems that can grant a deeper understanding of the complicated electronic behavior that underlies quantum phase transitions and crossovers in many-body systems.
翻訳日:2023-12-20 17:33:35 公開日:2023-12-18
# ACCL+:分散アプリケーションのためのFPGAベースの集合エンジン

ACCL+: an FPGA-Based Collective Engine for Distributed Applications ( http://arxiv.org/abs/2312.11742v1 )

ライセンス: Link先を確認
Zhenhao He, Dario Korolija, Yu Zhu, Benjamin Ramhorst, Tristan Laan, Lucian Petrica, Michaela Blott, Gustavo Alonso(参考訳) FPGAは、スマートNICやネットワーク対応アクセラレータとして、クラウドデプロイメントでますます普及している。 その可能性にもかかわらず、適切なインフラストラクチャや通信抽象化が欠如しているため、FPGAが加速する分散アプリケーションの開発は困難である。 本稿では,FPGAを用いた分散アプリケーションの開発を容易にするために,オープンソースの汎用FPGAベースの集合通信ライブラリACCL+を提案する。 様々なプラットフォームに移植可能で、UDP、TCP、RDMAをサポートするACCL+はFPGAアプリケーションにFPGAとFPGAの直接通信を開始する権限を与える。 さらに、CPUアプリケーションの集合的なオフロードエンジンとして機能し、CPUがネットワークタスクから解放される。 ユーザ拡張性があり、FPGA回路を再合成することなく、新しい集合体を実装、デプロイすることができる。 我々は,100Gb/sのFPGAクラスタ上でACCL+を評価し,その性能をRDMA上のソフトウェアMPIと比較した。 この結果から,FPGAベースの分散アプリケーションではACCL+が大きな優位性を示し,CPUアプリケーションでは高い競合性能を示した。 本稿では、CPUベースのベクトル行列乗算を分散するための集合オフロードエンジンとしてシームレスに統合し、FPGAベースの分散ディープラーニングレコメンデーションを設計するための重要かつ効率的なコンポーネントとして機能するACCL+の2つのユースケースを紹介する。

FPGAs are increasingly prevalent in cloud deployments, serving as Smart NICs or network-attached accelerators. Despite their potential, developing distributed FPGA-accelerated applications remains cumbersome due to the lack of appropriate infrastructure and communication abstractions. To facilitate the development of distributed applications with FPGAs, in this paper we propose ACCL+, an open-source versatile FPGA-based collective communication library. Portable across different platforms and supporting UDP, TCP, as well as RDMA, ACCL+ empowers FPGA applications to initiate direct FPGA-to-FPGA collective communication. Additionally, it can serve as a collective offload engine for CPU applications, freeing the CPU from networking tasks. It is user-extensible, allowing new collectives to be implemented and deployed without having to re-synthesize the FPGA circuit. We evaluated ACCL+ on an FPGA cluster with 100 Gb/s networking, comparing its performance against software MPI over RDMA. The results demonstrate ACCL+'s significant advantages for FPGA-based distributed applications and highly competitive performance for CPU applications. We showcase ACCL+'s dual role with two use cases: seamlessly integrating as a collective offload engine to distribute CPU-based vector-matrix multiplication, and serving as a crucial and efficient component in designing fully FPGA-based distributed deep-learning recommendation inference.
翻訳日:2023-12-20 17:33:06 公開日:2023-12-18
# ガウス重みを持つ広い深層ニューラルネットワークはガウス過程に非常に近い

Wide Deep Neural Networks with Gaussian Weights are Very Close to Gaussian Processes ( http://arxiv.org/abs/2312.11737v1 )

ライセンス: Link先を確認
Dario Trevisan(参考訳) 我々はガウス的パラメータ(重みとバイアス)とリプシッツ活性化関数を広い範囲で有するランダムディープニューラルネットワークのガウス的近似のための新しいレートを確立する。 我々の境界は、無限幅共分散が持つある種の非退化条件を満たす任意の有限入力集合を評価したネットワークの合同出力に適用できる。 ネットワーク出力と対応するガウス近似との間の距離は、ネットワークの幅と逆スケールし、中央極限定理によって示唆されるナイーブなヒューリスティックよりも高速収束を示す。 また、確率が(有限)トレーニング集合上で評価されたネットワーク出力の有界リプシッツ関数である場合、ネットワークの正確なベイズ後方分布の理論的近似を得るために境界を適用する。 これには、ガウス級数、すなわち平均二乗誤差の指数関数のような一般的な場合が含まれる。

We establish novel rates for the Gaussian approximation of random deep neural networks with Gaussian parameters (weights and biases) and Lipschitz activation functions, in the wide limit. Our bounds apply for the joint output of a network evaluated any finite input set, provided a certain non-degeneracy condition of the infinite-width covariances holds. We demonstrate that the distance between the network output and the corresponding Gaussian approximation scales inversely with the width of the network, exhibiting faster convergence than the naive heuristic suggested by the central limit theorem. We also apply our bounds to obtain theoretical approximations for the exact Bayesian posterior distribution of the network, when the likelihood is a bounded Lipschitz function of the network output evaluated on a (finite) training set. This includes popular cases such as the Gaussian likelihood, i.e. exponential of minus the mean squared error.
翻訳日:2023-12-20 17:32:41 公開日:2023-12-18
# 多重仮説ドロップアウト:マルチモーダル出力分布のパラメータ推定

Multiple Hypothesis Dropout: Estimating the Parameters of Multi-Modal Output Distributions ( http://arxiv.org/abs/2312.11735v1 )

ライセンス: Link先を確認
David D. Nguyen, David Liebowitz, Surya Nepal, Salil S. Kanhere(参考訳) ロボット工学から歩行者追跡予測まで、多くの現実世界のアプリケーションでは、いくつかの潜在的なシナリオを表現するために複数の実数値出力を予測する必要がある。 1)高次元での安定性の低い混合密度ネットワーク、または(2)MCL(Multiple choice learning)は、M$単出力関数を用いるアプローチであり、それぞれが点推定仮説を生成するのみである。 本稿では,複数出力関数(Multiple-Output function, MoM)の解法について, 新たな解法であるMultiple hypothesis Dropoutを用いて提案する。 従来のmclベースのアプローチとは異なり、各多重出力関数は平均だけでなく、その仮説の分散も推定する。 これは、各多重出力関数がサブネットワーク予測の拡散を通じて分散を推定できる、新しい確率的ウィナーテイク・オールロスによって達成される。 教師あり学習問題に関する実験は,マルチモーダル出力分布を再構成する既存の解よりも優れた手法であることを示す。 教師なし学習問題に関するさらなる研究は、離散オートエンコーダ内の潜在後続分布のパラメータを推定することで、コードブックの効率、サンプル品質、精度、リコールを大幅に改善することを示している。

In many real-world applications, from robotics to pedestrian trajectory prediction, there is a need to predict multiple real-valued outputs to represent several potential scenarios. Current deep learning techniques to address multiple-output problems are based on two main methodologies: (1) mixture density networks, which suffer from poor stability at high dimensions, or (2) multiple choice learning (MCL), an approach that uses $M$ single-output functions, each only producing a point estimate hypothesis. This paper presents a Mixture of Multiple-Output functions (MoM) approach using a novel variant of dropout, Multiple Hypothesis Dropout. Unlike traditional MCL-based approaches, each multiple-output function not only estimates the mean but also the variance for its hypothesis. This is achieved through a novel stochastic winner-take-all loss which allows each multiple-output function to estimate variance through the spread of its subnetwork predictions. Experiments on supervised learning problems illustrate that our approach outperforms existing solutions for reconstructing multimodal output distributions. Additional studies on unsupervised learning problems show that estimating the parameters of latent posterior distributions within a discrete autoencoder significantly improves codebook efficiency, sample quality, precision and recall.
翻訳日:2023-12-20 17:32:24 公開日:2023-12-18
# 長テール視覚認識のための頭部から尾への特徴融合

Feature Fusion from Head to Tail for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2306.06963v3 )

ライセンス: Link先を確認
Mengke Li, Zhikai Hu, Yang Lu, Weichao Lan, Yiu-ming Cheung, Hui Huang(参考訳) 長い尾を持つデータの不均衡分布は、ヘッドクラスの正確な分類を優先するが、テールクラスのほとんどを無視しているため、ディープラーニングモデルにとって大きな課題となる。 末尾クラスにおける意味情報の不十分に起因するバイアス付き決定境界は、認識精度の低下に寄与する重要な要因の1つである。 この問題を正すため,我々はhead-to-tail fusion (h2t) と呼ばれるヘッドクラスからの多様な意味情報をグラフトすることにより,尾クラスを強化することを提案する。 テールクラスのフィーチャーマップの一部を、ヘッドクラスに属するものに置き換えます。 これらの融合特徴はテールクラスの多様性を大幅に向上させる。 理論的解析と実用実験の両方で、H2Tが決定境界に対してより最適化された解に寄与できることが示されている。 我々はH2Tを分類器調整段階にシームレスに統合し、プラグアンドプレイモジュールとした。 そのシンプルさと実装の容易さにより、既存のロングテール認識手法とのスムーズな統合が可能になり、さらなるパフォーマンス向上が促進される。 様々な長い尾を持つベンチマークに対する大規模な実験は、提案されたH2Tの有効性を示す。 ソースコードはhttps://github.com/keke921/h2t。

The imbalanced distribution of long-tailed data presents a considerable challenge for deep learning models, as it causes them to prioritize the accurate classification of head classes but largely disregard tail classes. The biased decision boundary caused by inadequate semantic information in tail classes is one of the key factors contributing to their low recognition accuracy. To rectify this issue, we propose to augment tail classes by grafting the diverse semantic information from head classes, referred to as head-to-tail fusion (H2T). We replace a portion of feature maps from tail classes with those belonging to head classes. These fused features substantially enhance the diversity of tail classes. Both theoretical analysis and practical experimentation demonstrate that H2T can contribute to a more optimized solution for the decision boundary. We seamlessly integrate H2T in the classifier adjustment stage, making it a plug-and-play module. Its simplicity and ease of implementation allow for smooth integration with existing long-tailed recognition methods, facilitating a further performance boost. Extensive experiments on various long-tailed benchmarks demonstrate the effectiveness of the proposed H2T. The source code is available at https://github.com/Keke921/H2T.
翻訳日:2023-12-19 20:43:14 公開日:2023-12-18
# avsegformer:transformerによる視聴覚セグメンテーション

AVSegFormer: Audio-Visual Segmentation with Transformer ( http://arxiv.org/abs/2307.01146v4 )

ライセンス: Link先を確認
Shengyi Gao, Zhe Chen, Guo Chen, Wenhai Wang, Tong Lu(参考訳) オーディオと視覚の組み合わせは、長い間、マルチモーダルコミュニティにおける関心事であった。 近年,映像中の音源の特定とセグメント化を目的とした,音声視覚分割(AVS)タスクが導入されている。 このタスクは、初めて音声駆動のピクセルレベルのシーン理解を必要とする。 本稿では,トランスフォーマティブアーキテクチャを活用したavsタスクのための新しいフレームワークであるavsegformerを提案する。 具体的には、オーディオクエリと学習可能なクエリをtransformerデコーダに導入し、ネットワークが関心のある視覚機能に選択的に対応できるようにする。 また,無関係な空間チャネルを増幅・抑制することにより,視覚的な特徴を動的に調整できる視聴覚混合器を提案する。 さらに、デコーダの監視を強化するために中間マスク損失を考案し、より正確な中間予測を行うようネットワークに促す。 広範な実験により、avsegformerはavsベンチマークで最先端の結果を達成した。 コードはhttps://github.com/vvvb-github/AVSegFormerで入手できる。

The combination of audio and vision has long been a topic of interest in the multi-modal community. Recently, a new audio-visual segmentation (AVS) task has been introduced, aiming to locate and segment the sounding objects in a given video. This task demands audio-driven pixel-level scene understanding for the first time, posing significant challenges. In this paper, we propose AVSegFormer, a novel framework for AVS tasks that leverages the transformer architecture. Specifically, we introduce audio queries and learnable queries into the transformer decoder, enabling the network to selectively attend to interested visual features. Besides, we present an audio-visual mixer, which can dynamically adjust visual features by amplifying relevant and suppressing irrelevant spatial channels. Additionally, we devise an intermediate mask loss to enhance the supervision of the decoder, encouraging the network to produce more accurate intermediate predictions. Extensive experiments demonstrate that AVSegFormer achieves state-of-the-art results on the AVS benchmark. The code is available at https://github.com/vvvb-github/AVSegFormer.
翻訳日:2023-12-19 20:30:27 公開日:2023-12-18
# Image Prompt Foundation Modelsによるフリーオープンワールドセグメンテーションに向けて

Towards Training-free Open-world Segmentation via Image Prompt Foundation Models ( http://arxiv.org/abs/2310.10912v2 )

ライセンス: Link先を確認
Lv Tang, Peng-Tao Jiang, Hao-Ke Xiao, Bo Li(参考訳) コンピュータビジョンの領域は、自然言語処理の領域における大きな言語モデルの変換的影響を反映した、基礎モデルの出現によるパラダイムシフトを目撃している。 本稿では,オープンワールドセグメンテーションの探求を探究し,視覚基礎モデルのパワーを活用したイメージプロンプトセグメンテーション(ipseg)と呼ばれる新しいアプローチを提案する。 IPSegは、イメージプロンプト技術を利用したトレーニング不要のパラダイムの原則である。 具体的には、IPSegは、DINOv2やStable Diffusionのような視覚基盤モデルにクエリするフレキシブルプロンプトとして、主観的な視覚概念を含む単一のイメージを使用している。 提案手法は、プロンプト画像と入力画像のロバストな特徴を抽出し、入力表現とプロンプト表現を新しい特徴対話モジュールでマッチングし、入力画像中の対象オブジェクトをハイライトするポイントプロンプトを生成する。 生成されたポイントプロンプトは、さらにSegment Anything Modelを誘導して、ターゲットオブジェクトを入力画像にセグメントする。 提案手法は,総合的なトレーニングセッションの必要性を排除し,より効率的でスケーラブルなソリューションを提供する。 COCO、PASCAL VOC、その他のデータセットの実験では、直感的な画像プロンプトを用いたフレキシブルなオープンワールドセグメンテーションに対するIPSegの有効性が示されている。 この研究は、イメージに伝達される視覚概念を通して、オープンワールドの理解のための基礎モデルに取り組む先駆者である。

The realm of computer vision has witnessed a paradigm shift with the advent of foundational models, mirroring the transformative influence of large language models in the domain of natural language processing. This paper delves into the exploration of open-world segmentation, presenting a novel approach called Image Prompt Segmentation (IPSeg) that harnesses the power of vision foundational models. IPSeg lies the principle of a training-free paradigm, which capitalizes on image prompt techniques. Specifically, IPSeg utilizes a single image containing a subjective visual concept as a flexible prompt to query vision foundation models like DINOv2 and Stable Diffusion. Our approach extracts robust features for the prompt image and input image, then matches the input representations to the prompt representations via a novel feature interaction module to generate point prompts highlighting target objects in the input image. The generated point prompts are further utilized to guide the Segment Anything Model to segment the target object in the input image. The proposed method stands out by eliminating the need for exhaustive training sessions, thereby offering a more efficient and scalable solution. Experiments on COCO, PASCAL VOC, and other datasets demonstrate IPSeg's efficacy for flexible open-world segmentation using intuitive image prompts. This work pioneers tapping foundation models for open-world understanding through visual concepts conveyed in images.
翻訳日:2023-12-19 19:58:42 公開日:2023-12-18
# 事前訓練型レコメンダシステム:因果脱バイアスの観点から

Pre-trained Recommender Systems: A Causal Debiasing Perspective ( http://arxiv.org/abs/2310.19251v2 )

ライセンス: Link先を確認
Ziqian Lin, Hao Ding, Nghia Hoang, Branislav Kveton, Anoop Deoras, Hao Wang(参考訳) 事前学習されたビジョン/言語モデルに関する最近の研究は、AIにおける新しい有望なソリューション構築パラダイムの実践的な利点を実証している。一般的なタスク空間を記述する広いデータに基づいてモデルを事前学習し、トレーニングデータが著しく制限されている場合(例えばゼロまたは少数ショットの学習シナリオ)に、幅広い下流タスクを解決するためにうまく適応できる。 このような進展にインスパイアされた本論文では,事前学習モデルの観点からは,このようなパラダイムをレコメンダシステムのコンテキストに適用する可能性や課題について考察する。 特に,異なるドメインから抽出された汎用ユーザ・イテムインタラクションデータに基づいて,汎用的なインタラクションパターンを学習することにより,汎用的なインタラクションパターンをキャプチャする汎用レコメンデータを提案する。 しかし、セマンティック空間において強い適合性を持つビジョン/言語データとは異なり、異なるドメイン(例えば、異なる国や異なるeコマースプラットフォーム)にまたがるレコメンデーションデータの基礎となる普遍的なパターンは、しばしば、ユーザとアイテムの文化的な違いと、異なるeコマースプラットフォームの使用によって暗黙的に課されるドメイン内およびドメイン横断のバイアスによって引き起こされる。 実験で示したように、データ内の不均一なバイアスは、事前学習されたモデルの有効性を阻害する傾向がある。 この課題に対処するため,我々は,階層型ベイズ深層学習モデルであるPreRecを用いて,因果脱バイアスの観点を導入し,定式化する。 実世界データを用いた実験により,提案モデルが,クロスマーケットシナリオとクロスプラットフォームシナリオの両方において,ゼロ・マイ・ショット学習環境でのレコメンデーション性能を大幅に向上できることを示した。

Recent studies on pre-trained vision/language models have demonstrated the practical benefit of a new, promising solution-building paradigm in AI where models can be pre-trained on broad data describing a generic task space and then adapted successfully to solve a wide range of downstream tasks, even when training data is severely limited (e.g., in zero- or few-shot learning scenarios). Inspired by such progress, we investigate in this paper the possibilities and challenges of adapting such a paradigm to the context of recommender systems, which is less investigated from the perspective of pre-trained model. In particular, we propose to develop a generic recommender that captures universal interaction patterns by training on generic user-item interaction data extracted from different domains, which can then be fast adapted to improve few-shot learning performance in unseen new domains (with limited data). However, unlike vision/language data which share strong conformity in the semantic space, universal patterns underlying recommendation data collected across different domains (e.g., different countries or different E-commerce platforms) are often occluded by both in-domain and cross-domain biases implicitly imposed by the cultural differences in their user and item bases, as well as their uses of different e-commerce platforms. As shown in our experiments, such heterogeneous biases in the data tend to hinder the effectiveness of the pre-trained model. To address this challenge, we further introduce and formalize a causal debiasing perspective, which is substantiated via a hierarchical Bayesian deep learning model, named PreRec. Our empirical studies on real-world data show that the proposed model could significantly improve the recommendation performance in zero- and few-shot learning settings under both cross-market and cross-platform scenarios.
翻訳日:2023-12-19 19:47:05 公開日:2023-12-18
# チャンネル独立戦略は時系列予測に最適か?

Is Channel Independent strategy optimal for Time Series Forecasting? ( http://arxiv.org/abs/2310.17658v3 )

ライセンス: Link先を確認
Yuan Peiwen, Zhu Changsheng(参考訳) 長期時系列予測のための様々なモデルが出現している。 近年の研究では、チャネル依存(cd)またはチャネル独立(ci)モデリングを用いた単一の線形層が、多数の洗練されたモデルを上回ることさえ証明されている。 しかしながら、現在の研究はCDとCIを2つの補完的かつ相互排他的なアプローチであり、これら2つの極端を同時に利用できないと考えている。 また、CDとCIの両方が静的戦略であり、広範な実験なしに特定のデータセットに最適であると判断できないという課題もある。 本稿では,現在のCI戦略が時系列予測の最適解であるかどうかを再考する。 まず, 線形モデルに対して, 単純かつ効果的な csc 戦略を提案し, 線形モデルに対する $\mathbf{c}$hannel$\mathbf{s}$elf-$\mathbf{c}$lustering strategy を述べる。 我々のチャネル自己クラスタリング(CSC)は、パラメータサイズを減らしながらCI戦略の性能向上を図り、電気データセットを10倍以上に拡大し、トレーニング時間を著しく短縮する。 第2に,自己クラスタリングにインスパイアされたディープモデルのためのChannel Rearrangement (CR)を提案する。 CRはベースラインと競合するパフォーマンスを得る。 最後に、入力と同じチャネルの履歴値を用いて将来の値を予測するのが最善かどうかについても論じる。 われわれの発見と方法がCD/CI以外の新しいソリューションを刺激することを期待している。

There has been an emergence of various models for long-term time series forecasting. Recent studies have demonstrated that a single linear layer, using Channel Dependent (CD) or Channel Independent (CI) modeling, can even outperform a large number of sophisticated models. However, current research primarily considers CD and CI as two complementary yet mutually exclusive approaches, unable to harness these two extremes simultaneously. And it is also a challenging issue that both CD and CI are static strategies that cannot be determined to be optimal for a specific dataset without extensive experiments. In this paper, we reconsider whether the current CI strategy is the best solution for time series forecasting. First, we propose a simple yet effective strategy called CSC, which stands for $\mathbf{C}$hannel $\mathbf{S}$elf-$\mathbf{C}$lustering strategy, for linear models. Our Channel Self-Clustering (CSC) enhances CI strategy's performance improvements while reducing parameter size, for exmpale by over 10 times on electricity dataset, and significantly cutting training time. Second, we further propose Channel Rearrangement (CR), a method for deep models inspired by the self-clustering. CR attains competitive performance against baselines. Finally, we also discuss whether it is best to forecast the future values using the historical values of the same channel as inputs. We hope our findings and methods could inspire new solutions beyond CD/CI.
翻訳日:2023-12-19 19:44:37 公開日:2023-12-18
# Gene-MOE : パン・カンサーゲノム情報を利用した厳格な予後と分類の枠組み

Gene-MOE: A sparsely gated prognosis and classification framework exploiting pan-cancer genomic information ( http://arxiv.org/abs/2311.17401v3 )

ライセンス: Link先を確認
Xiangyu Meng, Xue Li, Qing Yang, Huanhuan Dai, Lian Qiao, Hongzhen Ding, Long Hao and Xun Wang(参考訳) 深層学習の進歩の恩恵を受け、生存分析、腫瘍とそのサブタイプの分類、特定の経路の探索など様々なゲノム解析技術は、がんを駆動する生物学的メカニズムの理解を大きく高めています。 しかし、患者サンプルの数が限られていることから生じる過剰適合問題は、ニューラルネットワークの深化によってゲノム解析の精度を向上させる上で課題となる。 さらに,sparsely gated mixture of expert (moe) やself-attention mechanism などの新しい手法がゲノム解析の精度を向上させるかは,まだ不明である。 本稿では,Gene-MOEと呼ばれるRNA-seq解析フレームワークについて紹介する。 このフレームワークは、moe層と提案する注意エキスパート(moae)層の混合を利用して分析精度を向上させる。 さらに,TGAパン・カンサーRNA-seqデータセットに,33種類のがん情報を事前訓練することで,過剰適合する課題に対処した。 その後,事前訓練した遺伝子MOEに基づく癌分類と生存分析に関する実験を行った。 14種類のがんの生存率分析の結果、遺伝子モエは12種類のがんの最先端モデルよりも優れていた。 詳細な特徴分析により,遺伝子MOEモデルは高次元遺伝子のリッチな特徴表現を学習できることがわかった。 分類結果によると,33のがん分類の分類モデルの総精度は95.8%に達し,最先端モデルと比較して最高の成績を示した。 これらの結果から,遺伝子MOEは癌分類と生存分析に有用であることが示唆された。

Benefiting from the advancements in deep learning, various genomic analytical techniques, such as survival analysis, classification of tumors and their subtypes, and exploration of specific pathways, have significantly enhanced our understanding of the biological mechanisms driving cancer. However, the overfitting issue, arising from the limited number of patient samples, poses a challenge in improving the accuracy of genome analysis by deepening the neural network. Furthermore, it remains uncertain whether novel approaches such as the sparsely gated mixture of expert (MOE) and self-attention mechanisms can improve the accuracy of genomic analysis. In this paper, we introduce a novel sparsely gated RNA-seq analysis framework called Gene-MOE. This framework exploits the potential of the MOE layers and the proposed mixture of attention expert (MOAE) layers to enhance the analysis accuracy. Additionally, it addresses overfitting challenges by integrating pan-cancer information from 33 distinct cancer types through pre-training.We pre-trained Gene-MOE on TCGA pan-cancer RNA-seq dataset with 33 cancer types. Subsequently, we conducted experiments involving cancer classification and survival analysis based on the pre-trained Gene-MOE. According to the survival analysis results on 14 cancer types, Gene-MOE outperformed state-of-the-art models on 12 cancer types. Through detailed feature analysis, we found that the Gene-MOE model could learn rich feature representations of high-dimensional genes. According to the classification results, the total accuracy of the classification model for 33 cancer classifications reached 95.8%, representing the best performance compared to state-of-the-art models. These results indicate that Gene-MOE holds strong potential for use in cancer classification and survival analysis.
翻訳日:2023-12-19 19:36:20 公開日:2023-12-18
# YUAN 2.0: ローカライズされたフィルタリングベースの注意を伴う大規模言語モデル

YUAN 2.0: A Large Language Model with Localized Filtering-based Attention ( http://arxiv.org/abs/2311.15786v4 )

ライセンス: Link先を確認
Shaohua Wu, Xudong Zhao, Shenling Wang, Jiangang Luo, Lingjun Li, Xi Chen, Bing Zhao, Wei Wang, Tong Yu, Rongguo Zhang, Jiahua Zhang, Chao Wang(参考訳) 本研究では,210億から1026億のパラメータを持つ,一連の大規模言語モデルである yuan 2.0 の開発とリリースを行う。 局所フィルタリングに基づく注意(LFA)は、自然言語の局所的な依存関係に関する事前の知識を注意に組み込むために導入された。 事前学習および微調整データセットを高品質で構築するために,データフィルタリングおよび生成システムを提案する。 非一様パイプライン並列,データ並列,オプティマイザ並列の分散トレーニング手法を提案し,ノード間通信の帯域幅要求を大幅に低減し,大規模分散トレーニングにおいて優れた性能を実現する。 Yuan 2.0モデルは、既存のモデルと比較して、コード生成、数学の問題解決、チャットにおいて素晴らしい能力を示している。 モデルウェイトとソースコードを含むYUAN 2.0の最新バージョンはGithubで公開されている。

In this work, we develop and release Yuan 2.0, a series of large language models with parameters ranging from 2.1 billion to 102.6 billion. The Localized Filtering-based Attention (LFA) is introduced to incorporate prior knowledge of local dependencies of natural language into Attention. A data filtering and generating system is presented to build pre-training and fine-tuning dataset in high quality. A distributed training method with non-uniform pipeline parallel, data parallel, and optimizer parallel is proposed, which greatly reduces the bandwidth requirements of intra-node communication, and achieves good performance in large-scale distributed training. Yuan 2.0 models display impressive ability in code generation, math problem-solving, and chatting compared with existing models. The latest version of YUAN 2.0, including model weights and source code, is accessible at Github.
翻訳日:2023-12-19 19:35:33 公開日:2023-12-18
# 一般化ジェームスの有効ハミルトン法」への回答

Reply to "Comment on `Generalized James' effective Hamiltonian method' " ( http://arxiv.org/abs/2312.05732v2 )

ライセンス: Link先を確認
Wenjun Shao, Chunfeng Wu, and Xun-Li Feng(参考訳) 前回のコメント [1] において、元の論文 [2] で得られる三階ハミルトニアンは、時間依存性や有効三階拡大の導出方法を考える場合の一般的な状況ではエルミート的ではないと主張した。 まず第一に、我々の論文で与えられた3階ハミルトニアンは、ここで述べた条件の下で正確にエルミート的である。 第二に, 一般化実効ハミルトニアンを導出する反復的手法はダイソン級数と同値であり, その正確性を保証することができる。 第三に、発散した実効ハミルトニアンは、コメントに示されるような時間依存的な状況下では確かに非エルミート的であるが、それは正確には非単体発散ダイソン級数に対応する。 断続ダイソン級数は時間依存摂動理論において広く利用されてきたが、本論では非エルミート断続有効ハミルトニアンを有効ハミルトニアンの近似として扱うことができる。

In the preceding Comment [1] it was claimed that the third-order Hamiltonian obtained in our original paper [2] is not Hermitian for general situations when considering time-dependence and the way of deriving the effective third-order expansion is not very rigorous. To reply the comment we should emphasize the following three points: first of all, the third-order Hamiltonian given in our paper is exactly Hermitian under the conditions mentioned there. Secondly, the iterative method adopted in our paper to derive the generalized effective Hamiltonian is equivalent to the Dyson series, and its correctness can thus be guaranteed. Thirdly, although the truncated effective Hamiltonian is indeed non-Hermitian under the time-dependent situation as presented in the Comment, it corresponds exactly to the non-unitary truncated Dyson series. Considering the truncated Dyson series has been extensively utilized in the time-dependent perturbation theory, in our opinion, the non-Hermitian truncated effective Hamiltonian can still be treated as an approximation of the effective Hamiltonian.
翻訳日:2023-12-19 19:23:43 公開日:2023-12-18
# 二元分類における非線形アルゴリズムバイアスの緩和

Mitigating Nonlinear Algorithmic Bias in Binary Classification ( http://arxiv.org/abs/2312.05429v2 )

ライセンス: Link先を確認
Wendy Hui, Wai Kwong Lau(参考訳) 本稿では,保護属性の非線形なアルゴリズムバイアスの検出と軽減に因果モデルを用いることを提案する。 当社のアプローチの概要を概観する。 我々は,UCアーバイン機械学習リポジトリからダウンロード可能なドイツ信用データセットを用いて,(1)ブラックボックスとして扱われる予測モデル,(2)バイアス軽減のための因果モデルを開発する。 本稿では,年齢バイアスと二分分類の問題に焦点をあてる。 若年者では「低リスク」と正しく分類される可能性が低いことを示す。 確率は非線形に増加する。 因果モデルに非線形性を導入するために、高次多項式項を導入する。 適合因果モデルに基づいて、非偏り確率推定を計算し、全体の分類精度にはほとんど影響せず、公平性の向上を示す。 因果モデリングは直感的であり、その使用は説明可能性を高め、AIの異なる利害関係者間の信頼を促進する。

This paper proposes the use of causal modeling to detect and mitigate algorithmic bias that is nonlinear in the protected attribute. We provide a general overview of our approach. We use the German Credit data set, which is available for download from the UC Irvine Machine Learning Repository, to develop (1) a prediction model, which is treated as a black box, and (2) a causal model for bias mitigation. In this paper, we focus on age bias and the problem of binary classification. We show that the probability of getting correctly classified as "low risk" is lowest among young people. The probability increases with age nonlinearly. To incorporate the nonlinearity into the causal model, we introduce a higher order polynomial term. Based on the fitted causal model, the de-biased probability estimates are computed, showing improved fairness with little impact on overall classification accuracy. Causal modeling is intuitive and, hence, its use can enhance explicability and promotes trust among different stakeholders of AI.
翻訳日:2023-12-19 19:23:00 公開日:2023-12-18
# 追加学習による大規模言語モデルへの特定科学知識の教育

Teaching Specific Scientific Knowledge into Large Language Models through Additional Training ( http://arxiv.org/abs/2312.03360v2 )

ライセンス: Link先を確認
Kan Hatakeyama-Sato, Yasuhiko Igarashi, Shun Katakami, Yuta Nabae, Teruaki Hayakawa(参考訳) 追加トレーニングを通じて,Llama 2 Large Language Model (LLM) に専門的な科学知識を組み込む方法について検討する。 鍵となる発見は、効果的な知識の統合は、複数の観点、特に指導形式からテキストを読む必要があるということである。 スタイル変換や翻訳を含む特殊テキストの不足に対処するために,テキスト拡張を利用する。 ハイパーパラメータ最適化は重要であり、異なるサイズモデル(7b、13b、70b)が追加の訓練を受けている。 提案手法を検証し,65,000論文のデータセットを構築した。 我々は知識を部分的に埋め込むことに成功したが、この研究は特殊情報をLSMに組み込むことの複雑さと限界を強調し、さらなる改善を示唆している。

Through additional training, we explore embedding specialized scientific knowledge into the Llama 2 Large Language Model (LLM). Key findings reveal that effective knowledge integration requires reading texts from multiple perspectives, especially in instructional formats. We utilize text augmentation to tackle the scarcity of specialized texts, including style conversions and translations. Hyperparameter optimization proves crucial, with different size models (7b, 13b, and 70b) reasonably undergoing additional training. Validating our methods, we construct a dataset of 65,000 scientific papers. Although we have succeeded in partially embedding knowledge, the study highlights the complexities and limitations of incorporating specialized information into LLMs, suggesting areas for further improvement.
翻訳日:2023-12-19 19:22:05 公開日:2023-12-18
# no-skim:スキミングに基づく言語モデルの効率ロバスト性評価に向けて

No-Skim: Towards Efficiency Robustness Evaluation on Skimming-based Language Models ( http://arxiv.org/abs/2312.09494v2 )

ライセンス: Link先を確認
Shengyao Zhang, Mi Zhang, Xudong Pan, Min Yang(参考訳) 大規模言語モデル(LLM)における計算コストとエネルギー消費を低減するため、スイミングベースの加速度は、意味的に重要なトークンを保持しつつ、LLMの層に沿って、入力シーケンスの重要でないトークンを徐々に減少させる。 しかし、私たちの研究によると、アクセラレーションはDoS(DoS)攻撃に弱い可能性がある。 本稿では,スキー用LLMの所有者がアクセラレーションスキームのロバスト性を理解し,測定するための一般的なフレームワークであるNo-Skimを提案する。 具体的には,文字レベルおよびトークンレベルの最小かつ無意味な摂動を探索し,残余のトークン比を十分に増大させる逆入力を生成し,計算コストとエネルギー消費を増加させる。 GLUEベンチマークにおいて,BERT や RoBERTa を含む様々な LLM アーキテクチャにおけるスキミングアクセラレーションの脆弱性を系統的に評価した。 最悪の場合、No-Skimが発見した摂動はLLMのランニングコストを平均145%以上増加させる。 さらに、No-Skimは評価フレームワークを様々なシナリオに拡張し、異なるレベルの知識で評価を行う。

To reduce the computation cost and the energy consumption in large language models (LLM), skimming-based acceleration dynamically drops unimportant tokens of the input sequence progressively along layers of the LLM while preserving the tokens of semantic importance. However, our work for the first time reveals the acceleration may be vulnerable to Denial-of-Service (DoS) attacks. In this paper, we propose No-Skim, a general framework to help the owners of skimming-based LLM to understand and measure the robustness of their acceleration scheme. Specifically, our framework searches minimal and unnoticeable perturbations at character-level and token-level to generate adversarial inputs that sufficiently increase the remaining token ratio, thus increasing the computation cost and energy consumption. We systematically evaluate the vulnerability of the skimming acceleration in various LLM architectures including BERT and RoBERTa on the GLUE benchmark. In the worst case, the perturbation found by No-Skim substantially increases the running cost of LLM by over 145% on average. Moreover, No-Skim extends the evaluation framework to various scenarios, making the evaluation conductible with different level of knowledge.
翻訳日:2023-12-19 19:02:47 公開日:2023-12-18
# 深部生成モデルを用いた高次元自由エネルギー表面の非バイアス強調サンプリング

Unbiasing Enhanced Sampling on a High-dimensional Free Energy Surface with Deep Generative Model ( http://arxiv.org/abs/2312.09404v2 )

ライセンス: Link先を確認
Yikai Liu, Tushar K. Ghosh, Guang Lin, Ming Chen(参考訳) 共形アンサンブルをサンプリングするための強力なツールとして,集合変数(CV)を用いたバイアス強化サンプリング法がある。 高内在次元のため、複雑な系のコンフォメーションアンサンブルを効率的に生成するには、高次元自由エネルギー表面上でのサンプリングの強化が必要である。 温度加速分子動力学(TAMD)のような手法はシミュレーションにおいて多くのCVを適用できるが、シミュレーションの偏りをなくすには高次元CV確率分布の正確なモデリングが必要である。 本稿では,複雑なデータランドスケープにまたがる密度推定に優れる深層学習法であるスコアベース拡散モデルに基づく非バイアス化手法を提案する。 TAMDシミュレーションにおいて,スコアベース拡散アンバイアス法をテストする。 その結果、この非バイアスアプローチは従来の非バイアス法を著しく上回っており、多くのcvsが通常の範囲よりも高いシミュレーションのために正確な非バイアスコンフォメーションアンサンブルを生成することができる。

Biased enhanced sampling methods utilizing collective variables (CVs) are powerful tools for sampling conformational ensembles. Due to high intrinsic dimensions, efficiently generating conformational ensembles for complex systems requires enhanced sampling on high-dimensional free energy surfaces. While methods like temperature-accelerated molecular dynamics (TAMD) can adopt many CVs in a simulation, unbiasing the simulation requires accurate modeling of a high-dimensional CV probability distribution, which is challenging for traditional density estimation techniques. Here we propose an unbiasing method based on the score-based diffusion model, a deep generative learning method that excels in density estimation across complex data landscapes. We test the score-based diffusion unbiasing method on TAMD simulations. The results demonstrate that this unbiasing approach significantly outperforms traditional unbiasing methods, and can generate accurate unbiased conformational ensembles for simulations with a number of CVs higher than usual ranges.
翻訳日:2023-12-19 19:02:26 公開日:2023-12-18
# 深層学習の現状と将来 -2023年-

Perspectives on the State and Future of Deep Learning -- 2023 ( http://arxiv.org/abs/2312.09323v2 )

ライセンス: Link先を確認
Micah Goldblum, Anima Anandkumar, Richard Baraniuk, Tom Goldstein, Kyunghyun Cho, Zachary C Lipton, Melanie Mitchell, Preetum Nakkiran, Max Welling, Andrew Gordon Wilson(参考訳) このシリーズの目標は、今日の機械学習の分野における意見と問題を、時間とともに変化するにつれて記録することである。 計画では、この調査をAIの特異点であるペーパークリップ・フレンチ駆動の土曜まで定期的に実施し、トピックに関する質問のリストを更新し、各エディションの新たなコミュニティメンバーにインタビューする。 本稿では,解釈可能なAI,現代のNLPにおけるベンチマークの価値,ディープラーニングの理解に向けた進展状況,学術の将来について,人々の意見を調査した。

The goal of this series is to chronicle opinions and issues in the field of machine learning as they stand today and as they change over time. The plan is to host this survey periodically until the AI singularity paperclip-frenzy-driven doomsday, keeping an updated list of topical questions and interviewing new community members for each edition. In this issue, we probed people's opinions on interpretable AI, the value of benchmarking in modern NLP, the state of progress towards understanding deep learning, and the future of academia.
翻訳日:2023-12-19 19:02:09 公開日:2023-12-18
# OMG:コントローラの混合によるオープン語彙運動生成を目指して

OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers ( http://arxiv.org/abs/2312.08985v2 )

ライセンス: Link先を確認
Han Liang, Jiacheng Bao, Ruichi Zhang, Sihan Ren, Yuecheng Xu, Sibei Yang, Xin Chen, Jingyi Yu, Lan Xu(参考訳) 最近、現実的なテキスト・モーション生成が著しく進歩しています。 しかし、既存の手法は、目に見えないテキスト入力で、しばしば失敗または不可解な動作を生成し、アプリケーションを制限する。 本稿では、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。 私たちの重要なアイデアは、事前トレーナー(pretrain-then-finetune)パラダイムを、テキストからモーション生成に慎重に調整することです。 事前学習段階では,豊富なドメイン外固有運動特性を学習することにより,生成能力を向上させる。 この目的のために,最大1bパラメータまでの大規模無条件拡散モデルをスケールアップし,2000万以上のモーションインスタンスの大規模非ラベル動作データを活用する。 その後の微調整段階では,事前学習したモデルの学習可能なコピーと提案する新しいmixed-of-controllers (moc)ブロックを用いて,テキストプロンプトを条件情報として組み込むモーションコントロールネットを導入する。 mocブロックはクロスアテンション機構を用いてサブモーションの様々な範囲を適応的に認識し、テキストトケンの専門家と個別に処理する。 このような設計は、テキストプロンプトのCLIPトークンの埋め込みを、様々なコンパクトかつ表現力のあるモーション特徴に効果的に調整する。 広汎な実験により、OMGはゼロショットテキスト・モーション生成における最先端手法よりも大幅に改善されていることが示された。 プロジェクトページ: https://tr3e.github.io/omg-page

We have recently seen tremendous progress in realistic text-to-motion generation. Yet, the existing methods often fail or produce implausible motions with unseen text inputs, which limits the applications. In this paper, we present OMG, a novel framework, which enables compelling motion generation from zero-shot open-vocabulary text prompts. Our key idea is to carefully tailor the pretrain-then-finetune paradigm into the text-to-motion generation. At the pre-training stage, our model improves the generation ability by learning the rich out-of-domain inherent motion traits. To this end, we scale up a large unconditional diffusion model up to 1B parameters, so as to utilize the massive unlabeled motion data up to over 20M motion instances. At the subsequent fine-tuning stage, we introduce motion ControlNet, which incorporates text prompts as conditioning information, through a trainable copy of the pre-trained model and the proposed novel Mixture-of-Controllers (MoC) block. MoC block adaptively recognizes various ranges of the sub-motions with a cross-attention mechanism and processes them separately with the text-token-specific experts. Such a design effectively aligns the CLIP token embeddings of text prompts to various ranges of compact and expressive motion features. Extensive experiments demonstrate that our OMG achieves significant improvements over the state-of-the-art methods on zero-shot text-to-motion generation. Project page: https://tr3e.github.io/omg-page.
翻訳日:2023-12-19 19:01:58 公開日:2023-12-18
# 弱監視セマンティックセグメンテーションの進歩的特徴自己強化

Progressive Feature Self-reinforcement for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2312.08916v2 )

ライセンス: Link先を確認
Jingxuan He, Lechao Cheng, Chaowei Fang, Zunlei Feng, Tingting Mu, Mingli Song(参考訳) 画素レベルでの従来のセマンティックセグメンテーションと対照的に、画像レベルのラベルを持つWeakly Supervised Semantic Segmentation (WSSS)は、常に最も差別的な領域に焦点を合わせ、完全に監督された条件の相違をもたらす。 典型的な表示はオブジェクト境界における精度の低下であり、WSSSの精度が低下する。 この問題を緩和するために,画像コンテンツを決定論的領域(例えば,自信ある前景と背景)と不確実領域(例えば,オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して処理することを提案する。 不確実な方法として,アクティベーションベースのマスキング戦略を採用し,自己蒸留知識を用いて地域情報を復元する。 さらに、マスクされていない確信領域は、グローバルセマンティクスを維持するのに十分な堅牢性を持つべきであると仮定する。 そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。 PASCAL VOC 2012 と MS COCO 2014 で実施された大規模な実験により,WSSS の単一ステージアプローチは,最先端ベンチマークを著しく上回るだけでなく,精度と複雑性を交換する多段階手法を超越していることが示された。 コードは \url{https://github.com/Jessie459/feature-self-reinforcement} で見ることができる。

Compared to conventional semantic segmentation with pixel-level supervision, Weakly Supervised Semantic Segmentation (WSSS) with image-level labels poses the challenge that it always focuses on the most discriminative regions, resulting in a disparity between fully supervised conditions. A typical manifestation is the diminished precision on the object boundaries, leading to a deteriorated accuracy of WSSS. To alleviate this issue, we propose to adaptively partition the image content into deterministic regions (e.g., confident foreground and background) and uncertain regions (e.g., object boundaries and misclassified categories) for separate processing. For uncertain cues, we employ an activation-based masking strategy and seek to recover the local information with self-distilled knowledge. We further assume that the unmasked confident regions should be robust enough to preserve the global semantics. Building upon this, we introduce a complementary self-enhancement method that constrains the semantic consistency between these confident regions and an augmented image with the same class labels. Extensive experiments conducted on PASCAL VOC 2012 and MS COCO 2014 demonstrate that our proposed single-stage approach for WSSS not only outperforms state-of-the-art benchmarks remarkably but also surpasses multi-stage methodologies that trade complexity for accuracy. The code can be found at \url{https://github.com/Jessie459/feature-self-reinforcement}.
翻訳日:2023-12-19 19:00:47 公開日:2023-12-18
# 禁止事実:llama-2における競合目標の調査

Forbidden Facts: An Investigation of Competing Objectives in Llama-2 ( http://arxiv.org/abs/2312.08793v2 )

ライセンス: Link先を確認
Tony T. Wang, Miles Wang, Kaivalya Hariharan, Nir Shavit(参考訳) LLMは、しばしば競合する圧力(例えば、有用性対無害性)に直面します。 モデルがこのような矛盾をどのように解決するかを理解するため、llama-2-chatモデルを禁止ファクトタスクで研究する。 具体的には、llama-2に、正しい答えを述べることを禁じながら、事実リコールステートメントを真に完了するよう指示します。 これはしばしばモデルに誤った答えを与える。 Llama-2を1000以上の成分に分解し、正しい解を禁ずるのがいかに有用かに関してそれぞれをランク付けする。 まとめると、約35のコンポーネントが完全な抑制動作を確実に実装するのに十分であることがわかった。 しかし、これらのコンポーネントはかなり異種であり、多くのコンポーネントは欠陥ヒューリスティックを使って動作している。 我々は、これらのヒューリスティックの1つが、カリフォルニア攻撃と呼ばれる手動で設計された敵の攻撃によって悪用できることを発見した。 以上の結果から,先進的なMLシステムの解釈に成功している障害が浮き彫りになった。 プロジェクトwebサイトはhttps://forbiddenfacts.github.ioで閲覧できる。

LLMs often face competing pressures (for example helpfulness vs. harmlessness). To understand how models resolve such conflicts, we study Llama-2-chat models on the forbidden fact task. Specifically, we instruct Llama-2 to truthfully complete a factual recall statement while forbidding it from saying the correct answer. This often makes the model give incorrect answers. We decompose Llama-2 into 1000+ components, and rank each one with respect to how useful it is for forbidding the correct answer. We find that in aggregate, around 35 components are enough to reliably implement the full suppression behavior. However, these components are fairly heterogeneous and many operate using faulty heuristics. We discover that one of these heuristics can be exploited via a manually designed adversarial attack which we call The California Attack. Our results highlight some roadblocks standing in the way of being able to successfully interpret advanced ML systems. Project website available at https://forbiddenfacts.github.io .
翻訳日:2023-12-19 19:00:16 公開日:2023-12-18
# MaxK-GNN: グラフニューラルネットワーク学習の高速化のための理論的速度限界を目指して

MaxK-GNN: Towards Theoretical Speed Limits for Accelerating Graph Neural Networks Training ( http://arxiv.org/abs/2312.08656v2 )

ライセンス: Link先を確認
Hongwu Peng, Xi Xie, Kaustubh Shivdikar, MD Amit Hasan, Jiahui Zhao, Shaoyi Huang, Omer Khan, David Kaeli, Caiwen Ding(参考訳) ディープニューラルネットワークトレーニングの加速において、GPUは主流のプラットフォームになった。 GPUは、ワークロードの不均衡やメモリアクセスの不規則など、GNNに重大な課題に直面し、未使用のハードウェアに繋がる。 PyG、cuSPARSEを使ったDGL、GNNAdvisorフレームワークといった既存のソリューションは、これらの課題に部分的に対処するが、メモリトラフィックは依然として重要である。 我々は、高速化最適化を「後考」として扱うのではなく、アルゴリズムとシステム革新の垂直最適化によってのみ、劇的な性能改善が達成できると主張している。 (i)GNNアルゴリズムを与えられたり、加速器を設計したり、 (ii)gnnアルゴリズムを最適化したハードウェアが与えられた。 本稿では,アルゴリズムとシステム革新を統合した高性能GPUトレーニングシステムMaxK-GNNを提案する。 (i)MaxK非線形性を導入し、MaxK非線形性を普遍近似として理論的解析し、非線形性後の特徴行列のデータとインデックスを保存するために設計されたCompressed Balanced Sparse Row(CBSR)フォーマットを示す。 (II)入力特徴量取得と共有メモリにおけるスパース出力蓄積バッファの戦略的配置にCBSRを用いた行ワイズ製品ベースSpGEMMカーネルを用いたコーデッシング強化フォワード計算を設計する。 (iii)外部製品ベースおよびsspmmカーネルを用いた最適化後向き計算を開発した。 我々はMaxK-GNNを広範囲に評価し、エンドツーエンドのシステム実行状況を報告する。 実験により、maxk-gnnシステムはamdahlの法則に従って理論的なスピードアップ限界に近づくことができた。 我々はSOTA GNNに匹敵する精度を達成したが、DGLやGNNAdvisorの実装と比較して、Redditの3.22/4.24倍のスピードアップ(理論上の制限は5.52/7.27倍)を実現した。

In the acceleration of deep neural network training, the GPU has become the mainstream platform. GPUs face substantial challenges on GNNs, such as workload imbalance and memory access irregularities, leading to underutilized hardware. Existing solutions such as PyG, DGL with cuSPARSE, and GNNAdvisor frameworks partially address these challenges but memory traffic is still significant. We argue that drastic performance improvements can only be achieved by the vertical optimization of algorithm and system innovations, rather than treating the speedup optimization as an "after-thought" (i.e., (i) given a GNN algorithm, designing an accelerator, or (ii) given hardware, mainly optimizing the GNN algorithm). In this paper, we present MaxK-GNN, an advanced high-performance GPU training system integrating algorithm and system innovation. (i) We introduce the MaxK nonlinearity and provide a theoretical analysis of MaxK nonlinearity as a universal approximator, and present the Compressed Balanced Sparse Row (CBSR) format, designed to store the data and index of the feature matrix after nonlinearity; (ii) We design a coalescing enhanced forward computation with row-wise product-based SpGEMM Kernel using CBSR for input feature matrix fetching and strategic placement of a sparse output accumulation buffer in shared memory; (iii) We develop an optimized backward computation with outer product-based and SSpMM Kernel. We conduct extensive evaluations of MaxK-GNN and report the end-to-end system run-time. Experiments show that MaxK-GNN system could approach the theoretical speedup limit according to Amdahl's law. We achieve comparable accuracy to SOTA GNNs, but at a significantly increased speed: 3.22/4.24 times speedup (vs. theoretical limits, 5.52/7.27 times) on Reddit compared to DGL and GNNAdvisor implementations.
翻訳日:2023-12-19 18:59:19 公開日:2023-12-18
# ZeroQuant(4+2): FP6-Centric Strategy for Diverse Generative Tasks による LLM 量子化の再定義

ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks ( http://arxiv.org/abs/2312.08583v2 )

ライセンス: Link先を確認
Xiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Reza Yazdani Aminabadi, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao(参考訳) 本研究では,大規模言語モデル(LLM)におけるGPTQのような4ビット量子化手法について検討し,ゼロショットタスクにおけるGPTQの過度な適合と制限された拡張を強調した。 事前の作業はゼロショット計測のみに留まらず、コード生成や抽象的要約といったよりジェネレーティブなカテゴリにまでタスク範囲を拡大し、int4量子化は著しく過小評価できることがわかった。 しかし、FP6のようなより高精度なフォーマットに移行することは特に困難であり、現在のAIハードウェアに高度な統合とシステムアクセラレーション戦略が欠如していることによるパフォーマンスの低下によって見落とされた。 その結果、FP6は粗粒量子化方式でも様々なアルゴリズムやタスクに対して頑健に動作し、精度と汎用性に優れることを示した。 特に、FP6量子化では、コード生成におけるFP16と同等に動作し、406Mのような小さなモデルでは、要約においてベースラインと密に一致している。 INT4では達成できない。 各種AIハードウェアの適合性を向上し,最高のシステム性能を実現するため,FP6の新たな4+2設計を提案し,最先端のINT4微粒量子化に類似したレイテンシを実現する。 我々の設計により、FP6はLLMで使われる現在の4ビット量子化法の有望な解となる。

This study examines 4-bit quantization methods like GPTQ in large language models (LLMs), highlighting GPTQ's overfitting and limited enhancement in Zero-Shot tasks. While prior works merely focusing on zero-shot measurement, we extend task scope to more generative categories such as code generation and abstractive summarization, in which we found that INT4 quantization can significantly underperform. However, simply shifting to higher precision formats like FP6 has been particularly challenging, thus overlooked, due to poor performance caused by the lack of sophisticated integration and system acceleration strategies on current AI hardware. Our results show that FP6, even with a coarse-grain quantization scheme, performs robustly across various algorithms and tasks, demonstrating its superiority in accuracy and versatility. Notably, with the FP6 quantization, \codestar-15B model performs comparably to its FP16 counterpart in code generation, and for smaller models like the 406M it closely matches their baselines in summarization. Neither can be achieved by INT4. To better accommodate various AI hardware and achieve the best system performance, we propose a novel 4+2 design for FP6 to achieve similar latency to the state-of-the-art INT4 fine-grain quantization. With our design, FP6 can become a promising solution to the current 4-bit quantization methods used in LLMs.
翻訳日:2023-12-19 18:58:15 公開日:2023-12-18
# 教師なしLLM知識発見への挑戦

Challenges with unsupervised LLM knowledge discovery ( http://arxiv.org/abs/2312.10029v2 )

ライセンス: Link先を確認
Sebastian Farquhar, Vikrant Varma, Zachary Kenton, Johannes Gasteiger, Vladimir Mikulik, Rohin Shah(参考訳) 我々は、大きな言語モデル(LLM)アクティベーションに関する既存の教師なしメソッドが知識を発見せず、アクティベーションのどの特徴が最も顕著であるかを発見できることを示した。 教師なしの知識推論の背景にある考え方は、知識は知識を発見するのに使用できる一貫性構造を満たすというものである。 まず、任意の特徴(単なる知識ではない)が、特定の指導を受けていない知識消去手法、コントラスト一貫性探索(Burns et al. - arXiv:2212.03827)の一貫性構造を満たすことを理論的に証明する。 次に、教師なしのメソッドが知識を予測せず、異なる特徴を予測できる分類器を生成するための設定を示す一連の実験を示す。 我々は,潜在知識を発見するための既存の教師なし手法は不十分であると結論し,将来的な知識の活用方法を評価するための正当性検査に貢献する。 概念的には,ここで検討した識別問題,例えばモデル知識とシミュレーションキャラクタの知識を区別することは,将来の教師なし手法として継続する,と仮定する。

We show that existing unsupervised methods on large language model (LLM) activations do not discover knowledge -- instead they seem to discover whatever feature of the activations is most prominent. The idea behind unsupervised knowledge elicitation is that knowledge satisfies a consistency structure, which can be used to discover knowledge. We first prove theoretically that arbitrary features (not just knowledge) satisfy the consistency structure of a particular leading unsupervised knowledge-elicitation method, contrast-consistent search (Burns et al. - arXiv:2212.03827). We then present a series of experiments showing settings in which unsupervised methods result in classifiers that do not predict knowledge, but instead predict a different prominent feature. We conclude that existing unsupervised methods for discovering latent knowledge are insufficient, and we contribute sanity checks to apply to evaluating future knowledge elicitation methods. Conceptually, we hypothesise that the identification issues explored here, e.g. distinguishing a model's knowledge from that of a simulated character's, will persist for future unsupervised methods.
翻訳日:2023-12-19 18:48:20 公開日:2023-12-18
# 逆整形による効率的な逆強化学習に向けて

Toward Computationally Efficient Inverse Reinforcement Learning via Reward Shaping ( http://arxiv.org/abs/2312.09983v2 )

ライセンス: Link先を確認
Lauren H. Cooke, Harvey Klyne, Edwin Zhang, Cassidy Laidlaw, Milind Tambe, Finale Doshi-Velez(参考訳) 逆強化学習(IRL)は計算的に困難であり、複数の強化学習(RL)サブプロブレムの解を必要とする一般的なアプローチである。 この研究は、各RLサブプロブレムの計算負担を軽減するために、ポテンシャルベースの報酬形成の利用を動機付けている。 本研究は概念実証として機能し,計算効率向上に向けた今後の発展を期待する。

Inverse reinforcement learning (IRL) is computationally challenging, with common approaches requiring the solution of multiple reinforcement learning (RL) sub-problems. This work motivates the use of potential-based reward shaping to reduce the computational burden of each RL sub-problem. This work serves as a proof-of-concept and we hope will inspire future developments towards computationally efficient IRL.
翻訳日:2023-12-19 18:48:00 公開日:2023-12-18
# LoRAMoE: 言語モデルアライメントにおける世界知識維持のためのエキスパートの混在

LoRAMoE: Revolutionizing Mixture of Experts for Maintaining World Knowledge in Language Model Alignment ( http://arxiv.org/abs/2312.09979v2 )

ライセンス: Link先を確認
Shihan Dou, Enyu Zhou, Yan Liu, Songyang Gao, Jun Zhao, Wei Shen, Yuhao Zhou, Zhiheng Xi, Xiao Wang, Xiaoran Fan, Shiliang Pu, Jiang Zhu, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) Supervised Fine-tuning (SFT)は、大規模言語モデル(LLM)にとって重要なステップであり、人間の指示と整合し、下流タスクの能力を高めることができる。 モデルがより幅広い下流タスクに合わせる必要がある場合や、特定のタスクのパフォーマンスを著しく改善したいという願望がある場合、ソリューションとして微調整データの大幅な増加がしばしば発生する。 しかし、命令データの大規模増加は、以前LLMに格納されていた世界知識、すなわち世界知識の忘れを損なう可能性がある。 本稿では,上記の課題に対処するためにLoRAMoEを紹介する。 LoRAMoEはMixture of Experts (MoE)のプラグイン版である。 プラグインフォームは、トレーニングフェーズ中にバックボーンモデルを凍結することで、世界の知識の完全性を保証する。 次に、タスク利用のための専門家のコーディネートに局所的バランス制約を用いることを提案し、一方で、他の専門家がモデルに格納された世界の知識を十分に活用できるようにする。 実験の結果、loramoeは推論中にデータ型に基づいて専門家を合理的に調整できることが示され、命令データを劇的に増加しても知識を忘れることはない。 さらに、LoRAMoEは下流タスクのパフォーマンスにさらなる利点をもたらし、マルチタスク学習に対する我々のアプローチの可能性を示している。

Supervised fine-tuning (SFT) is a crucial step for large language models (LLMs), enabling them to align with human instructions and enhance their capabilities in downstream tasks. When the models are required to align with a broader range of downstream tasks, or there is a desire to notably improve the performance on a specific task, a substantial increase in fine-tuning data often emerges as the solution. However, we find that large-scale increases in instruction data can disrupt the world knowledge previously stored in the LLMs, i.e., world knowledge forgetting. In this paper, we introduce LoRAMoE to address the above challenge. The LoRAMoE is a plugin version of Mixture of Experts (MoE). The plugin form ensures the integrity of world knowledge by freezing the backbone model during the training phase. We then propose the use of localized balancing constraints to coordinate parts of experts for task utilization, meanwhile enabling other experts to fully leverage the world knowledge stored in the models. Experimental results demonstrate that LoRAMoE can reasonably coordinate experts based on data type during inference, and even dramatically increasing instruction data does not result in knowledge forgetting. Moreover, LoRAMoE provides additional benefits for the performance of downstream tasks, indicating the potential of our approach for multi-task learning.
翻訳日:2023-12-19 18:47:47 公開日:2023-12-18
# TMP: オンラインビデオスーパーリゾリューションのためのテンポラルモーションプロパゲーション

TMP: Temporal Motion Propagation for Online Video Super-Resolution ( http://arxiv.org/abs/2312.09909v2 )

ライセンス: Link先を確認
Zhengqiang Zhang, Ruihuang Li, Shi Guo, Yang Cao, and Lei Zhang(参考訳) オンラインビデオスーパーレゾリューション(オンラインvsr)は時間的情報を集約するための効果的なアライメントモジュールに大きく依存しているが、厳格なレイテンシ要件は正確かつ効率的なアライメントを非常に困難にしている。 多くの進歩があったが、既存のオンラインvsr法は各フレームの運動場を別々に推定してアライメントを行うが、これは計算上冗長であり、隣接するフレームの運動場が相関しているという事実を無視している。 本研究では,連続フレーム間の高速な画素レベルアライメントを実現するために,動き場の連続性を利用した効率的な時間運動伝播法を提案する。 具体的には、まず、以前のフレームから現在のフレームにオフセットを伝播し、その後近隣でそれらを洗練し、マッチング空間を大幅に削減し、オフセット推定プロセスを高速化する。 さらに,アライメントのロバスト性を高めるために,より正確なオフセットを持つ位置がより重要となるように,反りのある特徴を空間的に重み付けする。 ベンチマークデータセットの実験により,提案手法がオンラインVSRの精度と推論速度を導くことを示す。 TMPのソースコードはhttps://github.com/xtudbxk/TMPにある。

Online video super-resolution (online-VSR) highly relies on an effective alignment module to aggregate temporal information, while the strict latency requirement makes accurate and efficient alignment very challenging. Though much progress has been achieved, most of the existing online-VSR methods estimate the motion fields of each frame separately to perform alignment, which is computationally redundant and ignores the fact that the motion fields of adjacent frames are correlated. In this work, we propose an efficient Temporal Motion Propagation (TMP) method, which leverages the continuity of motion field to achieve fast pixel-level alignment among consecutive frames. Specifically, we first propagate the offsets from previous frames to the current frame, and then refine them in the neighborhood, which significantly reduces the matching space and speeds up the offset estimation process. Furthermore, to enhance the robustness of alignment, we perform spatial-wise weighting on the warped features, where the positions with more precise offsets are assigned higher importance. Experiments on benchmark datasets demonstrate that the proposed TMP method achieves leading online-VSR accuracy as well as inference speed. The source code of TMP can be found at https://github.com/xtudbxk/TMP.
翻訳日:2023-12-19 18:47:12 公開日:2023-12-18
# 時系列分類のための深い教師なしドメイン適応:ベンチマーク

Deep Unsupervised Domain Adaptation for Time Series Classification: a Benchmark ( http://arxiv.org/abs/2312.09857v2 )

ライセンス: Link先を確認
Hassan Ismail Fawaz, Ganesh Del Grosso, Tanguy Kerdoncuff, Aurelie Boisbunon, Illyyne Saffar(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースデータを利用してラベルなしターゲットデータのモデルをトレーニングすることを目的としている。 コンピュータビジョンや自然言語処理などの分野の研究にもかかわらず、UDAは、医学や製造、地球観測、人間の活動認識など、現実世界に広く応用されている時系列データについては、まだ研究が進んでいない。 本稿では,時系列分類のためのUDA手法を評価するための総合的なベンチマークを導入することで,このギャップに対処する。 我々は、さまざまなドメインシフトと時間的ダイナミクスをカバーする7つの新しいベンチマークデータセットを提供し、時系列データに対するアートニューラルネットワークバックボーンの状態(例えば、インセプション)の公正で標準化されたUDAメソッドアセスメントを容易にする。 このベンチマークは、ドメイン適応の教師なしの性質を保ちながら評価されたアプローチの強みと限界に関する洞察を与え、実践的な問題に直接適用する。 本稿は,研究者や実践者にとって重要な資源であり,時系列データに対するドメイン適応ソリューションの進歩と,この分野のイノベーションの促進に寄与する。 このベンチマークの実装コードはhttps://github.com/EricssonResearch/UDA-4-TSCで公開されている。

Unsupervised Domain Adaptation (UDA) aims to harness labeled source data to train models for unlabeled target data. Despite extensive research in domains like computer vision and natural language processing, UDA remains underexplored for time series data, which has widespread real-world applications ranging from medicine and manufacturing to earth observation and human activity recognition. Our paper addresses this gap by introducing a comprehensive benchmark for evaluating UDA techniques for time series classification, with a focus on deep learning methods. We provide seven new benchmark datasets covering various domain shifts and temporal dynamics, facilitating fair and standardized UDA method assessments with state of the art neural network backbones (e.g. Inception) for time series data. This benchmark offers insights into the strengths and limitations of the evaluated approaches while preserving the unsupervised nature of domain adaptation, making it directly applicable to practical problems. Our paper serves as a vital resource for researchers and practitioners, advancing domain adaptation solutions for time series data and fostering innovation in this critical field. The implementation code of this benchmark is available at https://github.com/EricssonResearch/UDA-4-TSC.
翻訳日:2023-12-19 18:46:35 公開日:2023-12-18
# ケースベース推論のための畳み込みニューラルネットワークにおける忠実な説明

Keep the Faith: Faithful Explanations in Convolutional Neural Networks for Case-Based Reasoning ( http://arxiv.org/abs/2312.09783v2 )

ライセンス: Link先を確認
Tom Nuno Wolf, Fabian Bongratz, Anne-Marie Rickmann, Sebastian P\"olsterl, Christian Wachinger(参考訳) 決定クリティカルなタスクに適用する場合、ブラックボックスニューラルネットワークの予測を説明することが重要である。 このように、アトリビューションマップは、人間が類似した例に基づく説明を好むことを示す先行研究にもかかわらず、重要な画像領域を特定するために一般的に使用される。 この目的のために、protopnetはケースベース推論のためのクラス表現型特徴ベクトル(prototypes)のセットを学習する。 推論中、プロトタイプに対する潜在特徴の類似性を線形に分類し、類似性を説明するために属性マップを提供する。 本稿では,ケースベース推論のためのアーキテクチャが,ProtoPNetの例を用いて忠実な説明に必要な確立された公理を満たすか否かを評価する。 このようなアーキテクチャは忠実な説明の抽出を可能にする。 しかし、類似性を説明するために用いられる帰属写像が公理に反することを示す。 本稿では,ProtoPFaith という名前の訓練された ProtoPNet に対する説明を抽出する手法を提案する。 概念的には、これらの説明は各プロトタイプの類似度スコアに基づいて計算されるシェープリー値である。 それらは、どのプロトタイプが見えない画像に存在するのかを忠実に答え、各ピクセルがその存在に対する貢献を定量化し、したがって全ての公理に従う。 ProtoPNetの理論的違反は、3つのデータセット(CUB-200-2011、Stanford Dogs、RSNA)と5つのアーキテクチャ(ConvNet、ResNet、ResNet50、WideResNet50、ResNeXt50)で示された。 実験の結果, ProtoPNet と ProtoPFaith による説明の質的差異が示された。 さらに、摂動曲線上の領域に関する説明を定量化し、protopfaithがすべての実験でprotopfaithがprotopnetを上回るのは、$>10^3$である。

Explaining predictions of black-box neural networks is crucial when applied to decision-critical tasks. Thus, attribution maps are commonly used to identify important image regions, despite prior work showing that humans prefer explanations based on similar examples. To this end, ProtoPNet learns a set of class-representative feature vectors (prototypes) for case-based reasoning. During inference, similarities of latent features to prototypes are linearly classified to form predictions and attribution maps are provided to explain the similarity. In this work, we evaluate whether architectures for case-based reasoning fulfill established axioms required for faithful explanations using the example of ProtoPNet. We show that such architectures allow the extraction of faithful explanations. However, we prove that the attribution maps used to explain the similarities violate the axioms. We propose a new procedure to extract explanations for trained ProtoPNets, named ProtoPFaith. Conceptually, these explanations are Shapley values, calculated on the similarity scores of each prototype. They allow to faithfully answer which prototypes are present in an unseen image and quantify each pixel's contribution to that presence, thereby complying with all axioms. The theoretical violations of ProtoPNet manifest in our experiments on three datasets (CUB-200-2011, Stanford Dogs, RSNA) and five architectures (ConvNet, ResNet, ResNet50, WideResNet50, ResNeXt50). Our experiments show a qualitative difference between the explanations given by ProtoPNet and ProtoPFaith. Additionally, we quantify the explanations with the Area Over the Perturbation Curve, on which ProtoPFaith outperforms ProtoPNet on all experiments by a factor $>10^3$.
翻訳日:2023-12-19 18:45:45 公開日:2023-12-18
# リアルタイムレンダリングのための低遅延時空スーパーサンプリング

Low-latency Space-time Supersampling for Real-time Rendering ( http://arxiv.org/abs/2312.10890v1 )

ライセンス: Link先を確認
Ruian He, Shili Zhou, Yuqi Sun, Ri Cheng, Weimin Tan, Bo Yan(参考訳) リアルタイムレンダリングの台頭とディスプレイ装置の進化に伴い、高フレームレートで高解像度のコンテンツを提供するポストプロセッシング手法の需要が高まっている。 既存の技術はフレームのスーパーサンプリングと外挿の非結合的な処理によって品質とレイテンシの問題に苦しむことが多い。 本稿では,フレームスーパーサンプリングと外挿の共有状況と機構を認識し,新しいフレームワークであるSpace-time Supersampling(STSS)を提案する。 統合されたフレームワークに統合することで、STSSは低レイテンシで全体的な品質を改善することができる。 効率的なアーキテクチャを実現するため,リシェーディング領域として統一されたエイリアスホールとワープホールを扱い,Random Reshading Masking (RRM) とEfficient Reshading Module (ERM) の2つのキーコンポーネントを配置した。 広汎な実験により,本手法は最新技術(SOTA)法と比較して,優れた視覚的忠実性が得られることが示された。 特に、パフォーマンスはわずか4msで達成され、17msを必要とする従来の2段階パイプラインに対して最大75%の時間を節約できる。

With the rise of real-time rendering and the evolution of display devices, there is a growing demand for post-processing methods that offer high-resolution content in a high frame rate. Existing techniques often suffer from quality and latency issues due to the disjointed treatment of frame supersampling and extrapolation. In this paper, we recognize the shared context and mechanisms between frame supersampling and extrapolation, and present a novel framework, Space-time Supersampling (STSS). By integrating them into a unified framework, STSS can improve the overall quality with lower latency. To implement an efficient architecture, we treat the aliasing and warping holes unified as reshading regions and put forth two key components to compensate the regions, namely Random Reshading Masking (RRM) and Efficient Reshading Module (ERM). Extensive experiments demonstrate that our approach achieves superior visual fidelity compared to state-of-the-art (SOTA) methods. Notably, the performance is achieved within only 4ms, saving up to 75\% of time against the conventional two-stage pipeline that necessitates 17ms.
翻訳日:2023-12-19 14:13:01 公開日:2023-12-18
# 一般化スライディングタイルノズルの最適解法について

On Computing Makespan-Optimal Solutions for Generalized Sliding-Tile Puzzles ( http://arxiv.org/abs/2312.10887v1 )

ライセンス: Link先を確認
Marcus Gozon and Jingjin Yu(参考訳) 15ドルのゲームでは、15ドルのラベル付き正方形のタイルがエスコートを通じて4ドルの4ドルのボードに再構成され、各ステップ(時間)に隣接する1つのタイルがスライドして、以前タイルが占めていたスペースを新しいエスコートとして残す。 一般化されたスライディングタイルパズル(GSTP)について検討し,(1)1ドル以上のエスコートがあり,(2)複数タイルは1ステップで同期動作可能であることを示した。 一般的な離散型マルチエージェント/ロボットモーションモデルと比較すると、gstpは倉庫の自動化や自動駐車場など、幅広い高機能アプリケーションに対してより正確なモデルを提供するが、より関連するタイルの相互作用のため、あまり研究されていない。 本研究では,GSTPの最適解構造を解析し,GSTPの最適解がNP完全であることが確認され,ランダム化開始とゴール構成を仮定して最小値と高い確率定数因子を近似する多項式時間アルゴリズムが開発された。

In the $15$-puzzle game, $15$ labeled square tiles are reconfigured on a $4\times 4$ board through an escort, wherein each (time) step, a single tile neighboring it may slide into it, leaving the space previously occupied by the tile as the new escort. We study a generalized sliding-tile puzzle (GSTP) in which (1) there are $1+$ escorts and (2) multiple tiles can move synchronously in a single time step. Compared with popular discrete multi-agent/robot motion models, GSTP provides a more accurate model for a broad array of high-utility applications, including warehouse automation and autonomous garage parking, but is less studied due to the more involved tile interactions. In this work, we analyze optimal GSTP solution structures, establishing that computing makespan-optimal solutions for GSTP is NP-complete and developing polynomial time algorithms yielding makespans approximating the minimum with expected/high probability constant factors, assuming randomized start and goal configurations.
翻訳日:2023-12-19 14:12:40 公開日:2023-12-18
# オフショアウィンドファーム入札における文脈強化学習

Contextual Reinforcement Learning for Offshore Wind Farm Bidding ( http://arxiv.org/abs/2312.10884v1 )

ライセンス: Link先を確認
David Cole, Himanshu Sharma, Wei Wang(参考訳) 本研究では,二段階確率最適化に強化学習を適用する枠組みを提案し,この枠組みをオフショア風力発電機のエネルギー市場入札問題に適用する。 強化学習は、異なる文脈下での2段階確率プログラムの第1段階変数の最適解に近づくために用いられる可能性がある。 提案したフレームワークでは、これらの解は2段階確率プログラムを完全に解くことなく学習される。 DDPGアルゴリズムを用いたトレーニングの初期結果と,性能向上のための今後のステップについて述べる。

We propose a framework for applying reinforcement learning to contextual two-stage stochastic optimization and apply this framework to the problem of energy market bidding of an off-shore wind farm. Reinforcement learning could potentially be used to learn close to optimal solutions for first stage variables of a two-stage stochastic program under different contexts. Under the proposed framework, these solutions would be learned without having to solve the full two-stage stochastic program. We present initial results of training using the DDPG algorithm and present intended future steps to improve performance.
翻訳日:2023-12-19 14:12:20 公開日:2023-12-18
# アンサンブル学習による環境メタン検出と強度予測モデルの開発と評価

Development and Evaluation of Ensemble Learning-based Environmental Methane Detection and Intensity Prediction Models ( http://arxiv.org/abs/2312.10879v1 )

ライセンス: Link先を確認
Reek Majumder, Jacquan Pollard, M Sabbir Salek, David Werth, Gurcan Comert, Adrian Gale, Sakib Mahmud Khan, Samuel Darko, Mashrur Chowdhury(参考訳) メタン(CH4)による地球温暖化による環境影響は、CH4の能動的かつ迅速な検出を可能にする新しい技術開発において重要な研究イニシアチブを触媒している。 データ駆動機械学習(ML)モデルをいくつかテストし、影響領域における逃亡型CH4とその関連強度をどの程度正確に識別したかを確認した。 このシミュレーションには風速、温度、圧力、相対湿度、水蒸気、熱流束など様々な気象特性が含まれている。 我々は,いくつかの弱層mlモデルに基づく最良重み付け型mlモデルを決定するためにアンサンブル学習法を用いた。 i)CH4の存在を分類問題として検出し、 (ii)回帰問題としてch4の強度を予測する。

The environmental impacts of global warming driven by methane (CH4) emissions have catalyzed significant research initiatives in developing novel technologies that enable proactive and rapid detection of CH4. Several data-driven machine learning (ML) models were tested to determine how well they identified fugitive CH4 and its related intensity in the affected areas. Various meteorological characteristics, including wind speed, temperature, pressure, relative humidity, water vapor, and heat flux, were included in the simulation. We used the ensemble learning method to determine the best-performing weighted ensemble ML models built upon several weaker lower-layer ML models to (i) detect the presence of CH4 as a classification problem and (ii) predict the intensity of CH4 as a regression problem.
翻訳日:2023-12-19 14:12:13 公開日:2023-12-18
# Mimic:音声駆動型3次元顔アニメーションのための発話スタイルのアンタングル

Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial Animation ( http://arxiv.org/abs/2312.10877v1 )

ライセンス: Link先を確認
Hui Fu, Zeqing Wang, Ke Gong, Keze Wang, Tianshui Chen, Haojie Li, Haifeng Zeng, Wenxiong Kang(参考訳) 音声駆動3d顔アニメーションは、発話と正確に同期し、ユニークな話し方とマッチする、鮮明な顔アニメーションを合成することを目的としている。 しかし、既存の作品は、主観的な発話スタイルをモデル化することを無視しながら、正確な唇の同期を達成することに集中しており、しばしば非現実的な顔のアニメーションをもたらす。 我々の知る限り、この研究は、顔の動きにおける話し方と意味的内容の結合した情報を探究する最初の試みである。 具体的には,任意の主観的な発話スタイルを符号化し,より現実的な発話駆動型表情アニメーションの合成を可能にする,革新的な発話スタイル異角化手法を提案する。 次に,2つの潜伏空間を組むことにより,発話スタイルと発話内容の不連続表現を顔の動きから学習するための新しい枠組みである \textbf{mimic} を提案する。 さらに,不整合表現学習を容易にするために,補助的スタイル分類器,補助的逆分類器,内容のコントラスト損失,一対の遅延サイクル損失という,よく設計された4つの制約を導入し,アイデンティティ関連スタイル空間と意味関連コンテンツ空間の構築に効果的に寄与する。 3つの公開データセットに対して行われた広範囲な質的および定量的実験により、我々のアプローチは最先端の手法よりも優れており、音声駆動型3D顔アニメーションの多様な発話スタイルを捉えることができることを示した。 ソースコードと補足ビデオは、https://zeqing-wang.github.io/Mimic/で公開されている。

Speech-driven 3D facial animation aims to synthesize vivid facial animations that accurately synchronize with speech and match the unique speaking style. However, existing works primarily focus on achieving precise lip synchronization while neglecting to model the subject-specific speaking style, often resulting in unrealistic facial animations. To the best of our knowledge, this work makes the first attempt to explore the coupled information between the speaking style and the semantic content in facial motions. Specifically, we introduce an innovative speaking style disentanglement method, which enables arbitrary-subject speaking style encoding and leads to a more realistic synthesis of speech-driven facial animations. Subsequently, we propose a novel framework called \textbf{Mimic} to learn disentangled representations of the speaking style and content from facial motions by building two latent spaces for style and content, respectively. Moreover, to facilitate disentangled representation learning, we introduce four well-designed constraints: an auxiliary style classifier, an auxiliary inverse classifier, a content contrastive loss, and a pair of latent cycle losses, which can effectively contribute to the construction of the identity-related style space and semantic-related content space. Extensive qualitative and quantitative experiments conducted on three publicly available datasets demonstrate that our approach outperforms state-of-the-art methods and is capable of capturing diverse speaking styles for speech-driven 3D facial animation. The source code and supplementary video are publicly available at: https://zeqing-wang.github.io/Mimic/
翻訳日:2023-12-19 14:12:00 公開日:2023-12-18
# 深層学習を用いたデータスカース設定における地域規模の作物マッピング:ナイジェリアを事例として

Country-Scale Cropland Mapping in Data-Scarce Settings Using Deep Learning: A Case Study of Nigeria ( http://arxiv.org/abs/2312.10872v1 )

ライセンス: Link先を確認
Joaquin Gajardo, Michele Volpi, Daniel Onwude and Thijs Defraeye(参考訳) 農地地図は、遠隔センシングに基づく農業モニタリングの中核的かつ重要な要素であり、農業開発に関する密集した最新情報を提供する。 機械学習は大規模な農業マッピングに有効なツールだが、モデルトレーニングやテストのために、地理的参照された地表面データに依存している。 本研究では,2020年にナイジェリアの新たな作物地図を10m解像度で作成するための機械学習モデルをトレーニングするために,グローバルな作物データベースとハンドラベルデータセットを組み合わせることの有用性を検討する。 本研究では,センチネル-1,2,ERA5気候データ,DEMデータなどのリモートセンシング源からの画素級時系列入力データに加えて,作物の存在を示すバイナリラベルも提供する。 ナイジェリア全土に均等に分布する1827個のピクセルを手作業でラベル付けし,50\%のトレーニング,25\%の検証,25\%のテストセットでモデルの適合と出力マップのテストを行いました。 我々は,提案したテストセット上で,単一および複数頭長短期記憶(LSTM)ニューラルネットワーク分類器,ランダムフォレスト分類器,および既存の10m解像度グローバルランドカバーマップ(GoogleのDynamic World,ESRIのLand Cover,ESAのWorldCover)の性能を評価し,比較した。 さらに, ナイジェリアのターゲットデータ分布と類似性の観点から, データ量とデータ品質のトレードオフを実証的に評価するために, グローバルクラウドソースのgeowikiアーティクルランドデータセットを除外またはサブセットする実験を行った。 既存のWorldCoverマップは、テストセット上でF1スコア0.825、精度0.870、次いで、手書きのトレーニングサンプルとナイジェリアのGeowikiデータポイントで訓練されたシングルヘッドLSTMモデル、F1スコア0.814、精度0.842でベストを尽くしている。

Cropland maps are a core and critical component of remote-sensing-based agricultural monitoring, providing dense and up-to-date information about agricultural development. Machine learning is an effective tool for large-scale agricultural mapping, but relies on geo-referenced ground-truth data for model training and testing, which can be scarce or time-consuming to obtain. In this study, we explore the usefulness of combining a global cropland dataset and a hand-labeled dataset to train machine learning models for generating a new cropland map for Nigeria in 2020 at 10 m resolution. We provide the models with pixel-wise time series input data from remote sensing sources such as Sentinel-1 and 2, ERA5 climate data, and DEM data, in addition to binary labels indicating cropland presence. We manually labeled 1827 evenly distributed pixels across Nigeria, splitting them into 50\% training, 25\% validation, and 25\% test sets used to fit the models and test our output map. We evaluate and compare the performance of single- and multi-headed Long Short-Term Memory (LSTM) neural network classifiers, a Random Forest classifier, and three existing 10 m resolution global land cover maps (Google's Dynamic World, ESRI's Land Cover, and ESA's WorldCover) on our proposed test set. Given the regional variations in cropland appearance, we additionally experimented with excluding or sub-setting the global crowd-sourced Geowiki cropland dataset, to empirically assess the trade-off between data quantity and data quality in terms of the similarity to the target data distribution of Nigeria. We find that the existing WorldCover map performs the best with an F1-score of 0.825 and accuracy of 0.870 on the test set, followed by a single-headed LSTM model trained with our hand-labeled training samples and the Geowiki data points in Nigeria, with a F1-score of 0.814 and accuracy of 0.842.
翻訳日:2023-12-19 14:11:32 公開日:2023-12-18
# Google GeminiからOpenAI Q* (Q-Star): 生成人工知能(AI)研究景観の再構築に関する調査

From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape ( http://arxiv.org/abs/2312.10868v1 )

ライセンス: Link先を確認
Timothy R. McIntosh, Teo Susnjak, Tong Liu, Paul Watters, Malka N. Halgamuge(参考訳) この総合的な調査は、Mixture of Experts(MoE)の変革的影響、マルチモーダルラーニング、人工知能(AGI)への推察された進歩に焦点を当てて、生成的人工知能(AI)の進化する展望を調査した。 GoogleのGeminiや予想されるOpenAI Q*プロジェクトといったイノベーションが、生成AI研究の分類における影響分析など、さまざまな領域における研究の優先順位と応用をどう変えているのかを調査している。 医療、金融、教育といった分野で大きな進歩をもたらす可能性を強調しながら、これらの技術の計算能力の課題、スケーラビリティ、現実世界への影響を評価した。 また、AIテーマとAI生成の両方のプレプリントの急増によって生じる、新たな学術的課題にも対処し、ピアレビュープロセスと学術的コミュニケーションへの影響を調査した。 この研究は、AI開発に倫理的および人間中心の手法を取り入れることの重要性を強調し、社会規範と福祉の整合性を確保し、世代AIにおけるMoE、マルチモダリティ、AGIのバランスよく良質な使用に焦点を当てた将来のAI研究のための戦略を概説した。

This comprehensive survey explored the evolving landscape of generative Artificial Intelligence (AI), with a specific focus on the transformative impacts of Mixture of Experts (MoE), multimodal learning, and the speculated advancements towards Artificial General Intelligence (AGI). It critically examined the current state and future trajectory of generative Artificial Intelligence (AI), exploring how innovations like Google's Gemini and the anticipated OpenAI Q* project are reshaping research priorities and applications across various domains, including an impact analysis on the generative AI research taxonomy. It assessed the computational challenges, scalability, and real-world implications of these technologies while highlighting their potential in driving significant progress in fields like healthcare, finance, and education. It also addressed the emerging academic challenges posed by the proliferation of both AI-themed and AI-generated preprints, examining their impact on the peer-review process and scholarly communication. The study highlighted the importance of incorporating ethical and human-centric methods in AI development, ensuring alignment with societal norms and welfare, and outlined a strategy for future AI research that focuses on a balanced and conscientious use of MoE, multimodality, and AGI in generative AI.
翻訳日:2023-12-19 14:10:56 公開日:2023-12-18
# 計測に基づく量子計算におけるフォトニッククラスター状態深さの最小化

Minimizing Photonic Cluster State Depth in Measurement-Based Quantum Computing ( http://arxiv.org/abs/2312.10865v1 )

ライセンス: Link先を確認
Yingheng Li, Aditya Pawar, Zewei Mo, Youtao Zhang, Jun Yang, Xulong Tang(参考訳) 測定ベースの量子コンピューティング(MBQC)は、量子量子ビットの「一方向」測定によって計算を行う有望な量子コンピューティングパラダイムである。 フォトニック量子コンピューティング(PQC)において広く用いられ、フォトニッククラスター状態(すなわち2次元の絡み合った光子のメッシュ)で計算が行われる。 MBQCベースのPQCでは、量子回路を実行するクラスタ状態深さ(すなわち片方向測定の長さ)が、全体の実行時間とエラーにおいて重要な役割を果たす。 したがって、クラスタ状態の深さを減らすことが重要である。 本稿では,クラスタ状態の深さを効率的に最小化する動的プログラミングを用いたコンパイルフレームワークfmccを提案する。 5つの代表量子アルゴリズムによる実験結果から、FMCCは最先端のMBQCコンパイルフレームワークと比較して、小、中、大量子ビット数の平均深度を53.6%、60.6%、および60.0%減らすことができた。

Measurement-based quantum computing (MBQC) is a promising quantum computing paradigm that performs computation through ``one-way'' measurements on entangled quantum qubits. It is widely used in photonic quantum computing (PQC), where the computation is carried out on photonic cluster states (i.e., a 2-D mesh of entangled photons). In MBQC-based PQC, the cluster state depth (i.e., the length of one-way measurements) to execute a quantum circuit plays an important role in the overall execution time and error. Thus, it is important to reduce the cluster state depth. In this paper, we propose FMCC, a compilation framework that employs dynamic programming to efficiently minimize the cluster state depth. Experimental results on five representative quantum algorithms show that FMCC achieves 53.6%, 60.6%, and 60.0% average depth reductions in small, medium, and large qubit counts compared to the state-of-the-art MBQC compilation frameworks.
翻訳日:2023-12-19 14:10:27 公開日:2023-12-18
# オープンソースAIソフトウェアセキュリティにおけるコードオーナシップ

Code Ownership in Open-Source AI Software Security ( http://arxiv.org/abs/2312.10861v1 )

ライセンス: Link先を確認
Jiawen Wen, Dong Yuan, Lei Ma, Huaming Chen(参考訳) オープンソースAIソフトウェアプロジェクトがAIソフトウェア開発において不可欠なコンポーネントとなるため、開発者のためのオープンソースプロジェクトのセキュリティを確実に測定する新しい方法を開発することが重要である。 このようなプロジェクトの進化において重要なコードオーナシップは、開発者の関与と潜在的な脆弱性に関する洞察を提供する。 本稿では、コードオーナシップのメトリクスを利用して、5つの著名なオープンソースAIソフトウェアプロジェクトにおける潜伏する脆弱性との相関を実証的に調査する。 大規模な実証研究の結果は、高いレベルの所有権(限られた少数のコントリビュータによって特徴づけられる)と脆弱性の減少との間に肯定的な関係があることを示唆している。 さらに,プロジェクトの継続時間,個々のソースコードファイルのタイムライン,影響を受けるリリース数といった時間指標を革新的に導入する。 これらのメトリクスは、しばしばオープンソースのaiソフトウェアプロジェクトの異なるフェーズとそれぞれの脆弱性の強度を分類する。 これらの新たなコードオーナシップメトリクスによって、プロジェクトのキュレーターや品質保証の専門家がオンサイトプロジェクトの評価とベンチマークを行うのを支援するために、pythonベースのコマンドラインアプリケーションを実装しました。 この研究は、オープンソースのAIプロジェクトのセキュリティの確保と測定のための継続的な研究開発を開始すると期待しています。

As open-source AI software projects become an integral component in the AI software development, it is critical to develop a novel methods to ensure and measure the security of the open-source projects for developers. Code ownership, pivotal in the evolution of such projects, offers insights into developer engagement and potential vulnerabilities. In this paper, we leverage the code ownership metrics to empirically investigate the correlation with the latent vulnerabilities across five prominent open-source AI software projects. The findings from the large-scale empirical study suggest a positive relationship between high-level ownership (characterised by a limited number of minor contributors) and a decrease in vulnerabilities. Furthermore, we innovatively introduce the time metrics, anchored on the project's duration, individual source code file timelines, and the count of impacted releases. These metrics adeptly categorise distinct phases of open-source AI software projects and their respective vulnerability intensities. With these novel code ownership metrics, we have implemented a Python-based command-line application to aid project curators and quality assurance professionals in evaluating and benchmarking their on-site projects. We anticipate this work will embark a continuous research development for securing and measuring open-source AI project security.
翻訳日:2023-12-19 14:10:07 公開日:2023-12-18
# グループ化を必要とする高次元設定における可変的重要性

Variable Importance in High-Dimensional Settings Requires Grouping ( http://arxiv.org/abs/2312.10858v1 )

ライセンス: Link先を確認
Ahmad Chamma (1 and 2 and 3), Bertrand Thirion (1 and 2 and 3), Denis A. Engemann (4) ((1) Inria, (2) Universite Paris Saclay, (3) CEA, (4) Roche Pharma Research and Early Development, Neuroscience and Rare Diseases, Roche Innovation Center Basel, F. Hoffmann-La Roche Ltd., Basel, Switzerland)(参考訳) 機械学習アルゴリズムの決定過程を説明することは、今日ではモデルの性能向上と人間の理解の両方に不可欠である。 これは、DNN(Deep Neural Networks)のような高容量の非線形手法であっても、単一変数の変数の重要性を評価することで実現できる。 Permutation Importance (PI) のような除去に基づくアプローチだけが統計的妥当性をもたらすが、変数が相関している場合に誤った結果を返す。 Conditional Permutation Importance (CPI)は、そのような場合のPIの制限をバイパスする。 しかし、変数間の高い相関関係が条件的重要性を損なうような高次元環境では、CPIや他の手法の使用は、計算の禁止コスト以外の信頼性の低い結果をもたらす。 クラスタリングや事前知識を通じて統計的に変数をグループ化すると、ある程度のパワーが戻り、より良い解釈につながる。 本稿では,BCPI(Block-Based Conditional Permutation Importance)を紹介した。 さらに、高濃度群(例えば、与えられたモダリティの観測セット)の処理には時間的・資源的負荷がかかるため、グループ構造に適応したサブ線形層を持つDNNアーキテクチャを拡張した新たな積み重ねアプローチも導入する。 重み付けによって拡張された手法は,高相関なグループであっても型Iエラーを制御し,ベンチマークで最高の精度を示す。 さらに, 大規模医療データセットにおいて実世界データ解析を行い, バイオマーカー予測のための文献と結果の一貫性を示すことを目的とした。

Explaining the decision process of machine learning algorithms is nowadays crucial for both model's performance enhancement and human comprehension. This can be achieved by assessing the variable importance of single variables, even for high-capacity non-linear methods, e.g. Deep Neural Networks (DNNs). While only removal-based approaches, such as Permutation Importance (PI), can bring statistical validity, they return misleading results when variables are correlated. Conditional Permutation Importance (CPI) bypasses PI's limitations in such cases. However, in high-dimensional settings, where high correlations between the variables cancel their conditional importance, the use of CPI as well as other methods leads to unreliable results, besides prohibitive computation costs. Grouping variables statistically via clustering or some prior knowledge gains some power back and leads to better interpretations. In this work, we introduce BCPI (Block-Based Conditional Permutation Importance), a new generic framework for variable importance computation with statistical guarantees handling both single and group cases. Furthermore, as handling groups with high cardinality (such as a set of observations of a given modality) are both time-consuming and resource-intensive, we also introduce a new stacking approach extending the DNN architecture with sub-linear layers adapted to the group structure. We show that the ensuing approach extended with stacking controls the type-I error even with highly-correlated groups and shows top accuracy across benchmarks. Furthermore, we perform a real-world data analysis in a large-scale medical dataset where we aim to show the consistency between our results and the literature for a biomarker prediction.
翻訳日:2023-12-19 14:09:48 公開日:2023-12-18
# 形式言語の最小マクロベース書き換え:オントロジー工学における理論と応用

Minimal Macro-Based Rewritings of Formal Languages: Theory and Applications in Ontology Engineering (and beyond) ( http://arxiv.org/abs/2312.10857v1 )

ライセンス: Link先を確認
Christian Kindermann, Anne-Marie George, Bijan Parsia, Uli Sattler(参考訳) 本稿では,構文マクロを用いて有限形式言語を書き換えることの問題点について述べる。 この問題の変分を解く多項式時間アルゴリズムを提案し,その正しさを示す。 提案する問題の実用的妥当性とアルゴリズムの実用性および有効性を示すために,これらをowlで作成した生物医学的オントロジーに適用する。 このような書き換えはマクロで繰り返し表現をキャプチャすることでオントロジーのサイズを大幅に削減できることがわかった。 本提案手法は,オントロジーの品質向上と理解の促進に有効な支援を提供するとともに,計算問題に対する影響の観点から,書き換えシステムの特徴(構文マクロ,テンプレート,その他の書き換え規則を含む)を分析し,評価する体系的手法を導入する。

In this paper, we introduce the problem of rewriting finite formal languages using syntactic macros such that the rewriting is minimal in size. We present polynomial-time algorithms to solve variants of this problem and show their correctness. To demonstrate the practical relevance of the proposed problems and the feasibility and effectiveness of our algorithms in practice, we apply these to biomedical ontologies authored in OWL. We find that such rewritings can significantly reduce the size of ontologies by capturing repeated expressions with macros. In addition to offering valuable assistance in enhancing ontology quality and comprehension, the presented approach introduces a systematic way of analysing and evaluating features of rewriting systems (including syntactic macros, templates, or other forms of rewriting rules) in terms of their influence on computational problems.
翻訳日:2023-12-19 14:09:20 公開日:2023-12-18
# 右利得の右利得 : 分散感性損失による深部テキスト・画像生成のセマンティック一貫性の改善

The Right Losses for the Right Gains: Improving the Semantic Consistency of Deep Text-to-Image Generation with Distribution-Sensitive Losses ( http://arxiv.org/abs/2312.10854v1 )

ライセンス: Link先を確認
Mahmoud Ahmed, Omer Moussa, Ismail Shaheen, Mohamed Abdelfattah, Amr Abdalla, Marwan Eid, Hesham Eraqi, Mohamed Moustafa(参考訳) テキストから画像への生成のためのディープニューラルネットワークのトレーニングにおける大きな課題の1つは、一般的なデータセットにおいて、各画像の真正銘のキャプション間の重要な言語的不一致である。 このようなキャプションにおける単語の選択の大きな違いは、意味的に異なる画像と、その基盤となる真実とを合成する結果をもたらす。 さらに、既存のモデルは、画像のきめ細かい詳細を生成できないか、テキストと画像の合成に非効率な大量のパラメータを必要とする。 このギャップを埋めるために,本論文では,同一キャプションの生成した画像間の意味的一貫性を高める偽対偽の損失と,実画像と偽画像の分布のギャップを低減する偽対実の損失という,2つの損失関数の新たな組み合わせを用いて,対照的な学習手法を提案する。 本手法は,SSAGANとAttnGANの2つのベースラインモデルで検証した結果,CUBデータセットのスタイルブロックを用いて,AttnGANの質的結果を改善することができた。 さらに,難易度の高いCOCOデータセットでは,最先端のLafiteモデルと競合する結果が得られ,SSAGANモデルのFIDスコアを44。

One of the major challenges in training deep neural networks for text-to-image generation is the significant linguistic discrepancy between ground-truth captions of each image in most popular datasets. The large difference in the choice of words in such captions results in synthesizing images that are semantically dissimilar to each other and to their ground-truth counterparts. Moreover, existing models either fail to generate the fine-grained details of the image or require a huge number of parameters that renders them inefficient for text-to-image synthesis. To fill this gap in the literature, we propose using the contrastive learning approach with a novel combination of two loss functions: fake-to-fake loss to increase the semantic consistency between generated images of the same caption, and fake-to-real loss to reduce the gap between the distributions of real images and fake ones. We test this approach on two baseline models: SSAGAN and AttnGAN (with style blocks to enhance the fine-grained details of the images.) Results show that our approach improves the qualitative results on AttnGAN with style blocks on the CUB dataset. Additionally, on the challenging COCO dataset, our approach achieves competitive results against the state-of-the-art Lafite model, outperforms the FID score of SSAGAN model by 44.
翻訳日:2023-12-19 14:09:06 公開日:2023-12-18