このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240103となっている論文です。

PDF登録状況(公開日: 20240103)

TitleAuthorsAbstract論文公表日・翻訳日
# 共変モード分解に基づく特定エミッタ同定

Specific Emitter Identification Based on Joint Variational Mode Decomposition ( http://arxiv.org/abs/2401.01503v1 )

ライセンス: Link先を確認
Xiaofang Chen, Wenbo Xu, Yue Wang, Yan Huang, (参考訳) 特定のエミッタ識別(SEI)技術は、自己組織ネットワークやスペクトル管理などのデバイス管理シナリオにおいて、高いセキュリティのために重要である。 非線形および非定常電磁信号に対して、SEIはしばしば、異なるデバイス指紋を効果的に特徴付けるために、信号を分解するために変分モード分解(VMD)を用いる。 しかし, ノイズに対するロバスト性と信号情報の保存能力とのVMDのトレードオフは, 現在の文献では検討されていない。 さらに、既存のVMDアルゴリズムは、ある時間間隔内でのエミッタの固有歪みの安定性を利用せず、その結果、SEIにおける実用性を制限する。 本稿では,マルチフレーム信号に対して同時にモーダル分解を実装し,VMDの改良版であるJVMDアルゴリズムを提案する。 中心周波数と固有モード関数(IMF)の観点での多フレーム信号の整合性を利用して、エミッタ間の特性を効果的に強調し、ノイズを低減する。 さらに、JVMDの複雑さも分析され、VMDよりも計算に優しいことが証明されている。 実世界のデータセットを含むモード分解とSEIのシミュレーションを行い、VMDと比較すると、JVMDアルゴリズムはデバイス分類の精度とノイズに対する堅牢性を改善する。

Specific emitter identification (SEI) technology is significant in device administration scenarios, such as self-organized networking and spectrum management, owing to its high security. For nonlinear and non-stationary electromagnetic signals, SEI often employs variational modal decomposition (VMD) to decompose the signal in order to effectively characterize the distinct device fingerprint. However, the trade-off of VMD between the robustness to noise and the ability to preserve signal information has not been investigated in the current literature. Moreover, the existing VMD algorithm does not utilize the stability of the intrinsic distortion of emitters within a certain temporal span, consequently constraining its practical applicability in SEI. In this paper, we propose a joint variational modal decomposition (JVMD) algorithm, which is an improved version of VMD by simultaneously implementing modal decomposition on multi-frame signals. The consistency of multi-frame signals in terms of the central frequencies and the inherent modal functions (IMFs) is exploited, which effectively highlights the distinctive characteristics among emitters and reduces noise. Additionally, the complexity of JVMD is analyzed, which is proven to be more computational-friendly than VMD. Simulations of both modal decomposition and SEI that involve real-world datasets are presented to illustrate that when compared with VMD, the JVMD algorithm improves the accuracy of device classification and the robustness towards noise.
翻訳日:2024-03-25 12:57:08 公開日:2024-01-03
# モバイルエッジコンピューティングのセキュリティとプライバシ - 人工知能の視点から

The Security and Privacy of Mobile Edge Computing: An Artificial Intelligence Perspective ( http://arxiv.org/abs/2401.01589v1 )

ライセンス: Link先を確認
Cheng Wang, Zenghui Yuan, Pan Zhou, Zichuan Xu, Ruixuan Li, Dapeng Oliver Wu, (参考訳) Mobile Edge Computing (MEC)は、クラウドコンピューティングと情報技術(IT)サービスをネットワークのエッジで配信できるようにする新しいコンピューティングパラダイムである。 クラウドコンピューティングの負荷を個々のローカルサーバに移行することで、MECは、極低レイテンシ、ローカライズされたデータ処理の要件を満たすことを支援し、エンドユーザのためのIoT(Internet of Things)の可能性を拡張する。 しかし、MECの横断的な性質とデプロイメントに必要な多分野のコンポーネントは、さらなるセキュリティとプライバシに関する懸念を示している。 幸いなことに、人工知能(AI)アルゴリズムは、過度に予測不可能で複雑なデータを扱うことができるため、セキュリティ業界の高度な敵に対処する上で、明確なアドバンテージを提供する。 そこで本稿では,AIの観点からMECのセキュリティとプライバシに関する調査を包括的に実施する。 一方、欧州電気通信標準機構(ETSI)のMEC参照アーキテクチャをベースとして、Software Defined Network(SDN)とNetwork Function Virtualization(NFV)を統合して、MECのサービス可能なプラットフォームをよりよく説明します。 一方、私たちは、新しいセキュリティとプライバシの問題と、AIの観点からの潜在的な解決策に焦点を当てています。 最後に、将来の研究方向性として、MECのセキュリティとプライバシにAIを適用する際の機会と課題を包括的に議論する。

Mobile Edge Computing (MEC) is a new computing paradigm that enables cloud computing and information technology (IT) services to be delivered at the network's edge. By shifting the load of cloud computing to individual local servers, MEC helps meet the requirements of ultralow latency, localized data processing, and extends the potential of Internet of Things (IoT) for end-users. However, the crosscutting nature of MEC and the multidisciplinary components necessary for its deployment have presented additional security and privacy concerns. Fortunately, Artificial Intelligence (AI) algorithms can cope with excessively unpredictable and complex data, which offers a distinct advantage in dealing with sophisticated and developing adversaries in the security industry. Hence, in this paper we comprehensively provide a survey of security and privacy in MEC from the perspective of AI. On the one hand, we use European Telecommunications Standards Institute (ETSI) MEC reference architecture as our based framework while merging the Software Defined Network (SDN) and Network Function Virtualization (NFV) to better illustrate a serviceable platform of MEC. On the other hand, we focus on new security and privacy issues, as well as potential solutions from the viewpoints of AI. Finally, we comprehensively discuss the opportunities and challenges associated with applying AI to MEC security and privacy as possible future research directions.
翻訳日:2024-03-25 12:57:08 公開日:2024-01-03
# 攻撃者が武器を暴露:CTIレポートにおける敵対的手法の調査

Attackers reveal their arsenal: An investigation of adversarial techniques in CTI reports ( http://arxiv.org/abs/2401.01865v1 )

ライセンス: Link先を確認
Md Rayhanur Rahman, Setu Kumar Basak, Rezvan Mahdavi Hezaveh, Laurie Williams, (参考訳) コンテキスト: サイバーセキュリティベンダーは、しばしばサイバー脅威インテリジェンス(CTI)レポートを公開し、APT攻撃でマルウェアが使用するテクニックの技術的および法医学的分析について書かれたアーティファクトを参照する。 目的: この研究の目的は、サイバー犯罪情報報告に記録された敵の手法の分析を通じて、敵がサイバー攻撃をいかに形成するかをサイバーセキュリティ実践者に知らせることである。 データセット:MITRE ATT\&CKでカタログ化された594の敵技術を使用します。 著者らは,MITRE ATT\&CK が論文の要約として用いた 667 CTI の報告を体系的に構築した。 方法論: 敵対的手法の頻度と傾向を解析し, その後, 手法の実装の質的分析を行う。 次に、アソシエーションルールマイニングを行い、APT攻撃で繰り返されるテクニックのペアを特定する。 次に,反復するペアのテクニック間の基礎となる関係を定性解析により同定する。 発見: 667 CTIの一連の報告では、合計で10,370のテクニックが報告されており、文書化されたテクニックの37.3%を占める19の一般的なテクニックが特定されている。 また,425種類の統計的に有意な反復対と7種類の関係を同定した。 7つの関係の中で上位3つは、マルウェアが使用するテクニックが相互に相互に関連していることを示している。 (a)同一のシステム資産を濫用する、または影響する b) シーケンスで実行し、 (c) 実装において重複する。 本研究は,APT攻撃におけるマルウェアによる攻撃手法を,公に報告された文書に基づいて定量的に検証した。 組織は、特定された一般的なテクニックに対する防御を優先し、特定されたテクニックのペアに基づいて、潜在的に悪意のある侵入を積極的に探します。

Context: Cybersecurity vendors often publish cyber threat intelligence (CTI) reports, referring to the written artifacts on technical and forensic analysis of the techniques used by the malware in APT attacks. Objective: The goal of this research is to inform cybersecurity practitioners about how adversaries form cyberattacks through an analysis of adversarial techniques documented in cyberthreat intelligence reports. Dataset: We use 594 adversarial techniques cataloged in MITRE ATT\&CK. We systematically construct a set of 667 CTI reports that MITRE ATT\&CK used as citations in the descriptions of the cataloged adversarial techniques. Methodology: We analyze the frequency and trend of adversarial techniques, followed by a qualitative analysis of the implementation of techniques. Next, we perform association rule mining to identify pairs of techniques recurring in APT attacks. We then perform qualitative analysis to identify the underlying relations among the techniques in the recurring pairs. Findings: The set of 667 CTI reports documents 10,370 techniques in total, and we identify 19 prevalent techniques accounting for 37.3\% of documented techniques. We also identify 425 statistically significant recurring pairs and seven types of relations among the techniques in these pairs. The top three among the seven relationships suggest that techniques used by the malware inter-relate with one another in terms of (a) abusing or affecting the same system assets, (b) executing in sequences, and (c) overlapping in their implementations. Overall, the study quantifies how adversaries leverage techniques through malware in APT attacks based on publicly reported documents. We advocate organizations prioritize their defense against the identified prevalent techniques and actively hunt for potential malicious intrusion based on the identified pairs of techniques.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-03
# セキュアなスマートコントラクト開発のためのアーキテクチャ設計

Architectural Design for Secure Smart Contract Development ( http://arxiv.org/abs/2401.01891v1 )

ライセンス: Link先を確認
Myles Lewis, Chris Crawford, (参考訳) 時間が進むにつれて、よりセキュアなアプリケーションの必要性は指数関数的に増大する。 転送される機密情報のさまざまなタイプが、ブロックチェーンを活用したシステムの台頭を引き起こしている。 さまざまなセクターが、この破壊的な技術を使って、リスクと利益を評価し始めている。 金融、医療、高等教育、無線通信といった分野では、ブロックチェーンに関する研究が行われている。 さらに、この研究領域におけるセキュリティ標準の必要性も重要である。 近年、ブロックチェーンインフラストラクチャに対するいくつかの攻撃により、数十億ドルの損失が発生し、機密情報が漏洩している。 これらの攻撃の中には、DAO攻撃、bZx攻撃、Ethereumネットワーク上のスマートコントラクト内の脆弱性をターゲットにしたParity Multisignature Wallet Double Attacksなどがある。 これらの攻撃は、現在のスマートコントラクト開発プラクティスの弱点を露呈し、その機能にブロックチェーンを活用するシステムへの不信と採用の高まりにつながった。 本稿では、一般的なソフトウェア脆弱性とブロックチェーンインフラストラクチャに対する攻撃を特定し、スマートコントラクト開発プロセスの詳細を詳述するとともに、スマートコントラクトを活用した将来のシステムに対するより強力なセキュリティ標準を保証するためのモデルを提案する。 モデルを提案する目的は、将来ブロックチェーンの採用の基礎となるシステム内のエンドユーザー間の信頼を促進することである。

As time progresses, the need for more secure applications grows exponentially. The different types of sensitive information that is being transferred virtually has sparked a rise in systems that leverage blockchain. Different sectors are beginning to use this disruptive technology to evaluate the risks and benefits. Sectors like finance, medicine, higher education, and wireless communication have research regarding blockchain. Futhermore, the need for security standards in this area of research is pivotal. In recent past, several attacks on blockchain infrastructures have resulted in hundreds of millions dollars lost and sensitive information compromised. Some of these attacks include DAO attacks, bZx attacks, and Parity Multisignature Wallet Double Attacks which targeted vulnerabilities within smart contracts on the Ethereum network. These attacks exposed the weaknesses of current smart contract development practices which has led to the increase in distrust and adoption of systems that leverage blockchain for its functionality. In this paper, I identify common software vulnerabilities and attacks on blockchain infrastructures, thoroughly detail the smart contract development process and propose a model for ensuring a stronger security standard for future systems leveraging smart contracts. The purpose for proposing a model is to promote trust among end users in the system which is a foundational element for blockchain adoption in the future.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-03
# Shadow Blade: 攻撃ベクトルと対話するツール

Shadow Blade: A tool to interact with attack vectors ( http://arxiv.org/abs/2401.01960v1 )

ライセンス: Link先を確認
Ariel R. Ril, Daniel Dalalana Bertoglio, Avelino F. Zorzo, (参考訳) サイバーセキュリティ専門家の需要が増大し、攻撃的なスキル向上を支援する新しいプラットフォームやツールの開発も増加した。 これらのプラットフォームの1つがHackTheBoxだ。HackTheBoxはオンラインのサイバーセキュリティトレーニングプラットフォームで、プロがCTF(Capture the Flag)コンペティションスタイルで仮想マシンを探索するための、制御された安全な環境を提供する。 CTFや現実世界のペネトレーションテスト(Pentest)でも使用されるツールのほとんどは、特定の理由で開発されたため、各ツールは通常、異なる入力形式と出力形式を持つ。 これらの異なるフォーマットは、サイバーセキュリティの専門家やCTFの競合企業にとって、アタックグラフの開発を困難にしている。 サイバーセキュリティの専門家やCTFの競合他社が攻撃ベクトルを発見し、選択し、利用できるようにするために、本稿では、ユーザが攻撃ベクトルと対話するためのツールであるShadow Bladeを提案する。

The increased demand of cyber security professionals has also increased the development of new platforms and tools that help those professionals to improve their offensive skills. One of these platforms is HackTheBox, an online cyber security training platform that delivers a controlled and safe environment for those professionals to explore virtual machines in a Capture the Flag (CTF) competition style. Most of the tools used in a CTF, or even on real-world Penetration Testing (Pentest), were developed for specific reasons so each tool usually has different input and output formats. These different formats make it hard for cyber security professionals and CTF competitors to develop an attack graph. In order to help cyber security professionals and CTF competitors to discover, select and exploit an attack vector, this paper presents Shadow Blade, a tool to aid users to interact with their attack vectors.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-03
# PQCMC: ポスト量子暗号 McEliece-Chen Implicit Certificate Scheme

PQCMC: Post-Quantum Cryptography McEliece-Chen Implicit Certificate Scheme ( http://arxiv.org/abs/2401.13691v1 )

ライセンス: Link先を確認
Abel C. H. Chen, (参考訳) 近年、楕円曲線 Qu-Vanstone (ECQV) の暗黙的な証明スキームは、セキュリティ認証管理システム (SCMS) とセキュアな車両間通信 (V2X) に応用され、偽名証明書を発行している。 しかし、楕円曲線暗号(ECC)の量子コンピューティングによる多項式時間攻撃に対する脆弱性が懸念されている。 量子コンピューティングの脅威に対する耐性を高めるために、様々な量子後暗号法が標準(例えば、ディリシウム)や候補標準(例えば、マクエリース暗号)として採用されているが、格子ベースの暗号法を用いて暗黙の証明を実装することは、最先端技術が困難であることが証明されている。 そこで本研究では,PQCMC(McEliece-Chen)を用いた後量子暗号手法を提案する。 この研究は、暗黙の証明に対する重要な拡張プロセスを検証する数学的モデルを提供する。 さらに、個別の暗黙の証明書が同一のエンドエンティティにリンク可能であることを示すため、包括的なセキュリティ評価と議論が行われた。 実験では、証明書の長さと計算時間を比較して、提案したPQCMCの性能を評価する。 本研究では,量子コンピューティングの脅威に対処する手段として,PQCに基づく暗黙的な証明スキームの実現可能性を示す。

In recent years, the elliptic curve Qu-Vanstone (ECQV) implicit certificate scheme has found application in security credential management systems (SCMS) and secure vehicle-to-everything (V2X) communication to issue pseudonymous certificates. However, the vulnerability of elliptic-curve cryptography (ECC) to polynomial-time attacks posed by quantum computing raises concerns. In order to enhance resistance against quantum computing threats, various post-quantum cryptography methods have been adopted as standard (e.g. Dilithium) or candidate standard methods (e.g. McEliece cryptography), but state of the art has proven to be challenging to implement implicit certificates using lattice-based cryptography methods. Therefore, this study proposes a post-quantum cryptography McEliece-Chen (PQCMC) based on an efficient random invertible matrix generation method to issue pseudonymous certificates with less computation time. The study provides mathematical models to validate the key expansion process for implicit certificates. Furthermore, comprehensive security evaluations and discussions are conducted to demonstrate that distinct implicit certificates can be linked to the same end entity. In experiments, a comparison is conducted between the certificate length and computation time to evaluate the performance of the proposed PQCMC. This study demonstrates the viability of the implicit certificate scheme based on PQC as a means of countering quantum computing threats.
翻訳日:2024-03-25 12:17:56 公開日:2024-01-03
# ゲーム理論を用いたデータ保護心理学

Data protection psychology using game theory ( http://arxiv.org/abs/2402.07905v1 )

ライセンス: Link先を確認
Mike Nkongolo, Jahrad Sewnath, (参考訳) この研究は、テクノロジへの依存が高まり、個人データが広く利用できるようになる時代において、個人がどのようにデータ保護の実践を知覚し、相互作用するかを検討することを目的としている。 この研究は、個人の意識とデータ保護対策の理解に影響を与える心理的要因を研究するためのゲーム理論的アプローチを採用している。 これは、ゲーム内で戦略、動き、報酬、観察を使用して、これらの心理的要因に関する包括的な洞察を得る。 プレイヤー戦略の分析とゲーム内の動きを通じて、研究はデータ保護の認知に影響を与えるいくつかの心理的要因を特定する。 これらの要因には、知識のレベル、態度、認識されるリスク、参加者間の個人差が含まれる。 この発見は、人間の認知とデータ保護に関する行動の複雑な性質を強調し、この領域における効果的な認知ゲームや教育イニシアチブの開発に不可欠な洞察を提供する。

The research aims to explore how individuals perceive and interact with data protection practices in an era of increasing reliance on technology and the widespread availability of personal data. The study employs a game theoretical approach to investigate the psychological factors that influence individuals' awareness and comprehension of data protection measures. This involves using strategies, moves, rewards, and observations within the game to gain comprehensive insights into these psychological factors. Through the analysis of player strategies and moves within the game, the research identifies several psychological factors that impact awareness of data protection. These factors include levels of knowledge, attitudes, perceived risks, and individual differences among participants. The findings highlight the intricate nature of human cognition and behavior concerning data protection, offering insights crucial for developing effective awareness games and educational initiatives in this domain.
翻訳日:2024-03-25 11:19:24 公開日:2024-01-03
# ポテンシャルエネルギーのティルトウォッシュボードの物語

Tale of Tilted Washboards of Potential Energy ( http://arxiv.org/abs/2402.08684v1 )

ライセンス: Link先を確認
Celso L. Ladera and E. Stella(参考訳) 傾斜したウォッシュボードポテンシャルはポテンシャルエネルギーの周期関数であり、そのグラフは衣服をスクラブするための傾斜ウォッシュボードのプロファイルを思い出させる。 1970年代まで、洗面板のポテンシャルは様々な物理学の研究や技術にまたがって現在、至るところで見られる。 しかし、洗面板のポテンシャルは科学や工学の学部生に提示されることはめったにない。 このようなポテンシャルを学部生に提示することを目的として、古典力学、量子物理学、光学の洗面台ポテンシャルの事例を考察する。 量子ケースは、位相準粒子が傾いたウォッシュボードポテンシャルを持つ超伝導ジョセフソン接合であり、量子計算における位相量子ビットのような重要な応用につながる。 オプティカルケースは、数千個の原子の電気双極子を閉じ込めたり進化させたりするレーザービームや、レーザーベッセルビームや、周期的な電位プロファイルが暗黙的に傾いたり、実験的に傾くように調整されたレーザー定在波によって発生する電気光学ポテンシャルである。 電気光学ポテンシャルは、例えば、ブラウン粒子運動、光学格子中の原子トラップ、光学原子時計、生体細胞におけるタンパク質輸送、凝縮物質物理学など、急速ペースの基礎研究で使われている。

Tilted washboard potentials are periodic functions of potential energy whose graphs remind the profiles of inclined washboards for scrubbing clothes. Practically unknown until the 1970, washboard potentials are at present ubiquitous seminal landscapes across diverse physics researches and technologies now receiving significant attention. However, washboard potentials are still rarely presented to science and engineering undergraduates; perhaps they could hear about those when first studying Josephson junctions. Aiming to promote the presentation of such potentials to undergraduates, we here consider cases of washboard potentials in: classical mechanics, quantum physics and optics. The quantum case is the superconducting Josephson junction whose phase quasi-particle has a tilted washboard potential leading to important applications, e.g. the phase qubit in quantum computation. Optical cases are electro-optical potentials generated with laser beams in which thousands of atom electric dipoles may become confined or evolve, potentials being generated either with laser Bessel beams, or with laser standing waves, whose periodic potential profile is implicitly tilted or may be experimentally adjusted to become tilted. Electro-optical potentials are presently used in fast-paced fundamental research, e.g. Brownian particle motors, atom trapping in optical lattices, optical atomic clocks, protein transport in biological cells, and in condensed matter physics to name a few.
翻訳日:2024-02-18 13:13:49 公開日:2024-01-03
# 孤立波による物理貯留層計算と入力データの生物学的非線形変換

Physical Reservoir Computing Enabled by Solitary Waves and Biologically-Inspired Nonlinear Transformation of Input Data ( http://arxiv.org/abs/2402.03319v1 )

ライセンス: Link先を確認
Ivan S. Maksymov(参考訳) Reservoir Computing (RC) システムはランダム接続を持つ人工ニューラルネットワークの非線形力学特性を用いてカオス時系列を効率的に予測することができる。 RCシステムの汎用性は、従来のRCアルゴリズムのハードウェアとより効率的なRCライクなスキームの両方についてさらなる研究を動機付けている。 本稿では, 生体内脳内の非線形過程にインスパイアされ, 液膜表面に励起される孤立波を用いて, 入力データの非線形変換にランダム性の影響を代用する物理RCシステムについて実験的に検証する。 計算能力が最小限のマイクロコントローラを用いて全ての操作を実行することで、従来のrcアルゴリズムの‘次世代’改良に相当する技術的に単純なハードウェアとして機能することを実証する。

Reservoir computing (RC) systems can efficiently forecast chaotic time series using nonlinear dynamical properties of an artificial neural network of random connections. The versatility of RC systems has motivated further research on both hardware counterparts of traditional RC algorithms and more efficient RC-like schemes. Inspired by the nonlinear processes in a living biological brain and using solitary waves excited on the surface of a flowing liquid film, in this paper we experimentally validate a physical RC system that substitutes the effect of randomness for a nonlinear transformation of input data. Carrying out all operations using a microcontroller with a minimal computational power, we demonstrate that the so-designed RC system serves as a technically simple hardware counterpart to the `next-generation' improvement of the traditional RC algorithm.
翻訳日:2024-02-11 16:06:25 公開日:2024-01-03
# 振動強結合下における化学反応のダイナミクス

Chemical Reaction Dynamics under Vibrational Strong Coupling ( http://arxiv.org/abs/2402.04256v1 )

ライセンス: Link先を確認
Andrew C. Hunt(参考訳) 本論文では, 古典的, 半古典的, 量子力学的手法を用いて, 光キャビティ内の化学反応のダイナミクスをシミュレートする。 このような空洞内では、反応物質の振動モードを光の真空状態に選択的に結合させることにより、最近の実験では反応速度と平衡定数に大きな変化が観測されている。 キャビティに結合した単一反応とN同一反応のアンサンブルのダイナミクスについて検討した。 単一反応剤の研究では、反応速度と量子力学的平衡定数に大きな変化が見られた。 しかしながら、我々の単一分子研究で観察されたすべての効果は、反応剤の数が増加するにつれて減少する。 実験的な分子数に対して、反応速度と平衡定数に対する空洞効果は、この論文で考慮されたすべての理論において無視可能であることが示される。 したがって、この論文は実験的な観察についての説明を与えていない。 しかし、このトピックに関する現在のすべての理論的な研究の問題を強調しており、ここで提示された結果と最近の文献に照らして、これらの効果を説明するのに何が必要かを提案する。

In this thesis, we use classical, semi-classical and quantum-mechanical methods to simulate chemical reaction dynamics inside of an optical cavity. Within such a cavity, by selectively coupling vibrational modes of the reactants to the vacuum state of light, recent experiments have observed significant changes in reaction rates and equilibrium constants - all without any external input of energy. We investigate the dynamics of both a single reaction and an ensemble of N identical reactions coupled to the cavity. In our single reactant studies, we find significant modification to the rate of reaction and to its quantum-mechanical equilibrium constant. All of the effects observed in our single molecule studies are however found to diminish as the number of reactants is increased. For any experimentally relevant number of molecules, the cavity effects on the reaction rate and the equilibrium constant are therefore shown to be negligible within all theories considered in this thesis. This thesis therefore does not offer any explanation for the experimental observations. It does however highlight issues with all current theoretical work on this topic, and provides suggestions - in light of the results presented here and in recent literature - as to what might be required to explain these effects.
翻訳日:2024-02-11 15:28:19 公開日:2024-01-03
# 工場のインテリジェント・コンディションモニタリング:方法論と不確実性管理戦略の概観

Intelligent Condition Monitoring of Industrial Plants: An Overview of Methodologies and Uncertainty Management Strategies ( http://arxiv.org/abs/2401.10266v1 )

ライセンス: Link先を確認
Maryam Ahang, Todd Charter, Oluwaseyi Ogunfowora, Maziyar Khadivi, Mostafa Abbasi, Homayoun Najjaran(参考訳) コンディションモニタリングは、現代の産業システムの安全性と信頼性において重要な役割を果たす。 人工知能(AI)アプローチは、産業応用の分野として、そして断層を特定する強力な方法として、学術や産業から注目を集めている。 本稿では,オープンソースベンチマークであるテネシー・イーストマンプロセス(tep)に着目し,産業プラントのインテリジェントな状態監視と障害検出および診断方法について概説する。 本調査では, プラント条件モニタリング, 故障検出, 診断において, 最も普及しかつ最先端のディープラーニング (DL) アルゴリズムと機械学習 (ML) アルゴリズムを要約し, 各アルゴリズムの利点と欠点について考察した。 不均衡なデータ、ラベルのないサンプル、深層学習モデルなどの課題もカバーされている。 最後に,テネシー・イーストマン・プロセス(TEP)を用いたアルゴリズムの精度と仕様の比較を行った。 この研究は、この分野に新しい研究者と専門家の両方にとって有益であり、それらに対する課題と可能な解決策とともに、状態監視と最先端の方法に関する文献をカバーしている。

Condition monitoring plays a significant role in the safety and reliability of modern industrial systems. Artificial intelligence (AI) approaches are gaining attention from academia and industry as a growing subject in industrial applications and as a powerful way of identifying faults. This paper provides an overview of intelligent condition monitoring and fault detection and diagnosis methods for industrial plants with a focus on the open-source benchmark Tennessee Eastman Process (TEP). In this survey, the most popular and state-of-the-art deep learning (DL) and machine learning (ML) algorithms for industrial plant condition monitoring, fault detection, and diagnosis are summarized and the advantages and disadvantages of each algorithm are studied. Challenges like imbalanced data, unlabelled samples and how deep learning models can handle them are also covered. Finally, a comparison of the accuracies and specifications of different algorithms utilizing the Tennessee Eastman Process (TEP) is conducted. This research will be beneficial for both researchers who are new to the field and experts, as it covers the literature on condition monitoring and state-of-the-art methods alongside the challenges and possible solutions to them.
翻訳日:2024-01-28 16:31:00 公開日:2024-01-03
# アップデートの最良のタイミング:年齢ベースのメトリクスのリスクに敏感な最小化

The Best Time for an Update: Risk-Sensitive Minimization of Age-Based Metrics ( http://arxiv.org/abs/2401.10265v1 )

ライセンス: Link先を確認
Wanja de Sombre, Andrea Ortiz, Frank Aurzada, Anja Klein(参考訳) データ品質を定量化する一般的な方法は、情報時代(AoI)、情報検索時代(QAoI)、不正確な情報時代(AoII)である。 我々は,これらのメトリクスを,送信機がプロセスを監視して受信機にステータス更新を送信するポイント・ツー・ポイント無線通信システムとして検討する。 課題は、送信エネルギーと受信機の年齢ベースのメトリックのバランスをとることで、更新の最良のタイミングを決めることである。 不安定なシステム状態などの合併症を引き起こす高年齢基準値の本質的なリスクから,リスク状態の概念を導入して,高年齢基準を持つ状態を示す。 この新たなリスク状態の概念は、リスク状態の頻度を新しいリスクメトリクスとして直接引き出すことによって、高年齢のメトリクスを経験するリスクを定量化し、最小化する。 この基盤を基盤として,AoI,QAoI,AoIIの2つのリスク感受性戦略を導入する。 最初の戦略はシステム知識、すなわちチャネル品質とパケット到着確率を使い、年齢ベースのメートル法が調整可能な閾値を超えたときに送信する最適な戦略を見つける。 低い閾値はリスク感受性を高める。 第2の戦略は、強化されたQ-ラーニングアプローチを使用して、システムに関する知識を必要とせず、年齢ベースの計量、伝達エネルギー、リスク状態の頻度のバランスをとる。 数値的な結果は我々のリスクに敏感な戦略の高い有効性を裏付ける。

Popular methods to quantify transmitted data quality are the Age of Information (AoI), the Query Age of Information (QAoI), and the Age of Incorrect Information (AoII). We consider these metrics in a point-to-point wireless communication system, where the transmitter monitors a process and sends status updates to a receiver. The challenge is to decide on the best time for an update, balancing the transmission energy and the age-based metric at the receiver. Due to the inherent risk of high age-based metric values causing complications such as unstable system states, we introduce the new concept of risky states to denote states with high age-based metric. We use this new notion of risky states to quantify and minimize this risk of experiencing high age-based metrics by directly deriving the frequency of risky states as a novel risk-metric. Building on this foundation, we introduce two risk-sensitive strategies for AoI, QAoI and AoII. The first strategy uses system knowledge, i.e., channel quality and packet arrival probability, to find an optimal strategy that transmits when the age-based metric exceeds a tunable threshold. A lower threshold leads to higher risk-sensitivity. The second strategy uses an enhanced Q-learning approach and balances the age-based metric, the transmission energy and the frequency of risky states without requiring knowledge about the system. Numerical results affirm our risk-sensitive strategies' high effectiveness.
翻訳日:2024-01-28 16:30:41 公開日:2024-01-03
# 対面協調学習におけるエンゲージメントの自動検出による個別支援のための透明学習分析

Harnessing Transparent Learning Analytics for Individualized Support through Auto-detection of Engagement in Face-to-Face Collaborative Learning ( http://arxiv.org/abs/2401.10264v1 )

ライセンス: Link先を確認
Qi Zhou, Wannapon Suraworachet, Mutlu Cukurova(参考訳) 学習分析を用いて協調学習の調査と支援が長年にわたって行われてきた。 近年,様々な人工知能アプローチによる自動的アプローチが,協調学習タスクにおける学生のエンゲージメントとパフォーマンスのモデル化と予測に有望な成果をもたらしている。 しかしながら、分析設計と実装の学習に「ブラックボックス」アプローチを用いたことによる透明性と解釈可能性の欠如により、指導と学習の実践の指導が困難になる可能性がある。 一方、機械学習アルゴリズムとモデルによって作成されたブラックボックスは、ユーザーが教育的に意味のある学習や教示を得るのを防ぐ。 一方,グループレベル分析とコホートレベル分析のみに注目することは,協調グループで働く個々の学生に具体的な支援を提供することを困難にする。 本稿では,共同作業における学生の個人参加を自動的に検出する透過的アプローチを提案する。 その結果,提案手法は学生の個人的関与を反映し,異なる協調学習課題(認知的,行動的,感情的)と学習成果を識別するための指標として使用できることがわかった。 対面の文脈における協調学習実践の足場構築に向けたコラボレーション分析手法の可能性について検討し,今後の研究提案を行う。

Using learning analytics to investigate and support collaborative learning has been explored for many years. Recently, automated approaches with various artificial intelligence approaches have provided promising results for modelling and predicting student engagement and performance in collaborative learning tasks. However, due to the lack of transparency and interpretability caused by the use of "black box" approaches in learning analytics design and implementation, guidance for teaching and learning practice may become a challenge. On the one hand, the black box created by machine learning algorithms and models prevents users from obtaining educationally meaningful learning and teaching suggestions. On the other hand, focusing on group and cohort level analysis only can make it difficult to provide specific support for individual students working in collaborative groups. This paper proposes a transparent approach to automatically detect student's individual engagement in the process of collaboration. The results show that the proposed approach can reflect student's individual engagement and can be used as an indicator to distinguish students with different collaborative learning challenges (cognitive, behavioural and emotional) and learning outcomes. The potential of the proposed collaboration analytics approach for scaffolding collaborative learning practice in face-to-face contexts is discussed and future research suggestions are provided.
翻訳日:2024-01-28 16:30:18 公開日:2024-01-03
# 神経科学と認知心理学からの知見のレビュー : 汎用人工知能への道のりへのインスピレーションとして

A Review of Findings from Neuroscience and Cognitive Psychology as Possible Inspiration for the Path to Artificial General Intelligence ( http://arxiv.org/abs/2401.10904v1 )

ライセンス: Link先を確認
Florin Leon(参考訳) 本総説は,神経科学と認知心理学の手法を潜在的インスピレーションとして検討することにより,人工知能の探求に貢献することを目的とする。 さまざまな領域のディープラーニングモデルによって達成された驚くべき進歩にもかかわらず、抽象的推論と因果理解には依然として欠点がある。 このような能力は、最終的に人工知能システムに統合され、データ駆動の限界を超え、人間の知性に近い方法で意思決定をサポートするべきである。 この研究は、低レベルの生物学的ニューロン、スパイクニューラルネットワーク、神経アンサンブルから、脳解剖学、ベクトル記号アーキテクチャ、認知と分類モデル、認知アーキテクチャといった高度な概念まで、広範囲にわたる脳機能の探索を試みる垂直レビューである。 これらの概念は、人工知能のソリューションに対する洞察を提供するかもしれない。

This review aims to contribute to the quest for artificial general intelligence by examining neuroscience and cognitive psychology methods for potential inspiration. Despite the impressive advancements achieved by deep learning models in various domains, they still have shortcomings in abstract reasoning and causal understanding. Such capabilities should be ultimately integrated into artificial intelligence systems in order to surpass data-driven limitations and support decision making in a way more similar to human intelligence. This work is a vertical review that attempts a wide-ranging exploration of brain function, spanning from lower-level biological neurons, spiking neural networks, and neuronal ensembles to higher-level concepts such as brain anatomy, vector symbolic architectures, cognitive and categorization models, and cognitive architectures. The hope is that these concepts may offer insights for solutions in artificial general intelligence.
翻訳日:2024-01-28 16:08:20 公開日:2024-01-03
# アフリカにおける持続的農業開発のための人工知能の調和 : 機会・課題・影響

Harnessing Artificial Intelligence for Sustainable Agricultural Development in Africa: Opportunities, Challenges, and Impact ( http://arxiv.org/abs/2401.06171v1 )

ライセンス: Link先を確認
Kinyua Gikunda(参考訳) 本稿では,アフリカ各地における持続可能な農業開発における人工知能(AI)の変容の可能性について考察する。 この研究は、農業におけるAI応用のダイナミックな展望を通して、機会、課題、そして影響を掘り下げている。 技術基盤、データアクセシビリティ、スキルギャップに関する課題とともに、精密農業、作物モニタリング、気候回復の実践などの機会について検討する。 この記事では、小作農、サプライチェーン、包括的成長に対するAIの影響を分析する。 倫理的な考慮とポリシーの影響も議論され、責任あるAI統合に関する洞察を提供する。 本稿では, アフリカ農業における持続可能性向上のためのAI活用に関する議論の継続に寄与する。

This paper explores the transformative potential of artificial intelligence (AI) in the context of sustainable agricultural development across diverse regions in Africa. Delving into opportunities, challenges, and impact, the study navigates through the dynamic landscape of AI applications in agriculture. Opportunities such as precision farming, crop monitoring, and climate-resilient practices are examined, alongside challenges related to technological infrastructure, data accessibility, and skill gaps. The article analyzes the impact of AI on smallholder farmers, supply chains, and inclusive growth. Ethical considerations and policy implications are also discussed, offering insights into responsible AI integration. By providing a nuanced understanding, this paper contributes to the ongoing discourse on leveraging AI for fostering sustainability in African agriculture.
翻訳日:2024-01-22 12:52:59 公開日:2024-01-03
# GLIDE-RL:RLにおけるデモによる接地言語指導

GLIDE-RL: Grounded Language Instruction through DEmonstration in RL ( http://arxiv.org/abs/2401.02991v1 )

ライセンス: Link先を確認
Chaitanya Kharyal and Sai Krishna Gottipati and Tanmay Kumar Sinha and Srijita Das and Matthew E. Taylor(参考訳) 複雑な人間 - AI協調システムの開発における最後のフロンティアの1つは、AIエージェントが自然言語を理解し、それに従ってタスクを実行する能力である。 しかし、自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、言語の複雑さとあいまいさ、報酬の分散など、長年にわたる課題となっている。 強化学習、カリキュラム学習、継続学習、言語モデルにおけるいくつかの進歩は、様々な環境における接地エージェントの効果的な訓練に独立して寄与している。 そこで,本研究では,新しいアルゴリズムであるrl (glide-rl) のデモを通して,自然言語命令に従うことができるrlエージェントを訓練するための教師・教師・教師・学生によるカリキュラム学習フレームワークを提案する。 このマルチエージェントフレームワークでは、教師と生徒エージェントが生徒の現在のスキルレベルに基づいて同時に学習する。 さらに,生徒エージェントを1人だけでなく複数の教師エージェントで訓練する必要性を実証する。 複雑なスパース報酬環境の実験は,提案手法の有効性を検証する。

One of the final frontiers in the development of complex human - AI collaborative systems is the ability of AI agents to comprehend the natural language and perform tasks accordingly. However, training efficient Reinforcement Learning (RL) agents grounded in natural language has been a long-standing challenge due to the complexity and ambiguity of the language and sparsity of the rewards, among other factors. Several advances in reinforcement learning, curriculum learning, continual learning, language models have independently contributed to effective training of grounded agents in various environments. Leveraging these developments, we present a novel algorithm, Grounded Language Instruction through DEmonstration in RL (GLIDE-RL) that introduces a teacher-instructor-student curriculum learning framework for training an RL agent capable of following natural language instructions that can generalize to previously unseen language instructions. In this multi-agent framework, the teacher and the student agents learn simultaneously based on the student's current skill level. We further demonstrate the necessity for training the student agent with not just one, but multiple teacher agents. Experiments on a complex sparse reward environment validates the effectiveness of our proposed approach.
翻訳日:2024-01-15 09:36:39 公開日:2024-01-03
# 深層学習を用いた種分布モデルにおける擬似存在の選択と有効性について

On the selection and effectiveness of pseudo-absences for species distribution modeling with deep learning ( http://arxiv.org/abs/2401.02989v1 )

ライセンス: Link先を確認
Robin Zbinden, Nina van Tiel, Benjamin Kellenberger, Lloyd Hughes, Devis Tuia(参考訳) 種分布モデリングは、環境条件と種発生の複雑な関係を理解するための非常に汎用的なツールである。 しかし、利用可能なデータは、確認された種の欠如に関する情報を欠くことが多く、機会にサンプリングされた存在のみの観測に限られる。 この制限を克服するため、一般的なアプローチは、負のサンプルとして指定された特定の地理的位置である擬似存在を用いることである。 擬似存在は単一種分布モデルに対して十分に確立されているが、多種ニューラルネットワークの文脈におけるそれらの応用はいまだ未解明である。 特に、種の存在と擬似存在の間の重要な階級不均衡は、しばしば未適応のまま残されている。 さらに、異なるタイプの疑似抽象(例えばランダムとターゲットグループの背景点)の存在は、選択プロセスに複雑さをもたらす。 疑似抽象型の最適な組み合わせを決定することは困難であり、特に特定のタイプの疑似抽象が地理的バイアスを緩和するために使用できることを考慮し、データの特性に依存する。 本稿では、損失関数の修正を通じて、多種ニューラルネットワークのトレーニングに擬似存在を組み込むことにより、これらの課題に効果的に取り組むことができることを示す。 この調整は、損失関数の異なる項に異なる重みを割り当てることによって、クラス不均衡と擬似存在型の選択の両方に対処する。 さらに,このような損失重みを空間ブロッククロスバリデーションと存在限定データを用いて設定する手法を提案する。 提案手法は,6つの地域から独立した存在感データを含むベンチマークデータセットを用いて評価し,競合するアプローチと比較して改善した結果を報告する。

Species distribution modeling is a highly versatile tool for understanding the intricate relationship between environmental conditions and species occurrences. However, the available data often lacks information on confirmed species absence and is limited to opportunistically sampled, presence-only observations. To overcome this limitation, a common approach is to employ pseudo-absences, which are specific geographic locations designated as negative samples. While pseudo-absences are well-established for single-species distribution models, their application in the context of multi-species neural networks remains underexplored. Notably, the significant class imbalance between species presences and pseudo-absences is often left unaddressed. Moreover, the existence of different types of pseudo-absences (e.g., random and target-group background points) adds complexity to the selection process. Determining the optimal combination of pseudo-absences types is difficult and depends on the characteristics of the data, particularly considering that certain types of pseudo-absences can be used to mitigate geographic biases. In this paper, we demonstrate that these challenges can be effectively tackled by integrating pseudo-absences in the training of multi-species neural networks through modifications to the loss function. This adjustment involves assigning different weights to the distinct terms of the loss function, thereby addressing both the class imbalance and the choice of pseudo-absence types. Additionally, we propose a strategy to set these loss weights using spatial block cross-validation with presence-only data. We evaluate our approach using a benchmark dataset containing independent presence-absence data from six different regions and report improved results when compared to competing approaches.
翻訳日:2024-01-15 09:36:20 公開日:2024-01-03
# 潜在ディリクレ割当(LDA)セマンティックテキスト分析手法による慈善募金キャンペーンの話題的特徴の探索

A Latent Dirichlet Allocation (LDA) Semantic Text Analytics Approach to Explore Topical Features in Charity Crowdfunding Campaigns ( http://arxiv.org/abs/2401.02988v1 )

ライセンス: Link先を確認
Prathamesh Muzumdar, George Kurian, Ganga Prasad Basyal(参考訳) ソーシャルウェブの領域におけるクラウドファンディングは、プロジェクト目標、期間、影響力のあるプロジェクトカテゴリを含むキャンペーンのさまざまな側面を調査した結果、かなりの注目を集めている。 これらの要因は、ドナー支援を求める起業家にとって重要である。 しかし、ソーシャルウェブ内のチャリティークラウドファンディングの状況は比較的未調査のままであり、しばしば具体的な相互行為を欠く寄付を推進する動機の理解が欠如している。 具体的なリターンを提供する従来のクラウドファンディングとは違い、慈善クラウドファンディングは税制上の優位性や認識ポスト、諮問の役割といった無形の報酬に依存している。 このような詳細はキャンペーンの物語に埋め込まれることが多いが、チャリティークラウドファンディングにおけるテキストコンテンツの分析は限られている。 本研究は,潜在ディリクレ割当(lda)を利用して,チャリティーキャンペーンのテキスト記述から潜在テーマを抽出する,創造的なテキスト分析フレームワークを提案する。 この研究は4つの異なるテーマを探求し、それぞれ2つのキャンペーンとインセンティブの説明を行った。 キャンペーン記述テーマは、主に末期疾患と診断された子どもと高齢者の健康に焦点を当てている。 インセンティブ記述のテーマは、税の給付、証明書、評価ポストに基づいている。 これらのテーマと数値パラメータを組み合わせることで、キャンペーンの成功を予測する。 この研究はランダム森林分類器を用いて、テーマパラメータと数値パラメータの両方を用いてキャンペーンの成功を予測することに成功した。 この研究は、プロジェクトやインセンティブの記述に基づいて、テーマカテゴリー、特に医療ニーズに基づくチャリティと一般的な原因を区別する。 結論として本研究は,未登録のチャリティークラウドファンディングドメインにおけるトピックモデリングの有用性を示すことによって,ギャップを埋める。

Crowdfunding in the realm of the Social Web has received substantial attention, with prior research examining various aspects of campaigns, including project objectives, durations, and influential project categories for successful fundraising. These factors are crucial for entrepreneurs seeking donor support. However, the terrain of charity crowdfunding within the Social Web remains relatively unexplored, lacking comprehension of the motivations driving donations that often lack concrete reciprocation. Distinct from conventional crowdfunding that offers tangible returns, charity crowdfunding relies on intangible rewards like tax advantages, recognition posts, or advisory roles. Such details are often embedded within campaign narratives, yet, the analysis of textual content in charity crowdfunding is limited. This study introduces an inventive text analytics framework, utilizing Latent Dirichlet Allocation (LDA) to extract latent themes from textual descriptions of charity campaigns. The study has explored four different themes, two each in campaign and incentive descriptions. Campaign description themes are focused on child and elderly health mainly the ones who are diagnosed with terminal diseases. Incentive description themes are based on tax benefits, certificates, and appreciation posts. These themes, combined with numerical parameters, predict campaign success. The study was successful in using Random Forest Classifier to predict success of the campaign using both thematic and numerical parameters. The study distinguishes thematic categories, particularly medical need-based charity and general causes, based on project and incentive descriptions. In conclusion, this research bridges the gap by showcasing topic modelling utility in uncharted charity crowdfunding domains.
翻訳日:2024-01-15 09:35:53 公開日:2024-01-03
# CoSS:人間活動認識におけるデータ効率の良いAIのための協調最適化センサとサンプリングレート

CoSS: Co-optimizing Sensor and Sampling Rate for Data-Efficient AI in Human Activity Recognition ( http://arxiv.org/abs/2401.05426v1 )

ライセンス: Link先を確認
Mengxi Liu, Zimin Zhao, Daniel Gei{\ss}ler, Bo Zhou, Sungho Suh, Paul Lukowicz(参考訳) ニューラルネットワークの最近の進歩は、複数の時系列センサーを用いた人間の活動認識を大幅に改善した。 高周波のサンプリングレートを持つ多数のセンサを使用することで、通常、結果が改善されるが、データ非効率やannの不要な拡張につながることが多く、エッジデバイスへの実用的な展開に課題がある。 そこで本研究では,harタスクにおけるデータ効率利用のための実用的フレームワークを提案し,センサモダリティとサンプリングレートの最適化を同時に検討する。 学習段階における各センサのモダリティとサンプリング率の重要度を評価する「重みスコア」と呼ばれる学習可能なパラメータの設計が中心である。 これらのスコアは、センサのモダリティとサンプリングレートの選択を導く。 プルーニング法では, 重量得点ランキングに応じてセンサモダリティとサンプリング率を選択することで, 計算予算と性能のトレードオフを行うことができる。 3つのharベンチマークデータセットを用いて,センサモダリティの最適化とサンプリングレート選択におけるフレームワークの有効性を検証した。 以上の結果から,cossで選択したセンサとサンプリングレートの組み合わせは,全センサの最も高いサンプリングレートを用いて,ハードウェアコストを低減した構成と類似した分類性能が得られることがわかった。

Recent advancements in Artificial Neural Networks have significantly improved human activity recognition using multiple time-series sensors. While employing numerous sensors with high-frequency sampling rates usually improves the results, it often leads to data inefficiency and unnecessary expansion of the ANN, posing a challenge for their practical deployment on edge devices. Addressing these issues, our work introduces a pragmatic framework for data-efficient utilization in HAR tasks, considering the optimization of both sensor modalities and sampling rate simultaneously. Central to our approach are the designed trainable parameters, termed 'Weight Scores,' which assess the significance of each sensor modality and sampling rate during the training phase. These scores guide the sensor modalities and sampling rate selection. The pruning method allows users to make a trade-off between computational budgets and performance by selecting the sensor modalities and sampling rates according to the weight score ranking. We tested our framework's effectiveness in optimizing sensor modality and sampling rate selection using three public HAR benchmark datasets. The results show that the sensor and sampling rate combination selected via CoSS achieves similar classification performance to configurations using the highest sampling rate with all sensors but at a reduced hardware cost.
翻訳日:2024-01-15 08:23:00 公開日:2024-01-03
# 複数のルールソースを持つスマートホームの自動化

Automation of Smart Homes with Multiple Rule Sources ( http://arxiv.org/abs/2401.02451v1 )

ライセンス: Link先を確認
Kaufman Eran, Yigal Hoffner(参考訳) ホームオートメーションのルールを使うことは、特に住宅所有者、地方当局、エネルギー供給者、システム提供者など、利害関係を守るためのルールを提供したい住民に加えて、複数の利害関係者を考慮する場合に、いくつかの課題を提起する。 様々なソースからルールを管理するには、構造化された手続き、関連する方針、および承認され正しい貢献を保証するための指定された権限が必要である。 さらに、スマートホームルール言語は、インターフェース、アクセスプロトコル、ルームレイアウトなどの実装の詳細を指定せずに、高度な抽象化レベルで条件と決定を表現する必要がある。 これらの詳細からハイレベルな決定を分離することは、類似の家庭へのルールの転送性と適応性をサポートする。 この分離は、スマートホームシステムとセキュリティアーキテクチャの構造化にも重要な意味を持つ。 提案手法とシステム実装では,これらの課題に対処するためのルール管理プロセス,ルール管理者,ドメイン固有のルール言語を導入している。 さらに、システムは、住民を観察し、行動パターンを検出し、システムへの推奨として提示されるルールを導出する学習プロセスを提供する。

Using rules for home automation presents several challenges, especially when considering multiple stakeholders in addition to residents, such as homeowners, local authorities, energy suppliers, and system providers, who will wish to contribute rules to safeguard their interests. Managing rules from various sources requires a structured procedure, a relevant policy, and a designated authority to ensure authorized and correct contributions and address potential conflicts. In addition, the smart home rule language needs to express conditions and decisions at a high level of abstraction without specifying implementation details such as interfaces, access protocols, and room layout. Decoupling high-level decisions from these details supports the transferability and adaptability of rules to similar homes. This separation also has important implications for structuring the smart home system and the security architecture. Our proposed approach and system implementation introduce a rule management process, a rule administrator, and a domain-specific rule language to address these challenges. In addition, the system provides a learning process that observes residents, detects behavior patterns, and derives rules which are then presented as recommendations to the system.
翻訳日:2024-01-08 17:17:47 公開日:2024-01-03
# 分散不正防止システムにおける局所的微分プライベート埋め込みモデル

Locally Differentially Private Embedding Models in Distributed Fraud Prevention Systems ( http://arxiv.org/abs/2401.02450v1 )

ライセンス: Link先を確認
Iker Perez, Jason Wong, Piotr Skalski, Stuart Burrell, Richard Mortier, Derek McAuley, David Sutton(参考訳) グローバルな金融犯罪活動は、不正防止における機械学習ソリューションの需要を押し上げている。 しかし、予防システムは個別に金融機関に提供され、意図しない漏洩や敵対攻撃の恐れから、データ共有のための規定は少ない。 金融における協調学習の進歩は稀であり,プライバシ保護データ処理システムから得られた実世界の洞察を見つけることは困難である。 本稿では,プライバシの観点から設計され,最近のPETs Prize Challengesで授与された不正防止のための協調的ディープラーニングフレームワークを提案する。 我々は,外部にホストされた不正および異常検出モデルにセキュアに通知できるデータ解放機構を構築するために,異なるトランザクションシーケンスの潜在埋め込み表現と局所的差分プライバシを利用する。 我々は,大規模支払いネットワークから寄贈された2つの分散データセットに対する貢献を評価し,一般的な推論時間攻撃に対する堅牢性を示すとともに,他のアプリケーションドメインでの公開作業と類似したユーティリティプライバシートレードオフを示す。

Global financial crime activity is driving demand for machine learning solutions in fraud prevention. However, prevention systems are commonly serviced to financial institutions in isolation, and few provisions exist for data sharing due to fears of unintentional leaks and adversarial attacks. Collaborative learning advances in finance are rare, and it is hard to find real-world insights derived from privacy-preserving data processing systems. In this paper, we present a collaborative deep learning framework for fraud prevention, designed from a privacy standpoint, and awarded at the recent PETs Prize Challenges. We leverage latent embedded representations of varied-length transaction sequences, along with local differential privacy, in order to construct a data release mechanism which can securely inform externally hosted fraud and anomaly detection models. We assess our contribution on two distributed data sets donated by large payment networks, and demonstrate robustness to popular inference-time attacks, along with utility-privacy trade-offs analogous to published work in alternative application domains.
翻訳日:2024-01-08 17:17:28 公開日:2024-01-03
# ULF: Cross-Validation を用いた非教師付きラベリング関数補正

ULF: Unsupervised Labeling Function Correction using Cross-Validation for Weak Supervision ( http://arxiv.org/abs/2204.06863v4 )

ライセンス: Link先を確認
Anastasiia Sedova, Benjamin Roth(参考訳) 手動ラベリングの費用対効果は弱い監督(WS)であり、データサンプルは事前に定義されたラベリング関数のセット(LF)を使って自動的にアノテートされ、関連するクラスの人工ラベリングを生成するルールベースのメカニズムである。 そこで本研究では,k-foldクロスバリデーションの原理に基づくWSのノイズ低減手法について検討する。 非教師付きラベル関数補正のための新しいアルゴリズムULFを導入し、いくつかのLF以外のモデルで訓練されたモデルを利用してWSデータを識別し、保持されたLFに固有のバイアスを補正する。 特にULFは、高信頼性のクロスバリデーションサンプルにこの割り当てを再見積することで、クラスへのLFの割り当てを洗練します。 複数のデータセットの評価は、手動ラベリングを必要とせずにWS学習を向上するULFの有効性を確認する。

A cost-effective alternative to manual data labeling is weak supervision (WS), where data samples are automatically annotated using a predefined set of labeling functions (LFs), rule-based mechanisms that generate artificial labels for the associated classes. In this work, we investigate noise reduction techniques for WS based on the principle of k-fold cross-validation. We introduce a new algorithm ULF for Unsupervised Labeling Function correction, which denoises WS data by leveraging models trained on all but some LFs to identify and correct biases specific to the held-out LFs. Specifically, ULF refines the allocation of LFs to classes by re-estimating this assignment on highly reliable cross-validated samples. Evaluation on multiple datasets confirms ULF's effectiveness in enhancing WS learning without the need for manual labeling.
翻訳日:2024-01-05 18:07:27 公開日:2024-01-03
# ベイズラスト層を用いたニューラルネットワークの不確実性定量化

Improved uncertainty quantification for neural networks with Bayesian last layer ( http://arxiv.org/abs/2302.10975v3 )

ライセンス: Link先を確認
Felix Fiedler and Sergio Lucia(参考訳) 不確実性定量化は、機械学習において重要なタスクである。 これは、ガウス過程やベイズ線形回帰のような不確実性を認識した手法が好まれる安全クリティカルな応用の制限となる。 ベイズニューラルネットワークは、この制限に対処するアプローチである。 すべてのパラメータの確率分布を仮定し、分散予測を生成する。 しかし、トレーニングと推論は通常難解であり、近似を使わなければならない。 有望な近似は nns with bayesian last layer (bll) である。 彼らは線形出力層にのみ分布重みを仮定し、正規分布予測を与える。 難解なベイズニューラルネットワークを近似するために、最終層以外の分散重みの点推定は、限界確率を最大化して得られるべきである。 これは以前、この設定で限界可能性を評価するのに費用がかかるため、困難だった。 本稿では,BLL を用いた NN の対数乗算可能性の再構成を行い,バックプロパゲーションを用いた効率的なトレーニングを実現する。 さらに,外挿点の不確実性定量化の課題に対処する。 我々は外挿の度合いを定量化し、これらの点の不確かさの定量化を改善する方法を導出する計量を提供する。 本手法は多変量解析のために導出され,シミュレーション研究で実証された。 定性のあるベイズ線形回帰と変分推論で訓練されたベイズニューラルネットワークと比較して,本手法はテストデータ上で最も高い対数予測密度を実現する。

Uncertainty quantification is an important task in machine learning - a task in which standardneural networks (NNs) have traditionally not excelled. This can be a limitation for safety-critical applications, where uncertainty-aware methods like Gaussian processes or Bayesian linear regression are often preferred. Bayesian neural networks are an approach to address this limitation. They assume probability distributions for all parameters and yield distributed predictions. However, training and inference are typically intractable and approximations must be employed. A promising approximation is NNs with Bayesian last layer (BLL). They assume distributed weights only in the linear output layer and yield a normally distributed prediction. To approximate the intractable Bayesian neural network, point estimates of the distributed weights in all but the last layer should be obtained by maximizing the marginal likelihood. This has previously been challenging, as the marginal likelihood is expensive to evaluate in this setting. We present a reformulation of the log-marginal likelihood of a NN with BLL which allows for efficient training using backpropagation. Furthermore, we address the challenge of uncertainty quantification for extrapolation points. We provide a metric to quantify the degree of extrapolation and derive a method to improve the uncertainty quantification for these points. Our methods are derived for the multivariate case and demonstrated in a simulation study. In comparison to Bayesian linear regression with fixed features, and a Bayesian neural network trained with variational inference, our proposed method achieves the highest log-predictive density on test data.
翻訳日:2024-01-05 17:58:52 公開日:2024-01-03
# 最適剛性・トーネストレードオフを有する微視的複合材料の計算的発見

Computational Discovery of Microstructured Composites with Optimal Stiffness-Toughness Trade-Offs ( http://arxiv.org/abs/2302.01078v2 )

ライセンス: Link先を確認
Beichen Li, Bolei Deng, Wan Shou, Tae-Hyun Oh, Yuanming Hu, Yiyue Luo, Liang Shi, Wojciech Matusik(参考訳) 硬さと硬さの衝突は、工学材料設計における根本的な問題である。 しかし, シミュレーションと現実の相違やパレートフロント全体のデータ効率のよい探索の欠如により, 最適剛性・粗さトレードオフを有する複合材料の系統的発見は証明されていない。 両課題を解決するために,物理実験,数値シミュレーション,ニューラルネットワークを統合した一般化パイプラインを導入する。 材料設計の専門知識がなければ,本手法はネストループ提案バリデーションワークフローを実装し,シミュレーションと現実のギャップを埋め,高試料効率で硬く硬いマイクロ構造複合材料を発見する。 パレート最適設計のさらなる分析により、これまで試行錯誤や生体模倣で発見されていた既存の靭性増強機構を自動で識別することができる。 より広いスケールで, 高分子化学, 流体力学, 気象学, ロボット工学など, 固体力学を超えた様々な研究分野における計算設計の青写真を提供する。

The conflict between stiffness and toughness is a fundamental problem in engineering materials design. However, the systematic discovery of microstructured composites with optimal stiffness-toughness trade-offs has never been demonstrated, hindered by the discrepancies between simulation and reality and the lack of data-efficient exploration of the entire Pareto front. We introduce a generalizable pipeline that integrates physical experiments, numerical simulations, and artificial neural networks to address both challenges. Without any prescribed expert knowledge of material design, our approach implements a nested-loop proposal-validation workflow to bridge the simulation-to-reality gap and discover microstructured composites that are stiff and tough with high sample efficiency. Further analysis of Pareto-optimal designs allows us to automatically identify existing toughness enhancement mechanisms, which were previously discovered through trial-and-error or biomimicry. On a broader scale, our method provides a blueprint for computational design in various research areas beyond solid mechanics, such as polymer chemistry, fluid dynamics, meteorology, and robotics.
翻訳日:2024-01-05 17:56:34 公開日:2024-01-03
# 適応的勾配に基づく外乱除去による雑音ラベルの学習

Learning with Noisy Labels by Adaptive Gradient-Based Outlier Removal ( http://arxiv.org/abs/2306.04502v4 )

ライセンス: Link先を確認
Anastasiia Sedova, Lena Zellinger, Benjamin Roth(参考訳) 正確で実質的なデータセットは、信頼性とパフォーマンスのよいモデルのトレーニングに不可欠です。 しかし、手動でアノテートされたデータセットでさえラベルエラーを含んでいる。 従来、ラベルのデノイジングの方法は、主に、データセットのオーバーフィルタやアンダーフィルタのプロセスである、異常値の検出と永続的な削除に重点を置いてきた。 本稿では,Adaptive GRAdient-based outlier removal を用いて,雑音ラベルを用いた新しい学習法 AGRAを提案する。 モデルトレーニングの前にデータセットをクリーニングする代わりに、トレーニングプロセス中にデータセットを動的に調整する。 サンプルのバッチの集約勾配と個々のサンプル勾配を比較することで、この時点で対応するサンプルがモデルに有用か、あるいは非生産的かを動的に決定し、現在の更新のために残すべきである。 いくつかのデータセットに対する広範囲な評価はAGRAの有効性を示しているが、包括的な結果分析は私たちの最初の仮説を支持している。

An accurate and substantial dataset is essential for training a reliable and well-performing model. However, even manually annotated datasets contain label errors, not to mention automatically labeled ones. Previous methods for label denoising have primarily focused on detecting outliers and their permanent removal - a process that is likely to over- or underfilter the dataset. In this work, we propose AGRA: a new method for learning with noisy labels by using Adaptive GRAdient-based outlier removal. Instead of cleaning the dataset prior to model training, the dataset is dynamically adjusted during the training process. By comparing the aggregated gradient of a batch of samples and an individual example gradient, our method dynamically decides whether a corresponding example is helpful for the model at this point or is counter-productive and should be left out for the current update. Extensive evaluation on several datasets demonstrates AGRA's effectiveness, while a comprehensive results analysis supports our initial hypothesis: permanent hard outlier removal is not always what model benefits the most from.
翻訳日:2024-01-05 17:43:41 公開日:2024-01-03
# SemEval-2023タスク11におけるLon-ea:ソフトおよびハードラベル予測のための活性化関数の比較

Lon-ea at SemEval-2023 Task 11: A Comparison of Activation Functions for Soft and Hard Label Prediction ( http://arxiv.org/abs/2303.02468v4 )

ライセンス: Link先を確認
Peyman Hosseini, Mehran Hosseini, Sana Sabah Al-Azzawi, Marcus Liwicki, Ignacio Castro, Matthew Purver(参考訳) 深層ニューラルネットワークモデルの出力層における異なるアクティベーション関数の影響について,不一致タスクの学習におけるソフトラベルとハードラベルの予測について検討した。 このタスクでは、ソフトラベルの予測を通じて不一致の量を定量化することが目標です。 ソフトラベルの予測にはbertベースのプリプロセッサとエンコーダを使用し、他のパラメータを一定に保ちながら出力層で使用されるアクティベーション関数を変化させる。 ソフトラベルはハードラベル予測に使用される。 検討した活性化関数はsgmoidであり、トレーニング後のモデルに追加されるステップ関数と、本論文で初めて導入された正弦波活性化関数である。

We study the influence of different activation functions in the output layer of deep neural network models for soft and hard label prediction in the learning with disagreement task. In this task, the goal is to quantify the amount of disagreement via predicting soft labels. To predict the soft labels, we use BERT-based preprocessors and encoders and vary the activation function used in the output layer, while keeping other parameters constant. The soft labels are then used for the hard label prediction. The activation functions considered are sigmoid as well as a step-function that is added to the model post-training and a sinusoidal activation function, which is introduced for the first time in this paper.
翻訳日:2024-01-05 17:39:08 公開日:2024-01-03
# コパイロットのユーザ中心セキュリティ評価

A User-centered Security Evaluation of Copilot ( http://arxiv.org/abs/2308.06587v3 )

ライセンス: Link先を確認
Owura Asare, Meiyappan Nagappan, N. Asokan(参考訳) 人工知能によって駆動されるコード生成ツールは、ディープラーニングと自然言語処理の進歩により、最近人気が高まっている。 これらのツールの普及は、コードの記述を容易にすることで開発者の生産性を向上させることができるため、二重刃の剣である可能性がある。 本稿では,コードセキュリティに関する強みと弱みをよりよく理解するために,githubのcopilotをユーザ中心で評価する。 我々は、潜在的に脆弱なソリューションを持つプログラミング問題(Copilotアシストなしで)を参加者が解決するユーザスタディを実施します。 ユーザ調査の主な目標は,copilotの使用が参加者のセキュリティパフォーマンスに与える影響を決定することだ。 参加者のセット(n=25)では、難しい問題に取り組む際に、Copilotへのアクセスがよりセキュアなソリューションであることがわかった。 より簡単な問題として、Copilotアクセスがソリューションのセキュリティに与える影響は見つからない。 また、特定の種類の脆弱性に対するCopilotの使用による不当な影響も観測しません。 結果から,Copilotには潜在的なセキュリティ上のメリットがあることが示唆されるが,セキュリティ要件に関する技術的に複雑な問題に対するコード生成ツールの使用の影響について,さらなる研究が保証されている。

Code generation tools driven by artificial intelligence have recently become more popular due to advancements in deep learning and natural language processing that have increased their capabilities. The proliferation of these tools may be a double-edged sword because while they can increase developer productivity by making it easier to write code, research has shown that they can also generate insecure code. In this paper, we perform a user-centered evaluation GitHub's Copilot to better understand its strengths and weaknesses with respect to code security. We conduct a user study where participants solve programming problems (with and without Copilot assistance) that have potentially vulnerable solutions. The main goal of the user study is to determine how the use of Copilot affects participants' security performance. In our set of participants (n=25), we find that access to Copilot accompanies a more secure solution when tackling harder problems. For the easier problem, we observe no effect of Copilot access on the security of solutions. We also observe no disproportionate impact of Copilot use on particular kinds of vulnerabilities. Our results indicate that there are potential security benefits to using Copilot, but more research is warranted on the effects of the use of code generation tools on technically complex problems with security requirements.
翻訳日:2024-01-05 17:17:35 公開日:2024-01-03
# LinFlo-Net:心のシミュレーション可能なメッシュを生成するための2段階のディープラーニング手法

LinFlo-Net: A two-stage deep learning method to generate simulation ready meshes of the heart ( http://arxiv.org/abs/2310.20065v2 )

ライセンス: Link先を確認
Arjun Narayanan, Fanwei Kong, Shawn Shadden(参考訳) 本稿では,患者の撮像データから心臓のコンピュータモデルを自動的に生成する深層学習モデルを提案する。 本手法は, テンプレートメッシュを変形させ, 心臓構造を所定の画像に適合させる。 このアプローチを採用した以前のディープラーニング手法と比較して、このフレームワークはメッシュの自己浸透を最小限に抑えるように設計されている。 本研究では, 2段階の2相変形過程と, 表面接触と間隙をペナリゼーションする運動キネマティクスに基づく新たな損失関数を用いることでこれを実現する。 本モデルは,最先端手法と同等の精度を示すとともに,自己干渉のないメッシュを生成する。 結果として得られるメッシュは物理ベースのシミュレーションで容易に利用でき、後処理やクリーンアップの必要性を最小限に抑えることができる。

We present a deep learning model to automatically generate computer models of the human heart from patient imaging data with an emphasis on its capability to generate thin-walled cardiac structures. Our method works by deforming a template mesh to fit the cardiac structures to the given image. Compared with prior deep learning methods that adopted this approach, our framework is designed to minimize mesh self-penetration, which typically arises when deforming surface meshes separated by small distances. We achieve this by using a two-stage diffeomorphic deformation process along with a novel loss function derived from the kinematics of motion that penalizes surface contact and interpenetration. Our model demonstrates comparable accuracy with state-of-the-art methods while additionally producing meshes free of self-intersections. The resultant meshes are readily usable in physics based simulation, minimizing the need for post-processing and cleanup.
翻訳日:2024-01-05 17:08:01 公開日:2024-01-03
# 事前訓練型レコメンダシステム:因果脱バイアスの観点から

Pre-trained Recommender Systems: A Causal Debiasing Perspective ( http://arxiv.org/abs/2310.19251v3 )

ライセンス: Link先を確認
Ziqian Lin, Hao Ding, Nghia Hoang, Branislav Kveton, Anoop Deoras, Hao Wang(参考訳) 事前学習されたビジョン/言語モデルに関する最近の研究は、AIにおける新しい有望なソリューション構築パラダイムの実践的な利点を実証している。一般的なタスク空間を記述する広いデータに基づいてモデルを事前学習し、トレーニングデータが著しく制限されている場合(例えばゼロまたは少数ショットの学習シナリオ)に、幅広い下流タスクを解決するためにうまく適応できる。 このような進展にインスパイアされた本論文では,事前学習モデルの観点からは,このようなパラダイムをレコメンダシステムのコンテキストに適用する可能性や課題について考察する。 特に,異なるドメインから抽出された汎用ユーザ・イテムインタラクションデータに基づいて,汎用的なインタラクションパターンを学習することにより,汎用的なインタラクションパターンをキャプチャする汎用レコメンデータを提案する。 しかし、セマンティック空間において強い適合性を持つビジョン/言語データとは異なり、異なるドメイン(例えば、異なる国や異なるeコマースプラットフォーム)にまたがるレコメンデーションデータの基礎となる普遍的なパターンは、しばしば、ユーザとアイテムの文化的な違いと、異なるeコマースプラットフォームの使用によって暗黙的に課されるドメイン内およびドメイン横断のバイアスによって引き起こされる。 実験で示したように、データ内の不均一なバイアスは、事前学習されたモデルの有効性を阻害する傾向がある。 この課題に対処するため,我々は,階層型ベイズ深層学習モデルであるPreRecを用いて,因果脱バイアスの観点を導入し,定式化する。 実世界データを用いた実験により,提案モデルが,クロスマーケットシナリオとクロスプラットフォームシナリオの両方において,ゼロ・マイ・ショット学習環境でのレコメンデーション性能を大幅に向上できることを示した。

Recent studies on pre-trained vision/language models have demonstrated the practical benefit of a new, promising solution-building paradigm in AI where models can be pre-trained on broad data describing a generic task space and then adapted successfully to solve a wide range of downstream tasks, even when training data is severely limited (e.g., in zero- or few-shot learning scenarios). Inspired by such progress, we investigate in this paper the possibilities and challenges of adapting such a paradigm to the context of recommender systems, which is less investigated from the perspective of pre-trained model. In particular, we propose to develop a generic recommender that captures universal interaction patterns by training on generic user-item interaction data extracted from different domains, which can then be fast adapted to improve few-shot learning performance in unseen new domains (with limited data). However, unlike vision/language data which share strong conformity in the semantic space, universal patterns underlying recommendation data collected across different domains (e.g., different countries or different E-commerce platforms) are often occluded by both in-domain and cross-domain biases implicitly imposed by the cultural differences in their user and item bases, as well as their uses of different e-commerce platforms. As shown in our experiments, such heterogeneous biases in the data tend to hinder the effectiveness of the pre-trained model. To address this challenge, we further introduce and formalize a causal debiasing perspective, which is substantiated via a hierarchical Bayesian deep learning model, named PreRec. Our empirical studies on real-world data show that the proposed model could significantly improve the recommendation performance in zero- and few-shot learning settings under both cross-market and cross-platform scenarios.
翻訳日:2024-01-05 17:07:48 公開日:2024-01-03
# 量子多項式階層 : Karp-Lipton,エラー低減,下界

Quantum Polynomial Hierarchies: Karp-Lipton, error reduction, and lower bounds ( http://arxiv.org/abs/2401.01633v1 )

ライセンス: Link先を確認
Avantika Agarwal, Sevag Gharibian, Venkata Koppula, Dorian Rudolph(参考訳) 多項式時間階層 (\mathsf{ph}$) は、ランダム化計算から回路下限まで、短期量子コンピュータの'量子長所'解析にまたがる、古典的複雑性理論の要点である。 しかしながら、量子$\mathsf{PH}$ の少なくとも \emph{four} の定義が存在するという事実にもかかわらず、$\mathsf{PH}$ の基本的な事実の類似性を証明することは困難である。 本研究は、[Gharibian, Santha, Sikora, Sundaram, Yirka, 2022] の量子検証に基づく3つの一般化を研究し、古典弦(\mathsf{QCPH}$)と量子混合状態(\mathsf{QPH}$)を証明として、量子純状態(\mathsf{pureQPH}$)を証明として利用する。 まず、[GSSSY22] から、崩壊定理と $\mathsf{QCPH}$ に対するカルプ・リプトンの定理を含むいくつかの開問題を解く。 すると、新しいクラス $\mathsf{pureQPH}$ に対して、$\mathsf{pureQPH}$ と $\mathsf{pureQPH}$ のこれらの量子不変量に関連する最初の境界、すなわち $\mathsf{QCPH}\subseteq \mathsf{pureQPH} \subseteq \mathsf{EXP}^{\mathsf{PP}}$ の一方的な誤差削減を示す。

The Polynomial-Time Hierarchy ($\mathsf{PH}$) is a staple of classical complexity theory, with applications spanning randomized computation to circuit lower bounds to ''quantum advantage'' analyses for near-term quantum computers. Quantumly, however, despite the fact that at least \emph{four} definitions of quantum $\mathsf{PH}$ exist, it has been challenging to prove analogues for these of even basic facts from $\mathsf{PH}$. This work studies three quantum-verifier based generalizations of $\mathsf{PH}$, two of which are from [Gharibian, Santha, Sikora, Sundaram, Yirka, 2022] and use classical strings ($\mathsf{QCPH}$) and quantum mixed states ($\mathsf{QPH}$) as proofs, and one of which is new to this work, utilizing quantum pure states ($\mathsf{pureQPH}$) as proofs. We first resolve several open problems from [GSSSY22], including a collapse theorem and a Karp-Lipton theorem for $\mathsf{QCPH}$. Then, for our new class $\mathsf{pureQPH}$, we show one-sided error reduction for $\mathsf{pureQPH}$, as well as the first bounds relating these quantum variants of $\mathsf{PH}$, namely $\mathsf{QCPH}\subseteq \mathsf{pureQPH} \subseteq \mathsf{EXP}^{\mathsf{PP}}$.
翻訳日:2024-01-05 16:46:26 公開日:2024-01-03
# instruct-imagen:マルチモーダル命令による画像生成

Instruct-Imagen: Image Generation with Multi-modal Instruction ( http://arxiv.org/abs/2401.01952v1 )

ライセンス: Link先を確認
Hexiang Hu, Kelvin C.K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia(参考訳) 本稿では,不均一な画像生成タスクに取り組み,未知のタスクにまたがって一般化するinstruct-imagenモデルを提案する。 画像生成のための *multi-modal instruction* を導入する。 自然言語を用いて異なる様相(例えば、テキスト、エッジ、スタイル、主題など)を区別し、豊富な世代の意図を統一したフォーマットで標準化することができる。 次に2段階のフレームワークで事前学習したテキストから画像への拡散モデルを微調整してinstruct-imagenを構築する。 まず,モデル生成を外部のマルチモーダル・コンテクストにグラウンドする能力を高めるために,検索学習を用いてモデルを適用する。 その後、視覚言語理解を必要とする多様な画像生成タスクの適応モデルを微調整し(例えば、主観駆動生成など)、タスクの本質をカプセル化したマルチモーダル命令と組み合わせる。 画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の従来のタスク固有のモデルと一致するか、あるいは超えている。

This paper presents instruct-imagen, a model that tackles heterogeneous image generation tasks and generalizes across unseen tasks. We introduce *multi-modal instruction* for image generation, a task representation articulating a range of generation intents with precision. It uses natural language to amalgamate disparate modalities (e.g., text, edge, style, subject, etc.), such that abundant generation intents can be standardized in a uniform format. We then build instruct-imagen by fine-tuning a pre-trained text-to-image diffusion model with a two-stage framework. First, we adapt the model using the retrieval-augmented training, to enhance model's capabilities to ground its generation on external multimodal context. Subsequently, we fine-tune the adapted model on diverse image generation tasks that requires vision-language understanding (e.g., subject-driven generation, etc.), each paired with a multi-modal instruction encapsulating the task's essence. Human evaluation on various image generation datasets reveals that instruct-imagen matches or surpasses prior task-specific models in-domain and demonstrates promising generalization to unseen and more complex tasks.
翻訳日:2024-01-05 16:33:16 公開日:2024-01-03
# 畳み込みだけで現実的な手を作れるか?

Can We Generate Realistic Hands Only Using Convolution? ( http://arxiv.org/abs/2401.01951v1 )

ライセンス: Link先を確認
Mehran Hosseini and Peyman Hosseini(参考訳) 人間の手や指にあるような複雑な幾何学的特徴を再現する画像生成モデルが永続的にできないことは、画像生成における10年近くの問題となっている。 モデルのサイズを拡大し、トレーニングデータセットを多様化することで、努力が続けられてきたが、この問題は拡散モデルからGAN(Generative Adversarial Networks)まで、すべてのモデルで広く行き渡っている。 本稿では,相対的な$n$次元カルト座標系を組み込んだ単一入力チャネルを提供することで,畳み込み層を幾何的に拡張することにより,この問題を緩和できることを示す。 これにより,ganと変分オートエンコーダ(vae)による手や顔画像の品質が大幅に向上する。

The enduring inability of image generative models to recreate intricate geometric features, such as those present in human hands and fingers has been an ongoing problem in image generation for nearly a decade. While strides have been made by increasing model sizes and diversifying training datasets, this issue remains prevalent across all models, from denoising diffusion models to Generative Adversarial Networks (GAN), pointing to a fundamental shortcoming in the underlying architectures. In this paper, we demonstrate how this problem can be mitigated by augmenting convolution layers geometric capabilities through providing them with a single input channel incorporating the relative $n$-dimensional Cartesian coordinate system. We show that this drastically improves quality of hand and face images generated by GANs and Variational AutoEncoders (VAE).
翻訳日:2024-01-05 16:32:53 公開日:2024-01-03
# ジェネラリスト埋め込みモデルは特殊埋め込みモデルよりも短文脈臨床意味検索に優れている

Generalist embedding models are better at short-context clinical semantic search than specialized embedding models ( http://arxiv.org/abs/2401.01943v1 )

ライセンス: Link先を確認
Jean-Baptiste Excoffier, Tom Roehr, Alexei Figueroa, Michalis Papaaioannou, Keno Bressem, Matthieu Ortala(参考訳) 医療領域における様々なタスクに対して,LLM(Large Language Models)に基づくツールやソリューションの利用が増加傾向にある。 この極めて批判的かつ敏感な領域でのそれらの使用は、特に入力の変動と生成された出力の信頼性に対するロバスト性に関する重要な疑問を提起している。 本研究は、icd-10-cmのコード記述に基づくテキストデータセットを構築し、米国の病院で広く使用されており、多くの臨床用語を含む。 次に,既存の埋め込みモデルであるジェネラリストや臨床領域の専門知識をセマンティック検索タスクでベンチマークし,リフレッシュされたテキストと元の記述とを正しく一致させることを目標とした。 以上の結果から,臨床モデルよりもジェネラリストモデルの方が優れた結果が得られ,既存の臨床特化モデルの方が入力の小さな変化に敏感であることが示唆された。 専門的なモデルの強調された問題は、十分なデータで訓練されていないことと、特に信頼できるグローバル言語理解を持つのに十分な多様性を持たないデータセットが、医学文書の正確な処理に依然として必要であるという事実にあるかもしれない。

The increasing use of tools and solutions based on Large Language Models (LLMs) for various tasks in the medical domain has become a prominent trend. Their use in this highly critical and sensitive domain has thus raised important questions about their robustness, especially in response to variations in input, and the reliability of the generated outputs. This study addresses these questions by constructing a textual dataset based on the ICD-10-CM code descriptions, widely used in US hospitals and containing many clinical terms, and their easily reproducible rephrasing. We then benchmarked existing embedding models, either generalist or specialized in the clinical domain, in a semantic search task where the goal was to correctly match the rephrased text to the original description. Our results showed that generalist models performed better than clinical models, suggesting that existing clinical specialized models are more sensitive to small changes in input that confuse them. The highlighted problem of specialized models may be due to the fact that they have not been trained on sufficient data, and in particular on datasets that are not diverse enough to have a reliable global language understanding, which is still necessary for accurate handling of medical documents.
翻訳日:2024-01-05 16:32:40 公開日:2024-01-03
# 格子ゲージ理論における超選択解絡 : テンソルネットワークアプローチ

Superselection-Resolved Entanglement in Lattice Gauge Theories: A Tensor Network Approach ( http://arxiv.org/abs/2401.01942v1 )

ライセンス: Link先を確認
Noa Feldman and Johannes Knaute and Erez Zohar and Moshe Goldstein(参考訳) 格子ゲージ理論(LGT)は現代物理学において中心的な役割を担い、高エネルギー物理学、凝縮物質物理学、量子計算に関する洞察を提供する。 LGT系のヒルベルト空間の非自明な構造のため、そのような系の絡み合いは定義が難しい。 しかし、超選択分解絡み(英語版)(superselection-resolved entanglement)、すなわち特定のゲージ対称性セクター(一般に超選択セクターと呼ばれる)に対応する絡み合いに限定すると、この問題は消え、絡み合いはよく定義される。 スーパー選択分解エンタングルメントの研究はlgtでさらに興味深い。ゲージ対称性が厳密に従うと、スーパー選択分解エンタングルメントは、エンタングルメントに対する唯一の蒸留可能な寄与となる。 本稿では,LGTシステムにおける超選択解絡の挙動について検討する。 我々は、Zohar と Burrello (2016) が定義したゲージ不変系に対するテンソルネットワーク構築を使用し、多くのケースにおいて、超選択解の絡み合いの先頭項は、分割の角の数、すなわちコーナー法絡み合いに依存する。 我々の知る限り、これは格子系でそのようなコーナー法則が観測される最初の事例である。

Lattice gauge theories (LGT) play a central role in modern physics, providing insights into high-energy physics, condensed matter physics, and quantum computation. Due to the nontrivial structure of the Hilbert space of LGT systems, entanglement in such systems is tricky to define. However, when one limits themselves to superselection-resolved entanglement, that is, entanglement corresponding to specific gauge symmetry sectors (commonly denoted as superselection sectors), this problem disappears, and the entanglement becomes well-defined. The study of superselection-resolved entanglement is interesting in LGT for an additional reason: when the gauge symmetry is strictly obeyed, superselection-resolved entanglement becomes the only distillable contribution to the entanglement. In our work, we study the behavior of superselection-resolved entanglement in LGT systems. We employ a tensor network construction for gauge-invariant systems as defined by Zohar and Burrello (2016) and find that, in a vast range of cases, the leading term in superselection-resolved entanglement depends on the number of corners in the partition, that is, corner-law entanglement. To our knowledge, this is the first case of such a corner-law being observed in any lattice system.
翻訳日:2024-01-05 16:32:20 公開日:2024-01-03
# 格子ゲージ理論テンソルネットワークにおける絡み合いと閉じ込め

Entanglement and confinement in lattice gauge theory tensor networks ( http://arxiv.org/abs/2401.01930v1 )

ライセンス: Link先を確認
Johannes Knaute, Matan Feuerstein and Erez Zohar(参考訳) 我々は、任意の(アベリアおよび非アベリア)純格子ゲージ理論において2+1次元の絡み合ったペア状態が射影されるレニエンタングルメントエントロピーの計算のための遷移作用素アプローチを開発する。 これらの量の長距離挙動が熱力学限界と連続体の両方における絡み合い領域の法則をいかに引き起こすかを明確に示している。 本手法をz2格子ゲージ理論に適用できることを数値的に示し, 閉じ込め-閉じ込め遷移と絡み合い特性を関連づける。 一般論として、Renyi entanglement entropiesは、他の真の(非局所的な)可観測物と比較して、閉じ込めや分解特性の完全なプローブとして資格がないと論じられている。

We develop a transfer operator approach for the calculation of Renyi entanglement entropies in arbitrary (i.e. Abelian and non-Abelian) pure lattice gauge theory projected entangled pair states in 2+1 dimensions. It is explicitly shown how the long-range behavior of these quantities gives rise to an entanglement area law in both the thermodynamic limit and in the continuum. We numerically demonstrate the applicability of our method to the Z2 lattice gauge theory and relate some entanglement properties to the confinement-deconfinement transition therein. It is argued on general grounds that Renyi entanglement entropies do not qualify as a complete probe of confinement or deconfinement properties in comparison to other genuine (nonlocal) observables.
翻訳日:2024-01-05 16:31:54 公開日:2024-01-03
# 強磁性金属との相互作用による双晶空洞モード分割と寿命

Dichroic cavity mode splitting and lifetimes from interactions with a ferromagnetic metal ( http://arxiv.org/abs/2401.01929v1 )

ライセンス: Link先を確認
Henning G. Hugdal, Eirik Jaccheri H{\o}ydalsvik, Sol H. Jacobsen(参考訳) 電磁キャビティの円偏極モードに対する強磁性金属 (FM) の効果について検討し, 時間反転対称性の破れがキャビティモードの双対応答をもたらすことを示す。 1つのスピン分割バンドで、FM電子とキャビティモードの間のゼーマン結合はスピン分割に匹敵するモード周波数に対する反交差を引き起こす。 しかし、これは円偏光モードの1つに過ぎず、もう1つはFMの影響を受けず、偏光依存性の伝送実験を用いてFMのスピン分割を決定することができる。 さらに, 2つのスピンスプリットバンドについても,キャビティモードの寿命が偏光依存応答を示すことを示した。 1つの偏光のみのモードの寿命を減少させることで、円偏光キャビティを設計制御できる可能性がある。

We study the effect of ferromagnetic metals (FM) on the circularly polarized modes of an electromagnetic cavity and show that broken time-reversal symmetry leads to a dichroic response of the cavity modes. With one spin-split band, the Zeeman coupling between the FM electrons and cavity modes leads to an anticrossing for mode frequencies comparable to the spin splitting. However, this is only the case for one of the circularly polarized modes, while the other is unaffected by the FM, allowing for the determination of the spin-splitting of the FM using polarization-dependent transmission experiments. Moreover, we show that for two spin-split bands, also the lifetimes of the cavity modes display a polarization-dependent response. The reduced lifetime of modes of only one polarization could potentially be used to engineer and control circularly polarized cavities.
翻訳日:2024-01-05 16:31:44 公開日:2024-01-03
# 非アベリア帯域特異点の干渉計とオイラー類位相

Interferometry of non-Abelian band singularities and Euler class topology ( http://arxiv.org/abs/2401.01928v1 )

ライセンス: Link先を確認
Oliver Breach, Robert-Jan Slager, F. Nur \"Unal(参考訳) 実ブロッホハミルトニアンバンドノードを持つシステムでは、非可換フレーム回転電荷によって特徴づけることができる。 これらのバンドノードがペアワイズで消滅する能力はパス依存であり、隣接するギャップでノードをブレイディングすることで電荷の符号を変更することができる。 ここでは、超低温原子系におけるこれらの非アベリアブレイディング過程と電荷を実験的に探究する2つの具体的な方法を構築し、数値的に確認する。 運動量空間のある角度でバンド特異点を通って原子を移動させることによって生成できる2つのバンドのコヒーレント重ね合わせを考える。 フレーム電荷の依存性を解析し、2つのバンドノードを通過する干渉計方式を実証し、相対的なフレーム電荷を明らかにし、マルチギャップトポロジ不変量を測定する。 第2の方法は、2つのノードを順次検出する単一のウェーブパックに依存しており、フレーム電荷はバンドの集団から決定できる。 本研究は,バンドノードの非アベリア電荷の測定や,周期運転時に発生する異常な非アベリア位相を含む様々な環境に適用可能な編曲手順の実験的検証を可能にする方法を提案する。

In systems with a real Bloch Hamiltonian band nodes can be characterised by a non-Abelian frame-rotation charge. The ability of these band nodes to annihilate pairwise is path dependent, since by braiding nodes in adjacent gaps the sign of their charges can be changed. Here, we theoretically construct and numerically confirm two concrete methods to experimentally probe these non-Abelian braiding processes and charges in ultracold atomic systems. We consider a coherent superposition of two bands that can be created by moving atoms through the band singularities at some angle in momentum space. Analyzing the dependency on the frame charges, we demonstrate an interferometry scheme passing through two band nodes, which reveals the relative frame charges and allows for measuring the multi-gap topological invariant. The second method relies on a single wavepacket probing two nodes sequentially, where the frame charges can be determined from the band populations. Our results present a feasible avenue for measuring non-Abelian charges of band nodes and the experimental verification of braiding procedures directly, which can be applied in a variety of settings including the recently discovered anomalous non-Abelian phases arising under periodic driving.
翻訳日:2024-01-05 16:31:30 公開日:2024-01-03
# 断熱変換による古典的および量子カオスの定義

Defining classical and quantum chaos through adiabatic transformations ( http://arxiv.org/abs/2401.01927v1 )

ライセンス: Link先を確認
Cedric Lim, Kirill Matirko, Anatoli Polkovnikov, Michael O. Flynn(参考訳) 本稿では, 量子および古典系のカオスを, 断熱変換を用いて等価に定義する形式論を提案する。 ハミルトン変形に対応する古典的時間平均軌道(量子固有状態)を保存する断熱変換の複雑さはカオスの尺度となる。 この複雑さは(正規化された)忠実性感受性によって定量化される。 量子カオスと古典カオスの基礎となる共通構造を明らかに示し、統合可能、カオス的、非熱化的、エルゴード的体制を区別することができる。 2つの結合スピンのモデルに忠実性受容性を適用し、有限スピン$S$と古典的極限$S\to\infty$の両方に対してカオスの普遍的開始を予測することに成功した。 興味深いことに、有限$S$効果は可積分性に近い異常に大きい。

We propose a formalism which defines chaos in both quantum and classical systems in an equivalent manner by means of adiabatic transformations. The complexity of adiabatic transformations which preserve classical time-averaged trajectories (quantum eigenstates) in response to Hamiltonian deformations serves as a measure of chaos. This complexity is quantified by the (properly regularized) fidelity susceptibility. Our exposition clearly showcases the common structures underlying quantum and classical chaos and allows us to distinguish integrable, chaotic but non-thermalizing, and ergodic regimes. We apply the fidelity susceptibility to a model of two coupled spins and demonstrate that it successfully predicts the universal onset of chaos, both for finite spin $S$ and in the classical limit $S\to\infty$. Interestingly, we find that finite $S$ effects are anomalously large close to integrability.
翻訳日:2024-01-05 16:31:08 公開日:2024-01-03
# 一般化量子シュタインの補題:資源論の第二法則を還元する

Generalized Quantum Stein's Lemma: Redeeming Second Law of Resource Theories ( http://arxiv.org/abs/2401.01926v1 )

ライセンス: Link先を確認
Hayata Yamasaki, Kohdai Kuroiwa(参考訳) 第2法則は熱力学の中心にあり、熱力学状態の変換性を1つの量、エントロピーで特徴づけている。 量子情報理論における基本的な問題は、量子情報処理のリソースの変換可能性を表す類似の第2法則を定式化できるかどうかである。 2008年に有望な定式化が提案され、量子リソース変換性は量子情報処理、量子仮説テストにおいて、別の基本的なタスクの変種を最適に実行することによって特徴づけられる。 この定式化の中核は、量子情報処理における熱力学的エントロピーの対向を求めるために、このタスクの最適性能を示す量(一般化された量子シュタインの補題)を識別する補題を証明することであった。 しかし、2023年、一般化された量子シュタインの補題の既存の証明に論理的なギャップが見つかり、そのような定式化が可能かどうか再び疑問を投げかけた。 本研究では、既存の解析の論理的ギャップを回避できる代替手法を開発し、一般化量子シュタイン補題の証明を構築する。 この証明により、第2法則を所望する量子資源理論の定式化が再検討される。 これらの結果は、熱力学と量子情報理論の類似性を橋渡しする可能性に関する基本的な疑問を肯定的に解決する。

The second law lies at the heart of thermodynamics, characterizing the convertibility of thermodynamic states by a single quantity, the entropy. A fundamental question in quantum information theory is whether one can formulate an analogous second law characterizing the convertibility of resources for quantum information processing. In 2008, a promising formulation was proposed, where quantum-resource convertibility is characterized by the optimal performance of a variant of another fundamental task in quantum information processing, quantum hypothesis testing. The core of this formulation was to prove a lemma that identifies a quantity indicating the optimal performance of this task -- the generalized quantum Stein's lemma -- to seek out a counterpart of the thermodynamic entropy in quantum information processing. However, in 2023, a logical gap was found in the existing proof of the generalized quantum Stein's lemma, throwing into question once again whether such a formulation is possible at all. In this work, we construct a proof of the generalized quantum Stein's lemma by developing alternative techniques to circumvent the logical gap of the existing analysis. With our proof, we redeem the formulation of quantum resource theories equipped with the second law as desired. These results affirmatively settle the fundamental question about the possibility of bridging the analogy between thermodynamics and quantum information theory.
翻訳日:2024-01-05 16:30:52 公開日:2024-01-03
# 生成AI時代のIoT - ビジョンと課題

IoT in the Era of Generative AI: Vision and Challenges ( http://arxiv.org/abs/2401.01923v1 )

ライセンス: Link先を確認
Xin Wang, Zhongwei Wan, Arvin Hekmati, Mingyu Zong, Samiul Alam, Mi Zhang, Bhaskar Krishnamachari(参考訳) センサー、ネットワーク、コンピューティング機能を備えたスマートフォン、ウェアラブル、スマートスピーカー、家庭用ロボットといったIoT(Internet of Things)は、私たちの日常生活にシームレスに織り込まれています。 GPT、LLaMA、DALL-E、Stable Difussionによって実証されたジェネレーティブAIの最近の進歩は、IoTを次のレベルに押し上げるという大きな約束を持っている。 この記事では、Generative AIがIoTにもたらすメリットに関するビジョンと見解を共有し、IoT関連領域におけるGenerative AIの最も重要な応用について論じます。 IoTにおける生成AIの活用は、非常に難しい課題です。 我々は、ジェネレーティブAIモデルの高リソース要求、プロンプトエンジニアリング、オンデバイス推論、オフロード、オンデバイスファインチューニング、フェデレーションラーニング、セキュリティ、開発ツールやベンチマークなど、いくつかの重要な課題を特定し、現在のギャップを議論するとともに、ジェネレーティブAIをIoTに活用するための有望な機会について論じる。 この記事では、ジェネレーティブAIの時代におけるIoTに関する新たな研究を刺激できることを願っています。

Equipped with sensing, networking, and computing capabilities, Internet of Things (IoT) such as smartphones, wearables, smart speakers, and household robots have been seamlessly weaved into our daily lives. Recent advancements in Generative AI exemplified by GPT, LLaMA, DALL-E, and Stable Difussion hold immense promise to push IoT to the next level. In this article, we share our vision and views on the benefits that Generative AI brings to IoT, and discuss some of the most important applications of Generative AI in IoT-related domains. Fully harnessing Generative AI in IoT is a complex challenge. We identify some of the most critical challenges including high resource demands of the Generative AI models, prompt engineering, on-device inference, offloading, on-device fine-tuning, federated learning, security, as well as development tools and benchmarks, and discuss current gaps as well as promising opportunities on enabling Generative AI for IoT. We hope this article can inspire new research on IoT in the era of Generative AI.
翻訳日:2024-01-05 16:30:31 公開日:2024-01-03
# 複数の特定されていない視点からの教師なしオブジェクト指向学習

Unsupervised Object-Centric Learning from Multiple Unspecified Viewpoints ( http://arxiv.org/abs/2401.01922v1 )

ライセンス: Link先を確認
Jinyang Yuan, Tonglin Chen, Zhimeng Shen, Bin Li, Xiangyang Xue(参考訳) 視覚シーンは、オブジェクトと背景の組み合わせが無限に存在するだけでなく、同じシーンの観察が視点の変化と大きく異なる可能性があるため、非常に多様である。 複数の視点から多目的視覚シーンを観察する場合、人間は、正確な視点が定まっていなくても、異なる視点でいわゆる「オブジェクト・コンステンシー」を実現しながら、各視点から構成的にシーンを知覚することができる。 この能力は、人間が移動しながら同じ物体を識別し、視覚から効率的に学ぶために不可欠である。 同じような能力を持つモデルを設計するのは興味深いことです。 本稿では,複数の不特定(未知,無関係)視点から構成シーン表現を指導することなく学習する新たな問題を考察し,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離した深部生成モデルを提案する。 推論の間、潜在表現はランダムに初期化され、異なる視点の情報をニューラルネットワークと統合することで反復的に更新される。 いくつかの特別に設計された合成データセットに関する実験では、提案手法が複数の不特定な視点から効果的に学習できることが示されている。

Visual scenes are extremely diverse, not only because there are infinite possible combinations of objects and backgrounds but also because the observations of the same scene may vary greatly with the change of viewpoints. When observing a multi-object visual scene from multiple viewpoints, humans can perceive the scene compositionally from each viewpoint while achieving the so-called ``object constancy'' across different viewpoints, even though the exact viewpoints are untold. This ability is essential for humans to identify the same object while moving and to learn from vision efficiently. It is intriguing to design models that have a similar ability. In this paper, we consider a novel problem of learning compositional scene representations from multiple unspecified (i.e., unknown and unrelated) viewpoints without using any supervision and propose a deep generative model which separates latent representations into a viewpoint-independent part and a viewpoint-dependent part to solve this problem. During the inference, latent representations are randomly initialized and iteratively updated by integrating the information in different viewpoints with neural networks. Experiments on several specifically designed synthetic datasets have shown that the proposed method can effectively learn from multiple unspecified viewpoints.
翻訳日:2024-01-05 16:30:10 公開日:2024-01-03
# マスキング特徴再構成による3次元物体検出のための時空間知識の蒸留

Distilling Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection ( http://arxiv.org/abs/2401.01918v1 )

ライセンス: Link先を確認
Haowen Zheng, Dong Cao, Jintao Xu, Rui Ai, Weihao Gu, Yang Yang, Yanyan Liang(参考訳) 精度と効率のバランスを取ることは、鳥の目視(BEV)3次元物体検出において顕著な課題となる。 従来のカメラベースのBEV手法は、長期の時間情報を組み込むことで優れた性能を発揮するが、そのほとんどは依然として低効率の問題に直面している。 一つの潜在的な解決策は知識蒸留である。 既存の蒸留法は、時間的知識を見越しながら、空間的特徴の再構築のみに焦点を当てている。 そこで本研究では,時間知識ディステレータであるTempDistillerを提案し,限られたフレーム数で教師検出器から長期記憶を取得する。 具体的には、特徴教師に適用されるセルフ・アテンション操作を通じて、長期の時間的知識を統合することで、復興目標を定式化する。 その後、ジェネレータを介して、マスク付き学生機能のための新機能が生成される。 最終的に,この再構成目標を用いて学生の特徴を再構築する。 また,学生モデルのためのフルフレーム入力時の時間的関係知識についても検討する。 提案手法の有効性を nuScenes ベンチマークで検証する。 実験により,本手法は,ベースラインに比べて+1.6 mAPおよび+1.1 NDSの増大,時間的知識の圧縮による約6 FPSの速度向上,そして最も正確な速度推定が得られることを示した。

Striking a balance between precision and efficiency presents a prominent challenge in the bird's-eye-view (BEV) 3D object detection. Although previous camera-based BEV methods achieved remarkable performance by incorporating long-term temporal information, most of them still face the problem of low efficiency. One potential solution is knowledge distillation. Existing distillation methods only focus on reconstructing spatial features, while overlooking temporal knowledge. To this end, we propose TempDistiller, a Temporal knowledge Distiller, to acquire long-term memory from a teacher detector when provided with a limited number of frames. Specifically, a reconstruction target is formulated by integrating long-term temporal knowledge through self-attention operation applied to feature teachers. Subsequently, novel features are generated for masked student features via a generator. Ultimately, we utilize this reconstruction target to reconstruct the student features. In addition, we also explore temporal relational knowledge when inputting full frames for the student model. We verify the effectiveness of the proposed method on the nuScenes benchmark. The experimental results show our method obtain an enhancement of +1.6 mAP and +1.1 NDS compared to the baseline, a speed improvement of approximately 6 FPS after compressing temporal knowledge, and the most accurate velocity estimation.
翻訳日:2024-01-05 16:29:47 公開日:2024-01-03
# AstroLLaMA-Chat:会話データセットと対話データセットによるAstroLLaMAのスケーリング

AstroLLaMA-Chat: Scaling AstroLLaMA with Conversational and Diverse Datasets ( http://arxiv.org/abs/2401.01916v1 )

ライセンス: Link先を確認
Ernest Perkowski, Rui Pan, Tuan Dung Nguyen, Yuan-Sen Ting, Sandor Kruk, Tong Zhang, Charlie O'Neill, Maja Jablonska, Michael J. Smith, Kevin Schawinski, Kartheik Iyer, Ioana Ciuc\u{a} for UniverseTBD(参考訳) 天文学に着目した質問応答におけるLLM性能向上の可能性を検討する。 コンパクトな7bパラメータラマ-2モデルを採用し、抽象、導入、結論を含む一連の天文学コーパスのキュレーションにのみ焦点をあてることで、専門的なトピック理解において顕著な改善を達成する。 GPT-4 のような一般的な LLM は、より優れた推論能力により、より広範な質問応答のシナリオにおいて優れるが、我々の研究結果は、限られたリソースによる連続事前学習は、特定のトピックにおけるモデル性能を向上させることができることを示唆している。 さらに、AstroLLaMAの拡張として、ドメイン固有の会話データセット上で7B LLaMAモデルを微調整し、チャット対応のAstroLLaMAをコミュニティ利用向けにリリースする。 包括的な定量的ベンチマークは現在進行中であり、今後の全論文で詳述する予定である。 このモデル、astrollama-chatがhttps://huggingface.co/universetbdで利用可能になった。天文学コミュニティ向けにカスタマイズされた最初のオープンソースの会話型aiツールだ。

We explore the potential of enhancing LLM performance in astronomy-focused question-answering through targeted, continual pre-training. By employing a compact 7B-parameter LLaMA-2 model and focusing exclusively on a curated set of astronomy corpus -- comprising abstracts, introductions, and conclusions -- we achieve notable improvements in specialized topic comprehension. While general LLMs like GPT-4 outperform in broader question-answering scenarios due to superior reasoning capabilities, our findings suggest that continual pre-training with limited resources can still enhance model performance on specialized topics. Additionally, we present an extension of AstroLLaMA: the fine-tuning of the 7B LLaMA model on a domain-specific conversational dataset, culminating in the release of the chat-enabled AstroLLaMA for community use. Comprehensive quantitative benchmarking is currently in progress and will be detailed in an upcoming full paper. The model, AstroLLaMA-Chat, is now available at https://huggingface.co/universeTBD, providing the first open-source conversational AI tool tailored for the astronomy community.
翻訳日:2024-01-05 16:29:28 公開日:2024-01-03
# 逐次操作タスクのための深部RLにおけるインダクティブバイアスとしての時間インデクシングについて

On Time-Indexing as Inductive Bias in Deep RL for Sequential Manipulation Tasks ( http://arxiv.org/abs/2401.01993v1 )

ライセンス: Link先を確認
M. Nomaan Qureshi, Ben Eisner, David Held(参考訳) 複雑な操作タスクを解く一方で、操作ポリシーはこれらのタスクを達成するために様々なスキルセットを学ぶ必要がある。 スキルのセットは、しばしば非常に多様であり、それぞれが全く異なる行動や状態の分布を持っている可能性がある。 標準的なディープポリシー学習アルゴリズムは、しばしば1つの出力ヘッド(決定論的または確率的)を持つディープニューラルネットワークとしてポリシーをモデル化する。 この構造では、ネットワーク内部でモード切り替えを学ぶ必要があるため、サンプル効率が低下し、パフォーマンスが低下する可能性がある。 本稿では,多くの操作作業に必要なスキル学習を実現するための簡単な構造について検討する。 具体的には,様々なアクションヘッドを一定期間連続的に実行し,到達や把握といった原始的なスキルの習得を可能にするポリシアーキテクチャを提案する。 メタワールドタスクに対する実証的な評価は、この単純な構造が標準的なポリシー学習方法より優れており、スキル獲得の改善の可能性を強調していることを示している。

While solving complex manipulation tasks, manipulation policies often need to learn a set of diverse skills to accomplish these tasks. The set of skills is often quite multimodal - each one may have a quite distinct distribution of actions and states. Standard deep policy-learning algorithms often model policies as deep neural networks with a single output head (deterministic or stochastic). This structure requires the network to learn to switch between modes internally, which can lead to lower sample efficiency and poor performance. In this paper we explore a simple structure which is conducive to skill learning required for so many of the manipulation tasks. Specifically, we propose a policy architecture that sequentially executes different action heads for fixed durations, enabling the learning of primitive skills such as reaching and grasping. Our empirical evaluation on the Metaworld tasks reveals that this simple structure outperforms standard policy learning methods, highlighting its potential for improved skill acquisition.
翻訳日:2024-01-05 16:22:58 公開日:2024-01-03
# DAppsエコシステム:スマートコントラクトインタラクションのネットワーク構造をマッピングする

DApps Ecosystems: Mapping the Network Structure of Smart Contract Interactions ( http://arxiv.org/abs/2401.01991v1 )

ライセンス: Link先を確認
Sabrina Aufiero, Giacomo Ibba, Silvia Bartolucci, Giuseppe Destefanis, Rumyana Neykova, Marco Ortu(参考訳) 近年では、Ethereumなどのブロックチェーンプラットフォーム上に構築され、Solidityなどの言語でコード化された分散アプリケーション(dApps)が、従来の集中システムを破壊する可能性に注目を集めている。 急速な採用にもかかわらず、これらのアプリケーションの基盤となるコード構造を理解するための限定的な研究がなされている。 特に、各dAppは複数のスマートコントラクトで構成されており、それぞれが特定のイベント、例えばトークン転送をトリガーするために呼び出される複数の関数を含んでいる。 本稿では,dapp内の契約や関数呼び出しのネットワークを再構築し,解析することで,悪意のある攻撃者によって悪用される脆弱性を明らかにすることを支援する。 分散化がいかにアーキテクチャ的に実装されているかを示し、システムの堅牢性と効率に影響を与える共通の開発パターンと異常を特定します。 モジュラーで自己満足的な契約と複雑な関数インタラクションのWebを特徴とする、一貫したネットワーク構造が、ブロックチェーンコミュニティ全体で共通のコーディングプラクティスを示しているのです。 重要なのは、各dapp内の少数の重要な機能がネットワーク接続を維持する上で重要な役割を果たし、サイバー攻撃の潜在的なターゲットとなり、堅牢なセキュリティ対策の必要性を強調していることだ。

In recent years, decentralized applications (dApps) built on blockchain platforms such as Ethereum and coded in languages such as Solidity, have gained attention for their potential to disrupt traditional centralized systems. Despite their rapid adoption, limited research has been conducted to understand the underlying code structure of these applications. In particular, each dApp is composed of multiple smart contracts, each containing a number of functions that can be called to trigger a specific event, e.g., a token transfer. In this paper, we reconstruct and analyse the network of contracts and functions calls within the dApp, which is helpful to unveil vulnerabilities that can be exploited by malicious attackers. We show how decentralization is architecturally implemented, identifying common development patterns and anomalies that could influence the system's robustness and efficiency. We find a consistent network structure characterized by modular, self-sufficient contracts and a complex web of function interactions, indicating common coding practices across the blockchain community. Critically, a small number of key functions within each dApp play a pivotal role in maintaining network connectivity, making them potential targets for cyber attacks and highlighting the need for robust security measures.
翻訳日:2024-01-05 16:22:41 公開日:2024-01-03
# GPS-SSL:事前学習を自己監督学習に注入するためのポジティブサンプリング

GPS-SSL: Guided Positive Sampling to Inject Prior Into Self-Supervised Learning ( http://arxiv.org/abs/2401.01990v1 )

ライセンス: Link先を確認
Aarash Feizi, Randall Balestriero, Adriana Romero-Soriano, Reihaneh Rabbany(参考訳) 我々は,自己監視学習(SSL)の正のサンプル選択に事前知識を注入する一般的な方法である,自己監視学習(GPS-SSL)のガイドポジティヴサンプリングを提案する。 現在のSSLメソッドでは、データ拡張(DA)を使用して、ポジティブなサンプルを生成し、事前の知識を取り入れています。 GPS-SSLは、ユークリッド距離が意味論的関係の有意義なプロキシとなる計量空間を設計することを提案する。 この領域では、近傍のサンプリングから正のサンプルを生成することができる。 任意の事前知識は、採用されたDAとは独立に、その計量空間に埋め込まれる。 その単純さから、GPS-SSLはSimCLRやBYOLなどのSSLメソッドに適用できる。 GPS-SSLの重要な利点は、強力なDAを調整する際の圧力を減らすことである。 例えばGPS-SSLはCifar10で85.58%、DAは37.51%である。 したがって、SSLをDAに依存しないようにするという目標に向かって一歩前進します。 また,強いDAを使用する場合であっても,GPS-SSLは未調査領域のベースラインよりも優れていることを示す。 GPS-SSLと複数のベースラインSSLメソッドを、モデルが強いまたは最小限のデータ拡張を使用する場合、異なるドメインから多くのダウンストリームデータセットに対して評価する。 GPS-SSLが優先知識を原則的にSSLに注入する方法を研究する新たな道を開くことを期待している。

We propose Guided Positive Sampling Self-Supervised Learning (GPS-SSL), a general method to inject a priori knowledge into Self-Supervised Learning (SSL) positive samples selection. Current SSL methods leverage Data-Augmentations (DA) for generating positive samples and incorporate prior knowledge - an incorrect, or too weak DA will drastically reduce the quality of the learned representation. GPS-SSL proposes instead to design a metric space where Euclidean distances become a meaningful proxy for semantic relationship. In that space, it is now possible to generate positive samples from nearest neighbor sampling. Any prior knowledge can now be embedded into that metric space independently from the employed DA. From its simplicity, GPS-SSL is applicable to any SSL method, e.g. SimCLR or BYOL. A key benefit of GPS-SSL is in reducing the pressure in tailoring strong DAs. For example GPS-SSL reaches 85.58% on Cifar10 with weak DA while the baseline only reaches 37.51%. We therefore move a step forward towards the goal of making SSL less reliant on DA. We also show that even when using strong DAs, GPS-SSL outperforms the baselines on under-studied domains. We evaluate GPS-SSL along with multiple baseline SSL methods on numerous downstream datasets from different domains when the models use strong or minimal data augmentations. We hope that GPS-SSL will open new avenues in studying how to inject a priori knowledge into SSL in a principled manner.
翻訳日:2024-01-05 16:22:21 公開日:2024-01-03
# 位置バイアスからみた大規模言語モデル時代におけるゼロショット抽象要約の再検討

Revisiting Zero-Shot Abstractive Summarization in the Era of Large Language Models from the Perspective of Position Bias ( http://arxiv.org/abs/2401.01989v1 )

ライセンス: Link先を確認
Anshuman Chhabra, Hadi Askari, Prasant Mohapatra(参考訳) 本研究では,従来文献で研究されてきたより限定的な鉛バイアス現象の一般的な定式化として,位置バイアスを測定することにより,大言語モデル(llms)におけるゼロショット抽象要約を特徴付け,研究する。 位置バイアスは入力テキストの特定の部分からの情報を不当に優先するモデルの傾向を捉え、望ましくない振る舞いをもたらす。 GPT 3.5-Turbo, Llama-2, Dolly-v2 などの複数の LLM モデルにおける位置バイアスと,Pegasus や BART などの最先端のエンコーダデコーダ・デコーダ抽象要約モデルについて検討した。 その結果,ゼロショット要約タスクにおけるモデルの性能と位置バイアスに関する新たな洞察と議論につながった。

We characterize and study zero-shot abstractive summarization in Large Language Models (LLMs) by measuring position bias, which we propose as a general formulation of the more restrictive lead bias phenomenon studied previously in the literature. Position bias captures the tendency of a model unfairly prioritizing information from certain parts of the input text over others, leading to undesirable behavior. Through numerous experiments on four diverse real-world datasets, we study position bias in multiple LLM models such as GPT 3.5-Turbo, Llama-2, and Dolly-v2, as well as state-of-the-art pretrained encoder-decoder abstractive summarization models such as Pegasus and BART. Our findings lead to novel insights and discussion on performance and position bias of models for zero-shot summarization tasks.
翻訳日:2024-01-05 16:21:59 公開日:2024-01-03
# 永続エネルギーによる${\lambda}$cdm宇宙における階層的クラスタリング

Hierarchical Clustering in ${\Lambda}$CDM Cosmologies via Persistence Energy ( http://arxiv.org/abs/2401.01988v1 )

ライセンス: Link先を確認
Michael Etienne Van Huffel, Leonardo Aldo Alejandro Barberi, Tobias Sagis(参考訳) 本研究では、トポロジカルデータ解析による高度な手法を用いて、宇宙ウェブの構造的進化を考察する。 私たちのアプローチでは、$persistence$ $signals$を活用します。$\mathbb r^2_+$で信号として再認識することで、永続化ダイアグラムをベクトル空間に埋め込むことを促進する最近の文献からの革新的な方法です。 この手法を用いて、クラスター、フィラメント、空隙の3つのクインテシデント宇宙構造を解析する。 中心となる発見は$persistence$ $energy$ と redshift の相関であり、永続的ホモロジーと宇宙の進化を結びつけ、宇宙構造のダイナミクスに関する洞察を提供する。

In this research, we investigate the structural evolution of the cosmic web, employing advanced methodologies from Topological Data Analysis. Our approach involves leveraging $Persistence$ $Signals$, an innovative method from recent literature that facilitates the embedding of persistence diagrams into vector spaces by re-conceptualizing them as signals in $\mathbb R^2_+$. Utilizing this methodology, we analyze three quintessential cosmic structures: clusters, filaments, and voids. A central discovery is the correlation between $Persistence$ $Energy$ and redshift values, linking persistent homology with cosmic evolution and providing insights into the dynamics of cosmic structures.
翻訳日:2024-01-05 16:21:42 公開日:2024-01-03
# 注意と逆訓練を用いた多変量時系列表現学習

Representation Learning of Multivariate Time Series using Attention and Adversarial Training ( http://arxiv.org/abs/2401.01987v1 )

ライセンス: Link先を確認
Leon Scharw\"achter and Sebastian Otte(参考訳) 信頼できる機械学習の重要な要因は、トレーニングデータの堅牢な表現を開発することである。 この保証方法の下でのみ、例えば、不均衡データセットの反作用やブラックボックス意思決定システムに対する反事実的説明を提供するために、人工的にデータを生成するのが正当である。 近年,GAN(Generative Adversarial Networks)は,安定な表現の形成と現実的なデータ生成にかなりの成果を上げている。 多くのアプリケーションは画像データを生成することに重点を置いているが、時系列データ、特に多変量信号を生成する作業は少ない。 本研究では, 対数学習方式を用いて, 人工多変量時系列信号を生成するトランスフォーマーベースのオートエンコーダを提案する。 この表現は、t-SNE可視化、動的時間ウォーピング(DTW)、エントロピースコアを用いて評価される。 その結果,生成した信号は畳み込みネットワークアプローチよりも模範データセットと高い類似性を示すことがわかった。

A critical factor in trustworthy machine learning is to develop robust representations of the training data. Only under this guarantee methods are legitimate to artificially generate data, for example, to counteract imbalanced datasets or provide counterfactual explanations for blackbox decision-making systems. In recent years, Generative Adversarial Networks (GANs) have shown considerable results in forming stable representations and generating realistic data. While many applications focus on generating image data, less effort has been made in generating time series data, especially multivariate signals. In this work, a Transformer-based autoencoder is proposed that is regularized using an adversarial training scheme to generate artificial multivariate time series signals. The representation is evaluated using t-SNE visualizations, Dynamic Time Warping (DTW) and Entropy scores. Our results indicate that the generated signals exhibit higher similarity to an exemplary dataset than using a convolutional network approach.
翻訳日:2024-01-05 16:21:27 公開日:2024-01-03
# グローバルに最適化された磁場を有するスピン$1/2$ハイゼンベルク鎖における完全グラフ状態の生成

Generation of complete graph states in a spin-$1/2$ Heisenberg chain with a globally optimized magnetic field ( http://arxiv.org/abs/2401.01986v1 )

ライセンス: Link先を確認
X. X. Li, D. X. Li, X. Q. Shao(参考訳) グラフ状態は測定ベースの量子計算において重要な実用的価値を持ち、完全なグラフ状態は量子力学において例外的な性能を示す。 本研究では,時間変化磁場を受けるスピン=1/2$ハイゼンベルク$XX$チェーンを用いて,多粒子完全グラフ状態を生成する手法を提案する。 本手法は, 量子最適制御理論によって促進されるリアルタイム磁場形成により, 原子間の近接-近接相互作用にのみ依存する。 我々は特に中性原子系に注目し、$N=3\sim6$の多粒子完全グラフ状態は$0.25~\mu{\rm s}$以下で達成でき、${J}/{(2\pi)} = -2.443~{\rm MHz}$のホッピング振幅を利用する。 これは、双極子相互作用 rydberg 状態によってエンコードされる全てのスピン状態の等しい重み付けによって与えられる初期状態を仮定する。 さらに, 種々の実験的欠陥に徹底的に対処し, 原子振動, パルス振幅の変動, およびリドベルク状態の自然放出に対する我々のアプローチの堅牢性を示す。 ニュートラル原子系の実験装置における乱れの一般的な発生を考えると、このようなグラフ状態を達成するための一段階の戦略は、制御Zゲートに基づく技術よりも経験的に有効な代替手段として現れる。

Graph states possess significant practical value in measurement-based quantum computation, with complete graph states that exhibit exceptional performance in quantum metrology. In this work, we introduce a method for generating multiparticle complete graph states using a spin-$1/2$ Heisenberg $XX$ chain subjected to a time-varying magnetic field, which applies to a wide range of systems. Our scheme relies exclusively on nearest-neighbor interactions between atoms, with real-time magnetic field formation facilitated by quantum optimal control theory. We focus specifically on neutral-atom systems, finding that multiparticle complete graph states with $N=3\sim6$ can be achieved in less than $0.25~\mu{\rm s}$, utilizing a hopping amplitude of ${J}/{(2\pi)} = -2.443~{\rm MHz}$. This assumes an initial state provided by an equal-weight superposition of all spin states that are encoded by the dipolar interacting Rydberg states. Additionally, we thoroughly address various experimental imperfections and showcase the robustness of our approach against atomic vibrations, fluctuations in pulse amplitude, and spontaneous emission of Rydberg states. Considering the common occurrence of disturbances in experimental setups of neutral-atom systems, our one-step strategy for achieving such graph states emerges as a more empirically viable alternative to techniques based on controlled-Z gates.
翻訳日:2024-01-05 16:21:13 公開日:2024-01-03
# AUPIMO:高速かつ低耐性で視覚異常検出ベンチマークを再定義する

AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed and Low Tolerance ( http://arxiv.org/abs/2401.01984v1 )

ライセンス: Link先を確認
Joao P. C. Bertoldo and Dick Ameln and Ashwin Vaidya and Samet Ak\c{c}ay(参考訳) 視覚異常検出研究の最近の進歩は、MVTecやVisAのような公開ベンチマークデータセットにおけるAUROCとAUPROのスコアが完全なリコールへと収束し、これらのベンチマークがほぼ解決されているという印象を与えている。 しかしながら、aurocとauproスコアは必ずしも定性的なパフォーマンスを反映していないため、現実世界のアプリケーションにおけるこれらのメトリクスの妥当性が制限されている。 適切な評価基準の欠如によって課される人工天井は,フィールドの進行を抑えるものであり,我々のアルゴリズムを評価するために用いられる評価基準を再考することが重要である。 本稿では,AUROC と AUPRO の欠点に対処する新しい指標である Per-IMage Overlap (PIMO) を紹介する。 PIMOは既存のメトリクスのリコールベースの性質を保っているが、曲線の割り当て(および曲線の下の各領域)は画像ごとであり、X軸は通常の画像にのみ依存する。 イメージ毎のリコールの測定はインスタンススコアのインデックス化を単純化し、ノイズの多いアノテーションに対してより堅牢である。 我々が示すように、計算を加速し、統計テストを使ってモデルを比較することができる。 通常の画像に対する偽陽性に対する耐性を低くすることで、PIMOは強化されたモデル検証手順を提供し、データセット間のパフォーマンスのばらつきを強調する。 我々の実験では、PIMOは、異常検出ベンチマークを再定義する実用的な利点と、パフォーマンス上の見識を提供する。特にMVTec ADとVisAデータセットが現代のモデルによって解決されたという認識に挑戦する。 https://github.com/jpcbertoldo/aupimo。

Recent advances in visual anomaly detection research have seen AUROC and AUPRO scores on public benchmark datasets such as MVTec and VisA converge towards perfect recall, giving the impression that these benchmarks are near-solved. However, high AUROC and AUPRO scores do not always reflect qualitative performance, which limits the validity of these metrics in real-world applications. We argue that the artificial ceiling imposed by the lack of an adequate evaluation metric restrains progression of the field, and it is crucial that we revisit the evaluation metrics used to rate our algorithms. In response, we introduce Per-IMage Overlap (PIMO), a novel metric that addresses the shortcomings of AUROC and AUPRO. PIMO retains the recall-based nature of the existing metrics but introduces two distinctions: the assignment of curves (and respective area under the curve) is per-image, and its X-axis relies solely on normal images. Measuring recall per image simplifies instance score indexing and is more robust to noisy annotations. As we show, it also accelerates computation and enables the usage of statistical tests to compare models. By imposing low tolerance for false positives on normal images, PIMO provides an enhanced model validation procedure and highlights performance variations across datasets. Our experiments demonstrate that PIMO offers practical advantages and nuanced performance insights that redefine anomaly detection benchmarks -- notably challenging the perception that MVTec AD and VisA datasets have been solved by contemporary models. Available on GitHub: https://github.com/jpcbertoldo/aupimo.
翻訳日:2024-01-05 16:20:28 公開日:2024-01-03
# beyond regrets: ベイズ最適化のための幾何学的メトリクス

Beyond Regrets: Geometric Metrics for Bayesian Optimization ( http://arxiv.org/abs/2401.01981v1 )

ライセンス: Link先を確認
Jungtaek Kim(参考訳) ベイズ最適化はブラックボックス目的関数の原理最適化戦略である。 科学的な発見や実験的な設計など、様々な現実世界の応用において有効性を示す。 一般に、ベイズ最適化のパフォーマンスは、瞬時、単純、累積後悔のような後悔に基づく指標によって評価される。 これらの指標は関数評価にのみ依存するため、クエリポイントとグローバルソリューション間の幾何学的関係やクエリポイント自体を考慮しない。 特に、複数のグローバルソリューションが正常に見つかると判別できない。 さらに、ベイズ最適化が与えられた探索空間を活用し探索する能力を評価していない。 これらの問題に対処するために,我々は,精度,リコール,平均次数,平均距離という4つの新しい幾何学的指標を提案する。 これらの測定により、クエリポイントとグローバルオプティマの両方の幾何を考慮したベイズ最適化アルゴリズムを比較することができる。 しかし、それらには余分なパラメータが伴うため、慎重に決定する必要がある。 そこで,パラメータを付加することにより,各指標のパラメータフリーな形式を考案する。 最後に,提案手法がベイズ最適化アルゴリズムの解釈と理解をより説得力のあるものにすることができることを実証的に検証した。

Bayesian optimization is a principled optimization strategy for a black-box objective function. It shows its effectiveness in a wide variety of real-world applications such as scientific discovery and experimental design. In general, the performance of Bayesian optimization is assessed by regret-based metrics such as instantaneous, simple, and cumulative regrets. These metrics only rely on function evaluations, so that they do not consider geometric relationships between query points and global solutions, or query points themselves. Notably, they cannot discriminate if multiple global solutions are successfully found. Moreover, they do not evaluate Bayesian optimization's abilities to exploit and explore a search space given. To tackle these issues, we propose four new geometric metrics, i.e., precision, recall, average degree, and average distance. These metrics allow us to compare Bayesian optimization algorithms considering the geometry of both query points and global optima, or query points. However, they are accompanied by an extra parameter, which needs to be carefully determined. We therefore devise the parameter-free forms of the respective metrics by integrating out the additional parameter. Finally, we empirically validate that our proposed metrics can provide more convincing interpretation and understanding of Bayesian optimization algorithms from distinct perspectives, compared to the conventional metrics.
翻訳日:2024-01-05 16:19:38 公開日:2024-01-03
# Tailor: ハイエンドファッションマーケットプレースのためのサイズ推奨

Tailor: Size Recommendations for High-End Fashion Marketplaces ( http://arxiv.org/abs/2401.01978v1 )

ライセンス: Link先を確認
Alexandre Candeias, Ivo Silva, Vitor Sousa, Jos\'e Marcelino(参考訳) ハイエンドファッション市場における変化の激しいダイナミックな領域では、正確なパーソナライズされたサイズレコメンデーションの提供が重要な側面となっている。 この点に関して顧客の期待を満たすことは、満足度を確保するのに不可欠であるだけでなく、あらゆるファッション小売業者の成功の鍵となる顧客の定着を促す上でも重要な役割を果たす。 本稿では,暗黙的(add2bag)と明示的(returnreason)ユーザ信号の統合により,この問題に対処する新しいシーケンス分類手法を提案する。 1つはLSTMを用いてユーザ信号を符号化し、もう1つはアテンション機構を利用する。 私たちの最高のモデルはSFNetより優れており、精度は45.7%向上しています。 Add2Bagインタラクションを使用することで、オーダーのみを使用する場合と比較して、ユーザカバレッジが24.5%向上する。 さらに,リアルタイムレコメンデーションシナリオにおけるモデルのユーザビリティを評価するために,遅延特性の測定実験を行った。

In the ever-changing and dynamic realm of high-end fashion marketplaces, providing accurate and personalized size recommendations has become a critical aspect. Meeting customer expectations in this regard is not only crucial for ensuring their satisfaction but also plays a pivotal role in driving customer retention, which is a key metric for the success of any fashion retailer. We propose a novel sequence classification approach to address this problem, integrating implicit (Add2Bag) and explicit (ReturnReason) user signals. Our approach comprises two distinct models: one employs LSTMs to encode the user signals, while the other leverages an Attention mechanism. Our best model outperforms SFNet, improving accuracy by 45.7%. By using Add2Bag interactions we increase the user coverage by 24.5% when compared with only using Orders. Moreover, we evaluate the models' usability in real-time recommendation scenarios by conducting experiments to measure their latency performance.
翻訳日:2024-01-05 16:18:29 公開日:2024-01-03
# LLMをプログラマとした完全ゼロショット合成視覚推論に向けて

Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers ( http://arxiv.org/abs/2401.01974v1 )

ライセンス: Link先を確認
Aleksandar Stani\'c, Sergi Caelles, Michael Tschannen(参考訳) 視覚推論は、数十億のモデルパラメータとトレーニング例にスケールしたエンドツーエンドニューラルネットワークによって支配されている。 しかし、最も大きなモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。 コントローラとしての大規模言語モデル(llm)によるビジュアル推論は、タスクを分解し、一連の(ビジュアル)ツールのオーケストレーションによってサブタスクを解決することで、これらの制限に対処することができる。 近年,これらのモデルは,構成的視覚的質問応答,視覚的接地,映像的時間的推論といったタスクにおいて,優れた性能を発揮している。 しかしながら、現在の形式では、これらのモデルはプロンプト内のコンテキスト内サンプルのヒューマンエンジニアリングに大きく依存しており、しばしばデータセットとタスク固有であり、高度に熟練したプログラマが多大な労力を必要とする。 本研究では、空間的・時間的に抽象的なルーチンを導入し、少数のラベル付き例を活用してインコンテキストの例を自動的に生成することにより、これらの問題を緩和するフレームワークを提案する。 多くの視覚的推論タスクにおいて、我々のフレームワークはパフォーマンスの一貫して向上し、コントローラとしてのLCMをより堅牢にし、コンテキスト内サンプルのヒューマンエンジニアリングの必要性を排除している。

Visual reasoning is dominated by end-to-end neural networks scaled to billions of model parameters and training examples. However, even the largest models struggle with compositional reasoning, generalization, fine-grained spatial and temporal reasoning, and counting. Visual reasoning with large language models (LLMs) as controllers can, in principle, address these limitations by decomposing the task and solving subtasks by orchestrating a set of (visual) tools. Recently, these models achieved great performance on tasks such as compositional visual question answering, visual grounding, and video temporal reasoning. Nevertheless, in their current form, these models heavily rely on human engineering of in-context examples in the prompt, which are often dataset- and task-specific and require significant labor by highly skilled programmers. In this work, we present a framework that mitigates these issues by introducing spatially and temporally abstract routines and by leveraging a small number of labeled examples to automatically generate in-context examples, thereby avoiding human-created in-context examples. On a number of visual reasoning tasks, we show that our framework leads to consistent gains in performance, makes LLMs as controllers setup more robust, and removes the need for human engineering of in-context examples.
翻訳日:2024-01-05 16:17:58 公開日:2024-01-03
# fmgs:3次元シーン理解のための基礎モデル組込み3次元ガウススプレーティング

FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding ( http://arxiv.org/abs/2401.01970v1 )

ライセンス: Link先を確認
Xingxing Zuo, Pouya Samangouei, Yunwen Zhou, Yan Di, Mingyang Li(参考訳) 現実世界の3dオブジェクトの幾何学的および意味的特性を正確に認識することは、拡張現実とロボット応用の継続的な進化に不可欠である。 この目的のために,基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ \algfull{} (\algname{}) を提案する。 この研究の重要な貢献は、3次元視覚言語モデルを再構築し表現するための効率的な方法である。 これは、画像ベース基礎モデルから生成された特徴マップを、我々の3Dモデルからレンダリングしたものに蒸留することで実現される。 高品質なレンダリングと高速なトレーニングを実現するため,GSとマルチレゾリューションハッシュエンコーディング(MHE)の長所を統合することで,新しいシーン表現を導入する。 提案手法では,画素レベルのセマンティック境界に従って,同じセマンティックエンティティの描画特徴距離を近接させる画素アライメント損失も導入する。 我々の結果は、様々なダウンストリームタスクを容易にし、オープンボキャブラリ言語に基づくオブジェクト検出において、$\mathbf{10.2}$%で最先端のメソッドを圧倒する、素晴らしいマルチビューセマンティック一貫性を示す。 本研究では,視覚,言語,および3次元シーン表現の交点を探索し,無制御実環境におけるシーン理解の強化について検討する。 紙の受け入れ次第、コードをリリースする予定です。

Precisely perceiving the geometric and semantic properties of real-world 3D objects is crucial for the continued evolution of augmented reality and robotic applications. To this end, we present \algfull{} (\algname{}), which incorporates vision-language embeddings of foundation models into 3D Gaussian Splatting (GS). The key contribution of this work is an efficient method to reconstruct and represent 3D vision-language models. This is achieved by distilling feature maps generated from image-based foundation models into those rendered from our 3D model. To ensure high-quality rendering and fast training, we introduce a novel scene representation by integrating strengths from both GS and multi-resolution hash encodings (MHE). Our effective training procedure also introduces a pixel alignment loss that makes the rendered feature distance of same semantic entities close, following the pixel-level semantic boundaries. Our results demonstrate remarkable multi-view semantic consistency, facilitating diverse downstream tasks, beating state-of-the-art methods by $\mathbf{10.2}$ percent on open-vocabulary language-based object detection, despite that we are $\mathbf{851\times}$ faster for inference. This research explores the intersection of vision, language, and 3D scene representation, paving the way for enhanced scene understanding in uncontrolled real-world environments. We plan to release the code upon paper acceptance.
翻訳日:2024-01-05 16:17:35 公開日:2024-01-03
# 配向アルゴリズムの機械論的理解:DPOと毒性を事例として

A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity ( http://arxiv.org/abs/2401.01967v1 )

ライセンス: Link先を確認
Andrew Lee, Xiaoyan Bai, Itamar Pres, Martin Wattenberg, Jonathan K. Kummerfeld, Rada Mihalcea(参考訳) 現在、アライメントアルゴリズムは、トレーニング済みの言語モデルをユーザの好みに合わせてチューニングするために一般的に使用されているが、モデルが‘アライメント’になるメカニズムの説明が欠けているため、ジェイルブレイクのような現象を説明できない。 本研究では,一般的なアルゴリズムであるdpo(direct preference optimization)と毒性を低減させるメカニズムについて検討した。 具体的には,まず,事前学習した言語モデルであるGPT2-mediumにおいて毒性がどのように表現され,引き起こされるかを検討する。 次に、毒性を低減するために、慎重に作られたペアワイズデータセットをDPOに適用する。 得られたモデルが有毒な出力を回避しているかを調べ、事前学習から得られた能力は排除されず、むしろ回避される。 この洞察を用いて、モデルをアンアライズする簡単な方法を実証し、その有害な振る舞いに戻します。

While alignment algorithms are now commonly used to tune pre-trained language models towards a user's preferences, we lack explanations for the underlying mechanisms in which models become ``aligned'', thus making it difficult to explain phenomena like jailbreaks. In this work we study a popular algorithm, direct preference optimization (DPO), and the mechanisms by which it reduces toxicity. Namely, we first study how toxicity is represented and elicited in a pre-trained language model, GPT2-medium. We then apply DPO with a carefully crafted pairwise dataset to reduce toxicity. We examine how the resulting model averts toxic outputs, and find that capabilities learned from pre-training are not removed, but rather bypassed. We use this insight to demonstrate a simple method to un-align the model, reverting it back to its toxic behavior.
翻訳日:2024-01-05 16:17:05 公開日:2024-01-03
# 場の理論と量子コンピュータのシミュレーション

Simulating Field Theories with Quantum Computers ( http://arxiv.org/abs/2401.01962v1 )

ライセンス: Link先を確認
Muhammad Asaduzzaman, Simon Catterall, Yannick Meurice, Goksu Can Toga(参考訳) 本研究では,量子コンピュータを用いて2次元の双曲型イジングモデルにおけるトロッター進化について検討する。 様々な量子処理ユニットに共通する異なるエラー源を特定し,計算規模を拡大するための課題について考察する。 本稿では,様々なプラットフォームで得られたベンチマーク結果を示し,コヒーレント・非コヒーレントな雑音に対処するために,様々な誤り緩和手法を用いる。 これらの緩和結果を正確な対角化結果と密度行列再正規化群計算と比較することにより,本手法の有効性を評価する。 さらに,IBM の量子コンピュータを用いた OTOC (Out-of-time-ordered correlator) プロトコルの実装を実演する。

In this study, we investigate Trotter evolution in the Gross-Neveu and hyperbolic Ising models in two spacetime dimensions, using quantum computers. We identify different sources of errors prevalent in various quantum processing units and discuss challenges to scale up the size of the computation. We present benchmark results obtained on a variety of platforms and employ a range of error mitigation techniques to address coherent and incoherent noise. By comparing these mitigated outcomes with exact diagonalization results and density matrix renormalization group calculations, we assess the effectiveness of our approaches. Moreover, we demonstrate the implementation of an out-of-time-ordered correlator (OTOC) protocol using IBM's quantum computers.
翻訳日:2024-01-05 16:16:49 公開日:2024-01-03
# 分子のサイズと柔軟性はデコヒーレンスを減少させるか?

Can increasing the size and flexibility of a molecule reduce decoherence? ( http://arxiv.org/abs/2401.01999v1 )

ライセンス: Link先を確認
Alan Scheidegger, Nikolay V. Golubev, Jiri J. L. Vanicek(参考訳) 分子をイオン化した電子状態のコヒーレント重ね合わせは、電子密度の超高速ダイナミクスを開始することができる。 しかし、原子核と電子の運動の相関は、通常、数フェムト秒、特に大きく柔軟な分子において電子のコヒーレンスを散逸させる。 そこで我々は, 半古典的半古典力学を用いて, サイズが大きくなる有機分子列における脱コヒーレンスを解析し, 炭素骨格の伸長が脱コヒーレンスを遅くし, 電荷移動期間を延長することを発見した。 1) 電子コヒーレンスの初期崩壊は、異なる電子表面上で進化する核波束の運動量分離による高周波数と中間周波数の振動によって引き起こされる。 (2)後、低周波モードにおける位置分離の増加により、コヒーレンスは完全に消失する。 3) 他の研究と一致して、分子の対称性を保った正常なモードのみがデコヒーレンスを引き起こすことを観察した。 孔混合の増大と, ブチナールおよび各種Hロッキング中で伸びる特定の振動モードCOからの脱コヒーレンス寄与の消失を組み合わせて, 電荷移動の増大を正当化する。

Coherent superposition of electronic states, created by ionizing a molecule, can initiate ultrafast dynamics of the electron density. Correlation between nuclear and electron motions, however, typically dissipates the electronic coherence in only a few femtoseconds, especially in larger and more flexible molecules. We, therefore, use ab initio semiclassical dynamics to study decoherence in a sequence of organic molecules of increasing size and find, surprisingly, that extending the carbon skeleton in propynal analogs slows down decoherence and extends the duration of charge migration. To elucidate this observation, we decompose the overall decoherence into contributions from individual vibrational modes and show that: (1) The initial decay of electronic coherence is caused by high- and intermediate-frequency vibrations via momentum separation of nuclear wavepackets evolving on different electronic surfaces. (2) At later times, the coherence disappears completely due to the increasing position separation in the low-frequency modes. (3) In agreement with another study, we observe that only normal modes preserving the molecule's symmetry induce decoherence. All together, we justify the enhanced charge migration by a combination of increased hole-mixing and the disappearance of decoherence contributions from specific vibrational modes CO stretching in butynal and various H rockings in pentynal.
翻訳日:2024-01-05 16:06:04 公開日:2024-01-03
# 確率コンピュータを用いたDeep Boltzmann学習を支援する平均フィールド

Mean-Field Assisted Deep Boltzmann Learning with Probabilistic Computers ( http://arxiv.org/abs/2401.01996v1 )

ライセンス: Link先を確認
Shuvro Chowdhury, Shaila Niazi, Kerem Y. Camsari(参考訳) 物理学にインスパイアされたエネルギーベースで生成的な性質であるにもかかわらず、一般のボルツマン機械(BM)は訓練に難航していると考えられている。 この信念により、深層bmsの層間接続や層間訓練が制限されたbmsの簡易なモデルが導かれた。 ドメイン固有のハードウェア、特に確率的ビット(pビット)を持つ確率的コンピュータ(pコンピュータ)の最近の発展は、深いBMのトラクタビリティに関する確立した知恵を変える可能性がある。 本稿では,d-waveのアニーラーで使用するために開発されたスパースネットワーク上で,数十億のマルコフ連鎖モンテカルロ(mcmc)サンプルを毎秒生成するp-コンピュータを用いて,深い制限のないbmsを訓練できることを示す。 p-コンピュータを学習する効率を最大化するために、平均場理論支援学習アルゴリズム(x = naive and hierarchy)の2つのファミリーを導入する。 このxMFTは, 差分法(CD)アルゴリズムの正相における平均と相関を推定するために用いられ, 我々のカスタム設計したp-コンピュータを用いて負相における平均と相関を推定する。 p-コンピュータアーキテクチャのカスタムフィールド-プログラマブル-ゲイトアレイ(FPGA)エミュレーションは毎秒最大45億フリップを要し、CD-$n$の実装が可能で、$n$が通常1または2のRBMとは異なり、$n$は数百万のオーダーである。 組み合わせアルゴリズムを用いた全mnistデータセットの実験により、負の位相をp-コンピュータで計算した場合、負の位相をxmftで効率的に計算できることを示した。 我々のアルゴリズムは、他のスケーラブルイジングマシンで使用することができ、その変種は、以前難解だったbmsのトレーニングに使用できる。

Despite their appeal as physics-inspired, energy-based and generative nature, general Boltzmann Machines (BM) are considered intractable to train. This belief led to simplified models of BMs with restricted intralayer connections or layer-by-layer training of deep BMs. Recent developments in domain-specific hardware -- specifically probabilistic computers (p-computer) with probabilistic bits (p-bit) -- may change established wisdom on the tractability of deep BMs. In this paper, we show that deep and unrestricted BMs can be trained using p-computers generating hundreds of billions of Markov Chain Monte Carlo (MCMC) samples per second, on sparse networks developed originally for use in D-Wave's annealers. To maximize the efficiency of learning the p-computer, we introduce two families of Mean-Field Theory assisted learning algorithms, or xMFTs (x = Naive and Hierarchical). The xMFTs are used to estimate the averages and correlations during the positive phase of the contrastive divergence (CD) algorithm and our custom-designed p-computer is used to estimate the averages and correlations in the negative phase. A custom Field-Programmable-Gate Array (FPGA) emulation of the p-computer architecture takes up to 45 billion flips per second, allowing the implementation of CD-$n$ where $n$ can be of the order of millions, unlike RBMs where $n$ is typically 1 or 2. Experiments on the full MNIST dataset with the combined algorithm show that the positive phase can be efficiently computed by xMFTs without much degradation when the negative phase is computed by the p-computer. Our algorithm can be used in other scalable Ising machines and its variants can be used to train BMs, previously thought to be intractable.
翻訳日:2024-01-05 16:05:37 公開日:2024-01-03
# 機械学習の落とし穴を避ける方法: 研究者のためのガイド

How to avoid machine learning pitfalls: a guide for academic researchers ( http://arxiv.org/abs/2108.02497v4 )

ライセンス: Link先を確認
Michael A. Lones(参考訳) この文書は、機械学習の使用時に発生するよくある間違いと、それを避けるためにできることを概説している。 機械学習技術の基本的な理解は誰でも利用できるべきだが、元々は研究学生向けに書かれたもので、厳密な比較や妥当な結論に達することなど、学術研究において特に懸念される問題に焦点を当てている。 モデル構築前に何をすべきか、モデルを確実に構築する方法、モデルを堅牢に評価する方法、モデルを公平に比較する方法、結果を報告する方法である。

This document outlines some of the common mistakes that occur when using machine learning, and what can be done to avoid them. Whilst it should be accessible to anyone with a basic understanding of machine learning techniques, it was originally written for research students, and focuses on issues that are of particular concern within academic research, such as the need to do rigorous comparisons and reach valid conclusions. It covers five stages of the machine learning process: what to do before model building, how to reliably build models, how to robustly evaluate models, how to compare models fairly, and how to report results.
翻訳日:2024-01-04 17:38:42 公開日:2024-01-03
# 長距離量子可能インターネットテストベッド

A long-distance quantum-capable internet testbed ( http://arxiv.org/abs/2101.12742v2 )

ライセンス: Link先を確認
Dounan Du, Leonardo Castillo-Veneros, Dillion Cottrill, Guo-Dong Cui, Gabriel Bello, Mael Flament, Paul Stankus, Dimitrios Katramatos, Juli\'an Mart\'inez-Rinc\'on, and Eden Figueroa(参考訳) 量子インターネットの構築には、フロンティア通信システムと長距離量子通信の交差点における新しいネットワーク概念の開発が必要である。 本稿では,量子メモリ間の量子通信に,ソフトウェア定義と時間知覚ネットワークの原理を組み合わせた量子インターネットプロトタイプの実装を提案する。 ストーニーブルック大学とブルックヘイブン国立研究所を繋ぐ展開量子ネットワークを用いて、158km離れた2つの独立した量子メモリで生成された光通信光子の高視認性ホン・ウー・マンデル干渉を実証する。

Building a Quantum Internet requires the development of new networking concepts at the intersection of frontier communication systems and long-distance quantum communication. Here, we present the implementation of a quantum-enabled internet prototype, where we have combined Software-Defined and Time-Sensitive Networking principles with Quantum Communication between quantum memories. Using a deployed quantum network connecting Stony Brook University and Brookhaven National Laboratory, we demonstrate a fundamental long-distance quantum network service, that of high-visibility Hong-Ou-Mandel Interference of telecom photons produced in two independent quantum memories separated by a distance of 158 km.
翻訳日:2024-01-04 17:38:31 公開日:2024-01-03
# 離散伝搬による複合システムの検証

Validation of Composite Systems by Discrepancy Propagation ( http://arxiv.org/abs/2210.12061v2 )

ライセンス: Link先を確認
David Reeb, Kanil Patel, Karim Barsim, Martin Schiegg, Sebastian Gerwinn(参考訳) 与えられた品質基準に対する実世界のシステムの有効性を評価することは、大量の実世界のテストを必要とするため、産業アプリケーションでは一般的だがコストのかかる作業である。 このようなシステムのシミュレーションによる検証は、有望で低価格な代替手段を提供するが、シミュレーションの精度やエンドツーエンドの測定を評価する必要がある。 さらに、シミュレーションと実際の使用の間の共変量シフトは、システムの信頼性を推定するのに困難を引き起こす可能性がある。 本研究では,複合システムを通じて分布差度値の境界を伝搬する検証手法を提案する。これにより,実システムの故障確率の上限を,潜在的に不正確なシミュレーションから導き出すことができる。 各伝播ステップには最適化の問題があり、そこでは最大平均誤差 (MMD) などの測度に対して、半定値プログラムに基づいた厳密な凸緩和を開発する。 提案手法は, 種々の現実的効果を示す複合システムに対して有効かつ有用な境界を導出することを示す。 特に,提案手法が実験設計におけるデータシフトとシミュレーションにおけるモデル不正確さをうまく考慮できることを示す。

Assessing the validity of a real-world system with respect to given quality criteria is a common yet costly task in industrial applications due to the vast number of required real-world tests. Validating such systems by means of simulation offers a promising and less expensive alternative, but requires an assessment of the simulation accuracy and therefore end-to-end measurements. Additionally, covariate shifts between simulations and actual usage can cause difficulties for estimating the reliability of such systems. In this work, we present a validation method that propagates bounds on distributional discrepancy measures through a composite system, thereby allowing us to derive an upper bound on the failure probability of the real system from potentially inaccurate simulations. Each propagation step entails an optimization problem, where -- for measures such as maximum mean discrepancy (MMD) -- we develop tight convex relaxations based on semidefinite programs. We demonstrate that our propagation method yields valid and useful bounds for composite systems exhibiting a variety of realistic effects. In particular, we show that the proposed method can successfully account for data shifts within the experimental design as well as model inaccuracies within the simulation.
翻訳日:2024-01-04 17:35:46 公開日:2024-01-03
# 量子力学のゲージ図

The Gauge Picture of Quantum Dynamics ( http://arxiv.org/abs/2210.09314v4 )

ライセンス: Link先を確認
Kevin Slagle(参考訳) 局所ハミルトニアンは局所時間ダイナミクスを示すが、この局所性は、波動関数の振幅が局所運動方程式に従わないという意味では、Schr\"{o}dinger 図では明示されていない。 すなわち、期待値 $\langle \psi|A|\psi \rangle$ は波動関数 $|\psi\rangle \to U |\psi\rangle$ と作用素 $A \to U A U^\dagger$ に作用する大域的ユニタリ変換の下で不変であり、この大域的不変性は局所ゲージ不変量に測定可能であることを示す。 これを行うために、波動関数をローカルな波動関数の集合に置き換える: $|\psi_J\rangle$, 1 for each patch of space $J$.} である。 空間的パッチの集合は空間をカバーするために選択される; 例えば、格子上の1つのキュービットまたは最も近い隣のサイトを選ぶことができる。 近傍の空間パッチのペアに付随する局所波動関数$I$と$J$は、動的ユニタリ変換$U_{IJ}$によって互いに関連付けられる。 局所波動関数は、そのダイナミクスが局所であるという意味で局所的である。 すなわち、局所波動関数の運動方程式 $|\psi_J\rangle$ と接続 $U_{IJ}$ は空間において明示的に局所であり、近傍のハミルトン項にのみ依存する。 (局所波動関数は多体波動関数であり、通常の波動関数と同じヒルベルト空間次元を持つ。) 量子力学のこの図は、局所的なゲージ不変性を示すため、ゲージ像と呼ぶ。 単一の空間パッチの局所力学は相互作用図形と関連しており、相互作用ハミルトンは近傍のハミルトン項のみからなる。 また、局所電荷とエネルギー密度の局所性を含むように明示的な局所性を一般化することもできる。

Although local Hamiltonians exhibit local time dynamics, this locality is not explicit in the Schr\"{o}dinger picture in the sense that the wavefunction amplitudes do not obey a local equation of motion. We show that geometric locality can be achieved explicitly in the equations of motion by "gauging" the global unitary invariance of quantum mechanics into a local gauge invariance. That is, expectation values $\langle \psi|A|\psi \rangle$ are invariant under a global unitary transformation acting on the wavefunction $|\psi\rangle \to U |\psi\rangle$ and operators $A \to U A U^\dagger$, and we show that it is possible to gauge this global invariance into a local gauge invariance. To do this, we replace the wavefunction with a collection of local wavefunctions $|\psi_J\rangle$, one for each patch of space $J$. The collection of spatial patches is chosen to cover the space; e.g. we could choose the patches to be single qubits or nearest-neighbor sites on a lattice. Local wavefunctions associated with neighboring pairs of spatial patches $I$ and $J$ are related to each other by dynamical unitary transformations $U_{IJ}$. The local wavefunctions are local in the sense that their dynamics are local. That is, the equations of motion for the local wavefunctions $|\psi_J\rangle$ and connections $U_{IJ}$ are explicitly local in space and only depend on nearby Hamiltonian terms. (The local wavefunctions are many-body wavefunctions and have the same Hilbert space dimension as the usual wavefunction.) We call this picture of quantum dynamics the gauge picture since it exhibits a local gauge invariance. The local dynamics of a single spatial patch is related to the interaction picture, where the interaction Hamiltonian consists of only nearby Hamiltonian terms. We can also generalize the explicit locality to include locality in local charge and energy densities.
翻訳日:2024-01-04 17:35:31 公開日:2024-01-03
# 難易度とロバスト性の改善 : 逆行訓練におけるブレグマンの多様性

Lower Difficulty and Better Robustness: A Bregman Divergence Perspective for Adversarial Training ( http://arxiv.org/abs/2208.12511v2 )

ライセンス: Link先を確認
Zihui Wu, Haichang Gao, Bingqian Zhou, Xiaoyan Guo, Shudong Zhang(参考訳) 本稿では,最適化の難易度を低減し,adversarial training (at) で得られる対向ロバスト性の向上について検討する。 この問題をよりよく研究するために,我々は,AT を負のエントロピー曲線上のトレーニングデータのスライディング過程と見なすことのできる,新しい Bregman divergence perspective を構築した。 この観点から, PGD-AT と TRADES という2つの典型的なAT手法の学習目標を解析した結果, TRADES の最適化プロセスは PGD-AT よりも容易であることが判明した。 さらに,TRADESにおけるエントロピーの関数について考察し,高いエントロピーを持つモデルの方が頑健さを学習できることを示した。 上記の知見に触発されて,10段階のpgd攻撃下での最適化の困難さを低減できるだけでなく,堅牢性も向上できるfaitとmerの2つの手法を提案する。 提案手法は,10ステップのPGD敵の下での最適化の困難さを低減させることが,ATにおける敵の堅牢性を高めるための有望なアプローチであることを示す。

In this paper, we investigate on improving the adversarial robustness obtained in adversarial training (AT) via reducing the difficulty of optimization. To better study this problem, we build a novel Bregman divergence perspective for AT, in which AT can be viewed as the sliding process of the training data points on the negative entropy curve. Based on this perspective, we analyze the learning objectives of two typical AT methods, i.e., PGD-AT and TRADES, and we find that the optimization process of TRADES is easier than PGD-AT for that TRADES separates PGD-AT. In addition, we discuss the function of entropy in TRADES, and we find that models with high entropy can be better robustness learners. Inspired by the above findings, we propose two methods, i.e., FAIT and MER, which can both not only reduce the difficulty of optimization under the 10-step PGD adversaries, but also provide better robustness. Our work suggests that reducing the difficulty of optimization under the 10-step PGD adversaries is a promising approach for enhancing the adversarial robustness in AT.
翻訳日:2024-01-04 17:34:49 公開日:2024-01-03
# 正規化スパースオートエンコーダによる良い反応座標の予測とMD軌道の今後の発展:新しい深層学習手法

Prediction of good reaction coordinates and future evolution of MD trajectories using Regularized Sparse Autoencoders: A novel deep learning approach ( http://arxiv.org/abs/2208.10962v2 )

ライセンス: Link先を確認
Abhijit Gupta(参考訳) 化学反応の進行を決定する上でRCが果たす重要な役割を考えると、反応座標(RC)は研究の活発な領域である。 反応座標の選択は、しばしばヒューリスティックな知識に基づいている。 しかし、この選択に必須の基準は、座標が反応状態と生成状態の両方を不当に捉えなければならないことである。 また、座標は最も遅く、他の全ての自由度が反応座標に沿って容易に平衡できるようにすべきである。 また、座標は最も遅く、他の全ての自由度が反応座標に沿って容易に平衡できるようにすべきである。 我々は、エネルギーベースモデルである正規化スパースオートエンコーダを用いて、重要な反応座標を発見した。 反応座標の発見とともに、我々のモデルは分子動力学(MD)軌道の進化を予測する。 規則化を強制する疎性を含むことは、小さなが重要な反応座標の選択に役立ちます。 アラニンジペプチド系とプロフラビンおよびdna系という2つのモデルシステムを用いて,水環境下でプロフラビンのdna小溝へのインターカレーションを示した。 我々はmd軌道を多変量時系列としてモデル化し、潜在変数モデルは多段時系列予測のタスクを実行する。 このアイデアは、一般的なスパースコーディングアプローチにインスパイアされ、各入力サンプルを代表パターンの集合から取られた少数の要素の線形結合として表現する。

Identifying reaction coordinates(RCs) is an active area of research, given the crucial role RCs play in determining the progress of a chemical reaction. The choice of the reaction coordinate is often based on heuristic knowledge. However, an essential criterion for the choice is that the coordinate should capture both the reactant and product states unequivocally. Also, the coordinate should be the slowest one so that all the other degrees of freedom can easily equilibrate along the reaction coordinate. Also, the coordinate should be the slowest one so that all the other degrees of freedom can easily equilibrate along the reaction coordinate. We used a regularised sparse autoencoder, an energy-based model, to discover a crucial set of reaction coordinates. Along with discovering reaction coordinates, our model also predicts the evolution of a molecular dynamics(MD) trajectory. We showcased that including sparsity enforcing regularisation helps in choosing a small but important set of reaction coordinates. We used two model systems to demonstrate our approach: alanine dipeptide system and proflavine and DNA system, which exhibited intercalation of proflavine into DNA minor groove in an aqueous environment. We model MD trajectory as a multivariate time series, and our latent variable model performs the task of multi-step time series prediction. This idea is inspired by the popular sparse coding approach - to represent each input sample as a linear combination of few elements taken from a set of representative patterns.
翻訳日:2024-01-04 17:34:24 公開日:2024-01-03
# シンタ-フォトリアリスティック合成データを用いた筋病理における深層学習に基づく画像解析の新しいアプローチ

SYNTA: A novel approach for deep learning-based image analysis in muscle histopathology using photo-realistic synthetic data ( http://arxiv.org/abs/2207.14650v3 )

ライセンス: Link先を確認
Leonid Mill, Oliver Aust, Jochen A. Ackermann, Philipp Burger, Monica Pascual, Katrin Palumbo-Zerr, Gerhard Kr\"onke, Stefan Uderhardt, Georg Schett, Christoph S. Clemen, Rolf Schr\"oder, Christian Holtzhausen, Samir Jabari, Andreas Maier and Anika Gr\"uneboom(参考訳) バイオメディカル画像解析の分野では、人工知能(AI)、機械学習、深層学習(DL)の手法がますます重要になっている。 しかし,このような手法の潜在能力を最大限に活用するためには,膨大な数の手動注釈付きオブジェクトを含む実験的な画像がトレーニングデータとして必要とされる。 本稿では,SynTA(synthetic data)を,DLシステムのトレーニングデータとして,合成,フォトリアリスティック,高度に複雑なバイオメディカル画像の生成のための新しいアプローチとして紹介する。 病理組織学的に筋線維および結合組織解析の文脈におけるアプローチの有用性を示す。 本研究では,実世界のデータに対して,合成訓練データのみで手動アノテーションを使わずにロバストかつエキスパートレベルのセグメンテーションタスクを実行できることを実証する。 完全にパラメトリックな手法である本手法は,GAN(Generative Adversarial Networks)の代替として解釈可能かつ制御可能であり,顕微鏡等における様々なバイオメディカル応用において,定量的画像解析を著しく高速化する可能性がある。

Artificial intelligence (AI), machine learning, and deep learning (DL) methods are becoming increasingly important in the field of biomedical image analysis. However, to exploit the full potential of such methods, a representative number of experimentally acquired images containing a significant number of manually annotated objects is needed as training data. Here we introduce SYNTA (synthetic data) as a novel approach for the generation of synthetic, photo-realistic, and highly complex biomedical images as training data for DL systems. We show the versatility of our approach in the context of muscle fiber and connective tissue analysis in histological sections. We demonstrate that it is possible to perform robust and expert-level segmentation tasks on previously unseen real-world data, without the need for manual annotations using synthetic training data alone. Being a fully parametric technique, our approach poses an interpretable and controllable alternative to Generative Adversarial Networks (GANs) and has the potential to significantly accelerate quantitative image analysis in a variety of biomedical applications in microscopy and beyond.
翻訳日:2024-01-04 17:33:58 公開日:2024-01-03
# AIの新しいフロンティア:オンデバイスAIトレーニングとパーソナライゼーション

A New Frontier of AI: On-Device AI Training and Personalization ( http://arxiv.org/abs/2206.04688v2 )

ライセンス: Link先を確認
Ji Joong Moon, Hyeonseok Lee, Jiho Chu, Donghak Park, Seungbaek Hong, Hyungjun Seo, Donghyeon Jeong, Sungsik Kong, MyungJoo Ham(参考訳) 最新の消費者電子デバイスは、クラウドサーバーではなくデバイス上でディープラーニングベースのインテリジェンスサービスを実行し、デバイス上の個人データを保持し、ネットワークとクラウドコストを削減する。 デバイスからデータを公開することなく、ニューラルネットワークをユーザデータで更新することで、インテリジェンスサービスをパーソナライズする機会として、このような傾向が見られます。 しかし、デバイスの限られた資源は重大な困難を引き起こす。 ニューラルネットワークのきめ細かい実行順序解析に基づいて,高メモリ効率のニューラルネットワークトレーニング技術とプロアクティブスワップを提供する軽量オンデバイストレーニングフレームワークNNTrainerを提案する。 さらに、その最適化は精度を犠牲にせず、トレーニングアルゴリズムに透過的であるため、従来のアルゴリズム研究はNTNrainer上に実装することができる。 評価の結果,NNTrainerはメモリ消費を1/20まで削減し,デバイス上でのインテリジェンスサービスを効果的にパーソナライズできることがわかった。 NNTrainerはクロスプラットフォームで実用的なオープンソースソフトウェアで、何百万ものモバイルデバイスにデプロイされている。

Modern consumer electronic devices have started executing deep learning-based intelligence services on devices, not cloud servers, to keep personal data on devices and to reduce network and cloud costs. We find such a trend as the opportunity to personalize intelligence services by updating neural networks with user data without exposing the data out of devices: on-device training. However, the limited resources of devices incurs significant difficulties. We propose a light-weight on-device training framework, NNTrainer, which provides highly memory-efficient neural network training techniques and proactive swapping based on fine-grained execution order analysis for neural networks. Moreover, its optimizations do not sacrifice accuracy and are transparent to training algorithms; thus, prior algorithmic studies may be implemented on top of NNTrainer. The evaluations show that NNTrainer can reduce memory consumption down to 1/20 (saving 95%!) and effectively personalizes intelligence services on devices. NNTrainer is cross-platform and practical open-source software, which is being deployed to millions of mobile devices.
翻訳日:2024-01-04 17:33:39 公開日:2024-01-03
# 2光子量子ラビモデルのスペクトル決定式

Spectral determinant of the two-photon quantum Rabi model ( http://arxiv.org/abs/2206.02509v3 )

ライセンス: Link先を確認
Daniel Braak(参考訳) 2光子量子ラビモデルの様々な一般化スペクトル決定因子(G-関数)は、正則スペクトルの定性的側面に重点を置いて分析される。 いずれも正則固有値の少なくとも1つの部分集合を生成するが、Chenらによって2012年に提案されたG-函数のみが、崩壊点へのアプローチを規定する明確な極構造を示す。 この関数はモデルの$\mathbb{z}_4$対称性を厳密に利用し、その零点が完全正則スペクトルに対応することを示す。

The various generalized spectral determinants (G-functions) of the two-photon quantum Rabi model are analyzed with emphasis on the qualitative aspects of the regular spectrum. Whereas all of them yield at least a subset of the exact regular eigenvalues, only the G-function proposed by Chen et al. in 2012 exhibits an explicitly known pole structure which dictates the approach to the collapse point. We derive this function rigorously employing the $\mathbb{Z}_4$-symmetry of the model and show that its zeros correspond to the complete regular spectrum.
翻訳日:2024-01-04 17:33:20 公開日:2024-01-03
# 部分的参加設定における分散非凸問題の計算・通信効率化手法

A Computation and Communication Efficient Method for Distributed Nonconvex Problems in the Partial Participation Setting ( http://arxiv.org/abs/2205.15580v4 )

ライセンス: Link先を確認
Alexander Tyurin, Peter Richt\'arik(参考訳) 本稿では,分散最適化と連合学習の3つの重要な要素,確率的勾配の分散低減,部分的参加,圧縮通信について述べる。 本手法は, 部分参加環境において, 最適オラクル複雑性と最先端通信複雑性を有することを示す。 通信圧縮機能にかかわらず,本手法は分散の低減と部分的参加をうまく組み合わせる:最適なオラクル複雑性を得る,全てのノードの参加を必要としない,有界勾配(異性性)の仮定を必要としない。

We present a new method that includes three key components of distributed optimization and federated learning: variance reduction of stochastic gradients, partial participation, and compressed communication. We prove that the new method has optimal oracle complexity and state-of-the-art communication complexity in the partial participation setting. Regardless of the communication compression feature, our method successfully combines variance reduction and partial participation: we get the optimal oracle complexity, never need the participation of all nodes, and do not require the bounded gradients (dissimilarity) assumption.
翻訳日:2024-01-04 17:33:00 公開日:2024-01-03
# DIRA: 動的ドメイン増分正規化適応

DIRA: Dynamic Domain Incremental Regularised Adaptation ( http://arxiv.org/abs/2205.00147v5 )

ライセンス: Link先を確認
Abanoub Ghobrial, Xuan Zheng, Darryl Hond, Hamid Asgari, Kerstin Eder(参考訳) 自律システム(AS)は、しばしばDeep Neural Network(DNN)分類器を使用して、複雑で高次元で非線形で動的に変化する環境で動作できるようにする。 これらの環境の複雑さのため、DNN分類器は開発中に特定されていないドメインに直面すると、操作中に誤分類を出力することができる。 再トレーニングのための操作からシステムを取り除くことは、その数が増えるにつれて非現実的になる。 ASの信頼性を高め、この制限を克服するためには、DNN分類器はいくつかのサンプル(例:2から100サンプル)を使用して異なる運用ドメインに直面すると、操作中に適応する能力を持つ必要がある。 しかし、いくつかのサンプルでのDNNの再訓練は、破滅的な忘れ込みと一般化の欠如を引き起こすことが知られている。 本稿では,dnnの動的動作領域適応のための手法である動的インクリメンタル正規化適応(dira)を提案する。 DIRAは,対象ドメインからのサンプルを数回使用して再トレーニングを行う際に,忘れることの問題を改善し,性能の大幅な向上を実現する。 本手法は,分散シフトに対するロバスト性(CIFAR-10C/100C, ImageNet-C)を評価することを目的とした,様々な画像分類ベンチマークの改善を示す。

Autonomous systems (AS) often use Deep Neural Network (DNN) classifiers to allow them to operate in complex, high-dimensional, non-linear, and dynamically changing environments. Due to the complexity of these environments, DNN classifiers may output misclassifications during operation when they face domains not identified during development. Removing a system from operation for retraining becomes impractical as the number of such AS increases. To increase AS reliability and overcome this limitation, DNN classifiers need to have the ability to adapt during operation when faced with different operational domains using a few samples (e.g. 2 to 100 samples). However, retraining DNNs on a few samples is known to cause catastrophic forgetting and poor generalisation. In this paper, we introduce Dynamic Incremental Regularised Adaptation (DIRA), an approach for dynamic operational domain adaption of DNNs using regularisation techniques. We show that DIRA improves on the problem of forgetting and achieves strong gains in performance when retraining using a few samples from the target domain. Our approach shows improvements on different image classification benchmarks aimed at evaluating robustness to distribution shifts (e.g.CIFAR-10C/100C, ImageNet-C), and produces state-of-the-art performance in comparison with other methods from the literature.
翻訳日:2024-01-04 17:32:30 公開日:2024-01-03
# 正規化m推定器のためのシングルインデックスモデルの可観測調整

Observable adjustments in single-index models for regularized M-estimators ( http://arxiv.org/abs/2204.06990v3 )

ライセンス: Link先を確認
Pierre C Bellec(参考訳) 我々は、未知のリンク関数を持つ単一インデックスモデルからの観測$(X,y)$、ガウス共変量および凸損失関数と正則化子から構築された正規化されたM-推定子$\hat\beta$を考える。 In the regime where sample size $n$ and dimension $p$ are both increasing such that $p/n$ has a finite limit, the behavior of the empirical distribution of $\hat\beta$ and the predicted values $X\hat\beta$ has been previously characterized in a number of models: The empirical distributions are known to converge to proximal operators of the loss and penalty in a related Gaussian sequence model, which captures the interplay between ratio $p/n$, loss, regularization and the data generating process. この$(\hat\beta,x\hat\beta) と対応する近位作用素の間の接続は、インデックスやリンク関数の事前分布のような観測不能な量を含む固定点方程式を解く必要がある。 本稿では、観測可能な調整のみを含む近似作用素の観点で、$\hat\beta$ と $X\hat\beta$: $(\hat\beta,X\hat\beta)$ の近似を記述するための別の理論を開発する。 これらの観測可能な調整はデータ駆動であり、インデックスやリンク関数の事前知識を必要としない。 これらの新たな調整は、インデックスの個々のコンポーネントに対する信頼区間と、$\hat\beta$とインデックスとの相関を推定する。 損失、正規化、モデルの間の相互作用は、以前の研究で研究された固定点方程式を解くことなく、データ駆動方式でキャプチャされる。 結果は、強い凸正則化と非正規化M推定の両方に適用できる。 ロジスティック回帰や1ビット圧縮センシングを含む単一インデックスモデルの正方形およびロジスティック損失に対する20\%崩壊ビットのシミュレーションを提供する。

We consider observations $(X,y)$ from single index models with unknown link function, Gaussian covariates and a regularized M-estimator $\hat\beta$ constructed from convex loss function and regularizer. In the regime where sample size $n$ and dimension $p$ are both increasing such that $p/n$ has a finite limit, the behavior of the empirical distribution of $\hat\beta$ and the predicted values $X\hat\beta$ has been previously characterized in a number of models: The empirical distributions are known to converge to proximal operators of the loss and penalty in a related Gaussian sequence model, which captures the interplay between ratio $p/n$, loss, regularization and the data generating process. This connection between$(\hat\beta,X\hat\beta)$ and the corresponding proximal operators require solving fixed-point equations that typically involve unobservable quantities such as the prior distribution on the index or the link function. This paper develops a different theory to describe the empirical distribution of $\hat\beta$ and $X\hat\beta$: Approximations of $(\hat\beta,X\hat\beta)$ in terms of proximal operators are provided that only involve observable adjustments. These proposed observable adjustments are data-driven, e.g., do not require prior knowledge of the index or the link function. These new adjustments yield confidence intervals for individual components of the index, as well as estimators of the correlation of $\hat\beta$ with the index. The interplay between loss, regularization and the model is thus captured in a data-driven manner, without solving the fixed-point equations studied in previous works. The results apply to both strongly convex regularizers and unregularized M-estimation. Simulations are provided for the square and logistic loss in single index models including logistic regression and 1-bit compressed sensing with 20\% corrupted bits.
翻訳日:2024-01-04 17:32:06 公開日:2024-01-03
# ECCVキャプション:MS-COCOのためのマシンとヒューマン認証イメージキャプションアソシエーションの収集による偽陰性訂正

ECCV Caption: Correcting False Negatives by Collecting Machine-and-Human-verified Image-Caption Associations for MS-COCO ( http://arxiv.org/abs/2204.03359v5 )

ライセンス: Link先を確認
Sanghyuk Chun, Wonjae Kim, Song Park, Minsuk Chang, Seong Joon Oh(参考訳) 画像テキストマッチング(ITM)は視覚と言語(VL)モデルの品質を評価する一般的なタスクである。 しかし、既存のIMMベンチマークには大きな制限がある。 それらには、データ構築プロセス自体に由来する多くの通信が欠落している。 例えば、キャプションは1つのイメージにのみマッチするが、キャプションは他の類似したイメージとマッチし、その逆も可能である。 大規模な偽陰性を補正するために,機械や人間のアノテーションに欠落した関連情報を供給し,拡張COCO検証(ECCV)キャプションデータセットを構築した。 我々はアノテーションプロセスに様々な特性を持つ5つの最先端IMMモデルを採用している。 我々のデータセットは、元のms-cocoと比較して、x3.6のポジティブなイメージ対キャプチャーアソシエーションとx8.5のキャプション対イメージアソシエーションを提供する。 また、一般的なRecall@K(R@K)ではなく、情報的ランキングに基づくmAP@Rを使うことを提案する。 既存の25のVLモデルを既存のベンチマークで再評価する。 その結果,COCO 1K R@K,COCO 5K R@K,CxC R@1などの既存のベンチマークは相関が強く,ECCV mAP@Rに移行するとランキングが変化することがわかった。 最後に,機械アノテータの選択によって引き起こされるバイアスの効果について考察する。 ソースコードとデータセットはhttps://github.com/naver-ai/eccv-captionで入手できる。

Image-Text matching (ITM) is a common task for evaluating the quality of Vision and Language (VL) models. However, existing ITM benchmarks have a significant limitation. They have many missing correspondences, originating from the data construction process itself. For example, a caption is only matched with one image although the caption can be matched with other similar images and vice versa. To correct the massive false negatives, we construct the Extended COCO Validation (ECCV) Caption dataset by supplying the missing associations with machine and human annotators. We employ five state-of-the-art ITM models with diverse properties for our annotation process. Our dataset provides x3.6 positive image-to-caption associations and x8.5 caption-to-image associations compared to the original MS-COCO. We also propose to use an informative ranking-based metric mAP@R, rather than the popular Recall@K (R@K). We re-evaluate the existing 25 VL models on existing and proposed benchmarks. Our findings are that the existing benchmarks, such as COCO 1K R@K, COCO 5K R@K, CxC R@1 are highly correlated with each other, while the rankings change when we shift to the ECCV mAP@R. Lastly, we delve into the effect of the bias introduced by the choice of machine annotator. Source code and dataset are available at https://github.com/naver-ai/eccv-caption
翻訳日:2024-01-04 17:31:34 公開日:2024-01-03
# HOI4D:カテゴリーレベル人間-オブジェクトインタラクションのための4Dエゴセントリックデータセット

HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction ( http://arxiv.org/abs/2203.01577v4 )

ライセンス: Link先を確認
Yunze Liu, Yun Liu, Che Jiang, Kangbo Lyu, Weikang Wan, Hao Shen, Boqiang Liang, Zhoujie Fu, He Wang, Li Yi(参考訳) そこで本研究では,リッチアノテーションを用いた大規模4DエゴセントリックデータセットHOI4Dを提案する。 HOI4Dは、4人の参加者が収集した4000以上のRGB-Dエゴセントリックなビデオフレームからなり、610の異なる室内室の16のカテゴリから800の異なるオブジェクトインスタンスと相互作用する。 また、再構成されたオブジェクトメッシュとシーンポイントクラウドとともに、3Dハンドポーズ、カテゴリレベルのオブジェクトポーズ、ハンドアクションのためのフレームワイドアノテーションも提供されている。 HOI4Dでは,4次元ダイナミックポイントクラウドシーケンスのセマンティックセグメンテーション,カテゴリレベルのオブジェクトポーズトラッキング,多種多様なインタラクションターゲットによるエゴセントリックアクションセグメンテーションを含む,4次元視覚信号からカテゴリレベルのHOIを促進する3つのベンチマークタスクを確立する。 詳細な分析によると、HOI4Dは既存の手法に大きな課題をもたらし、大きな研究機会を生み出している。

We present HOI4D, a large-scale 4D egocentric dataset with rich annotations, to catalyze the research of category-level human-object interaction. HOI4D consists of 2.4M RGB-D egocentric video frames over 4000 sequences collected by 4 participants interacting with 800 different object instances from 16 categories over 610 different indoor rooms. Frame-wise annotations for panoptic segmentation, motion segmentation, 3D hand pose, category-level object pose and hand action have also been provided, together with reconstructed object meshes and scene point clouds. With HOI4D, we establish three benchmarking tasks to promote category-level HOI from 4D visual signals including semantic segmentation of 4D dynamic point cloud sequences, category-level object pose tracking, and egocentric action segmentation with diverse interaction targets. In-depth analysis shows HOI4D poses great challenges to existing methods and produces great research opportunities.
翻訳日:2024-01-04 17:31:08 公開日:2024-01-03
# 量子化学における励起状態の完全回路型量子アルゴリズム

A full circuit-based quantum algorithm for excited-states in quantum chemistry ( http://arxiv.org/abs/2112.14193v3 )

ライセンス: Link先を確認
Jingwei Wen, Zhengan Wang, Chitong Chen, Junxiang Xiao, Hang Li, Ling Qian, Zhiguo Huang, Heng Fan, Shijie Wei, and Guilu Long(参考訳) 量子コンピュータを用いて量子化学を研究することは、今日では重要な研究分野である。 広く研究されている基底状態問題に加えて、励起状態の決定は化学反応やその他の物理過程の予測とモデル化において重要な役割を果たす。 本稿では,量子化学ハミルトニアンの励起状態スペクトルを得るための非可変完全回路型量子アルゴリズムを提案する。 従来の量子ハイブリッド変分アルゴリズムと比較して,従来の最適化処理を排除し,異なるシステム間の相互作用による資源コストを低減し,バレンプレートを使わずにより高速な収束率と強靭性を実現する。 次回のエネルギーレベルを決定するためのパラメータ更新は、前回のエネルギーレベルのエネルギー測定出力に自然に依存しており、補助システムの状態準備プロセスを変更するだけで実現でき、追加のリソースオーバーヘッドが少ない。 水素,LiH,H2O,NH3分子を用いたアルゴリズムの数値シミュレーションを行った。 さらに,超伝導量子コンピューティングプラットフォーム上でのアルゴリズムの実験的実証を行い,理論的な期待値とよく一致したことを示す。 このアルゴリズムは、フォールトトレラント量子コンピュータ上の様々なハミルトンスペクトル決定問題に広く適用することができる。

Utilizing quantum computer to investigate quantum chemistry is an important research field nowadays. In addition to the ground-state problems that have been widely studied, the determination of excited-states plays a crucial role in the prediction and modeling of chemical reactions and other physical processes. Here, we propose a non-variational full circuit-based quantum algorithm for obtaining the excited-state spectrum of a quantum chemistry Hamiltonian. Compared with previous classical-quantum hybrid variational algorithms, our method eliminates the classical optimization process, reduces the resource cost caused by the interaction between different systems, and achieves faster convergence rate and stronger robustness against noise without barren plateau. The parameter updating for determining the next energy-level is naturally dependent on the energy measurement outputs of the previous energy-level and can be realized by only modifying the state preparation process of ancillary system, introducing little additional resource overhead. Numerical simulations of the algorithm with hydrogen, LiH, H2O and NH3 molecules are presented. Furthermore, we offer an experimental demonstration of the algorithm on a superconducting quantum computing platform, and the results show a good agreement with theoretical expectations. The algorithm can be widely applied to various Hamiltonian spectrum determination problems on the fault-tolerant quantum computers.
翻訳日:2024-01-04 17:30:47 公開日:2024-01-03
# TrAISformer -- AISに基づく容器軌道予測のための疎拡張データ表現とクロスエントロピー損失を備えたトランスフォーマネットワーク

TrAISformer -- A Transformer Network with Sparse Augmented Data Representation and Cross Entropy Loss for AIS-based Vessel Trajectory Prediction ( http://arxiv.org/abs/2109.03958v4 )

ライセンス: Link先を確認
Duong Nguyen and Ronan Fablet(参考訳) 船舶軌道予測は多くの海洋アプリケーションやサービスにおいて重要な役割を果たす。 自動識別システム(AIS)は、この課題に対処するための豊富な情報を提供するが、動きデータの本質的な不均一性とマルチモーダル性のため、現代の機械学習技術においても、AISデータを用いた船舶軌道の予測は困難である。 本稿では,これらの課題に取り組むための新しいアプローチを提案する。 我々は、AISデータの離散的高次元表現と、不均一性と多モード性を明確に扱うように設計された新しい損失関数を導入する。 traisformer-は、数時間前に船舶の位置を予測するために、拡張された空間内のais容器軌道の長期的時間パターンを抽出するトランスフォーマーネットワークである。 実物公開AISデータに対する実験結果について報告する。 TrAISformerは最先端の手法よりも優れており、平均的な予測性能は10海里から10時間以内である。

Vessel trajectory prediction plays a pivotal role in numerous maritime applications and services. While the Automatic Identification System (AIS) offers a rich source of information to address this task, forecasting vessel trajectory using AIS data remains challenging, even for modern machine learning techniques, because of the inherent heterogeneous and multimodal nature of motion data. In this paper, we propose a novel approach to tackle these challenges. We introduce a discrete, high-dimensional representation of AIS data and a new loss function designed to explicitly address heterogeneity and multimodality. The proposed model-referred to as TrAISformer-is a modified transformer network that extracts long-term temporal patterns in AIS vessel trajectories in the proposed enriched space to forecast the positions of vessels several hours ahead. We report experimental results on real, publicly available AIS data. TrAISformer significantly outperforms state-of-the-art methods, with an average prediction performance below 10 nautical miles up to ~10 hours.
翻訳日:2024-01-04 17:30:28 公開日:2024-01-03
# 強化学習によるヒューマンシークエンシャル意思決定の改善

Improving Human Sequential Decision-Making with Reinforcement Learning ( http://arxiv.org/abs/2108.08454v4 )

ライセンス: Link先を確認
Hamsa Bastani, Osbert Bastani, Wichinpong Park Sinchaisri(参考訳) 労働者は良い決断をする方法を学ぶのにかなりの時間を費やします。 しかし、ある決定の有効性を評価することは複雑であり、例えば、決定結果はしばしば長期的であり、複雑な方法で元の決定と関係する。 驚くべきことに、良い意思決定戦略を学ぶことは難しいが、しばしば単純で簡潔な形で表現される。 逐次的意思決定に着目し,トレースデータから「ベストプラクティス」を抽出し,解釈可能な「チップ」という形でその洞察を人間に伝えることができる新しい機械学習アルゴリズムを設計した。 提案アルゴリズムは, 作業者による行動と最適方針による行動のギャップを, より高い性能を達成するためにどの行動が適切であるかを考慮し, 最善を尽くすためのヒントを選択する。 本手法は,参加者が仮想キッチンを管理するランダム化制御実験を通じて評価する。 実験の結果,本アルゴリズムが生み出すヒントは,直感的なベースラインと比較して,人間のパフォーマンスを著しく向上できることがわかった。 さらに,人間-AIインタフェースを意図したアルゴリズムの設計を支援するための実証的な知見をいくつか紹介する。 例えば、参加者は単にヒントに盲目的に従うのではなく、自分たちの経験と組み合わせて、パフォーマンスを改善するための追加の戦略を発見するのです。

Workers spend a significant amount of time learning how to make good decisions. Evaluating the efficacy of a given decision, however, can be complicated -- e.g., decision outcomes are often long-term and relate to the original decision in complex ways. Surprisingly, even though learning good decision-making strategies is difficult, they can often be expressed in simple and concise forms. Focusing on sequential decision-making, we design a novel machine learning algorithm that is capable of extracting "best practices" from trace data and conveying its insights to humans in the form of interpretable "tips". Our algorithm selects the tip that best bridges the gap between the actions taken by human workers and those taken by the optimal policy in a way that accounts for which actions are consequential for achieving higher performance. We evaluate our approach through a series of randomized controlled experiments where participants manage a virtual kitchen. Our experiments show that the tips generated by our algorithm can significantly improve human performance relative to intuitive baselines. In addition, we discuss a number of empirical insights that can help inform the design of algorithms intended for human-AI interfaces. For instance, we find evidence that participants do not simply blindly follow our tips; instead, they combine them with their own experience to discover additional strategies for improving performance.
翻訳日:2024-01-04 17:30:04 公開日:2024-01-03
# Poseをフォローする: Pose-Guided Text-to-Video Generation by Pose-free Videos

Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos ( http://arxiv.org/abs/2304.01186v2 )

ライセンス: Link先を確認
Yue Ma, Yingqing He, Xiaodong Cun, Xintao Wang, Siran Chen, Ying Shan, Xiu Li, Qifeng Chen(参考訳) テキスト編集可能でポーズ制御可能なキャラクタビデオの生成は、さまざまなデジタル人間を作成する上で不必要に要求される。 それでも、このタスクは、ペア化されたビデオの字幕と、ビデオの生成前のモデルを含む包括的なデータセットが存在しないことで制限されている。 本研究では,手軽に得られるデータセット(画像ポーズペアとポーズフリービデオ)と事前学習されたテキスト・ツー・イメージモデル(t2i)を活用し,ポーズ制御可能なキャラクタビデオを得ることのできる,新たな2段階学習方式を提案する。 具体的には、第1段階では、キーポイントと画像のペアのみが制御可能なテキストと画像の生成にのみ使用される。 ポーズ情報を符号化するゼロ初期化畳み込みエンコーダを学習する。 第2段階では,学習可能な時間的自己着脱ブロックと再構成されたクロスフレーム自己着脱ブロックを付加することにより,ポーズフリービデオデータセットを介して,上記ネットワークの動作を微調整する。 本手法は,新たな設計により,事前学習したt2iモデルの編集と概念合成能力を維持しつつ,連続的なポーズ制御可能なキャラクタビデオの生成に成功している。 コードとモデルは公開される予定だ。

Generating text-editable and pose-controllable character videos have an imperious demand in creating various digital human. Nevertheless, this task has been restricted by the absence of a comprehensive dataset featuring paired video-pose captions and the generative prior models for videos. In this work, we design a novel two-stage training scheme that can utilize easily obtained datasets (i.e.,image pose pair and pose-free video) and the pre-trained text-to-image (T2I) model to obtain the pose-controllable character videos. Specifically, in the first stage, only the keypoint-image pairs are used only for a controllable text-to-image generation. We learn a zero-initialized convolutional encoder to encode the pose information. In the second stage, we finetune the motion of the above network via a pose-free video dataset by adding the learnable temporal self-attention and reformed cross-frame self-attention blocks. Powered by our new designs, our method successfully generates continuously pose-controllable character videos while keeps the editing and concept composition ability of the pre-trained T2I model. The code and models will be made publicly available.
翻訳日:2024-01-04 17:22:56 公開日:2024-01-03
# SpyroPose: SE(3) オブジェクトポス分布推定のためのピラミッド

SpyroPose: SE(3) Pyramids for Object Pose Distribution Estimation ( http://arxiv.org/abs/2303.05308v2 )

ライセンス: Link先を確認
Rasmus Laurvig Haugaard, Frederik Hagelskj{\ae}r, Thorbj{\o}rn Mosekj{\ae}r Iversen(参考訳) オブジェクトポーズ推定はコンピュータビジョンのコア問題であり、ロボット工学において不可欠な要素であることが多い。 ポーズ推定は通常、オブジェクトのポーズを最もよく見積もることによってアプローチされるが、このアプローチは視覚的あいまいさを含むタスクには不適である。 このような場合、下流のタスクが情報的決定を行えるように、不確実性をポーズ分布として推定することが望ましい。 ポース分布は任意の複雑性を持ち、非パラメータ分布を推定する動機となるが、SE(3) 上のトレーニングや正規化の難しさから、これまではSO(3) の向き推定にしか使われていなかった。 本稿では,SE(3)に基づくポーズ分布推定手法を提案する。 階層格子,ピラミッドを用いて,訓練中に効率よく重要度を抽出し,推論時のピラミッドのスパース評価を行い,リアルタイムの6次元ポーズ分布推定を可能にする。 本手法はso(3)における最先端手法よりも優れており,se(3)におけるポーズ分布推定に関する最初の定量的な結果を提供する。 コードはspyropose.github.ioで利用可能になる

Object pose estimation is a core computer vision problem and often an essential component in robotics. Pose estimation is usually approached by seeking the single best estimate of an object's pose, but this approach is ill-suited for tasks involving visual ambiguity. In such cases it is desirable to estimate the uncertainty as a pose distribution to allow downstream tasks to make informed decisions. Pose distributions can have arbitrary complexity which motivates estimating unparameterized distributions, however, until now they have only been used for orientation estimation on SO(3) due to the difficulty in training on and normalizing over SE(3). We propose a novel method for pose distribution estimation on SE(3). We use a hierarchical grid, a pyramid, which enables efficient importance sampling during training and sparse evaluation of the pyramid at inference, allowing real time 6D pose distribution estimation. Our method outperforms state-of-the-art methods on SO(3), and to the best of our knowledge, we provide the first quantitative results on pose distribution estimation on SE(3). Code will be available at spyropose.github.io
翻訳日:2024-01-04 17:22:10 公開日:2024-01-03
# PAC-Bayes境界の導出のための統一的レシピ

A unified recipe for deriving (time-uniform) PAC-Bayes bounds ( http://arxiv.org/abs/2302.03421v5 )

ライセンス: Link先を確認
Ben Chugg, Hongjian Wang, Aaditya Ramdas(参考訳) PAC-ベイジアン一般化境界を導出するための統一的枠組みを提案する。 この話題に関する他の文献とは異なり、我々の境界は任意の時効(すなわち、時間ユニフォーム)であり、固定されたサンプルサイズだけでなく、常に停止時間を保持することを意味する。 私たちのアプローチは以下の順に4つのツールを組み合わせています。 a)非負のスーパーマリンタレスまたは逆サブマリンタレス (b)混合物の方法 (c)Donsker-Varadhan式(または他の凸双対性原理) (d) ヴィルの不平等。 我々の主な成果は、離散確率過程の幅広いクラスに対応するPAC-Bayes定理である。 この結果は、シーガー、マクレスター、マウラー、カトニといった有名な古典的PAC-ベイズ境界の時間一様版と最近の多くの境界に加えてどのように意味するかを示す。 いくつかの新しい境界も提示する。 我々はまた,従来の仮定,特に非定常損失関数と非定常損失関数を緩和することを可能にする。 つまり、過去の境界の導出を統一し、将来の境界の探索を容易にする: スーパーマーチンゲールまたはサブマーチンゲール条件が満たされているかどうかを単にチェックし、もしそうであれば(時間一様)pac-bayesバウンドを保証できる。

We present a unified framework for deriving PAC-Bayesian generalization bounds. Unlike most previous literature on this topic, our bounds are anytime-valid (i.e., time-uniform), meaning that they hold at all stopping times, not only for a fixed sample size. Our approach combines four tools in the following order: (a) nonnegative supermartingales or reverse submartingales, (b) the method of mixtures, (c) the Donsker-Varadhan formula (or other convex duality principles), and (d) Ville's inequality. Our main result is a PAC-Bayes theorem which holds for a wide class of discrete stochastic processes. We show how this result implies time-uniform versions of well-known classical PAC-Bayes bounds, such as those of Seeger, McAllester, Maurer, and Catoni, in addition to many recent bounds. We also present several novel bounds. Our framework also enables us to relax traditional assumptions; in particular, we consider nonstationary loss functions and non-i.i.d. data. In sum, we unify the derivation of past bounds and ease the search for future bounds: one may simply check if our supermartingale or submartingale conditions are met and, if so, be guaranteed a (time-uniform) PAC-Bayes bound.
翻訳日:2024-01-04 17:21:33 公開日:2024-01-03
# PressureVision++: さまざまなRGBイメージからFingertip圧力を推定する

PressureVision++: Estimating Fingertip Pressure from Diverse RGB Images ( http://arxiv.org/abs/2301.02310v3 )

ライセンス: Link先を確認
Patrick Grady, Jeremy A. Collins, Chengcheng Tang, Christopher D. Twigg, Kunal Aneja, James Hays, Charles C. Kemp(参考訳) タッチは人間の操作において基本的な役割を担っているが、機械による接触と圧力の認識は通常、侵入センサーを必要とする。 近年の研究では、深部モデルは単一のRGB画像に基づいて手圧を推定できることが示されている。 しかし, 地圧測定による多様なデータ収集が困難であるため, 制御条件に限定されている。 本稿では,RGBカメラと協力的参加者のみを用いて,多様なデータをキャプチャ可能な新しいアプローチを提案する。 私たちの重要な洞察は、人々は特定の方法で圧力をかけるように促され、このプロンプトは様々な条件下でうまく機能するようにモデルを監督する弱いラベルとして機能することができるということです。 51人の参加者が多様な物体と指先で接触する新しいデータセットを収集した。 当社のネットワークである PressureVision++ は,人間のアノテータや以前の作業よりも優れています。 pressureVision++ の混合現実への応用を実演し、毎日の表面をタッチに敏感なインターフェースとして利用できるようにする。 コード、データ、モデルはオンラインで入手できる。

Touch plays a fundamental role in manipulation for humans; however, machine perception of contact and pressure typically requires invasive sensors. Recent research has shown that deep models can estimate hand pressure based on a single RGB image. However, evaluations have been limited to controlled settings since collecting diverse data with ground-truth pressure measurements is difficult. We present a novel approach that enables diverse data to be captured with only an RGB camera and a cooperative participant. Our key insight is that people can be prompted to apply pressure in a certain way, and this prompt can serve as a weak label to supervise models to perform well under varied conditions. We collect a novel dataset with 51 participants making fingertip contact with diverse objects. Our network, PressureVision++, outperforms human annotators and prior work. We also demonstrate an application of PressureVision++ to mixed reality where pressure estimation allows everyday surfaces to be used as arbitrary touch-sensitive interfaces. Code, data, and models are available online.
翻訳日:2024-01-04 17:21:08 公開日:2024-01-03
# 確率的アンサンブルを用いたベイズ後方近似

Bayesian posterior approximation with stochastic ensembles ( http://arxiv.org/abs/2212.08123v3 )

ライセンス: Link先を確認
Oleksandr Balabanov, Bernhard Mehlig, Hampus Linander(参考訳) 本研究では,ベイズ後部を近似する確率的ニューラルネットワークのアンサンブルを導入し,ドロップアウトなどの確率的手法と深部アンサンブルを組み合わせた。 確率的アンサンブルは分布の族として定式化され、ベイズ後部を変分推論で近似するように訓練される。 我々はモンテカルロのドロップアウト、DropConnect、および新しい非パラメトリックなドロップアウトに基づく確率的アンサンブルを実装し、それらをおもちゃ問題とCIFAR画像分類に基づいて評価する。 いずれの課題においても,後肢の質をハミルトンモンテカルロシミュレーションに対して直接テストする。 その結果、確率的アンサンブルはベイズ推定の他の一般的なベースラインよりも正確な後方推定を提供することがわかった。

We introduce ensembles of stochastic neural networks to approximate the Bayesian posterior, combining stochastic methods such as dropout with deep ensembles. The stochastic ensembles are formulated as families of distributions and trained to approximate the Bayesian posterior with variational inference. We implement stochastic ensembles based on Monte Carlo dropout, DropConnect and a novel non-parametric version of dropout and evaluate them on a toy problem and CIFAR image classification. For both tasks, we test the quality of the posteriors directly against Hamiltonian Monte Carlo simulations. Our results show that stochastic ensembles provide more accurate posterior estimates than other popular baselines for Bayesian inference.
翻訳日:2024-01-04 17:20:38 公開日:2024-01-03
# FuRPE: パートエキスパートからフルボディ再構築を学ぶ

FuRPE: Learning Full-body Reconstruction from Part Experts ( http://arxiv.org/abs/2212.00731v2 )

ライセンス: Link先を確認
Zhaoxin Fan, Yuqing Pan, Hao Xu, Zhenbo Song, Zhicheng Wang, Kejian Wu, Hongyan Liu and Jun He(参考訳) 全身再構築の分野において、注釈付きデータの不足は、しばしば一般的な方法の有効性を阻害する。 この問題に対処するため,我々は,高品質な擬似ラベルを導き出すために,パートエキスパートと巧妙な擬似接地木選択方式を用いた新しいフレームワークであるFuRPEを紹介した。 当社のアプローチの中心となるこれらのラベルは、当社のネットワークに利用可能なデータから効率的に学習する能力を提供します。 FuRPEと統合することは、ユニークな指数的移動平均訓練戦略と専門家による特徴蒸留戦略である。 FuRPEのこれらの新しい要素は、モデルをさらに洗練するだけでなく、擬似ラベルの不正確さから生じる潜在的なバイアスを低減し、ネットワークのトレーニングプロセスを最適化し、モデルの堅牢性を高めるのに役立つ。 2段階および完全畳み込み型1段階全身体再構築ネットワークの訓練にfurpeを適用した。 多数のベンチマークデータセットに関する包括的な実験は、既存の手法よりも大幅にパフォーマンスが向上し、フルボディ再構築におけるFuRPEの最先端を再構築する可能性を示している。

In the field of full-body reconstruction, the scarcity of annotated data often impedes the efficacy of prevailing methods. To address this issue, we introduce FuRPE, a novel framework that employs part-experts and an ingenious pseudo ground-truth selection scheme to derive high-quality pseudo labels. These labels, central to our approach, equip our network with the capability to efficiently learn from the available data. Integral to FuRPE is a unique exponential moving average training strategy and expert-derived feature distillation strategy. These novel elements of FuRPE not only serve to further refine the model but also to reduce potential biases that may arise from inaccuracies in pseudo labels, thereby optimizing the network's training process and enhancing the robustness of the model. We apply FuRPE to train both two-stage and fully convolutional single-stage full-body reconstruction networks. Our exhaustive experiments on numerous benchmark datasets illustrate a substantial performance boost over existing methods, underscoring FuRPE's potential to reshape the state-of-the-art in full-body reconstruction.
翻訳日:2024-01-04 17:18:58 公開日:2024-01-03
# disentangle (複数形 disentangles)

Disentangled (Un)Controllable Features ( http://arxiv.org/abs/2211.00086v2 )

ライセンス: Link先を確認
Jacob E. Kooi, Mark Hoogendoorn, Vincent Fran\c{c}ois-Lavet(参考訳) 高次元状態のMDPの文脈では、下流タスクは元の入力空間の圧縮された低次元表現に主に適用される。 したがって、様々な学習目的が有用な表現を得るために使われてきた。 しかし、これらの表現は通常、異なる特徴の解釈可能性に欠ける。 本稿では,遅延特徴を制御可能かつ制御不能なパーティションに分解できる新しいアプローチを提案する。 得られた分割表現は3種類の環境において容易に解釈可能であることを示し、手続き的に生成された迷路環境の分布において、分離された制御可能な潜伏分割に計画アルゴリズムを適用可能であることを示す。

In the context of MDPs with high-dimensional states, downstream tasks are predominantly applied on a compressed, low-dimensional representation of the original input space. A variety of learning objectives have therefore been used to attain useful representations. However, these representations usually lack interpretability of the different features. We present a novel approach that is able to disentangle latent features into a controllable and an uncontrollable partition. We illustrate that the resulting partitioned representations are easily interpretable on three types of environments and show that, in a distribution of procedurally generated maze environments, it is feasible to interpretably employ a planning algorithm in the isolated controllable latent partition.
翻訳日:2024-01-04 17:18:38 公開日:2024-01-03
# ターゲットネットワーク間のギャップと機能正規化の橋渡し

Bridging the Gap Between Target Networks and Functional Regularization ( http://arxiv.org/abs/2210.12282v2 )

ライセンス: Link先を確認
Alexandre Piche and Valentin Thomas and Joseph Marino and Rafael Pardinas and Gian Maria Marconi and Christopher Pal and Mohammad Emtiyaz Khan(参考訳) ブートストラップは、Deep Reinforcement Learningの成功の背後にあります。 しかしながら、ブートストラップによる値関数の学習は、目標値の高速変更による不安定なトレーニングにつながることが多い。 ターゲットネットワークは、目標値を推定するために、追加の遅延パラメータセットを使用してトレーニングを安定化するために使用される。 ターゲットネットワークの人気にもかかわらず、最適化に対する効果はまだ誤解されている。 本研究では,暗黙の正規化として作用することを示す。 この正則化器は、非フレキシブルかつ非凸であるなどの欠点がある。 これらの問題を克服するために,関数空間における凸正規化器である明示的な関数正規化を提案する。 提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることで,サンプル効率と性能が向上することを示した。

Bootstrapping is behind much of the successes of Deep Reinforcement Learning. However, learning the value function via bootstrapping often leads to unstable training due to fast-changing target values. Target Networks are employed to stabilize training by using an additional set of lagging parameters to estimate the target values. Despite the popularity of Target Networks, their effect on the optimization is still misunderstood. In this work, we show that they act as an implicit regularizer. This regularizer has disadvantages such as being inflexible and non convex. To overcome these issues, we propose an explicit Functional Regularization that is a convex regularizer in function space and can easily be tuned. We analyze the convergence of our method theoretically and empirically demonstrate that replacing Target Networks with the more theoretically grounded Functional Regularization approach leads to better sample efficiency and performance improvements.
翻訳日:2024-01-04 17:18:03 公開日:2024-01-03
# ランク縮小カルマンフィルタ : 高次元における近似動的低ランクフィルタリング

The Rank-Reduced Kalman Filter: Approximate Dynamical-Low-Rank Filtering In High Dimensions ( http://arxiv.org/abs/2306.07774v3 )

ライセンス: Link先を確認
Jonathan Schmidt, Philipp Hennig, J\"org Nick, Filip Tronarp(参考訳) 高次元力学系の文脈における推論とシミュレーションは、計算的に難しい問題のままである。 いくつかの次元還元は、問題を一般に引き出すのに必要である。 本稿では,共分散行列の低ランク近似を伝播する新しい近似ガウスフィルタ・平滑化法を提案する。 これは、予測ステップに関連するリアプノフ方程式を低ランク行列の多様体に投影し、最近開発された数値的に安定な動的低ランク積分器によって解かれる。 一方、共分散更新は共分散行列の列空間のみを変換し、構成によりランクが低いことを指摘して、更新ステップを扱いやすくする。 このアルゴリズムは、共分散行列の低ランク近似が確率的ではなく決定論的であるという点において、既存のアンサンブルに基づくアプローチと差別化する。 これにより、低ランク次元が問題の真の次元に近づくにつれて、正確なカルマンフィルタを再現することができる。 本手法は,(カルマンフィルタの場合)立方体から最悪の場合の状態空間サイズにおける \emph{quadratic} までの計算複雑性を低減し,状態空間モデルが一定の条件を満たす場合に \emph{linear} の複雑性を実現する。 古典的データ同化と時空間回帰の一連の実験を通じて,提案手法は平均誤差と正確なカルマンフィルタに対する共変性の観点から,アンサンブルに基づく手法を一貫して上回っていることを示す。 これは漸近的な計算の複雑さに関して追加のコストを伴わない。

Inference and simulation in the context of high-dimensional dynamical systems remain computationally challenging problems. Some form of dimensionality reduction is required to make the problem tractable in general. In this paper, we propose a novel approximate Gaussian filtering and smoothing method which propagates low-rank approximations of the covariance matrices. This is accomplished by projecting the Lyapunov equations associated with the prediction step to a manifold of low-rank matrices, which are then solved by a recently developed, numerically stable, dynamical low-rank integrator. Meanwhile, the update steps are made tractable by noting that the covariance update only transforms the column space of the covariance matrix, which is low-rank by construction. The algorithm differentiates itself from existing ensemble-based approaches in that the low-rank approximations of the covariance matrices are deterministic, rather than stochastic. Crucially, this enables the method to reproduce the exact Kalman filter as the low-rank dimension approaches the true dimensionality of the problem. Our method reduces computational complexity from cubic (for the Kalman filter) to \emph{quadratic} in the state-space size in the worst-case, and can achieve \emph{linear} complexity if the state-space model satisfies certain criteria. Through a set of experiments in classical data-assimilation and spatio-temporal regression, we show that the proposed method consistently outperforms the ensemble-based methods in terms of error in the mean and covariance with respect to the exact Kalman filter. This comes at no additional cost in terms of asymptotic computational complexity.
翻訳日:2024-01-04 17:12:17 公開日:2024-01-03
# 双曲グラフ拡散モデル

Hyperbolic Graph Diffusion Model ( http://arxiv.org/abs/2306.07618v3 )

ライセンス: Link先を確認
Lingfeng Wen, Xuan Tang, Mingjie Ouyang, Xiangxiang Shen, Jian Yang, Daxin Zhu, Mingsong Chen, Xian Wei(参考訳) 拡散生成モデル(DM)は画像およびグラフ生成において有望な結果を得た。 しかし、ソーシャルネットワーク、分子グラフ、交通グラフといった現実世界のグラフは、一般に非ユークリッド位相と隠れ階層を共有する。 例えば、グラフの次数分布は、ほとんどがパワーロー分布である。 現在の潜在拡散モデルは、ユークリッド空間に階層的データを埋め込むことで歪みを生じさせ、分布のモデル化に干渉する。 その代わり、双曲空間は指数的な成長特性のために複雑な階層構造を捉えるのにより適していることが判明した。 本研究では,拡散モデルのデータ生成機能と,遅延階層分布の抽出にハイパーボリック埋め込みを同時に利用するために,ハイパーボリックグラフ拡散モデル (HGDM) と呼ばれる,ノードを連続したハイパーボリック埋め込みにエンコードするオートエンコーダと,ハイパーボリック潜在空間で動作するDMとを組み合わせたグラフ生成手法を提案する。 hgdmはエッジ情報を含む双曲ポテンシャルノード空間を構築することによって重要なグラフ構造分布をキャプチャする。 大規模な実験により、HGDMはグラフと分子生成のベンチマークにおいて、高度に階層的な構造を持つグラフ生成の品質を4,8\%改善した。

Diffusion generative models (DMs) have achieved promising results in image and graph generation. However, real-world graphs, such as social networks, molecular graphs, and traffic graphs, generally share non-Euclidean topologies and hidden hierarchies. For example, the degree distributions of graphs are mostly power-law distributions. The current latent diffusion model embeds the hierarchical data in a Euclidean space, which leads to distortions and interferes with modeling the distribution. Instead, hyperbolic space has been found to be more suitable for capturing complex hierarchical structures due to its exponential growth property. In order to simultaneously utilize the data generation capabilities of diffusion models and the ability of hyperbolic embeddings to extract latent hierarchical distributions, we propose a novel graph generation method called, Hyperbolic Graph Diffusion Model (HGDM), which consists of an auto-encoder to encode nodes into successive hyperbolic embeddings, and a DM that operates in the hyperbolic latent space. HGDM captures the crucial graph structure distributions by constructing a hyperbolic potential node space that incorporates edge information. Extensive experiments show that HGDM achieves better performance in generic graph and molecule generation benchmarks, with a $48\%$ improvement in the quality of graph generation with highly hierarchical structures.
翻訳日:2024-01-04 17:11:50 公開日:2024-01-03
# 対立、悪役、解決:物語メディアフレーミングのモデルに向けて

Conflicts, Villains, Resolutions: Towards models of Narrative Media Framing ( http://arxiv.org/abs/2306.02052v2 )

ライセンス: Link先を確認
Lea Frermann, Jiatong Li, Shima Khanehzar, Gosia Mikolajczak(参考訳) nlpにおけるメディアフレームの自動検出への関心は高まっているが、問題は典型的にはシングルラベル分類として単純化され、フレームに関するトピックライクな視点を採用し、より広範な文書レベルの物語をモデル化することを避けている。 本研究では,コミュニケーション科学におけるフラーミングの概念化を再考し,対立や解決を含む物語の要素を明示的に捉え,ヒーローや被害者,悪役として物語の重要な実体のフラーミングと統合する。 我々は、複雑なアノテーションタスクを一連の単純な二分問題に分解する効果的なアノテーションパラダイムを適応し、英語ニュース記事の注釈付きデータセットと、政治分野のニュースメディアからの記事における気候変動のフレーミングに関するケーススタディを提示する。 最後に,教師付きおよび半教師付きアプローチによるフレームの自動マルチラベル予測について検討し,その予測において有効かつ透明な検索ベース手法を提案する。 ナラティブフレーミングの文書レベルモデルに関する今後の作業の機会と課題を議論して締めくくった。

Despite increasing interest in the automatic detection of media frames in NLP, the problem is typically simplified as single-label classification and adopts a topic-like view on frames, evading modelling the broader document-level narrative. In this work, we revisit a widely used conceptualization of framing from the communication sciences which explicitly captures elements of narratives, including conflict and its resolution, and integrate it with the narrative framing of key entities in the story as heroes, victims or villains. We adapt an effective annotation paradigm that breaks a complex annotation task into a series of simpler binary questions, and present an annotated data set of English news articles, and a case study on the framing of climate change in articles from news outlets across the political spectrum. Finally, we explore automatic multi-label prediction of our frames with supervised and semi-supervised approaches, and present a novel retrieval-based method which is both effective and transparent in its predictions. We conclude with a discussion of opportunities and challenges for future work on document-level models of narrative framing.
翻訳日:2024-01-04 17:11:26 公開日:2024-01-03
# 感度サンプリング$\ell_p$のシャープ境界

Sharper Bounds for $\ell_p$ Sensitivity Sampling ( http://arxiv.org/abs/2306.00732v2 )

ライセンス: Link先を確認
David P. Woodruff, Taisuke Yasuda(参考訳) 大規模な機械学習において、ランダムサンプリングは、サンプルの小さな代表部分集合によってデータセットを近似する一般的な方法である。 特に、感度サンプリングは、非常に一般的な設定でvc次元 $d$ と総感度 $\mathfrak s$ の積に例の数を減少させながら、近似の質を証明可能な保証を提供する、非常に研究された技術である。 しかし、この一般的な境界である$\mathfrak s d$ を超える保証は、以前の仕事における感度サンプリングの徹底的な研究にもかかわらず、$\ell_2$ 部分空間埋め込みに対しておそらく1つの設定で知られている。 本研究では,$\ell_p$部分空間埋め込みに対する感度サンプリングの最初の境界を$p > 2$で示し,一般的な$\mathfrak s d$バウンドよりも改善し,約$\mathfrak s^{2-2/p}$を$<p<\infty$。 さらに,本手法はサンプリングアルゴリズムの研究においてさらに新たな結果をもたらし,ルートレバレッジスコアサンプリングアルゴリズムが約$d$1\leq p<2$,レバレッジスコアと感度サンプリングの組み合わせで約$d^{2/p}\mathfrak S^{2-4/p}$2<p<\infty$とした。 感度サンプリングの結果、$\ell_p$の感度の小さい構造行列の最もよく知られたサンプル複雑性が得られる。

In large scale machine learning, random sampling is a popular way to approximate datasets by a small representative subset of examples. In particular, sensitivity sampling is an intensely studied technique which provides provable guarantees on the quality of approximation, while reducing the number of examples to the product of the VC dimension $d$ and the total sensitivity $\mathfrak S$ in remarkably general settings. However, guarantees going beyond this general bound of $\mathfrak S d$ are known in perhaps only one setting, for $\ell_2$ subspace embeddings, despite intense study of sensitivity sampling in prior work. In this work, we show the first bounds for sensitivity sampling for $\ell_p$ subspace embeddings for $p > 2$ that improve over the general $\mathfrak S d$ bound, achieving a bound of roughly $\mathfrak S^{2-2/p}$ for $2<p<\infty$. Furthermore, our techniques yield further new results in the study of sampling algorithms, showing that the root leverage score sampling algorithm achieves a bound of roughly $d$ for $1\leq p<2$, and that a combination of leverage score and sensitivity sampling achieves an improved bound of roughly $d^{2/p}\mathfrak S^{2-4/p}$ for $2<p<\infty$. Our sensitivity sampling results yield the best known sample complexity for a wide class of structured matrices that have small $\ell_p$ sensitivity.
翻訳日:2024-01-04 17:11:08 公開日:2024-01-03
# Emotion Gesture: 音声駆動の逆感情型3Dジェスチャー生成

EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture Generation ( http://arxiv.org/abs/2305.18891v2 )

ライセンス: Link先を確認
Xingqun Qi, Chen Liu, Lincheng Li, Jie Hou, Haoran Xin, Xin Yu(参考訳) 鮮明で多様な3次元音声合成ジェスチャの生成は,仮想アバターのアニメーション化に不可欠である。 既存の方法の多くは、直接音声からジェスチャーを生成することができるが、感情が真の共同音声ジェスチャー生成の重要な要素の1つであることを見逃している。 本研究では,視覚的かつ多様な感情的な3Dジェスチャーを音声から合成する新しいフレームワークであるEmotionGestureを提案する。 音声のリズミカルビートに感情が絡み合うことを考えると、まず感情と音響ビートの特徴を抽出し、テキストベースの視覚リズムアライメントによって相関をモデル化する感情-ビートマイニングモジュール(EBM)を開発する。 次に,初期ポーズから将来のジェスチャーを生成するために,初期ポーズに基づく時空間プロンプタ(STP)を提案する。 STPは、初期ポーズと将来のジェスチャーの空間的時間的相関を効果的にモデル化し、空間的時間的コヒーレントなポーズプロンプトを生成する。 ポーズのプロンプト、感情、オーディオビート機能を得たら、トランスフォーマーアーキテクチャを通じて3d共同ジェスチャーを生成します。 しかし、既存のデータセットのポーズがジッタリング効果を含むことを考えると、不安定なジェスチャーが発生する。 この問題に対処するため,我々はモーションスムース損失と呼ばれる効果的な目的関数を提案する。 具体的には,動作オフセットをモデル化し,ジェスチャを滑らかにすることで地中を散らかすことを補う。 最後に、感情条件付きVAEを用いて感情特徴をサンプリングし、多様な感情結果を生成する。 広範な実験によって、我々のフレームワークは最先端を上回っており、鮮やかで多様な感情的な3dジェスチャを実現しています。 私たちのコードとデータセットはプロジェクトのページでリリースされます。

Generating vivid and diverse 3D co-speech gestures is crucial for various applications in animating virtual avatars. While most existing methods can generate gestures from audio directly, they usually overlook that emotion is one of the key factors of authentic co-speech gesture generation. In this work, we propose EmotionGesture, a novel framework for synthesizing vivid and diverse emotional co-speech 3D gestures from audio. Considering emotion is often entangled with the rhythmic beat in speech audio, we first develop an Emotion-Beat Mining module (EBM) to extract the emotion and audio beat features as well as model their correlation via a transcript-based visual-rhythm alignment. Then, we propose an initial pose based Spatial-Temporal Prompter (STP) to generate future gestures from the given initial poses. STP effectively models the spatial-temporal correlations between the initial poses and the future gestures, thus producing the spatial-temporal coherent pose prompt. Once we obtain pose prompts, emotion, and audio beat features, we will generate 3D co-speech gestures through a transformer architecture. However, considering the poses of existing datasets often contain jittering effects, this would lead to generating unstable gestures. To address this issue, we propose an effective objective function, dubbed Motion-Smooth Loss. Specifically, we model motion offset to compensate for jittering ground-truth by forcing gestures to be smooth. Last, we present an emotion-conditioned VAE to sample emotion features, enabling us to generate diverse emotional results. Extensive experiments demonstrate that our framework outperforms the state-of-the-art, achieving vivid and diverse emotional co-speech 3D gestures. Our code and dataset will be released at the project page: https://xingqunqi-lab.github.io/Emotion-Gesture-Web/
翻訳日:2024-01-04 17:10:14 公開日:2024-01-03
# 脳腫瘍分離(BraTS)チャレンジ2023:小児(CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs)に焦点を当てて

The Brain Tumor Segmentation (BraTS) Challenge 2023: Focus on Pediatrics (CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs) ( http://arxiv.org/abs/2305.17033v3 )

ライセンス: Link先を確認
Anahita Fathi Kazerooni, Nastaran Khalili, Xinyang Liu, Debanjan Haldar, Zhifan Jiang, Syed Muhammed Anwar, Jake Albrecht, Maruf Adewole, Udunna Anazodo, Hannah Anderson, Sina Bagheri, Ujjwal Baid, Timothy Bergquist, Austin J. Borja, Evan Calabrese, Verena Chung, Gian-Marco Conte, Farouk Dako, James Eddy, Ivan Ezhov, Ariana Familiar, Keyvan Farahani, Shuvanjan Haldar, Juan Eugenio Iglesias, Anastasia Janas, Elaine Johansen, Blaise V Jones, Florian Kofler, Dominic LaBella, Hollie Anne Lai, Koen Van Leemput, Hongwei Bran Li, Nazanin Maleki, Aaron S McAllister, Zeke Meier, Bjoern Menze, Ahmed W Moawad, Khanak K Nandolia, Julija Pavaine, Marie Piraud, Tina Poussaint, Sanjay P Prabhu, Zachary Reitman, Andres Rodriguez, Jeffrey D Rudie, Ibraheem Salman Shaikh, Lubdha M. Shah, Nakul Sheth, Russel Taki Shinohara, Wenxin Tu, Karthik Viswanathan, Chunhao Wang, Jeffrey B Ware, Benedikt Wiestler, Walter Wiggins, Anna Zapaishchykova, Mariam Aboian, Miriam Bornhorst, Peter de Blank, Michelle Deutsch, Maryam Fouladi, Lindsey Hoffman, Benjamin Kann, Margot Lazow, Leonie Mikael, Ali Nabavizadeh, Roger Packer, Adam Resnick, Brian Rood, Arastoo Vossough, Spyridon Bakas, Marius George Linguraru(参考訳) 小児の中枢神経系腫瘍は、小児のがん関連死の最も一般的な原因である。 小児の高次グリオーマに対する5年間の生存率は20\%未満である。 希少性のため、診断が遅れることが多く、治療は主に歴史的治療の概念に基づいており、臨床試験には複数施設の協力が必要である。 MICCAI Brain tumor Segmentation (BraTS) Challengeは、成人グリオーマのセグメンテーションと分析のための12年間の歴史を持つ、目覚ましいコミュニティベンチマークイベントである。 本稿では,小児の脳腫瘍に対する最初のbratsチャレンジであるcbtn-connect-dipgr-asnr-miccai brats-peds 2023 challengeについて述べる。 brats-peds 2023 チャレンジは、brats 2023 クラスタ全体で使用される標準化された定量的性能評価指標を用いて、小児脳グリオーマの体積分節化アルゴリズムの開発をベンチマークすることに焦点を当てている。 BraTS-PEDsマルチパラメトリック構造MRI(mpMRI)トレーニングデータから知識を得たモデルは、高次小児グリオーマの別個の検証と未確認検査mpMRIデータに基づいて評価される。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023チャレンジは、臨床治験に役立つ自動セグメンテーション技術の開発と、最終的には脳腫瘍の子どものケアにつながる。

Pediatric tumors of the central nervous system are the most common cause of cancer-related death in children. The five-year survival rate for high-grade gliomas in children is less than 20\%. Due to their rarity, the diagnosis of these entities is often delayed, their treatment is mainly based on historic treatment concepts, and clinical trials require multi-institutional collaborations. The MICCAI Brain Tumor Segmentation (BraTS) Challenge is a landmark community benchmark event with a successful history of 12 years of resource creation for the segmentation and analysis of adult glioma. Here we present the CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge, which represents the first BraTS challenge focused on pediatric brain tumors with data acquired across multiple international consortia dedicated to pediatric neuro-oncology and clinical trials. The BraTS-PEDs 2023 challenge focuses on benchmarking the development of volumentric segmentation algorithms for pediatric brain glioma through standardized quantitative performance evaluation metrics utilized across the BraTS 2023 cluster of challenges. Models gaining knowledge from the BraTS-PEDs multi-parametric structural MRI (mpMRI) training data will be evaluated on separate validation and unseen test mpMRI dataof high-grade pediatric glioma. The CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge brings together clinicians and AI/imaging scientists to lead to faster development of automated segmentation techniques that could benefit clinical trials, and ultimately the care of children with brain tumors.
翻訳日:2024-01-04 17:09:42 公開日:2024-01-03
# 量子ウォークフレームワークにおけるニュートリノ振動に対するオープンシステムアプローチ

Open system approach to Neutrino oscillations in a quantum walk framework ( http://arxiv.org/abs/2305.13923v2 )

ライセンス: Link先を確認
Himanshu Sahu, C. M. Chandrashekar(参考訳) 量子シミュレーションは、量子現象が系の振る舞いを定義するような化学、凝縮物質物理学、高エネルギー物理学の多くの問題をモデル化し研究するための計算可能なアプローチを提供する。 高エネルギー物理学では、ゲージ理論とその動的問題、トポロジカル問題、高バリオン密度配置、あるいは集団ニュートリノ振動への応用に関して、かなり多くの応用が研究されている。 特に、量子ウォークフレームワークを用いてニュートリノ振動をシミュレーションするためのスキームを提案する。 本研究では,オープン量子系の観点からニュートリノ振動をシミュレーションする問題に,量子ウォークの位置空間を環境として扱うことでアプローチする。 ニュートリノのフレーバー変化のダイナミクスを表すために, クラウス作用素に対して, 還元されたコイン状態の形で再帰関係を得た。 還元されたコイン状態とニュートリノ現象学のダイナミクスの関連性を確立し、与えられたニュートリノ実験のシミュレーションパラメータを固定し、ニュートリノ振動をシミュレートするための拡張位置空間の必要性を低減する。 また,同じ枠組みにおける異なるフレーバー間の絡み合いの尺度として線形エントロピーの挙動を検討した。

Quantum simulation provides a computationally-feasible approach to model and study many problems in chemistry, condensed-matter physics, or high-energy physics where quantum phenomenon define the systems behaviour. In high-energy physics, quite a few possible applications are investigated in the context of gauge theories and their application to dynamic problems, topological problems, high-baryon density configurations, or collective neutrino oscillations. In particular, schemes for simulating neutrino oscillations are proposed using a quantum walk framework. In this study, we approach the problem of simulating neutrino oscillation from the perspective of open quantum systems by treating the position space of quantum walk as environment. We have obtained the recurrence relation for Kraus operator which is used to represent the dynamics of the neutrino flavor change in the form of reduced coin states. We establish a connection between the dynamics of reduced coin state and neutrino phenomenology, enabling one to fix the simulation parameters for a given neutrino experiment and reduces the need for extended position space to simulate neutrino oscillations. We have also studied the behavior of linear entropy as a measure of entanglement between different flavors in the same framework.
翻訳日:2024-01-04 17:09:11 公開日:2024-01-03
# フェアネスの名において:臨床記録の同定におけるバイアスの評価

In the Name of Fairness: Assessing the Bias in Clinical Record De-identification ( http://arxiv.org/abs/2305.11348v2 )

ライセンス: Link先を確認
Yuxin Xiao, Shulammite Lim, Tom Joseph Pollard, Marzyeh Ghassemi(参考訳) オープンサイエンスと再現可能な研究にはデータ共有が不可欠であるが、臨床データの法的共有には、電子健康記録から保護された健康情報を取り除く必要がある。 このプロセスはde-identificationとして知られ、多くの商用およびオープンソースシステムで機械学習アルゴリズムを使用することでしばしば達成される。 これらのシステムは, 平均的に有意な結果を示しているが, 異なる集団間での成績のばらつきについては, 十分に検討されていない。 本研究は, 大規模実験分析を用いて, 臨床メモにおける名前の同定システムに対するバイアスについて検討する。 これを実現するために、性別、人種、名前の人気、そして人気の10年という4つの年齢層で異なる16の名前セットを作成します。 それらの名称を手作業による治験テンプレート100個に挿入し,9つの公衆・個人識別手法の性能評価を行った。 以上の結果から,ほとんどの方法において,統計学的に有意な性能差があることが判明した。 さらに, 名前, 性別, 臨床ノートの特徴において, 脱識別品質がポリセミーの影響を受けていることを示す。 特定されたギャップを緩和するために,臨床状況と多様な名前の微調整による簡易かつ方法に依存しない解法を提案する。 全体としては、下流の利害関係者がすべての人口構成政党に公平にサービスを提供する高品質なシステムを構築することができるように、既存の方法のバイアスに即座に対処することが不可欠である。

Data sharing is crucial for open science and reproducible research, but the legal sharing of clinical data requires the removal of protected health information from electronic health records. This process, known as de-identification, is often achieved through the use of machine learning algorithms by many commercial and open-source systems. While these systems have shown compelling results on average, the variation in their performance across different demographic groups has not been thoroughly examined. In this work, we investigate the bias of de-identification systems on names in clinical notes via a large-scale empirical analysis. To achieve this, we create 16 name sets that vary along four demographic dimensions: gender, race, name popularity, and the decade of popularity. We insert these names into 100 manually curated clinical templates and evaluate the performance of nine public and private de-identification methods. Our findings reveal that there are statistically significant performance gaps along a majority of the demographic dimensions in most methods. We further illustrate that de-identification quality is affected by polysemy in names, gender context, and clinical note characteristics. To mitigate the identified gaps, we propose a simple and method-agnostic solution by fine-tuning de-identification methods with clinical context and diverse names. Overall, it is imperative to address the bias in existing methods immediately so that downstream stakeholders can build high-quality systems to serve all demographic parties fairly.
翻訳日:2024-01-04 17:08:40 公開日:2024-01-03
# 音声におけるロバストプライバシー保護のための逆表現学習

Adversarial Representation Learning for Robust Privacy Preservation in Audio ( http://arxiv.org/abs/2305.00011v2 )

ライセンス: Link先を確認
Shayan Gharib, Minh Tran, Diep Luong, Konstantinos Drossos, Tuomas Virtanen(参考訳) 音響イベント検出システムは、監視や環境監視といった様々なアプリケーションで広く使用されており、データは自動的に収集され、処理され、クラウドに送信される。 しかし、このプロセスは必然的にユーザーや周囲に関する機密情報を開示し、プライバシー上の懸念を引き起こす可能性がある。 本研究では,音声録音の潜在的特徴から音声活動の検出を効果的に防止する,音声録音の表現を学習するための新しい学習手法を提案する。 提案手法は,非音声録音と音声分類器では区別できない音声録音の不変な潜在表現を生成するようにモデルを訓練する。 私たちの研究の目新しさは最適化アルゴリズムにあり、音声分類器の重みは教師付きで訓練された分類器の重みに定期的に置き換えられる。 これにより、対向訓練中に常に音声分類器の識別能力を高め、対向訓練ループの外で訓練された新しい音声分類器を用いても、発話が識別できない潜在表現を生成する動機付けとなる。 提案手法は,プライバシ対策が不要なベースラインアプローチと,プライバシ違反がベースラインアプローチに比べて有意に低減する先行的敵訓練手法に対して評価を行う。 また,本手法は,本手法では効果的ではないことを示す。

Sound event detection systems are widely used in various applications such as surveillance and environmental monitoring where data is automatically collected, processed, and sent to a cloud for sound recognition. However, this process may inadvertently reveal sensitive information about users or their surroundings, hence raising privacy concerns. In this study, we propose a novel adversarial training method for learning representations of audio recordings that effectively prevents the detection of speech activity from the latent features of the recordings. The proposed method trains a model to generate invariant latent representations of speech-containing audio recordings that cannot be distinguished from non-speech recordings by a speech classifier. The novelty of our work is in the optimization algorithm, where the speech classifier's weights are regularly replaced with the weights of classifiers trained in a supervised manner. This increases the discrimination power of the speech classifier constantly during the adversarial training, motivating the model to generate latent representations in which speech is not distinguishable, even using new speech classifiers trained outside the adversarial training loop. The proposed method is evaluated against a baseline approach with no privacy measures and a prior adversarial training method, demonstrating a significant reduction in privacy violations compared to the baseline approach. Additionally, we show that the prior adversarial method is practically ineffective for this purpose.
翻訳日:2024-01-04 17:07:23 公開日:2024-01-03
# OriCon3D: オリエンテーションと信頼を用いた効果的な3次元オブジェクト検出

OriCon3D: Effective 3D Object Detection using Orientation and Confidence ( http://arxiv.org/abs/2304.14484v3 )

ライセンス: Link先を確認
Dhyey Manish Rajani, Surya Pratap Singh, Rahul Kashyap Swayampakula(参考訳) 本稿では,3次元物体検出のための高度手法と,その空間位置を1枚の画像から高精度に推定する手法を提案する。 中心点と次元の予測のみに依存する従来のフレームワークとは異なり、我々の研究は深層畳み込みニューラルネットワークに基づく3Dオブジェクト重み付け指向回帰パラダイムを活用する。 これらの推定は、2D境界ボックスから得られる幾何学的制約とシームレスに統合され、3D境界ボックスを導出する。 我々の新しいネットワーク設計は2つの重要な出力を含んでいる。 最初の出力は、離散連続損失関数の利用による3次元物体の向きの推定を含む。 同時に、第2の出力は、最小分散で客観性に基づく信頼度を予測する。 さらに, 軽量残像抽出器の導入による方法論の強化も導入した。 導出された推定値と2次元境界ボックスに固有の幾何学的制約を組み合わせることで,ベースライン法を超越した3次元オブジェクトポーズ決定の精度を大幅に向上する。 提案手法は,KITTI 3Dオブジェクト検出ベンチマークで厳密に評価され,優れた性能を示す。

In this paper, we propose an advanced methodology for the detection of 3D objects and precise estimation of their spatial positions from a single image. Unlike conventional frameworks that rely solely on center-point and dimension predictions, our research leverages a deep convolutional neural network-based 3D object weighted orientation regression paradigm. These estimates are then seamlessly integrated with geometric constraints obtained from a 2D bounding box, resulting in derivation of a comprehensive 3D bounding box. Our novel network design encompasses two key outputs. The first output involves the estimation of 3D object orientation through the utilization of a discrete-continuous loss function. Simultaneously, the second output predicts objectivity-based confidence scores with minimal variance. Additionally, we also introduce enhancements to our methodology through the incorporation of lightweight residual feature extractors. By combining the derived estimates with the geometric constraints inherent in the 2D bounding box, our approach significantly improves the accuracy of 3D object pose determination, surpassing baseline methodologies. Our method is rigorously evaluated on the KITTI 3D object detection benchmark, demonstrating superior performance.
翻訳日:2024-01-04 17:07:00 公開日:2024-01-03
# ヤンミル方程式に基づく角運動波の予測

Predicting Angular-Momentum Waves Based on Yang-Mills Equations ( http://arxiv.org/abs/2304.12625v5 )

ライセンス: Link先を確認
Xing-Yan Fan, Xiang-Ru Xie, and Jing-Ling Chen(参考訳) 物理学における最もエレガントな理論の1つとして、yang-mills (ym) 理論はマクスウェルの方程式を電磁気学に統一するだけでなく、電弱と強い相互作用を簡潔に説明する標準模型を基礎としている。 ポテンシャルと場の相互作用を含むym方程式の非常に非線形な項はそれらの分解を遅らせる。 u(1)$の場合、マクスウェル方程式の解は、世界中の現代の通信ネットワークで広く適用されている電磁波である。 同様に、弱結合と零結合の仮定の下でのym方程式の作用素解は、この研究の原点である$su(2)$ angular-momentum波を予測する。 このような角運動量波は、ディラックの電子の 'spin Zitterbewegung'' のようなスピン角運動量の振動によって実験で実現されることが望まれる。

As one of the most elegant theories in physics, Yang-Mills (YM) theory not only incorporates Maxwell's equations unifying electromagnetism, but also underpins the standard model explaining the electroweak and strong interactions in a succinct way. Whereas the highly nonlinear terms in YM equations involving the interactions between potentials and fields retard the resolution for them. In the $U(1)$ case, the solutions of Maxwell's equations are the electromagnetic waves, which have been applied extensively in the modern communication networks all over the world. Likewise the operator solutions of the YM equations under the assumptions of weak-coupling and zero-coupling predict the $SU(2)$ angular-momentum waves, which is the staple of this work. Such angular-momentum waves are hopefully realized in the experiments through the oscillations of spin angular momentum, such as the ``spin Zitterbewegung'' of Dirac's electron.
翻訳日:2024-01-04 17:06:41 公開日:2024-01-03
# Einstein-Podolsky-Rosen ステアリングの一方向フィルタ

Filtering one-way Einstein-Podolsky-Rosen steering ( http://arxiv.org/abs/2304.04210v3 )

ライセンス: Link先を確認
Ze-Yan Hao, Yan Wang, Jia-Kun Li, Yu Xiang, Qiong-Yi He, Zheng-Hao Liu, Mu Yang, Kai Sun, Jin-Shi Xu, Chuan-Feng Li, and Guang-Can Guo(参考訳) EPR(Einstein-Podolsky-Rosen)ステアリング(EPR)は、量子非局所性の基本概念であり、ある観測者が別の観測者の状態に局所的な測定でリモートで影響する能力を記述する。 対称量子相関と関連する量子絡み合いやベル非局所性とは異なり、EPRステアリングは量子非局所性のユニークな非対称性を表す。 システム成分が廃棄される局所フィルタ演算により、量子非局所性を蒸留して非局所相関を強化することができ、隠れた非局所性も活性化することができる。 しかしながら、フィルタ演算における非対称な量子非局所性は、特に量子非局所相関が確率で存在する可能性のある破棄された部分を考えると、十分に取り調べられた研究を欠いている。 ここで, 理論と実験の両方において, 局所フィルタから廃棄粒子を再利用する効果について検討する。 EPRステアリングのすべての構成を同時に観察し、一方方向のEPRステアリングの方向を反転させるなど、非対称な量子非局所性の興味深い進化を観察する。 この研究は、「量子ステアリングをリソースとして利用する上で不可欠な役割は何か?」と答える視点を提供し、量子情報タスクにおいて有意義な応用を持つ非対称量子システムを操作するための実用的なツールボックスを実証する。

Einstein-Podolsky-Rosen (EPR) steering, a fundamental concept of quantum nonlocality, describes one observer's capability to remotely affect another distant observer's state by local measurements. Unlike quantum entanglement and Bell nonlocality, both associated with the symmetric quantum correlation, EPR steering depicts the unique asymmetric property of quantum nonlocality. With the local filter operation in which some system components are discarded, quantum nonlocality can be distilled to enhance the nonlocal correlation, and even the hidden nonlocality can be activated. However, asymmetric quantum nonlocality in the filter operation still lacks a well-rounded investigation, especially considering the discarded parts where quantum nonlocal correlations may still exist with probabilities. Here, in both theory and experiment, we investigate the effect of reusing the discarded particles from local filter. We observe all configurations of EPR steering simultaneously and other intriguing evolution of asymmetric quantum nonlocality, such as reversing the direction of one-way EPR steering. This work provides a perspective to answer "What is the essential role of utilizing quantum steering as a resource?", and demonstrates a practical toolbox for manipulating asymmetric quantum systems with significant potential applications in quantum information tasks.
翻訳日:2024-01-04 17:06:23 公開日:2024-01-03
# 計測シャープネスと外乱トレードオフ

Measurement sharpness and disturbance tradeoff ( http://arxiv.org/abs/2308.04133v2 )

ライセンス: Link先を確認
Nayere Saberian, Seyed Javad Akhtarshenas, and Fereshte Shahbeigi(参考訳) 測定によって量子システムから情報を取得すると、通常は状態が乱される。 しかしながら、与えられた測定のための測定後の状態は一意ではなく、選択された測定モデルに非常に依存しており、情報不足のパズルを複雑にしている。 2つの異なる質問が順番に行われる。 第一に、測定が引き起こす最小の障害は何か。 第二に、固定された外乱が発生した場合、最善のシナリオで可能な測定量はどの程度有益か? 本稿では,これらの問題に対処する様々な手法を提案し,ユニタリキュービットチャネルの像と等価な,偏りのないバイナリキュービット測定および後測定状態空間の集合に対する明確な解を提供する。 特に, 測定のシャープネスと測定後状態空間の平均忠実度との間には, 測定が局所的に適用されれば, 測定後状態に保存されたシャープネスと量子資源との間には, 相関関係が異なっていた。

Obtaining information from a quantum system through a measurement typically disturbs its state. The postmeasurement states for a given measurement, however, are not unique and highly rely on the chosen measurement model, complicating the puzzle of information-disturbance. Two distinct questions are then in order. Firstly, what is the minimum disturbance a measurement may induce? Secondly, when a fixed disturbance occurs, how informative is the possible measurement in the best-case scenario? Here, we propose various approaches to tackle these questions and provide explicit solutions for the set of unbiased binary qubit measurements and postmeasurement state spaces that are equivalent to the image of a unital qubit channel. In particular, we show there are different tradeoff relations between the sharpness of this measurement and the average fidelity of the premeasurement and postmeasurement state spaces as well as the sharpness and quantum resources preserved in the postmeasurement states in terms of coherence and discord-like correlation once the measurement is applied locally.
翻訳日:2024-01-04 16:59:19 公開日:2024-01-03
# 量子カーネルを用いた支持ベクトル回帰を用いた半教師付き異常検出

Semisupervised Anomaly Detection using Support Vector Regression with Quantum Kernel ( http://arxiv.org/abs/2308.00583v2 )

ライセンス: Link先を確認
Kilian Tscharke, Sebastian Issel, Pascal Debus(参考訳) 異常検出(AD)は、他のデータから何らかの方法で逸脱する観測や事象を特定することである。 機械学習技術は、大規模データの隠れパターンや偏差を検出することによって、このプロセスを自動化することに成功した。 機械学習のための量子コンピューティングの可能性は広く認識されており、適切な量子機械学習(QML)アルゴリズムを開発するための広範な研究努力につながっている。 特に、NISQデバイスに対するQMLアルゴリズムの探索は、完全に揺れている。 しかし、NISQデバイスは、量子コヒーレンス時間に制限があり、量子ビット数が低く、エラー率が高いため、さらなる課題が生じる。 NISQデバイス上でのQMLに対する有望なアプローチとして量子カーネル推定に基づくカーネル手法が登場し、理論的な保証、汎用性、およびNISQ制約との互換性を提供する。 特に量子カーネル推定を利用したベクトルマシン(SVM)は,様々な教師付き学習タスクで成功を収めている。 しかし、ADの文脈では、半教師あり学習は極めて関連性が高いが、この分野での研究は限られている。 本稿では,量子カーネルによる支持ベクトル回帰(SVR)の再構成損失に基づく半教師付きADへのアプローチを提案する。 この新モデルは変分量子カーネルと量子カーネルの1クラス分類器の代替であり、量子オートエンコーダを量子ベースラインとして、SVRを放射基底関数(RBF)カーネルとし、古典的オートエンコーダを古典的ベースラインとして比較する。 実世界の10のADデータセットと1つの玩具データセットでベンチマークを行い、我々の量子カーネルを用いたSVRモデルはRBFカーネルと他のすべてのモデルよりも優れた性能を示し、全てのデータセットに対して最高平均AUCを達成する。 さらに、我々のqsvrは11のデータセットのうち9の量子オートエンコーダよりも優れています。

Anomaly detection (AD) involves identifying observations or events that deviate in some way from the rest of the data. Machine learning techniques have shown success in automating this process by detecting hidden patterns and deviations in large-scale data. The potential of quantum computing for machine learning has been widely recognized, leading to extensive research efforts to develop suitable quantum machine learning (QML) algorithms. In particular, the search for QML algorithms for near-term NISQ devices is in full swing. However, NISQ devices pose additional challenges due to their limited qubit coherence times, low number of qubits, and high error rates. Kernel methods based on quantum kernel estimation have emerged as a promising approach to QML on NISQ devices, offering theoretical guarantees, versatility, and compatibility with NISQ constraints. Especially support vector machines (SVM) utilizing quantum kernel estimation have shown success in various supervised learning tasks. However, in the context of AD, semisupervised learning is of great relevance, and yet there is limited research published in this area. This paper introduces an approach to semisupervised AD based on the reconstruction loss of a support vector regression (SVR) with quantum kernel. This novel model is an alternative to the variational quantum and quantum kernel one-class classifiers, and is compared to a quantum autoencoder as quantum baseline and a SVR with radial-basis-function (RBF) kernel as well as a classical autoencoder as classical baselines. The models are benchmarked extensively on 10 real-world AD data sets and one toy data set, and it is shown that our SVR model with quantum kernel performs better than the SVR with RBF kernel as well as all other models, achieving highest mean AUC over all data sets. In addition, our QSVR outperforms the quantum autoencoder on 9 out of 11 data sets.
翻訳日:2024-01-04 16:58:59 公開日:2024-01-03
# 残留リカレントネットワークにおける誘導バイアスとしてのフェーディングメモリ

Fading memory as inductive bias in residual recurrent networks ( http://arxiv.org/abs/2307.14823v2 )

ライセンス: Link先を確認
Igor Dubinin, Felix Effenberger(参考訳) バックプロパゲーションアルゴリズムでトレーニングした場合,残余接続がアーキテクチャに基づく帰納バイアスとして提案され,勾配の爆発・消滅の問題と,フィードフォワードおよびリカレントネットワーク(RNN)におけるタスク性能が向上した。 しかし、RNNの残余接続が、そのダイナミクスやメモリ特性に与える影響についてはほとんど分かっていない。 本稿では,弱結合残差再帰ネットワーク(wcrnn)を導入し,残差接続によりリアプノフ指数が明確に定義され,フェージングメモリの特性の研究を可能にする。 WCRNNの残余接続が,一連のベンチマークタスクにおける性能,ネットワークダイナミクス,メモリ特性に与える影響について検討する。 残差接続は,ネットワーク表現性が増大する効果的な帰納的バイアスを生じさせることを示した。 特に、これらは残留接続である。 (i)カオスのエッジに近接してネットワークのダイナミクスが生まれる。 (ii) ネットワークがデータの特徴的スペクトル特性に乗じることができるようにし、 (iii)不均一なメモリ特性をもたらす。 さらに,この結果が非線形残差にどのように拡張できるかを実証し,エルマン RNN に使用できる弱結合残差初期化スキームを導入する。

Residual connections have been proposed as an architecture-based inductive bias to mitigate the problem of exploding and vanishing gradients and increased task performance in both feed-forward and recurrent networks (RNNs) when trained with the backpropagation algorithm. Yet, little is known about how residual connections in RNNs influence their dynamics and fading memory properties. Here, we introduce weakly coupled residual recurrent networks (WCRNNs) in which residual connections result in well-defined Lyapunov exponents and allow for studying properties of fading memory. We investigate how the residual connections of WCRNNs influence their performance, network dynamics, and memory properties on a set of benchmark tasks. We show that several distinct forms of residual connections yield effective inductive biases that result in increased network expressivity. In particular, those are residual connections that (i) result in network dynamics at the proximity of the edge of chaos, (ii) allow networks to capitalize on characteristic spectral properties of the data, and (iii) result in heterogeneous memory properties. In addition, we demonstrate how our results can be extended to non-linear residuals and introduce a weakly coupled residual initialization scheme that can be used for Elman RNNs.
翻訳日:2024-01-04 16:58:27 公開日:2024-01-03
# ウェルログ曲線合成のための効率的な選択的注意LSTM

Efficient selective attention LSTM for well log curve synthesis ( http://arxiv.org/abs/2307.10253v3 )

ライセンス: Link先を確認
Yuankai Zhou, Huanyu Li(参考訳) 非コア掘削は徐々に地質探査工学の主要な探査方法となり、地質情報の主要担体として伐採曲線の重要性が高まっている。 しかし, 地質環境, 伐採装置, ボーリングホール品質, 予期せぬ事象などの要因は, いずれも, 坑井伐採曲線の質に影響を与える可能性がある。 以前の再ログインや手作業による修正の方法は、高いコストと低い効率に関係している。 本稿では,既存のデータを用いて欠落データを予測する機械学習手法を提案し,その有効性と実現可能性についてフィールド実験により検証した。 提案手法は,従来のLong Short-Term Memory (LSTM) ニューラルネットワーク上に,データのシーケンシャルな依存関係を解析するための自己アテンション機構を組み込んだものである。 LSTMにおいて支配的な計算結果を選択し、計算複雑性をO(n^2)からO(nlogn)に減らし、モデル効率を向上させる。 実験の結果,完全結合型ニューラルネットワーク (fcnn) とバニラlstmを用いた従来の曲線合成法と比較して高い精度が得られた。 この正確で効率的でコスト効率の良い予測方法は、工学的応用において実用的な価値を持っている。

Non-core drilling has gradually become the primary exploration method in geological exploration engineering, and well logging curves have increasingly gained importance as the main carriers of geological information. However, factors such as geological environment, logging equipment, borehole quality, and unexpected events can all impact the quality of well logging curves. Previous methods of re-logging or manual corrections have been associated with high costs and low efficiency. This paper proposes a machine learning method that utilizes existing data to predict missing data, and its effectiveness and feasibility have been validated through field experiments. The proposed method builds on the traditional Long Short-Term Memory (LSTM) neural network by incorporating a self-attention mechanism to analyze the sequential dependencies of the data. It selects the dominant computational results in the LSTM, reducing the computational complexity from O(n^2) to O(nlogn) and improving model efficiency. Experimental results demonstrate that the proposed method achieves higher accuracy compared to traditional curve synthesis methods based on Fully Connected Neural Networks (FCNN) and vanilla LSTM. This accurate, efficient, and cost-effective prediction method holds a practical value in engineering applications.
翻訳日:2024-01-04 16:58:08 公開日:2024-01-03
# 周波数応答関数の階層ベイズモデルについて

On the hierarchical Bayesian modelling of frequency response functions ( http://arxiv.org/abs/2307.06263v2 )

ライセンス: Link先を確認
T.A. Dardeno, K. Worden, N. Dervilis, R.S. Mills, L.A. Bull(参考訳) 例えば、類似構造を持つ人口ベースのSHMのようなデータセット間の情報共有の恩恵を受ける場合、階層的ベイズアプローチは有用なモデリング構造を提供する。 階層ベイズモデルは、パラメータ間の統計強度を高めるために、人口(または親)とドメインレベルの統計分布を同時に学習する。 その結果、特にデータが制限された場合、パラメータ推定値のばらつきが低減される。 本稿では, 階層型ベイズ構造を用いて, 名前のついたヘリコプターブレードの少数集団を対象とした確率的FRFモデルを構築し, スパースデータにおける情報伝達を支援する。 モデリングのアプローチは従来のSHMの文脈でも示されており、物理に基づく知識がトレーニングデータを超えた一般化を、希少なデータでどのように改善できるかを示すために、異なる温度に露呈する単一のヘリコプターブレードに対して実証されている。 これらのモデルは、基礎となるダイナミクスの違いとして生じる良性の変化を調節し、ドメイン間の類似性を考慮(および活用)することで、SHMにおける重要な課題に対処する。

For situations that may benefit from information sharing among datasets, e.g., population-based SHM of similar structures, the hierarchical Bayesian approach provides a useful modelling structure. Hierarchical Bayesian models learn statistical distributions at the population (or parent) and the domain levels simultaneously, to bolster statistical strength among the parameters. As a result, variance is reduced among the parameter estimates, particularly when data are limited. In this paper, a combined probabilistic FRF model is developed for a small population of nominally-identical helicopter blades, using a hierarchical Bayesian structure, to support information transfer in the context of sparse data. The modelling approach is also demonstrated in a traditional SHM context, for a single helicopter blade exposed to varying temperatures, to show how the inclusion of physics-based knowledge can improve generalisation beyond the training data, in the context of scarce data. These models address critical challenges in SHM, by accommodating benign variations that present as differences in the underlying dynamics, while also considering (and utilising), the similarities among the domains.
翻訳日:2024-01-04 16:57:46 公開日:2024-01-03
# DLモデルとトレーニング環境はエネルギー消費に影響を及ぼすか?

Do DL models and training environments have an impact on energy consumption? ( http://arxiv.org/abs/2307.05520v3 )

ライセンス: Link先を確認
Santiago del Rey, Silverio Mart\'inez-Fern\'andez, Lu\'is Cruz, Xavier Franch(参考訳) 最近のコンピュータビジョン分野の研究は、深層学習(dl)の正確性と推論時間パフォーマンスの改善に重点を置いている。 しかし、dlモデルをトレーニングする巨大なカーボンフットプリントの作業はまだほとんどありません。 本研究の目的は,グリーンコンピュータビジョンモデルの学習におけるモデルアーキテクチャと学習環境の影響を分析することである。 私たちはこの目標を2つの研究課題に分ける。 まず, 最適レベルに正確性を維持しつつ, グリーンモデル達成に対するモデルアーキテクチャの影響を分析する。 第2に, 学習環境がグリーンモデル形成に及ぼす影響について検討した。 これらの関係を調べるために,モデルのトレーニング中にエネルギー効率とモデルの正しさに関する複数の指標を収集する。 次に,実測エネルギー効率とモデルアーキテクチャに関するモデルの正確性とのトレードオフと,それらの訓練環境との関係について概説する。 我々はこの研究を,画像分類のためのコンピュータビジョンシステムの文脈で実施する。 結論として、適切なモデルアーキテクチャとトレーニング環境を選択することで、無視できるコストでエネルギー消費を劇的に(最大81.38%)削減できることを示す。 また、GPUがよりエネルギー効率を高めるために、モデルの計算複雑性とともにスケールすべきであることを示す。

Current research in the computer vision field mainly focuses on improving Deep Learning (DL) correctness and inference time performance. However, there is still little work on the huge carbon footprint that has training DL models. This study aims to analyze the impact of the model architecture and training environment when training greener computer vision models. We divide this goal into two research questions. First, we analyze the effects of model architecture on achieving greener models while keeping correctness at optimal levels. Second, we study the influence of the training environment on producing greener models. To investigate these relationships, we collect multiple metrics related to energy efficiency and model correctness during the models' training. Then, we outline the trade-offs between the measured energy efficiency and the models' correctness regarding model architecture, and their relationship with the training environment. We conduct this research in the context of a computer vision system for image classification. In conclusion, we show that selecting the proper model architecture and training environment can reduce energy consumption dramatically (up to 81.38%) at the cost of negligible decreases in correctness. Also, we find evidence that GPUs should scale with the models' computational complexity for better energy efficiency.
翻訳日:2024-01-04 16:57:26 公開日:2024-01-03
# 並列アルゴリズムとニューラルネットワークの実行

Parallel Algorithms Align with Neural Execution ( http://arxiv.org/abs/2307.04049v2 )

ライセンス: Link先を確認
Valerie Engelmayer, Dobrik Georgiev, Petar Veli\v{c}kovi\'c(参考訳) ニューラルアルゴリズム推論は並列プロセッサである。 シーケンシャルアルゴリズムを教えることは、この性質に矛盾し、計算のかなりの部分を冗長にする。 しかし、並列アルゴリズムは計算能力をフル活用し、より少ない層の実行を必要とする。 これは、clrsフレームワーク上のシーケンシャルなコンポーネントに対して、検索、ソート、および強結合コンポーネントの並列実装を比較するときに観察されるように、トレーニング時間を劇的に削減する。 さらに、並列バージョンは(しばしば強く)優れた予測性能を達成する。

Neural algorithmic reasoners are parallel processors. Teaching them sequential algorithms contradicts this nature, rendering a significant share of their computations redundant. Parallel algorithms however may exploit their full computational power, therefore requiring fewer layers to be executed. This drastically reduces training times, as we observe when comparing parallel implementations of searching, sorting and finding strongly connected components to their sequential counterparts on the CLRS framework. Additionally, parallel versions achieve (often strongly) superior predictive performance.
翻訳日:2024-01-04 16:56:46 公開日:2024-01-03
# 積分ゆらぎ定理とトレース保存写像

Integral fluctuation theorems and trace-preserving map ( http://arxiv.org/abs/2307.02705v2 )

ライセンス: Link先を確認
Zhiqiang Huang(参考訳) 詳細なゆらぎ定理はエントロピー生成確率の生成関数に関する対称性を意味する。 積分ゆらぎ定理は、この対称性と確率の正規化から直接従う。 本稿では,生成関数を完全正の写像で書き直し,これら構築した写像のトレース保存特性により積分 ft が決定されることを示す。 固有状態変動定理と2つの系間の熱交換を議論することで,この枠組みの利便性を実証する。 この手法は準確率関数の生成にも応用可能であり、petzリカバリマップはこのフレームワークから自然に生じる。 さらに, 変動散逸定理の一般化を研究する上で有用なマルチタイムプロセスの関数生成について, 簡単な議論を行った。

The detailed fluctuation theorem implies the symmetry on the generating function of the entropy production probability. The integral fluctuation theorem follows directly from this symmetry and the normalization of the probability. In this paper, we rewrite the generating function with complete positive maps and show that the integral FT is determined by the trace-preserving property of these constructed maps. We demonstrate the convenience of this framework by discussing the eigenstate fluctuation theorem and heat exchange between two systems. This set of methods is also applicable to generating function of quasi-probability, where we find the Petz recovery map arises naturally from this framework. In addition, we briefly discuss generating functions for multitime processes, which may be helpful in studying generalization of the fluctuation-dissipation theorem.
翻訳日:2024-01-04 16:56:37 公開日:2024-01-03
# CardiGraphormer:創薬革命における自己指導型学習の力

CardiGraphormer: Unveiling the Power of Self-Supervised Learning in Revolutionizing Drug Discovery ( http://arxiv.org/abs/2307.00859v3 )

ライセンス: Link先を確認
Abhijit Gupta(参考訳) 約15,000の既知の薬物と約4,200の承認がある薬発見の世界では、化学空間の組合せの性質は極めて困難である。 人工知能(AI)は強力な同盟国として登場したが、従来のAIフレームワークは大きなハードルに直面している。 この原稿では、自己教師付き学習(SSL)、グラフニューラルネットワーク(GNN)、薬物発見に革命を起こすためのカルディナリティ保存注意を相乗化するための画期的なアプローチであるCardiGraphormerを紹介している。 グラフマーと枢機卿の新たな組み合わせであるcardigraphormerはsslを利用して強力な分子表現を学習し、gnnを使って分子指紋を抽出し、計算時間を短縮しながら予測性能と解釈性を向上させる。 分子構造のような複雑なデータを処理し、ノード、ノードのペア、サブグラフ、グラフ構造全体に関連するタスクを実行する。 CardiGraphormerによる薬物発見と薬物相互作用の潜在的な応用は、新しい薬物標的の同定から薬物と薬物の相互作用の予測、新しい薬物発見の実現まで幅広い。 この革新的なアプローチは、薬物開発においてAIによって強化された方法論を提供し、SSLとGNNを組み合わせて既存の制限を克服し、薬物発見における膨大な組合せ化学空間をより深く探求する道を開く。

In the expansive realm of drug discovery, with approximately 15,000 known drugs and only around 4,200 approved, the combinatorial nature of the chemical space presents a formidable challenge. While Artificial Intelligence (AI) has emerged as a powerful ally, traditional AI frameworks face significant hurdles. This manuscript introduces CardiGraphormer, a groundbreaking approach that synergizes self-supervised learning (SSL), Graph Neural Networks (GNNs), and Cardinality Preserving Attention to revolutionize drug discovery. CardiGraphormer, a novel combination of Graphormer and Cardinality Preserving Attention, leverages SSL to learn potent molecular representations and employs GNNs to extract molecular fingerprints, enhancing predictive performance and interpretability while reducing computation time. It excels in handling complex data like molecular structures and performs tasks associated with nodes, pairs of nodes, subgraphs, or entire graph structures. CardiGraphormer's potential applications in drug discovery and drug interactions are vast, from identifying new drug targets to predicting drug-to-drug interactions and enabling novel drug discovery. This innovative approach provides an AI-enhanced methodology in drug development, utilizing SSL combined with GNNs to overcome existing limitations and pave the way for a richer exploration of the vast combinatorial chemical space in drug discovery.
翻訳日:2024-01-04 16:56:25 公開日:2024-01-03
# LMBot: Twitterボット検出におけるグラフレスデプロイメントのための言語モデルへのグラフ知識の注入

LMBot: Distilling Graph Knowledge into Language Model for Graph-less Deployment in Twitter Bot Detection ( http://arxiv.org/abs/2306.17408v3 )

ライセンス: Link先を確認
Zijian Cai, Zhaoxuan Tan, Zhenyu Lei, Zifeng Zhu, Hongrui Wang, Qinghua Zheng, Minnan Luo(参考訳) 悪役が悪質な情報を拡散し、世論を操作するためにますます進歩し、広く普及しているボットを雇う中、twitterボットの検出は重要な課題となっている。 グラフベースのtwitterボット検出手法は最先端のパフォーマンスを実現していますが、その推論はターゲットから複数ホップ離れた近隣のユーザに依存しており、隣人のフェッチには時間がかかり、バイアスが生じる可能性があります。 同時に、twitterボット検出を微調整した後、事前トレーニングされた言語モデルが競合性能を達成し、デプロイ時にグラフ構造を必要としないことも分かりました。 この発見に触発されて,グラフニューラルネットワーク(gnns)の知識を言語モデル(lms)に抽出し,twitterボット検出にグラフレスデプロイすることにより,データ依存の課題に対処した,新たなボット検出フレームワークlmbotを提案する。 さらに、LMBotはグラフベースおよびグラフレスデータセットと互換性がある。 具体的には、まず各ユーザをテキストシーケンスとして表現し、それらをLMに入力してドメイン適応する。 グラフベースのデータセットでは、LMの出力はGNNの入力機能を提供し、ボットの検出と知識の抽出を反復的かつ相互に強化するプロセスでLMに戻すことができる。 LMと組み合わされたグラフレス推論は、グラフデータの依存性を解消し、バイアス問題をサンプリングする。 グラフ構造を持たないデータセットの場合、GNNをMPPで置き換えるだけで、性能も高い。 実験の結果,LMBotは4つのTwitterボット検出ベンチマークで最先端のパフォーマンスを達成した。 大規模な研究により、LMBotはグラフベースのTwitterボット検出方法よりも堅牢で、汎用的で、効率的であることが示されている。

As malicious actors employ increasingly advanced and widespread bots to disseminate misinformation and manipulate public opinion, the detection of Twitter bots has become a crucial task. Though graph-based Twitter bot detection methods achieve state-of-the-art performance, we find that their inference depends on the neighbor users multi-hop away from the targets, and fetching neighbors is time-consuming and may introduce bias. At the same time, we find that after finetuning on Twitter bot detection, pretrained language models achieve competitive performance and do not require a graph structure during deployment. Inspired by this finding, we propose a novel bot detection framework LMBot that distills the knowledge of graph neural networks (GNNs) into language models (LMs) for graph-less deployment in Twitter bot detection to combat the challenge of data dependency. Moreover, LMBot is compatible with graph-based and graph-less datasets. Specifically, we first represent each user as a textual sequence and feed them into the LM for domain adaptation. For graph-based datasets, the output of LMs provides input features for the GNN, enabling it to optimize for bot detection and distill knowledge back to the LM in an iterative, mutually enhancing process. Armed with the LM, we can perform graph-less inference, which resolves the graph data dependency and sampling bias issues. For datasets without graph structure, we simply replace the GNN with an MLP, which has also shown strong performance. Our experiments demonstrate that LMBot achieves state-of-the-art performance on four Twitter bot detection benchmarks. Extensive studies also show that LMBot is more robust, versatile, and efficient compared to graph-based Twitter bot detection methods.
翻訳日:2024-01-04 16:55:40 公開日:2024-01-03
# LaDe:業界初の総合的最終マイル配送データセット

LaDe: The First Comprehensive Last-mile Delivery Dataset from Industry ( http://arxiv.org/abs/2306.10675v2 )

ライセンス: Link先を確認
Lixia Wu, Haomin Wen, Haoyuan Hu, Xiaowei Mao, Yutong Xia, Ergang Shan, Jianbin Zhen, Junhong Lou, Yuxuan Liang, Liuqing Yang, Roger Zimmermann, Youfang Lin, Huaiyu Wan(参考訳) 実世界のラストマイル配送データセットは、ロジスティクス、サプライチェーン管理、時空間データマイニングの研究に不可欠である。 これまで多くのアルゴリズムが開発されてきたが、この分野の研究を支援するために広く受け入れられたラストマイル配送データセットは存在しない。 本稿では,業界から数百万のパッケージを投入した最初の公開ラストマイル配送データセットである‘texttt{LaDe}’を紹介する。 LaDeには3つの特徴がある。 実世界の運用には6ヶ月で10,677k個の21kクーリエのパッケージが含まれる。 2)総合的な情報。 ロケーションや時間要件といった独自のパッケージ情報に加えて,タスクの受け入れやタスクフィニッシュイベントなどのイベントがいつ,どこで発生したかを記録するタスクイベント情報も提供する。 (3)多様性。 データセットにはパッケージのピックアップや配送など,さまざまなシナリオからのデータや,複数の都市からのデータが含まれています。 タスク毎に複数の古典的なベースラインモデルを実行することで、LaDeを3つのタスクで検証する。 ladeの大規模で包括的で多様な機能は、サプライチェーンコミュニティやデータマイニングコミュニティなどの研究者に、別途の機会を提供することができると考えています。 datasetのホームページはhttps://huggingface.co/datasets/cainiao-ai/ladeで公開されている。

Real-world last-mile delivery datasets are crucial for research in logistics, supply chain management, and spatio-temporal data mining. Despite a plethora of algorithms developed to date, no widely accepted, publicly available last-mile delivery dataset exists to support research in this field. In this paper, we introduce \texttt{LaDe}, the first publicly available last-mile delivery dataset with millions of packages from the industry. LaDe has three unique characteristics: (1) Large-scale. It involves 10,677k packages of 21k couriers over 6 months of real-world operation. (2) Comprehensive information. It offers original package information, such as its location and time requirements, as well as task-event information, which records when and where the courier is while events such as task-accept and task-finish events happen. (3) Diversity. The dataset includes data from various scenarios, including package pick-up and delivery, and from multiple cities, each with its unique spatio-temporal patterns due to their distinct characteristics such as populations. We verify LaDe on three tasks by running several classical baseline models per task. We believe that the large-scale, comprehensive, diverse feature of LaDe can offer unparalleled opportunities to researchers in the supply chain community, data mining community, and beyond. The dataset homepage is publicly available at https://huggingface.co/datasets/Cainiao-AI/LaDe.
翻訳日:2024-01-04 16:54:50 公開日:2024-01-03
# フラッド検出のための動的関係付きグラフニューラルネットワーク

Dynamic Relation-Attentive Graph Neural Networks for Fraud Detection ( http://arxiv.org/abs/2310.04171v3 )

ライセンス: Link先を確認
Heehyeon Kim, Jinhyeok Choi, Joyce Jiyoung Whang(参考訳) 不正検出は、例えば偽レビューを残したり、異常な取引を行ったりすることで、他人を欺いた詐欺師を見つけることを目的としている。 グラフベースの不正検出手法は、このタスクを2つのクラス(詐欺または正常)の分類問題と見なしている。 グラフニューラルネットワーク (gnns) を用いて, 動的関係結合機構を提案することでこの問題に対処した。 多くの実世界のグラフが異なる関係を持つという観測に基づいて、関係ごとにノード表現を学習し、各関係に異なる注意係数を割り当てる学習可能な注意関数を用いてノード表現を集約する。 さらに,異なるレイヤからのノード表現を組み合わせることで,対象ノードの局所的および大域的な構造を考慮し,ヘテロフィリによるグラフ上の不正検出性能の向上に寄与する。 すべての集約プロセスで動的グラフの注意力を利用することにより,各ノードの注意力係数を適応的に計算する。 実験の結果,本手法のDRAGは,実世界のベンチマークデータセットにおいて,最先端の不正検出手法よりも優れていた。

Fraud detection aims to discover fraudsters deceiving other users by, for example, leaving fake reviews or making abnormal transactions. Graph-based fraud detection methods consider this task as a classification problem with two classes: frauds or normal. We address this problem using Graph Neural Networks (GNNs) by proposing a dynamic relation-attentive aggregation mechanism. Based on the observation that many real-world graphs include different types of relations, we propose to learn a node representation per relation and aggregate the node representations using a learnable attention function that assigns a different attention coefficient to each relation. Furthermore, we combine the node representations from different layers to consider both the local and global structures of a target node, which is beneficial to improving the performance of fraud detection on graphs with heterophily. By employing dynamic graph attention in all the aggregation processes, our method adaptively computes the attention coefficients for each node. Experimental results show that our method, DRAG, outperforms state-of-the-art fraud detection methods on real-world benchmark datasets.
翻訳日:2024-01-04 16:48:00 公開日:2024-01-03
# シャープネス認識の最小化における記憶とプライバシーリスクについて

On Memorization and Privacy Risks of Sharpness Aware Minimization ( http://arxiv.org/abs/2310.00488v2 )

ライセンス: Link先を確認
Young In Kim, Pratiksha Agrawal, Johannes O. Royset, Rajiv Khanna(参考訳) 近年の多くの研究において、ニューラルネットワーク損失最適化のためのフラットな最適化を求めるアルゴリズムの設計に焦点が当てられている。 本研究では,オーバーパラメータモデルにおけるデータ記憶のレンズを通して,これらの性能向上を解析する。 バニラSGDと比較して、より平坦な最適解を求めるアルゴリズムがどのデータポイントに特化しているかを特定するのに役立つ新しい指標を定義する。 Sharpness Aware Minimization (SAM) によって達成される一般化の利点は、特に記憶を必要とする非定型データポイントに対して顕著である。 この洞察はSAMに関連する高いプライバシーリスクを明らかにするのに役立ち、徹底的な経験的評価を通じて検証する。 最後に、より望ましい精度とプライバシーのトレードオフを達成するための緩和戦略を提案する。

In many recent works, there is an increased focus on designing algorithms that seek flatter optima for neural network loss optimization as there is empirical evidence that it leads to better generalization performance in many datasets. In this work, we dissect these performance gains through the lens of data memorization in overparameterized models. We define a new metric that helps us identify which data points specifically do algorithms seeking flatter optima do better when compared to vanilla SGD. We find that the generalization gains achieved by Sharpness Aware Minimization (SAM) are particularly pronounced for atypical data points, which necessitate memorization. This insight helps us unearth higher privacy risks associated with SAM, which we verify through exhaustive empirical evaluations. Finally, we propose mitigation strategies to achieve a more desirable accuracy vs privacy tradeoff.
翻訳日:2024-01-04 16:47:43 公開日:2024-01-03
# ガウスフィルタを用いた糖尿病網膜症

Diabetic Retinopathy Using Gaussian Filter ( http://arxiv.org/abs/2309.15216v2 )

ライセンス: Link先を確認
Roshan Vasu Muddaluru, Sharvaani Ravikumar Thoguluva, Shruti Prabha, Tanuja Konda Reddy and Dr. Suja P(参考訳) 網膜は視覚システムの必須成分であり、視力の維持は、時間的かつ正確な障害の検出に依存する。 本研究は, 糖尿病網膜症(DR)の早期発見と重症度分類について, 公衆衛生上の重大な危険因子である。 inceptionv3, densenet121,および他のcnnベースのモデルのような異なるディープラーニングモデルの結果を、gaussian, grayscale, gaborなどの異なるイメージフィルタを用いて比較する。 これらのモデルは微妙な病理変化を検知し、その情報を使って網膜疾患のリスクを推定する。 目的は、深層学習モデルを用いて、糖尿病関連失明の主な原因である糖尿病網膜症の診断プロセスを改善することである。 これらのフィルターを網膜画像に適用した後,greyscale,gaussian,gaborフィルタの比較分析を行った。 ガウスフィルタは全てのモデルに最高の精度を与える最も有望なフィルタとなった。 最良性能のモデルは inceptionv3 で、ガウス画像の精度は 96% であり、ガウスフィルタは我々の最も有望なフィルタとして現れた。

The retina is an essential component of the visual system, and maintaining eyesight depends on the timely and correct detection of disorders. This research specifically addresses the early-stage detection and severity classification of diabetic retinopathy (DR), a serious public health hazard. We compare the results of different deep learning models such as InceptionV3, DenseNet121 and other CNN based models by using different image filters, such as Gaussian, grayscale and Gabor. These models could detect subtle pathological alterations and use that information to estimate the risk of retinal illnesses. The objective is to improve the diagnostic processes for diabetic retinopathy, the primary cause of diabetes-related blindness, by utilizing deep learning models. A comparative analysis between Greyscale, Gaussian and Gabor filters has been provided after applying these filters on the retinal images. The Gaussian filter resulted to be the most promising filter giving the best accuracies for all the models. The best performing model was InceptionV3 which gave an accuracy of 96% on Gaussian images, therefore Gaussian filter emerged as our most promising filter.
翻訳日:2024-01-04 16:47:00 公開日:2024-01-03
# 高精度・高速圧縮ビデオキャプション

Accurate and Fast Compressed Video Captioning ( http://arxiv.org/abs/2309.12867v2 )

ライセンス: Link先を確認
Yaojie Shen, Xin Gu, Kai Xu, Heng Fan, Longyin Wen, Libo Zhang(参考訳) 既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセス(例えば特徴抽出やキャプションモデル学習)を実行する必要がある。 このパイプラインでは、手動のフレームサンプリングはビデオのキー情報を無視し、性能を低下させる。 さらに、サンプルフレーム内の冗長な情報は、ビデオキャプションの推論において、低効率をもたらす可能性がある。 これに対処するために,圧縮領域の異なる視点からビデオキャプションを研究し,既存のパイプラインに対して多面的なアドバンテージをもたらす。 1) 復号映像の原画像と比較すると,iフレーム,動きベクトル,残差からなる圧縮映像は,高度に識別可能であり,特殊なモデル設計により,手作業でサンプリングすることなく映像全体を学習することができる。 2)キャプションモデルは,より小さく,冗長な情報が処理されるので,推論においてより効率的である。 本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習できる簡易かつ効果的なエンドツーエンド変換器を提案する。 簡単な設計であっても,既存手法の約2倍高速に動作しながら,異なるベンチマーク上で最先端のパフォーマンスを実現することができることを示す。 コードはhttps://github.com/acherstyx/CoCapで入手できる。

Existing video captioning approaches typically require to first sample video frames from a decoded video and then conduct a subsequent process (e.g., feature extraction and/or captioning model learning). In this pipeline, manual frame sampling may ignore key information in videos and thus degrade performance. Additionally, redundant information in the sampled frames may result in low efficiency in the inference of video captioning. Addressing this, we study video captioning from a different perspective in compressed domain, which brings multi-fold advantages over the existing pipeline: 1) Compared to raw images from the decoded video, the compressed video, consisting of I-frames, motion vectors and residuals, is highly distinguishable, which allows us to leverage the entire video for learning without manual sampling through a specialized model design; 2) The captioning model is more efficient in inference as smaller and less redundant information is processed. We propose a simple yet effective end-to-end transformer in the compressed domain for video captioning that enables learning from the compressed video for captioning. We show that even with a simple design, our method can achieve state-of-the-art performance on different benchmarks while running almost 2x faster than existing approaches. Code is available at https://github.com/acherstyx/CoCap.
翻訳日:2024-01-04 16:46:40 公開日:2024-01-03
# 予算制限型群衆センシングのための大規模無名労働者のインセンティブ:オフラインとオンラインの視点から

Incentivizing Massive Unknown Workers for Budget-Limited Crowdsensing: From Off-Line and On-Line Perspectives ( http://arxiv.org/abs/2309.12113v2 )

ライセンス: Link先を確認
Feng Li, Yuqi Chai, Huan Yang, Pengfei Hu, Lingjie Duan(参考訳) 限られた予算で戦略労働者にインセンティブを与える方法は,クラウドセンシングシステムにとって極めて根本的な問題である。しかしながら,センサデバイスや行動の多様性から,労働者のセンシング能力が常に事前知識として認識されるとは限らないため,未知の労働者を適切に選択・支払いすることは困難である。 労働者の不確実性は、探索と搾取の間のトレードオフを通じて、既存の提案において、標準コンビネート多武装バンディット(cmab)フレームワークによって対処できるが、特に予算が限られている場合において、個々の労働者間のトレードオフを可能にするための予算が十分ではない可能性がある。 さらに、標準的なCMABは、労働者が常にシステムに留まっていると仮定するのに対し、労働者は時間とともにシステムに参加または離脱し、労働者が去った後に個々の労働者のために学んだことは適用できないと仮定する。 本稿では、上記の課題に対処するため、まず、オフラインのコンテキスト認識CMABベースのインセンティブ(CACI)機構を提案する。 我々は、個々の労働者ではなく、精巧に分断された文脈空間における探検・探検のトレードオフを活用して、非常に限られた予算で大規模未知の労働者に効果的にインセンティブを与える。 また、上記の基本的な考え方を、未知の労働者が動的にシステムに参加または離脱するオンライン設定に拡張し、CACIメカニズムのオンラインバージョンを提案する。 厳密な理論的分析を行い、CACI機構の後悔の上限を明らかにし、それぞれの真理性および個々人の合理性を証明する。 また,本機構の有効性を検証するために,合成データと実データの両方について広範な実験を行った。

How to incentivize strategic workers using limited budget is a very fundamental problem for crowdsensing systems; nevertheless, since the sensing abilities of the workers may not always be known as prior knowledge due to the diversities of their sensor devices and behaviors, it is difficult to properly select and pay the unknown workers. Although the uncertainties of the workers can be addressed by the standard Combinatorial Multi-Armed Bandit (CMAB) framework in existing proposals through a trade-off between exploration and exploitation, we may not have sufficient budget to enable the trade-off among the individual workers, especially when the number of the workers is huge while the budget is limited. Moreover, the standard CMAB usually assumes the workers always stay in the system, whereas the workers may join in or depart from the system over time, such that what we have learnt for an individual worker cannot be applied after the worker leaves. To address the above challenging issues, in this paper, we first propose an off-line Context-Aware CMAB-based Incentive (CACI) mechanism. We innovate in leveraging the exploration-exploitation trade-off in an elaborately partitioned context space instead of the individual workers, to effectively incentivize the massive unknown workers with a very limited budget. We also extend the above basic idea to the on-line setting where unknown workers may join in or depart from the systems dynamically, and propose an on-line version of the CACI mechanism. We perform rigorous theoretical analysis to reveal the upper bounds on the regrets of our CACI mechanisms and to prove their truthfulness and individual rationality, respectively. Extensive experiments on both synthetic and real datasets are also conducted to verify the efficacy of our mechanisms.
翻訳日:2024-01-04 16:46:22 公開日:2024-01-03
# 量子干渉による重力相互作用ダークマターの検出

Detecting Gravitationally Interacting Dark Matter with Quantum Interference ( http://arxiv.org/abs/2309.08238v2 )

ライセンス: Link先を確認
Alejandro Perez, Carlo Rovelli, Marios Christodoulou(参考訳) その存在を示す大きな天文学的な証拠にもかかわらず、ダークマターの性質は謎のままである。 特に、量子重力の基本的なスケールであるプランク質量の周りの質量と重力的にのみ相互作用する粒子は、興味深い候補である。 本稿では,高感度重力を媒介とする量子位相シフトを用いて直接検出する理論的可能性を示す。 特にジョセフソン接合を利用したプロトコルについて考察する。

In spite or the large astronomical evidence for its existence, the nature of dark matter remains enigmatic. Particles that interact only, or almost only, gravitationally, in particular with masses around the Planck mass -- the fundamental scale in quantum gravity, are intriguing candidates. Here we show that there is a theoretical possibility to directly detect such particles using highly sensitive gravity-mediated quantum phase shifts. In particular, we consider a protocol utilizing Josephson junctions.
翻訳日:2024-01-04 16:45:49 公開日:2024-01-03
# 教師付き学習による絡み合いエントロピーのサンプル効率推定

Sample-efficient estimation of entanglement entropy through supervised learning ( http://arxiv.org/abs/2309.07556v2 )

ライセンス: Link先を確認
Maximilian Rieger, Moritz Reh, Martin G\"arttner(参考訳) 少数の実験試料からマルチキュービットシステムの絡み合いのエントロピーを推定するための教師付き機械学習手法を探索する。 我々は,ネットワーク推定とベンチマークの不確かさを,最もよく知られた推定アルゴリズムに対して推定することに注目した。 トレーニング分布に含まれる状態については、ベースライン法が正確な推定を行なえないサンプルサイズの領域での収束を観察するが、トレーニング分布に近い領域では外挿は可能であると考えられる。 本手法は, 量子シミュレーション実験のさらなる応用として, 異なる雑音強度のモデルを訓練することにより, 非ユニタリ進化のための量子相互情報を推定する。

We explore a supervised machine learning approach to estimate the entanglement entropy of multi-qubit systems from few experimental samples. We put a particular focus on estimating both aleatoric and epistemic uncertainty of the network's estimate and benchmark against the best known conventional estimation algorithms. For states that are contained in the training distribution, we observe convergence in a regime of sample sizes in which the baseline method fails to give correct estimates, while extrapolation only seems possible for regions close to the training regime. As a further application of our method, highly relevant for quantum simulation experiments, we estimate the quantum mutual information for non-unitary evolution by training our model on different noise strengths.
翻訳日:2024-01-04 16:45:14 公開日:2024-01-03
# 古典的エミュレート量子シミュレーションによるハミルトンのエネルギー固有状態生成のためのツイリング演算

Twirling Operations to Produce Energy Eigenstates of a Hamiltonian by Classically Emulated Quantum Simulation ( http://arxiv.org/abs/2309.04933v2 )

ライセンス: Link先を確認
Kazuto Oshima(参考訳) 離散固有値を持つハミルトニアンのエネルギー固有状態を生成するための簡単な手順を提案する。 我々は、アンシラ量子ビットと量子エンタングルメントを用いて、エネルギー固有状態と他のエネルギー固有状態とを分離する。 1+1)次元のマスレスシュウィンガーモデルに由来するいくつかの例を示す。 原理的には、有限次元ヒルベルト空間を持つハミルトニアンに対して適用できる。 初期状態を選択すると、原理的にはハミルトニアンの任意のエネルギー固有状態を生成することができる。

We propose a simple procedure to produce energy eigenstates of a Hamiltonian with discrete eigenvalues. We use ancilla qubits and quantum entanglement to separate an energy eigenstate from the other energy eigenstates. We exhibit a few examples derived from the (1+1)-dimensional massless Schwinger model. Our procedure in principle will be applicable for a Hamiltonian with a finite dimensional Hilbert space. Choosing an initial state properly, we can in principle produce any energy eigenstate of the Hamiltonian.
翻訳日:2024-01-04 16:45:01 公開日:2024-01-03
# 変分オートエンコーダを用いた損失入力の復元による教師なし分散検出

Unsupervised Out-of-Distribution Detection by Restoring Lossy Inputs with Variational Autoencoder ( http://arxiv.org/abs/2309.02084v3 )

ライセンス: Link先を確認
Zezhen Zeng, Bin Liu(参考訳) 深層生成モデルは、oodサンプルに高い確率を割り当てる傾向があるood(unsupervised out-of-distribution)検出タスクにおいて問題となっている。 この問題に関するこれまでの研究は通常、変分オートエンコーダ(VAE)には適用されない。 生成モデルの一般的なサブクラスとして、VAEは比較的小さなモデルサイズで有効であり、トレーニングや推論においてより安定で高速であり、現実世界のアプリケーションではより有利である。 本稿では, トレーニングセットの損失バージョンを入力とし, 元のセットをターゲットとするVAEに基づいて, OOD検出のためのER(Error Reduction)と呼ばれる新しいVAEベースのスコアを提案する。 本手法の有効性を示すため,様々なデータセット上で実験を行い,アブレーション実験による設計選択の効果について述べる。 私たちのコードは、https://github.com/ZJLAB-AMMI/VAE4OOD.comで利用可能です。

Deep generative models have been demonstrated as problematic in the unsupervised out-of-distribution (OOD) detection task, where they tend to assign higher likelihoods to OOD samples. Previous studies on this issue are usually not applicable to the Variational Autoencoder (VAE). As a popular subclass of generative models, the VAE can be effective with a relatively smaller model size and be more stable and faster in training and inference, which can be more advantageous in real-world applications. In this paper, We propose a novel VAE-based score called Error Reduction (ER) for OOD detection, which is based on a VAE that takes a lossy version of the training set as inputs and the original set as targets. Experiments are carried out on various datasets to show the effectiveness of our method, we also present the effect of design choices with ablation experiments. Our code is available at: https://github.com/ZJLAB-AMMI/VAE4OOD.
翻訳日:2024-01-04 16:44:52 公開日:2024-01-03
# ロバストなアドホックチームワークエージェントのトレーニングのための最小被覆セット

Minimum Coverage Sets for Training Robust Ad Hoc Teamwork Agents ( http://arxiv.org/abs/2308.09595v2 )

ライセンス: Link先を確認
Arrasy Rahman, Jiaxun Cui, Peter Stone(参考訳) 目に見えないエージェントや人間のパートナーとのロバストな協力は、これらのパートナーが採用する様々な協力協定によって大きな課題を提起する。 既存のAd Hoc Teamwork(AHT)メソッドは、特定の多様性メトリクスを最大化することで得られる多様なチームメイトポリシーの集団を持つエージェントをトレーニングすることで、この問題に対処する。 しかしながら、先行ヒューリスティックに基づく多様性指標は、すべての協調問題においてエージェントの堅牢性を常に最大化するとは限らない。 本研究では,AHTエージェントのロバスト性を最大化するためには,環境内の任意のパートナーポリシーに対する最良応答ポリシーである最小カバレッジセット(MCS)のポリシーをエミュレートする必要があることを最初に提案する。 次に、AHTトレーニングに使用されるチームメイトポリシーのセットを生成するL-BRDivアルゴリズムを導入し、エージェントがMCSのポリシーをエミュレートすることを奨励する。 L-BRDiv は AHT トレーニングと MCS のメンバーである AHT エージェントポリシーの近似のためのチームメイトポリシーを共同で訓練するために制約付き最適化問題を解く。 実験により,L-BRDivは高パラメータチューニングを必要とせず,より広い範囲の2プレイヤー協調問題において,最先端の手法よりも堅牢なAHTエージェントを生成することを示した。 L-BRDivは, 冗長なポリシーを繰り返すのではなく, MCSの異なるメンバーの発見を優先することで, 基準法よりも優れていることを示す。

Robustly cooperating with unseen agents and human partners presents significant challenges due to the diverse cooperative conventions these partners may adopt. Existing Ad Hoc Teamwork (AHT) methods address this challenge by training an agent with a population of diverse teammate policies obtained through maximizing specific diversity metrics. However, prior heuristic-based diversity metrics do not always maximize the agent's robustness in all cooperative problems. In this work, we first propose that maximizing an AHT agent's robustness requires it to emulate policies in the minimum coverage set (MCS), the set of best-response policies to any partner policies in the environment. We then introduce the L-BRDiv algorithm that generates a set of teammate policies that, when used for AHT training, encourage agents to emulate policies from the MCS. L-BRDiv works by solving a constrained optimization problem to jointly train teammate policies for AHT training and approximating AHT agent policies that are members of the MCS. We empirically demonstrate that L-BRDiv produces more robust AHT agents than state-of-the-art methods in a broader range of two-player cooperative problems without the need for extensive hyperparameter tuning for its objectives. Our study shows that L-BRDiv outperforms the baseline methods by prioritizing discovering distinct members of the MCS instead of repeatedly finding redundant policies.
翻訳日:2024-01-04 16:44:15 公開日:2024-01-03
# LLM4TS:データ効率の良い時系列フォアキャスターとしての事前学習LDMの調整

LLM4TS: Aligning Pre-Trained LLMs as Data-Efficient Time-Series Forecasters ( http://arxiv.org/abs/2308.08469v4 )

ライセンス: Link先を確認
Ching Chang, Wei-Yao Wang, Wen-Chih Peng, Tien-Fu Chen(参考訳) 多変量時系列予測は、経済計画や天気予報など、様々な分野において不可欠である。 ディープトレイン・トゥ・スクラッチモデルでは効果的な性能を示したが、大量のデータを必要とするため、現実の応用性が制限されている。 最近、研究者は限定的な非言語データセットのための事前訓練されたLarge Language Models (LLMs)を探索している。 しかし, LLMを時系列データに組み込むことは, 時系列データと言語データとの組成の違いや, マルチスケールの時間情報処理が不可能なため, 適応が困難であることを示す。 これらの課題に対処するために,事前学習したLLMを用いて時系列予測を行うLLM4TSを提案する。 llm4tsは2段階の微調整戦略から成り、llmを時系列データのニュアンスに合わせる時系列アライメントステージと、時系列予測タスク用に特別に設計された予測微調整ステージである。 さらに,本フレームワークは,事前学習したLLM内に多段階のテンポラルデータを統合し,時間固有情報を解釈する能力を向上する,新たな2段階集約手法を備えている。 7つの時系列予測データセットにわたる実験において、llm4tsは、フルショットシナリオにおいて、スクラッチからトレーニングされたものを含む、既存の最先端の方法よりも優れている。 さらに,予測シナリオにおける表現学習によるLLM4TSの有効性について,自己指導型学習手法との比較を行った。

Multivariate time-series forecasting is vital in various domains, e.g., economic planning and weather prediction. Deep train-from-scratch models have exhibited effective performance yet require large amounts of data, which limits real-world applicability. Recently, researchers have explored pre-trained Large Language Models (LLMs) for limited non-linguistic datasets. However, incorporating LLMs with time-series data presents challenges of limited adaptation due to different compositions between time-series and linguistic data, and the inability to process multi-scale temporal information. To tackle these challenges, we propose LLM4TS, a framework for time-series forecasting with pre-trained LLMs. LLM4TS consists of a two-stage fine-tuning strategy: the time-series alignment stage to align LLMs with the nuances of time-series data, and the forecasting fine-tuning stage, which is specifically designed for time-series forecasting tasks. Furthermore, our framework features a novel two-level aggregation method that integrates multi-scale temporal data within pre-trained LLMs, enhancing their ability to interpret time-specific information. In experiments across 7 time-series forecasting datasets, LLM4TS is superior to existing state-of-the-art methods, including those trained from scratch, in full-shot scenarios, and also achieves an average improvement of 6.84% in MSE in few-shot scenarios. In addition, evaluations compared with different self-supervised learning approaches highlight LLM4TS's effectiveness with representation learning in forecasting scenarios.
翻訳日:2024-01-04 16:43:49 公開日:2024-01-03
# インバージョン・バイ・インバージョン:トレーニングなし確率微分方程式によるexemplar-based sketch-to-photo synthesis

Inversion-by-Inversion: Exemplar-based Sketch-to-Photo Synthesis via Stochastic Differential Equations without Training ( http://arxiv.org/abs/2308.07665v2 )

ライセンス: Link先を確認
Ximing Xing, Chuang Wang, Haitao Zhou, Zhihao Hu, Chongxuan Li, Dong Xu, Qian Yu(参考訳) Exemplar-based sketch-to-photo synthesisでは、スケッチに基づいて写真リアルな画像を生成することができる。 近年,拡散法は画像生成タスクにおいて顕著な性能を達成し,テキスト駆動生成やエネルギー関数による高柔軟性制御を実現している。 しかし、スケッチ画像から色とテクスチャで写実的な画像を生成することは、拡散モデルでは困難である。 スケッチは典型的には数ストロークのみで構成され、ほとんどの領域は空白のままであり、拡散に基づく方法では写真リアリスティック画像の生成が困難である。 本研究では,exemplar-based sketch-to-photo 合成のための ``inversion-by-inversion" という二段階法を提案する。 このアプローチにはシェープエンハンシングインバージョンとフルコントロールインバージョンが含まれる。 形状エンハンシング反転過程において、形状エネルギー関数の誘導により無色写真を生成する。 このステップは、生成された写真の形状を確実に制御するために不可欠である。 フルコントロール・インバージョンでは,最終生成画像の色やテクスチャを制御するための外観エネルギー関数を提案し,インバージョン・バイ・インバージョン・パイプラインはトレーニング不要であり,色やテクスチャの制御に様々な種類の例を受け入れることができる。 提案手法を評価するために広範な実験を行い,その有効性を実証した。 コードとプロジェクトはhttps://ximinng.github.io/inversion-by-inversion-project/で見ることができる。

Exemplar-based sketch-to-photo synthesis allows users to generate photo-realistic images based on sketches. Recently, diffusion-based methods have achieved impressive performance on image generation tasks, enabling highly-flexible control through text-driven generation or energy functions. However, generating photo-realistic images with color and texture from sketch images remains challenging for diffusion models. Sketches typically consist of only a few strokes, with most regions left blank, making it difficult for diffusion-based methods to produce photo-realistic images. In this work, we propose a two-stage method named ``Inversion-by-Inversion" for exemplar-based sketch-to-photo synthesis. This approach includes shape-enhancing inversion and full-control inversion. During the shape-enhancing inversion process, an uncolored photo is generated with the guidance of a shape-energy function. This step is essential to ensure control over the shape of the generated photo. In the full-control inversion process, we propose an appearance-energy function to control the color and texture of the final generated photo.Importantly, our Inversion-by-Inversion pipeline is training-free and can accept different types of exemplars for color and texture control. We conducted extensive experiments to evaluate our proposed method, and the results demonstrate its effectiveness. The code and project can be found at https://ximinng.github.io/inversion-by-inversion-project/.
翻訳日:2024-01-04 16:43:21 公開日:2024-01-03
# DisPLACE Challenge 2023の概要 -- 会話環境におけるSPeakerとLanguageのダイアリゼーション

Summary of the DISPLACE Challenge 2023 -- DIarization of SPeaker and LAnguage in Conversational Environments ( http://arxiv.org/abs/2311.12564v3 )

ライセンス: Link先を確認
Shikha Baghel, Shreyas Ramoji, Somil Jain, Pratik Roy Chowdhuri, Prachi Singh, Deepu Vijayasenan, Sriram Ganapathy(参考訳) 複数の言語が小さな地理的近傍で話される多言語社会では、非公式な会話はしばしば言語が混在する。 既存の音声技術は、音声データが複数の言語や話者の多様性に富んでいるような会話から情報を抽出するのに非効率である。 displace (diaarization of speaker and language in conversational environment) チャレンジは、この困難な条件下で話者と言語ダイアリゼーション技術を評価するためのオープンコールを構成する。 トラック1は多言語環境での話者ダイアリゼーション(SD)に焦点を当て、トラック2は多話者シナリオで言語ダイアリゼーション(LD)に対処した。 両トラックは同じ音声データを用いて評価された。 この評価を容易にするために,多言語・多話者対話型遠距離音声を用いた実世界のデータセットを作成した。 さらに、SDタスクとLDタスクの両方でベースラインシステムが利用可能となり、これらのタスクの最先端を模倣した。 このチャレンジは全世界で42ドルの登録金を集め、トラック1とトラック2の合計で19ドルの応募金を受け取った。 本稿では,課題,データセット,タスク,ベースラインシステムの詳細について述べる。 さらに,本論文では,提案したシステムの概要を両トラックで簡潔に概説し,上位のシステムに重点を置いている。 また,SDタスクとLDタスクに対する洞察と今後の展望を述べるとともに,このような会話に広範に展開する前に,システムが克服すべき重要な課題に焦点をあてる。

In multi-lingual societies, where multiple languages are spoken in a small geographic vicinity, informal conversations often involve mix of languages. Existing speech technologies may be inefficient in extracting information from such conversations, where the speech data is rich in diversity with multiple languages and speakers. The DISPLACE (DIarization of SPeaker and LAnguage in Conversational Environments) challenge constitutes an open-call for evaluating and bench-marking the speaker and language diarization technologies on this challenging condition. The challenge entailed two tracks: Track-1 focused on speaker diarization (SD) in multilingual situations while, Track-2 addressed the language diarization (LD) in a multi-speaker scenario. Both the tracks were evaluated using the same underlying audio data. To facilitate this evaluation, a real-world dataset featuring multilingual, multi-speaker conversational far-field speech was recorded and distributed. Furthermore, a baseline system was made available for both SD and LD task which mimicked the state-of-art in these tasks. The challenge garnered a total of $42$ world-wide registrations and received a total of $19$ combined submissions for Track-1 and Track-2. This paper describes the challenge, details of the datasets, tasks, and the baseline system. Additionally, the paper provides a concise overview of the submitted systems in both tracks, with an emphasis given to the top performing systems. The paper also presents insights and future perspectives for SD and LD tasks, focusing on the key challenges that the systems need to overcome before wide-spread commercial deployment on such conversations.
翻訳日:2024-01-04 16:37:30 公開日:2024-01-03
# SkateboardAI:スケーティングのためのクールなビデオアクション認識

SkateboardAI: The Coolest Video Action Recognition for Skateboarding ( http://arxiv.org/abs/2311.11467v2 )

ライセンス: Link先を確認
Hanxiao Chen(参考訳) 2021年東京五輪の最もクールなスケートボードスポーツプログラムに感銘を受け、実世界のオリジナルビデオデータセット「skateboardai」を野生でキュレートし、自己設計し、さまざまなトリックを正確に認識するための多様なユニモーダルおよびマルチモーダルビデオアクション認識アプローチを実装した。 一様法では,(1)CNNとLSTM,(2)CNNとBiLSTM,(3)効果的な注意機構を有するCNNとBiLSTM,(4)トランスフォーマーに基づく行動認識パイプラインを別々に適用する。 マルチモーダル条件に移行し,SkateboardAIデータセット上の2ストリームのInflated-3Dアーキテクチャを用いて,その性能をユニモーダルケースと比較した。 私たちの目標は、最もクールなスケートボード競技会のための優れたAIスポーツレフェリーを開発することです。

Impressed by the coolest skateboarding sports program from 2021 Tokyo Olympic Games, we are the first to curate the original real-world video datasets "SkateboardAI" in the wild, even self-design and implement diverse uni-modal and multi-modal video action recognition approaches to recognize different tricks accurately. For uni-modal methods, we separately apply (1) CNN and LSTM; (2) CNN and BiLSTM; (3) CNN and BiLSTM with effective attention mechanisms; (4) Transformer-based action recognition pipeline. Transferred to the multi-modal conditions, we investigated the two-stream Inflated-3D architecture on "SkateboardAI" datasets to compare its performance with uni-modal cases. In sum, our objective is developing an excellent AI sport referee for the coolest skateboarding competitions.
翻訳日:2024-01-04 16:37:00 公開日:2024-01-03
# 強相関系のためのスパース量子状態調製

Sparse Quantum State Preparation for Strongly Correlated Systems ( http://arxiv.org/abs/2311.03347v3 )

ライセンス: Link先を確認
C. Feniou, O. Adjoua, B. Claudon, J. Zylberman, E. Giner, J.-P. Piquemal(参考訳) 量子コンピューティングは、原則として、指数関数的にスケーリングする多電子波動関数を線形スケーリング量子ビットレジスタにエンコーディングすることを可能にし、従来の量子化学手法の限界を克服する有望な解決策を提供する。 基底状態量子アルゴリズムが実用的であるためには、量子ビットの初期化が要求される基底状態の高品質な近似に必須である。 量子状態準備 (qsp) は古典計算から得られる近似固有状態の合成を可能にするが、量子情報ではしばしば神託として扱われる。 本研究では,Hyperion GPU加速状態ベクトルエミュレータを用いて,28量子ビットの原型的強相関系の基底状態に対してQSPを行う。 様々な変分法と非変分法は、回路深さと古典的複雑性の観点から比較される。 その結果,最近開発された overlap-adapt-vqe アルゴリズムは,短期的アプリケーションにおいて最も有利な性能を示す。

Quantum Computing allows, in principle, the encoding of the exponentially scaling many-electron wave function onto a linearly scaling qubit register, offering a promising solution to overcome the limitations of traditional quantum chemistry methods. An essential requirement for ground state quantum algorithms to be practical is the initialisation of the qubits to a high-quality approximation of the sought-after ground state. Quantum State Preparation (QSP) allows the preparation of approximate eigenstates obtained from classical calculations, but it is frequently treated as an oracle in quantum information. In this study, we conduct QSP on the ground state of prototypical strongly correlated systems, up to 28 qubits, using the Hyperion GPU-accelerated state-vector emulator. Various variational and non-variational methods are compared in terms of their circuit depth and classical complexity. Our results indicate that the recently developed Overlap-ADAPT-VQE algorithm offers the most advantageous performance for near-term applications.
翻訳日:2024-01-04 16:36:42 公開日:2024-01-03
# 分散型金融アプリケーションにおけるガバナンス問題に関する総合的研究

A Comprehensive Study of Governance Issues in Decentralized Finance Applications ( http://arxiv.org/abs/2311.01433v2 )

ライセンス: Link先を確認
Wei Ma, Chenguang Zhu, Ye Liu, Xiaofei Xie, Yi Li(参考訳) DeFi(Decentralized Finance)は、集中型金融とは対照的に、新たな金融パラダイムであるスマートコントラクトの顕著な応用である。 DeFiアプリケーションはメインストリームのブロックチェーンプラットフォームで急速に普及しているが、その品質は大きく異なり、特にガバナンスメカニズムに関して多くの課題が提示されている。 本稿では,defiアプリケーションにおけるガバナンス問題に関する包括的研究を行う。 産業報告や学術研究論文から洞察を得て,これらのガバナンス問題を分類する分類学を開発する。 私たちは17のweb3セキュリティ企業から4,446件の監査レポートのデータセットを収集し、構築した分類に従ってガバナンス問題を分類します。 ガバナンスの問題に関する詳細な分析を行い、ガバナンス設計と実装における脆弱性、例えば投票シビル攻撃と提案の事前実行を特定した。 スマートコントラクトコードとdefiホワイトペーパーの相違は、これらのガバナンスの問題において中心的な役割を果たします。 DeFiアプリケーションのコードホワイトペーパー一貫性チェックの課題に対処する最初のステップとして、マシンラーニングベースのプロトタイプを開発し、広く使用されている8つのDeFiプロジェクトでのパフォーマンスを検証し、56.14%のF1スコアと80%のリコールを達成した。 本研究は, 開発者, ユーザ, 研究者, 規制機関など, さまざまなDeFiステークホルダーに対して, DeFiのガバナンス問題に対する理解を深め, デフィシステムの堅牢な成長に寄与することを目的とした, 重要な実践的影響を提供する上で重要である。

Decentralized Finance (DeFi) is a prominent application of smart contracts, representing a novel financial paradigm in contrast to centralized finance. While DeFi applications are rapidly emerging on mainstream blockchain platforms, their quality varies greatly, presenting numerous challenges, particularly in terms of their governance mechanisms. In this paper, we present a comprehensive study of governance issues in DeFi applications. Drawing upon insights from industry reports and academic research articles, we develop a taxonomy to categorize these governance issues. We collect and build a dataset of 4,446 audit reports from 17 Web3 security companies, categorizing their governance issues according to our constructed taxonomy. We conducted a thorough analysis of governance issues and identified vulnerabilities in governance design and implementation, e.g., voting sybil attack and proposal front-running. Our findings highlight a significant observation: the disparity between smart contract code and DeFi whitepapers plays a central role in these governance issues. As an initial step to address the challenges of code-whitepaper consistency checks for DeFi applications, we built a machine-learning-based prototype, and validated its performance on eight widely used DeFi projects, achieving a 56.14% F1 score and a 80% recall. Our study culminates in providing several key practical implications for various DeFi stakeholders, including developers, users, researchers, and regulators, aiming to deepen the understanding of DeFi governance issues and contribute to the robust growth of DeFi systems.
翻訳日:2024-01-04 16:35:57 公開日:2024-01-03
# 適度レイノルズ数における流体流の格子ボルツマン・カールマン量子アルゴリズムと回路

Lattice Boltzmann-Carleman quantum algorithm and circuit for fluid flows at moderate Reynolds number ( http://arxiv.org/abs/2310.17973v2 )

ライセンス: Link先を確認
Claudio Sanavio and Sauro Succi(参考訳) 本稿では,Lattice Boltzmann (LB) 法のカールマン線形化に基づく流体流れの量子計算アルゴリズムを提案する。 まず, 古典的カールマン手続きを適度なレイノルズ数, すなわちコルモゴロフのような流れで収束することを示す。 次に、量子回路レイアウトを含む対応する量子アルゴリズムを定式化し、その計算可能性を分析する。 少なくとも 10 から 100 の中間レイノルズ数に対して、カールマン-LB 手続きは 2 次でうまく切り替わることができ、これは非常に励みやすい結果である。 また,単一時間ステップ衝突演算子を実装した量子回路は格子点数によらず一定の深さを持つことを示した。 しかし、そのような深さは1万量子ゲートのオーダーであり、古典的計算に対する量子優位は、今日では達成できないが、短期的には達成可能である。 しかし、マルチステップバージョンの同じ目標は、将来の研究におけるオープンなトピックのままである。

We present a quantum computing algorithm for fluid flows based on the Carleman-linearization of the Lattice Boltzmann (LB) method. First, we demonstrate the convergence of the classical Carleman procedure at moderate Reynolds numbers, namely for Kolmogorov-like flows. Then we proceed to formulate the corresponding quantum algorithm, including the quantum circuit layout and analyze its computational viability. We show that, at least for moderate Reynolds numbers between 10 and 100, the Carleman-LB procedure can be successfully truncated at second order, which is a very encouraging result. We also show that the quantum circuit implementing the single time-step collision operator has a fixed depth, regardless of the number of lattice sites. However, such depth is of the order of ten thousands quantum gates, meaning that quantum advantage over classical computing is not attainable today, but could be achieved in the near-mid term future. The same goal for the multi-step version remains however an open topic for future research.
翻訳日:2024-01-04 16:34:40 公開日:2024-01-03
# 局所ラプラシアンフィルタのルックアップテーブル:トーンマッピングのためのピラミッド再構成ネットワーク

Lookup Table meets Local Laplacian Filter: Pyramid Reconstruction Network for Tone Mapping ( http://arxiv.org/abs/2310.17190v2 )

ライセンス: Link先を確認
Feng Zhang, Ming Tian, Zhiqiang Li, Bin Xu, Qingbo Lu, Changxin Gao, and Nong Sang(参考訳) トーンマッピングの目的は、高ダイナミックレンジ(HDR)画像を低ダイナミックレンジ(LDR)表現に変換することである。 近年,3次元ルックアップテーブル(3d lut)に基づく手法が注目されている。 しかし,これらの手法は,図表が画素値に基づいて動作し,重要なローカル情報を組み込むことができないグローバルなトーンマッピング演算子であるため,局所的に良好な結果をもたらすことができないことが多い。 そこで本稿では,閉じたラプラシアンピラミッドの分解と再構成を活かし,グローバル・ローカル・オペレーターを統合した新しい戦略を提案する。 具体的には,画像適応型3dlutを用いて,周波数情報の特定の特性を利用して低周波画像のトーンを操作する。 さらに,局所ラプラシアンフィルタを用いて高周波成分のエッジ詳細を適応的に洗練する。 局所ラプラシアンフィルタは写真のエッジディテールを保存するために広く使われているが、従来の用途は手動のチューニングとカメライメージングパイプラインや写真編集ツールでの固定化である。 本稿では,局所ラプラシアンフィルタのパラメータ値マップを,軽量ネットワークを用いた注釈データから段階的に学習する。 本モデルでは,グローバルトーン操作と局所エッジ詳細保存をエンドツーエンドで同時に行う。 2つのベンチマークデータセットの広範な実験結果から,提案手法が最先端手法に対して好適に機能することが示された。

Tone mapping aims to convert high dynamic range (HDR) images to low dynamic range (LDR) representations, a critical task in the camera imaging pipeline. In recent years, 3-Dimensional LookUp Table (3D LUT) based methods have gained attention due to their ability to strike a favorable balance between enhancement performance and computational efficiency. However, these methods often fail to deliver satisfactory results in local areas since the look-up table is a global operator for tone mapping, which works based on pixel values and fails to incorporate crucial local information. To this end, this paper aims to address this issue by exploring a novel strategy that integrates global and local operators by utilizing closed-form Laplacian pyramid decomposition and reconstruction. Specifically, we employ image-adaptive 3D LUTs to manipulate the tone in the low-frequency image by leveraging the specific characteristics of the frequency information. Furthermore, we utilize local Laplacian filters to refine the edge details in the high-frequency components in an adaptive manner. Local Laplacian filters are widely used to preserve edge details in photographs, but their conventional usage involves manual tuning and fixed implementation within camera imaging pipelines or photo editing tools. We propose to learn parameter value maps progressively for local Laplacian filters from annotated data using a lightweight network. Our model achieves simultaneous global tone manipulation and local edge detail preservation in an end-to-end manner. Extensive experimental results on two benchmark datasets demonstrate that the proposed method performs favorably against state-of-the-art methods.
翻訳日:2024-01-04 16:34:24 公開日:2024-01-03
# 半教師付きフェデレーション物体検出におけるフェデレーション学習におけるデータ不均一性の探索

Navigating Data Heterogeneity in Federated Learning A Semi-Supervised Federated Object Detection ( http://arxiv.org/abs/2310.17097v3 )

ライセンス: Link先を確認
Taehyeon Kim, Eric Lin, Junu Lee, Christian Lau, Vaikkunth Mugunthan(参考訳) フェデレートラーニング(FL)は、データプライバシを維持しながら、分散データソース間でモデルをトレーニングするための強力なフレームワークとして登場した。 それでも、特に自動運転のようなアプリケーションでは、限られた高品質ラベルと非iidクライアントデータで問題に直面している。 これらのハードルに対処するため、セミスーパーバイズド・フェデレート・オブジェクト検出(SSFOD)の未処理海域を航行する。 我々は,ラベル付きデータがサーバにのみ存在し,クライアントがラベル付きデータを所有するシナリオを想定した,先駆的なssfodフレームワークを提案する。 特に,0%のラベル付き非iidデータを持つクライアントに対するssfodの初回実装は,各クライアントでラベルのサブセットを保持する従来の研究とは対照的である。 我々は,サーバとクライアント間のデータシフト(天気条件など)を効果的に解決するために,選択学習とオルソゴン的に拡張されたフルパラメータトレーニングの2段階戦略であるFedSTOを提案する。 我々の貢献には、過剰フィッティングを回避するために検出器のバックボーンを選択的に精錬すること、表現の発散を促進するための直交性正規化、高品質の擬似ラベルを得るための局所ema駆動の擬似ラベル割り当てが含まれる。 顕著な自律運転データセット(BDD100K,Cityscapes,SODA10M)に対する広範な検証は、我々のアプローチの有効性を証明し、最先端の結果を示す。 注目すべきなのは、ラベルの20~30%しか使用していないFedSTOは、完全に管理された集中的なトレーニング方法と同様に、ほぼ同じように機能することです。

Federated Learning (FL) has emerged as a potent framework for training models across distributed data sources while maintaining data privacy. Nevertheless, it faces challenges with limited high-quality labels and non-IID client data, particularly in applications like autonomous driving. To address these hurdles, we navigate the uncharted waters of Semi-Supervised Federated Object Detection (SSFOD). We present a pioneering SSFOD framework, designed for scenarios where labeled data reside only at the server while clients possess unlabeled data. Notably, our method represents the inaugural implementation of SSFOD for clients with 0% labeled non-IID data, a stark contrast to previous studies that maintain some subset of labels at each client. We propose FedSTO, a two-stage strategy encompassing Selective Training followed by Orthogonally enhanced full-parameter training, to effectively address data shift (e.g. weather conditions) between server and clients. Our contributions include selectively refining the backbone of the detector to avert overfitting, orthogonality regularization to boost representation divergence, and local EMA-driven pseudo label assignment to yield high-quality pseudo labels. Extensive validation on prominent autonomous driving datasets (BDD100K, Cityscapes, and SODA10M) attests to the efficacy of our approach, demonstrating state-of-the-art results. Remarkably, FedSTO, using just 20-30% of labels, performs nearly as well as fully-supervised centralized training methods.
翻訳日:2024-01-04 16:33:56 公開日:2024-01-03
# 古典的学習器を用いたPKEとFHEのための量子鍵リース

Quantum Key Leasing for PKE and FHE with a Classical Lessor ( http://arxiv.org/abs/2310.14328v3 )

ライセンス: Link先を確認
Orestis Chardouvelis, Vipul Goyal, Aayush Jain, Jiahui Liu(参考訳) 本稿では,Agarwal et. al. Eurocrypt' 23, Ananth et. al. TCC' 23 としても知られるセキュアな鍵リースの問題について,前身のAnanth et. al. TCC' 23 のセキュリティ概念の強化について考察する。 アル ユーロ暗号21号。 この問題の目的は、量子情報の不可解な性質を利用して、レセプタが古典的な機能を評価するために再利用可能な量子鍵をリースできるようにすることである。 その後、レセプタは、レセプタに、確実に鍵を削除するように要求し、レセプタは、評価する能力を完全に奪われる。 本研究では、標準格子仮定から(古典的)公開鍵、準同型暗号スキームの復号鍵をリースする安全な鍵リーススキームを構築する。 プロトコル全体は、古典的な(クライアント)と量子的な(サーバ)の間の古典的なコミュニケーションのみを使用します。 ※ 標準的な仮定を仮定すると、我々のセキュリティ定義では、全ての計算上の有界量子敵は、有効な古典的削除証明書を同時に提供できず、暗号文を区別することができない。 私たちのセキュリティは、誤りを仮定して学ぶことの難しさに依存しています。 このスキームは,上記の2つの性質を満足する標準仮定に基づく最初のスキームである。

In this work, we consider the problem of secure key leasing, also known as revocable cryptography (Agarwal et. al. Eurocrypt' 23, Ananth et. al. TCC' 23), as a strengthened security notion of its predecessor put forward in Ananth et. al. Eurocrypt' 21. This problem aims to leverage unclonable nature of quantum information to allow a lessor to lease a quantum key with reusability for evaluating a classical functionality. Later, the lessor can request the lessee to provably delete the key and then the lessee will be completely deprived of the capability to evaluate. In this work, we construct a secure key leasing scheme to lease a decryption key of a (classical) public-key, homomorphic encryption scheme from standard lattice assumptions. We achieve strong form of security where: * The entire protocol uses only classical communication between a classical lessor (client) and a quantum lessee (server). * Assuming standard assumptions, our security definition ensures that every computationally bounded quantum adversary could not simultaneously provide a valid classical deletion certificate and yet distinguish ciphertexts. Our security relies on the hardness of learning with errors assumption. Our scheme is the first scheme to be based on a standard assumption and satisfying the two properties above.
翻訳日:2024-01-04 16:33:01 公開日:2024-01-03
# SPEED: 効率的なデコーディングのための投機的パイプライン実行

SPEED: Speculative Pipelined Execution for Efficient Decoding ( http://arxiv.org/abs/2310.12072v2 )

ライセンス: Link先を確認
Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Hasan Genc, Kurt Keutzer, Amir Gholami, Sophia Shao(参考訳) トランスフォーマーアーキテクチャに基づくジェネレーティブ・大型言語モデル(LLM)は、最近、広範囲の自然言語処理タスクにおいて支配的な基礎モデルとして登場した。 それでも、リアルタイムシナリオでの彼らのアプリケーションは、これらのモデルに関連する大きな推論遅延のため、非常に制限されている。 これは生成LDM推論の自己回帰性のため特に顕著であり、各トークンは以前のすべての出力トークンに依存するため、順次トークンが生成される。 したがって、トークンレベルの並列性を達成し、推論を極めてメモリバウンドにするのは難しい。 本研究では,初期層隠れ状態に基づく予測値を用いて,複数の将来トークンを並列に投機的に実行することにより,推論効率を向上させるSPEEDを提案する。 パラメータ共有を利用するトランスフォーマーデコーダでは、並列に実行されるトークンのメモリ操作を減らし、生成LDM推論を高速化することができる。 モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。

Generative Large Language Models (LLMs) based on the Transformer architecture have recently emerged as a dominant foundation model for a wide range of Natural Language Processing tasks. Nevertheless, their application in real-time scenarios has been highly restricted due to the significant inference latency associated with these models. This is particularly pronounced due to the autoregressive nature of generative LLM inference, where tokens are generated sequentially since each token depends on all previous output tokens. It is therefore challenging to achieve any token-level parallelism, making inference extremely memory-bound. In this work, we propose SPEED, which improves inference efficiency by speculatively executing multiple future tokens in parallel with the current token using predicted values based on early-layer hidden states. For Transformer decoders that employ parameter sharing, the memory operations for the tokens executing in parallel can be amortized, which allows us to accelerate generative LLM inference. We demonstrate the efficiency of our method in terms of latency reduction relative to model accuracy and demonstrate how speculation allows for training deeper decoders with parameter sharing with minimal runtime overhead.
翻訳日:2024-01-04 16:32:32 公開日:2024-01-03
# LLMの一般化と多様性に及ぼすRLHFの影響の理解

Understanding the Effects of RLHF on LLM Generalisation and Diversity ( http://arxiv.org/abs/2310.06452v2 )

ライセンス: Link先を確認
Robert Kirk, Ishita Mediratta, Christoforos Nalmpantis, Jelena Luketina, Eric Hambro, Edward Grefenstette, Roberta Raileanu(参考訳) 人間のフィードバック(RLHF)からの強化学習で微調整された大規模言語モデル(LLM)は、OpenAIのChatGPTやAnthropicのClaudeなど、これまで最も広くデプロイされたAIモデルで使用されている。 %,metaはllama-2。 これらの手法の開発には大きな成果があるが、RLHFにおける各段階の利点と欠点の理解はまだ限られている。 このギャップを埋めるために、プロセスの各段階(sft(supervised fine-tuning)、報酬モデリング(reward modelling)、rlhf)が2つの重要な特性(out-of-distribution(ood)の一般化と出力多様性(out-distribution diversity)にどのように影響するかを詳細に分析する。 oodの一般化は、これらのモデルが使われている幅広い実世界のシナリオを考えると重要であるが、アウトプットの多様性は、モデルが様々な出力を生成する能力を示しており、様々なユースケースにとって重要である。 要約と命令追従タスクの両方で2つのベースモデルで分析を行い,後者は現在のllmのユースケースに非常に関連している。 RLHFは、特に列車と試験の間の分散シフトが大きくなるにつれて、新しい入力に対してSFTよりも優れている。 しかしながら、RLHFはSFTと比較して出力の多様性を著しく低減し、一般化と多様性の間の現在のLLM微調整法におけるトレードオフを示唆している。 本研究は,アプリケーションに応じてどの微調整方法を使用するべきかを指導し,一般化と多様性のトレードオフを改善するためのさらなる研究が必要であることを示す。

Large language models (LLMs) fine-tuned with reinforcement learning from human feedback (RLHF) have been used in some of the most widely deployed AI models to date, such as OpenAI's ChatGPT or Anthropic's Claude. % , or Meta's LLaMA-2. While there has been significant work developing these methods, our understanding of the benefits and downsides of each stage in RLHF is still limited. To fill this gap, we present an extensive analysis of how each stage of the process (i.e.~supervised fine-tuning (SFT), reward modelling, and RLHF) affects two key properties: out-of-distribution (OOD) generalisation and output diversity. OOD generalisation is crucial given the wide range of real-world scenarios in which these models are being used, while output diversity refers to the model's ability to generate varied outputs and is important for a variety of use cases. We perform our analysis across two base models on both summarisation and instruction following tasks, the latter being highly relevant for current LLM use cases. We find that RLHF generalises better than SFT to new inputs, particularly as the distribution shift between train and test becomes larger. However, RLHF significantly reduces output diversity compared to SFT across a variety of measures, implying a tradeoff in current LLM fine-tuning methods between generalisation and diversity. Our results provide guidance on which fine-tuning method should be used depending on the application, and show that more research is needed to improve the tradeoff between generalisation and diversity.
翻訳日:2024-01-04 16:32:16 公開日:2024-01-03
# GMMFormer:高効率部分関連ビデオ検索のためのガウスミクチャーモデル変換器

GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval ( http://arxiv.org/abs/2310.05195v2 )

ライセンス: Link先を確認
Yuting Wang, Jinpeng Wang, Bin Chen, Ziyun Zeng, Shu-Tao Xia(参考訳) テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)は、データベース内の関連する瞬間を含む未トリミングビデオを見つけようとする。 PRVRにとって、クリップモデリングはテキストとビデオの間の部分的関係をキャプチャするために不可欠である。 現在のPRVR法では, 情報冗長で大きなストレージオーバーヘッドを必要とする明示的なクリップモデリングを実現するために, スキャニングベースのクリップ構造を採用している。 本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマで,クリップ表現を暗黙的にモデル化する。 フレーム間相互作用において、ビデオ全体ではなく、隣接するフレームに各フレームを集中させるためにガウス・ミクチャー・モデル制約を組み込む。 生成された表現にはマルチスケールのクリップ情報が含まれ、暗黙のクリップモデリングを実現します。 さらに、PRVRメソッドは、同じビデオに関連するテキストクエリ間の意味的差異を無視する。 我々は,これらのテキストクエリを識別するために,クエリの多彩な損失を提案し,埋め込み空間をより集中的にし,セマンティックな情報を含むようにした。 3つの大規模ビデオデータセット(TVR、ActivityNet Captions、Charades-STA)に対する大規模な実験は、GMMFormerの優位性と効率性を実証している。 コードは \url{https://github.com/huangmozhi9527/gmmformer} で入手できる。

Given a text query, partially relevant video retrieval (PRVR) seeks to find untrimmed videos containing pertinent moments in a database. For PRVR, clip modeling is essential to capture the partial relationship between texts and videos. Current PRVR methods adopt scanning-based clip construction to achieve explicit clip modeling, which is information-redundant and requires a large storage overhead. To solve the efficiency problem of PRVR methods, this paper proposes GMMFormer, a Gaussian-Mixture-Model based Transformer which models clip representations implicitly. During frame interactions, we incorporate Gaussian-Mixture-Model constraints to focus each frame on its adjacent frames instead of the whole video. Then generated representations will contain multi-scale clip information, achieving implicit clip modeling. In addition, PRVR methods ignore semantic differences between text queries relevant to the same video, leading to a sparse embedding space. We propose a query diverse loss to distinguish these text queries, making the embedding space more intensive and contain more semantic information. Extensive experiments on three large-scale video datasets (i.e., TVR, ActivityNet Captions, and Charades-STA) demonstrate the superiority and efficiency of GMMFormer. Code is available at \url{https://github.com/huangmozhi9527/GMMFormer}.
翻訳日:2024-01-04 16:31:45 公開日:2024-01-03
# 魔法の言葉って何? LLMプロンプティングの制御理論

What's the Magic Word? A Control Theory of LLM Prompting ( http://arxiv.org/abs/2310.04444v3 )

ライセンス: Link先を確認
Aman Bhargava, Cameron Witkowski, Manav Shah, Matt Thomson(参考訳) llmのデプロイにはプロンプトエンジニアリングが不可欠だが、数学的にはあまり理解されていない。 我々はLSMシステムを離散確率力学系のクラスとして形式化し、制御理論のレンズを通して迅速な工学を探求する。 制御入力シーケンスが$\mathbf y \in R_y(\mathbf x_0)$に対して$\mathbf u$ が存在し、初期状態シーケンス$\mathbf x_0$ から$\mathbf y$ を出力するために LLM を操縦する。 到達可能な集合における自己注意の可制御性の限界について解析的解析を行い、パラメータ行列の特異値の関数として、到達可能な出力の集合上の上界を証明する。 我々は, Falcon-7b, Llama-7b, Falcon-40bを含むLLMパネルの制御性に関する相補的実証分析を行った。 我々の結果は、Wikitextデータセットからサンプリングされた出力の到達可能な集合に対して$R_y(\mathbf x_0)$ w.r.t.初期状態シーケンス$\mathbf x_0$の低い境界を示す。 正しい次のWikitextトークンのシーケンス$\mathbf x_0$は、$k\leq 10$トークンのプロンプトで97%以上到達可能である。 LLM自体が見積もっているように、トップ75の次のトークンは、少なくとも85%は、$k\leq 10$トークンのプロンプトで到達可能であることも確認しています。 興味深いことに、短いプロンプトシーケンスは特定の出力の可能性を劇的に変え、最も可能性の低いトークンを最も可能性の高いものにする。 このLLMの制御中心解析は、出力確率のステアリングにおける入力シーケンスの意義と理解されていない役割を示し、言語モデルシステム機能を強化するための基礎的な視点を提供する。

Prompt engineering is crucial for deploying LLMs but is poorly understood mathematically. We formalize LLM systems as a class of discrete stochastic dynamical systems to explore prompt engineering through the lens of control theory. We investigate the reachable set of output token sequences $R_y(\mathbf x_0)$ for which there exists a control input sequence $\mathbf u$ for each $\mathbf y \in R_y(\mathbf x_0)$ that steers the LLM to output $\mathbf y$ from initial state sequence $\mathbf x_0$. We offer analytic analysis on the limitations on the controllability of self-attention in terms of reachable set, where we prove an upper bound on the reachable set of outputs $R_y(\mathbf x_0)$ as a function of the singular values of the parameter matrices. We present complementary empirical analysis on the controllability of a panel of LLMs, including Falcon-7b, Llama-7b, and Falcon-40b. Our results demonstrate a lower bound on the reachable set of outputs $R_y(\mathbf x_0)$ w.r.t. initial state sequences $\mathbf x_0$ sampled from the Wikitext dataset. We find that the correct next Wikitext token following sequence $\mathbf x_0$ is reachable over 97% of the time with prompts of $k\leq 10$ tokens. We also establish that the top 75 most likely next tokens, as estimated by the LLM itself, are reachable at least 85% of the time with prompts of $k\leq 10$ tokens. Intriguingly, short prompt sequences can dramatically alter the likelihood of specific outputs, even making the least likely tokens become the most likely ones. This control-centric analysis of LLMs demonstrates the significant and poorly understood role of input sequences in steering output probabilities, offering a foundational perspective for enhancing language model system capabilities.
翻訳日:2024-01-04 16:31:19 公開日:2024-01-03
# 大規模言語モデルを用いたセグメンテーションのためのベースラインの改良

An Improved Baseline for Reasoning Segmentation with Large Language Model ( http://arxiv.org/abs/2312.17240v2 )

ライセンス: Link先を確認
Senqiao Yang and Tianyuan Qu and Xin Lai and Zhuotao Tian and Bohao Peng and Shu Liu and Jiaya Jia(参考訳) lisaは、セグメンテーションと大きな言語モデルの間のギャップを効果的に橋渡しして、推論セグメンテーションを可能にするが、ターゲット領域の異なるインスタンスを区別できず、事前定義されたテキスト応答フォーマットによって制約されるという、いくつかの制限がある。 本稿では,既存のLISAモデルの更新であるLISA++を紹介する。 LISA++の主な機能拡張は以下のとおりである。 \textbf{1) Enhanced Segmentation}: インスタンスセグメンテーション機能が追加され、既存のマルチリージョンセグメンテーションとともに、より詳細なシーン分析が提供される。 \textbf{2) More Natural Conversation}: セグメンテーション結果を直接テキスト応答に組み込む機能、すなわちSegmentation in Dialogue (SiD)。 これらの改善は、構造的な変更やデータソースを追加せずにセグメンテーションと会話スキルを強化することを目的とした、ジェネリックセグメンテーションデータセットの既存のサンプルをキュレートすることで達成される。 元のLISAモデルとの比較分析は、これらの領域において大きな進歩を示し、LISA++を視覚的理解と相互作用の顕著なアップグレードとして位置づけている。 LISA++の適応性と改良された機能は、LISAが提案したマスク・アズ・エンベッド・パラダイムの汎用性と、多様なアプリケーションの基盤モデルとしての可能性を強調している。

While LISA effectively bridges the gap between segmentation and large language models to enable reasoning segmentation, it poses certain limitations: unable to distinguish different instances of the target region, and constrained by the pre-defined textual response formats. In this work, we introduce LISA++, an update to the existing LISA model, focusing on improving core functionalities while keeping the base architecture intact. The main enhancements in LISA++ include: \textbf{1) Enhanced Segmentation}: The instance segmentation ability has been added, providing a more detailed scene analysis along with the existing multi-region semantic segmentation. \textbf{2) More Natural Conversation}: Improved capability for multi-turn dialogue, with the ability to incorporate segmentation results directly into text responses, i.e., Segmentation in Dialogue (SiD). These improvements are achieved by curating the existing samples of generic segmentation datasets, aimed specifically at enhancing the segmentation and conversational skills without structural change and additional data sources. Comparative analysis with the original LISA model shows significant advancements in these areas, positioning LISA++ as a notable upgrade in visual understanding and interaction. LISA++'s adaptability and improved features highlight the versatility of the mask-as-embedding paradigm proposed by LISA, and the potential as a foundational model for diverse applications.
翻訳日:2024-01-04 16:23:55 公開日:2024-01-03
# 高次元2成分状態の超量子ディスコルドについて

On super quantum discord for high-dimensional bipartite state ( http://arxiv.org/abs/2312.13664v2 )

ライセンス: Link先を確認
Jianming Zhou, Xiaoli Hu, Naihuan Jing(参考訳) サブシステム上での弱測定によって量子相互情報間の差を定量化することにより、超量子ディスコードの概念が導かれる。 スーパーバージョンは、射影(強い)測定によって捉えられた量子不協和として計算することが難しいことも知られている。 本稿では,高次元の2成分量子状態に対して位相減衰チャネルの有無にかかわらず,スーパー量子ディスコドの有効境界を与えるとともに,スーパーバージョンは常に2次元の場合のように通常の量子ディスコドよりも大きいことを見出した。

By quantifying the difference between quantum mutual information through weak measurement performed on a subsystem one is led to the notion of super quantum discord. The super version is also known to be difficult to compute as the quantum discord which was captured by the projective (strong) measurements. In this paper, we give effective bounds of the super quantum discord with or without phase damping channels for higher-dimensional bipartite quantum states, and found that the super version is always larger than the usual quantum discord as in the 2-dimensional case.
翻訳日:2024-01-04 16:23:29 公開日:2024-01-03
# 大規模言語モデルのための検索型生成:調査

Retrieval-Augmented Generation for Large Language Models: A Survey ( http://arxiv.org/abs/2312.10997v3 )

ライセンス: Link先を確認
Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Qianyu Guo, Meng Wang and Haofen Wang(参考訳) 大きな言語モデル(LLM)は重要な能力を示すが、幻覚、時代遅れの知識、不透明で追跡不能な推論プロセスといった課題に直面している。 Retrieval-Augmented Generation (RAG)は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。 これによってモデル、特に知識集約型タスクの正確性と信頼性が向上し、継続的な知識更新とドメイン固有情報の統合が可能になる。 RAG は LLM の本質的な知識と外部データベースの巨大な動的リポジトリを相乗的に統合する。 本稿では,RAGパラダイムの進展を概観し,Naive RAG,Advanced RAG,Modular RAGを包括的に検討する。 検索,生成,拡張技術を含むRAGフレームワークのトリパルタイト基盤を慎重に精査する。 本稿では,それぞれの重要なコンポーネントに組み込まれた最先端技術に注目し,RAGシステムの進歩を深く理解する。 さらに,RAGモデルを評価するためのメトリクスとベンチマークと,最新の評価フレームワークを紹介する。 結論として本論文は,課題の特定,マルチモダリティの拡大,ragインフラストラクチャとそのエコシステムの進展など,今後の研究の道筋を概説する。

Large Language Models (LLMs) demonstrate significant capabilities but face challenges such as hallucination, outdated knowledge, and non-transparent, untraceable reasoning processes. Retrieval-Augmented Generation (RAG) has emerged as a promising solution by incorporating knowledge from external databases. This enhances the accuracy and credibility of the models, particularly for knowledge-intensive tasks, and allows for continuous knowledge updates and integration of domain-specific information. RAG synergistically merges LLMs' intrinsic knowledge with the vast, dynamic repositories of external databases. This comprehensive review paper offers a detailed examination of the progression of RAG paradigms, encompassing the Naive RAG, the Advanced RAG, and the Modular RAG. It meticulously scrutinizes the tripartite foundation of RAG frameworks, which includes the retrieval , the generation and the augmentation techniques. The paper highlights the state-of-the-art technologies embedded in each of these critical components, providing a profound understanding of the advancements in RAG systems. Furthermore, this paper introduces the metrics and benchmarks for assessing RAG models, along with the most up-to-date evaluation framework. In conclusion, the paper delineates prospective avenues for research, including the identification of challenges, the expansion of multi-modalities, and the progression of the RAG infrastructure and its ecosystem.
翻訳日:2024-01-04 16:22:39 公開日:2024-01-03
# 大規模言語モデルにおけるテキスト透かしの実態調査

A Survey of Text Watermarking in the Era of Large Language Models ( http://arxiv.org/abs/2312.07913v3 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Yijian Lu, Jingjing Li, Xuming Hu, Lijie Wen, Irwin King and Philip S. Yu(参考訳) テキスト透かしアルゴリズムは、テキストコンテンツの著作権保護において重要な役割を果たすが、その能力と応用シナリオは歴史的に制限されている。 近年の大規模言語モデル(LLM)の発展は,テキスト透かし技術の進歩に新たな機会をもたらしている。 LLMはテキスト理解と生成能力を通じてテキスト透かしアルゴリズムの能力を向上するだけでなく、独自の著作権保護のためにテキスト透かしアルゴリズムを使用する必要がある。 本稿では,テキスト透かし技術の現状に関する包括的調査を行い,(1)異なるテキスト透かし技術の概要と比較,(2)テキスト透かしアルゴリズムの評価方法,(2)成功率,テキスト品質への影響,堅牢性,忘れやすさ,(3)テキスト透かし技術の潜在的な応用シナリオ,(4)テキスト透かし技術の課題と今後の展開について述べる。 本調査は,テキスト透かし技術の徹底的な理解を研究者に提供することを目的としている。

Text watermarking algorithms play a crucial role in the copyright protection of textual content, yet their capabilities and application scenarios have been limited historically. The recent developments in large language models (LLMs) have opened new opportunities for the advancement of text watermarking techniques. LLMs not only enhance the capabilities of text watermarking algorithms through their text understanding and generation abilities but also necessitate the use of text watermarking algorithms for their own copyright protection. This paper conducts a comprehensive survey of the current state of text watermarking technology, covering four main aspects: (1) an overview and comparison of different text watermarking techniques; (2) evaluation methods for text watermarking algorithms, including their success rates, impact on text quality, robustness, and unforgeability; (3) potential application scenarios for text watermarking technology; (4) current challenges and future directions for development. This survey aims to provide researchers with a thorough understanding of text watermarking technology, thereby promoting its further advancement.
翻訳日:2024-01-04 16:22:19 公開日:2024-01-03
# クロスパースペクティブリンクを仮定した関係量子力学:内部矛盾スキーム

Relational Quantum Mechanics with Cross-Perspective Links Postulate: an Internally Inconsistent Scheme ( http://arxiv.org/abs/2312.07056v2 )

ライセンス: Link先を確認
Marcin Markiewicz and Marek \.Zukowski(参考訳) 本稿では、関係量子力学(RQM)の中心概念である相対事実の状況について、クロスパースペクティブリンク仮定と呼ばれる新たなRQM修正の文脈で論じる。 新しい公理は、適切な測定によって、他のオブザーバシステムによって得られた相対的な結果/成果の値を学ぶ。 我々は,相対的な事実が予測力や因果力を持っていないのに対して,相互パースペクティブなリンクが有効に隠れ変数となり,特定の測定結果が因果的に決定されるWigner-Friend型シナリオについて議論する。 しかし、クロスパースペクティブリンク公理(cross-perspective link axiom)はrqmの他の公理を無効にしており、ウィグナー-フレンドのシナリオでは、友人の相対的事実の出現にもかかわらず、rqmは相互作用のユニタリ変換の後、友人とシステムに絡み合った状態を割り当てる。 RQMによるこの量子力学的状態は、ウィグナーの状況を適切に記述している。 このことから、クロスパースペクティブリンク公理を持つRQMは内部的に矛盾する隠れ変数理論であるため、いかなる意味でも量子力学の解釈として扱うことはできない。

We discuss the status of relative facts - the central concept of Relational Quantum Mechanics (RQM) - in the context of the new amendment to RQM called cross-perspective links postulate. The new axiom states that by a proper measurement one learns the value of the relative outcome/fact earlier obtained by another observer-system. We discuss a Wigner-Friend-type scenario in which, without cross-perspective links postulate, relative facts have no predictive or causal power, whereas including cross-perspective links makes them effectively hidden variables, which causally determine outcomes of specific measurements. However, cross-perspective links axiom invalidates the other axiom of RQM, the one which states that in a Wigner-Friend scenario, RQM assigns an entangled state to the Friend and System after the unitary transformation of their interaction, despite the appearance of the relative fact for the Friend. This quantum mechanical state according to RQM properly describes the situation for Wigner. From this we show that RQM with cross-perspective links axiom is an internally inconsistent hidden variable theory and therefore cannot be treated as an interpretation of quantum mechanics in any sense.
翻訳日:2024-01-04 16:21:58 公開日:2024-01-03
# VitalLens:ライブ自撮り

VitalLens: Take A Vital Selfie ( http://arxiv.org/abs/2312.06892v2 )

ライセンス: Link先を確認
Philipp V. Rouast(参考訳) VitalLensは、自撮りビデオから心拍数や呼吸速度などの重要な兆候をリアルタイムで推定するアプリだ。 VitalLensは、ビデオと生理学的センサーデータの多様なデータセットに基づいてトレーニングされたコンピュータビジョンモデルを使用する。 289個の独特な参加者からなるvv-mediumを含む、さまざまなデータセットのパフォーマンスベンチマークを行った。 vitallensは、高速な推論速度を維持しながら、すべてのデータセットでposやmts-canを含む既存のメソッドを上回っている。 vv-medium では、vitalens は心拍数推定で 0.71 bpm、呼吸率推定で 0.76 bpm の平均絶対誤差を達成している。

This report introduces VitalLens, an app that estimates vital signs such as heart rate and respiration rate from selfie video in real time. VitalLens uses a computer vision model trained on a diverse dataset of video and physiological sensor data. We benchmark performance on several diverse datasets, including VV-Medium, which consists of 289 unique participants. VitalLens outperforms several existing methods including POS and MTTS-CAN on all datasets while maintaining a fast inference speed. On VV-Medium, VitalLens achieves mean absolute errors of 0.71 bpm for heart rate estimation, and 0.76 bpm for respiratory rate estimation.
翻訳日:2024-01-04 16:21:31 公開日:2024-01-03
# EQ-Bench: 大規模言語モデルのための感情情報ベンチマーク

EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models ( http://arxiv.org/abs/2312.06281v2 )

ライセンス: Link先を確認
Samuel J. Paech(参考訳) 本稿では,Large Language Models (LLM) における感情知能の側面を評価するための新しいベンチマークであるEQ-Benchを紹介する。 対話における登場人物の感情状態の強さを予測して,複雑な感情や社会的相互作用を理解するllmの能力を評価する。 このベンチマークは、幅広いモデル間で効果的に判別することができる。 eq-bench は mmlu (hendrycks et al., 2020) (r=0.97) のような包括的マルチドメインベンチマークと強く相関しており、幅広い知能の類似の側面を捉えている可能性がある。 本ベンチマークでは,60問の英語質問を用いて高い反復性を示す。 また、https://github.com/EQ-bench/EQ-Benchでの自動ベンチマークパイプライン、https://eqbench.comでリーダーボード用のオープンソースコードも提供しています。

We introduce EQ-Bench, a novel benchmark designed to evaluate aspects of emotional intelligence in Large Language Models (LLMs). We assess the ability of LLMs to understand complex emotions and social interactions by asking them to predict the intensity of emotional states of characters in a dialogue. The benchmark is able to discriminate effectively between a wide range of models. We find that EQ-Bench correlates strongly with comprehensive multi-domain benchmarks like MMLU (Hendrycks et al., 2020) (r=0.97), indicating that we may be capturing similar aspects of broad intelligence. Our benchmark produces highly repeatable results using a set of 60 English-language questions. We also provide open-source code for an automated benchmarking pipeline at https://github.com/EQ-bench/EQ-Bench and a leaderboard at https://eqbench.com
翻訳日:2024-01-04 16:21:19 公開日:2024-01-03
# ニューラルネットワーク解析のためのトポロジカルデータ分析:包括的調査

Topological Data Analysis for Neural Network Analysis: A Comprehensive Survey ( http://arxiv.org/abs/2312.05840v2 )

ライセンス: Link先を確認
Rub\'en Ballester, Carles Casacuberta, Sergio Escalera(参考訳) このサーベイは、ニューラルネットワーク分析におけるトポロジカルデータ分析(TDA)の適用を包括的に調査する。 永続的ホモロジーやMapperといったTDAツールを使用して、ニューラルネットワークとそのデータセットの複雑な構造と振る舞いを調べます。 本稿では,データおよびニューラルネットワークから位相情報を得るための様々な戦略について,tdaを用いて検討する。 さらに,その一般化能力や表現性など,ニューラルネットワークの特性を分析するためにトポロジカル情報をどのように活用するかについて検討する。 深層学習の実際的意義を探究し,特に逆検出やモデル選択といった分野に注目した。 調査は,調査対象を4つの広い領域にまとめる。 1.ニューラルネットワークアーキテクチャの特徴 2. 決定領域及び境界の分析 3 内部表現、活性化及びパラメータに関する研究 4. 訓練ダイナミクスと損失関数の探索 それぞれのカテゴリの中で,様々な方法論を理解するための背景情報を提供するいくつかの記事について論じる。 我々は,本研究から得られた重要な知見を合成し,その分野における課題と潜在的な進歩について議論した。

This survey provides a comprehensive exploration of applications of Topological Data Analysis (TDA) within neural network analysis. Using TDA tools such as persistent homology and Mapper, we delve into the intricate structures and behaviors of neural networks and their datasets. We discuss different strategies to obtain topological information from data and neural networks by means of TDA. Additionally, we review how topological information can be leveraged to analyze properties of neural networks, such as their generalization capacity or expressivity. We explore practical implications of deep learning, specifically focusing on areas like adversarial detection and model selection. Our survey organizes the examined works into four broad domains: 1. Characterization of neural network architectures; 2. Analysis of decision regions and boundaries; 3. Study of internal representations, activations, and parameters; 4. Exploration of training dynamics and loss functions. Within each category, we discuss several articles, offering background information to aid in understanding the various methodologies. We conclude with a synthesis of key insights gained from our study, accompanied by a discussion of challenges and potential advancements in the field.
翻訳日:2024-01-04 16:21:01 公開日:2024-01-03
# 境界条件をもつ格子ボルツマン方程式の量子カールマン線形化

Quantum Carleman Linearization of the Lattice Boltzmann Equation with Boundary Conditions ( http://arxiv.org/abs/2312.04781v2 )

ライセンス: Link先を確認
Bastien Bakker and Thomas Watts(参考訳) 格子ボルツマン法(Lattice Boltzmann Method, LBM)は, 単相・多相両方の流れをシミュレーションする効率的なアルゴリズムとして広く認識されている。 本研究では, bhatnagar gross と krook 平衡関数を用いて, 格子ボルツマン方程式の量子カールマン線形定式化について述べる。 提案手法は, 境界条件をバウンスバックスキームを用いて処理する手法である。 提案アルゴリズムの精度は, 従来のLBMシミュレーションと比較して, 矩形プリズムを過ぎる流れをシミュレートし, 流体流速と一致することを示す。 この改良された定式化は、幅広い流体流アプリケーションで計算スピードアップを提供する可能性を示している。 さらに、読み込みおよび読み出しのテクニックの詳細も提供します。

The Lattice Boltzmann Method (LBM) is widely recognized as an efficient algorithm for simulating fluid flows in both single-phase and multi-phase scenarios. In this research, a quantum Carleman Linearization formulation of the Lattice Boltzmann equation is described, employing the Bhatnagar Gross and Krook equilibrium function. Our approach addresses the treatment of boundary conditions with the commonly used bounce back scheme. The accuracy of the proposed algorithm is demonstrated by simulating flow past a rectangular prism, achieving agreement with respect to fluid velocity In comparison to classical LBM simulations. This improved formulation showcases the potential to provide computational speed-ups in a wide range of fluid flow applications. Additionally, we provide details on read in and read out techniques.
翻訳日:2024-01-04 16:20:25 公開日:2024-01-03
# 群衆カウントのためのレグレッサー・セグメンタ相互学習

Regressor-Segmenter Mutual Prompt Learning for Crowd Counting ( http://arxiv.org/abs/2312.01711v3 )

ライセンス: Link先を確認
Mingyue Guo, Li Yuan, Zhaoyi Yan, Binghui Chen, Yaowei Wang, Qixiang Ye(参考訳) 群衆のカウントは、レグレッサーを訓練してインスタンスの位置を予測することで大きな進歩を遂げた。 しかし、密集したシナリオでは、回帰器は制御不能なアノテーションのばらつきに悩まされ、密度マップバイアスや文脈情報の不正確さを引き起こす。 本研究では,前景と背景を区別しながら,アノテーションの差によるバイアスや不正確さを解消し,レグレシタとセグメンタを相互に指導する相互プロンプト学習(mPrompt)を提案する。 具体的には、mPromptはポイントアノテーションを利用してセグメンタをチューニングし、ポイントプロンプト学習の方法で擬似ヘッドマスクを予測する。 予測されたセグメンテーションマスクを空間的制約として使用し、バイアスのある点アノテーションを文脈即興学習として修正する。 mPromptは、素早い学習から相互情報の最大化を定義し、モデル精度を改善しながらアノテーションの分散の影響を緩和する。 実験によれば、mpromptは平均平均エラー(mae)を大幅に削減し、ダウンストリームビジョンタスクの汎用フレームワークとなる可能性を示している。

Crowd counting has achieved significant progress by training regressors to predict instance positions. In heavily crowded scenarios, however, regressors are challenged by uncontrollable annotation variance, which causes density map bias and context information inaccuracy. In this study, we propose mutual prompt learning (mPrompt), which leverages a regressor and a segmenter as guidance for each other, solving bias and inaccuracy caused by annotation variance while distinguishing foreground from background. In specific, mPrompt leverages point annotations to tune the segmenter and predict pseudo head masks in a way of point prompt learning. It then uses the predicted segmentation masks, which serve as spatial constraint, to rectify biased point annotations as context prompt learning. mPrompt defines a way of mutual information maximization from prompt learning, mitigating the impact of annotation variance while improving model accuracy. Experiments show that mPrompt significantly reduces the Mean Average Error (MAE), demonstrating the potential to be general framework for down-stream vision tasks.
翻訳日:2024-01-04 16:20:10 公開日:2024-01-03
# SCLIP:Dense Vision-Language推論のための自己意識の再考

SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference ( http://arxiv.org/abs/2312.01597v3 )

ライセンス: Link先を確認
Feng Wang, Jieru Mei, Alan Yuille(参考訳) 近年のコントラスト言語画像事前学習(CLIP)の進歩は,画像レベルでの視覚表現とテキスト埋め込みを整列させることにより,ゼロショット分類における強力な能力を示している。 しかし、密集した予測タスクでは、CLIPは画像内の視覚的特徴のローカライズに苦慮し、正確なピクセルレベルの予測を与えることができず、一般化された視覚基盤モデルとして機能しない。 本研究では,CLIPのセマンティックセグメンテーションの可能性を高めることを目的として,事前訓練されたモデルに最小限の変更を加える。 自己注意を再考することによって、CLIPは、単に新しい相関自己意識(CSA)メカニズムを導入することで、密集した予測タスクに適応できることがわかった。 具体的には、従来のCLIPビジョンエンコーダの自己アテンションブロックをCSAモジュールで置き換え、事前訓練されたクエリ、キー、値のプロジェクション行列を再利用することで、CLIPのゼロショットセマンティックセマンティックセグメンテーションに対するトレーニング不要な適応アプローチを実現した。 この論文で強調された8つのセマンティックセグメンテーションベンチマークの38.2%の平均ゼロショットmIoUは、既存のSoTAの33.9%とバニラCLIPの14.1%を大きく上回っている。

Recent advances in contrastive language-image pretraining (CLIP) have demonstrated strong capabilities in zero-shot classification by aligning visual representations with target text embeddings in an image level. However, in dense prediction tasks, CLIP often struggles to localize visual features within an image and fails to give accurate pixel-level predictions, which prevents it from functioning as a generalized visual foundation model. In this work, we aim to enhance CLIP's potential for semantic segmentation with minimal modifications to its pretrained models. By rethinking self-attention, we surprisingly find that CLIP can adapt to dense prediction tasks by simply introducing a novel Correlative Self-Attention (CSA) mechanism. Specifically, we replace the traditional self-attention block of CLIP vision encoder's last layer by our CSA module and reuse its pretrained projection matrices of query, key, and value, leading to a training-free adaptation approach for CLIP's zero-shot semantic segmentation. Extensive experiments show the advantage of CSA: we obtain a 38.2% average zero-shot mIoU across eight semantic segmentation benchmarks highlighted in this paper, significantly outperforming the existing SoTA's 33.9% and the vanilla CLIP's 14.1%.
翻訳日:2024-01-04 16:19:49 公開日:2024-01-03
# 拡張空間領域におけるDicke超放射能

Attaining near-ideal Dicke superradiance in expanded spatial domains ( http://arxiv.org/abs/2311.18330v2 )

ライセンス: Link先を確認
Jun Ren, Shicheng Zhu and Z. D. Wang(参考訳) Dicke superradiance は本質的には、マクロ的な量子コヒーレンスにつながる相関散逸のケースである。 自由空間における反転エミッタの配列の超放射は、最寄りのエミッタ-エミッタ距離に制限された最寄りの相互作用を必要とする。 Epsilon-Near-zero(ENZ)は、無限の有効波長を持つ物質で、エミッタ間の長距離相互作用を媒介する。 プラズモニック導波路と誘電体フォトニック結晶という2つのenz構造の超ラジアン特性を調査し,拡張した空間領域をまたいだ近イデアルディッケ超ラジアンをサポートする可能性を示す。 我々は,様々な結合シナリオに適用可能であり,デコヒーレンス行列にのみ依存する超放射能の発生を評価するために開発した一般的な手法を用いる。 さらに, 少数のエミッタ系のエミッションダイナミクスを数値的に検討することにより, 全対全相互作用の場合のエミッションの異なる段階での量子コヒーレンスの役割を識別し, 最大光子バースト速度を用いて系内の最大量子コヒーレンスを決定できることを実証した。 この研究の知見は、量子情報処理と光・物質相互作用に有望な応用をもたらす。

Dicke superradiance is essentially a case of correlated dissipation leading to the macroscopic quantum coherence. Superradiance for arrays of inverted emitters in free space requires interactions far beyond the nearest-neighbor, limiting its occurrence to small emitter-emitter distances. Epsilon-near-zero (ENZ) materials, which exhibit infinite effective wavelengths, can mediate long-range interactions between emitters. We investigate the superradiance properties of two ENZ structures, namely plasmonic waveguides and dielectric photonic crystals, and demonstrate their potential to support near-ideal Dicke superradiance across expanded spatial domains. We employ a general method that we have developed to assess the occurrence of superradiance, which is applicable to various coupling scenarios and only relies on the decoherence matrix. Furthermore, by numerically examining the emission dynamics of the few-emitter systems, we distinct the roles of quantum coherence at different stages of emission for the case of all-to-all interaction, and demonstrate that the maximum quantum coherence in the system can be determined using the maximum photon burst rate. The findings of this work have prospective applications in quantum information processing and light-matter interaction.
翻訳日:2024-01-04 16:19:21 公開日:2024-01-03
# SVGDreamer:拡散モデルによるテキストガイドSVG生成

SVGDreamer: Text Guided SVG Generation with Diffusion Model ( http://arxiv.org/abs/2312.16476v2 )

ライセンス: Link先を確認
Ximing Xing, Haitao Zhou, Chuang Wang, Jing Zhang, Dong Xu, Qian Yu(参考訳) 近年,テキスト誘導型スケーラブルベクターグラフィックス (SVG) 合成はイコノグラフィやスケッチなどの領域で有望であることが示されている。 しかし、既存のテキスト-SVG生成手法は編集性に欠け、視覚的品質と結果の多様性に苦慮している。 これらの制約に対処するために,svgdreamerと呼ばれる新しいテキストガイドベクターグラフィックス合成法を提案する。 SVGDreamerは、前景オブジェクトと背景への合成の分解を可能にする意味駆動画像ベクトル化(SIVE)プロセスを導入し、編集性を向上させる。 具体的には、注意に基づく原始的制御と、個々の要素の効果的な制御と操作のための注意マスク損失関数を導入する。 さらに,色過飽和,ベクトルプリミティブ過平滑化,および既存のテキスト-SVG生成手法における限られた結果の多様性に対処するためのベクトル化粒子を用いたスコア蒸留(VPSD)手法を提案する。 さらに,VPSDに基づくReward Feedback Learning (ReFL)を導入し,VPSDの収束を加速し,美的魅力を向上させる。 svgdreamerの有効性を検証するために広範な実験が行われており、編集性、視覚的品質、多様性の観点から、ベースラインメソッドよりも優れていることを示している。 SVGDreamerのコードとデモは、 \href{https://ximinng.github.io/SVGDreamer-project/}{https://ximinng.github.io/SVGDreamer-project/}で見ることができる。

Recently, text-guided scalable vector graphics (SVGs) synthesis has shown promise in domains such as iconography and sketch. However, existing text-to-SVG generation methods lack editability and struggle with visual quality and result diversity. To address these limitations, we propose a novel text-guided vector graphics synthesis method called SVGDreamer. SVGDreamer incorporates a semantic-driven image vectorization (SIVE) process that enables the decomposition of synthesis into foreground objects and background, thereby enhancing editability. Specifically, the SIVE process introduce attention-based primitive control and an attention-mask loss function for effective control and manipulation of individual elements. Additionally, we propose a Vectorized Particle-based Score Distillation (VPSD) approach to tackle the challenges of color over-saturation, vector primitives over-smoothing, and limited result diversity in existing text-to-SVG generation methods. Furthermore, on the basis of VPSD, we introduce Reward Feedback Learning (ReFL) to accelerate VPSD convergence and improve aesthetic appeal. Extensive experiments have been conducted to validate the effectiveness of SVGDreamer, demonstrating its superiority over baseline methods in terms of editability, visual quality, and diversity. The code and demo of SVGDreamer can be found at \href{https://ximinng.github.io/SVGDreamer-project/}{https://ximinng.github.io/SVGDreamer-project/}.
翻訳日:2024-01-04 16:12:22 公開日:2024-01-03
# 低光環境における物体追跡の包括的研究

A Comprehensive Study of Object Tracking in Low-Light Environments ( http://arxiv.org/abs/2312.16250v2 )

ライセンス: Link先を確認
Anqi Yi and Nantheera Anantrasirichai(参考訳) 低照度環境での正確な物体追跡は、特に監視や倫理学の応用において重要である。 しかし、キャプチャーシーケンスの質が悪いため、これを実現することは極めて難しい。 ノイズ、色の不均衡、低コントラストなどの要因がこれらの課題に寄与する。 本稿では,これらの歪みが自動物体追跡装置に与える影響を包括的に検討する。 さらに,変圧器を用いた物体追跡システムに低照度・低照度化手法を統合することにより,トラッキング性能を向上させる手法を提案する。 実験結果から,低照度合成データセットを用いてトレーニングしたトラッカーは,バニラMixFormerとSiam R-CNNより優れていた。

Accurate object tracking in low-light environments is crucial, particularly in surveillance and ethology applications. However, achieving this is significantly challenging due to the poor quality of captured sequences. Factors such as noise, color imbalance, and low contrast contribute to these challenges. This paper presents a comprehensive study examining the impact of these distortions on automatic object trackers. Additionally, we propose a solution to enhance tracking performance by integrating denoising and low-light enhancement methods into the transformer-based object tracking system. Experimental results show that the proposed tracker, trained with low-light synthetic datasets, outperforms both the vanilla MixFormer and Siam R-CNN.
翻訳日:2024-01-04 16:11:55 公開日:2024-01-03
# M3D:最大平均差最小化によるデータセットの縮合

M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy ( http://arxiv.org/abs/2312.15927v2 )

ライセンス: Link先を確認
Hansong Zhang, Shikun Li, Pengju Wang, Dan Zeng, Shiming Ge(参考訳) 最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。 これらの課題に対処するため、データセットの凝縮は、元の大規模データセットから必須情報を保持する小さな合成集合を学ぶために開発された。 今日では、SOTA結果を達成するためのデータセット凝縮の分野において、最適化指向の手法が主要な手法となっている。 しかし、この二段階最適化プロセスは、現実的で大規模なデータセットに対するそのような手法の実践的応用を妨げる。 凝縮効率を高めるため, 従来の配水処理(DM)を代替として提案し, 凝縮コストを大幅に削減した。 それにもかかわらず、現在のDMベースの手法は、分布の最初の瞬間だけを整列することに重点を置いているため、最適化指向の手法に匹敵する結果を得られていない。 本稿では,合成画像と実画像の特徴表現間の最大平均差を最小化することにより,データセット凝縮のためのdmベース手法であるm3dを提案する。 それらの分布を再生カーネルヒルベルト空間に埋め込むことで、実像と合成像の分布のすべての順序を整列し、より一般化された凝縮集合となる。 特に,本手法は高解像度のImageNetデータセット上でのSOTA最適化指向のIDCを超えている。 提案手法の有効性を検証するため,広範な解析を行った。

Training state-of-the-art (SOTA) deep models often requires extensive data, resulting in substantial training and storage costs. To address these challenges, dataset condensation has been developed to learn a small synthetic set that preserves essential information from the original large-scale dataset. Nowadays, optimization-oriented methods have been the primary method in the field of dataset condensation for achieving SOTA results. However, the bi-level optimization process hinders the practical application of such methods to realistic and larger datasets. To enhance condensation efficiency, previous works proposed Distribution-Matching (DM) as an alternative, which significantly reduces the condensation cost. Nonetheless, current DM-based methods have yielded less comparable results to optimization-oriented methods due to their focus on aligning only the first moment of the distributions. In this paper, we present a novel DM-based method named M3D for dataset condensation by Minimizing the Maximum Mean Discrepancy between feature representations of the synthetic and real images. By embedding their distributions in a reproducing kernel Hilbert space, we align all orders of moments of the distributions of real and synthetic images, resulting in a more generalized condensed set. Notably, our method even surpasses the SOTA optimization-oriented method IDC on the high-resolution ImageNet dataset. Extensive analysis is conducted to verify the effectiveness of the proposed method.
翻訳日:2024-01-04 16:11:26 公開日:2024-01-03
# 説明可能な勧告のための大規模言語モデルの可能性の解き放つ

Unlocking the Potential of Large Language Models for Explainable Recommendations ( http://arxiv.org/abs/2312.15661v3 )

ライセンス: Link先を確認
Yucong Luo, Mingyue Cheng, Hao Zhang, Junyu Lu, Qi Liu, Enhong Chen(参考訳) オンラインサービスを利用する際に、ユーザの信頼を高め、よりインフォームドな意思決定を容易にする言語生成技術の進歩により、アイテムが推奨される理由に関するユーザフレンドリな説明がますます一般的になっている。 しかし、既存の説明可能なレコメンデーションシステムは、小型言語モデルの使用に重点を置いている。 説明ジェネレータを最近登場した大規模言語モデル(LLM)に置き換える影響は、まだ不明である。 前例のない結果が期待できますか。 本研究では,LLMXRecを提案する。LLMXRecはシンプルだが効果的な2段階説明可能な推薦フレームワークである。 既存のLLMベースのレコメンデーションワークとは異なり、LLMXRecの重要な特徴は、以前のレコメンデーターモデルとLCMベースの説明ジェネレータの密接なコラボレーションである。 具体的には、パラメータ効率の指導的チューニングやパーソナライズされたプロンプト技術など、いくつかの重要な微調整手法を採用することで、説明の目的を達成するために、制御可能で流動的な説明を生成することができる。 とくに、説明の有効性を評価するために、3つの異なる視点を提供する。 最後に、いくつかのベンチマークレコメンデータモデルと公開データセットについて広範な実験を行う。 実験の結果は有効性と効率の点で肯定的な結果を得るだけでなく、これまで知らなかった結果も明らかにする。 この領域のさらなる調査を容易にするため、完全なコードと詳細なオリジナルの結果はhttps://github.com/GodFire666/LLM_rec_explanation/でオープンソース化されている。

Generating user-friendly explanations regarding why an item is recommended has become increasingly common, largely due to advances in language generation technology, which can enhance user trust and facilitate more informed decision-making when using online services. However, existing explainable recommendation systems focus on using small-size language models. It remains uncertain what impact replacing the explanation generator with the recently emerging large language models (LLMs) would have. Can we expect unprecedented results? In this study, we propose LLMXRec, a simple yet effective two-stage explainable recommendation framework aimed at further boosting the explanation quality by employing LLMs. Unlike most existing LLM-based recommendation works, a key characteristic of LLMXRec is its emphasis on the close collaboration between previous recommender models and LLM-based explanation generators. Specifically, by adopting several key fine-tuning techniques, including parameter-efficient instructing tuning and personalized prompt techniques, controllable and fluent explanations can be well generated to achieve the goal of explanation recommendation. Most notably, we provide three different perspectives to evaluate the effectiveness of the explanations. Finally, we conduct extensive experiments over several benchmark recommender models and publicly available datasets. The experimental results not only yield positive results in terms of effectiveness and efficiency but also uncover some previously unknown outcomes. To facilitate further explorations in this area, the full code and detailed original results are open-sourced at https://github.com/GodFire66666/LLM_rec_explanation/.
翻訳日:2024-01-04 16:10:49 公開日:2024-01-03
# 弁証的組立によるモデル多重性に基づく授業(技術報告)

Recourse under Model Multiplicity via Argumentative Ensembling (Technical Report) ( http://arxiv.org/abs/2312.15097v2 )

ライセンス: Link先を確認
Junqi Jiang, Antonio Rago, Francesco Leofante, Francesca Toni(参考訳) モデル重複度(model multiplicity, mm)は、同じ予測タスクを解決するために、複数の均等な機械学習モデルをトレーニングできる場合に発生する。 近年の研究では、MMで得られたモデルが同一入力に対して一貫性のない予測を生成する可能性が示されている。 これが起こると、モデル予測によって負の影響を受ける個人にリコメンデーションレコメンデーションを提供する一般的な手段である、反実的説明(CE)の提供が困難になる。 本稿では,recourse-aware ensemblingと名づけたこの問題を定式化し,その解決法が満たすべきいくつかの望ましい性質を明らかにする。 既存のセンシングメソッドは、cesのさまざまな方法で自然に拡張されているが、これらの特性を満たさないことを示している。 次に,ces から mm へのロバスト性を保証するために計算的議論を展開し,カスタマイズ可能なユーザ嗜好を満たした議論的センスリングを導入する。 理論的および実験的に、議論的アンサンブルは既存の手法に欠けている性質を満足し、トレードオフは最小のWrt精度であることを示す。

Model Multiplicity (MM) arises when multiple, equally performing machine learning models can be trained to solve the same prediction task. Recent studies show that models obtained under MM may produce inconsistent predictions for the same input. When this occurs, it becomes challenging to provide counterfactual explanations (CEs), a common means for offering recourse recommendations to individuals negatively affected by models' predictions. In this paper, we formalise this problem, which we name recourse-aware ensembling, and identify several desirable properties which methods for solving it should satisfy. We show that existing ensembling methods, naturally extended in different ways to provide CEs, fail to satisfy these properties. We then introduce argumentative ensembling, deploying computational argumentation to guarantee robustness of CEs to MM, while also accommodating customisable user preferences. We show theoretically and experimentally that argumentative ensembling satisfies properties which the existing methods lack, and that the trade-offs are minimal wrt accuracy.
翻訳日:2024-01-04 16:10:03 公開日:2024-01-03
# scunet++:肺塞栓ct画像セグメンテーションのためのマルチフュージョン高密度スキップ接続を用いたswain-unetとcnnのボトルネックハイブリッドアーキテクチャ

SCUNet++: Swin-UNet and CNN Bottleneck Hybrid Architecture with Multi-Fusion Dense Skip Connection for Pulmonary Embolism CT Image Segmentation ( http://arxiv.org/abs/2312.14705v2 )

ライセンス: Link先を確認
Yifei Chen, Binfeng Zou, Zhaoxin Guo, Yiyu Huang, Yifan Huang, Feiwei Qin, Qinhai Li, Changmiao Wang(参考訳) 肺塞栓症 (PE) は右室肥大と重症症例の不全につながる肺疾患であり, 重症度は心筋梗塞と突然死のみに次いで2位である。 肺動脈CT血管造影(CTPA)は,PEの診断法として広く用いられている。 しかし,PE検出は画像技術の限界により臨床実践の課題を呈する。 CTPAはPEに似たノイズを発生させ、その存在が時間を要することを確認し、過剰な診断をしがちである。 しかし,従来のPEのセグメンテーション法では,PECT画像の特徴の階層構造,局所的および大域的空間的特徴を十分に考慮できない。 本稿では,SCUNet++ (Swin Conv UNet++) と呼ばれる自動PEセグメンテーション手法を提案する。 この方法は、エンコーダとデコーダの間の複数の融合密なスキップ接続を内蔵し、スウィントランスをエンコーダとして利用する。 そして、デコーダサブネットワークの様々なスケールの特徴を融合させ、スウィン・ユントや他の最先端の手法における必然的なダウンサンプリングによる空間的情報損失を補償し、上記の問題を解決する。 本稿では,この手法の理論的解析を行い,FUMPEおよびCAD-PEで公開されているPECT画像データセット上で検証する。 実験の結果,提案手法はFUMPEデータセットではDice類似係数83.47%,Hausdorff距離95.%ile(HD95)3.83,CAD-PEデータセットではDSC83.42%,HD955.10を達成できた。 これらの結果から,本手法はPEセグメンテーションタスクにおいて高い性能を示し,PEの自動セグメンテーションの精度を高め,臨床医に強力な診断ツールを提供する可能性が示唆された。 我々のソースコードと新しいFUMPEデータセットはhttps://github.com/JustlfC03/SCUNet-plusplus.comで入手できる。

Pulmonary embolism (PE) is a prevalent lung disease that can lead to right ventricular hypertrophy and failure in severe cases, ranking second in severity only to myocardial infarction and sudden death. Pulmonary artery CT angiography (CTPA) is a widely used diagnostic method for PE. However, PE detection presents challenges in clinical practice due to limitations in imaging technology. CTPA can produce noises similar to PE, making confirmation of its presence time-consuming and prone to overdiagnosis. Nevertheless, the traditional segmentation method of PE can not fully consider the hierarchical structure of features, local and global spatial features of PE CT images. In this paper, we propose an automatic PE segmentation method called SCUNet++ (Swin Conv UNet++). This method incorporates multiple fusion dense skip connections between the encoder and decoder, utilizing the Swin Transformer as the encoder. And fuses features of different scales in the decoder subnetwork to compensate for spatial information loss caused by the inevitable downsampling in Swin-UNet or other state-of-the-art methods, effectively solving the above problem. We provide a theoretical analysis of this method in detail and validate it on publicly available PE CT image datasets FUMPE and CAD-PE. The experimental results indicate that our proposed method achieved a Dice similarity coefficient (DSC) of 83.47% and a Hausdorff distance 95th percentile (HD95) of 3.83 on the FUMPE dataset, as well as a DSC of 83.42% and an HD95 of 5.10 on the CAD-PE dataset. These findings demonstrate that our method exhibits strong performance in PE segmentation tasks, potentially enhancing the accuracy of automatic segmentation of PE and providing a powerful diagnostic tool for clinical physicians. Our source code and new FUMPE dataset are available at https://github.com/JustlfC03/SCUNet-plusplus.
翻訳日:2024-01-04 16:09:23 公開日:2024-01-03
# バックドアによる軌道予測の操作

Manipulating Trajectory Prediction with Backdoors ( http://arxiv.org/abs/2312.13863v2 )

ライセンス: Link先を確認
Kaouther Messaoud, Kathrin Grosse, Mickael Chen, Matthieu Cord, Patrick P\'erez, and Alexandre Alahi(参考訳) 自動運転車は、不確実で複雑な交通状況において安全な操作を可能にするため、周囲のエージェントの軌道を予測する必要がある。 企業が現実の世界で軌道予測を適用するようになるにつれ、セキュリティは関連する懸念となる。 本稿では,他の分野で認識されているセキュリティの脅威であるバックドアに着目した。 この目的のために,軌道予測に影響を与える4つのトリガーを記述し,検討する。 次に、これらのトリガ(例えばブレーキ車)がトレーニング中に所望の出力(例えば曲線)と相関すると、最先端の軌道予測モデルの所望の出力を引き起こすことを示す。 言い換えれば、モデルの性能は良好だが、バックドアには弱い。 これは、目標車両の後ろの非ケーシアルエージェントによってトリガー操作が実行された場合でもその場合である。 副作用として,軌道予測モデルにおける興味深い限界を明らかにする。 最後に,バックドアに対する防御範囲を評価する。 単純なオフロードチェックのように、すべてのトリガを検出できないものもあるが、クラスタリングはバックドアを見つけるための手動検査をサポートする有望な候補である。

Autonomous vehicles ought to predict the surrounding agents' trajectories to allow safe maneuvers in uncertain and complex traffic situations. As companies increasingly apply trajectory prediction in the real world, security becomes a relevant concern. In this paper, we focus on backdoors - a security threat acknowledged in other fields but so far overlooked for trajectory prediction. To this end, we describe and investigate four triggers that could affect trajectory prediction. We then show that these triggers (for example, a braking vehicle), when correlated with a desired output (for example, a curve) during training, cause the desired output of a state-of-the-art trajectory prediction model. In other words, the model has good benign performance but is vulnerable to backdoors. This is the case even if the trigger maneuver is performed by a non-casual agent behind the target vehicle. As a side-effect, our analysis reveals interesting limitations within trajectory prediction models. Finally, we evaluate a range of defenses against backdoors. While some, like simple offroad checks, do not enable detection for all triggers, clustering is a promising candidate to support manual inspection to find backdoors.
翻訳日:2024-01-04 16:08:18 公開日:2024-01-03
# 動的3Dガウスと合成拡散モデルを用いたテキストから4D

Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models ( http://arxiv.org/abs/2312.13763v2 )

ライセンス: Link先を確認
Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis(参考訳) テキスト誘導拡散モデルは画像および映像生成に革命をもたらし、最適化に基づく3dオブジェクト合成にも成功している。 そこで本研究では, 時間的次元を付加したスコア蒸留法を用いて, 未熟なtext-to-4d設定に焦点をあて, ダイナミックな3dオブジェクトを合成する。 従来の手法と比較して,テキスト・ツー・イメージ・テキスト・ビデオ・3d対応のマルチビュー拡散モデルを組み合わせて,4次元オブジェクト最適化時のフィードバックを提供し,時間的一貫性,高品質な視覚的外観,リアルな幾何学を実現する。 我々の手法はAlign Your Gaussian (AYG) と呼ばれ、変形場を4次元表現として動的3次元ガウス散乱を利用する。 AYGは移動する3次元ガウスの分布を規則化し、最適化を安定化し、運動を誘導する新しい方法である。 また,動作増幅機構と,複数の4Dシーケンスを生成し,組み合わせてより長い生成を行う新しい自己回帰合成手法を提案する。 これらの技術により、鮮明な動的シーンを合成し、前作を質的かつ定量的に上回り、最先端のテキストから4Dのパフォーマンスを実現することができる。 ガウスの4D表現のため、異なる4Dアニメーションをシームレスに組み合わせることができる。 AYGは、アニメーション、シミュレーション、デジタルコンテンツ作成、および合成データ生成のための有望な道を開く。

Text-guided diffusion models have revolutionized image and video generation and have also been successfully used for optimization-based 3D object synthesis. Here, we instead focus on the underexplored text-to-4D setting and synthesize dynamic, animated 3D objects using score distillation methods with an additional temporal dimension. Compared to previous work, we pursue a novel compositional generation-based approach, and combine text-to-image, text-to-video, and 3D-aware multiview diffusion models to provide feedback during 4D object optimization, thereby simultaneously enforcing temporal consistency, high-quality visual appearance and realistic geometry. Our method, called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with deformation fields as 4D representation. Crucial to AYG is a novel method to regularize the distribution of the moving 3D Gaussians and thereby stabilize the optimization and induce motion. We also propose a motion amplification mechanism as well as a new autoregressive synthesis scheme to generate and combine multiple 4D sequences for longer generation. These techniques allow us to synthesize vivid dynamic scenes, outperform previous work qualitatively and quantitatively and achieve state-of-the-art text-to-4D performance. Due to the Gaussian 4D representation, different 4D animations can be seamlessly combined, as we demonstrate. AYG opens up promising avenues for animation, simulation and digital content creation as well as synthetic data generation.
翻訳日:2024-01-04 16:07:59 公開日:2024-01-03
# 自然言語処理と多モーダル株価予測

Natural Language Processing and Multimodal Stock Price Prediction ( http://arxiv.org/abs/2401.01487v1 )

ライセンス: Link先を確認
Kevin Taylor and Jerry Ng(参考訳) 金融決定の領域では、株価の予測が重要である。 長期記憶ネットワーク(LSTM)、サポートベクターマシン(SVM)、自然言語処理(NLP)モデルなどの人工知能技術は、一般的にその価格を予測するために使用される。 本稿では,公開ニュース記事の分析に焦点をあて,従来の通貨価値の活用とは対照的に,株価変動をトレーニングデータとして活用する。 パーセンテージチェンジの選択は、価格変動の意義と、ある株式に対する全体的な価格変化の影響に関するモデルを提供することを目的としている。 bert自然言語処理モデルを用いて株価の傾向を予測し、特に様々なデータモダリティに重点を置いている。 その結果、このような戦略を小さな自然言語処理モデルで示し、全体の株価トレンドを正確に予測し、特定のデータ特徴とセクター固有のデータの有効性を強調した。

In the realm of financial decision-making, predicting stock prices is pivotal. Artificial intelligence techniques such as long short-term memory networks (LSTMs), support-vector machines (SVMs), and natural language processing (NLP) models are commonly employed to predict said prices. This paper utilizes stock percentage change as training data, in contrast to the traditional use of raw currency values, with a focus on analyzing publicly released news articles. The choice of percentage change aims to provide models with context regarding the significance of price fluctuations and overall price change impact on a given stock. The study employs specialized BERT natural language processing models to predict stock price trends, with a particular emphasis on various data modalities. The results showcase the capabilities of such strategies with a small natural language processing model to accurately predict overall stock trends, and highlight the effectiveness of certain data features and sector-specific data.
翻訳日:2024-01-04 15:49:12 公開日:2024-01-03
# s$^{2}$-dms:スキップステップ拡散モデル

S$^{2}$-DMs:Skip-Step Diffusion Models ( http://arxiv.org/abs/2401.01520v1 )

ライセンス: Link先を確認
Yixuan Wang and Shuangyin Li(参考訳) 拡散モデルは強力な生成ツールとして出現し、サンプル品質のGANと競合し、自己回帰モデルの可能性スコアを反映している。 これらのモデルのサブセットはDDIMによって例示され、固有の非対称性を示す:それらは$T$ステップで訓練されるが、生成時に$T$のサブセットからのみサンプルされる。 この選択的サンプリングアプローチは、スピードに最適化されているものの、誤ってアンサンプリングされたステップから重要な情報を除外し、サンプル品質の潜在的な妥協につながる。 この問題に対処するため、S$^{2}$-DMは、選択的サンプリングフェーズで省略された情報を再統合するように細心に設計された革新的な$L_{skip}$を用いて、新しいトレーニング手法である。 このアプローチの利点は、特にサンプルの品質を高め、実装が非常にシンプルで、最小限のコード修正が必要であり、様々なサンプリングアルゴリズムと互換性を持つほど柔軟である。 cifar10データセットでは,様々なサンプリングアルゴリズム(ddim,pndm,deis)および異なるサンプリングステップ(10,20,...,1000)において,従来の手法でトレーニングされたモデルに対して3.27%から14.06%の改善を示した。 CELEBAデータセットでは、改善は8.97%から27.08%まで変化した。 コードへのアクセスと追加のリソースはgithubで提供される。

Diffusion models have emerged as powerful generative tools, rivaling GANs in sample quality and mirroring the likelihood scores of autoregressive models. A subset of these models, exemplified by DDIMs, exhibit an inherent asymmetry: they are trained over $T$ steps but only sample from a subset of $T$ during generation. This selective sampling approach, though optimized for speed, inadvertently misses out on vital information from the unsampled steps, leading to potential compromises in sample quality. To address this issue, we present the S$^{2}$-DMs, which is a new training method by using an innovative $L_{skip}$, meticulously designed to reintegrate the information omitted during the selective sampling phase. The benefits of this approach are manifold: it notably enhances sample quality, is exceptionally simple to implement, requires minimal code modifications, and is flexible enough to be compatible with various sampling algorithms. On the CIFAR10 dataset, models trained using our algorithm showed an improvement of 3.27% to 14.06% over models trained with traditional methods across various sampling algorithms (DDIMs, PNDMs, DEIS) and different numbers of sampling steps (10, 20, ..., 1000). On the CELEBA dataset, the improvement ranged from 8.97% to 27.08%. Access to the code and additional resources is provided in the github.
翻訳日:2024-01-04 15:37:09 公開日:2024-01-03
# ピクセルからスライド画像へ : 表現学習を用いた分極モダリティに基づく病理診断

From Pixel to Slide image: Polarization Modality-based Pathological Diagnosis Using Representation Learning ( http://arxiv.org/abs/2401.01496v1 )

ライセンス: Link先を確認
Jia Dong, Yao Yao, Yang Dong, Hui Ma(参考訳) 甲状腺癌は最も一般的な内分泌腫瘍であり、良性と悪性の甲状腺腫瘍を正確に区別することが臨床的に有効な治療法の開発に不可欠である。 病理組織学的には、甲状腺腫瘍は不適切な検体採取による診断上の課題となる。 本研究では,甲状腺腫瘍の鑑別にピクセルレベルとスライスレベルのアノテーションを統合するために,表現学習を用いた3段階モデルを構築した。 本構造は、甲状腺腫瘍に関連する構造を予測する病理構造認識方法と、画像ブロックの特徴表現を学習して画素レベルアノテーション情報を抽出するエンコーダ−デコーダネットワークと、最終分類タスクのための注意に基づく学習機構とを含む。 このメカニズムは,各ブロックからの情報をグローバルに考慮して,病理領域における異なる画像ブロックの重要性を学習する。 第3段階では、領域内の画像ブロックからのすべての情報を注意機構を用いて集約し、次に分類して領域のカテゴリを決定する。 実験の結果,提案手法は顕微鏡構造をより正確に予測できることがわかった。 カラーコーディング後、ヘマトキシリンおよびエオシン染色の質を近似する未染色の病理スライドの結果を得るとともに、染色された病理スライドの必要性を低減させる。 さらに, 病変と相関する構造から間接計測と分極特性の抽出という概念を活用することにより, 試料採取により膜構造が得られない試料を分類し, 甲状腺腫瘍に対する潜在的かつ高精度な間接診断技術を提供することができる。

Thyroid cancer is the most common endocrine malignancy, and accurately distinguishing between benign and malignant thyroid tumors is crucial for developing effective treatment plans in clinical practice. Pathologically, thyroid tumors pose diagnostic challenges due to improper specimen sampling. In this study, we have designed a three-stage model using representation learning to integrate pixel-level and slice-level annotations for distinguishing thyroid tumors. This structure includes a pathology structure recognition method to predict structures related to thyroid tumors, an encoder-decoder network to extract pixel-level annotation information by learning the feature representations of image blocks, and an attention-based learning mechanism for the final classification task. This mechanism learns the importance of different image blocks in a pathological region, globally considering the information from each block. In the third stage, all information from the image blocks in a region is aggregated using attention mechanisms, followed by classification to determine the category of the region. Experimental results demonstrate that our proposed method can predict microscopic structures more accurately. After color-coding, the method achieves results on unstained pathology slides that approximate the quality of Hematoxylin and eosin staining, reducing the need for stained pathology slides. Furthermore, by leveraging the concept of indirect measurement and extracting polarized features from structures correlated with lesions, the proposed method can also classify samples where membrane structures cannot be obtained through sampling, providing a potential objective and highly accurate indirect diagnostic technique for thyroid tumors.
翻訳日:2024-01-04 15:36:38 公開日:2024-01-03
# グラフコントラスト学習に基づく2段階多モーダル感情認識モデル

A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning ( http://arxiv.org/abs/2401.01495v1 )

ライセンス: Link先を確認
Wei Ai, FuChen Zhang, Tao Meng, YunTao Shou, HongEn Shao, Keqin Li(参考訳) 人とコンピュータのインタラクションに関しては,会話中のユーザの感情状態を正確に理解することがますます重要になってきており,マルチモーダル感情認識(MER)の課題が注目されるようになった。 しかし、既存の感情分類法は、通常1回だけ分類を行う。 文は単一の分類で誤分類される可能性が高い。 以前の研究は通常、核融合過程における異なる形態的特徴の類似性と相違を無視している。 そこで本稿では,グラフコントラスト学習(TS-GCL)に基づく2段階感情認識モデルを提案する。 まず、元のデータセットを異なるプリプロセッシングモードでエンコードします。 第2に,これら3つのモーダルデータに対して,モーダル内の類似性と差異を学習するためのグラフコントラスト学習(gcl)戦略を導入する。 最後に、最後の感情分類を達成するために2回MLPを使用する。 この段階分類法は、モデルが様々なレベルの感情情報により焦点を合わせるのに役立つため、モデルの性能が向上する。 大規模な実験により、TS-GCLはIEMOCAPおよびMELDデータセットよりも優れた性能を示した。

In terms of human-computer interaction, it is becoming more and more important to correctly understand the user's emotional state in a conversation, so the task of multimodal emotion recognition (MER) started to receive more attention. However, existing emotion classification methods usually perform classification only once. Sentences are likely to be misclassified in a single round of classification. Previous work usually ignores the similarities and differences between different morphological features in the fusion process. To address the above issues, we propose a two-stage emotion recognition model based on graph contrastive learning (TS-GCL). First, we encode the original dataset with different preprocessing modalities. Second, a graph contrastive learning (GCL) strategy is introduced for these three modal data with other structures to learn similarities and differences within and between modalities. Finally, we use MLP twice to achieve the final emotion classification. This staged classification method can help the model to better focus on different levels of emotional information, thereby improving the performance of the model. Extensive experiments show that TS-GCL has superior performance on IEMOCAP and MELD datasets compared with previous methods.
翻訳日:2024-01-04 15:36:10 公開日:2024-01-03
# フェデレートリモートセンシング対象の細粒度分類のためのフリーランチ-パラメーター効率の枠組み

Free Lunch for Federated Remote Sensing Target Fine-Grained Classification: A Parameter-Efficient Framework ( http://arxiv.org/abs/2401.01493v1 )

ライセンス: Link先を確認
Shengchao Chen, Ting Shu, Huan Zhao, Jiahao Wang, Sufen Ren, Lina Yang(参考訳) リモートセンシングターゲットきめ細粒度分類(TFGC)は、軍用および民間の両方で非常に重要である。 ロケーションの違い、データサイズの増加、集中型サーバストレージの制約のため、これらのデータは通常、リージョン/リージョン間で異なるデータベースに格納される。 しかし、プライバシー法と国家安全保障に関する懸念により、研究者はより詳細なリモートセンシング画像にアクセスすることを制限している。 さらに、低リソースのリモートセンシングデバイスは、ますます増大するデータとモデルスケールを扱う際の通信オーバーヘッドと効率の面で課題に直面する。 上記の課題を解決するために,PRFLと呼ばれるフェデレートラーニングに基づく新しいプライバシー保護TFGCフレームワークを提案する。 提案するフレームワークにより、各クライアントはグローバルおよびローカルの知識を学習し、極端に統計的に異質な環境におけるプライベートデータのローカル表現を強化することができる(非独立かつ同一分散、iid)。 したがって、異なるデータ分布を持つクライアントに高度にカスタマイズされたモデルを提供する。 さらに、このフレームワークは通信オーバーヘッドを最小化し、良好な性能を確保しつつ効率を向上し、資源難条件下での堅牢性と実用性を向上させる。 4つの公開データセットを活用することにより,従来のTFGCタスクにおけるPRFLの有効性を示す。

Remote Sensing Target Fine-grained Classification (TFGC) is of great significance in both military and civilian fields. Due to location differences, growth in data size, and centralized server storage constraints, these data are usually stored under different databases across regions/countries. However, privacy laws and national security concerns constrain researchers from accessing these sensitive remote sensing images for further analysis. Additionally, low-resource remote sensing devices encounter challenges in terms of communication overhead and efficiency when dealing with the ever-increasing data and model scales. To solve the above challenges, this paper proposes a novel Privacy-Reserving TFGC Framework based on Federated Learning, dubbed PRFL. The proposed framework allows each client to learn global and local knowledge to enhance the local representation of private data in environments with extreme statistical heterogeneity (non. Independent and Identically Distributed, IID). Thus, it provides highly customized models to clients with differentiated data distributions. Moreover, the framework minimizes communication overhead and improves efficiency while ensuring satisfactory performance, thereby enhancing robustness and practical applicability under resource-scarce conditions. We demonstrate the effectiveness of the proposed PRFL on the classical TFGC task by leveraging four public datasets.
翻訳日:2024-01-04 15:35:50 公開日:2024-01-03
# 直接データ駆動制御としてのニューロン

The Neuron as a Direct Data-Driven Controller ( http://arxiv.org/abs/2401.01489v1 )

ライセンス: Link先を確認
Jason Moore, Alexander Genkin, Magnus Tournoy, Joshua Pughe-Sanford, Rob R. de Ruyter van Steveninck, and Dmitri B. Chklovskii(参考訳) 生理学的データのギャップの中でニューロンの機能をモデル化しようとする試みにおいて、有望な戦略は、神経生理学を計算目的の最適化として解釈する規範理論を開発することである。 本研究は、ニューロンを最適フィードバックコントローラとして概念化し、予測を最適化する現在の規範モデルを拡張する。 我々は、ニューロン、特に初期の感覚領域を超えて、その出力を通じて、環境を特定の望ましい状態に向けて操りながら、コントローラとして振る舞うことを仮定する。 この環境はシナプス結合ニューロンと外部運動感覚フィードバックループの両方を含み、シナプスフィードバックによる制御の有効性を評価することができる。 新たなDD-DC(Direct Data-Driven Control)フレームワークを利用することで、ニューロンを生物学的に実現可能なコントローラとしてモデル化する。 私たちのdd-dcニューロンモデルは様々な神経生理学的現象を説明する:その非対称性によるspike-timing-dependent plasticity(stdp)の増強から抑うつへのシフト、フィードフォワードおよびフィードバックニューロンフィルタの持続時間と適応性、一定の刺激下でのスパイク発生の欠如、脳の操作的変動とノイズ。 我々のモデルは、従来の、フィードフォワード、即時応答のマカロック-ピッツ-ローゼンブラットニューロンから大きく離れており、ニューラルネットワークを構築するための、新しく生物学的にインフォームドされた基本ユニットを提供する。

In the quest to model neuronal function amidst gaps in physiological data, a promising strategy is to develop a normative theory that interprets neuronal physiology as optimizing a computational objective. This study extends the current normative models, which primarily optimize prediction, by conceptualizing neurons as optimal feedback controllers. We posit that neurons, especially those beyond early sensory areas, act as controllers, steering their environment towards a specific desired state through their output. This environment comprises both synaptically interlinked neurons and external motor sensory feedback loops, enabling neurons to evaluate the effectiveness of their control via synaptic feedback. Utilizing the novel Direct Data-Driven Control (DD-DC) framework, we model neurons as biologically feasible controllers which implicitly identify loop dynamics, infer latent states and optimize control. Our DD-DC neuron model explains various neurophysiological phenomena: the shift from potentiation to depression in Spike-Timing-Dependent Plasticity (STDP) with its asymmetry, the duration and adaptive nature of feedforward and feedback neuronal filters, the imprecision in spike generation under constant stimulation, and the characteristic operational variability and noise in the brain. Our model presents a significant departure from the traditional, feedforward, instant-response McCulloch-Pitts-Rosenblatt neuron, offering a novel and biologically-informed fundamental unit for constructing neural networks.
翻訳日:2024-01-04 15:35:30 公開日:2024-01-03
# 誘電体メタサーフェスによる光子識別性の単発キャラクタリゼーション

Single-shot characterization of photon indistinguishability with dielectric metasurfaces ( http://arxiv.org/abs/2401.01485v1 )

ライセンス: Link先を確認
Jihua Zhang, Jinyong Ma, Neuton Li, Shaun Lung, Andrey A. Sukhorukov(参考訳) 光子の区別不可能性を特徴づけることは、量子フォトニクスにおいて重要な課題であり、光子源のチューニングと安定化を支え、量子演算の精度を高める。 非識別可能性の程度を測定するためのプロトコルは、従来、複数の異なる時間または位相遅延での光子結合測定を必要としており、これは高速測定と非識別可能性のリアルタイム監視に対する根本的なボトルネックである。 そこで我々は, 時間, スペクトル, 空間モード, 偏光を含む多自由度における2つの光子間の不均一性を単一ショットで評価できるような, 再構成可能な要素を伴わない静的誘電体変成格子を開発した。 トポロジー最適化は、偏光独立性、高い透過性、そして測定ノイズに対する高い耐性を持つシリコン準曲面を設計するために用いられる。 我々はメタサーフェスを作製し、98.4%以上の忠実度で時間領域における光子の識別不能性を実験的に定量化する。 超薄型変成層を基盤としたフレームワークは、多光子状態と空間的モダリティに関連する追加自由度のためにさらに拡張できると予想する。

Characterizing the indistinguishability of photons is a key task in quantum photonics, underpinning the tuning and stabilization of the photon sources and thereby increasing the accuracy of quantum operations. The protocols for measuring the degree of indistinguishability conventionally require photon-coincidence measurements at several different time or phase delays, which is a fundamental bottleneck towards the fast measurements and real-time monitoring of indistinguishability. Here, we develop a static dielectric metasurface grating without any reconfigurable elements that enables single-shot characterization of the indistinguishability between two photons in multiple degrees of freedom including time, spectrum, spatial modes, and polarization. Topology optimization is employed to design a silicon metasurface with polarization independence, high transmission, and high tolerance to measurement noise. We fabricate the metasurface and experimentally quantify the indistinguishability of photons in the time domain with fidelity over 98.4%. We anticipate that the developed framework based on ultrathin metasurfaces can be further extended for multi-photon states and additional degrees of freedom associated with spatial modalities.
翻訳日:2024-01-04 15:35:00 公開日:2024-01-03
# 不確実な正規化証拠回帰

Uncertainty Regularized Evidential Regression ( http://arxiv.org/abs/2401.01484v1 )

ライセンス: Link先を確認
Kai Ye, Tiejin Chen, Hua Wei, Liang Zhan(参考訳) Evidential Regression Network(ERN)は、ディープラーニングとDempster-Shaferの理論を統合して、ターゲットを予測し、関連する不確実性を定量化する新しいアプローチである。 基本理論によって導かれる特定のアクティベーション関数は、非負の値を強制するために用いられる必要があり、これは全てのサンプルから学習する能力を制限することによってモデル性能を損なう制約である。 本稿では,この限界を理論的に解析し,克服するための改善を提案する。 まず、モデルがサンプルから効果的に学習できない領域を定義します。 次に、ERNを徹底的に分析し、この制約について検討する。 分析から得られた知見を活用して、ERNにトレーニングセット全体から学ぶ権限を与える新たな正規化用語を導入することで、制限に対処する。 広範な実験により,提案手法の有効性が実証された。

The Evidential Regression Network (ERN) represents a novel approach that integrates deep learning with Dempster-Shafer's theory to predict a target and quantify the associated uncertainty. Guided by the underlying theory, specific activation functions must be employed to enforce non-negative values, which is a constraint that compromises model performance by limiting its ability to learn from all samples. This paper provides a theoretical analysis of this limitation and introduces an improvement to overcome it. Initially, we define the region where the models can't effectively learn from the samples. Following this, we thoroughly analyze the ERN and investigate this constraint. Leveraging the insights from our analysis, we address the limitation by introducing a novel regularization term that empowers the ERN to learn from the whole training set. Our extensive experiments substantiate our theoretical findings and demonstrate the effectiveness of the proposed solution.
翻訳日:2024-01-04 15:34:41 公開日:2024-01-03
# 物体認識における地理的ロバスト性向上のためのジオディバース知識の活用

Incorporating Geo-Diverse Knowledge into Prompting for Increased Geographical Robustness in Object Recognition ( http://arxiv.org/abs/2401.01482v1 )

ライセンス: Link先を確認
Kyle Buettner, Sina Malakouti, Xiang Lorraine Li, Adriana Kovashka(参考訳) 既存のオブジェクト認識モデルは、設計とコンテキストが大幅に変化するため、様々な地理的シナリオにおいて堅牢性を欠いていることが示されている。 クラス表現は、これらのシフトの下でより正確にオブジェクト概念を反映するように適応する必要がある。 対象地形からのトレーニングデータがない場合,対象カテゴリーの地理的記述的知識を活用してロバスト性を高めることができると仮定する。 この目的のために,地理固有の対象知識に対する大言語モデルの探索の可能性を検討し,クリップビジョン言語モデルを用いて,ゼロショットと学習可能なソフトプロンプトにおける知識の統合について検討する。 特に,地理知識の正規化手法を提案し,地理のソースセットで訓練されたソフトプロンプトが,未知のターゲットセットに一般化されることを保証する。 ヨーロッパからのデータでのみ訓練されたモデルから一般化したDolarStreetは、アフリカからの国では+2.8、最も厳しいクラスでは+4.6である。 さらに,少ない目標訓練に対する競争力を示すとともに,記述的知識が地理的な差異をどのように捉えているかについての知見を提供する。

Existing object recognition models have been shown to lack robustness in diverse geographical scenarios due to significant domain shifts in design and context. Class representations need to be adapted to more accurately reflect an object concept under these shifts. In the absence of training data from target geographies, we hypothesize that geography-specific descriptive knowledge of object categories can be leveraged to enhance robustness. For this purpose, we explore the feasibility of probing a large-language model for geography-specific object knowledge, and we investigate integrating knowledge in zero-shot and learnable soft prompting with the CLIP vision-language model. In particular, we propose a geography knowledge regularization method to ensure that soft prompts trained on a source set of geographies generalize to an unseen target set of geographies. Our gains on DollarStreet when generalizing from a model trained only on data from Europe are as large as +2.8 on countries from Africa, and +4.6 on the hardest classes. We further show competitive performance vs. few-shot target training, and provide insights into how descriptive knowledge captures geographical differences.
翻訳日:2024-01-04 15:34:28 公開日:2024-01-03
# kernel-u-net:多変量時系列予測のための階層的および対称的フレームワーク

Kernel-U-Net: Hierarchical and Symmetrical Framework for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2401.01479v1 )

ライセンス: Link先を確認
Jiang You, Re\'ne Natowicz, Arben Cela, Jacob Ouanounou, Patrick Siarry(参考訳) 時系列予測タスクは、履歴情報に基づいて将来のトレンドを予測する。 近年のU-Netベースの手法は,実世界のデータセット予測において優れた性能を示した。 しかし、これらのモデルの性能はパッチベースモデルや線形モデルよりも低い。 本研究では,ネットワークの各層で入力シーケンスをスライスに分割し,カーネルを用いて計算する,対称的で階層的なKernel-U-Netを提案する。 さらに、U-Netにおける畳み込みカーネルの概念を一般化し、同じ設計パターンに従うカスタムカーネルを受け入れる。 既存の線形あるいは変圧器ベースのソリューションと比較して、我々のモデルは3つの利点がある。 パラメータのサイズは$o(log(l)^2)$であり、ここで$l$はルックバックウィンドウサイズである。 2) 柔軟性: カーネルをカスタマイズしてデータセットに適合させることができる。 3) 計算効率: 変圧器モジュールの計算複雑性は、潜伏ベクトルに近ければ$O(log(L)^2)$に削減される。 Kernel-U-Netの精度は、6つの(7つの)実世界のデータセットの最先端モデルよりも高かった。

Time series forecasting task predicts future trends based on historical information. Recent U-Net-based methods have demonstrated superior performance in predicting real-world datasets. However, the performance of these models is lower than patch-based models or linear models. In this work, we propose a symmetric and hierarchical framework, Kernel-U-Net, which cuts the input sequence into slices at each layer of the network and then computes them using kernels. Furthermore, it generalizes the concept of convolutional kernels in classic U-Net to accept custom kernels that follow the same design pattern. Compared to the existing linear or transformer-based solution, our model contains 3 advantages: 1) A small number of parameters: the parameters size is $O(log(L)^2)$ where $L$ is the look-back window size, 2) Flexibility: its kernels can be customized and fitted to the datasets, 3) Computation efficiency: the computation complexity of transformer modules is reduced to $O(log(L)^2)$ if they are placed close to the latent vector. Kernel-U-Net accuracy was greater than or equal to the state-of-the-art model on six (out of seven) real-world datasets.
翻訳日:2024-01-04 15:34:07 公開日:2024-01-03
# Stack Overflow Answersにおける情報ハイライトの紹介

A First Look at Information Highlighting in Stack Overflow Answers ( http://arxiv.org/abs/2401.01472v1 )

ライセンス: Link先を確認
Shahla Shaan Ahmed (1), Shaowei Wang (1), Yuan Tian (2), Tse-Hsun (Peter) Chen (3), Haoxiang Zhang (4) ((1) Department of Computer Science, University of Manitoba, Canada, (2) School of Computing, Queen's University, Canada, (3) Department of Computer Science and Software Engineering, Concordia University, Canada, (4) Huawei, Canada)(参考訳) コンテキスト: Stack Overflow(SO)の知識をナビゲートすることはまだ難しい。 ユーザーが投稿を鮮明にするために、ユーザーがMarkdownやHTMLで投稿を書いたり編集したりできるので、ユーザーは様々なフォーマットスタイル(大胆、イタリック、コードなど)を利用して重要な情報をハイライトすることができる。 にもかかわらず、強調された情報に関する研究は限られている。 目的: 最近の研究では, so回答で強調された情報について, 初めて大規模探索研究を行った。 従来の研究を拡張すべく、まず名前付きエンティティ認識タスク用に設計されたニューラルネットワークアーキテクチャを用いて、フォーマットスタイルのハイライトコンテンツを自動的に推奨する手法を開発した。 方法:本稿では,stack overflowの31,169,429の回答を調査した。 推奨モデルのトレーニングには、SOの回答から収集した情報ハイライトデータセットを使用して、フォーマットの種類ごとにCNNとBERTモデル(Bold、Iteric、Code、Heading)を選択します。 結果: CNNアーキテクチャに基づくモデルでは0.71から0.82の精度が得られた。 自動コードコンテンツハイライトのためのトレーニングされたモデルは、0.73のリコールとF1スコアの0.71を達成し、他のフォーマットスタイルのトレーニングされたモデルよりも優れている。 BERTモデルはCNNモデルよりもリコールが低く、F1スコアも低い。 失敗事例の分析から,失敗事例の大部分は識別の欠如(つまり,強調すべき内容が欠落している)であり,モデルでは強調される単語を学習する傾向があり,頻繁な単語の学習に苦しむ傾向がみられた。 結論: stack overflow 上で異なるフォーマットスタイルで回答の情報を強調表示するためのレコメンデーションモデルの開発が可能であることを示唆する。

Context: Navigating the knowledge of Stack Overflow (SO) remains challenging. To make the posts vivid to users, SO allows users to write and edit posts with Markdown or HTML so that users can leverage various formatting styles (e.g., bold, italic, and code) to highlight the important information. Nonetheless, there have been limited studies on the highlighted information. Objective: We carried out the first large-scale exploratory study on the information highlighted in SO answers in our recent study. To extend our previous study, we develop approaches to automatically recommend highlighted content with formatting styles using neural network architectures initially designed for the Named Entity Recognition task. Method: In this paper, we studied 31,169,429 answers of Stack Overflow. For training recommendation models, we choose CNN and BERT models for each type of formatting (i.e., Bold, Italic, Code, and Heading) using the information highlighting dataset we collected from SO answers. Results: Our models based on CNN architecture achieve precision ranging from 0.71 to 0.82. The trained model for automatic code content highlighting achieves a recall of 0.73 and an F1 score of 0.71, outperforming the trained models for other formatting styles. The BERT models have even lower recalls and F1 scores than the CNN models. Our analysis of failure cases indicates that the majority of the failure cases are missing identification (i.e., the model misses the content that is supposed to be highlighted) due to the models tend to learn the frequently highlighted words while struggling to learn less frequent words. Conclusion: Our findings suggest that it is possible to develop recommendation models for highlighting information for answers with different formatting styles on Stack Overflow.
翻訳日:2024-01-04 15:33:50 公開日:2024-01-03
# 効率的な視覚変圧器用トークン伝搬制御装置

Token Propagation Controller for Efficient Vision Transformer ( http://arxiv.org/abs/2401.01470v1 )

ライセンス: Link先を確認
Wentao Zhu(参考訳) ビジョントランスフォーマー (vits) は様々なコンピュータビジョンタスクで有望な結果を得たが、入力トークンの数の二次的な複雑さは、特にリソース制約のある設定でアプリケーションを制限する。 この課題に対処するために段階的なトークン削減を使用する以前のアプローチでは、ひとつのレイヤのトークン冗長性が、以下のすべてのレイヤの冗長性を意味すると仮定している。 我々は、この仮定がしばしば正しくないことを実証する。すなわち、1つの層で冗長なトークンは、後続の層で有用である。 本稿では,トークンの低減と再利用をそれぞれ制御する2つの異なるトークン分布,すなわち停止確率と再起動確率を組み込んだ新しいトークン伝搬制御(TPC)を提案する。 トークン分布の推定値を改善するために,正規化器として機能し,ノイズの多い外乱を除去するスムース化機構を提案する。 さらに,提案したTPCのトレーニング安定性を向上させるために,局所像構造を暗黙的に符号化し,モデルトレーニング中の精度変動を最小限に抑えるモデル安定化器を提案する。 提案手法の有効性を実証するために,DeiT,LV-ViT,Swinモデルを用いたImageNet-1Kデータセットの広範な実験結果を示す。 例えば、ベースラインモデルと比較して、提案手法はDeiT-Sの推論速度を250%向上し、分類精度は1.0%向上した。

Vision transformers (ViTs) have achieved promising results on a variety of Computer Vision tasks, however their quadratic complexity in the number of input tokens has limited their application specially in resource-constrained settings. Previous approaches that employ gradual token reduction to address this challenge assume that token redundancy in one layer implies redundancy in all the following layers. We empirically demonstrate that this assumption is often not correct, i.e., tokens that are redundant in one layer can be useful in later layers. We employ this key insight to propose a novel token propagation controller (TPC) that incorporates two different token-distributions, i.e., pause probability and restart probability to control the reduction and reuse of tokens respectively, which results in more efficient token utilization. To improve the estimates of token distributions, we propose a smoothing mechanism that acts as a regularizer and helps remove noisy outliers. Furthermore, to improve the training-stability of our proposed TPC, we introduce a model stabilizer that is able to implicitly encode local image structures and minimize accuracy fluctuations during model training. We present extensive experimental results on the ImageNet-1K dataset using DeiT, LV-ViT and Swin models to demonstrate the effectiveness of our proposed method. For example, compared to baseline models, our proposed method improves the inference speed of the DeiT-S by 250% while increasing the classification accuracy by 1.0%.
翻訳日:2024-01-04 15:33:20 公開日:2024-01-03
# Retrieval Augmented Generation を用いた質問応答に基づく電子健康記録の要約

Question-Answering Based Summarization of Electronic Health Records using Retrieval Augmented Generation ( http://arxiv.org/abs/2401.01469v1 )

ライセンス: Link先を確認
Walid Saba, Suzanne Wendelken and James. Shanahan(参考訳) 電子健康記録(EHR)の要約は、患者と医療関係者の両方にとって「スクリーンタイム」を著しく最小化することができる。 近年、EHRの要約には、最先端のニューラルモデルを用いた機械学習パイプラインが採用されている。 しかし,これらのモデルでは十分なアノテートデータを得るのが難しいため,十分な結果が得られていない。 さらに,現代大言語モデル (LLM) における注意機構が入力の大きさの2次的複雑さを付加するという事実から,要約におけるEHRの内容全体を考慮しなければならないという要求は,性能の低下をもたらしている。 本稿では,最新のLLMを用いた意味探索,検索拡張生成(RAG),質問応答を組み合わせることで,これらの欠点を軽減する手法を提案する。 本手法では,主観的専門家(SME)が重要視する特定の質問に対する回答の抽出を行う。 我々のアプローチは非常に効率的であり、訓練は必要とせず、LLMの「幻覚」問題に苦しめられず、要約の内容が反復ではなく、特定の質問に対する多様な回答を持つため、多様性を保証する。

Summarization of electronic health records (EHRs) can substantially minimize 'screen time' for both patients as well as medical personnel. In recent years summarization of EHRs have employed machine learning pipelines using state of the art neural models. However, these models have produced less than adequate results that are attributed to the difficulty of obtaining sufficient annotated data for training. Moreover, the requirement to consider the entire content of an EHR in summarization has resulted in poor performance due to the fact that attention mechanisms in modern large language models (LLMs) adds a quadratic complexity in terms of the size of the input. We propose here a method that mitigates these shortcomings by combining semantic search, retrieval augmented generation (RAG) and question-answering using the latest LLMs. In our approach summarization is the extraction of answers to specific questions that are deemed important by subject-matter experts (SMEs). Our approach is quite efficient; requires minimal to no training; does not suffer from the 'hallucination' problem of LLMs; and it ensures diversity, since the summary will not have repeated content but diverse answers to specific questions.
翻訳日:2024-01-04 15:32:55 公開日:2024-01-03
# DDN-SLAM:ジョイントセマンティックエンコーディングを用いたリアルタイム高密度ダイナミックニューラルインプリシットSLAM

DDN-SLAM: Real-time Dense Dynamic Neural Implicit SLAM with Joint Semantic Encoding ( http://arxiv.org/abs/2401.01545v1 )

ライセンス: Link先を確認
Mingrui Li, Jiaming He, Guangan Jiang, Hongyu Wang(参考訳) 本研究では,動的シーンを対象としたリアルタイムニューラルネットワーク型暗黙的セマンティックSLAMシステムDDN-SLAMを提案する。 既存のニューラル暗黙のSLAMシステムは静的なシーンではよく機能するが、動的干渉を伴う現実世界環境の課題にしばしば遭遇し、追跡とマッピングの効率が悪くなる。 DDN-SLAMは,奥行き誘導型静的マスクの構築と共同マルチ解像度ハッシュ符号化により,動的情報干渉の影響を緩和しつつ,高速ホールフィリングと高品質マッピングを実現する。 追跡ロバスト性を高めるため,光フローと鍵フレームで検証したスパース特徴点を用いてループ閉鎖検出とグローバルバンドル最適化を実現する。 さらに、DDN-SLAMは単分子、ステレオ、RGB-D入力をサポートし、20-30Hzの周波数で頑健に動作している。 6つの仮想/実データセットに関する広範囲な実験により、この手法が動的および静的なシーンにおいて最先端のアプローチよりも優れていることが証明された。

We propose DDN-SLAM, a real-time dense neural implicit semantic SLAM system designed for dynamic scenes. While existing neural implicit SLAM systems perform well in static scenes, they often encounter challenges in real-world environments with dynamic interferences, leading to ineffective tracking and mapping. DDN-SLAM utilizes the priors provided by the deep semantic system, combined with conditional probability fields, for segmentation.By constructing depth-guided static masks and employing joint multi-resolution hashing encoding, we ensure fast hole filling and high-quality mapping while mitigating the effects of dynamic information interference. To enhance tracking robustness, we utilize sparse feature points validated with optical flow and keyframes, enabling loop closure detection and global bundle optimization. Furthermore, DDN-SLAM supports monocular, stereo, and RGB-D inputs, operating robustly at a frequency of 20-30Hz. Extensive experiments on 6 virtual/real datasets demonstrate that our method outperforms state-of-the-art approaches in both dynamic and static scenes.
翻訳日:2024-01-04 15:25:07 公開日:2024-01-03
# インセンティブ互換性のある多対一マッチング市場におけるバンディットの改善

Improved Bandits in Many-to-one Matching Markets with Incentive Compatibility ( http://arxiv.org/abs/2401.01528v1 )

ライセンス: Link先を確認
Fang Kong, Shuai Li(参考訳) 両面のマッチング市場は、リッチな応用のために文献で広く研究されている。 参加者は通常、好みについて不確実であるため、最近は反復的な相互作用を通じて学習するためにオンラインアルゴリズムが採用されている。 \citet{wang2022bandit} は \textit{responsiveness} を持つ多対一の設定でこの問題の研究を開始する。 しかし、彼らの結果は最適ではなく、インセンティブの互換性の保証がない。 より一般的な設定への \citet{kong2023player} の拡張は、プレイヤー-最適後悔に対するほぼ最適境界を達成する。 それでも、コラボレーションのかなりの要件のため、シングルプレーヤーの偏差は、自身の累積報酬の大幅な増加と、他者への後悔の意を表す$O(T)$である。 本稿では,インセンティブ互換性を確保しつつ,多対一市場における後悔感を高めることを目的とする。 最初に、応答性設定のための適応的に探索する-then-deferred-acceptance (aetda) アルゴリズムを提案し、プレイヤー-オプティカルな後悔の上限として$o(n\min\left\{n,k\right\}c\log t/\delta^2)$を導出し、インセンティブ互換性の保証を示す一方で、$n$はプレイヤーの数を表し、$k$はアームの数、$t$は時刻の地平線を表し、$c$はアームの総容量、$\delta$はプレイヤー間の最小の好みギャップを示す。 この結果は \citet{wang2022bandit} を大幅に改善した。 そして、私たちの知る限りでは、このような堅牢な保証を提供するマッチングマーケットにおける、最初のプレイヤー最適保証を構成する。 また、より広範な \textit{substitutable} の選好についても検討し、安定なマッチングとカバー応答性を保証するための最も一般的な条件の1つである。 オンラインDA(ODA)アルゴリズムを考案し,$O(NK\log T/\Delta^2)$ player-pessimal stable regret bound for this set。

Two-sided matching markets have been widely studied in the literature due to their rich applications. Since participants are usually uncertain about their preferences, online algorithms have recently been adopted to learn them through iterative interactions. \citet{wang2022bandit} initiate the study of this problem in a many-to-one setting with \textit{responsiveness}. However, their results are far from optimal and lack guarantees of incentive compatibility. An extension of \citet{kong2023player} to this more general setting achieves a near-optimal bound for player-optimal regret. Nevertheless, due to the substantial requirement for collaboration, a single player's deviation could lead to a huge increase in its own cumulative rewards and an $O(T)$ regret for others. In this paper, we aim to enhance the regret bound in many-to-one markets while ensuring incentive compatibility. We first propose the adaptively explore-then-deferred-acceptance (AETDA) algorithm for responsiveness setting and derive an $O(N\min\left\{N,K\right\}C\log T/\Delta^2)$ upper bound for player-optimal stable regret while demonstrating its guarantee of incentive compatibility, where $N$ represents the number of players, $K$ is the number of arms, $T$ denotes the time horizon, $C$ is arms' total capacities and $\Delta$ signifies the minimum preference gap among players. This result is a significant improvement over \citet{wang2022bandit}. And to the best of our knowledge, it constitutes the first player-optimal guarantee in matching markets that offers such robust assurances. We also consider broader \textit{substitutable} preferences, one of the most general conditions to ensure the existence of a stable matching and cover responsiveness. We devise an online DA (ODA) algorithm and establish an $O(NK\log T/\Delta^2)$ player-pessimal stable regret bound for this setting.
翻訳日:2024-01-04 15:24:45 公開日:2024-01-03
# 病変局在のマルチモーダル自己教師付き学習

Multimodal self-supervised learning for lesion localization ( http://arxiv.org/abs/2401.01524v1 )

ライセンス: Link先を確認
Hao Yang, Hong-Yu Zhou, Cheng Li, Weijian Huang, Jiarun Liu, Yong Liang and Shanshan Wang(参考訳) 画像診断と診断レポートを利用したマルチモーダル深層学習は, 医用画像診断の分野で顕著な進歩を遂げており, 十分なアノテーション情報が欠如している場合に, 特に補助的診断能力を示す。 しかし, 詳細な位置アノテーションがなければ, 正確な位置決めは難しい。 既存の手法では,局所的な情報を用いて詳細なセマンティックアライメントを実現する手法が試みられているが,レポート内の包括的コンテキストの詳細なセマンティックスを抽出する能力は限られている。 そこで本研究では,テキストレポートから全文を局所的意味的アライメントの基本単位とする新しい手法を提案する。 本手法は胸部X線画像と対応するテキストレポートを組み合わせることで,グローバルレベルとローカルレベルの両方でコントラスト学習を行う。 以上の結果から,複数データセットを用いた方法により,病変局在の課題における有効性を確認した。

Multimodal deep learning utilizing imaging and diagnostic reports has made impressive progress in the field of medical imaging diagnostics, demonstrating a particularly strong capability for auxiliary diagnosis in cases where sufficient annotation information is lacking. Nonetheless, localizing diseases accurately without detailed positional annotations remains a challenge. Although existing methods have attempted to utilize local information to achieve fine-grained semantic alignment, their capability in extracting the fine-grained semantics of the comprehensive contextual within reports is limited. To solve this problem, we introduce a new method that takes full sentences from textual reports as the basic units for local semantic alignment. Our approach combines chest X-ray images with their corresponding textual reports, performing contrastive learning at both global and local levels. The leading results obtained by our method on multiple datasets confirm its efficacy in the task of lesion localization.
翻訳日:2024-01-04 15:24:08 公開日:2024-01-03
# GOAT-Bench:ミームベースの社会的虐待による大規模マルチモーダルモデルの安全性

GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse ( http://arxiv.org/abs/2401.01523v1 )

ライセンス: Link先を確認
Hongzhan Lin, Ziyang Luo, Bo Wang, Ruichao Yang and Jing Ma(参考訳) ソーシャルメディアの指数関数的な成長は、デジタル時代のあらゆる先例を超えて、情報の創造、普及、吸収の方法を大きく変えた。 残念なことに、この爆発はミームのオンライン乱用を大幅に増加させた。 ミームのネガティブな影響を評価することは、しばしば微妙で暗黙的な意味を持つため、特に難しい。 これを踏まえて、大規模マルチモーダルモデル(LMM)は、多様なマルチモーダルタスクを扱う際、顕著な能力のために注目の的となっている。 本研究の目的は,様々なLMM(例えば GPT-4V)が,ミームに現れる社会虐待の微妙な側面を識別し,それに対応する能力について,徹底的に検討することである。 我々は、暗黙のヘイトスピーチ、性差別、サイバーいじめなどのテーマをカプセル化した6K以上の様々なミームからなる包括的なミームベンチマークGOAT-Benchを紹介する。 GOAT-Benchを用いて、憎悪、悪行、攻撃性、皮肉、有害なコンテンツを正確に評価するLMMの能力を探求する。 LMMの幅広い実験により、現在のモデルは安全意識に欠けており、様々な形態の暗黙的虐待に敏感であることが明らかとなった。 この欠点は、安全な人工知能を実現する上で重要な障害であると考えています。 GOAT-Benchと関連するリソースはhttps://goatlmm.github.io/で公開されている。

The exponential growth of social media has profoundly transformed how information is created, disseminated, and absorbed, exceeding any precedent in the digital age. Regrettably, this explosion has also spawned a significant increase in the online abuse of memes. Evaluating the negative impact of memes is notably challenging, owing to their often subtle and implicit meanings, which are not directly conveyed through the overt text and imagery. In light of this, large multimodal models (LMMs) have emerged as a focal point of interest due to their remarkable capabilities in handling diverse multimodal tasks. In response to this development, our paper aims to thoroughly examine the capacity of various LMMs (e.g. GPT-4V) to discern and respond to the nuanced aspects of social abuse manifested in memes. We introduce the comprehensive meme benchmark, GOAT-Bench, comprising over 6K varied memes encapsulating themes such as implicit hate speech, sexism, and cyberbullying, etc. Utilizing GOAT-Bench, we delve into the ability of LMMs to accurately assess hatefulness, misogyny, offensiveness, sarcasm, and harmful content. Our extensive experiments across a range of LMMs reveal that current models still exhibit a deficiency in safety awareness, showing insensitivity to various forms of implicit abuse. We posit that this shortfall represents a critical impediment to the realization of safe artificial intelligence. The GOAT-Bench and accompanying resources are publicly accessible at https://goatlmm.github.io/, contributing to ongoing research in this vital field.
翻訳日:2024-01-04 15:23:52 公開日:2024-01-03
# lore++:事前学習によるテーブル構造認識のための論理位置回帰ネットワーク

LORE++: Logical Location Regression Network for Table Structure Recognition with Pre-training ( http://arxiv.org/abs/2401.01522v1 )

ライセンス: Link先を確認
Rujiao Long and Hangdi Xing and Zhibo Yang and Qi Zheng and Zhi Yu and Cong Yao and Fei Huang(参考訳) テーブル構造認識(tsr)は、画像中のテーブルを機械理解可能なフォーマットに抽出することを目的としている。 近年の方法は、検出されたセルボックスの隣接関係を予測したり、テーブル画像から対応するマークアップシーケンスを直接生成する学習によってこの問題を解決している。 しかし、既存のアプローチでは、テーブル構造を復元するための追加のヒューリスティックなルールをカウントするか、テーブル内の長距離依存関係をキャプチャする課題に直面し、複雑さが増す。 本稿では,代替パラダイムを提案する。 我々は、論理的位置回帰問題としてTSRをモデル化し、論理的位置回帰ネットワーク(LORE)と呼ばれる新しいTSRフレームワークを提案する。 提案手法は概念的にシンプルで,訓練が容易で,tsrの他のパラダイムよりも正確である。 さらに,多くのコンピュータビジョンおよび自然言語処理タスクにおける事前学習モデルの成功に触発されて,loreの特徴レベルで空間的および論理的な表現を豊かにするための2つの事前学習タスクを提案し,lore++と呼ばれる改良版を実現した。 lore++での事前トレーニングの導入は大きなメリットを享受していることが証明されており、前者に比べて正確性、一般化、少数ショット能力が大幅に向上した。 従来のパラダイムのメソッドに対する標準ベンチマークの実験は、LORE++の優位性を示し、TSRの論理的位置回帰パラダイムの可能性と将来性を強調している。

Table structure recognition (TSR) aims at extracting tables in images into machine-understandable formats. Recent methods solve this problem by predicting the adjacency relations of detected cell boxes or learning to directly generate the corresponding markup sequences from the table images. However, existing approaches either count on additional heuristic rules to recover the table structures, or face challenges in capturing long-range dependencies within tables, resulting in increased complexity. In this paper, we propose an alternative paradigm. We model TSR as a logical location regression problem and propose a new TSR framework called LORE, standing for LOgical location REgression network, which for the first time regresses logical location as well as spatial location of table cells in a unified network. Our proposed LORE is conceptually simpler, easier to train, and more accurate than other paradigms of TSR. Moreover, inspired by the persuasive success of pre-trained models on a number of computer vision and natural language processing tasks, we propose two pre-training tasks to enrich the spatial and logical representations at the feature level of LORE, resulting in an upgraded version called LORE++. The incorporation of pre-training in LORE++ has proven to enjoy significant advantages, leading to a substantial enhancement in terms of accuracy, generalization, and few-shot capability compared to its predecessor. Experiments on standard benchmarks against methods of previous paradigms demonstrate the superiority of LORE++, which highlights the potential and promising prospect of the logical location regression paradigm for TSR.
翻訳日:2024-01-04 15:23:26 公開日:2024-01-03
# 心理学的応用におけるLCMのフロンティアを探る : 総合的なレビュー

Exploring the Frontiers of LLMs in Psychological Applications: A Comprehensive Review ( http://arxiv.org/abs/2401.01519v1 )

ライセンス: Link先を確認
Luoma Ke (1), Song Tong (1), Peng Chen (2), Kaiping Peng (1) ((1) Department of Psychology, Tsinghua University, (2) School of Social Science, Tsinghua University)(参考訳) 本稿では,心理学応用における大規模言語モデル(LLM)のフロンティアについて考察する。 心理学はいくつかの理論的変化を経験しており、現在の人工知能(AI)と機械学習(特にLLM)の使用は、新しい研究方向を開くことを約束している。 本稿では,ChatGPT などの LLM が心理的研究をどのように変革しているかを詳細に調査する。 認知・行動学、臨床・カウンセリング、教育・発達学、社会的・文化的心理学など、心理学の様々な分野におけるLLMの影響について論じ、人間の認知と行動の側面をシミュレートする可能性を強調する。 論文は、これらのモデルが人間のようなテキスト生成を模倣する能力に精通し、文学レビュー、仮説生成、実験デザイン、実験対象、データ分析、学術著作、心理学におけるピアレビューのための革新的なツールを提供する。 LLMは心理学における研究方法論の進歩に不可欠であるが、その技術的・倫理的課題にも注意が必要である。 データプライバシ、心理学研究におけるllmの使用の倫理的意味、およびこれらのモデルの制限のより深い理解の必要性といった問題があります。 研究者は、倫理基準に固執し、これらの技術をセンシティブな領域に展開する可能性を考慮して、心理的研究にLCMを責任を持って使用するべきである。 この記事では、心理学におけるLLMの現状を概観し、潜在的なメリットと課題を探求する。 これは、研究者がLLLの利点を責任を持って活用し、関連するリスクに対処するための行動である。

This paper explores the frontiers of large language models (LLMs) in psychology applications. Psychology has undergone several theoretical changes, and the current use of Artificial Intelligence (AI) and Machine Learning, particularly LLMs, promises to open up new research directions. We provide a detailed exploration of how LLMs like ChatGPT are transforming psychological research. It discusses the impact of LLMs across various branches of psychology, including cognitive and behavioral, clinical and counseling, educational and developmental, and social and cultural psychology, highlighting their potential to simulate aspects of human cognition and behavior. The paper delves into the capabilities of these models to emulate human-like text generation, offering innovative tools for literature review, hypothesis generation, experimental design, experimental subjects, data analysis, academic writing, and peer review in psychology. While LLMs are essential in advancing research methodologies in psychology, the paper also cautions about their technical and ethical challenges. There are issues like data privacy, the ethical implications of using LLMs in psychological research, and the need for a deeper understanding of these models' limitations. Researchers should responsibly use LLMs in psychological studies, adhering to ethical standards and considering the potential consequences of deploying these technologies in sensitive areas. Overall, the article provides a comprehensive overview of the current state of LLMs in psychology, exploring potential benefits and challenges. It serves as a call to action for researchers to leverage LLLs' advantages responsibly while addressing associated risks.
翻訳日:2024-01-04 15:22:58 公開日:2024-01-03
# 周波数非依存散乱スペクトルを用いた高スケーラブル量子ルータ

Highly Scalable Quantum Router with Frequency-Independent Scattering Spectra ( http://arxiv.org/abs/2401.01518v1 )

ライセンス: Link先を確認
Yue Cai, Kang-Jie Ma, Jie Liu, Gang-Feng Guo, Lei Tan, Wu-Ming Liu(参考訳) 量子ネットワークにおいて重要な役割を果たす光量子ルータは、理論と実験の両方で広く研究されており、その性能は著しく進歩している。 しかし、これらのルータは、入射光子周波数が1つまたは複数の特定の周波数と厳密な共鳴でなければならない最適ルーティング性能を達成するための厳密な要求を課している。 この課題に対処するため,我々は,結合共振導波路(crw)のエネルギー帯域全体に対して,2つ以上の半無限crwに巨大原子を結合することにより,100\%の転送速度で安定に出力できる効率的な量子ルータを設計した。 また, この特徴的な現象の背後にある基本的な物理機構を, 反射波を構成する2つの波間の破壊的干渉の結果として説明し, 証明する。 我々は、入ってくる情報キャリアのエネルギーに影響を受けない出力の量子ルータが、量子ネットワークの実装に対してより信頼性の高いソリューションを提供することを期待している。

Optical quantum routers which play a crucial role in quantum networks, have been extensively studied in both theory and experiment, resulting in significant advancements in their performance. However, these routers impose stringent requirements for achieving optimal routing performance, where the incident photon frequency must be in strict resonance with one or several specific frequencies. To address this challenge, we have designed an efficient quantum router capable of stable output with 100\% transfer rate over the entire energy band of coupled-resonator waveguide (CRW) by coupling a giant atom to two or more semi-infinite CRWs. We also explain and prove the fundamental physical mechanism behind this distinctive phenomenon as the result of destructive interference between two waves composing the final reflected wave. We hope that quantum router with output results unaffected by the energy of the incoming information carriers present a more reliable solution for the implementation of quantum networks.
翻訳日:2024-01-04 15:22:31 公開日:2024-01-03
# コードのためのマスク言語モデルによって統計的に学習される構文能力

Which Syntactic Capabilities Are Statistically Learned by Masked Language Models for Code? ( http://arxiv.org/abs/2401.01512v1 )

ライセンス: Link先を確認
Alejandro Velasco, David N. Palacio, Daniel Rodriguez-Cardenas and Denys Poshyvanyk(参考訳) 本稿では,コード補完タスクにおけるマスケッド言語モデル(MLM)の評価の限界について論じる。 精度に基づく測定を頼りにすることで、プログラミング言語の構文規則を無視してモデルの能力を過大評価する可能性があることを強調する。 これらの課題に対処するために,MLMの評価を高めるために,SyntaxEvalと呼ばれる手法を導入する。 SyntaxEvalは、抽象構文木(AST)に基づいて入力されたモデルの要素をマスキングするプロセスを自動化する。 GitHubリポジトリのデータを用いて,2つのMLMのケーススタディを行った。 その結果,ノードタイプとMLMの精度の間に負の因果効果が認められた。 研究中のMDMはいくつかの構文的能力の予測に失敗する。

This paper discusses the limitations of evaluating Masked Language Models (MLMs) in code completion tasks. We highlight that relying on accuracy-based measurements may lead to an overestimation of models' capabilities by neglecting the syntax rules of programming languages. To address these issues, we introduce a technique called SyntaxEval in which Syntactic Capabilities are used to enhance the evaluation of MLMs. SyntaxEval automates the process of masking elements in the model input based on their Abstract Syntax Trees (ASTs). We conducted a case study on two popular MLMs using data from GitHub repositories. Our results showed negative causal effects between the node types and MLMs' accuracy. We conclude that MLMs under study fail to predict some syntactic capabilities.
翻訳日:2024-01-04 15:22:14 公開日:2024-01-03
# 不確かさから不確かさへの答え:ビデオ質問応答のための不確かさを意識したカリキュラム学習

Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning for Video Question Answering ( http://arxiv.org/abs/2401.01510v1 )

ライセンス: Link先を確認
Haopeng Li, Qiuhong Ke, Mingming Gong, and Tom Drummond(参考訳) ビデオ質問応答 (VideoQA) では大きな進歩があったが、調整困難スケジューリングによるモデル一般化の強化の潜在的な利点は、既存の研究でほとんど見落とされてきた。 本稿では,ビデオqaをカリキュラム学習(cl)フレームワークに取り入れ,より単純なデータからより複雑なデータへとモデルを段階的にトレーニングすることで,そのギャップを埋めることを目的とする。 従来の自己ペースcl手法が難易度測定の訓練損失に依存していることを認識し,不確実性対応clの概念を紹介する。 ここで不確実性は、困難を動的に調整するための指針となる。 さらに,ビデオQAの確率論的モデリング手法を提案することにより,不確実性に起因する課題に対処する。 具体的には,ビデオQAを確率計算グラフとして概念化し,隠れ表現を確率変数として扱う。 これは、データに固有の不確実性に関連するものと、モデルの信頼性に関連するものとの2つの異なるタイプの不確実性をもたらす。 実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。 その結果,本手法は性能向上だけでなく,ビデオQAの文脈における不確かさの定量化にも有効であることがわかった。

While significant advancements have been made in video question answering (VideoQA), the potential benefits of enhancing model generalization through tailored difficulty scheduling have been largely overlooked in existing research. This paper seeks to bridge that gap by incorporating VideoQA into a curriculum learning (CL) framework that progressively trains models from simpler to more complex data. Recognizing that conventional self-paced CL methods rely on training loss for difficulty measurement, which might not accurately reflect the intricacies of video-question pairs, we introduce the concept of uncertainty-aware CL. Here, uncertainty serves as the guiding principle for dynamically adjusting the difficulty. Furthermore, we address the challenge posed by uncertainty by presenting a probabilistic modeling approach for VideoQA. Specifically, we conceptualize VideoQA as a stochastic computation graph, where the hidden representations are treated as stochastic variables. This yields two distinct types of uncertainty: one related to the inherent uncertainty in the data and another pertaining to the model's confidence. In practice, we seamlessly integrate the VideoQA model into our framework and conduct comprehensive experiments. The findings affirm that our approach not only achieves enhanced performance but also effectively quantifies uncertainty in the context of VideoQA.
翻訳日:2024-01-04 15:22:03 公開日:2024-01-03
# REにおけるNLP技術の選択と評価のための実践的ガイドライン

Practical Guidelines for the Selection and Evaluation of NLP Techniques in RE ( http://arxiv.org/abs/2401.01508v1 )

ライセンス: Link先を確認
Mehrdad Sabetzadeh and Chetan Arora(参考訳) 自然言語処理(NLP)が要求自動化の基礎になった。 要求工学(RE)におけるNLPの普及の背景にある重要な要因の1つは、業界における要求を特定するために自然言語(NL)が普及していることである。 NLP技術は、要求を自動的に分類し、ドメインモデルや用語などの重要な情報を抽出し、曖昧性処理や完全性チェックなどの品質保証タスクを実行するために一般的に用いられる。 多くの異なるNLPソリューション戦略が利用可能であり、機械学習を同時に適用することが可能であるため、特定のREタスクの適切な戦略を選択し、結果のソリューションを経験的に厳密な方法で評価することは困難である。 本章では,NLP技術の選択に関するガイドラインと,REの文脈における評価について述べる。 特に,従来のNLP,特徴ベース機械学習,言語モデルに基づく手法など,さまざまな戦略を選択する方法について議論する。 この章の究極の希望は、NLP4REへの新規参入者を支援し、RE分野に最も関係のあるNLP技術に迅速に参入することである。

Natural Language Processing (NLP) is now a cornerstone of requirements automation. One compelling factor behind the growing adoption of NLP in Requirements Engineering (RE) is the prevalent use of natural language (NL) for specifying requirements in industry. NLP techniques are commonly used for automatically classifying requirements, extracting important information, e.g., domain models and glossary terms, and performing quality assurance tasks, such as ambiguity handling and completeness checking. With so many different NLP solution strategies available and the possibility of applying machine learning alongside, it can be challenging to choose the right strategy for a specific RE task and to evaluate the resulting solution in an empirically rigorous manner. This book chapter presents guidelines for the selection of NLP techniques as well as for their evaluation in the context of RE. In particular, we discuss how to choose among different strategies such as traditional NLP, feature-based machine learning, and language-model-based methods. Our ultimate hope for this chapter is to serve as a stepping stone, assisting newcomers to NLP4RE in quickly initiating themselves into the NLP technologies most pertinent to the RE field.
翻訳日:2024-01-04 15:21:42 公開日:2024-01-03
# AIRI:人工知能を用いた保存指標とその不確かさの予測

AIRI: Predicting Retention Indices and their Uncertainties using Artificial Intelligence ( http://arxiv.org/abs/2401.01506v1 )

ライセンス: Link先を確認
Lewis Y. Geer, Stephen E. Stein, William Gary Mallard, Douglas J. Slotta(参考訳) Kov\'ats Retention Index (RI) はガスクロマトグラフィーを用いて測定され、化学構造の同定によく用いられる。 観測されたRI値のライブラリを作成することは面倒な作業であるため、標準的なセミポーラ列の構造からRI値を予測するためのディープニューラルネットワークの利用について検討する。 このネットワークは、平均絶対誤差が15.1で予測し、誤差分布のテールの定量化において、95%の絶対誤差が46.5である。 人工知能保持指標(AIRI)ネットワークの精度のため、NIST EI-MSスペクトルライブラリのRI値を予測するために使用された。 これらのRI値は、化学同定法とライブラリの品質を向上させるために使用される。 予測モデルを使用する場合、不確実性の推定は重要な実用的必要性である。 個々の予測毎にネットワークの不確かさを定量化するため,各RI値の予測値に対して,予測標準偏差を計算するために8ネットワークのアンサンブルの出力を用いた。 この標準偏差は観測値と予測値の誤差に従うように補正された。 これらの標準偏差を用いたzスコアは、平均ri値42.6に対応する標準偏差1.52と95%の絶対zスコアであった。

The Kov\'ats Retention index (RI) is a quantity measured using gas chromatography and commonly used in the identification of chemical structures. Creating libraries of observed RI values is a laborious task, so we explore the use of a deep neural network for predicting RI values from structure for standard semipolar columns. This network generated predictions with a mean absolute error of 15.1 and, in a quantification of the tail of the error distribution, a 95th percentile absolute error of 46.5. Because of the Artificial Intelligence Retention Indices (AIRI) network's accuracy, it was used to predict RI values for the NIST EI-MS spectral libraries. These RI values are used to improve chemical identification methods and the quality of the library. Estimating uncertainty is an important practical need when using prediction models. To quantify the uncertainty of our network for each individual prediction, we used the outputs of an ensemble of 8 networks to calculate a predicted standard deviation for each RI value prediction. This predicted standard deviation was corrected to follow the error between observed and predicted RI values. The Z scores using these predicted standard deviations had a standard deviation of 1.52 and a 95th percentile absolute Z score corresponding to a mean RI value of 42.6.
翻訳日:2024-01-04 15:21:24 公開日:2024-01-03
# Sports-QA: 複雑・専門スポーツのための大規模ビデオ質問回答ベンチマーク

Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports ( http://arxiv.org/abs/2401.01505v1 )

ライセンス: Link先を確認
Haopeng Li, Andong Deng, Qiuhong Ke, Jun Liu, Hossein Rahmani, Yulan Guo, Bernt Schiele, Chen Chen(参考訳) 質問応答のためのスポーツビデオの推論は、プレイヤーのトレーニングや情報検索など、多くのアプリケーションで重要なタスクである。 しかし、関連するデータセットの欠如と、それがもたらす挑戦的な性質のために、このタスクは検討されていない。 ビデオ質問応答(VideoQA)のためのほとんどのデータセットは、専門的なアクション理解と微粒な動き分析を必要とするスポーツシナリオには適用できない日常ビデオの一般的および粗粒度の理解に焦点を当てている。 本稿では,スポーツビデオQAタスクに特化して設計されたSports-QAという最初のデータセットを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。 さらに,スポーツビデオQAタスクの特徴に対処するために,質問応答のための時間情報の特定の尺度に自動的にフォーカスできるオートフォーカストランス (AFT) を提案する。 我々は,ベースライン研究や異なる手法の評価など,スポーツQAに関する広範な実験を行った。 その結果,AFTは最先端の性能を達成できた。

Reasoning over sports videos for question answering is an important task with numerous applications, such as player training and information retrieval. However, this task has not been explored due to the lack of relevant datasets and the challenging nature it presents. Most datasets for video question answering (VideoQA) focus mainly on general and coarse-grained understanding of daily-life videos, which is not applicable to sports scenarios requiring professional action understanding and fine-grained motion analysis. In this paper, we introduce the first dataset, named Sports-QA, specifically designed for the sports VideoQA task. The Sports-QA dataset includes various types of questions, such as descriptions, chronologies, causalities, and counterfactual conditions, covering multiple sports. Furthermore, to address the characteristics of the sports VideoQA task, we propose a new Auto-Focus Transformer (AFT) capable of automatically focusing on particular scales of temporal information for question answering. We conduct extensive experiments on Sports-QA, including baseline studies and the evaluation of different methods. The results demonstrate that our AFT achieves state-of-the-art performance.
翻訳日:2024-01-04 15:21:02 公開日:2024-01-03
# パラメトリック汎用微分ゲームのためのポントリャーギンニューラル演算子

Pontryagin Neural Operator for Solving Parametric General-Sum Differential Games ( http://arxiv.org/abs/2401.01502v1 )

ライセンス: Link先を確認
Lei Zhang, Mukesh Ghimire, Zhe Xu, Wenlong Zhang, Yi Ren(参考訳) 2プレイヤーの一般サム微分ゲームの値はハミルトン・ヤコビ・イザック方程式の粘性解である。 このようなゲームに対する価値と政策の近似は、次元の呪い(cod)に苦しむ。 物理インフォームドニューラルネットワーク(PINN)によるCoDの緩和は、状態制約による値の不連続が存在する場合に収束問題に遭遇する。 これらの課題に加えて、情報が不完全である場合にゲームパラメータ推論のために、ゲームのパラメトリック空間全体にわたって一般化可能な値とポリシーを学ぶ必要がある。 これらの課題に対処するため,本論文では,パラメトリック状態制約のあるゲーム間での安全性性能において,既存の最先端(sota)を上回るポントリャーギンモードニューラルオペレータを提案する。 私たちの重要な貢献は、前向きと後向きのコストトロールアウトの相違について定義されたコストト損失の導入です。 コストのかかるダイナミクスの不連続性(状態制約が存在する場合)は、現在のsomaが提案するような手作業によるデータ監視を必要とせず、効果的に不連続な値の学習を可能にする。 さらに重要なことは、コストとポリシーの密接な関係が、前者が一般的な安全性能を持つフィードバック制御ポリシーを学習する上で重要なものであることを示す。

The values of two-player general-sum differential games are viscosity solutions to Hamilton-Jacobi-Isaacs (HJI) equations. Value and policy approximations for such games suffer from the curse of dimensionality (CoD). Alleviating CoD through physics-informed neural networks (PINN) encounters convergence issues when value discontinuity is present due to state constraints. On top of these challenges, it is often necessary to learn generalizable values and policies across a parametric space of games, e.g., for game parameter inference when information is incomplete. To address these challenges, we propose in this paper a Pontryagin-mode neural operator that outperforms existing state-of-the-art (SOTA) on safety performance across games with parametric state constraints. Our key contribution is the introduction of a costate loss defined on the discrepancy between forward and backward costate rollouts, which are computationally cheap. We show that the discontinuity of costate dynamics (in the presence of state constraints) effectively enables the learning of discontinuous values, without requiring manually supervised data as suggested by the current SOTA. More importantly, we show that the close relationship between costates and policies makes the former critical in learning feedback control policies with generalizable safety performance.
翻訳日:2024-01-04 15:20:42 公開日:2024-01-03
# 意味トークン予測による2段階音声合成のためのニューラルトランスデューサの利用

Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction ( http://arxiv.org/abs/2401.01498v1 )

ライセンス: Link先を確認
Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Semin Kim, Joun Yeop Lee, Nam Soo Kim(参考訳) 本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。 本手法では,wav2vec2.0組込みから得られた離散的意味トークンを用いて,ttsパイプライン全体をセマンティクスレベルシーケンス・ツー・シークエンス(seq2seq)モデリングと細粒度音響モデリングステージに分割する。 頑健で効率的なアライメントモデリングには,そのハードモノトニックなアライメント制約を利用して,意味的トークン予測にトークントランスデューサと呼ばれるニューラルトランスデューサを用いる。 その後、非自己回帰(NAR)音声生成装置は、これらの意味トークンから波形を効率的に合成する。 さらに、参照音声は、各ステージにおける時間的ダイナミクスと音響条件を制御する。 この分離されたフレームワークはttsのトレーニングの複雑さを減らし、各ステージがセマンティクスと音響モデリングに集中できるようにする。 ゼロショット適応tts実験の結果から,本モデルは客観的および主観的に,音声品質と話者類似性の観点から,ベースラインを上回っていることが示された。 また、我々のアプローチの推論速度と韻律制御能力について調べ、TSフレームワークにおけるニューラルトランスデューサの可能性を強調した。

We propose a novel text-to-speech (TTS) framework centered around a neural transducer. Our approach divides the whole TTS pipeline into semantic-level sequence-to-sequence (seq2seq) modeling and fine-grained acoustic modeling stages, utilizing discrete semantic tokens obtained from wav2vec2.0 embeddings. For a robust and efficient alignment modeling, we employ a neural transducer named token transducer for the semantic token prediction, benefiting from its hard monotonic alignment constraints. Subsequently, a non-autoregressive (NAR) speech generator efficiently synthesizes waveforms from these semantic tokens. Additionally, a reference speech controls temporal dynamics and acoustic conditions at each stage. This decoupled framework reduces the training complexity of TTS while allowing each stage to focus on semantic and acoustic modeling. Our experimental results on zero-shot adaptive TTS demonstrate that our model surpasses the baseline in terms of speech quality and speaker similarity, both objectively and subjectively. We also delve into the inference speed and prosody control capabilities of our approach, highlighting the potential of neural transducers in TTS frameworks.
翻訳日:2024-01-04 15:20:19 公開日:2024-01-03
# 勾配蓄積による顔の見えないプライバシークロークの一般化

Enhancing Generalization of Invisible Facial Privacy Cloak via Gradient Accumulation ( http://arxiv.org/abs/2401.01575v1 )

ライセンス: Link先を確認
Xuannan Liu and Yaoyao Zhong and Weihong Deng and Hongzhi Shi and Xingchen Cui and Yunfeng Yin and Dongchao Wen(参考訳) ソーシャルメディアと顔認識(FR)システムの普及は、プライバシーとセキュリティに対する人々の関心を高めている。 悪意のあるFRシステムが識別情報を取得するのを防ぐために、新しいタイプの対人プライバシークローク(クラスユニバーサル)を通常のユーザのすべての画像に適用することができる。 本研究では,大バッチ最適化における局所オプティマ問題と小バッチ最適化における勾配情報除去問題と,既存の手法における最適化ジレンマを発見する。 これらの問題を解決するために,複数の小バッチ勾配を1段階の反復勾配に集約し,勾配安定性を高め,量子化演算を減少させるグラディエント累積法を提案する。 提案手法は,ブラックボックス顔認識モデルに対して,プライバシ・コモンズデータセット上で高い性能を実現することを示す。

The blooming of social media and face recognition (FR) systems has increased people's concern about privacy and security. A new type of adversarial privacy cloak (class-universal) can be applied to all the images of regular users, to prevent malicious FR systems from acquiring their identity information. In this work, we discover the optimization dilemma in the existing methods -- the local optima problem in large-batch optimization and the gradient information elimination problem in small-batch optimization. To solve these problems, we propose Gradient Accumulation (GA) to aggregate multiple small-batch gradients into a one-step iterative gradient to enhance the gradient stability and reduce the usage of quantization operations. Experiments show that our proposed method achieves high performance on the Privacy-Commons dataset against black-box face recognition models.
翻訳日:2024-01-04 15:13:10 公開日:2024-01-03
# 扁桃リンパ節転移の予測におけるモダリティの欠如によるマルチモーダル学習

Multi-modal Learning with Missing Modality in Predicting Axillary Lymph Node Metastasis ( http://arxiv.org/abs/2401.01553v1 )

ライセンス: Link先を確認
Shichuan Zhang, Sunyi Zheng, Zhongyi Shui, Honglin Li, Lin Yang(参考訳) マルチモーダル学習は医用画像解析において広く注目を集めている。 多モードデータ、全スライド画像(WSI)、臨床情報を用いて、近位リンパ節転移の診断におけるディープラーニングモデルの性能を向上させることができる。 しかしながら、プライバシの懸念、リソースの制限、相互運用性の欠如などにより、臨床実践において臨床情報が収集するのは容易ではない。 患者選択は、モデル開発のためのマルチモーダルデータを持つことを保証するが、テスト中に臨床情報の欠如が現れる。 これは通常、パフォーマンスが低下し、クリニックでのマルチモーダルモデルの使用が制限される。 この問題を軽減するために,マルチモーダルブランチと単一モーダルブランチからなる双方向蒸留フレームワークを提案する。 シングルモーダルブランチはマルチモーダルブランチから完全なマルチモーダル知識を取得し、マルチモーダルは単一モーダルからWSIの堅牢な特徴を学習する。 早期乳癌におけるリンパ節転移の公的データセットを用いて実験を行い,その妥当性を検証した。 提案手法は,テストセット上でのAUCが0.861であるだけでなく,モダリティの欠落率80\%の場合には0.842のAUCが得られる。 これは、マルチモーダルデータと欠落モダリティを扱うためのアプローチの有効性を示している。 このようなモデルでは, 近位リンパ節転移を有する早期乳癌患者に対する治療意思決定の改善が期待できる。

Multi-modal Learning has attracted widespread attention in medical image analysis. Using multi-modal data, whole slide images (WSIs) and clinical information, can improve the performance of deep learning models in the diagnosis of axillary lymph node metastasis. However, clinical information is not easy to collect in clinical practice due to privacy concerns, limited resources, lack of interoperability, etc. Although patient selection can ensure the training set to have multi-modal data for model development, missing modality of clinical information can appear during test. This normally leads to performance degradation, which limits the use of multi-modal models in the clinic. To alleviate this problem, we propose a bidirectional distillation framework consisting of a multi-modal branch and a single-modal branch. The single-modal branch acquires the complete multi-modal knowledge from the multi-modal branch, while the multi-modal learns the robust features of WSI from the single-modal. We conduct experiments on a public dataset of Lymph Node Metastasis in Early Breast Cancer to validate the method. Our approach not only achieves state-of-the-art performance with an AUC of 0.861 on the test set without missing data, but also yields an AUC of 0.842 when the rate of missing modality is 80\%. This shows the effectiveness of the approach in dealing with multi-modal data and missing modality. Such a model has the potential to improve treatment decision-making for early breast cancer patients who have axillary lymph node metastatic status.
翻訳日:2024-01-04 15:12:57 公開日:2024-01-03
# cra-pcn:イントラおよびインターレゾリューショントランスフォーマによるポイントクラウドの完成

CRA-PCN: Point Cloud Completion with Intra- and Inter-level Cross-Resolution Transformers ( http://arxiv.org/abs/2401.01552v1 )

ライセンス: Link先を確認
Yi Rong, Haoran Zhou, Lixin Yuan, Cheng Mei, Jiahao Wang, Tong Lu(参考訳) ポイント・クラウド・コンプリートは、閉塞やセンサーの解像度の制限などによる不完全性による完全点雲の回復に必要なタスクである。 粗大な生成アーキテクチャのファミリーは、最近ポイントクラウドの完成で大きな成功を収め、徐々に主流になってきた。 本稿では,これらの手法の背後にある重要な要素の一つである,明示的なクロスレゾリューション集約を用いた特徴抽出操作について紹介する。 局所的な注意機構を持つクロスレゾリューションアグリゲーションを効率的に行うクロスレゾリューショントランスを提案する。 再帰的設計の助けを借りて,提案手法は共通の集約演算よりも多くの特徴を捉えることが可能であり,詳細な幾何学的特徴を捉えるのに有用である。 先行手法は, レベル間クロスレゾリューションアグリゲーションの様々な表現に発展してきたが, レベル内アグリゲーションとそれらの組み合わせの有効性は分析されていない。 統一設計により、クロス・リゾリューション・トランスフォーマーは入力を切り替えることで、レベル内または層間クロスレゾリューションアグリゲーションを行うことができる。 2種類のクロスレゾリューショントランスを1つのアップサンプリングブロックに統合してポイント生成を行い,粗大から細かな方法でcra-pcnを構築し,アップサンプリングブロックを積み重ねて完全な形状を漸進的に予測する。 大規模な実験により, 提案手法は, 広く使用されているベンチマークにおいて, 最先端の手法よりも高い性能を示した。 コードはhttps://github.com/EasyRy/CRA-PCNで公開されている。

Point cloud completion is an indispensable task for recovering complete point clouds due to incompleteness caused by occlusion, limited sensor resolution, etc. The family of coarse-to-fine generation architectures has recently exhibited great success in point cloud completion and gradually became mainstream. In this work, we unveil one of the key ingredients behind these methods: meticulously devised feature extraction operations with explicit cross-resolution aggregation. We present Cross-Resolution Transformer that efficiently performs cross-resolution aggregation with local attention mechanisms. With the help of our recursive designs, the proposed operation can capture more scales of features than common aggregation operations, which is beneficial for capturing fine geometric characteristics. While prior methodologies have ventured into various manifestations of inter-level cross-resolution aggregation, the effectiveness of intra-level one and their combination has not been analyzed. With unified designs, Cross-Resolution Transformer can perform intra- or inter-level cross-resolution aggregation by switching inputs. We integrate two forms of Cross-Resolution Transformers into one up-sampling block for point generation, and following the coarse-to-fine manner, we construct CRA-PCN to incrementally predict complete shapes with stacked up-sampling blocks. Extensive experiments demonstrate that our method outperforms state-of-the-art methods by a large margin on several widely used benchmarks. Codes are available at https://github.com/EasyRy/CRA-PCN.
翻訳日:2024-01-04 15:12:30 公開日:2024-01-03
# 共形予測による自己説明ニューラルネットワークの不確かさのモデル化に向けて

Towards Modeling Uncertainties of Self-explaining Neural Networks via Conformal Prediction ( http://arxiv.org/abs/2401.01549v1 )

ライセンス: Link先を確認
Wei Qian, Chenxu Zhao, Yangyi Li, Fenglong Ma, Chao Zhang, Mengdi Huai(参考訳) 近年のディープニューラルネットワーク(DNN)の進歩にもかかわらず、DNNによる予測を説明するのは難しい。 dnnの既存の説明方法は、主に、説明を提供するために別の説明モデルが使われるポストホックな説明に焦点を当てている。 ポストホックメソッドが実際のDNNの推論プロセスを明らかにするのに失敗するという事実は、ビルトインの解釈性を備えたDNNを構築する必要を生じさせる。 これに触発された多くの自己説明型ニューラルネットワークは、正確な予測だけでなく、特定の決定が下された理由に関する明確で直感的な洞察を生成するために提案されている。 しかし、既存の自己説明ネットワークは、同時に生成された2つの予測結果(サンプルの最終予測とそれに対応する説明)に対して、分布のない不確実性定量化を提供することに制限されている。 重要なのは、解釈層で生成された説明に割り当てられた信頼値と、最終予測層で最終予測に割り当てられた信頼値との接続を確立することもできないことである。 本稿では,自己説明ネットワークのための新たな不確実性モデリングフレームワークを考案し,解釈層で生成された説明に対して,強い分散フリー不確実性モデリング性能を示すだけでなく,情報に富む高レベル基礎説明に基づく最終予測のための効率的かつ効果的な予測セットの作成にも有効であることを示す。 提案手法の理論的解析を行う。 広範な実験評価により,提案手法の有効性が示された。

Despite the recent progress in deep neural networks (DNNs), it remains challenging to explain the predictions made by DNNs. Existing explanation methods for DNNs mainly focus on post-hoc explanations where another explanatory model is employed to provide explanations. The fact that post-hoc methods can fail to reveal the actual original reasoning process of DNNs raises the need to build DNNs with built-in interpretability. Motivated by this, many self-explaining neural networks have been proposed to generate not only accurate predictions but also clear and intuitive insights into why a particular decision was made. However, existing self-explaining networks are limited in providing distribution-free uncertainty quantification for the two simultaneously generated prediction outcomes (i.e., a sample's final prediction and its corresponding explanations for interpreting that prediction). Importantly, they also fail to establish a connection between the confidence values assigned to the generated explanations in the interpretation layer and those allocated to the final predictions in the ultimate prediction layer. To tackle the aforementioned challenges, in this paper, we design a novel uncertainty modeling framework for self-explaining networks, which not only demonstrates strong distribution-free uncertainty modeling performance for the generated explanations in the interpretation layer but also excels in producing efficient and effective prediction sets for the final predictions based on the informative high-level basis explanations. We perform the theoretical analysis for the proposed framework. Extensive experimental evaluation demonstrates the effectiveness of the proposed uncertainty framework.
翻訳日:2024-01-04 15:12:03 公開日:2024-01-03
# 入射ニューラル表現に基づく画像デノイザのブースティング

Boosting of Implicit Neural Representation-based Image Denoiser ( http://arxiv.org/abs/2401.01548v1 )

ライセンス: Link先を確認
Zipei Yan, Zhengji Liu, Jizhou Li(参考訳) Inlicit Neural Representation (INR) は、教師なし画像復調の有効な方法として登場した。 しかし、INRモデルは一般的に過パラメータ化され、その結果、これらのモデルは学習中に過度に適合する傾向にあり、結果が準最適となり、ノイズも生じる。 この問題に対処するため,画像復調においてINRモデルを正規化するための一般的なレシピを提案する。 本稿では,学習過程において,予測信号と監督信号の両方から得られた平均値とを反復的に置き換えることを提案する。 理論的には、このような単純な反復代用は、監視信号の信号と雑音の比を徐々に高め、学習過程においてINRモデルの恩恵を受けることができる。 実験結果から,inrモデルが提案手法により効果的に正則化でき,オーバーフィッティングを緩和し,画像のノイズ除去性能を向上できることを示した。

Implicit Neural Representation (INR) has emerged as an effective method for unsupervised image denoising. However, INR models are typically overparameterized; consequently, these models are prone to overfitting during learning, resulting in suboptimal results, even noisy ones. To tackle this problem, we propose a general recipe for regularizing INR models in image denoising. In detail, we propose to iteratively substitute the supervision signal with the mean value derived from both the prediction and supervision signal during the learning process. We theoretically prove that such a simple iterative substitute can gradually enhance the signal-to-noise ratio of the supervision signal, thereby benefiting INR models during the learning process. Our experimental results demonstrate that INR models can be effectively regularized by the proposed approach, relieving overfitting and boosting image denoising performance.
翻訳日:2024-01-04 15:11:36 公開日:2024-01-03
# 連結運転と自律運転の協調認知:課題, 解決可能性, 機会

Collaborative Perception for Connected and Autonomous Driving: Challenges, Possible Solutions and Opportunities ( http://arxiv.org/abs/2401.01544v1 )

ライセンス: Link先を確認
Senkang Hu, Zhengru Fang, Yiqin Deng, Xianhao Chen, Yuguang Fang(参考訳) 自動運転は、より安全で効率的な運転システムを提供すると期待されている学界と産業の両方から大きな注目を集めている。 しかし、現在の自律運転システムは、主に1台の車両をベースとしており、運転の安全を脅かす重大な制限がある。 コネクテッド・自動運転車(CAV)との協調的な認識は、これらの制限を克服するための有望な解決策である。 本稿では,まず,データ共有の同期性,データボリューム,ポーズエラーといった協調的知覚の課題を明らかにする。 次に,これらの課題に対処するための解決策について,研究の機会を詳述する様々な技術について論じる。 さらに,通信効率と遅延問題に対処する手法を提案する。通信グラフを動的に調整し,遅延を最小限に抑え,通信効率を高めながら知覚性能を向上させるためのチャネル対応協調認識フレームワークである。 最後に,提案手法の有効性を示す実験を行った。

Autonomous driving has attracted significant attention from both academia and industries, which is expected to offer a safer and more efficient driving system. However, current autonomous driving systems are mostly based on a single vehicle, which has significant limitations which still poses threats to driving safety. Collaborative perception with connected and autonomous vehicles (CAVs) shows a promising solution to overcoming these limitations. In this article, we first identify the challenges of collaborative perception, such as data sharing asynchrony, data volume, and pose errors. Then, we discuss the possible solutions to address these challenges with various technologies, where the research opportunities are also elaborated. Furthermore, we propose a scheme to deal with communication efficiency and latency problems, which is a channel-aware collaborative perception framework to dynamically adjust the communication graph and minimize latency, thereby improving perception performance while increasing communication efficiency. Finally, we conduct experiments to demonstrate the effectiveness of our proposed scheme.
翻訳日:2024-01-04 15:11:20 公開日:2024-01-03
# 単発重み結合学習によるリトレーニングフリーモデル量子化

Retraining-free Model Quantization via One-Shot Weight-Coupling Learning ( http://arxiv.org/abs/2401.01543v1 )

ライセンス: Link先を確認
Chen Tang, Yuan Meng, Jiacheng Jiang, Shuzhao Xie, Rongwei Lu, Xinzhu Ma, Zhi Wang, and Wenwu Zhu(参考訳) 量子化は、過パラメータ化されたディープニューラルネットワークモデルを圧縮し、リソース制限されたデバイスにデプロイする上で重要である。 固定精度量子化は数値表現能力の制限により性能低下に苦しむ。 逆に、混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。 MPQは通常、2段階の探索訓練プロセスに編成される。 これまでの作業は、第1段階での最適ビット幅の設定を効率的に決定することのみに焦点を当て、第2段階でのかなりの時間コストを無視した。 しかし、リトレーニングは常に最先端のGPU上で数百のGPU時間を消費するため、デプロイメント効率を著しく損なう。 本稿では,混合精度モデル圧縮のためのワンショット学習パラダイムを提案する。 特に第1段階では、すべての潜在的なビット幅構成が結合され、共有重みのセット内で同時に最適化される。 しかし,提案手法では,高結合重み間のビット幅干渉現象が検出され,高い圧縮率で性能が著しく低下することが明らかとなった。 この問題に対処するため,我々はまず,トレーニング中に最も乱雑なビット幅を動的に凍結し,残りのビット幅が適切に収束するようにビット幅スケジューラを設計した。 そこで,情報理論からインスピレーションを得た情報歪み軽減手法を提案する。

Quantization is of significance for compressing the over-parameterized deep neural models and deploying them on resource-limited devices. Fixed-precision quantization suffers from performance drop due to the limited numerical representation ability. Conversely, mixed-precision quantization (MPQ) is advocated to compress the model effectively by allocating heterogeneous bit-width for layers. MPQ is typically organized into a searching-retraining two-stage process. Previous works only focus on determining the optimal bit-width configuration in the first stage efficiently, while ignoring the considerable time costs in the second stage. However, retraining always consumes hundreds of GPU-hours on the cutting-edge GPUs, thus hindering deployment efficiency significantly. In this paper, we devise a one-shot training-searching paradigm for mixed-precision model compression. Specifically, in the first stage, all potential bit-width configurations are coupled and thus optimized simultaneously within a set of shared weights. However, our observations reveal a previously unseen and severe bit-width interference phenomenon among highly coupled weights during optimization, leading to considerable performance degradation under a high compression ratio. To tackle this problem, we first design a bit-width scheduler to dynamically freeze the most turbulent bit-width of layers during training, to ensure the rest bit-widths converged properly. Then, taking inspiration from information theory, we present an information distortion mitigation technique to align the behaviour of the bad-performing bit-widths to the well-performing ones.
翻訳日:2024-01-04 15:11:05 公開日:2024-01-03
# 逆機械学習によるオープンWiFiデータの匿名化

Adversarial Machine Learning-Enabled Anonymization of OpenWiFi Data ( http://arxiv.org/abs/2401.01542v1 )

ライセンス: Link先を確認
Samhita Kuili, Kareem Dabbour, Irtiza Hasan, Andrea Herscovich, Burak Kantarci, Marcel Chenier, Melike Erol-Kantarci(参考訳) 匿名化によるデータのプライバシと保護は、他のデータの使用が期待される前にネットワークオペレータやデータ所有者にとって重要な問題である。 人工知能(AI)の採用により、データ匿名化は必要な機密情報を隠蔽し、データの漏洩や情報損失を防ぐ可能性を高める。 openwifiネットワークは、データ所有者の持つ知識に関係なく、トラフィックへのアクセスや知識を得ようとする敵に対して脆弱である。 実際の交通情報を発見する確率は、適用条件表生成逆ネットワーク(CTGAN)によって解決される。 CTGANは合成データを生成する。これは実際のデータとして偽装するが、実際のデータの隠れた急性情報を促進する。 本稿では、クラスタリングアルゴリズムを用いて、実データと合成データの類似性評価を行い、その後、教師なしクラスタ検証メトリクスのパフォーマンスの比較を行った。 有名なアルゴリズムであるk-meansは、silhouette、calinski、harabaszおよびdavies bouldinメトリックとして0.634、23714.57、0.598をそれぞれ達成しながら、実データ上の合成データの類似度評価で他のアルゴリズムよりも優れている。 いくつかのアルゴリズム間で検証スコアの比較分析を利用すると、k-meansは合成データの明示的な利用を保証する教師なしクラスタリングアルゴリズムのエピトームを形成し、同時に実データを置き換える。 そこで, 実験結果は, CTGAN 生成した合成データを用いて, 各種アプリケーションで利用される匿名データの公開に代えて, 有効性を示すことを目的としている。

Data privacy and protection through anonymization is a critical issue for network operators or data owners before it is forwarded for other possible use of data. With the adoption of Artificial Intelligence (AI), data anonymization augments the likelihood of covering up necessary sensitive information; preventing data leakage and information loss. OpenWiFi networks are vulnerable to any adversary who is trying to gain access or knowledge on traffic regardless of the knowledge possessed by data owners. The odds for discovery of actual traffic information is addressed by applied conditional tabular generative adversarial network (CTGAN). CTGAN yields synthetic data; which disguises as actual data but fostering hidden acute information of actual data. In this paper, the similarity assessment of synthetic with actual data is showcased in terms of clustering algorithms followed by a comparison of performance for unsupervised cluster validation metrics. A well-known algorithm, K-means outperforms other algorithms in terms of similarity assessment of synthetic data over real data while achieving nearest scores 0.634, 23714.57, and 0.598 as Silhouette, Calinski and Harabasz and Davies Bouldin metric respectively. On exploiting a comparative analysis in validation scores among several algorithms, K-means forms the epitome of unsupervised clustering algorithms ensuring explicit usage of synthetic data at the same time a replacement for real data. Hence, the experimental results aim to show the viability of using CTGAN-generated synthetic data in lieu of publishing anonymized data to be utilized in various applications.
翻訳日:2024-01-04 15:10:38 公開日:2024-01-03
# DDPMを用いたX線画像合成装置

DDPM based X-ray Image Synthesizer ( http://arxiv.org/abs/2401.01539v1 )

ライセンス: Link先を確認
Praveen Mahaulpatha, Thulana Abeywardane, Tomson George(参考訳) 医療業界の高品質データセットへのアクセスは、機械学習モデルのパフォーマンスを制限する。 この問題に対処するため,我々は,x線画像合成のための unet アーキテクチャと組み合わせたデノイジン拡散確率モデル (ddpm) を提案する。 本手法は,カグルから得られた3000点以上の肺炎X線画像を用いて訓練を行った。 その結果,このモデルが低平均二乗誤差(mse)の現実的な画像を生成することに成功した。 合成された画像は非肺炎像と異なる違いを示し,モデルが陽性例の重要な特徴を捉える能力を強調した。 肺炎以外にも、このシンセサイザーの応用は、豊富なデータセットが利用可能であれば、様々な医療状況に及んでいる。 高品質の画像を生成する能力は、機械学習モデルの性能を高め、より正確で効率的な診断を支援する可能性がある。 このイノベーティブなDDPMベースのX線写真合成装置は、陽性な医用画像データセットの不足に対処し、医療産業における医療用画像分析と診断を改善するための道を開く。

Access to high-quality datasets in the medical industry limits machine learning model performance. To address this issue, we propose a Denoising Diffusion Probabilistic Model (DDPM) combined with a UNet architecture for X-ray image synthesis. Focused on pneumonia medical condition, our methodology employs over 3000 pneumonia X-ray images obtained from Kaggle for training. Results demonstrate the effectiveness of our approach, as the model successfully generated realistic images with low Mean Squared Error (MSE). The synthesized images showed distinct differences from non-pneumonia images, highlighting the model's ability to capture key features of positive cases. Beyond pneumonia, the applications of this synthesizer extend to various medical conditions, provided an ample dataset is available. The capability to produce high-quality images can potentially enhance machine learning models' performance, aiding in more accurate and efficient medical diagnoses. This innovative DDPM-based X-ray photo synthesizer presents a promising avenue for addressing the scarcity of positive medical image datasets, paving the way for improved medical image analysis and diagnosis in the healthcare industry.
翻訳日:2024-01-04 15:10:12 公開日:2024-01-03
# the art of deception: トリガーの動的積み重ねによるロバストなバックドア攻撃

The Art of Deception: Robust Backdoor Attack using Dynamic Stacking of Triggers ( http://arxiv.org/abs/2401.01537v1 )

ライセンス: Link先を確認
Orson Mengara(参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)の領域は、AI(Artificial Intelligence)産業の最近の進歩により、実装が増加している。 しかし、このスパイクはAI防衛機構、特に完全に信頼できないサードパーティプロバイダによる隠蔽攻撃に関する懸念を引き起こしている。 近年の研究では、聴覚バックドアが特定の変更を開始メカニズムとして用いる可能性があることが判明している。 dynamictriggerは、不正なサンプルがクリーンと区別できないように、巧妙にデザインされた微調整を使用する動的バックドア攻撃を実行するための方法論として紹介されている。 動的音声トリガー(手の拍手など)を介して変動する信号サンプリング率とマスキング話者の同一性を利用することにより、音声認識システム(asr)を欺くことができる。 実験的なテストでは、DynamicTriggerは強力かつステルス的であり、非ポゾンデータセットによる例外的な精度を維持しながら、隠蔽攻撃による顕著な成功率を実現しています。

The area of Machine Learning as a Service (MLaaS) is experiencing increased implementation due to recent advancements in the AI (Artificial Intelligence) industry. However, this spike has prompted concerns regarding AI defense mechanisms, specifically regarding potential covert attacks from third-party providers that cannot be entirely trusted. Recent research has uncovered that auditory backdoors may use certain modifications as their initiating mechanism. DynamicTrigger is introduced as a methodology for carrying out dynamic backdoor attacks that use cleverly designed tweaks to ensure that corrupted samples are indistinguishable from clean. By utilizing fluctuating signal sampling rates and masking speaker identities through dynamic sound triggers (such as the clapping of hands), it is possible to deceive speech recognition systems (ASR). Our empirical testing demonstrates that DynamicTrigger is both potent and stealthy, achieving impressive success rates during covert attacks while maintaining exceptional accuracy with non-poisoned datasets.
翻訳日:2024-01-04 15:09:50 公開日:2024-01-03
# Fenna-Matthews-Olson複合体の絡み合いと励起子脱局在制御における散逸環境の役割に関する系統的研究

A systematic study of the role of dissipative environment in regulating entanglement and exciton delocalization in the Fenna-Matthews-Olson complex ( http://arxiv.org/abs/2401.01534v1 )

ライセンス: Link先を確認
Luis E. Herrera Rodr\'iguez and Alexei A. Kananenka(参考訳) 本論文の目的は, 自然光ハーヴェスティングシステム Fenna-Matthews-Olson (FMO) における大域的絡み合いとコヒーレンス長のダイナミクスを, 低温から高温までの散逸環境, 強いシステム環境結合, 非マルコフ環境の様々なパラメータにわたって系統的に研究することである。 運動の非摂動的数値的厳密な階層方程式を用いてシステムのダイナミクスを生成する。 エンタングルメントは主にシステムと環境間の相互作用の強さによって駆動され、温度と非マルコビアン性の間の相互作用によって変調される。 対照的に、コヒーレンス長は非マルコビアン性に敏感でない。 以上の結果から,大域的絡み合いと励起エネルギー伝達の効率との直接相関は示されていない。

The goal of this Article is to perform a systematic study the global entanglement and coherence length dynamics in a natural light-harvesting system Fenna-Matthews-Olson (FMO) complex across various parameters of a dissipative environment from low to high temperatures, weak to strong system-environment coupling, and non-Markovian environments. The non-perturbative numerically exact hierarchical equations of motions method is employed to generate the dynamics of the system. We found that entanglement is driven primarily by the strength of interaction between the system and environment, and it is modulated by the interplay between temperature and non-Markovianity. In contrast, coherence length is found not to be sensitive to non-Markovianity. Our results do not show the direct correlation between global entanglement and the efficiency of the excitation energy transfer.
翻訳日:2024-01-04 15:09:32 公開日:2024-01-03
# 6Gは意味コミュニケーションか? タスク指向・セキュアコミュニケーションから統合センシングへの機会と課題

Will 6G be Semantic Communications? Opportunities and Challenges from Task Oriented and Secure Communications to Integrated Sensing ( http://arxiv.org/abs/2401.01531v1 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Tugba Erpek, Aylin Yener, Sennur Ulukus(参考訳) 本稿では,マルチタスク学習を統合した次世代(NextG)通信ネットワークにおけるタスク指向・セマンティックコミュニケーションの機会と課題について検討する。 このアプローチでは、送信側の専用エンコーダと受信側の複数のタスク固有のデコーダを表現したディープニューラルネットワークを使用し、セマンティック情報保存、ソース入力の再構築、統合されたセンシングと通信など、さまざまなタスクの処理を総合的にトレーニングする。 ポイントツーポイントリンクからマルチレシーバ設定への適用性を拡張するため、分散学習が通信負荷とプライバシに関する課題に対処するさまざまな受信機へのデコーダの展開を想定し、分散ノードにモデル更新を分散するフェデレーション学習技術を活用する。 しかし,本手法の有効性は,採用した深層学習モデルの堅牢性に左右される。 トレーニングとテストの段階において、敵対的攻撃に起因する潜在的な脆弱性を精査する。 これらの攻撃は、送信側のエンコーダの入力と受信側で受信した信号の両方を操作することを目的としており、潜在的なマルチドメインエクスプロイトに対するセマンティック通信の強化の重要性を強調している。 全体として、マルチタスク学習フレームワークにおけるタスク指向コミュニケーション、セマンティックコミュニケーション、統合センシングとコミュニケーションの結合的かつ堅牢な設計が、最終的にnextgネットワークシステムで必要とされるコンテキスト認識、リソース効率、セキュアなコミュニケーションのキーイネーブラとして登場します。

This paper explores opportunities and challenges of task (goal)-oriented and semantic communications for next-generation (NextG) communication networks through the integration of multi-task learning. This approach employs deep neural networks representing a dedicated encoder at the transmitter and multiple task-specific decoders at the receiver, collectively trained to handle diverse tasks including semantic information preservation, source input reconstruction, and integrated sensing and communications. To extend the applicability from point-to-point links to multi-receiver settings, we envision the deployment of decoders at various receivers, where decentralized learning addresses the challenges of communication load and privacy concerns, leveraging federated learning techniques that distribute model updates across decentralized nodes. However, the efficacy of this approach is contingent on the robustness of the employed deep learning models. We scrutinize potential vulnerabilities stemming from adversarial attacks during both training and testing phases. These attacks aim to manipulate both the inputs at the encoder at the transmitter and the signals received over the air on the receiver side, highlighting the importance of fortifying semantic communications against potential multi-domain exploits. Overall, the joint and robust design of task-oriented communications, semantic communications, and integrated sensing and communications in a multi-task learning framework emerges as the key enabler for context-aware, resource-efficient, and secure communications ultimately needed in NextG network systems.
翻訳日:2024-01-04 15:09:12 公開日:2024-01-03
# 超伝導量子プロセッサにおける障害誘起トポロジカルポンピング

Disorder-induced topological pumping on a superconducting quantum processor ( http://arxiv.org/abs/2401.01530v1 )

ライセンス: Link先を確認
Yu Liu, Yu-Ran Zhang, Yun-Hao Shi, Tao Liu, Congwei Lu, Yong-Yi Wang, Hao Li, Tian-Ming Li, Cheng-Lin Deng, Si-Yun Zhou, Tong Liu, Jia-Chi Zhang, Gui-Han Liang, Zheng-Yang Mei, Wei-Guo Ma, Hao-Tian Liu, Zheng-He Liu, Chi-Tong Chen, Kaixuan Huang, Xiaohui Song, SP Zhao, Ye Tian, Zhongcheng Xiang, Dongning Zheng, Franco Nori, Kai Xu, Heng Fan(参考訳) 量子ホール効果の動的バージョンであるthouless pumpingは、断熱的巡回進化中に励起される量子化された電荷を表す。 本稿では, トポロジカルなポンピング軌跡においても, 障害によって引き起こされる非自明なトポロジカルポンピングの実験的観察を報告する。 41量子ビット超伝導量子プロセッサを用いて,現場電位とホッピング結合を同時に変化させることで,断熱ポンプのサイクルを実現するFloquetエンジニアリング技術を開発した。 我々は,障害の存在下でのthouless pumpingを実演し,障害の強さが増すにつれてその崩壊を示す。 さらに,オンサイト電位障害とホッピング障害によって引き起こされる2種類の位相ポンピングを観察した。 特に準周期ホッピング障害によって引き起こされる固有のトポロジカルポンプは、これまで実験的に実現されていない。 高度に制御可能なシステムは、障害の存在下で位相物理学の様々な側面を研究する貴重な量子シミュレーションプラットフォームを提供する。

Thouless pumping, a dynamical version of the integer quantum Hall effect, represents the quantized charge pumped during an adiabatic cyclic evolution. Here we report experimental observations of nontrivial topological pumping that is induced by disorder even during a topologically trivial pumping trajectory. With a 41-qubit superconducting quantum processor, we develop a Floquet engineering technique to realize cycles of adiabatic pumping by simultaneously varying the on-site potentials and the hopping couplings. We demonstrate Thouless pumping in the presence of disorder and show its breakdown as the strength of disorder increases. Moreover, we observe two types of topological pumping that are induced by on-site potential disorder and hopping disorder, respectively. Especially, an intrinsic topological pump that is induced by quasi-periodic hopping disorder has never been experimentally realized before. Our highly controllable system provides a valuable quantum simulating platform for studying various aspects of topological physics in the presence of disorder.
翻訳日:2024-01-04 15:08:44 公開日:2024-01-03
# Glance and Focus:マルチイベントビデオ質問応答のためのメモリプロンプト

Glance and Focus: Memory Prompting for Multi-Event Video Question Answering ( http://arxiv.org/abs/2401.01529v1 )

ライセンス: Link先を確認
Ziyi Bai, Ruiping Wang, Xilin Chen(参考訳) ビデオ質問回答(Video Question Answering, VideoQA)は、人間の日常行動を理解するエージェントの能力を評価する重要なツールとして登場した。 多くのマルチモーダルタスクにおける大規模視覚言語モデルの成功にもかかわらず、複数の人間とオブジェクトのインタラクションイベントを含むビデオに対する複雑な状況推論は依然として困難である。 対照的に、人間は一連のエピソード記憶をアンカーとして使い、推論のための質問関連キーモーメントを素早く見つけることで、簡単に対処することができる。 この効果的な推論戦略を模倣するために,視線焦点モデルを提案する。 1つの簡単な方法は、アクションの集合をキーメモリとして予測するためにアクション検出モデルを適用することである。 しかし、閉集合語彙内のこれらの作用は、様々なビデオ領域に一般化することは困難である。 その代わりに、エンコーダ-デコーダをトレーニングして、グラランシングステージで動的イベントメモリのセットを生成します。 イベントメモリを取得するために教師付き2部マッチングを使用するのとは別に、教師なしメモリ生成メソッドを更に設計し、イベントアノテーションへの依存をなくす。 次に、これらのイベント記憶は、高レベルのイベント概念と低レベルのビデオコンテンツとの相関関係を確立するためのブリッジとして機能する。 このモデルでは、まず生成したキーイベントメモリに注目し、次に、設計したマルチレベルクロスアテンションメカニズムを推論するための最も関連するモーメントに焦点を合わせます。 われわれはSTAR, EgoTaskQA, AGQA, NExT-QAを含む4つのマルチイベントビデオQAベンチマークについて広範な実験を行った。 提案モデルでは,様々な課題の推論タスクにおいて,現在の大規模モデルを超えながら最先端の結果が得られる。 コードとモデルはhttps://github.com/byz0e/glance-focusで入手できる。

Video Question Answering (VideoQA) has emerged as a vital tool to evaluate agents' ability to understand human daily behaviors. Despite the recent success of large vision language models in many multi-modal tasks, complex situation reasoning over videos involving multiple human-object interaction events still remains challenging. In contrast, humans can easily tackle it by using a series of episode memories as anchors to quickly locate question-related key moments for reasoning. To mimic this effective reasoning strategy, we propose the Glance-Focus model. One simple way is to apply an action detection model to predict a set of actions as key memories. However, these actions within a closed set vocabulary are hard to generalize to various video domains. Instead of that, we train an Encoder-Decoder to generate a set of dynamic event memories at the glancing stage. Apart from using supervised bipartite matching to obtain the event memories, we further design an unsupervised memory generation method to get rid of dependence on event annotations. Next, at the focusing stage, these event memories act as a bridge to establish the correlation between the questions with high-level event concepts and low-level lengthy video content. Given the question, the model first focuses on the generated key event memory, then focuses on the most relevant moment for reasoning through our designed multi-level cross-attention mechanism. We conduct extensive experiments on four Multi-Event VideoQA benchmarks including STAR, EgoTaskQA, AGQA, and NExT-QA. Our proposed model achieves state-of-the-art results, surpassing current large models in various challenging reasoning tasks. The code and models are available at https://github.com/ByZ0e/Glance-Focus.
翻訳日:2024-01-04 15:08:28 公開日:2024-01-03
# PLLaMa: 植物科学のためのオープンソースの大規模言語モデル

PLLaMa: An Open-source Large Language Model for Plant Science ( http://arxiv.org/abs/2401.01600v1 )

ライセンス: Link先を確認
Xianjun Yang, Junfeng Gao, Wenxin Xue, Erik Alexandersson(参考訳) 大規模言語モデル(LLM)は、様々な分野にわたる自然言語の理解と相互作用において顕著な能力を示した。 しかし、これらの分野の専門知識が不足しているため、植物科学などの精度の高い分野において有効性は限られている。 本稿ではLLaMa-2から進化したオープンソースの言語モデルPLLaMaを紹介する。 植物科学に関する150万以上の学術論文を含む包括的なデータベースで拡張されている。 この開発はPLLaMaを植物科学と農業科学の幅広い知識と熟練度で大いに豊かにしている。 植物および農業に関する特定のデータセットを含む初回試験では,PLLaMaが植物科学関連トピックの理解を大幅に改善することが示された。 さらに、我々は、植物科学者、農業技術者、植物育種者を含む専門家の国際パネルを結成した。 このチームはPLLaMaの様々な学術的問い合わせに対する応答の正確性を検証する上で重要な役割を担い、この分野における有効かつ信頼性の高い応用を確実にする。 さらなる研究と開発を支援するために、我々はモデルのチェックポイントとソースコードを科学コミュニティにアクセス可能にしました。 これらのリソースは \url{https://github.com/Xianjun-Yang/PLLaMa} でダウンロードできる。

Large Language Models (LLMs) have exhibited remarkable capabilities in understanding and interacting with natural language across various sectors. However, their effectiveness is limited in specialized areas requiring high accuracy, such as plant science, due to a lack of specific expertise in these fields. This paper introduces PLLaMa, an open-source language model that evolved from LLaMa-2. It's enhanced with a comprehensive database, comprising more than 1.5 million scholarly articles in plant science. This development significantly enriches PLLaMa with extensive knowledge and proficiency in plant and agricultural sciences. Our initial tests, involving specific datasets related to plants and agriculture, show that PLLaMa substantially improves its understanding of plant science-related topics. Moreover, we have formed an international panel of professionals, including plant scientists, agricultural engineers, and plant breeders. This team plays a crucial role in verifying the accuracy of PLLaMa's responses to various academic inquiries, ensuring its effective and reliable application in the field. To support further research and development, we have made the model's checkpoints and source codes accessible to the scientific community. These resources are available for download at \url{https://github.com/Xianjun-Yang/PLLaMa}.
翻訳日:2024-01-04 15:01:10 公開日:2024-01-03
# マルチスケール・クロスモダリティ特徴学習による医学基礎モデルの拡張

Enhancing the medical foundation model with multi-scale and cross-modality feature learning ( http://arxiv.org/abs/2401.01583v1 )

ライセンス: Link先を確認
Weijian Huang, Cheng Li, Hong-Yu Zhou, Jiarun Liu, Hao Yang, Yong Liang, Shanshan Wang(参考訳) マルチモーダル医療基盤モデルの開発は、様々な臨床応用の期待から、医療・医療分野において大きな注目を集めている。 この研究の方向性の焦点の1つは、異なるスケールにおける特徴の抽出である。 従来の研究では、個々の尺度における特徴学習について検討されてきたが、多彩な尺度と情報モダリティの統合に関する調査は、これらの特徴間の相互強化の可能性を妨げている可能性がある。 本稿では,医療基盤モデルの性能向上のために,マルチスケールおよびクロスモーダル情報を効果的に活用する手法を提案し,このギャップを埋めることを目的とする。 提案手法は,局所的な特徴,例えばモダリティ,グローバルな側面を同時に利用し,モデル内の包括的表現学習を容易にする。 そこで本研究では,様々な臨床課題にまたがる6つのオープンソースデータセットに対する提案手法の有効性を評価し,医療基礎モデルの性能向上効果を実証する。

The development of multi-modal medical foundation models has attracted significant attention in the field of medicine and healthcare due to their promising prospects in various clinical applications. One area of focus in this research direction is the extractions of features at different scales. While previous studies have explored feature learning at individual scales, investigation on integrating the diverse scales and modalities of information is lacking, which may hinder the potential for mutual reinforcement among these features. This paper aims to bridge this gap by proposing a method that effectively exploits multi-scale and cross-modality information to enhance the performance of medical foundation models. The proposed method simultaneously exploit features at the local, instance, modality and global aspects, facilitating comprehensive representation learning within the models. We evaluate the effectiveness of the proposed method on six open-source datasets across different clinical tasks, demonstrating its ability to enhance the performance of medical foundation models.
翻訳日:2024-01-04 15:00:52 公開日:2024-01-03
# 高次元オンライン最適化のための不変情報幾何法

An Invariant Information Geometric Method for High-Dimensional Online Optimization ( http://arxiv.org/abs/2401.01579v1 )

ライセンス: Link先を確認
Zhengfei Zhang, Yunyue Wei, Yanan Sui(参考訳) サンプル効率は、特に高価な評価とゼロオーダーフィードバックを特徴とするブラックボックスシナリオにおいて、最適化において重要である。 計算資源が豊富であるとき、ベイズ最適化はしばしば進化戦略よりも好まれる。 本稿では,そのフレームワークから導かれる完全不変性指向の進化戦略アルゴリズムを導入し,ベイズ能力の上限における次元を持つタスクにおいて,主要なベイズ最適化手法と効果的に競合する。 具体的には,従来の情報を完全に組み込んだフレームワークであるInvIGOを,完全な不変量と計算複雑性を維持しながら構築する。 次に、多次元ガウス上でInvIGOを例示し、不変かつスケーラブルな最適化器SynCMAを提供する。 他のガウス系進化戦略に対するアルゴリズムの理論的挙動と利点をさらに分析する。 最後に,Mujocoのロコモーションタスク,ローバー計画タスク,合成関数などを含む様々な高次元タスクにおけるベイズ最適化および進化戦略の先行アルゴリズムに対して,SynCMAをベンチマークする。 あらゆるシナリオにおいて、SynCMAはサンプル効率において他のアルゴリズムよりも優れた能力を示し、プロパティ指向進化戦略の未開発の可能性を示している。

Sample efficiency is crucial in optimization, particularly in black-box scenarios characterized by expensive evaluations and zeroth-order feedback. When computing resources are plentiful, Bayesian optimization is often favored over evolution strategies. In this paper, we introduce a full invariance oriented evolution strategies algorithm, derived from its corresponding framework, that effectively rivals the leading Bayesian optimization method in tasks with dimensions at the upper limit of Bayesian capability. Specifically, we first build the framework InvIGO that fully incorporates historical information while retaining the full invariant and computational complexity. We then exemplify InvIGO on multi-dimensional Gaussian, which gives an invariant and scalable optimizer SynCMA . The theoretical behavior and advantages of our algorithm over other Gaussian-based evolution strategies are further analyzed. Finally, We benchmark SynCMA against leading algorithms in Bayesian optimization and evolution strategies on various high dimension tasks, in cluding Mujoco locomotion tasks, rover planning task and synthetic functions. In all scenarios, SynCMA demonstrates great competence, if not dominance, over other algorithms in sample efficiency, showing the underdeveloped potential of property oriented evolution strategies.
翻訳日:2024-01-04 15:00:37 公開日:2024-01-03
# コンテクストガイド付き時空間ビデオグラウンド

Context-Guided Spatio-Temporal Video Grounding ( http://arxiv.org/abs/2401.01578v1 )

ライセンス: Link先を確認
Xin Gu, Heng Fan, Yan Huang, Tiejian Luo, Libo Zhang(参考訳) Spatio-temporal video grounding(STVG)タスクは、テキストクエリが与えられた特定のインスタンスに対して、spatio-temporal tubeを特定することを目的としている。 進歩にもかかわらず、現行の手法では、テキストからのオブジェクト情報が不十分なため、ビデオの歪みや重いオブジェクトの出現のばらつきに容易に悩まされ、劣化する。 そこで本稿では,ビデオ中のオブジェクトの識別的インスタンスコンテキストをマイニングし,ターゲットローカライゼーションのための補助的ガイダンスとして適用する,コンテキストガイド付きstvg(cg-stvg)を提案する。 CG-STVGの鍵となるのは、インスタンスの視覚的コンテキスト情報(外観と動きの両方)の発見に焦点を当てたインスタンスコンテキスト生成(ICG)と、コンテキストから無関係または有害な情報を排除してインスタンスコンテキストをICGから改善することを目的としたインスタンスコンテキスト改善(ICR)である。 接地中、ICGはICCとともにTransformerアーキテクチャの各デコードステージにデプロイされ、例えばコンテキスト学習が行われる。 特に、あるデコード段階から学んだインスタンスコンテキストを次のステージに供給し、リッチで差別的なオブジェクト特徴を含むガイダンスとして利用して、デコード機能におけるターゲット認識を高め、逆に、ローカライゼーションを改善するためのより良い新しいインスタンスコンテキストを生成する。 既存の手法と比較して、CG-STVGはテキストクエリにおけるオブジェクト情報と、より正確なターゲットローカライゼーションのためのマイニングされたインスタンス視覚コンテキストからのガイダンスを楽しみます。 HCSTVG-v1/-v2 と VidSTG の3つのベンチマーク実験において,CG-STVG は m_tIoU と m_vIoU に新しい最先端をセットし,その有効性を示した。 コードはhttps://github.com/henglan/cgstvgでリリースされる。

Spatio-temporal video grounding (or STVG) task aims at locating a spatio-temporal tube for a specific instance given a text query. Despite advancements, current methods easily suffer the distractors or heavy object appearance variations in videos due to insufficient object information from the text, leading to degradation. Addressing this, we propose a novel framework, context-guided STVG (CG-STVG), which mines discriminative instance context for object in videos and applies it as a supplementary guidance for target localization. The key of CG-STVG lies in two specially designed modules, including instance context generation (ICG), which focuses on discovering visual context information (in both appearance and motion) of the instance, and instance context refinement (ICR), which aims to improve the instance context from ICG by eliminating irrelevant or even harmful information from the context. During grounding, ICG, together with ICR, are deployed at each decoding stage of a Transformer architecture for instance context learning. Particularly, instance context learned from one decoding stage is fed to the next stage, and leveraged as a guidance containing rich and discriminative object feature to enhance the target-awareness in decoding feature, which conversely benefits generating better new instance context for improving localization finally. Compared to existing methods, CG-STVG enjoys object information in text query and guidance from mined instance visual context for more accurate target localization. In our experiments on three benchmarks, including HCSTVG-v1/-v2 and VidSTG, CG-STVG sets new state-of-the-arts in m_tIoU and m_vIoU on all of them, showing its efficacy. The code will be released at https://github.com/HengLan/CGSTVG.
翻訳日:2024-01-04 15:00:18 公開日:2024-01-03
# 視線推定のためのメタプロンプトによるテスト時間パーソナライズ

Test-Time Personalization with Meta Prompt for Gaze Estimation ( http://arxiv.org/abs/2401.01577v1 )

ライセンス: Link先を確認
Huan Liu, Julia Qi, Zhenhao Li, Mohammad Hassanpour, Yang Wang, Konstantinos Plataniotis, Yuanhao Yu(参考訳) 近年の視線推定における顕著な成果にもかかわらず、ラベルのない視線推定の効率的かつ正確な個人化は現実的な問題であるが、文献にはほとんど触れられていない。 効率のよいパーソナライズを実現するために,テスト時間に"prompts"という無視可能なパラメータを更新することで,自然言語処理(NLP)の最近の進歩から着想を得た。 具体的には、プロンプトは元のネットワークを乱すことなく付加され、ResNet-18のパラメータの1%未満を含むことができる。 我々の実験は、高速チューニング手法の高効率を示す。 提案手法は,提案手法に比べて適応速度の10倍の速度で適用可能である。 しかし、ラベルなしでパーソナライズされた視線推定のプロンプトを更新するのは簡単ではない。 テスト時には、特定の教師なし損失の最小化が、視線推定誤差の最小化に繋がることを保証することが不可欠である。 この課題に対処するため、我々は、その更新が目標と一致していることを保証するプロンプトをメタ学習することを提案する。 実験の結果,メタ学習プロンプトは単純な対称性の損失でも効果的に適応できることがわかった。 さらに,提案手法の優れた利点を示すために,4つのクロスデータセット検証を実験した。

Despite the recent remarkable achievement in gaze estimation, efficient and accurate personalization of gaze estimation without labels is a practical problem but rarely touched on in the literature. To achieve efficient personalization, we take inspiration from the recent advances in Natural Language Processing (NLP) by updating a negligible number of parameters, "prompts", at the test time. Specifically, the prompt is additionally attached without perturbing original network and can contain less than 1% of a ResNet-18's parameters. Our experiments show high efficiency of the prompt tuning approach. The proposed one can be 10 times faster in terms of adaptation speed than the methods compared. However, it is non-trivial to update the prompt for personalized gaze estimation without labels. At the test time, it is essential to ensure that the minimizing of particular unsupervised loss leads to the goals of minimizing gaze estimation error. To address this difficulty, we propose to meta-learn the prompt to ensure that its updates align with the goal. Our experiments show that the meta-learned prompt can be effectively adapted even with a simple symmetry loss. In addition, we experiment on four cross-dataset validations to show the remarkable advantages of the proposed method.
翻訳日:2024-01-04 14:59:39 公開日:2024-01-03
# UAVビジュアルジオローカライゼーションのためのトランスフォーマに基づく適応的セマンティックアグリゲーション法

A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual Geo-Localization ( http://arxiv.org/abs/2401.01574v1 )

ライセンス: Link先を確認
Shishen Li, Cuiwei Liu, Huaijun Qiu and Zhaokui Li(参考訳) 本稿では、異なるプラットフォーム、すなわちuavや衛星で撮影された同じ地理的ターゲットの画像とマッチングすることを目的とした、無人航空機(uav)のビジュアルジオローカライズに関する課題について述べる。 一般に、正確なUAV-サテライト画像マッチングを実現する鍵は、視点の変化、スケールのバリエーション、回転に対して堅牢な視覚特徴を抽出することにある。 現在の研究では、部分レベルの表現が画像の詳細をキャプチャし、シーンの意味情報を理解するのに役立つため、部分マッチングがUAV視覚的ジオローカライズに不可欠であることが示されている。 しかし,部分表現における意味的特徴の保存の重要性については議論されていない。 本稿では,画像の最も代表的な意味論として部品を考慮したトランスフォーマーに基づく適応的セマンティックアグリゲーション手法を提案する。 画像パッチと異なる部分との相関は、変換器の特徴写像を用いて学習する。 次に,全パッチ機能の適応和に部分レベルの特徴を分解する。 これを行うことで、学習した部分は典型的なセマンティクスによるパッチに集中することが奨励される。 university-1652データセットに関する広範な実験では、現在の研究よりも優れた方法が示されている。

This paper addresses the task of Unmanned Aerial Vehicles (UAV) visual geo-localization, which aims to match images of the same geographic target taken by different platforms, i.e., UAVs and satellites. In general, the key to achieving accurate UAV-satellite image matching lies in extracting visual features that are robust against viewpoint changes, scale variations, and rotations. Current works have shown that part matching is crucial for UAV visual geo-localization since part-level representations can capture image details and help to understand the semantic information of scenes. However, the importance of preserving semantic characteristics in part-level representations is not well discussed. In this paper, we introduce a transformer-based adaptive semantic aggregation method that regards parts as the most representative semantics in an image. Correlations of image patches to different parts are learned in terms of the transformer's feature map. Then our method decomposes part-level features into an adaptive sum of all patch features. By doing this, the learned parts are encouraged to focus on patches with typical semantics. Extensive experiments on the University-1652 dataset have shown the superiority of our method over the current works.
翻訳日:2024-01-04 14:59:18 公開日:2024-01-03
# UAVビジュアルジオローカライゼーションのためのプログレッシブ・ディバイザ・ラーニングを用いたビュー分布アライメント

View Distribution Alignment with Progressive Adversarial Learning for UAV Visual Geo-Localization ( http://arxiv.org/abs/2401.01573v1 )

ライセンス: Link先を確認
Cuiwei Liu, Jiahao Liu, Huaijun Qiu, Zhaokui Li and Xiangbin Shi(参考訳) 無人航空機(UAV)の視覚的ジオローカライゼーションは、異なるビュー、すなわちUAVビューと衛星ビューから取得した同じ地理的ターゲットの画像とマッチングすることを目的としている。 UAV-サテライト画像対の出現差が大きいため、非常に困難である。 以前の作業では、UAVと衛星が撮影した画像を共有特徴空間にマッピングし、UAVビューと衛星ビューの全体的な分布シフトを無視しながら、位置依存の特徴を学習するための分類フレームワークを使用していた。 本稿では,2つのビューの分布アライメントを導入して,共通空間における距離を短くすることで,これらの制約に対処する。 具体的には,PVDA(Progressive View Distribution Alignment)と呼ばれるエンドツーエンドネットワークを提案する。 トレーニング中、特徴エンコーダ、位置分類器、ビュー識別器は、新しいプログレッシブな対角学習戦略によって共同最適化される。 特徴エンコーダとビュー識別器の競合により、両者はより強くなる。 uav-view画像が衛星画像と区別がつかないまで、adversarial learningは徐々に強調される。 その結果、PVDAは位置に依存しないビュー不変な特徴を学習する上で強力となり、新しい位置の未確認画像に対するスケーラビリティが向上した。 最先端の手法と比較して、提案したPVDAは推論時間が少ないが、University-1652データセットでは優れた性能を実現している。

Unmanned Aerial Vehicle (UAV) visual geo-localization aims to match images of the same geographic target captured from different views, i.e., the UAV view and the satellite view. It is very challenging due to the large appearance differences in UAV-satellite image pairs. Previous works map images captured by UAVs and satellites to a shared feature space and employ a classification framework to learn location-dependent features while neglecting the overall distribution shift between the UAV view and the satellite view. In this paper, we address these limitations by introducing distribution alignment of the two views to shorten their distance in a common space. Specifically, we propose an end-to-end network, called PVDA (Progressive View Distribution Alignment). During training, feature encoder, location classifier, and view discriminator are jointly optimized by a novel progressive adversarial learning strategy. Competition between feature encoder and view discriminator prompts both of them to be stronger. It turns out that the adversarial learning is progressively emphasized until UAV-view images are indistinguishable from satellite-view images. As a result, the proposed PVDA becomes powerful in learning location-dependent yet view-invariant features with good scalability towards unseen images of new locations. Compared to the state-of-the-art methods, the proposed PVDA requires less inference time but has achieved superior performance on the University-1652 dataset.
翻訳日:2024-01-04 14:59:00 公開日:2024-01-03
# ニューラル自動音声認識における幻覚 : 誤りの同定と幻覚モデル

Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models ( http://arxiv.org/abs/2401.01572v1 )

ライセンス: Link先を確認
Rita Frieske and Bertram E. Shi(参考訳) 幻覚はディープニューラルネットワークによって生成される出力エラーの一種である。 これは自然言語処理において研究されているが、これまでは自動音声認識では研究されていない。 ここでは、ASRにおける幻覚を、ソース発話と意味的に無関係なモデルによって生成される転写として定義する。 モデルの潜在的な自然言語出力に対する幻覚の類似性は、欺きの危険をもたらし、システムの信頼性に影響を与える。 単語誤り率などの一般的なメトリクスは、幻覚モデルと非幻覚モデルとを区別できないことを示す。 そこで本研究では,学習データセットへのアクセスを必要としない,自動音声認識(ASR)モデルの幻覚に対する感受性を評価するための摂動に基づく手法を提案する。 本手法は,類似の単語誤り率を持つ幻覚モデルと非幻覚モデルとの区別に有効であることを示す。 我々はさらに,asr誤りのタイプとデータセットノイズのタイプとの関係について検討し,どのタイプのノイズが幻覚的なアウトプットを生み出すかを決定する。 基礎的真理への意味的関係と流束を解析し,幻覚を識別するための枠組みを考案する。 最後に,無作為な雑音注入により幻覚を誘発する方法を見出した。

Hallucinations are a type of output error produced by deep neural networks. While this has been studied in natural language processing, they have not been researched previously in automatic speech recognition. Here, we define hallucinations in ASR as transcriptions generated by a model that are semantically unrelated to the source utterance, yet still fluent and coherent. The similarity of hallucinations to probable natural language outputs of the model creates a danger of deception and impacts the credibility of the system. We show that commonly used metrics, such as word error rates, cannot differentiate between hallucinatory and non-hallucinatory models. To address this, we propose a perturbation-based method for assessing the susceptibility of an automatic speech recognition (ASR) model to hallucination at test time, which does not require access to the training dataset. We demonstrate that this method helps to distinguish between hallucinatory and non-hallucinatory models that have similar baseline word error rates. We further explore the relationship between the types of ASR errors and the types of dataset noise to determine what types of noise are most likely to create hallucinatory outputs. We devise a framework for identifying hallucinations by analysing their semantic connection with the ground truth and their fluency. Finally, we discover how to induce hallucinations with a random noise injection to the utterance.
翻訳日:2024-01-04 14:58:36 公開日:2024-01-03
# CodeFuse-Query: 大規模組織を対象としたデータ中心静的コード分析システム

CodeFuse-Query: A Data-Centric Static Code Analysis System for Large-Scale Organizations ( http://arxiv.org/abs/2401.01571v1 )

ライセンス: Link先を確認
Xiaoheng Xie, Gang Fan, Xiaojun Lin, Ang Zhou, Shijie Li, Xunjin Zheng, Yinan Liang, Yu Zhang, Na Yu, Haokun Li, Xinyu Chen, Yingzhuang Chen, Yi Zhen, Dejun Dong, Xianjin Fu, Jinzhou Su, Fuxiong Pan, Pengshuai Luo, Youzheng Feng, Ruoxiang Hu, Jing Fan, Jinguo Zhou, Xiao Xiao, Peng Di(参考訳) 大規模ソフトウェア開発の分野では、動的かつ多面的な静的コード解析の要求は、従来のツールの能力を超える。 このギャップを埋めるために,ドメイン最適化システム設計と論理指向計算設計の融合により静的コード解析を再定義するCodeFuse-Queryを提案する。 codefuse-queryは、データ計算タスクとしてコード解析を再設計し、毎日100億行以上のコードをスキャンし、300以上の異なるタスクをサポートする。 リソースの利用を最適化し、データの再利用性を優先し、インクリメンタルなコード抽出を適用し、コード変更専用のタスクタイプを導入し、ドメイン最適化設計を強調する。 システムのロジック指向のファセットは、ソースコードをデータ事実に変換するために、ユニークな2層スキーマであるCOREFを使用するDatalogを使用している。 独特の言語であるgodelを通じて、codefuse-queryは複雑なタスクを論理式として定式化できる。 本稿では,codefuse-queryのトランスフォーメーションアプローチの実証的証拠を提供し,その堅牢性,スケーラビリティ,効率性を示す。 我々はまた、その実世界のインパクトと多様なアプリケーションを強調し、大規模なソフトウェア開発の文脈で静的コード解析の景観を再構築する可能性を強調した。

In the domain of large-scale software development, the demands for dynamic and multifaceted static code analysis exceed the capabilities of traditional tools. To bridge this gap, we present CodeFuse-Query, a system that redefines static code analysis through the fusion of Domain Optimized System Design and Logic Oriented Computation Design. CodeFuse-Query reimagines code analysis as a data computation task, support scanning over 10 billion lines of code daily and more than 300 different tasks. It optimizes resource utilization, prioritizes data reusability, applies incremental code extraction, and introduces tasks types specially for Code Change, underscoring its domain-optimized design. The system's logic-oriented facet employs Datalog, utilizing a unique two-tiered schema, COREF, to convert source code into data facts. Through Godel, a distinctive language, CodeFuse-Query enables formulation of complex tasks as logical expressions, harnessing Datalog's declarative prowess. This paper provides empirical evidence of CodeFuse-Query's transformative approach, demonstrating its robustness, scalability, and efficiency. We also highlight its real-world impact and diverse applications, emphasizing its potential to reshape the landscape of static code analysis in the context of large-scale software development.Furthermore, in the spirit of collaboration and advancing the field, our project is open-sourced and the repository is available for public access
翻訳日:2024-01-04 14:58:14 公開日:2024-01-03
# attentionlut: リアルタイム画像強調のためのアテンション融合ベースの正準多進性lut

AttentionLut: Attention Fusion-based Canonical Polyadic LUT for Real-time Image Enhancement ( http://arxiv.org/abs/2401.01569v1 )

ライセンス: Link先を確認
Kang Fu, Yicong Peng, Zicheng Zhang, Qihang Xu, Xiaohong Liu, Jia Wang, Guangtao Zhai(参考訳) 近年,画像適応ルックアップテーブル (LUT) を用いてリアルタイムな画像強調を実現しているアルゴリズムが多数存在する。 しかし,従来の手法では画像適応型LUTの線形組み合わせが主流であり,これらの手法の一般化能力を制限している。 そこで本稿では,注意機構を利用して画像適応lutを生成する,リアルタイム画像強調のためのattententlutという新しいフレームワークを提案する。 提案するフレームワークは,3つの軽量モジュールから構成される。 まず、global image context featureモジュールを使用して画像適応機能を抽出する。 その後、注意融合モジュールは、訓練中に得られた事前注意特徴と画像特徴を統合して、画像適応型正準多進テンソルを生成する。 最後に、標準ポリエイド再構成モジュールを配置し、画像適応残差3DLUTを再構成し、入力画像の強化に利用する。 MIT-Adobe FiveKデータセットのベンチマーク実験により,提案手法は最先端の手法よりも定量的かつ定性的に向上することを示した。

Recently, many algorithms have employed image-adaptive lookup tables (LUTs) to achieve real-time image enhancement. Nonetheless, a prevailing trend among existing methods has been the employment of linear combinations of basic LUTs to formulate image-adaptive LUTs, which limits the generalization ability of these methods. To address this limitation, we propose a novel framework named AttentionLut for real-time image enhancement, which utilizes the attention mechanism to generate image-adaptive LUTs. Our proposed framework consists of three lightweight modules. We begin by employing the global image context feature module to extract image-adaptive features. Subsequently, the attention fusion module integrates the image feature with the priori attention feature obtained during training to generate image-adaptive canonical polyadic tensors. Finally, the canonical polyadic reconstruction module is deployed to reconstruct image-adaptive residual 3DLUT, which is subsequently utilized for enhancing input images. Experiments on the benchmark MIT-Adobe FiveK dataset demonstrate that the proposed method achieves better enhancement performance quantitatively and qualitatively than the state-of-the-art methods.
翻訳日:2024-01-04 14:57:50 公開日:2024-01-03
# 進化的マルチタスクによる多目的高次元特徴選択に向けて

Towards Multi-Objective High-Dimensional Feature Selection via Evolutionary Multitasking ( http://arxiv.org/abs/2401.01563v1 )

ライセンス: Link先を確認
Yinglan Feng, Liang Feng, Songbai Liu, Sam Kwong, Kay Chen Tan(参考訳) 進化的マルチタスク(emt)パラダイムは、進化的計算における新たな研究テーマであり、近年、高次元特徴選択(fs)問題を解決することに成功している。 しかし、既存のEMTベースのFS法は、マルチタスク生成の単一モード、全てのタスクの同じジェネリックな進化的探索の実行、単独のソリューションエンコーディングによる暗黙的な転送機構への依存、単一目的変換の導入など、いくつかの制限に悩まされている。 そこで本研究では,多目的高次元特徴選択問題,すなわちMO-FSEMTのための新しいEMTフレームワークを開発する。 特に、複数の補助タスクは、異なる定式化手法によって構成され、多様な検索空間と情報表現を提供し、その後、マルチスルーバーベースのマルチタスク最適化スキームを介して元のタスクに同時に対応している。 各タスクはタスク固有の表現を持つ独立した集団を持ち、異なるバイアスと検索好みを持つ別々の進化的解法を用いて解決される。 タスク固有の知識伝達機構は、各タスクの利点情報を活用するように設計され、検索プロセス中に高品質なソリューションの発見と効果的な伝達を可能にする。 総合的な実験結果から,26データセットの最先端FS法と比較して,MO-FSEMTフレームワークは総合的に優れた性能が得られることが示された。 さらに,提案したMO-FSEMTの様々な成分の寄与を検証する。

Evolutionary Multitasking (EMT) paradigm, an emerging research topic in evolutionary computation, has been successfully applied in solving high-dimensional feature selection (FS) problems recently. However, existing EMT-based FS methods suffer from several limitations, such as a single mode of multitask generation, conducting the same generic evolutionary search for all tasks, relying on implicit transfer mechanisms through sole solution encodings, and employing single-objective transformation, which result in inadequate knowledge acquisition, exploitation, and transfer. To this end, this paper develops a novel EMT framework for multiobjective high-dimensional feature selection problems, namely MO-FSEMT. In particular, multiple auxiliary tasks are constructed by distinct formulation methods to provide diverse search spaces and information representations and then simultaneously addressed with the original task through a multi-slover-based multitask optimization scheme. Each task has an independent population with task-specific representations and is solved using separate evolutionary solvers with different biases and search preferences. A task-specific knowledge transfer mechanism is designed to leverage the advantage information of each task, enabling the discovery and effective transmission of high-quality solutions during the search process. Comprehensive experimental results demonstrate that our MO-FSEMT framework can achieve overall superior performance compared to the state-of-the-art FS methods on 26 datasets. Moreover, the ablation studies verify the contributions of different components of the proposed MO-FSEMT.
翻訳日:2024-01-04 14:57:32 公開日:2024-01-03
# 量子次元のエビデンスに基づく証明

Evidence-based certification of quantum dimensions ( http://arxiv.org/abs/2401.01562v1 )

ライセンス: Link先を確認
Y. S. Teo, H. Jeong, N. Prasannan, B. Brecht, C. Silberhorn, M. Evans, D. Mogilevtsev, and L. L. Sanchez-Soto(参考訳) 未知の量子状態を完全に記述した合理的に小さなヒルベルト空間を同定することは、効率的な量子情報処理に不可欠である。 実験データのみに依拠して,完全証拠に基づく離散変数と連続変数の両方に対して,一般次元認証プロトコルを導入する。 相対的信念というベイズの概念を用いて、後確率がデータによって決定されるように、状態の有効次元を前よりも大きい最小の次元とする。 相対的信頼性比に関連する後続確率は、これらの比によって得られる証拠の強さを測り、弱い証拠や強い証拠があるかどうか、あるいは特定の次元に対して評価することができる。 スペクトル時間および偏光度測定による実験データを用いて、得られた有効次元に対してベイズ可算誤差バーを正しく割り当てる方法を示す。 これにより、相対的信念はあらゆる実験に対して保守的で使いやすいモデル選択法となる。

Identifying a reasonably small Hilbert space that completely describes an unknown quantum state is crucial for efficient quantum information processing. We introduce a general dimension-certification protocol for both discrete and continuous variables that is fully evidence-based, relying solely on the experimental data collected and no other assumptions whatsoever. Using the Bayesian concept of relative belief, we take the effective dimension of the state as the smallest one such that the posterior probability is larger than the prior, as dictated by the data. The posterior probabilities associated with the relative-belief ratios measure the strength of the evidence provide by these ratios so that we can assess whether there is weak or strong evidence in favor or against a particular dimension. Using experimental data from spectral-temporal and polarimetry measurements, we demonstrate how to correctly assign Bayesian plausible error bars for the obtained effective dimensions. This makes relative belief a conservative and easy-to-use model-selection method for any experiment.
翻訳日:2024-01-04 14:57:07 公開日:2024-01-03
# 圧縮部分空間を用いた1ステップレイトフュージョンマルチビュークラスタリング

One-Step Late Fusion Multi-view Clustering with Compressed Subspace ( http://arxiv.org/abs/2401.01558v1 )

ライセンス: Link先を確認
Qiyuan Ou, Pei Zhang, Sihang Zhou, En Zhu(参考訳) 後期核融合型マルチビュークラスタリング(LFMVC)は、計算速度とクラスタリング性能に優れたため、マルチビュークラスタリング(MVC)分野において急速に成長する手法のクラスとなっている。 既存のレイトフュージョン方式が直面するボトルネックの1つは、通常、平均カーネル関数にアライメントされているため、クラスタリングのパフォーマンスはデータセットの品質に大きく依存する。 もう一つの問題は、コンセンサス分割行列を取得して最終的な離散ラベルを得るのにその後のk平均クラスタリングが必要であり、その結果ラベル学習とクラスタ構造最適化プロセスの分離がこれらのモデルの整合性を制限することである。 上記の問題に対処するため,圧縮部分空間を用いたOne-Step Late Fusion Multi-view Clustering (OS-LFMVC-CS) という統合フレームワークを提案する。 具体的には、分割融合を最適化しながら分割行列の調整にコンセンサス部分空間を使用し、融合分割行列を用いて離散ラベルの学習を導く。 検証収束を伴う6段階反復最適化手法を提案する。 複数のデータセットに対する十分な実験により,提案手法の有効性と有効性を検証した。

Late fusion multi-view clustering (LFMVC) has become a rapidly growing class of methods in the multi-view clustering (MVC) field, owing to its excellent computational speed and clustering performance. One bottleneck faced by existing late fusion methods is that they are usually aligned to the average kernel function, which makes the clustering performance highly dependent on the quality of datasets. Another problem is that they require subsequent k-means clustering after obtaining the consensus partition matrix to get the final discrete labels, and the resulting separation of the label learning and cluster structure optimization processes limits the integrity of these models. To address the above issues, we propose an integrated framework named One-Step Late Fusion Multi-view Clustering with Compressed Subspace (OS-LFMVC-CS). Specifically, we use the consensus subspace to align the partition matrix while optimizing the partition fusion, and utilize the fused partition matrix to guide the learning of discrete labels. A six-step iterative optimization approach with verified convergence is proposed. Sufficient experiments on multiple datasets validate the effectiveness and efficiency of our proposed method.
翻訳日:2024-01-04 14:56:50 公開日:2024-01-03
# ランダム化サーチランク:量子検索エンジンへの半古典的アプローチ

Randomized SearchRank: A Semiclassical Approach to a Quantum Search Engine ( http://arxiv.org/abs/2401.01554v1 )

ライセンス: Link先を確認
Sergio A. Ortega, Miguel A. Martin-Delgado(参考訳) 量子検索Rankアルゴリズムは、PageRank量子化に基づく将来の量子検索エンジンにとって有望なツールである。 しかし、ネットワークサイズ$n$とマークされたノード数$m$の比が十分大きいと、このアルゴリズムは機能を失う。 本稿では,基礎となるSzegedy量子ウォークを半古典的なウォークに置き換えたアルゴリズムの修正を提案する。 量子サーチランクアルゴリズムと同じ時間の複雑さを維持するために,アルゴリズムの単純化を提案する。 このアルゴリズムはランダム化検索Rankと呼ばれ、ランダム化混合状態上の量子ウォークに対応する。 検索ランクアルゴリズムのパフォーマンスは、まずサンプルネットワーク上で解析され、その後、サイズとマークされたノード数の異なるネットワーク群で統計的に解析される。 一方、アルゴリズムの探索能力をテストするために、マークされたノードを測定する確率が量子検索Rankに対して$N/M$と小さくなるかを計算するが、量子検索Rank問題を解くことで、我々の半古典的アルゴリズムに対して$0.9$の高値のままである。 アルゴリズムの時間複雑性も解析され、古典的なアルゴリズムに対する2次的なスピードアップが得られる。 一方,アルゴリズムのランキング機能について検討し,従来のPageRank分布とよく一致している。 最後に、これらのアルゴリズムが本質的なPageRank減衰パラメータに依存することを明らかにする。 その結果,このパラメータはしきい値以下であるべきであり,実行時間が大幅に増加しないことが示唆された。

The quantum SearchRank algorithm is a promising tool for a future quantum search engine based on PageRank quantization. However, this algorithm loses its functionality when the $N/M$ ratio between the network size $N$ and the number of marked nodes $M$ is sufficiently large. We propose a modification of the algorithm, replacing the underlying Szegedy quantum walk with a semiclassical walk. To maintain the same time complexity as the quantum SearchRank algorithm we propose a simplification of the algorithm. This new algorithm is called Randomized SearchRank, since it corresponds to a quantum walk over a randomized mixed state. The performance of the SearchRank algorithms is first analyzed on an example network, and then statistically on a set of different networks of increasing size and different number of marked nodes. On the one hand, to test the search ability of the algorithms, it is computed how the probability of measuring the marked nodes decreases with $N/M$ for the quantum SearchRank, but remarkably it remains at a high value around $0.9$ for our semiclassical algorithms, solving the quantum SearchRank problem. The time complexity of the algorithms is also analyzed, obtaining a quadratic speedup with respect to the classical ones. On the other hand, the ranking functionality of the algorithms has been investigated, obtaining a good agreement with the classical PageRank distribution. Finally, the dependence of these algorithms on the intrinsic PageRank damping parameter has been clarified. Our results suggest that this parameter should be below a threshold so that the execution time does not increase drastically.
翻訳日:2024-01-04 14:56:29 公開日:2024-01-03
# 周術期リスク予測と予後予測における大規模言語モデル能力

Large Language Model Capabilities in Perioperative Risk Prediction and Prognostication ( http://arxiv.org/abs/2401.01620v1 )

ライセンス: Link先を確認
Philip Chung, Christine T Fong, Andrew M Walters, Nima Aghaeepour, Meliha Yetisgen, Vikas N O'Reilly-Shah(参考訳) GPT-4 Turboのような一般ドメインの大規模言語モデルがリスク階層化を達成できるかどうかを考察し,電子的健康記録から得られた患者の臨床記録と手順の記述を用いて術後成績の予測を行う。 身体状態分類,入院,icu入院,無計画入院,病院死亡率,pacuフェーズ1継続時間,入院期間,icu継続時間という8つの課題について予測性能について検討した。 少ないショットとチェーンのプロンプトによって、いくつかのタスクの予測パフォーマンスが向上する。 F1スコアはASA体格分類0.50点、ICU入院0.81点、病院死亡0.86点である。 時間予測タスクのパフォーマンスは、すべての迅速な戦略で普遍的に劣っていた。 現在の大規模言語モデルでは, 術中リスク階層化を補助し, 高品質な自然言語要約や解説を作成できる。

We investigate whether general-domain large language models such as GPT-4 Turbo can perform risk stratification and predict post-operative outcome measures using a description of the procedure and a patient's clinical notes derived from the electronic health record. We examine predictive performance on 8 different tasks: prediction of ASA Physical Status Classification, hospital admission, ICU admission, unplanned admission, hospital mortality, PACU Phase 1 duration, hospital duration, and ICU duration. Few-shot and chain-of-thought prompting improves predictive performance for several of the tasks. We achieve F1 scores of 0.50 for ASA Physical Status Classification, 0.81 for ICU admission, and 0.86 for hospital mortality. Performance on duration prediction tasks were universally poor across all prompt strategies. Current generation large language models can assist clinicians in perioperative risk stratification on classification tasks and produce high-quality natural language summaries and explanations.
翻訳日:2024-01-04 14:49:08 公開日:2024-01-03
# 非直交qkd信号に対する最適集団計測は個々の測定値を上回るか?

Can optimal collective measurements outperform individual measurements for non-orthogonal QKD signals? ( http://arxiv.org/abs/2401.01616v1 )

ライセンス: Link先を確認
Isabella Cerutti and Petra F. Scudo(参考訳) 線形独立な非直交量子状態を用いた量子鍵分布(QKD)システムにおいて、最適量子測度の理論が、受信側で利用可能な最大情報を決定する方法を考える。 このような設定は、いくつかの実用的なQKDプロトコルの特徴である。 非直交性のため、受信機は信号間の曖昧な区別ができない。 これが課す基本的な限界を理解するために、関心の量は送信機(alice)と受信機(bob)と受信機(eve)との間の最大相互情報である。 最適測度を求めるには、作用素代数と特異値分解から導かれる一般結果に基づくフレームワークを使用し、フォン・ノイマン測度と正の作用素値測度(POVM)の最適解を得る。 2つの信号に対する形式的証明と定量的解析により、最適なフォン・ノイマン測度が一意に定義され、POVMよりも高い情報ゲインを与えると結論付けることができる。 興味深いことに、集合的な測定は個々の情報に対して付加的な情報を提供するだけでなく、POVMの場合のゲイン低下にも悩まされる。

We consider how the theory of optimal quantum measurements determines the maximum information available to the receiving party of a quantum key distribution (QKD) system employing linearly independent but non-orthogonal quantum states. Such a setting is characteristic of several practical QKD protocols. Due to non-orthogonality, the receiver is not able to discriminate unambiguously between the signals. To understand the fundamental limits that this imposes, the quantity of interest is the maximum mutual information between the transmitter (Alice) and the receiver, whether legitimate (Bob) or an eavesdropper (Eve). To find the optimal measurement we use a framework based on operator algebra and general results derived from singular value decomposition, achieving optimal solutions for von Neumann measurements and positive operator-valued measures (POVMs). The formal proof and quantitative analysis elaborated for two signals allow one to conclude that optimal von Neumann measurements are uniquely defined and provide a higher information gain compared to POVMs. Interestingly, collective measurements not only do not provide additional information gain with respect to individual ones, but also suffer from a gain reduction in the case of POVMs.
翻訳日:2024-01-04 14:48:42 公開日:2024-01-03
# 古典偏光光学におけるシステム間ベル様状態

Intersystem Bell-like States in Classical Polarization Optics ( http://arxiv.org/abs/2401.01615v1 )

ライセンス: Link先を確認
Partha Ghose(参考訳) 古典的な光学状態である 'intersystem non separable' と $\phi^+$ Bell 状態の類似性を生成する方法が提案されている。 chshベル不等式の導出は、隠れ変数理論ではなく公理として分解可能な状態に対して {\em noncontextuality} を用いて古典分極光学の枠組みの中でスケッチされ、古典状態はこの不等式に反する。

A method is proposed to produce a classical optical state that is `intersystem nonseparable' and a close analog of the $\phi^+$ Bell state. A derivation of the CHSH-Bell inequality is sketched within the framework of classical polarization optics using {\em noncontextuality} for factorizable states as an axiom rather than any hidden variable theory, and it is shown that the classical state violates this inequality.
翻訳日:2024-01-04 14:48:09 公開日:2024-01-03
# gpt-4v(ision)はジェネラリストのwebエージェントである。

GPT-4V(ision) is a Generalist Web Agent, if Grounded ( http://arxiv.org/abs/2401.01614v1 )

ライセンス: Link先を確認
Boyuan Zheng, Boyu Gou, Jihyung Kil, Huan Sun, Yu Su(参考訳) 最近の大規模マルチモーダルモデル(特にGPT-4V(ision)とGemini)の開発は、画像キャプションや視覚的質問応答といった従来のタスクを超えて、急速に多モーダルモデルの能力境界を広げている。 本稿では,GPT-4Vのような汎用Webエージェントが,任意のWebサイト上でタスクを完了するための自然言語命令に従うことの可能なLMMの可能性を探る。 本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用する汎用WebエージェントであるSEEACTを提案する。 我々は最近のMIND2WEBベンチマークを評価する。 キャッシュされたwebサイトの標準オフライン評価に加えて,webエージェントをライブwebサイト上で実行可能にするツールを開発することにより,新たなオンライン評価設定を可能にする。 GPT-4VはWebエージェントにとって大きな可能性を示します - テキストプランを手作業でWebサイト上で動作させると、ライブWebサイトのタスクの50%を完了できます。 これは GPT-4 やより小さなモデル (FLAN-T5 や BLIP-2) のようなテキストのみの LLM よりも優れている。 しかし、まだ接地は大きな課題である。 既存の LMM の接地戦略である set-of-mark プロンプトは Web エージェントには有効ではなく,本稿で開発する最良の接地戦略は HTML テキストとビジュアルの両方を活用する。 しかし、oracleの基盤には依然としてかなりのギャップがあり、さらなる改善の余地は十分残されている。

The recent development on large multimodal models (LMMs), especially GPT-4V(ision) and Gemini, has been quickly expanding the capability boundaries of multimodal models beyond traditional tasks like image captioning and visual question answering. In this work, we explore the potential of LMMs like GPT-4V as a generalist web agent that can follow natural language instructions to complete tasks on any given website. We propose SEEACT, a generalist web agent that harnesses the power of LMMs for integrated visual understanding and acting on the web. We evaluate on the recent MIND2WEB benchmark. In addition to standard offline evaluation on cached websites, we enable a new online evaluation setting by developing a tool that allows running web agents on live websites. We show that GPT-4V presents a great potential for web agents - it can successfully complete 50% of the tasks on live websites if we manually ground its textual plans into actions on the websites. This substantially outperforms text-only LLMs like GPT-4 or smaller models (FLAN-T5 and BLIP-2) specifically fine-tuned for web agents. However, grounding still remains a major challenge. Existing LMM grounding strategies like set-of-mark prompting turns out not effective for web agents, and the best grounding strategy we develop in this paper leverages both the HTML text and visuals. Yet, there is still a substantial gap with oracle grounding, leaving ample room for further improvement.
翻訳日:2024-01-04 14:47:28 公開日:2024-01-03
# 高次例外点とコヒーレント完全吸収を用いた合成高感度化

Synthetically enhanced sensitivity using higher-order exceptional point and coherent perfect absorption ( http://arxiv.org/abs/2401.01613v1 )

ライセンス: Link先を確認
Yao-Dong Hu, Yi-Pu Wang, Rui-Chang Shen, Zi-Qi Wang, Wei-Jiang Wu, J. Q. You(参考訳) センサーは高度な機器において重要な役割を担っており、感度を向上させるために継続的に追求されている。 最近では、例外点 (EP) として知られる非エルミート系の特異点がこの目標に対して大きな注目を集めている。 摂動への固有周波シフトの応答は、$\epsilon^{1/n}$-dependence at a $n$th-order EP となり、高次EPによる感度が著しく向上した。 しかし, 複雑化するシステムの必要性から, 感度向上のためにepを増加させる経路に沿って大きな困難が生じる。 今回我々は,コヒーレント完全吸収(CPA)のスペクトル異常を利用して,CPAとEPの協調効果により,3次EPの感度をさらに高めることができることを報告した。 2つのイットリウム鉄ガーネット球とマイクロ波キャビティからなる擬エルミタンキャビティマグノニクスシステムを用いて合成強化されたセンサを実現する。 検出可能な磁場の最小変化は4.2\times10^{-21}$Tに達する。 ハイブリッド非エルミート量子システムを用いた新しいセンサーを設計するための新しい道を開く。

Sensors play a crucial role in advanced apparatuses and it is persistently pursued to improve their sensitivities. Recently, the singularity of a non-Hermitian system, known as the exceptional point (EP), has drawn much attention for this goal. Response of the eigenfrequency shift to a perturbation $\epsilon$ follows the $\epsilon^{1/n}$-dependence at an $n$th-order EP, leading to significantly enhanced sensitivity via a high-order EP. However, due to the requirement of increasingly complicated systems, great difficulties will occur along the path of increasing the EP order to enhance the sensitivity. Here we report that by utilizing the spectral anomaly of the coherent perfect absorption (CPA), the sensitivity at a third-order EP can be further enhanced owing to the cooperative effects of both CPA and EP. We realize this synthetically enhanced sensor using a pseudo-Hermitian cavity magnonic system composed of two yttrium iron garnet spheres and a microwave cavity. The detectable minimum change of the magnetic field reaches $4.2\times10^{-21}$T. It opens a new avenue to design novel sensors using hybrid non-Hermitian quantum systems.
翻訳日:2024-01-04 14:46:41 公開日:2024-01-03
# パワーロー減衰下における分析スペクトルアルゴリズムの一般化誤差曲線

Generalization Error Curves for Analytic Spectral Algorithms under Power-law Decay ( http://arxiv.org/abs/2401.01599v1 )

ライセンス: Link先を確認
Yicheng Li, Weiye Gan, Zuoqiang Shi, Qian Lin(参考訳) カーネル回帰法の一般化誤差曲線は,極小率ではなく,様々な音源条件,雑音レベル,正規化パラメータの選択による一般化誤差の正確な順序を決定することを目的としている。 本研究では,穏やかな仮定の下で,カーネル回帰におけるカーネル勾配降下法(および解析的スペクトルアルゴリズムの大規模クラス)の一般化誤差曲線を厳密に評価する。 その結果、カーネル補間のほぼ矛盾を鋭くし、高い資格を持つカーネル回帰アルゴリズムの飽和効果等を明らかにすることができた。 ニューラル・タンジェント・カーネル理論により、これらの結果は広義のニューラルネットワークを訓練する一般化行動の理解を大幅に改善する。 解析的機能論という新しい技術的貢献は、独立した関心事かもしれない。

The generalization error curve of certain kernel regression method aims at determining the exact order of generalization error with various source condition, noise level and choice of the regularization parameter rather than the minimax rate. In this work, under mild assumptions, we rigorously provide a full characterization of the generalization error curves of the kernel gradient descent method (and a large class of analytic spectral algorithms) in kernel regression. Consequently, we could sharpen the near inconsistency of kernel interpolation and clarify the saturation effects of kernel regression algorithms with higher qualification, etc. Thanks to the neural tangent kernel theory, these results greatly improve our understanding of the generalization behavior of training the wide neural networks. A novel technical contribution, the analytic functional argument, might be of independent interest.
翻訳日:2024-01-04 14:46:19 公開日:2024-01-03
# Few-Shot Class-Incremental Learningのための分布型特徴再現による学習プロンプト

Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2401.01598v1 )

ライセンス: Link先を確認
Zitong Huang and Ze Chen and Zhixing Chen and Erjin Zhou and Xinxing Xu and Rick Siow Mong Goh and Yong Liu and Chunmei Feng and Wangmeng Zuo(参考訳) FSCIL(Few-shot Class-Incremental Learning)は、遭遇した古いクラスを忘れずに、非常に限られたトレーニングデータに基づいて、新しいクラスを継続的に学習することを目的としている。 既存の研究は純粋視覚ネットワークのみに頼っていたが、本稿ではビジョンランゲージモデル(例えばCLIP)を活用してFSCILを解くとともに、分散ベースの特徴再現(LP-DiF)を備えた学習プロンプト(Learning Prompt)という、シンプルで効果的なフレームワークを提案する。 ゼロショット評価にCLIPを用いるだけで、最も影響力のある手法を著しく上回ります。 次に、アクシデントチューニング技術が適用能力をさらに向上させ、各セッションから特定の知識を継続的に取得できるようにする。 新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似再生アプローチを提案する。 具体的には,対角的共分散行列を用いて特徴レベルのガウス分布を維持することにより,各クラスの古い知識を保存し,トレーニング画像のイメージ特徴とVAEから生成された合成特徴から推定する。 新しいセッションに進むと、擬似特徴を従来の分布からサンプリングし、現在のセッションのトレーニングイメージと組み合わせてプロンプトを最適化し、古い知識を保持しながら新しい知識を学習できるようにする。 CIFAR100、mini-ImageNet、CUB-200の3つの主要なベンチマークの実験と、さらに難しい2つのベンチマーク、すなわち、SUN-397とCUB-200$^*$で提案された実験は、FSCILにおける新しい最先端(SOTA)を実現するLP-DiFの優位性を示している。 コードはhttps://github.com/1170300714/LP-DiFで公開されている。

Few-shot Class-Incremental Learning (FSCIL) aims to continuously learn new classes based on very limited training data without forgetting the old ones encountered. Existing studies solely relied on pure visual networks, while in this paper we solved FSCIL by leveraging the Vision-Language model (e.g., CLIP) and propose a simple yet effective framework, named Learning Prompt with Distribution-based Feature Replay (LP-DiF). We observe that simply using CLIP for zero-shot evaluation can substantially outperform the most influential methods. Then, prompt tuning technique is involved to further improve its adaptation ability, allowing the model to continually capture specific knowledge from each session. To prevent the learnable prompt from forgetting old knowledge in the new session, we propose a pseudo-feature replay approach. Specifically, we preserve the old knowledge of each class by maintaining a feature-level Gaussian distribution with a diagonal covariance matrix, which is estimated by the image features of training images and synthesized features generated from a VAE. When progressing to a new session, pseudo-features are sampled from old-class distributions combined with training images of the current session to optimize the prompt, thus enabling the model to learn new knowledge while retaining old knowledge. Experiments on three prevalent benchmarks, i.e., CIFAR100, mini-ImageNet, CUB-200, and two more challenging benchmarks, i.e., SUN-397 and CUB-200$^*$ proposed in this paper showcase the superiority of LP-DiF, achieving new state-of-the-art (SOTA) in FSCIL. Code is publicly available at https://github.com/1170300714/LP-DiF.
翻訳日:2024-01-04 14:46:06 公開日:2024-01-03
# MedSumm: コードミキシングヒンディー語臨床クエリを要約するマルチモーダルアプローチ

MedSumm: A Multimodal Approach to Summarizing Code-Mixed Hindi-English Clinical Queries ( http://arxiv.org/abs/2401.01596v1 )

ライセンス: Link先を確認
Akash Ghosh, Arkadeep Acharya, Prince Jha, Aniket Gaudgaul, Rajdeep Majumdar, Sriparna Saha, Aman Chadha, Raghav Jain, Setu Sinha, and Shivani Agarwal(参考訳) 医療分野では、患者が提示する医療問題を要約することが、医師と患者の相互作用と医療意思決定を改善する上で重要である。 医療データは複雑さと量で成長してきたが、現在のこの分野の研究は主にテキストベースの手法に集中し、視覚的な手がかりの統合を見据えてきた。 また、医学的質問要約の分野における先行研究は、英語に限定されている。 本稿では,低リソース環境におけるcodemixed入力に対するマルチモーダル医療質問要約のタスクを紹介する。 このギャップに対処するために、ヒンディー語と英語の混在する医療クエリと視覚支援を組み合わせたMMCQSデータセットを導入する。 この統合は患者の医療状態の表現を強化し、より包括的な視点を提供する。 また,この課題に LLM と VLM のパワーを利用する MedSumm というフレームワークを提案する。 mmcqsデータセットを利用することで,画像からの視覚情報を統合し,医学的詳細要約の作成を改善する価値を実証する。 このマルチモーダル戦略は、医療の意思決定を改善するだけでなく、患者の問い合わせをより深く理解し、パーソナライズされたレスポンシブな医療における将来の探究の道を開く。 私たちのデータセット、コード、および事前トレーニングされたモデルは、一般公開されます。

In the healthcare domain, summarizing medical questions posed by patients is critical for improving doctor-patient interactions and medical decision-making. Although medical data has grown in complexity and quantity, the current body of research in this domain has primarily concentrated on text-based methods, overlooking the integration of visual cues. Also prior works in the area of medical question summarisation have been limited to the English language. This work introduces the task of multimodal medical question summarization for codemixed input in a low-resource setting. To address this gap, we introduce the Multimodal Medical Codemixed Question Summarization MMCQS dataset, which combines Hindi-English codemixed medical queries with visual aids. This integration enriches the representation of a patient's medical condition, providing a more comprehensive perspective. We also propose a framework named MedSumm that leverages the power of LLMs and VLMs for this task. By utilizing our MMCQS dataset, we demonstrate the value of integrating visual information from images to improve the creation of medically detailed summaries. This multimodal strategy not only improves healthcare decision-making but also promotes a deeper comprehension of patient queries, paving the way for future exploration in personalized and responsive medical care. Our dataset, code, and pre-trained models will be made publicly available.
翻訳日:2024-01-04 14:45:30 公開日:2024-01-03
# ノイズハイブリッド量子回路における絡み合い構造と情報保護

Entanglement structure and information protection in noisy hybrid quantum circuits ( http://arxiv.org/abs/2401.01593v1 )

ライセンス: Link先を確認
Shuo Liu, Ming-Rui Li, Shi-Xin Zhang, and Shao-Kai Jian(参考訳) 測定誘起エンタングルメント相転移の文脈では、実際の物理系に固有の量子ノイズの影響は、非常に重要かつ実験的に重要である。 本稿では,時間的非相関と相関のある量子ノイズが絡み合い生成と情報保護に与える影響を包括的に理論的に解析する。 この調査は、システム内の絡み合いが、どちらの種類の量子ノイズに対しても$q^{-1/3}$スケールであることを明らかにする。 このスケーリングは、有効長さスケールが $L_{\text{eff}} \sim q^{-1}$ であるカーダル・パリ・張の揺らぎから生じる。 さらに,情報保護の時間尺度を考察し,時間的非相関性および相関性のある雑音に対して,それぞれ$q^{-1/2}$と$q^{-2/3}$スケーリングに従うことを示した。 前者のスケーリングはhayden-preskillプロトコルと解釈できるが、後者はkardar-parisi-zhangゆらぎの直接の結果である。 理論的な理解を支援するために,安定化形式を用いた広範囲な数値シミュレーションを行う。 この手紙は、量子ノイズと測定誘起相転移の相互作用をより深く理解するだけでなく、マルコフノイズと非マルコフノイズが量子計算に与える影響を理解するための新しい視点を提供する。

In the context of measurement-induced entanglement phase transitions, the influence of quantum noises, which are inherent in real physical systems, is of great importance and experimental relevance. In this Letter, we present a comprehensive theoretical analysis of the effects of both temporally uncorrelated and correlated quantum noises on entanglement generation and information protection. This investigation reveals that entanglement within the system follows $q^{-1/3}$ scaling for both types of quantum noises, where $q$ represents the noise probability. The scaling arises from the Kardar-Parisi-Zhang fluctuation with effective length scale $L_{\text{eff}} \sim q^{-1}$. Moreover, the timescales of information protection are explored and shown to follow $q^{-1/2}$ and $q^{-2/3}$ scaling for temporally uncorrelated and correlated noises, respectively. The former scaling can be interpreted as a Hayden-Preskill protocol, while the latter is a direct consequence of Kardar-Parisi-Zhang fluctuations. We conduct extensive numerical simulations using stabilizer formalism to support the theoretical understanding. This Letter not only contributes to a deeper understanding of the interplay between quantum noises and measurement-induced phase transition but also provides a new perspective to understand the effects of Markovian and non-Markovian noises on quantum computation.
翻訳日:2024-01-04 14:45:05 公開日:2024-01-03
# キラルカップリングを持つ巨大原子導波路系の単一光子散乱

Single-photon scattering in giant-atom waveguide systems with chiral coupling ( http://arxiv.org/abs/2401.01592v1 )

ライセンス: Link先を確認
Shu-Yu Li, Ze-Quan Zhang, Lei Du, Yong Li, and Huaizhi Wu(参考訳) 複数の接続点において1次元導波路に結合した巨大原子の単一光子散乱スペクトルを調べ、結合強度のキラリティーを工学的に設計し、散乱スペクトルにおけるキラリティーによる効果について検討した。 伝送スペクトルは、通常、非ローレンツ最小の反ローレンツ線形形状を持つが、キラリティーが結合点数に依存しない特定の条件を満たすと、入射光子の透過スペクトルは、完全透過から多重周波数 '`windows'' における全反射へ遷移し、ある不規則結合点の結合強度を工学的に調節することで、その幅を柔軟に調整できることを示す。 さらに, 内部原子自発発光と導波路外減衰との相互作用によって, 非マルコフ遅延効果によって引き起こされるものとは対照的に, 完全な非相反光子散乱が達成できることを示した。 また, 散乱スペクトルに対する非マルコフ遅延効果も考慮し, 2点のキラル結合点でもフォトニックバンドギャップが可能となる。 キラル結合を持つ巨大原子導波路系は、複数のチャネルを持つ単一光子ルータの実現に有望な候補である。

We study single-photon scattering spectra of a giant atom chirally coupled to a one-dimensional waveguide at multiple connection points, and examine chirality induced effects in the scattering spectra by engineering the chirality of the coupling strengths. We show that the transmission spectra typically possess an anti-Lorentzian lineshape with a nonzero minimum, but when the chirality satisfies some specific conditions independent of the number of coupling points, the transmission spectrum of an incident photon can undergo a transition from complete transmission to total reflection at multiple frequency ``windows'', the width of which can be flexibly tuned in situ by engineering the coupling strengths of a certain disordered coupling point. Moreover, we show that a perfect nonreciprocal photon scattering can be achieved due to the interplay between internal atomic spontaneous emission and the chirally external decay to the waveguide, in contrast to that induced by the non-Markovian retardation effect. We also consider the non-Markovian retardation effect on the scattering spectra, which allows for a photonic band gap even with only two chiral coupling points. The giant-atom-waveguide system with chiral coupling is a promising candidate for realizing single-photon routers with multiple channels.
翻訳日:2024-01-04 14:44:41 公開日:2024-01-03
# MLIP:マスケード局所表現学習による医用言語画像事前学習

MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning ( http://arxiv.org/abs/2401.01591v1 )

ライセンス: Link先を確認
Jiarun Liu, Hong-Yu Zhou, Cheng Li, Weijian Huang, Hao Yang, Yong Liang, Shanshan Wang(参考訳) 既存のコントラスト言語-イメージ事前学習は、豊富な画像-テキストペアをマッチングして共同表現を学ぶことを目的としている。 しかし、医療データセットにおける画像テキストペアの数は、通常、自然データセットよりも桁違いに小さい。 さらに、医療用画像テキストペアは、しばしば複雑な細かな対応を伴う。 本稿では,複数の局所関係モデルを導入し,データ効率を向上させることを目的とする。 より具体的には、パッチ文マッチングにより、限られた画像テキストの医療データをより効率的に活用するMLIPフレームワークを提案する。 さらに,画像の冗長性を低減しつつ,基礎となる意味を保ちながら,意味的整合性を推定するマスキングコントラスト学習戦略を提案する。 評価の結果,mlipは,0/fewショット分類と少数ショットセグメンテーションタスクにおいて,従来の作業よりも大きなマージンを示した。

Existing contrastive language-image pre-training aims to learn a joint representation by matching abundant image-text pairs. However, the number of image-text pairs in medical datasets is usually orders of magnitude smaller than that in natural datasets. Besides, medical image-text pairs often involve numerous complex fine-grained correspondences. This paper aims to enhance the data efficiency by introducing multiple-to-multiple local relationship modeling to capture denser supervisions. More specifically, we propose a Medical Language-Image Pre-training (MLIP) framework, which exploits the limited image-text medical data more efficiently through patch-sentence matching. Furthermore, we introduce a masked contrastive learning strategy with semantic integrity estimation to reduce redundancy in images while preserving the underlying semantics. Our evaluation results show that MLIP outperforms previous work in zero/few-shot classification and few-shot segmentation tasks by a large margin.
翻訳日:2024-01-04 14:44:15 公開日:2024-01-03
# 大きな単一励起確率を持つ高次マグノン遮断

High-degree magnon blockade with large single-excitation probability ( http://arxiv.org/abs/2401.01590v1 )

ライセンス: Link先を確認
Zhu-yao Jin and Jun Jing(参考訳) 最適化された封じ込めは、量子レベルでマグノニック系を操作する基本的な1マグノン状態を生成するための効率的なツールである。 本研究では,交換相互作用によって量子ビットが$n$マグノンに強く結合されるハイブリッドシステムについて考察する。 qubitモードとmagnonモードはそれぞれ、プロビングフィールドと駆動フィールドに従属する。 等時二階相関関数 $g^{(2)}(0)$ を各マグノンに対して$N$ に対して最小化するスケーラブルな条件を見つけることは興味深い。 特に、同時遮断が最適化されるとき (i)qubit(magnon)とprobing(driving field)フィールドの調整は、magnon-qubit結合強度の2倍の$\sqrt{n}$である。 (ii) 探傷強度は駆動強度の3-sqrt{N}$ (iii) プロビング場と駆動場の間の相対位相は、系減衰率とマグノン量子ビット結合強度の比の2/(3\sqrt{n}$)である。 高次封鎖以上のことで、単一マグノン状態でかなりの人口を発生させることができる。 実験関連駆動強度と崩壊速度で、相関関数は約$g^{(2)}(0)\sim10^{-7}$で、大きな単一マグノン集団が$P_1\sim0.24$で$N=1$で$g^{(2)}(0)\sim10^{-7}$で$P_1\sim0.12$で$N=2$である。

Optimized blockade is an efficient tool in generating a single-magnon state, that is fundamental to manipulate the magnonic systems at the quantum level. In this study, we consider a hybrid system in which a qubit is strongly coupled to $N$ magnons via the exchange interaction. The qubit and the magnon modes are subject to the probing field and driving fields, respectively. It is interesting to find the scalable conditions in minimizing the equal-time second-order correlation function $g^{(2)}(0)$ for each magnon with respect to $N$. In particular, the simultaneous blockade is optimized when (i) the detuning between the qubit (magnon) and the probing (driving field) field is $\sqrt{N}$ times the magnon-qubit coupling strength, (ii) the probing intensity is $3\sqrt{N}$ times the driving intensity, and (iii) the relative phase between probing and driving fields is $2/(3\sqrt{N}$) times the ratio of the system decay rate to the magnon-qubit coupling strength. More than a high-degree blockade, we can generate a significant population on the single-magnon state. With experimental-relevant driving intensity and decay rate, the correlation function can achieve about $g^{(2)}(0)\sim10^{-7}$ in company with a large single-magnon population $P_1\sim0.24$ when $N=1$ and $g^{(2)}(0)\sim10^{-7}$ with $P_1\sim0.12$ when $N=2$.
翻訳日:2024-01-04 14:43:58 公開日:2024-01-03
# 量子ベイズ分類器とその画像分類への応用

Quantum Bayes Classifiers and Their Application in Image Classification ( http://arxiv.org/abs/2401.01588v1 )

ライセンス: Link先を確認
Ming-Ming Wang, Xiao-Ying Zhang(参考訳) ベイズネットワークは確率解析の強力なツールであり、機械学習やデータサイエンスで広く使われている。 ニューラルネットワークのパラメータ学習モードとは異なり、ベイズ分類器はサンプル特徴のみを使用して、時間を要するトレーニングプロセスなしで分類結果を決定する。 量子ベイズ分類器 (QBC) の構築と, 素性QBCと半素性QBC (SN-QBC) の設計について検討した。 これらのQBCは画像分類に適用される。 局所特徴抽出法を用いて,画像から限られた数の特徴を抽出し,計算複雑性を低減する。 これらの機能はベイジアンネットワークの構築とQBCの生成に使用される。 我々は、これらのQBCをMindQuantum量子プラットフォーム上でシミュレートし、MNISTおよびFashion-MNISTデータセット上でテストする。 以上の結果から,これらのQBCの分類精度は良好であることが示唆された。 MNISTデータセット上のQBCの分類精度は、すべての特徴点を利用する古典的ベイズ的ネットワークと量子ニューラルネットワークのそれを上回る。

Bayesian networks are powerful tools for probabilistic analysis and have been widely used in machine learning and data science. Unlike the parameters learning mode of neural networks, Bayes classifiers only use sample features to determine the classification results without a time-consuming training process. We study the construction of quantum Bayes classifiers (QBCs) and design a naive QBC and three semi-naive QBCs (SN-QBCs). These QBCs are applied to image classification. A local features sampling method is employed to extract a limited number of features from images to reduce the computational complexity. These features are then used to construct Bayesian networks and generate QBCs. We simulate these QBCs on the MindQuantum quantum platform and test them on the MNIST and Fashion-MNIST datasets. Results show that these QBCs based on a limited number of features exhibit good classification accuracies. The classification accuracies of QBCs on the MNIST dataset surpass that of the classical Bayesian network and quantum neural networks that utilize all feature points.
翻訳日:2024-01-04 14:43:29 公開日:2024-01-03
# 軽量電位推定法を用いたリアルタイム人体落下検出

Real-Time Human Fall Detection using a Lightweight Pose Estimation Technique ( http://arxiv.org/abs/2401.01587v1 )

ライセンス: Link先を確認
Ekram Alam, Abu Sufian, Paramartha Dutta, and Marco Leo(参考訳) 高齢者は世界中で急速に増加している。 彼らには十分な世話者がいない。 これにより、AIベースの在宅医療システムの利用が勢いを増している。 ヒトの転倒検出は高齢者にとって医療システムにおいて最も重要な課題の1つである。 高齢者の転倒は一般的な問題である。 転倒を検知し、できるだけ早く医療援助を提供することは、さらなる複雑さを減らすために非常に重要である。 死亡率やその他の合併症のリスクは、転倒後できるだけ早く医療支援を検出および提供することによって軽減することができる。 現在、最先端の転倒検出技術は数多く存在するが、その大半は非常に高い計算能力を必要とする。 本稿では,ポーズ推定を用いた軽量で高速な人間の転倒検出システムを提案する。 ヒトのキーポイント抽出に 'movenet' を用いた。 提案手法は, 基本カメラを内蔵した低消費電力デバイス上で, リアルタイムに動作可能である。 すべての計算はローカルで処理できるので、対象のプライバシに問題はない。 実験には「GMDCSA」と「URFD」の2つのデータセットを使用した。 データセット `gmdcsa' と `urfd' はそれぞれ 0.9375 と 0.9167 の感度値を得た。 私たちの作品のソースコードとデータセットGMDCSAはオンラインでアクセスできます。

The elderly population is increasing rapidly around the world. There are no enough caretakers for them. Use of AI-based in-home medical care systems is gaining momentum due to this. Human fall detection is one of the most important tasks of medical care system for the aged people. Human fall is a common problem among elderly people. Detection of a fall and providing medical help as early as possible is very important to reduce any further complexity. The chances of death and other medical complications can be reduced by detecting and providing medical help as early as possible after the fall. There are many state-of-the-art fall detection techniques available these days, but the majority of them need very high computing power. In this paper, we proposed a lightweight and fast human fall detection system using pose estimation. We used `Movenet' for human joins key-points extraction. Our proposed method can work in real-time on any low-computing device with any basic camera. All computation can be processed locally, so there is no problem of privacy of the subject. We used two datasets `GMDCSA' and `URFD' for the experiment. We got the sensitivity value of 0.9375 and 0.9167 for the dataset `GMDCSA' and `URFD' respectively. The source code and the dataset GMDCSA of our work are available online to access.
翻訳日:2024-01-04 14:43:14 公開日:2024-01-03
# ソースフリードメイン適応における擬似ラベルの分解

De-Confusing Pseudo-Labels in Source-Free Domain Adaptation ( http://arxiv.org/abs/2401.01650v1 )

ライセンス: Link先を確認
Idit Diamant, Idan Achituve, Arnon Netzer(参考訳) ソースフリードメイン適応(Source-free domain adapt, SFDA)は、ソースドメインから学習した知識をラベルのないターゲットドメインに転送することを目的としている。 SFDAの既存のアプローチは通常、確立されたエントロピーの最小化と擬似ラベル技術を含む自己学習に焦点を当てている。 最近の研究は、swain-bのような堅牢な事前学習ネットワークを用いて生成された擬似ラベルの品質を改善するためのコラーニング戦略を提案している。 しかし、生成された擬似ラベルはソースモデルに依存するため、ドメインシフトによってノイズが発生する可能性がある。 本稿では,ラベルノイズ学習の観点からSFDAを考察し,擬似ラベルの解離を学習する。 より具体的には、疑似ラベルのノイズ遷移行列を学び、各クラスのラベル破損を捉え、基礎となる真のラベル分布を学ぶ。 ノイズ遷移行列の推定により、より正確な予測精度を持つ真のクラス後推定結果が得られる。 SFDA法(SHOT, SHOT++, AaD)に適用したアプローチの有効性を示す。 visda、domainnet、officehomeの3つのドメイン適応データセットについて最新の結果を得る。

Source-free domain adaptation (SFDA) aims to transfer knowledge learned from a source domain to an unlabeled target domain, where the source data is unavailable during adaptation. Existing approaches for SFDA focus on self-training usually including well-established entropy minimization and pseudo-labeling techniques. Recent work suggested a co-learning strategy to improve the quality of the generated target pseudo-labels using robust pretrained networks such as Swin-B. However, since the generated pseudo-labels depend on the source model, they may be noisy due to domain shift. In this paper, we view SFDA from the perspective of label noise learning and learn to de-confuse the pseudo-labels. More specifically, we learn a noise transition matrix of the pseudo-labels to capture the label corruption of each class and learn the underlying true label distribution. Estimating the noise transition matrix enables a better true class-posterior estimation results with better prediction accuracy. We demonstrate the effectiveness of our approach applied with several SFDA methods: SHOT, SHOT++, and AaD. We obtain state-of-the-art results on three domain adaptation datasets: VisDA, DomainNet, and OfficeHome.
翻訳日:2024-01-04 14:36:12 公開日:2024-01-03
# signerf:neural radiance fieldのためのシーン統合生成

SIGNeRF: Scene Integrated Generation for Neural Radiance Fields ( http://arxiv.org/abs/2401.01647v1 )

ライセンス: Link先を確認
Jan-Niklas Dihlmann, Andreas Engelhardt, Hendrik Lensch(参考訳) 画像拡散モデルの進歩は、最近、高品質な画像の生成に顕著な改善をもたらした。 ニューラル・レージアンス・フィールド(Neural Radiance Fields、NeRF)と組み合わせることで、彼らは3D生成の新しい機会を可能にした。 しかし、ほとんどの生成的3Dアプローチはオブジェクト指向であり、既存のフォトリアリスティックシーンの編集に適用することは簡単ではない。 高速かつ制御可能なNeRFシーン編集とシーン統合オブジェクト生成のための新しいアプローチであるSIGNeRFを提案する。 新しい生成的更新戦略は、反復的な最適化を必要とせずに、編集された画像全体の3d一貫性を保証する。 奥行き条件付き拡散モデルには、単一のビューではなく、画像のグリッドをリクエストすることで、本質的に3次元一貫したビューを生成する能力がある。 これらの知見に基づき、修正画像のマルチビュー参照シートを導入する。 提案手法では,参照シートに基づいて画像コレクションを一括して更新し,新たに生成された画像セットを1行で改良する。 画像拡散モデルの深度条件付け機構を利用して、編集の空間的位置を細かく制御し、選択した領域または外部メッシュによる形状誘導を強制する。

Advances in image diffusion models have recently led to notable improvements in the generation of high-quality images. In combination with Neural Radiance Fields (NeRFs), they enabled new opportunities in 3D generation. However, most generative 3D approaches are object-centric and applying them to editing existing photorealistic scenes is not trivial. We propose SIGNeRF, a novel approach for fast and controllable NeRF scene editing and scene-integrated object generation. A new generative update strategy ensures 3D consistency across the edited images, without requiring iterative optimization. We find that depth-conditioned diffusion models inherently possess the capability to generate 3D consistent views by requesting a grid of images instead of single views. Based on these insights, we introduce a multi-view reference sheet of modified images. Our method updates an image collection consistently based on the reference sheet and refines the original NeRF with the newly generated image set in one go. By exploiting the depth conditioning mechanism of the image diffusion model, we gain fine control over the spatial location of the edit and enforce shape guidance by a selected region or an external mesh.
翻訳日:2024-01-04 14:35:52 公開日:2024-01-03
# マルチモーダル癌生存予測のための原型的情報ボトルネックと解剖

Prototypical Information Bottlenecking and Disentangling for Multimodal Cancer Survival Prediction ( http://arxiv.org/abs/2401.01646v1 )

ライセンス: Link先を確認
Yilan Zhang, Yingxue Xu, Jianqi Chen, Fengying Xie, Hao Chen(参考訳) マルチモーダル学習は癌生存率予測、特に病理画像とゲノムデータの統合に有益である。 Despite advantages of multimodal learning for cancer survival prediction, massive redundancy in multimodal data prevents it from extracting discriminative and compact information: (1) An extensive amount of intra-modal task-unrelated information blurs discriminability, especially for gigapixel whole slide images (WSIs) with many patches in pathology and thousands of pathways in genomic data, leading to an ``intra-modal redundancy" issue. (2) Duplicated information among modalities dominates the representation of multimodal data, which makes modality-specific information prone to being ignored, resulting in an ``inter-modal redundancy" issue. これらの問題に対処するために,我々は,モード内冗長性のためのprototypepical information bottlenecking and disentangling(pibd)モジュールとモード間冗長性のためのprototypepical information disentanglement(pid)モジュールからなる新しい枠組みを提案する。 具体的には、様々なリスクレベルに対して多数のインスタンスを近似するプロトタイプをモデル化するために、情報ボトルネックの変種であるpibが提案されている。 pidモジュールは、結合したマルチモーダルデータをコンパクトなコンポーネントに分解する:モダリティ共通およびモダリティ固有知識(modality-common and modality-specific knowledge)は、ジョイント・プロト・典型的分布(joint prototypical distribution)の指導のもとに。 5つのがんベンチマークデータセットに関する広範な実験により、他の方法よりも優れた結果が得られた。

Multimodal learning significantly benefits cancer survival prediction, especially the integration of pathological images and genomic data. Despite advantages of multimodal learning for cancer survival prediction, massive redundancy in multimodal data prevents it from extracting discriminative and compact information: (1) An extensive amount of intra-modal task-unrelated information blurs discriminability, especially for gigapixel whole slide images (WSIs) with many patches in pathology and thousands of pathways in genomic data, leading to an ``intra-modal redundancy" issue. (2) Duplicated information among modalities dominates the representation of multimodal data, which makes modality-specific information prone to being ignored, resulting in an ``inter-modal redundancy" issue. To address these, we propose a new framework, Prototypical Information Bottlenecking and Disentangling (PIBD), consisting of Prototypical Information Bottleneck (PIB) module for intra-modal redundancy and Prototypical Information Disentanglement (PID) module for inter-modal redundancy. Specifically, a variant of information bottleneck, PIB, is proposed to model prototypes approximating a bunch of instances for different risk levels, which can be used for selection of discriminative instances within modality. PID module decouples entangled multimodal data into compact distinct components: modality-common and modality-specific knowledge, under the guidance of the joint prototypical distribution. Extensive experiments on five cancer benchmark datasets demonstrated our superiority over other methods.
翻訳日:2024-01-04 14:35:32 公開日:2024-01-03
# モデル平均化とダブル機械学習

Model Averaging and Double Machine Learning ( http://arxiv.org/abs/2401.01645v1 )

ライセンス: Link先を確認
Achim Ahrens and Christian B. Hansen and Mark E. Schaffer and Thomas Wiemann(参考訳) 本稿では,複数の候補学習者を組み合わせたモデル平均化手法であるstackingと,ddml(double/debiased machine learning)を組み合わせることで,構造パラメータを推定する。 DDMLのクロスフィッティングステップを利用して計算負担を大幅に軽減し,プールド・スタックリングではクロスフィッティング・フォールドに対して共通積み重ね重みを強制する。 キャリブレーションされたシミュレーション研究と、引用と賃金の男女差を推定する2つの応用を用いて、重ね合わせによるDDMLは、単一の事前選択学習者に基づく一般的な代替手法よりも、部分的に未知の機能形式に対して堅牢であることを示す。 提案を実装したStaとRのソフトウェアを提供する。

This paper discusses pairing double/debiased machine learning (DDML) with stacking, a model averaging method for combining multiple candidate learners, to estimate structural parameters. We introduce two new stacking approaches for DDML: short-stacking exploits the cross-fitting step of DDML to substantially reduce the computational burden and pooled stacking enforces common stacking weights over cross-fitting folds. Using calibrated simulation studies and two applications estimating gender gaps in citations and wages, we show that DDML with stacking is more robust to partially unknown functional forms than common alternative approaches based on single pre-selected learners. We provide Stata and R software implementing our proposals.
翻訳日:2024-01-04 14:35:05 公開日:2024-01-03
# s3net:衛星エピポーラ画像における単分岐意味ステレオネットワークによるステレオマッチングとセマンティクスセグメンテーションの革新

S3Net: Innovating Stereo Matching and Semantic Segmentation with a Single-Branch Semantic Stereo Network in Satellite Epipolar Imagery ( http://arxiv.org/abs/2401.01643v1 )

ライセンス: Link先を確認
Qingyuan Yang, Guanzhou Chen, Xiaoliang Tan, Tong Wang, Jiaqi Wang, Xiaodong Zhang(参考訳) ステレオマッチングとセマンティックセグメンテーションは両眼衛星の3D再構成において重要な課題である。 しかし、従来の研究ではこれらを独立した並列タスクと見なしており、統合マルチタスク学習フレームワークが欠如している。 本研究は,自己ヒューズモジュールと相互ヒューズモジュールを用いた意味セグメンテーションとステレオマッチングを革新的に組み合わせた,s3net(single-branch semantic stereo network)というソリューションを提案する。 セマンティクスや異質な情報を独立に利用する従来の手法とは異なり、この方法はこれらの2つのタスク間の内在的なリンクを磨き、活用し、より正確なセマンティクス情報の理解と異質性推定に繋がる。 US3Dデータセットの比較テストは、S3Netの有効性を証明する。 本モデルでは, セマンティックセグメンテーションにおけるmIoUを61.38から67.39に改善し, D1-Errorと平均終点誤差(EPE)を10.051から9.579, 1.439から1.403に削減し, 既存の競合手法を上回った。 私たちのコードは、https://github.com/cveo/s3netで利用可能です。

Stereo matching and semantic segmentation are significant tasks in binocular satellite 3D reconstruction. However, previous studies primarily view these as independent parallel tasks, lacking an integrated multitask learning framework. This work introduces a solution, the Single-branch Semantic Stereo Network (S3Net), which innovatively combines semantic segmentation and stereo matching using Self-Fuse and Mutual-Fuse modules. Unlike preceding methods that utilize semantic or disparity information independently, our method dentifies and leverages the intrinsic link between these two tasks, leading to a more accurate understanding of semantic information and disparity estimation. Comparative testing on the US3D dataset proves the effectiveness of our S3Net. Our model improves the mIoU in semantic segmentation from 61.38 to 67.39, and reduces the D1-Error and average endpoint error (EPE) in disparity estimation from 10.051 to 9.579 and 1.439 to 1.403 respectively, surpassing existing competitive methods. Our codes are available at:https://github.com/CVEO/S3Net.
翻訳日:2024-01-04 14:34:52 公開日:2024-01-03
# BLADE: ディレクテッド拡張によるボックスレベル監視アモーダルセグメンテーション

BLADE: Box-Level Supervised Amodal Segmentation through Directed Expansion ( http://arxiv.org/abs/2401.01642v1 )

ライセンス: Link先を確認
Zhaochen Liu, Zhixuan Li, Tingting Jiang(参考訳) 隠された物体の完全な形状を認識することは、人間と機械の知性にとって不可欠である。 アモーダルセグメンテーションタスクは、部分的に遮蔽されたオブジェクトの完全なマスクを予測することであるが、ピクセルレベルの基底真理アモーダルマスクに注釈をつけるのに時間と労力がかかる。 box-level supervised amodal segmentationはこの課題に対処し、基底真理バウンディングボックスとインスタンスクラスのみを監督として依存することで、徹底したピクセルレベルのアノテーションの必要性を軽減する。 しかしながら、現在のボックスレベルの方法論は、低解像度マスクと不正確な境界を生成する際の限界に直面する。 本稿では,目に見えるマスクから対応するアモーダルマスクへの拡張アプローチを導入することで,この問題に対処する新しいソリューションを提案する。 重なり合う領域 - 異なるインスタンスが交わる領域 - に基づいて、ハイブリッドなエンドツーエンドネットワークを構築する。 重なり合う領域と非重なり合う領域には, 異なる特徴により, 多様なセグメンテーション戦略を適用する。 可視マスクの拡張を導くために,重なり領域の接続損失を精巧に設計し,可視マスクとの相関を活用し,正確なアモーダルセグメンテーションを容易にする。 提案手法は,いくつかの難解なデータセット上で実験を行い,提案手法が既存の最先端手法を高いマージンで上回ることができることを示した。

Perceiving the complete shape of occluded objects is essential for human and machine intelligence. While the amodal segmentation task is to predict the complete mask of partially occluded objects, it is time-consuming and labor-intensive to annotate the pixel-level ground truth amodal masks. Box-level supervised amodal segmentation addresses this challenge by relying solely on ground truth bounding boxes and instance classes as supervision, thereby alleviating the need for exhaustive pixel-level annotations. Nevertheless, current box-level methodologies encounter limitations in generating low-resolution masks and imprecise boundaries, failing to meet the demands of practical real-world applications. We present a novel solution to tackle this problem by introducing a directed expansion approach from visible masks to corresponding amodal masks. Our approach involves a hybrid end-to-end network based on the overlapping region - the area where different instances intersect. Diverse segmentation strategies are applied for overlapping regions and non-overlapping regions according to distinct characteristics. To guide the expansion of visible masks, we introduce an elaborately-designed connectivity loss for overlapping regions, which leverages correlations with visible masks and facilitates accurate amodal segmentation. Experiments are conducted on several challenging datasets and the results show that our proposed method can outperform existing state-of-the-art methods with large margins.
翻訳日:2024-01-04 14:34:13 公開日:2024-01-03
# ファンデーション購入モデルに向けて:トランザクションシーケンスの事前生成自己回帰

Towards a Foundation Purchasing Model: Pretrained Generative Autoregression on Transaction Sequences ( http://arxiv.org/abs/2401.01641v1 )

ライセンス: Link先を確認
Piotr Skalski, David Sutton, Stuart Burrell, Iker Perez, Jason Wong(参考訳) 機械学習モデルは、不正検出やチャーン予測といったユースケースのために、多くの現代的な金融システムを支える。 その多くは、ラベル付きデータの可用性に大きく依存する手作業による教師あり学習に基づいている。 大規模な自己監督型生成モデルは、自然言語処理とコンピュータビジョンにおいて大きな成功を収めていますが、今のところ、多変量時系列の金融取引に適応していません。 本稿では,金融取引のコンテクスト化された埋め込みを得るための生成的事前学習手法を提案する。 公開データセットのベンチマークは、ダウンストリームタスクで最先端の自己教師ありメソッドよりも優れていることを示している。 さらに、510億の取引を含む180の発行銀行のデータコーパスを用いて埋め込みモデルの大規模事前学習を行い、ホールドアウトデータセットのカード不正検出問題に適用する。 埋め込みモデルは精度の高いしきい値における値検出率を大幅に改善し、領域外分布によく移行する。

Machine learning models underpin many modern financial systems for use cases such as fraud detection and churn prediction. Most are based on supervised learning with hand-engineered features, which relies heavily on the availability of labelled data. Large self-supervised generative models have shown tremendous success in natural language processing and computer vision, yet so far they haven't been adapted to multivariate time series of financial transactions. In this paper, we present a generative pretraining method that can be used to obtain contextualised embeddings of financial transactions. Benchmarks on public datasets demonstrate that it outperforms state-of-the-art self-supervised methods on a range of downstream tasks. We additionally perform large-scale pretraining of an embedding model using a corpus of data from 180 issuing banks containing 5.1 billion transactions and apply it to the card fraud detection problem on hold-out datasets. The embedding model significantly improves value detection rate at high precision thresholds and transfers well to out-of-domain distributions.
翻訳日:2024-01-04 14:33:48 公開日:2024-01-03
# 時系列データの自己監督・監視モデルにおける公平性の評価

Evaluating Fairness in Self-supervised and Supervised Models for Sequential Data ( http://arxiv.org/abs/2401.01640v1 )

ライセンス: Link先を確認
Sofia Yfantidou, Dimitris Spathis, Marios Constantinides, Athena Vakali, Daniele Quercia, Fahim Kawsar(参考訳) 自己教師付き学習(SSL)は、ドメイン固有のデータとラベルを使用した教師付き微調整が続く大規模モデルの事実上の訓練パラダイムとなっている。 SSLモデルはより一般的でバイアスの少ない表現を学習するであろうと仮定し、この研究は事前学習と微調整の戦略が公正性(すなわち、異なる人口統計の分解に等しく作用する)に与える影響を探求する。 実世界の時系列データに対する人間中心の応用に動機づけられ、sslモデルと教師付きデータとを体系的に比較することにより、モデル、レイヤー、メトリックレベルの帰納的バイアスを解釈する。 以上の結果から,SSLは教師付き手法と同等の性能を発揮すると同時に,公正度を27%向上させる能力を有し,自己監督による性能低下はわずか1%であった。 究極的には、この研究はSSLの人間中心のコンピューティング、特にヘルスケアのような高度なデータ共有アプリケーションドメインにおける可能性を強調している。

Self-supervised learning (SSL) has become the de facto training paradigm of large models where pre-training is followed by supervised fine-tuning using domain-specific data and labels. Hypothesizing that SSL models would learn more generic, hence less biased, representations, this study explores the impact of pre-training and fine-tuning strategies on fairness (i.e., performing equally on different demographic breakdowns). Motivated by human-centric applications on real-world timeseries data, we interpret inductive biases on the model, layer, and metric levels by systematically comparing SSL models to their supervised counterparts. Our findings demonstrate that SSL has the capacity to achieve performance on par with supervised methods while significantly enhancing fairness--exhibiting up to a 27% increase in fairness with a mere 1% loss in performance through self-supervision. Ultimately, this work underscores SSL's potential in human-centric computing, particularly high-stakes, data-scarce application domains like healthcare.
翻訳日:2024-01-04 14:33:31 公開日:2024-01-03
# ブランドのためのソーシャルメディア対応キャプション生成

Social Media Ready Caption Generation for Brands ( http://arxiv.org/abs/2401.01637v1 )

ライセンス: Link先を確認
Himanshu Maheshwari, Koustava Goswami, Apoorv Saxena and Balaji Vasan Srinivasan(参考訳) ソーシャルメディア広告はブランドマーケティングの鍵であり、キャプションや写真やロゴのキャプションで消費者を惹きつけることを目的としている。 これまでの研究では、一般的な画像のキャプション生成に重点を置いていたが、ブランドのパーソナリティをソーシャルメディアのキャプションに組み込むことは、まだ検討されていない。 ブランドパーソナリティは消費者の行動や社会的相互作用に影響を与えることが示されており、マーケティング戦略の重要な側面であることが証明されている。 現在のオープンソースマルチモーダル LLM は、このタスクにはあまり適していない。 そこで本研究では,ブランドがイメージやブランドのパーソナリティーに合ったソーシャルメディアキャプションを作成するのを支援するパイプラインソリューションを提案する。 第1部は、ブランドがオンラインで投稿したい画像を取り込んで、平易な英語のキャプションを与える画像キャプションモデルを含み、第2部は、ターゲットブランドのパーソナリティとともに生成されたキャプションを取り込んで、キャッチーなパーソナリティ対応のソーシャルメディアキャプションを出力する。 ブランドのパーソナリティとともに、このシステムはハッシュタグ、instagramハンドル、url、そしてキャプションを含ませたい名前付きエンティティを提供する柔軟性もユーザに提供する。 各種ベースラインに対する比較評価は,定性的かつ定量的に,我々のアプローチの有効性を示す。

Social media advertisements are key for brand marketing, aiming to attract consumers with captivating captions and pictures or logos. While previous research has focused on generating captions for general images, incorporating brand personalities into social media captioning remains unexplored. Brand personalities are shown to be affecting consumers' behaviours and social interactions and thus are proven to be a key aspect of marketing strategies. Current open-source multimodal LLMs are not directly suited for this task. Hence, we propose a pipeline solution to assist brands in creating engaging social media captions that align with the image and the brand personalities. Our architecture is based on two parts: a the first part contains an image captioning model that takes in an image that the brand wants to post online and gives a plain English caption; b the second part takes in the generated caption along with the target brand personality and outputs a catchy personality-aligned social media caption. Along with brand personality, our system also gives users the flexibility to provide hashtags, Instagram handles, URLs, and named entities they want the caption to contain, making the captions more semantically related to the social media handles. Comparative evaluations against various baselines demonstrate the effectiveness of our approach, both qualitatively and quantitatively.
翻訳日:2024-01-04 14:33:12 公開日:2024-01-03
# 人工知能コンポーネントシステムのためのサイバーセキュリティリスク分析フレームワーク

A Cybersecurity Risk Analysis Framework for Systems with Artificial Intelligence Components ( http://arxiv.org/abs/2401.01630v1 )

ライセンス: Link先を確認
Jose Manuel Camacho, Aitor Couce-Vieira, David Arroyo, David Rios Insua(参考訳) 欧州連合人工知能法、NIST人工知能リスク管理フレームワーク、および関連する規範の導入は、人工知能コンポーネントを持つシステムを評価するために、新しいリスク分析アプローチをよりよく理解し実装することを要求する。 本稿では,システム評価を支援するサイバーセキュリティリスク分析フレームワークを提案する。 自動走行システムに関する実例を例に挙げる。

The introduction of the European Union Artificial Intelligence Act, the NIST Artificial Intelligence Risk Management Framework, and related norms demands a better understanding and implementation of novel risk analysis approaches to evaluate systems with Artificial Intelligence components. This paper provides a cybersecurity risk analysis framework that can help assessing such systems. We use an illustrative example concerning automated driving systems.
翻訳日:2024-01-04 14:32:46 公開日:2024-01-03
# AIにおける合成データ:挑戦、応用、倫理的意味

Synthetic Data in AI: Challenges, Applications, and Ethical Implications ( http://arxiv.org/abs/2401.01629v1 )

ライセンス: Link先を確認
Shuang Hao, Wenfeng Han, Tao Jiang, Yiping Li, Haonan Wu, Chunlin Zhong, Zhangjun Zhou, He Tang(参考訳) 人工知能の急速に発展する分野では、合成データセットの作成と利用がますます重要になっている。 このレポートは、合成データの多面的側面、特にこれらのデータセットが持つ課題と潜在的なバイアスを強調している。 合成データ生成の方法論を探求し、従来の統計モデルから高度な深層学習技術までを網羅し、様々な分野にまたがる応用について検討する。 報告書はまた、合成データセットに関連する倫理的考察と法的意味を批判的に取り上げ、公平性を確保し、偏見を緩和し、ai開発における倫理的標準を守るためのメカニズムの必要性を強調している。

In the rapidly evolving field of artificial intelligence, the creation and utilization of synthetic datasets have become increasingly significant. This report delves into the multifaceted aspects of synthetic data, particularly emphasizing the challenges and potential biases these datasets may harbor. It explores the methodologies behind synthetic data generation, spanning traditional statistical models to advanced deep learning techniques, and examines their applications across diverse domains. The report also critically addresses the ethical considerations and legal implications associated with synthetic datasets, highlighting the urgent need for mechanisms to ensure fairness, mitigate biases, and uphold ethical standards in AI development.
翻訳日:2024-01-04 14:32:39 公開日:2024-01-03
# グラフニューラルネットワークの表現力について

On the Expressive Power of Graph Neural Networks ( http://arxiv.org/abs/2401.01626v1 )

ライセンス: Link先を確認
Ashwin Nalwade, Kelly Marshall, Axel Eladi, Umang Sharma(参考訳) グラフニューラルネットワークの研究は、ここ数年でかなりの関心を集めている。 ディープラーニングをグラフ構造データに拡張することで、gnnは社会科学、化学、医学といった分野のさまざまなタスクを解決できる。 GNNアーキテクチャの開発は、ノードやグラフの分類といったタスクにおける経験的パフォーマンスの向上に重点を置いている。 しかし、最近の一連の研究は、その表現力と表現力を最大化するアーキテクチャを設計することによって、望ましい理論的性質を持つGNNアーキテクチャを見つけ出そうとしている。 GNNの表現性を定義する最良の方法に関するコンセンサスはないが、いくつかのモチベーションの高い視点から見ることができる。 おそらく最も自然なアプローチは、GNNの普遍近似特性を研究することである。 別の方向は、グラフ同型テストに関連して、GNNが異なるグラフ構造を区別できる範囲に焦点を当てている。 さらに、グラフモーメントなどのグラフ特性を計算するGNNの能力は、表現性の別の形態として提案されている。 これらの異なる定義は相補的であり、GNNアーキテクチャの選択に対して異なる推奨を与えている。 本稿では,GNNの「表現力」概念の概要を述べるとともに,GNNの設計選択に関する貴重な知見を提供する。

The study of Graph Neural Networks has received considerable interest in the past few years. By extending deep learning to graph-structured data, GNNs can solve a diverse set of tasks in fields including social science, chemistry, and medicine. The development of GNN architectures has largely been focused on improving empirical performance on tasks like node or graph classification. However, a line of recent work has instead sought to find GNN architectures that have desirable theoretical properties - by studying their expressive power and designing architectures that maximize this expressiveness. While there is no consensus on the best way to define the expressiveness of a GNN, it can be viewed from several well-motivated perspectives. Perhaps the most natural approach is to study the universal approximation properties of GNNs, much in the way that this has been studied extensively for MLPs. Another direction focuses on the extent to which GNNs can distinguish between different graph structures, relating this to the graph isomorphism test. Besides, a GNN's ability to compute graph properties such as graph moments has been suggested as another form of expressiveness. All of these different definitions are complementary and have yielded different recommendations for GNN architecture choices. In this paper, we would like to give an overview of the notion of "expressive power" of GNNs and provide some valuable insights regarding the design choices of GNNs.
翻訳日:2024-01-04 14:32:27 公開日:2024-01-03
# SCALA:分散ネットワーク上の異常検出のためのスパシフィケーションに基づくコントラスト学習

SCALA: Sparsification-based Contrastive Learning for Anomaly Detection on Attributed Networks ( http://arxiv.org/abs/2401.01625v1 )

ライセンス: Link先を確認
Enbo He, Yitong Hao, Yue Zhang, Guisheng Yin and Lina Yao(参考訳) 属性付きネットワーク上の異常検出は、他の多数ノードと大きく異なる振る舞いを持つノードを見つけることを目的としている。 一般に、ネットワークデータはエンティティ間の関係に関する情報を含み、異常は通常これらの関係に具体化される。 したがって、ネットワーク内の複雑な相互作用パターンを包括的にモデル化する方法は、依然として大きな焦点である。 ネットワークの異常がホモフィリー仮定に違反していることは観察できる。 しかし、既存の研究の多くは、この現象を明示的にではなく斜めにしか考えていない。 さらに、異常ノードが導入したノイズ関係により、通常のエンティティのノード表現が容易に摂動できる。 そこで本研究では,ネットワークの組込み品質を向上させることを目的とした,属性付きネットワーク上の異常検出のための新しいコントラスト学習フレームワークである \textbf{scala} を提案する。 5つのベンチマーク実世界のデータセットで大規模な実験が行われ、結果はSCALAがすべてのベースライン手法を大幅に上回っていることを示している。

Anomaly detection on attributed networks aims to find the nodes whose behaviors are significantly different from other majority nodes. Generally, network data contains information about relationships between entities, and the anomaly is usually embodied in these relationships. Therefore, how to comprehensively model complex interaction patterns in networks is still a major focus. It can be observed that anomalies in networks violate the homophily assumption. However, most existing studies only considered this phenomenon obliquely rather than explicitly. Besides, the node representation of normal entities can be perturbed easily by the noise relationships introduced by anomalous nodes. To address the above issues, we present a novel contrastive learning framework for anomaly detection on attributed networks, \textbf{SCALA}, aiming to improve the embedding quality of the network and provide a new measurement of qualifying the anomaly score for each node by introducing sparsification into the conventional method. Extensive experiments are conducted on five benchmark real-world datasets and the results show that SCALA consistently outperforms all baseline methods significantly.
翻訳日:2024-01-04 14:32:08 公開日:2024-01-03
# RGB-Tセマンティックセグメンテーションのためのコンテキスト認識インタラクションネットワーク

Context-Aware Interaction Network for RGB-T Semantic Segmentation ( http://arxiv.org/abs/2401.01624v1 )

ライセンス: Link先を確認
Ying Lv, Zhi Liu, Gongyang Li(参考訳) RGB-Tセマンティックセグメンテーションは自律走行シーン理解の鍵となる手法である。 しかし,既存のRGB-Tセマンティックセマンティックセグメンテーションでは,複数のレベル間の情報相互作用において,異なるモダリティ間の相補関係を効果的に探索することができない。 このような問題に対処するために、RGB-TセマンティックセグメンテーションのためにContext-Aware Interaction Network (CAINet) が提案されている。 具体的には,マルチモーダル特徴と空間次元およびチャネル次元の長期的文脈との相補関係を確立することを目的とした,コンテキスト対応補完推論(CACR)モジュールを提案する。 さらに、グローバルコンテキストと詳細な情報の重要性を考慮し、グローバルコンテキストモデリング(gcm)モジュールとディテールアグリゲーション(da)モジュールを提案し、コンテキストインタラクションを明示的にガイドし、セグメンテーションマップを洗練するために、特別な補助監督を導入する。 MFNetとPST900の2つのベンチマークデータセットに対する大規模な実験は、提案されたCAINetが最先端のパフォーマンスを達成することを示した。 コードはhttps://github.com/YingLv1106/CAINetで入手できる。

RGB-T semantic segmentation is a key technique for autonomous driving scenes understanding. For the existing RGB-T semantic segmentation methods, however, the effective exploration of the complementary relationship between different modalities is not implemented in the information interaction between multiple levels. To address such an issue, the Context-Aware Interaction Network (CAINet) is proposed for RGB-T semantic segmentation, which constructs interaction space to exploit auxiliary tasks and global context for explicitly guided learning. Specifically, we propose a Context-Aware Complementary Reasoning (CACR) module aimed at establishing the complementary relationship between multimodal features with the long-term context in both spatial and channel dimensions. Further, considering the importance of global contextual and detailed information, we propose the Global Context Modeling (GCM) module and Detail Aggregation (DA) module, and we introduce specific auxiliary supervision to explicitly guide the context interaction and refine the segmentation map. Extensive experiments on two benchmark datasets of MFNet and PST900 demonstrate that the proposed CAINet achieves state-of-the-art performance. The code is available at https://github.com/YingLv1106/CAINet.
翻訳日:2024-01-04 14:31:51 公開日:2024-01-03
# AIは人間と同じくらい創造的か?

Can AI Be as Creative as Humans? ( http://arxiv.org/abs/2401.01623v1 )

ライセンス: Link先を確認
Haonan Wang, James Zou, Michael Mozer, Linjun Zhang, Anirudh Goyal, Alex Lamb, Zhun Deng, Michael Qizhe Xie, Hannah Brown, Kenji Kawaguchi(参考訳) 創造性は社会的な進歩とイノベーションの基盤となるが、その評価は複雑でしばしば主観的な取り組みである。 人間の創造性に留まったタスクが可能な高度な生成型aiモデルの台頭に伴い、aiの創造性の研究は、その責任ある開発と応用に不可欠となる。 本稿では,Relative Creativityという新しい概念を導入することにより,創造性の定義と評価の複雑さに対処する。 創造性を普遍的に定義するのではなく、aiが仮想人間の創造能力にマッチするかどうかに焦点を移す。 この視点はチューリングテストからインスピレーションを得て、クリエイティビティの評価に固有の課題と主観性に対処するために拡張される。 この方法論シフトは、統計的に定量化されたAIの創造性の評価を促進する。 このアプローチは、AIの創造能力と特定の人間グループとの直接比較を可能にする。 この基礎を基礎として,現代の自己回帰モデルにおける統計的創造性の適用について論じる。 クリエイティビティの尺度の定義と分析に加えて,クリエイティビティの理論的定量化と実践モデルトレーニングのギャップを効果的に埋める,実行可能なトレーニングガイドラインを導入する。 これらの多面的貢献を通じて、aiモデルにおける統計的創造性の評価と育成のための結束的で継続的な進化とトランスフォーメーションの枠組みを確立した。

Creativity serves as a cornerstone for societal progress and innovation, but its assessment remains a complex and often subjective endeavor. With the rise of advanced generative AI models capable of tasks once reserved for human creativity, the study of AI's creative potential becomes imperative for its responsible development and application. This paper addresses the complexities in defining and evaluating creativity by introducing a new concept called Relative Creativity. Instead of trying to define creativity universally, we shift the focus to whether AI can match the creative abilities of a hypothetical human. This perspective draws inspiration from the Turing Test, expanding upon it to address the challenges and subjectivities inherent in evaluating creativity. This methodological shift facilitates a statistically quantifiable evaluation of AI's creativity, which we term Statistical Creativity. This approach allows for direct comparisons of AI's creative abilities with those of specific human groups. Building on this foundation, we discuss the application of statistical creativity in contemporary prompt-conditioned autoregressive models. In addition to defining and analyzing a measure of creativity, we introduce an actionable training guideline, effectively bridging the gap between theoretical quantification of creativity and practical model training. Through these multifaceted contributions, the paper establishes a cohesive, continuously evolving, and transformative framework for assessing and fostering statistical creativity in AI models.
翻訳日:2024-01-04 14:31:27 公開日:2024-01-03
# 局所適応クラスタリングに基づく自動視覚識別のための画像マッチング

Local Adaptive Clustering Based Image Matching for Automatic Visual Identification ( http://arxiv.org/abs/2401.01720v1 )

ライセンス: Link先を確認
Zhizhen Wang(参考訳) 監視カメラは工業生産において、機器の監視に広く利用されている。 コンピュータビジョンの進歩により、画像特徴を用いたデバイス認識が実現可能である。 本稿では,監視映像における画像マッチングによるリアルタイム自動機器ラベリングを実現する視覚支援識別システムを提案する。 システムはORBアルゴリズムをデプロイし、画像の特徴を抽出し、GMSアルゴリズムで不正確なマッチング点を除去する。 クラスタリングとテンプレートローカリティの原則に従って、ラベル位置決めを強化するために、ローカル適応クラスタリング(lac)と呼ばれる方法が確立されている。 この方法は、クラスタセンターを使用してテンプレートをセグメント化し、ラベルの効率性と安定性を向上させる。 実験の結果,LACはラベルドリフトを効果的に縮めることが示された。

Monitoring cameras are extensively utilized in industrial production to monitor equipment running. With advancements in computer vision, device recognition using image features is viable. This paper presents a vision-assisted identification system that implements real-time automatic equipment labeling through image matching in surveillance videos. The system deploys the ORB algorithm to extract image features and the GMS algorithm to remove incorrect matching points. According to the principles of clustering and template locality, a method known as Local Adaptive Clustering (LAC) has been established to enhance label positioning. This method segments matching templates using the cluster center, which improves the efficiency and stability of labels. The experimental results demonstrate that LAC effectively curtails the label drift.
翻訳日:2024-01-04 14:26:22 公開日:2024-01-03
# 学生の言説による課題の予測:GPT-4と従来の2つの自然言語処理アプローチの比較

Predicting challenge moments from students' discourse: A comparison of GPT-4 to two traditional natural language processing approaches ( http://arxiv.org/abs/2401.01692v1 )

ライセンス: Link先を確認
Wannapon Suraworachet, Jennifer Seon, Mutlu Cukurova(参考訳) 効果的なコラボレーションには、グループが挑戦を克服するために戦略的に自らを規制する必要がある。 研究によると、外部支援の恩恵を受けるであろう課題に対するメンバーの認識の違いにより、グループは規制に失敗する可能性がある。 本研究では,3つの異なる自然言語処理モデルを活用できる可能性について検討した。専門知識に基づくモデル,教師付き機械学習(ml)モデル,大規模言語モデル(llm)を用いて,学生談話における課題検出と課題次元識別(認知的,メタ認知的,感情的,技術的/その他の課題)について検討した。 その結果、教師付きMLとLLMのアプローチは、専門家の工学的特徴に大きく依存するルールベースのアプローチとは対照的に、双方のタスクでかなりうまく機能していた。 本稿は,協調学習活動における学生のチャレンジモーメントの自動検出と支援のための3つのアプローチのパフォーマンスについて,広範な議論を行う。 LLMには多くの利点があるが、信頼性の欠如や妥当性評価、プライバシ、コミュニケーションの問題などにより、社会的に共有される学習規制の検出とフィードバックの供給が問題になる可能性は低いと論じている。 本論文は,llmを用いた学生および教育者を対象とした分析的フィードバックの実現可能性と意義を探究するためのモデル透過性など,さらなる考察を行った。

Effective collaboration requires groups to strategically regulate themselves to overcome challenges. Research has shown that groups may fail to regulate due to differences in members' perceptions of challenges which may benefit from external support. In this study, we investigated the potential of leveraging three distinct natural language processing models: an expert knowledge rule-based model, a supervised machine learning (ML) model and a Large Language model (LLM), in challenge detection and challenge dimension identification (cognitive, metacognitive, emotional and technical/other challenges) from student discourse, was investigated. The results show that the supervised ML and the LLM approaches performed considerably well in both tasks, in contrast to the rule-based approach, whose efficacy heavily relies on the engineered features by experts. The paper provides an extensive discussion of the three approaches' performance for automated detection and support of students' challenge moments in collaborative learning activities. It argues that, although LLMs provide many advantages, they are unlikely to be the panacea to issues of the detection and feedback provision of socially shared regulation of learning due to their lack of reliability, as well as issues of validity evaluation, privacy and confabulation. We conclude the paper with a discussion on additional considerations, including model transparency to explore feasible and meaningful analytical feedback for students and educators using LLMs.
翻訳日:2024-01-04 14:26:12 公開日:2024-01-03
# 自己教師付き学習を用いたゼロショットアクティブラーニング

Zero-shot Active Learning Using Self Supervised Learning ( http://arxiv.org/abs/2401.01690v1 )

ライセンス: Link先を確認
Abhishek Sinha, Shreya Singh(参考訳) ディープラーニングアルゴリズムは、しばしばデータ空腹だと言われている。 このようなアルゴリズムの性能は一般的に、より多くの注釈付きデータがモデルに入力されるにつれて向上する。 問題のないデータを集めるのは簡単ですが(インターネットから簡単に取り除けるので)、注釈をつけるのは面倒で高価な作業です。 データアノテーションのための固定された予算が与えられた場合、Active Learningは、アノテーションのためのデータの最高のサブセットを選択するのに役立ちます。 本研究では,反復的なプロセスを必要としないだけでなく,モデルに依存しない新しいアクティブラーニング手法を提案する。 我々は,アクティブラーニングのタスクに自己教師付き学習機能を活用することを目指している。 自己教師付き学習の利点は、アノテーションなしで、入力データの有用な特徴表現を得ることができることである。

Deep learning algorithms are often said to be data hungry. The performance of such algorithms generally improve as more and more annotated data is fed into the model. While collecting unlabelled data is easier (as they can be scraped easily from the internet), annotating them is a tedious and expensive task. Given a fixed budget available for data annotation, Active Learning helps selecting the best subset of data for annotation, such that the deep learning model when trained over that subset will have maximum generalization performance under this budget. In this work, we aim to propose a new Active Learning approach which is model agnostic as well as one doesn't require an iterative process. We aim to leverage self-supervised learnt features for the task of Active Learning. The benefit of self-supervised learning, is that one can get useful feature representation of the input data, without having any annotation.
翻訳日:2024-01-04 14:25:44 公開日:2024-01-03
# ODTrack: ビジュアルトラッキングのためのオンラインDense Temporal Token Learning

ODTrack: Online Dense Temporal Token Learning for Visual Tracking ( http://arxiv.org/abs/2401.01686v1 )

ライセンス: Link先を確認
Yaozong Zheng, Bineng Zhong, Qihua Liang, Zhiyi Mo, Shengping Zhang, Xianxian Li(参考訳) 連続するビデオフレーム間のオンラインコンテキスト推論と関連性は、視覚的トラッキングのインスタンスを知覚するために重要である。 しかし、現在のほとんどのトップパフォーマンストラッカーは、オフラインモードを介して参照フレームと検索フレームの間の疎時間関係に永続的に依存している。 その結果、各画像対内で独立に相互作用し、時間的相関が限定される。 上記の問題を解決するために,ビデオフレームのコンテキスト関係をオンライントークン伝搬方式で密結合する,シンプルで柔軟で効果的なビデオレベルのトラッキングパイプライン \textbf{odtrack} を提案する。 odtrackは任意の長さのビデオフレームを受け取り、インスタンスの時空間的軌道関係をキャプチャし、ターゲットの識別特徴(局所化情報)をトークンシーケンスに圧縮してフレーム対フレーム関連付けを実現する。 この新しいソリューションは以下の利点をもたらす。 1) 精製されたトークンシーケンスは、次のビデオフレームにおける推論のプロンプトとして機能し、過去の情報を活用して将来の推論を導出することができる。 2) 複雑なオンライン更新戦略はトークン列の反復伝播によって効果的に回避され, より効率的なモデル表現と計算が可能となる。 ODTrackは、リアルタイムで実行しながら、7つのベンチマークで新しい‘textit{SOTA}パフォーマンスを達成する。 コードとモデルは \url{https://github.com/gxnu-zhonglab/odtrack} で利用可能である。

Online contextual reasoning and association across consecutive video frames are critical to perceive instances in visual tracking. However, most current top-performing trackers persistently lean on sparse temporal relationships between reference and search frames via an offline mode. Consequently, they can only interact independently within each image-pair and establish limited temporal correlations. To alleviate the above problem, we propose a simple, flexible and effective video-level tracking pipeline, named \textbf{ODTrack}, which densely associates the contextual relationships of video frames in an online token propagation manner. ODTrack receives video frames of arbitrary length to capture the spatio-temporal trajectory relationships of an instance, and compresses the discrimination features (localization information) of a target into a token sequence to achieve frame-to-frame association. This new solution brings the following benefits: 1) the purified token sequences can serve as prompts for the inference in the next video frame, whereby past information is leveraged to guide future inference; 2) the complex online update strategies are effectively avoided by the iterative propagation of token sequences, and thus we can achieve more efficient model representation and computation. ODTrack achieves a new \textit{SOTA} performance on seven benchmarks, while running at real-time speed. Code and models are available at \url{https://github.com/GXNU-ZhongLab/ODTrack}.
翻訳日:2024-01-04 14:25:29 公開日:2024-01-03
# 網膜原性視覚経路分割のためのモダリティ交換ネットワーク

Modality Exchange Network for Retinogeniculate Visual Pathway Segmentation ( http://arxiv.org/abs/2401.01685v1 )

ライセンス: Link先を確認
Hua Han (1 and 2), Cheng Li (1), Lei Xie (3), Yuanjing Feng (3), Alou Diakite (1 and 2), Shanshan Wang (1 and 4) ((1) Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, Shenzhen, China, (2) University of Chinese Academy of Sciences, Beijing, China, (3) College of Information Engineering, Zhejiang University of Technology, Hangzhou, China, (4) Peng Cheng Laboratory, Shenzhen, China)(参考訳) retinogeniculate visual pathway(rgvp)の正確なセグメンテーションは、経路内の障害や異常を特定することによって、視覚障害の診断と治療を支援する。 しかしながら、複雑な解剖学的構造とrgvpの接続は、正確なセグメンテーションを達成するのに困難である。 本研究では,マルチモーダル磁気共鳴(MR)イメージング情報を有効活用し,RGVPセグメンテーションを強化する新しいモダリティ交換ネットワーク(ME-Net)を提案する。 当社のme-netには2つの大きな貢献があります。 まず,効率的なマルチモーダルソフト交換手法を提案する。 具体的には,t1重み付けと分数異方性mr画像間のモダリティ情報を交換するために,チャネルおよび空間混合アテンションモジュールを設計する。 次に,2つのモード間の情報融合をさらに促進するクロスフュージョンモジュールを提案する。 実験の結果,RGVPセグメンテーション性能は既存の最先端手法よりも優れていた。

Accurate segmentation of the retinogeniculate visual pathway (RGVP) aids in the diagnosis and treatment of visual disorders by identifying disruptions or abnormalities within the pathway. However, the complex anatomical structure and connectivity of RGVP make it challenging to achieve accurate segmentation. In this study, we propose a novel Modality Exchange Network (ME-Net) that effectively utilizes multi-modal magnetic resonance (MR) imaging information to enhance RGVP segmentation. Our ME-Net has two main contributions. Firstly, we introduce an effective multi-modal soft-exchange technique. Specifically, we design a channel and spatially mixed attention module to exchange modality information between T1-weighted and fractional anisotropy MR images. Secondly, we propose a cross-fusion module that further enhances the fusion of information between the two modalities. Experimental results demonstrate that our method outperforms existing state-of-the-art approaches in terms of RGVP segmentation performance.
翻訳日:2024-01-04 14:25:07 公開日:2024-01-03
# 情報カスケードにおけるノードの影響のポストホック評価--コーディネートアカウントの場合

Post-hoc evaluation of nodes influence in information cascades: the case of coordinated accounts ( http://arxiv.org/abs/2401.01684v1 )

ライセンス: Link先を確認
Niccol\`o Di Marco, Sara Brunetti, Matteo Cinelli, Walter Quattrociocchi(参考訳) 近年、ソーシャルメディアは前例のないほどの注目を集め、現代のコミュニケーションとつながりの風景を形成する上で重要な役割を担っている。 しかし、利用者の身元や意図を欺いたり誤解させたりするための団体による組織的努力として定義されたコーディネート・インハウテンティック・ビヘイビア(CIB)は、オンライン談話を利用する戦術として登場した。 本研究では,有向木におけるノードのサブセットの影響を評価する汎用フレームワークを定義し,cib戦術の有効性を定量化する。 構成の影響を最大化する最適なポストホック配置戦略を提供する2つのアルゴリズムを設計した。 そして、twitterで拡散する情報からのカスケードを検討し、観察した行動とアルゴリズムを比較します。 その結果, コーディネートされたアカウントは, ネットワークの影響で極めて非効率であり, 予測よりも重要でない役割を担っている可能性が示唆された。 さらに、これらの貧弱な結果の原因は、配置の悪い戦略と資源の不足という2つの異なる側面に見ることができる。

In the last years, social media has gained an unprecedented amount of attention, playing a pivotal role in shaping the contemporary landscape of communication and connection. However, Coordinated Inhautentic Behaviour (CIB), defined as orchestrated efforts by entities to deceive or mislead users about their identity and intentions, has emerged as a tactic to exploit the online discourse. In this study, we quantify the efficacy of CIB tactics by defining a general framework for evaluating the influence of a subset of nodes in a directed tree. We design two algorithms that provide optimal and greedy post-hoc placement strategies that lead to maximising the configuration influence. We then consider cascades from information spreading on Twitter to compare the observed behaviour with our algorithms. The results show that, according to our model, coordinated accounts are quite inefficient in terms of their network influence, thus suggesting that they may play a less pivotal role than expected. Moreover, the causes of these poor results may be found in two separate aspects: a bad placement strategy and a scarcity of resources.
翻訳日:2024-01-04 14:24:50 公開日:2024-01-03
# GPS軌道ラスタ化法の性能評価

Performance Evaluation of GPS Trajectory Rasterization Methods ( http://arxiv.org/abs/2401.01676v1 )

ライセンス: Link先を確認
Necip Enes Gengec and Ergin Tari(参考訳) グローバル測位システム(gps)軌道データの可用性は、異なるgps受信機の可用性と様々なモビリティサービスの利用の増加とともに増加している。 GPSトラジェクトリは、トラフィック密度検出、トランスポートモード検出、マッピングデータ推論に、画像処理や機械学習などの異なる手法を用いて使用される重要なデータソースである。 データサイズが大きくなる一方、この種のデータの効率的な表現は、これらの手法での使用が困難になっている。 一般的なアプローチは、平均速度、ベアリングなどのGPS軌跡情報をラスタ画像形式で表現し、解析手法を適用することである。 本研究では,QGIS,PostGIS+QGISの空間結合関数を用いたGPSトラジェクトリデータのラスタ化と,Pythonプログラミング言語で符号化された反復的空間構造グリッドアグリゲーション実装について検討する。 我々の実装も並列化可能であり、この並列化も第4の手法として含められている。 GPSトラジェクトリデータセットを用いた実験の結果,QGIS法とPostGIS+QGIS法は,全処理時間の計測値を用いて比較的低性能を示した。 PostGIS+QGIS法は空間接合において,試験面積の増大とともに全性能が急速に低下したにもかかわらず,最適結果を得た。 一方,両手法の性能はGPS点に比例して低下する。 また,提案手法の性能は,プロセッサコア数の増加やマルチコンピューティングクラスタ数の増加に比例して向上する可能性がある。

The availability of the Global Positioning System (GPS) trajectory data is increasing along with the availability of different GPS receivers and with the increasing use of various mobility services. GPS trajectory is an important data source which is used in traffic density detection, transport mode detection, mapping data inferences with the use of different methods such as image processing and machine learning methods. While the data size increases, efficient representation of this type of data is becoming difficult to be used in these methods. A common approach is the representation of GPS trajectory information such as average speed, bearing, etc. in raster image form and applying analysis methods. In this study, we evaluate GPS trajectory data rasterization using the spatial join functions of QGIS, PostGIS+QGIS, and our iterative spatial structured grid aggregation implementation coded in the Python programming language. Our implementation is also parallelizable, and this parallelization is also included as the fourth method. According to the results of experiment carried out with an example GPS trajectory dataset, QGIS method and PostGIS+QGIS method showed relatively low performance with respect to our method using the metric of total processing time. PostGIS+QGIS method achieved the best results for spatial join though its total performance decreased quickly while test area size increases. On the other hand, both of our methods' performances decrease directly proportional to GPS point. And our methods' performance can be increased proportional to the increase with the number of processor cores and/or with multiple computing clusters.
翻訳日:2024-01-04 14:24:31 公開日:2024-01-03
# 時空間マルチモーダルトークンを用いた変圧器rgbt追跡

Transformer RGBT Tracking with Spatio-Temporal Multimodal Tokens ( http://arxiv.org/abs/2401.01674v1 )

ライセンス: Link先を確認
Dengdi Sun, Yajie Pan, Andong Lu, Chenglong Li, Bin Luo(参考訳) 多くのRGBT追跡研究は、ターゲットの外観変化を効果的に処理しながら、主にモーダル融合設計に焦点を当てている。 いくつかのアプローチでは、過去のフレームやヒューズを導入し、時間的情報を組み込むために初期テンプレートを置き換えるが、元のターゲットの外観を乱し、時間とともにエラーを蓄積するリスクがある。 これらの制約を緩和するために,静的マルチモーダルテンプレートとトランスフォーマティブのマルチモーダル検索領域から時空間的マルチモーダルトークンを混合し,ターゲットの外観変化を処理し,ロバストなrgbtトラッキングを実現する,新しいトランスフォーマティブrgbt追跡手法を提案する。 検索領域と対話する独立動的テンプレートトークンを導入し、外観変化に時間的情報を埋め込むとともに、初期静的テンプレートトークンの結合特徴抽出プロセスへの関与を維持し、従来の時間的更新によるターゲット外観のずれを防止するために、元の信頼性の高いターゲット外観情報の保存を確保する。 また,マルチモーダルなテンプレートトークンを付加することで,マルチモーダルなテンプレートトークンのターゲット特性を高めるためにアテンション機構を用い,マルチモーダルなテンプレートトークンとマルチモーダルな動的テンプレートトークンを相互作用させることにより,マルチモーダルなターゲット変更情報の伝達を容易にする。 本モジュールはトランスフォーマーバックボーンネットワークに挿入され,ジョイント特徴抽出,検索・テンプレートマッチング,クロスモーダルインタラクションを継承する。 3つのRGBTベンチマークデータセットの大規模な実験により、提案手法は39.1 FPSで実行しながら、他の最先端追跡アルゴリズムと比較して競争性能を維持することが示された。

Many RGBT tracking researches primarily focus on modal fusion design, while overlooking the effective handling of target appearance changes. While some approaches have introduced historical frames or fuse and replace initial templates to incorporate temporal information, they have the risk of disrupting the original target appearance and accumulating errors over time. To alleviate these limitations, we propose a novel Transformer RGBT tracking approach, which mixes spatio-temporal multimodal tokens from the static multimodal templates and multimodal search regions in Transformer to handle target appearance changes, for robust RGBT tracking. We introduce independent dynamic template tokens to interact with the search region, embedding temporal information to address appearance changes, while also retaining the involvement of the initial static template tokens in the joint feature extraction process to ensure the preservation of the original reliable target appearance information that prevent deviations from the target appearance caused by traditional temporal updates. We also use attention mechanisms to enhance the target features of multimodal template tokens by incorporating supplementary modal cues, and make the multimodal search region tokens interact with multimodal dynamic template tokens via attention mechanisms, which facilitates the conveyance of multimodal-enhanced target change information. Our module is inserted into the transformer backbone network and inherits joint feature extraction, search-template matching, and cross-modal interaction. Extensive experiments on three RGBT benchmark datasets show that the proposed approach maintains competitive performance compared to other state-of-the-art tracking algorithms while running at 39.1 FPS.
翻訳日:2024-01-04 14:24:04 公開日:2024-01-03
# 次数36ドルの2次複素アダマール行列

Two-Unitary Complex Hadamard Matrices of Order $36$ ( http://arxiv.org/abs/2401.01671v1 )

ライセンス: Link先を確認
Wojciech Bruzda, Karol \.Zyczkowski(参考訳) 特定の行列から発する2つのユニタリ複素ハダマール行列(chm)の族を336ドルの大きさで構成する。 この軌道のすべての行列は部分転位と再シャッフルの操作の後にユニタリのままであり、CHM の傑出した部分集合となる。 これはオイラー問題の量子バージョンに対する新しい解を提供し、グレーコ・ラテン正方形の6次元体の各体は、位相が6番目の根の倍数である36ドルの士官の対称重ね合わせを含む。 これは、重ね合わせのすべての振幅が等しく、位相の集合が6ドルの要素のみからなる、既知の解を単純化する。 多次元パラメータ化は、潜在的実験的治療における柔軟性を高める。

A family of two-unitary complex Hadamard matrices (CHM) stemming from a particular matrix, of size $36$ is constructed. Every matrix in this orbit remains unitary after operations of partial transpose and reshuffling which makes it a distinguished subset of CHM. It provides a novel solution to the quantum version of the Euler problem, in which each field of the Graeco-Latin square of size six contains a symmetric superposition of all $36$ officers with phases being multiples of sixth root of unity. This simplifies previously known solutions as all amplitudes of the superposition are equal and the set of phases consists of $6$ elements only. Multidimensional parameterization allows for more flexibility in a potential experimental treatment.
翻訳日:2024-01-04 14:23:33 公開日:2024-01-03
# MLPs Compass: MLPとPLMの組み合わせで何を学んだか?

MLPs Compass: What is learned when MLPs are combined with PLMs? ( http://arxiv.org/abs/2401.01667v1 )

ライセンス: Link先を確認
Li Zhou, Wenyu Chen, Yong Cao, Dingyi Zeng, Wanlong Liu, Hong Qu(参考訳) トランスフォーマーをベースとした事前学習型言語モデルとその変種は強力な意味表現能力を示すが、PLMの付加的なコンポーネントから得られる情報の獲得を補完する問題は、この分野では未解決の問題である。 マルチレイヤ・パーセプトロン(MLP)モジュールが頑健な構造的キャプチャ機能を実現し,グラフニューラルネットワーク(GNN)よりも優れていることを示す最近の取り組みにより,単純なMPPが言語情報を取得する上で既に強力な能力を高めることができるかどうかを定量化する。 具体的には、BERT構造に基づくMPPを含む単純かつ効果的な探索フレームワークを設計し、3つの異なる言語レベルにまたがる10の探索タスクを含む広範な実験を行う。 実験の結果,MPPはPLMによる言語構造の理解を高めることができることがわかった。 本研究は,多種多様な言語構造を強調するタスクにおいて,MLPを用いたPLMの多様性の理解と価値を提供する。

While Transformer-based pre-trained language models and their variants exhibit strong semantic representation capabilities, the question of comprehending the information gain derived from the additional components of PLMs remains an open question in this field. Motivated by recent efforts that prove Multilayer-Perceptrons (MLPs) modules achieving robust structural capture capabilities, even outperforming Graph Neural Networks (GNNs), this paper aims to quantify whether simple MLPs can further enhance the already potent ability of PLMs to capture linguistic information. Specifically, we design a simple yet effective probing framework containing MLPs components based on BERT structure and conduct extensive experiments encompassing 10 probing tasks spanning three distinct linguistic levels. The experimental results demonstrate that MLPs can indeed enhance the comprehension of linguistic structure by PLMs. Our research provides interpretable and valuable insights into crafting variations of PLMs utilizing MLPs for tasks that emphasize diverse linguistic structures.
翻訳日:2024-01-04 14:23:18 公開日:2024-01-03
# 高速・高密度拡散磁気共鳴イメージングのためのq空間サンプリング最適化と再構成

Simultaneous q-Space Sampling Optimization and Reconstruction for Fast and High-fidelity Diffusion Magnetic Resonance Imaging ( http://arxiv.org/abs/2401.01662v1 )

ライセンス: Link先を確認
Jing Yang, Jian Cheng, Cheng Li, Wenxin Fan, Juan Zou, Ruoyou Wu, Shanshan Wang(参考訳) 拡散磁気共鳴イメージング(dMRI)は、ヒト脳の組織微細構造と構造的接続性に関する非侵襲的な研究において重要な役割を担っている。 しかし,水拡散の複雑な特性を様々な方向やスケールで効果的に把握するためには,包括的q空間サンプリングを用いることが重要である。 残念ながら、この要件は長いスキャン時間をもたらし、dMRIの臨床応用性を制限する。 この課題に対処するため,我々は,q空間サンプリング最適化と再構成の同時フレームワークであるssorを提案する。 球面調和関数の連続表現と再構成ネットワークを用いて, q-空間サンプルのサブセットを共同で最適化する。 さらに,拡散磁気共鳴イメージング(dMRI)のユニークな特性を,$l1$-normと全変分正規化を適用して,q領域と画像領域の両方に集積する。 HCPデータを用いた実験により,SSORは定量的および定性的に有望な強度を有し,騒音に対する堅牢性を示すことが示された。

Diffusion Magnetic Resonance Imaging (dMRI) plays a crucial role in the noninvasive investigation of tissue microstructural properties and structural connectivity in the \textit{in vivo} human brain. However, to effectively capture the intricate characteristics of water diffusion at various directions and scales, it is important to employ comprehensive q-space sampling. Unfortunately, this requirement leads to long scan times, limiting the clinical applicability of dMRI. To address this challenge, we propose SSOR, a Simultaneous q-Space sampling Optimization and Reconstruction framework. We jointly optimize a subset of q-space samples using a continuous representation of spherical harmonic functions and a reconstruction network. Additionally, we integrate the unique properties of diffusion magnetic resonance imaging (dMRI) in both the q-space and image domains by applying $l1$-norm and total-variation regularization. The experiments conducted on HCP data demonstrate that SSOR has promising strengths both quantitatively and qualitatively and exhibits robustness to noise.
翻訳日:2024-01-04 14:22:46 公開日:2024-01-03
# diffyolo: yoloと拡散モデルによる反ノイズの物体検出

DiffYOLO: Object Detection for Anti-Noise via YOLO and Diffusion Models ( http://arxiv.org/abs/2401.01659v1 )

ライセンス: Link先を確認
Yichen Liu and Huajian Zhang and Daqing Gao(参考訳) YOLOシリーズで表されるオブジェクト検出モデルは広く使われ、高品質なデータセットで大きな成果を上げてきたが、すべての作業条件が理想的なわけではない。 低品質データセットのターゲットを特定するという問題を解決するため、既存の手法では、新しいオブジェクト検出ネットワークをトレーニングするか、あるいはトレーニングに大量の低品質データセットを必要とする。 しかし,本稿では,DiffYOLOと呼ばれるYOLOモデルに適用するフレームワークを提案する。 具体的には,ノイズ拡散確率モデルから特徴マップを抽出して,十分に訓練されたモデルを強化し,高品質なデータセット上でのyoloの微調整と,低品質なデータセットのテストを可能にした。 その結果、このフレームワークはノイズの多いデータセットのパフォーマンスを証明できるだけでなく、高品質なテストデータセットの検出結果も証明できることがわかった。 さらなる実験(さまざまなデータセットとネットワークアーキテクチャ)を後ほど補完します。

Object detection models represented by YOLO series have been widely used and have achieved great results on the high quality datasets, but not all the working conditions are ideal. To settle down the problem of locating targets on low quality datasets, the existing methods either train a new object detection network, or need a large collection of low-quality datasets to train. However, we propose a framework in this paper and apply it on the YOLO models called DiffYOLO. Specifically, we extract feature maps from the denoising diffusion probabilistic models to enhance the well-trained models, which allows us fine-tune YOLO on high-quality datasets and test on low-quality datasets. The results proved this framework can not only prove the performance on noisy datasets, but also prove the detection results on high-quality test datasets. We will supplement more experiments later (with various datasets and network architectures).
翻訳日:2024-01-04 14:22:18 公開日:2024-01-03
# フィードにおける広告オークションとアロケーションの統合のための深部自動メカニズム設計

Deep Automated Mechanism Design for Integrating Ad Auction and Allocation in Feed ( http://arxiv.org/abs/2401.01656v1 )

ライセンス: Link先を確認
Xuejian Li, Ze Wang, Bingqi Zhu, Fei He, Yongkang Wang, Xingxing Wang(参考訳) 電子商取引プラットフォームは通常、ユーザのページビュー要求に応じて、いくつかのオーガニックアイテムと広告が混在した順序付きリストを提示する。 広告の競売と配分のプロセスの結果であるこのリストは、プラットフォームの広告収益と総商品量(GMV)に直接影響を及ぼす。 具体的には、広告割り当てが広告及び有機品の表示位置を決定する間、広告競売は、どの広告が表示され、対応する支払いが決定される。 広告オークションと2つの異なるステージに割り当てる一般的な方法には、2つの問題がある。 1)広告オークションは、実際の表示位置やコンテキストが広告クリックスルーレート(CTR)に与える影響等、外部性を考慮していない。 2) 広告の表示位置を動的に決定するためにオークション広告の支払いを利用する広告割当は、広告に対するインセンティブ互換性(IC)を維持することができない。 例えば、伝統的な一般化された第2価格(gsp)を用いたオークション段階では、勝利した広告が入札数を増やしても、その支払いは変わらない。 これは、広告がより良い位置を確保できず、従ってその後の広告割り当て段階においてより高い有効性を達成する機会を失うことを意味する。 以前の研究では、2段階の問題を無視する2段階の1つにしばしば焦点が当てられていた。

E-commerce platforms usually present an ordered list, mixed with several organic items and an advertisement, in response to each user's page view request. This list, the outcome of ad auction and allocation processes, directly impacts the platform's ad revenue and gross merchandise volume (GMV). Specifically, the ad auction determines which ad is displayed and the corresponding payment, while the ad allocation decides the display positions of the advertisement and organic items. The prevalent methods of segregating the ad auction and allocation into two distinct stages face two problems: 1) Ad auction does not consider externalities, such as the influence of actual display position and context on ad Click-Through Rate (CTR); 2) The ad allocation, which utilizes the auction-winning ad's payment to determine the display position dynamically, fails to maintain incentive compatibility (IC) for the advertisement. For instance, in the auction stage employing the traditional Generalized Second Price (GSP) , even if the winning ad increases its bid, its payment remains unchanged. This implies that the advertisement cannot secure a better position and thus loses the opportunity to achieve higher utility in the subsequent ad allocation stage. Previous research often focused on one of the two stages, neglecting the two-stage problem, which may result in suboptimal outcomes...
翻訳日:2024-01-04 14:21:51 公開日:2024-01-03
# LESEN:多パラメータMRIを用いた視覚経路分割のためのラベル効率の良い深層学習

LESEN: Label-Efficient deep learning for Multi-parametric MRI-based Visual Pathway Segmentation ( http://arxiv.org/abs/2401.01654v1 )

ライセンス: Link先を確認
Alou Diakite (1 and 2), Cheng Li (1), Lei Xie (3), Yuanjing Feng (3), Hua Han (1 and 2), Shanshan Wang (1 and 4) ( (1) Paul C. Lauterbur Research Center for Biomedical Imaging, Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, Shenzhen, China, (2) University of Chinese Academy of Sciences, Beijing, China, (3) Zhejiang University of Technology, Hangzhou, China, (4) Peng Cheng Laboratory, Shenzhen, China)(参考訳) 最近の研究では、多パラメータMRIに基づく視覚経路(VP)セグメンテーションにおける深層学習の可能性が示されている。 しかし、トレーニングのためのラベル付きデータを取得するのは手間と時間を要する。 そのため,ラベル付きサンプルを限定した状況下で有効なアルゴリズムを開発することが重要である。 本研究では,ラベル効率の高い自己認識型ディープラーニング(LESEN)を提案する。 LESENは教師なしと教師なしの損失を取り入れ、生徒と教師のモデルが相互に学び合い、自己理解的な教師の枠組みを形成する。 さらに,LESENの有効性をさらに高めるために,信頼性な未ラベルサンプル選択(RUSS)機構を導入する。 ヒトコネクトーム・プロジェクト(HCP)のデータセットを用いた実験は、最先端技術と比較して、臨床および研究環境における総合的な分析のための多モードVPセグメンテーションを推し進めた。 実装コードは以下の通りである。 https://github.com/aldiak/Semi-Supervised-Multimodal-Visual-PathwayDelineation。

Recent research has shown the potential of deep learning in multi-parametric MRI-based visual pathway (VP) segmentation. However, obtaining labeled data for training is laborious and time-consuming. Therefore, it is crucial to develop effective algorithms in situations with limited labeled samples. In this work, we propose a label-efficient deep learning method with self-ensembling (LESEN). LESEN incorporates supervised and unsupervised losses, enabling the student and teacher models to mutually learn from each other, forming a self-ensembling mean teacher framework. Additionally, we introduce a reliable unlabeled sample selection (RUSS) mechanism to further enhance LESEN's effectiveness. Our experiments on the human connectome project (HCP) dataset demonstrate the superior performance of our method when compared to state-of-the-art techniques, advancing multimodal VP segmentation for comprehensive analysis in clinical and research settings. The implementation code will be available at: https://github.com/aldiak/Semi-Supervised-Multimodal-Visual-Pathway- Delineation.
翻訳日:2024-01-04 14:20:37 公開日:2024-01-03
# AIGCBench: AIが生成した画像間コンテンツの総合評価

AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI ( http://arxiv.org/abs/2401.01651v1 )

ライセンス: Link先を確認
Fanda Fan, Chunjie Luo, Jianfeng Zhan, Wanling Gao(参考訳) 人工知能生成コンテンツ(AIGC)の急成長する分野は、特にビデオ生成において急速に進歩している。 本稿では,画像対ビデオ(i2v)生成に重点を置き,様々な映像生成タスクを評価するための総合的・スケーラブルなベンチマークであるaigcbenchについて述べる。 AIGCBenchは、同等条件下で異なる最先端アルゴリズムを評価するさまざまなオープンドメインの画像テキストデータセットを含めることで、多様なデータセットの不足に悩まされる既存のベンチマークの制限に取り組む。 我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。 ビデオ生成タスクの統一評価フレームワークを確立するため,ベンチマークでは,アルゴリズムの性能を評価するために,4次元にまたがる11のメトリクスを含む。 これらの次元は、制御ビデオアライメント、モーションエフェクト、時間的一貫性、ビデオ品質である。 これらの指標は、参照ビデオ依存とビデオフリーの両方であり、包括的な評価戦略を確実にする。 提案した評価基準は人間の判断とよく相関し、現在のI2Vアルゴリズムの強みと弱みに関する洞察を提供する。 本研究はI2V分野におけるさらなる研究・開発を促進することを目的としている。 AIGCBenchは、より広範なAIGCランドスケープのための標準化されたベンチマークを作成するための重要なステップであり、ビデオ生成タスクの将来の評価に適応可能で公平なフレームワークを提案する。

The burgeoning field of Artificial Intelligence Generated Content (AIGC) is witnessing rapid advancements, particularly in video generation. This paper introduces AIGCBench, a pioneering comprehensive and scalable benchmark designed to evaluate a variety of video generation tasks, with a primary focus on Image-to-Video (I2V) generation. AIGCBench tackles the limitations of existing benchmarks, which suffer from a lack of diverse datasets, by including a varied and open-domain image-text dataset that evaluates different state-of-the-art algorithms under equivalent conditions. We employ a novel text combiner and GPT-4 to create rich text prompts, which are then used to generate images via advanced Text-to-Image models. To establish a unified evaluation framework for video generation tasks, our benchmark includes 11 metrics spanning four dimensions to assess algorithm performance. These dimensions are control-video alignment, motion effects, temporal consistency, and video quality. These metrics are both reference video-dependent and video-free, ensuring a comprehensive evaluation strategy. The evaluation standard proposed correlates well with human judgment, providing insights into the strengths and weaknesses of current I2V algorithms. The findings from our extensive experiments aim to stimulate further research and development in the I2V field. AIGCBench represents a significant step toward creating standardized benchmarks for the broader AIGC landscape, proposing an adaptable and equitable framework for future assessments of video generation tasks.
翻訳日:2024-01-04 14:20:10 公開日:2024-01-03
# FullLoRA-AT:事前学習型視覚変換器のロバスト性向上

FullLoRA-AT: Efficiently Boosting the Robustness of Pretrained Vision Transformers ( http://arxiv.org/abs/2401.01752v1 )

ライセンス: Link先を確認
Zheng Yuan, Jie Zhang, Shiguang Shan(参考訳) 近年、視覚変換器(ViT)モデルは様々なコンピュータビジョンタスクにおいて徐々に主流となり、モデルの堅牢性はますます注目されている。 しかしながら、既存の大規模モデルは、トレーニング中のパフォーマンスを優先する傾向があり、堅牢性を無視し、重大なセキュリティ上の懸念を引き起こす可能性がある。 本稿では,新たな課題を提起する: 標準的に訓練されたモデルの敵のロバスト性を高めるために,敵の微調整に少数の追加パラメータをどのように利用するかを検討する。 この課題に対処するために,従来のloraモジュールよりも前に学習可能な層正規化を組み込んだ,新しいlnloraモジュールを開発した。 さらに,学習可能なLNLoRAモジュールをViTモデルの主要コンポーネントすべてに統合し,事前学習したモデルを凍結したままにすることで,パラメータ効率のよい逆ファインタニングによりモデルロバスト性を大幅に向上させることにより,FullLoRA-ATフレームワークを提案する。 CIFAR-10, CIFAR-100, Imagenetteの大規模実験により提案したFullLoRA-ATフレームワークの優位性を示した。 学習可能なパラメータの約5%しか必要とせず、完全な微調整で同等の堅牢性を実現する。 これはまた、余分なモデル記憶空間と、敵の微調整による巨大な訓練時間に関する懸念にも効果的に対処する。

In recent years, the Vision Transformer (ViT) model has gradually become mainstream in various computer vision tasks, and the robustness of the model has received increasing attention. However, existing large models tend to prioritize performance during training, potentially neglecting the robustness, which may lead to serious security concerns. In this paper, we establish a new challenge: exploring how to use a small number of additional parameters for adversarial finetuning to quickly and effectively enhance the adversarial robustness of a standardly trained model. To address this challenge, we develop the novel LNLoRA module, incorporating a learnable layer normalization before the conventional LoRA module, which helps mitigate magnitude differences in parameters between the adversarial and standard training paradigms. Furthermore, we propose the FullLoRA-AT framework by integrating the learnable LNLoRA modules into all key components of ViT-based models while keeping the pretrained model frozen, which can significantly improve the model robustness via adversarial finetuning in a parameter-efficient manner. Extensive experiments on CIFAR-10, CIFAR-100, and Imagenette demonstrate the superiority of our proposed FullLoRA-AT framework. It achieves comparable robustness with full finetuning while only requiring about 5% of the learnable parameters. This also effectively addresses concerns regarding extra model storage space and enormous training time caused by adversarial finetuning.
翻訳日:2024-01-04 14:12:30 公開日:2024-01-03
# 非対称モードパイリング量子鍵分布

Asymmetric mode-pairing quantum key distribution ( http://arxiv.org/abs/2401.01727v1 )

ライセンス: Link先を確認
Zeyang Lu, Gang Wang, Chan Li, and Zhu Cao(参考訳) モードペアリング量子鍵分布(MP-QKD)は、大域的な位相ロックを必要とせず、繰り返し速度伝達境界(Pirandola-Laurenza-Ottaviani-Banchi境界)を超えることができ、顕著な柔軟性を示す。 しかし,MP-QKDは2つのチャネルで同一の通信距離を必要とするため,実用化には困難である。 この制限に対処するため、元のMP-QKDを非対称ケースに拡張する。 我々のデコイ状態推定は、非対称チャネル透過率と非対称強度がプロトコルのセキュリティを損なわないことを確認した。 非対称mp-qkdの性能を最適化するための鍵となるパルス強度関係に注目した。 従来の非対称プロトコルとは異なり、非対称MP-QKDにおける異なる基底の強度は分離できない。 理想的なパルス強度を計算して鍵レートを向上させるために,様々なシナリオに適応する最適パルス強度法を提案する。 シミュレーション結果から,本手法はmp-qkd性能に対する非対称チャネル距離の影響を効果的に低減し,実用性を高めることを示唆する。

Mode-pairing quantum key distribution (MP-QKD) can surpass the repeaterless rate-transmittance bound (Pirandola-Laurenza-Ottaviani-Banchi bound) without requiring global phase locking, exhibiting remarkable flexibility. However, MP-QKD necessitates equal communication distances in two channels, which is a challenging requirement in practical applications. To address this limitation, we extend the original MP-QKD to asymmetric cases. Our decoy-state estimation confirms that asymmetric channel transmittances and asymmetric intensities do not compromise the security of the protocol. We focus on the pulse-intensity relationship, a key factor for optimizing the performance of asymmetric MP-QKD. Unlike previous asymmetric protocols, the intensities of different bases in asymmetric MP-QKD cannot be decoupled. We introduce an optimal-pulse-intensity method, adaptable to various scenarios, to enhance key rates by calculating ideal pulse intensities. Simulation results in various representative scenarios indicate that our method effectively reduces the impact of asymmetric channel distances on MP-QKD performance, enhancing its practical applicability.
翻訳日:2024-01-04 14:12:05 公開日:2024-01-03
# 圧縮画像分類のための軽量適応型脱ドリフト

Lightweight Adaptive Feature De-drifting for Compressed Image Classification ( http://arxiv.org/abs/2401.01724v1 )

ライセンス: Link先を確認
Long Peng, Yang Cao, Yuejin Sun, Yang Wang(参考訳) JPEGは、送信された画像のボリュームを効率的に削減するために広く使われている圧縮方式である。 これらの成果物は, 画像の品質に影響を及ぼすだけでなく, 特徴漂流の点でも高いレベルのタスクに悪影響を及ぼす情報損失により, ブロック間に出現する。 高品質な画像で訓練された高レベルの視覚モデルは、圧縮された画像、特にモバイルデバイスで処理する際の性能劣化に悩まされる。 ビジュアルアーティファクトを扱うために、多くの学習ベースのJPEGアーティファクト除去手法が提案されている。 しかし、これらのjpegアーティファクト除去手法を圧縮画像分類の前処理として使用するのは、以下の理由から理想的ではない。 1. これらの方法は、高レベルの視覚モデルではなく、人間の視覚のために設計されている。 2)これらの手法は,資源制約装置の事前処理に適さない。 そこで本稿では,圧縮画像に対して予め学習した画像分類モデルの性能を向上させるための軽量afdモジュールを提案する。 まず、DCT領域における空間的FDMを生成するためにFDE-Netを考案する。 次に、推定されたFDMをFE-Netに送信し、劣化特徴とそれに対応する高品質特徴とのマッピング関係を生成する。 構造的再パラメータ化を備えた簡易かつ効果的なRepConvブロックをFE-Netで利用し、デプロイフェーズにおける効率を維持しつつ、トレーニングフェーズにおける特徴表現を充実させる。 限られた圧縮画像のトレーニングの後、AFD-Moduleはプレトレーニング済みの分類モデルのための"plug-and-play"モデルとして機能し、圧縮画像のパフォーマンスを改善する。 提案するafdモジュールは,事前学習した分類モデルの精度を包括的に向上させ,既存の手法を大きく上回ることを実証する。

JPEG is a widely used compression scheme to efficiently reduce the volume of transmitted images. The artifacts appear among blocks due to the information loss, which not only affects the quality of images but also harms the subsequent high-level tasks in terms of feature drifting. High-level vision models trained on high-quality images will suffer performance degradation when dealing with compressed images, especially on mobile devices. Numerous learning-based JPEG artifact removal methods have been proposed to handle visual artifacts. However, it is not an ideal choice to use these JPEG artifact removal methods as a pre-processing for compressed image classification for the following reasons: 1. These methods are designed for human vision rather than high-level vision models; 2. These methods are not efficient enough to serve as pre-processing on resource-constrained devices. To address these issues, this paper proposes a novel lightweight AFD module to boost the performance of pre-trained image classification models when facing compressed images. First, a FDE-Net is devised to generate the spatial-wise FDM in the DCT domain. Next, the estimated FDM is transmitted to the FE-Net to generate the mapping relationship between degraded features and corresponding high-quality features. A simple but effective RepConv block equipped with structural re-parameterization is utilized in FE-Net, which enriches feature representation in the training phase while maintaining efficiency in the deployment phase. After training on limited compressed images, the AFD-Module can serve as a "plug-and-play" model for pre-trained classification models to improve their performance on compressed images. Experiments demonstrate that our proposed AFD module can comprehensively improve the accuracy of the pre-trained classification models and significantly outperform the existing methods.
翻訳日:2024-01-04 14:11:42 公開日:2024-01-03
# ファクトチェックに基づく偽ニュース検出:レビュー

Fact-checking based fake news detection: a review ( http://arxiv.org/abs/2401.01717v1 )

ライセンス: Link先を確認
Yuzhou Yang, Yangming Zhou, Qichao Ying, Zhenxing Qian, Dan Zeng and Liang Liu(参考訳) 本稿では,課題や問題,アルゴリズム戦略,データセットの観点から,事実に基づくフェイクニュースの研究結果をレビューし,要約する。 まず,事実に基づく偽ニュース検出の課題定義と課題を体系的に説明する。 第2に,既存の検出手法をアルゴリズム原理に基づいて要約する。 第3に、フィールドにおける古典的および新たに提案されたデータセットを分析し、各データセットに関する実験結果を要約する。 最後に,既存の手法の利点と欠点を要約し,この分野の手法が直面するであろう課題をいくつか提案し,次の研究の段階を期待する。 本論文はその分野におけるその後の業績の参考となることを期待する。

This paper reviews and summarizes the research results on fact-based fake news from the perspectives of tasks and problems, algorithm strategies, and datasets. First, the paper systematically explains the task definition and core problems of fact-based fake news detection. Second, the paper summarizes the existing detection methods based on the algorithm principles. Third, the paper analyzes the classic and newly proposed datasets in the field, and summarizes the experimental results on each dataset. Finally, the paper summarizes the advantages and disadvantages of existing methods, proposes several challenges that methods in this field may face, and looks forward to the next stage of research. It is hoped that this paper will provide reference for subsequent work in the field.
翻訳日:2024-01-04 14:11:17 公開日:2024-01-03
# HEOM-QUICK2:フェルミオン多体オープン量子系のための汎用シミュレーター

HEOM-QUICK2: a general-purpose simulator for fermionic many-body open quantum systems -- An Update ( http://arxiv.org/abs/2401.01715v1 )

ライセンス: Link先を確認
Daochi Zhang, Lyuzhou Ye, Jiaan Cao, Yao Wang, Rui-Xue Xu, Xiao Zheng, YiJing Yan(参考訳) 多体オープン量子システム(OQS)は、物理学、化学、生物学の様々な分野に大きな影響を与える。 したがって、多体OQSを精度良く、効率よく、多体シミュレーションできるコンピュータプログラムの開発が極めて望ましい。 近年,フェルミオン的階層的運動方程式(heom)理論に基づく数値アルゴリズムの進歩が注目されている。 原理的正確性から、このアプローチは多体相関、非マルコフ記憶、非平衡熱力学条件の正確な特徴付けを可能にする。 これらの取り組みにより、現在ではフェルミオン多体OQSのための汎用シミュレータとして、Correlated KernelによるQUantum ImpurityのためのHEOM バージョン2(HEOM-QUICK2)が確立されている。 バージョン1と比較して、heom-quick2プログラムは定常状態のより効率的な解法、非マルコフ記憶のより正確な処理、長期散逸ダイナミクスの数値安定性の向上を特徴としている。 HEOM-QUICK2は量子化学ソフトウェアと統合され、現実的な多体OQS、特に単一原子または分子接合の正確なシミュレーションのための貴重な理論ツールとなった。 さらに、HEOM-QUICK2による前例のない精度は、低エネルギースピン励起とコヒーレントスピン緩和の正確なシミュレーションを可能にする。 HEOM-QUICK2の特異な有用性は、非平衡条件下での強い相関量子不純物系のいくつかの例によって証明される。 したがって、新しいHEOM-QUICK2プログラムは、エキゾチックな量子現象を持つ多体OQSを研究し、様々な分野の応用を探索するための強力で包括的なツールを提供する。

Many-body open quantum systems (OQS) have a profound impact on various subdisciplines of physics, chemistry, and biology. Thus, the development of a computer program capable of accurately, efficiently, and versatilely simulating many-body OQS is highly desirable. In recent years, we have focused on the advancement of numerical algorithms based on the fermionic hierarchical equations of motion (HEOM) theory. Being in-principle exact, this approach allows for the precise characterization of many-body correlations, non-Markovian memory, and non-equilibrium thermodynamic conditions. These efforts now lead to the establishment of a new computer program, HEOM for QUantum Impurity with a Correlated Kernel, version 2 (HEOM-QUICK2), which, to the best of our knowledge, is currently the only general-purpose simulator for fermionic many-body OQS. Compared with version 1, the HEOM-QUICK2 program features more efficient solvers for stationary states, more accurate treatment of non-Markovian memory, and improved numerical stability for long-time dissipative dynamics. Integrated with quantum chemistry software, HEOM-QUICK2 has become a valuable theoretical tool for the precise simulation of realistic many-body OQS, particularly the single atomic or molecular junctions. Furthermore, the unprecedented precision achieved by HEOM-QUICK2 enables accurate simulation of low-energy spin excitations and coherent spin relaxation. The unique usefulness of HEOM-QUICK2 is demonstrated through several examples of strongly correlated quantum impurity systems under non-equilibrium conditions. Thus, the new HEOM-QUICK2 program offers a powerful and comprehensive tool for studying many-body OQS with exotic quantum phenomena and exploring applications in various disciplines.
翻訳日:2024-01-04 14:11:05 公開日:2024-01-03
# 量子情報の相対論的不変符号化

Relativistically invariant encoding of quantum information revisited ( http://arxiv.org/abs/2401.01712v1 )

ライセンス: Link先を確認
Konrad Schlichtholz, Marcin Markiewicz(参考訳) 本研究では,任意のローレンツ変換に関して不変な量子情報の符号化に関する問題を詳細に解析する。 私たちはすでに知られている結果を大幅に拡張し、必要に応じて褒め言葉を提供します。 特に,一対の電荷を特徴付ける物理パラメータであるペアワイズヘリシティを用いた不変エンコーディングのための新しいスキームを提案する。 符号化方式に係わる全ての粒子の等モーメントを仮定した、既に提案されている全てのプロトコルとは対照的に、固定された総運動量を持つ状態に基づく通常の質量および質量のない粒子の新しいスキームも導入する。 さらに,既存のプロトコルについて系統的な議論を行い,それが任意の分布に従って描かれたローレンツ変換に関して不変であることを示す。

In this work, we provide a detailed analysis of the issue of encoding of quantum information which is invariant with respect to arbitrary Lorentz transformations. We significantly extend already known results and provide compliments where necessary. In particular, we introduce novel schemes for invariant encoding which utilize so-called pair-wise helicity -- a physical parameter characterizing pairs of electric-magnetic charges. We also introduce new schemes for ordinary massive and massless particles based on states with fixed total momentum, in contrast to all protocols already proposed, which assumed equal momenta of all the particles involved in the encoding scheme. Moreover, we provide a systematic discussion of already existing protocols and show directly that they are invariant with respect to Lorentz transformations drawn according to any distribution, a fact which was not manifestly shown in previous works.
翻訳日:2024-01-04 14:10:35 公開日:2024-01-03
# 知識グラフを用いた会話質問応答における意味解析における大規模言語モデルの評価

Evaluating Large Language Models in Semantic Parsing for Conversational Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2401.01711v1 )

ライセンス: Link先を確認
Phillip Schneider, Manuel Klettner, Kristiina Jokinen, Elena Simperl, Florian Matthes(参考訳) 対話型質問応答システムは、自然言語入力から構造化データベースクエリを生成する対話型情報検索を可能にするために、意味解析に依存することが多い。 知識グラフに格納された事実に関する情報検索会話では、対話発話は知識ベースの会話質問応答と呼ばれるプロセスでグラフクエリに変換される。 本稿では,この課題に対して事前訓練を受けていない大規模言語モデルの性能を評価する。 大規模なベンチマークデータセットの一連の実験を通して、異なるプロンプト技術を用いて様々なサイズのモデルを比較し、生成した出力の共通問題タイプを同定する。 その結果,大規模な言語モデルでは対話からグラフクエリを生成することが可能であり,特にゼロショット性能の低い小型モデルでは,短時間プロンプトや微調整による大幅な改善が期待できることがわかった。

Conversational question answering systems often rely on semantic parsing to enable interactive information retrieval, which involves the generation of structured database queries from a natural language input. For information-seeking conversations about facts stored within a knowledge graph, dialogue utterances are transformed into graph queries in a process that is called knowledge-based conversational question answering. This paper evaluates the performance of large language models that have not been explicitly pre-trained on this task. Through a series of experiments on an extensive benchmark dataset, we compare models of varying sizes with different prompting techniques and identify common issue types in the generated output. Our results demonstrate that large language models are capable of generating graph queries from dialogues, with significant improvements achievable through few-shot prompting and fine-tuning techniques, especially for smaller models that exhibit lower zero-shot performance.
翻訳日:2024-01-04 14:10:21 公開日:2024-01-03
# EPA:神経崩壊を誘発した分布検出装置

EPA: Neural Collapse Inspired Robust Out-of-Distribution Detector ( http://arxiv.org/abs/2401.01710v1 )

ライセンス: Link先を確認
Jiawei Zhang, Yufan Chen, Cheng Jin, Lei Zhu, Yuantao Gu(参考訳) out-of-distribution (ood)検出は、ニューラルネットワークのセキュリティを確保する上で重要な役割を果たす。 既存の作品では、in-distribution(id)サンプルが機能空間のサブスペースを形成し、最先端(sota)のパフォーマンスを実現している。 しかし、idサブスペースの包括的特徴は未検討のままである。 近年、Neural Collapse(\mathcal{NC}$)の発見は、ID部分空間の新たな性質に光を当てている。 我々は$\mathcal{NC}$から洞察を得て、特徴とID特徴部分空間の間の主角がOODの可能性を測る上で優れた表現となることを観察する。 そこで本研究では,id部分空間のグローバル特性と内部特性の両方を統合した,エントロピーエンハンスド主角 (epa) という,新たなoodスコアリング関数を提案する。 EPAと様々なSOTAアプローチを実験的に比較し、異なるネットワークアーキテクチャとOODデータセットにまたがる優れた性能と堅牢性を検証した。

Out-of-distribution (OOD) detection plays a crucial role in ensuring the security of neural networks. Existing works have leveraged the fact that In-distribution (ID) samples form a subspace in the feature space, achieving state-of-the-art (SOTA) performance. However, the comprehensive characteristics of the ID subspace still leave under-explored. Recently, the discovery of Neural Collapse ($\mathcal{NC}$) sheds light on novel properties of the ID subspace. Leveraging insight from $\mathcal{NC}$, we observe that the Principal Angle between the features and the ID feature subspace forms a superior representation for measuring the likelihood of OOD. Building upon this observation, we propose a novel $\mathcal{NC}$-inspired OOD scoring function, named Entropy-enhanced Principal Angle (EPA), which integrates both the global characteristic of the ID subspace and its inner property. We experimentally compare EPA with various SOTA approaches, validating its superior performance and robustness across different network architectures and OOD datasets.
翻訳日:2024-01-04 14:10:06 公開日:2024-01-03
# 3次元縮退固有部分空間における量子ブレイディングの位相遷移検出法の提案

Proposal of detecting topological transition of quantum braiding in three-fold degenerate eigen subspace ( http://arxiv.org/abs/2401.01703v1 )

ライセンス: Link先を確認
Zhi-Wei Han, Jia-Hao Liang, Zhao-Xin Fu, Hong-Zhi Liu, Zi-Yuan Chen, Meng Wang, Ze-Rui He, Jia-Yi Huang, Qing-Xian Lv, Kai-Yu Liao, and Yan-Xiong Du(参考訳) 量子状態のブレイディング演算は、トポロジカル量子計算を実現する大きな可能性のために、かなりの注目を集めている。 本稿では、最小の物理系である4レベルハミルトニアンにおいて、3次元退化固有部分空間が得られることを示す。 部分空間の服装状態に適用するためにブレイディング操作が提案されている。 ブレイディング図のトポロジーは、シーケンシャルブレイディングパルスが採用されると物理的手法によって特徴づけられる。 我々は、異なる出力状態が関数の異なる値に対応するような置換群と出力状態の間の等価な関係関数を確立する。 ブレイディングのトポロジカルな遷移は、2つの操作が重なり合うときに起こり、関数の測定によって検出される。 位相変動法と組み合わせることで, ブレイディングのひねりパターンを解析できる。 したがって、実験的に実現可能な系は、ブレイディングダイナミクス、su(3)物理およびクトリットゲートを調査するプラットフォームを提供する。

The braiding operations of quantum states have attracted substantial attention due to their great potential for realizing topological quantum computations. In this paper, we show that a three-fold degenerate eigen subspace can be obtained in a four-level Hamiltonian which is the minimal physical system. Braiding operations are proposed to apply to dressed states in the subspace. The topology of the braiding diagram can be characterized through physical methods once that the sequential braiding pulses are adopted. We establish an equivalent relationship function between the permutation group and the output states where different output states correspond to different values of the function. The topological transition of the braiding happens when two operations overlap, which is detectable through the measurement of the function. Combined with the phase variation method, we can analyze the wringing pattern of the braiding. Therefore, the experimentally-feasible system provides a platform to investigate braiding dynamics, the SU(3) physics and the qutrit gates.
翻訳日:2024-01-04 14:09:47 公開日:2024-01-03
# De-Hallucinator: LLMベースのコード補完のための反復的なグラウンド

De-Hallucinator: Iterative Grounding for LLM-Based Code Completion ( http://arxiv.org/abs/2401.01701v1 )

ライセンス: Link先を確認
Aryaz Eghbali, Michael Pradel(参考訳) 公開ソースコードのデータセットでトレーニングされた大規模言語モデル(llm)は、コード補完の新たな最先端を確立した。 しかし、これらのモデルは、ほとんどが特定のプロジェクト内に存在するコードを知らないため、モデルが既存のapiをうまく利用できない。 代わりにllmは、存在しないapiを発明したり、すでに存在するコードの変種を作ったりすることが多い。 API情報はIDEで利用できるが、LLMの入力サイズ制限は、コード補完技術が関連するすべてのコンテキストをプロンプトに含めるのを防ぐ。 本稿では, LLMに基づくコード補完手法であるDe-Hallucinatorについて, 適切なAPI参照を検索し, より適切なコンテキスト情報でモデルを反復的にクエリすることで, モデルの予測を基礎とする手法を提案する。 このアプローチは、llmが望ましい補完によく似たコードを予測しているが、すでに存在するapiを正確に参照できないという観察を生かしている。 De-Hallucinatorは、コードプレフィックスとモデルの初期予測に関連するプロジェクト固有のAPI参照を自動的に識別し、これらの参照をプロンプトに追加する。 我々の評価は、オープンソースのPythonプロジェクトでのAPI使用率を予測するタスクにアプローチを適用します。 De-Hallucinatorは、カーソル前のコードだけでモデルをクエリするのに比べて、4つの最先端LCMで予測されたコードを改善する。 特に,提案手法は,予測コードの編集距離を23~51%改善し,予測されたAPI使用率をベースラインに対して24~61%改善する。

Large languages models (LLMs) trained on datasets of publicly available source code have established a new state-of-the-art in code completion. However, these models are mostly unaware of the code that already exists within a specific project, preventing the models from making good use of existing APIs. Instead, LLMs often invent, or "hallucinate", non-existent APIs or produce variants of already existing code. Although the API information is available to IDEs, the input size limit of LLMs prevents code completion techniques from including all relevant context into the prompt. This paper presents De-Hallucinator, an LLM-based code completion technique that grounds the predictions of a model through a novel combination of retrieving suitable API references and iteratively querying the model with increasingly suitable context information in the prompt. The approach exploits the observation that LLMs often predict code that resembles the desired completion, but that fails to correctly refer to already existing APIs. De-Hallucinator automatically identifies project-specific API references related to the code prefix and to the model's initial predictions and adds these references into the prompt. Our evaluation applies the approach to the task of predicting API usages in open-source Python projects. We show that De-Hallucinator consistently improves the predicted code across four state-of-the-art LLMs compared to querying the model only with the code before the cursor. In particular, the approach improves the edit distance of the predicted code by 23-51% and the recall of correctly predicted API usages by 24-61% relative to the baseline.
翻訳日:2024-01-04 14:09:19 公開日:2024-01-03
# WordArt Designer API: ModelScope上の大規模言語モデルを用いたユーザ駆動型アートタイポグラフィ合成

WordArt Designer API: User-Driven Artistic Typography Synthesis with Large Language Models on ModelScope ( http://arxiv.org/abs/2401.01699v1 )

ライセンス: Link先を確認
Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Wangmeng Xiang, Yusen Hu, Xianhui Lin, Xiaoyang Kang, Zengke Jin, Bin Luo, Yifeng Geng, Xuansong Xie, Jingren Zhou(参考訳) 本稿では,Large Language Models (LLM) を用いたユーザ主導型タイポグラフィ合成のための新しいフレームワークである WordArt Designer API を紹介する。 従来の定型テンプレートに代わる動的,適応的,計算効率のよい代替手段を提供することで,非プロのタイポグラフィに対する芸術的タイポグラフィの簡易化に挑戦する。 我々のアプローチはLLMの力を利用してユーザ入力を理解し解釈し、より直感的な設計プロセスを容易にする。 ユーザは様々なケーススタディを通して、美的好みと機能的要求を明確化し、システムがユニークで創造的なタイポグラフィーデザインへと変換する方法を実証する。 評価の結果,既存システムに対するユーザ満足度,設計の柔軟性,創造性の向上が示唆された。 wordart designer apiはタイポグラフィの技術を民主化するだけでなく、パーソナライズされたデジタルコミュニケーションとデザインの新たな可能性を開く。

This paper introduces the WordArt Designer API, a novel framework for user-driven artistic typography synthesis utilizing Large Language Models (LLMs) on ModelScope. We address the challenge of simplifying artistic typography for non-professionals by offering a dynamic, adaptive, and computationally efficient alternative to traditional rigid templates. Our approach leverages the power of LLMs to understand and interpret user input, facilitating a more intuitive design process. We demonstrate through various case studies how users can articulate their aesthetic preferences and functional requirements, which the system then translates into unique and creative typographic designs. Our evaluations indicate significant improvements in user satisfaction, design flexibility, and creative expression over existing systems. The WordArt Designer API not only democratizes the art of typography but also opens up new possibilities for personalized digital communication and design.
翻訳日:2024-01-04 14:08:51 公開日:2024-01-03
# 世界の言語にまたがる持続性と拡散性のパターン

Patterns of Persistence and Diffusibility across World's Languages ( http://arxiv.org/abs/2401.01698v1 )

ライセンス: Link先を確認
Yiyi Chen, Johannes Bjerva(参考訳) 言語類似性は、遺伝的関連性、地域接触、普遍性、チャンスによって引き起こされる。 複数の意味を伝えるために1つの語彙形式が用いられるような、コレキシフィケーション、すなわち--類似性は未発見である。 本研究は,言語学的安定性 (パースペンス) と接触による変化 (ディフューザビリティ) を探求することにより, 言語間類似性の言語的原因を明らかにするものである。 我々は,1,966言語を対象とした意味,系譜,音韻,地理データを組み込んだ大規模グラフを構築した。 次に,従来の言語学研究から得られたいくつかの確立された仮説を新たに提案し,この資源の可能性を示す。 本研究は, 言語文学における既定仮説を強く支持する一方で, 矛盾する証拠を他の文献に提示する。 我々の大規模資源は、例えば、多言語NLPと比較言語学の分野にわたるさらなる研究のために開放される。

Language similarities can be caused by genetic relatedness, areal contact, universality, or chance. Colexification, i.e.~a type of similarity where a single lexical form is used to convey multiple meanings, is underexplored. In our work, we shed light on the linguistic causes of cross-lingual similarity in colexification and phonology, by exploring genealogical stability (persistence) and contact-induced change (diffusibility). We construct large-scale graphs incorporating semantic, genealogical, phonological and geographical data for 1,966 languages. We then show the potential of this resource, by investigating several established hypotheses from previous work in linguistics, while proposing new ones. Our results strongly support a previously established hypothesis in the linguistic literature, while offering contradicting evidence to another. Our large scale resource opens for further research across disciplines, e.g.~in multilingual NLP and comparative linguistics.
翻訳日:2024-01-04 14:08:33 公開日:2024-01-03
# AID-DTI:詳細なモデルに基づくディープラーニングによる高密度拡散テンソルイメージング

AID-DTI: Accelerating High-fidelity Diffusion Tensor Imaging with Detail-Preserving Model-based Deep Learning ( http://arxiv.org/abs/2401.01693v1 )

ライセンス: Link先を確認
Wenxin Fan, Jian Cheng, Cheng Li, Xinrui Ma, Jing Yang, Juan Zou, Ruoyou Wu, Qiegen Liu, Shanshan Wang(参考訳) 深層学習は拡散テンソルイメージング(DTI)の加速に大きな可能性を示している。 それにもかかわらず、既存の手法はリシアンノイズやdti由来のパラメトリック写像の再構成における詳細損失に苦しむ傾向がある。 本稿では,6つの測定値のみで高速かつ高精度なDTIを実現するために,AID-DTI(Accelerating hIgh fiDelity Diffusion Tensor Imaging)を提案する。 AID-DTIは新しく設計されたSingular Value Decomposition (SVD)ベースの正規化器を備えており、ネットワークトレーニング中にノイズを抑えながら、細部を効果的に捉えることができる。 ヒトコネクトーム計画(hcp)データを用いた実験の結果,提案手法がdtiパラメータマップを細粒度で推定し,定量的および定性的に3つの最先端手法を上回った。

Deep learning has shown great potential in accelerating diffusion tensor imaging (DTI). Nevertheless, existing methods tend to suffer from Rician noise and detail loss in reconstructing the DTI-derived parametric maps especially when sparsely sampled q-space data are used. This paper proposes a novel method, AID-DTI (Accelerating hIgh fiDelity Diffusion Tensor Imaging), to facilitate fast and accurate DTI with only six measurements. AID-DTI is equipped with a newly designed Singular Value Decomposition (SVD)-based regularizer, which can effectively capture fine details while suppressing noise during network training. Experimental results on Human Connectome Project (HCP) data consistently demonstrate that the proposed method estimates DTI parameter maps with fine-grained details and outperforms three state-of-the-art methods both quantitatively and qualitatively.
翻訳日:2024-01-04 14:08:17 公開日:2024-01-03
# VGA:噂検出のためのビジョンとグラフ融合注意ネットワーク

VGA: Vision and Graph Fused Attention Network for Rumor Detection ( http://arxiv.org/abs/2401.01759v1 )

ライセンス: Link先を確認
Lin Bai, Caiyan Jia, Ziying Song, and Chaoqun Cui(参考訳) ソーシャルメディアの発展に伴い、ソーシャルメディアプラットフォーム上で広く噂が広まり、社会に大きな被害をもたらした。 テキスト情報以外にも、多くの噂は操作された画像や画像の中にテキスト情報を隠して人を欺き、検出を避けるため、マルチモーダルなうわさの検出が重要な問題となっている。 マルチモーダルなうわさ検出手法の大部分は,噂のコメントや伝播構造を無視しつつ,ソースクレームの特徴と対応する画像の抽出に重点を置いている。 これらのコメントや構造は、群衆の知恵を暗示しており、噂を解き明かすのに不可欠であることが証明されている。 さらに、これらの手法は通常、視覚的特徴を基本的な方法でのみ抽出するが、画像の改ざんやテキスト的情報を考慮しない。 そこで,本稿では,画像に隠されたテキスト情報だけでなく,群集の意見を得たり,視覚的触覚の特徴を探ったりするために,記事間の伝搬構造を利用した新しい視覚・グラフ融合注意ネットワーク(VGA)を提案する。 3つのデータセットに対して広範な実験を行い、VGAがマルチモーダルな噂を効果的に検出し、最先端の手法を著しく上回ることを示す。

With the development of social media, rumors have been spread broadly on social media platforms, causing great harm to society. Beside textual information, many rumors also use manipulated images or conceal textual information within images to deceive people and avoid being detected, making multimodal rumor detection be a critical problem. The majority of multimodal rumor detection methods mainly concentrate on extracting features of source claims and their corresponding images, while ignoring the comments of rumors and their propagation structures. These comments and structures imply the wisdom of crowds and are proved to be crucial to debunk rumors. Moreover, these methods usually only extract visual features in a basic manner, seldom consider tampering or textual information in images. Therefore, in this study, we propose a novel Vision and Graph Fused Attention Network (VGA) for rumor detection to utilize propagation structures among posts so as to obtain the crowd opinions and further explore visual tampering features, as well as the textual information hidden in images. We conduct extensive experiments on three datasets, demonstrating that VGA can effectively detect multimodal rumors and outperform state-of-the-art methods significantly.
翻訳日:2024-01-04 14:00:10 公開日:2024-01-03
# インクリメンタル・ファストピッチ: チャンクベースの高品質音声テキスト

Incremental FastPitch: Chunk-based High Quality Text to Speech ( http://arxiv.org/abs/2401.01755v1 )

ライセンス: Link先を確認
Muyang Du, Chuan Liu, Junjie Lai(参考訳) パラレルテキスト音声合成モデルはリアルタイム音声合成に広く応用されており、従来の自己回帰モデルに比べて制御性が高く、より高速な合成プロセスを提供する。 並列モデルは多くの点で利点があるが、トランスフォーマーのような完全な並列アーキテクチャのため、インクリメンタルな合成には自然に不向きである。 本研究では,チャンクベースFFTブロックによるアーキテクチャの改善,受容場制約されたチャンクアテンションマスクによるトレーニング,モデル状態の固定化などにより,高品質なメルチャンクを段階的に生成できる新しいFastPitchバリアントであるIncremental FastPitchを提案する。 実験の結果,本提案手法は並列ファストピッチに匹敵する音声品質を実現することができ,リアルタイム音声アプリケーションの応答時間がさらに短縮されることがわかった。

Parallel text-to-speech models have been widely applied for real-time speech synthesis, and they offer more controllability and a much faster synthesis process compared with conventional auto-regressive models. Although parallel models have benefits in many aspects, they become naturally unfit for incremental synthesis due to their fully parallel architecture such as transformer. In this work, we propose Incremental FastPitch, a novel FastPitch variant capable of incrementally producing high-quality Mel chunks by improving the architecture with chunk-based FFT blocks, training with receptive-field constrained chunk attention masks, and inference with fixed size past model states. Experimental results show that our proposal can produce speech quality comparable to the parallel FastPitch, with a significant lower latency that allows even lower response time for real-time speech applications.
翻訳日:2024-01-04 13:59:46 公開日:2024-01-03
# AI/MLによるコードとドキュメントの共有プラットフォームにおけるエンタープライズシークレットの検索と修正

Using AI/ML to Find and Remediate Enterprise Secrets in Code & Document Sharing Platforms ( http://arxiv.org/abs/2401.01754v1 )

ライセンス: Link先を確認
Gregor Kerr, David Algorry, Senad Ibraimoski, Peter Maciver, Sean Moran(参考訳) 私たちはソフトウェア開発コミュニティに新しい挑戦を紹介します。 1) confluenceやconfluenceなど,開発者が頻繁に使用しているコードや人気のドキュメント共有プラットフォームにおける機密情報を,aiを使って正確に検出し,警告する。 2) 検出を自動的に更新する(例えばパスワードのデフォルト機能を提案する)。 これは挑戦的で、ほとんど問題のないタスクです。 既存のメソッドはヒューリスティックスと正規表現を活用しており、非常に騒がしいため、開発者への不安が増す。 次のステップ修正 – 検出を自動的に更新する – は,複雑なタスクである。 優れた検出性能を持つ2つのベースラインAIモデルを導入し、コード中のシークレットを更新するための自動メカニズムを提案し、このタスクの研究を広いコミュニティに開放する。

We introduce a new challenge to the software development community: 1) leveraging AI to accurately detect and flag up secrets in code and on popular document sharing platforms that frequently used by developers, such as Confluence and 2) automatically remediating the detections (e.g. by suggesting password vault functionality). This is a challenging, and mostly unaddressed task. Existing methods leverage heuristics and regular expressions, that can be very noisy, and therefore increase toil on developers. The next step - modifying code itself - to automatically remediate a detection, is a complex task. We introduce two baseline AI models that have good detection performance and propose an automatic mechanism for remediating secrets found in code, opening up the study of this task to the wider community.
翻訳日:2024-01-04 13:59:29 公開日:2024-01-03
# クラウド移行を高速化する生成AIアシスタント

A Generative AI Assistant to Accelerate Cloud Migration ( http://arxiv.org/abs/2401.01753v1 )

ライセンス: Link先を確認
Amal Vaidya, Mohan Krishna Vankayalapati, Jacky Chan, Senad Ibraimoski, Sean Moran(参考訳) 本稿では、生成aiを利用してオンプレミスアプリケーションのクラウドへの移行を加速するツールを提案する。 Cloud Migration LLMは、移行のパラメータを指定するユーザからの入力を受け入れ、アーキテクチャ図でマイグレーション戦略を出力する。 ユーザ調査によれば、マイグレーションllmは、手作業によるアプローチの複雑さを回避しつつ、経験の浅いユーザが適切なクラウド移行プロファイルを見つけるのを助けることができる。

We present a tool that leverages generative AI to accelerate the migration of on-premises applications to the cloud. The Cloud Migration LLM accepts input from the user specifying the parameters of their migration, and outputs a migration strategy with an architecture diagram. A user study suggests that the migration LLM can assist inexperienced users in finding the right cloud migration profile, while avoiding complexities of a manual approach.
翻訳日:2024-01-04 13:59:14 公開日:2024-01-03
# 注意の細分化によるパッチベース攻撃に対するロバストなセマンティクスセグメンテーションに向けて

Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement ( http://arxiv.org/abs/2401.01750v1 )

ライセンス: Link先を確認
Zheng Yuan, Jie Zhang, Yude Wang, Shiguang Shan, Xilin Chen(参考訳) 近年,様々な視覚課題において注意機構が有効であることが証明されている。 セマンティックセグメンテーションタスクでは、畳み込みニューラルネットワーク(cnn)と視覚トランスフォーマ(vit)の両方をバックボーンとする場合を含む、様々な方法で注意のメカニズムが適用される。 しかし,注意機構はパッチベースの敵の攻撃に対して脆弱である。 実効性受容野の解析を通じて,世界的注目によってもたらされる広視野受容野が,対向パッチの拡散に繋がる可能性が示唆された。 本稿では,パッチベースの攻撃に対する脆弱性を顕著に軽減できるセグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。 vallina attention機構と比較して、ramはmax attention suppression(最大注意抑制)とrandom attention dropout(ランダム注意ドロップアウト)と呼ばれる2つの新しいモジュールを導入している。 広範囲な実験により,異なる攻撃条件下での様々なパッチベース攻撃手法に対する意味セグメンテーションモデルのロバスト性を改善するためのramの有効性が実証された。

The attention mechanism has been proven effective on various visual tasks in recent years. In the semantic segmentation task, the attention mechanism is applied in various methods, including the case of both Convolution Neural Networks (CNN) and Vision Transformer (ViT) as backbones. However, we observe that the attention mechanism is vulnerable to patch-based adversarial attacks. Through the analysis of the effective receptive field, we attribute it to the fact that the wide receptive field brought by global attention may lead to the spread of the adversarial patch. To address this issue, in this paper, we propose a Robust Attention Mechanism (RAM) to improve the robustness of the semantic segmentation model, which can notably relieve the vulnerability against patch-based attacks. Compared to the vallina attention mechanism, RAM introduces two novel modules called Max Attention Suppression and Random Attention Dropout, both of which aim to refine the attention matrix and limit the influence of a single adversarial patch on the semantic segmentation results of other positions. Extensive experiments demonstrate the effectiveness of our RAM to improve the robustness of semantic segmentation models against various patch-based attack methods under different attack settings.
翻訳日:2024-01-04 13:59:06 公開日:2024-01-03
# 構築した測地表面からの情報伝達による少数撮影画像生成

Few-shot Image Generation via Information Transfer from the Built Geodesic Surface ( http://arxiv.org/abs/2401.01749v1 )

ライセンス: Link先を確認
Yuexing Han and Liheng Ruan and Bing Wang(参考訳) 限られたデータで訓練されたほとんどの生成モデルで生成された画像は、忠実性、多様性、またはその両方に欠陥があることが多い。 この制限に対処する効果的な解決策の1つは、少数ショット生成モデル適応である。 しかし、アプローチのタイプは通常、ターゲットドメインへの情報転送を容易にするために、ソースドメインとして機能する大規模な事前訓練モデルに依存します。 本稿では,組込み測地表面からの情報伝達(itbgs)と呼ばれる2つのモジュール,すなわち測地表面上の特徴拡張(fags),補間と正規化(i\&r)を含む手法を提案する。 FAGSモジュールでは、トレーニングデータセットからPre-Shape Spaceにイメージ機能を投影して擬似ソースドメインを生成し、その後、Geodesic表面で新機能を生成する。 したがって、FAGSを用いた生成モデルのトレーニングにおいて、適応過程に事前訓練されたモデルは必要ない。 I\&Rモジュールは補間画像の監視と相対距離の調整のために導入され、生成画像の品質をさらに向上する。 定性的かつ定量的な実験を通じて,提案手法は,極めて少ないシナリオであっても,様々な意味論的に異なるデータセットにおいて,最適あるいは同等の結果を一貫して達成できることを実証する。

Images generated by most of generative models trained with limited data often exhibit deficiencies in either fidelity, diversity, or both. One effective solution to address the limitation is few-shot generative model adaption. However, the type of approaches typically rely on a large-scale pre-trained model, serving as a source domain, to facilitate information transfer to the target domain. In this paper, we propose a method called Information Transfer from the Built Geodesic Surface (ITBGS), which contains two module: Feature Augmentation on Geodesic Surface (FAGS); Interpolation and Regularization (I\&R). With the FAGS module, a pseudo-source domain is created by projecting image features from the training dataset into the Pre-Shape Space, subsequently generating new features on the Geodesic surface. Thus, no pre-trained models is needed for the adaption process during the training of generative models with FAGS. I\&R module are introduced for supervising the interpolated images and regularizing their relative distances, respectively, to further enhance the quality of generated images. Through qualitative and quantitative experiments, we demonstrate that the proposed method consistently achieves optimal or comparable results across a diverse range of semantically distinct datasets, even in extremely few-shot scenarios.
翻訳日:2024-01-04 13:58:43 公開日:2024-01-03
# 一般化コヒーレント量子速度限界

Generalized Coherent Quantum Speed Limits ( http://arxiv.org/abs/2401.01746v1 )

ライセンス: Link先を確認
Hai Wang and Xingze Qiu(参考訳) 一般ユニタリ力学に対して、行列ノルムに対するH\"olderの不等式を用いて、コヒーレント量子スピード限界(QSL)の2つの無限族を示す。 このアプローチは、進化した状態のコヒーレンスの寄与を明確に強調し、シャッテン=ノルムまたはヘリンガー距離に基づくコヒーレンス測度によって特徴づけられる新しいqsl境界を提供する。 実験の結果を関連するモデルで示し, 境界が確立されたモデルよりもずっと強く, 漸近的に飽和できることを示した。 その結果,高速量子力学ではエネルギー固有状態のコヒーレント重ね合わせが必要となり,量子系の発展の重要な資源としてコヒーレンスを歌っていることがわかった。

We present two infinite families of coherent quantum speed limits (QSLs) for general unitary dynamics by employing the H\"older's inequality for matrix norms. Our approach clearly highlights the contribution of the coherence of the evolved states, and provides novel QSL bounds characterized by coherence measures based on Schatten $p$-norm or Hellinger distance. We illustrate our findings with relevant models, demonstrating our bounds are much tighter than the established ones and asymptotically saturable in the adiabatic limit. Our results show that rapid quantum dynamics requires coherent superpositions of energy eigenstates, singling out coherence as a key resource for the evolution of quantum systems.
翻訳日:2024-01-04 13:58:22 公開日:2024-01-03
# マルチモーダル基礎モデルの少数ショット適応に関する調査

Few-shot Adaptation of Multi-modal Foundation Models: A Survey ( http://arxiv.org/abs/2401.01736v1 )

ライセンス: Link先を確認
Fan Liu, Tianshu Zhang, Wenwen Dai, Wenwen Cai Xiaocong Zhou, Delong Chen(参考訳) CLIPのようなマルチモーダル(ヴィジュアル言語)モデルは、新しい世代の視覚基盤モデルとして、従来の教師付き事前訓練モデル(例えば、ImageNetベースの事前訓練モデル)を置き換える。 これらのモデルは、数十億のインターネット画像テキストペアから学んだ堅牢で整合したセマンティック表現を持ち、ゼロショットで様々な下流タスクに適用することができる。 しかしながら、医用イメージングやリモートセンシングのような細粒度ドメインでは、マルチモーダル基礎モデルの性能が要求されることが多い。 その結果、多くの研究者がこれらのモデルの少数ショット適応法を探求し始め、徐々に3つの主要な技術的アプローチを導き出した。 1)プロンプトベース手法, 2)アダプタベースの方法,及び 3)外部知識に基づく手法。 それにもかかわらず、この急速に発展する分野は、研究の進捗を体系的に整理するための総合的な調査を行なわずに、多くの成果を生み出している。 そこで本研究では, マルチモーダルモデルに対する少数ショット適応法, 一般的なデータセットと実験装置を要約し, 異なる手法の結果を比較し, 研究の進歩と分析を行った。 さらに,既存手法に対する信頼性の高い理論的サポートが欠如していることから,マルチモーダルモデルに対する少数ショット適応一般化誤差を導出する。 この定理は、マルチモーダル基礎モデルの一般化誤差が、ドメインギャップ、モデル容量、サンプルサイズという3つの要因によって制約されていることを示している。 これに基づいて、以下の3つの側面から可能な解決策を提案する。 1)適応型ドメイン一般化 2)適応型モデル選択、及び 3)適応的知識利用。

Multi-modal (vision-language) models, such as CLIP, are replacing traditional supervised pre-training models (e.g., ImageNet-based pre-training) as the new generation of visual foundation models. These models with robust and aligned semantic representations learned from billions of internet image-text pairs and can be applied to various downstream tasks in a zero-shot manner. However, in some fine-grained domains like medical imaging and remote sensing, the performance of multi-modal foundation models often leaves much to be desired. Consequently, many researchers have begun to explore few-shot adaptation methods for these models, gradually deriving three main technical approaches: 1) prompt-based methods, 2) adapter-based methods, and 3) external knowledge-based methods. Nevertheless, this rapidly developing field has produced numerous results without a comprehensive survey to systematically organize the research progress. Therefore, in this survey, we introduce and analyze the research advancements in few-shot adaptation methods for multi-modal models, summarizing commonly used datasets and experimental setups, and comparing the results of different methods. In addition, due to the lack of reliable theoretical support for existing methods, we derive the few-shot adaptation generalization error bound for multi-modal models. The theorem reveals that the generalization error of multi-modal foundation models is constrained by three factors: domain gap, model capacity, and sample size. Based on this, we propose three possible solutions from the following aspects: 1) adaptive domain generalization, 2) adaptive model selection, and 3) adaptive knowledge utilization.
翻訳日:2024-01-04 13:58:07 公開日:2024-01-03
# 合成データを用いたロボットの衣服操作のキーポイント学習

Learning Keypoints for Robotic Cloth Manipulation using Synthetic Data ( http://arxiv.org/abs/2401.01734v1 )

ライセンス: Link先を確認
Thomas Lips, Victor-Louis De Gusseme, Francis wyffels(参考訳) 補助ロボットは、洗濯、折りたたみ、鉄の衣服を作れるべきである。 しかし, 衣服の変形性, 自己閉塞性などにより, 布地操作のための汎用ロボットシステムの開発は困難である。 合成データは一般化を改善する上で有望な方向であるが、そのユーザビリティはsim-to-realギャップによって制限されることが多い。 布地操作のための合成データの利用を推進し, ロボットの折り畳みなどの作業を可能にするために, ほぼ平らな布地用キーポイント検出器を訓練するための合成データパイプラインを提案する。 その性能をテストするために,実世界のデータセットも収集した。 tシャツ、タオル、ショートパンツの両方の検出器を訓練し、平均精度64.3%を得る。 実世界のデータの微調整により、性能は74.2%向上する。 キーポイント検出器の様々な障害モードについて議論し、布のメッシュや材料を得るための異なるアプローチを比較することで、さらなる洞察が得られる。 また、残りのsim-to-realギャップを定量化し、このギャップをさらに小さくするためには、布質資産の健全性をさらに改善する必要があると論じる。 コード、データセット、トレーニングされたモデルはオンラインで入手できる。

Assistive robots should be able to wash, fold or iron clothes. However, due to the variety, deformability and self-occlusions of clothes, creating general-purpose robot systems for cloth manipulation is challenging. Synthetic data is a promising direction to improve generalization, though its usability is often limited by the sim-to-real gap. To advance the use of synthetic data for cloth manipulation and to enable tasks such as robotic folding, we present a synthetic data pipeline to train keypoint detectors for almost flattened cloth items. To test its performance, we have also collected a real-world dataset. We train detectors for both T-shirts, towels and shorts and obtain an average precision of 64.3%. Fine-tuning on real-world data improves performance to 74.2%. Additional insight is provided by discussing various failure modes of the keypoint detectors and by comparing different approaches to obtain cloth meshes and materials. We also quantify the remaining sim-to-real gap and argue that further improvements to the fidelity of cloth assets will be required to further reduce this gap. The code, dataset and trained models are available online.
翻訳日:2024-01-04 13:57:42 公開日:2024-01-03
# 配水網の漏れ検知におけるコンセプトドリフト検出の適合性の検討

Investigating the Suitability of Concept Drift Detection for Detecting Leakages in Water Distribution Networks ( http://arxiv.org/abs/2401.01733v1 )

ライセンス: Link先を確認
Valerie Vaquet, Fabian Hinder, Barbara Hammer(参考訳) 漏れは、水の損失と汚染リスクの増加を引き起こすため、水分配ネットワークにおいて大きなリスクである。 水分配網の複雑な力学のために漏れ検知は難しい課題である。 特に、小さな漏れを検出するのは難しい。 機械学習の観点からは、リークはコンセプトドリフトとしてモデル化できる。 このように、様々なドリフト検出方式が漏れを検出するのに適していると考えられる。 本研究では,モデル損失と分布に基づくドリフト検出手法による漏洩検出の可能性について検討する。 さらに,データの時間依存の問題についても議論し,分散検出を適用する際の対処法を提案する。 サイズや検出時間の異なるリークに対して,異なる手法を体系的に評価する。 さらに,ドリフト検出に基づく漏洩の局所化手法を提案する。

Leakages are a major risk in water distribution networks as they cause water loss and increase contamination risks. Leakage detection is a difficult task due to the complex dynamics of water distribution networks. In particular, small leakages are hard to detect. From a machine-learning perspective, leakages can be modeled as concept drift. Thus, a wide variety of drift detection schemes seems to be a suitable choice for detecting leakages. In this work, we explore the potential of model-loss-based and distribution-based drift detection methods to tackle leakage detection. We additionally discuss the issue of temporal dependencies in the data and propose a way to cope with it when applying distribution-based detection. We evaluate different methods systematically for leakages of different sizes and detection times. Additionally, we propose a first drift-detection-based technique for localizing leakages.
翻訳日:2024-01-04 13:57:22 公開日:2024-01-03
# タスクと説明ネットワーク

Task and Explanation Network ( http://arxiv.org/abs/2401.01732v1 )

ライセンス: Link先を確認
Moshe Sipper(参考訳) 近年,ディープネットワークにおける説明可能性の重要性が高まっている。 ここでは、AIはタスクだけでなく、そのタスクが達成された理由の説明も必要である、と論じる。 我々はタスクの完了とその説明を完全に統合する基本的なフレームワークであるtask and description network(tenet)を提案する。 私たちは、AI全般の分野は、説明可能性について、非常に熱心に主張すべきだと信じています。

Explainability in deep networks has gained increased importance in recent years. We argue herein that an AI must be tasked not just with a task but also with an explanation of why said task was accomplished as such. We present a basic framework -- Task and Explanation Network (TENet) -- which fully integrates task completion and its explanation. We believe that the field of AI as a whole should insist -- quite emphatically -- on explainability.
翻訳日:2024-01-04 13:57:13 公開日:2024-01-03
# ポンププローブ幾何による二次元電子分光法における2量子コヒーレンス抽出

Extracting double-quantum coherence in two-dimensional electronic spectroscopy under pump-probe geometry ( http://arxiv.org/abs/2401.01731v1 )

ライセンス: Link先を確認
Mao-Rui Cai, Xue Zhang, Zi-Qian Cheng, Teng-Fei Yan, Hui Dong(参考訳) ポンププローブ形状下での光学的2次元(2D)分光は1量子の研究で大きな成功を収めた。 しかし、典型的な位相整合条件のため、二重量子(2q)コヒーレンスの測定に関する実装は長い間制限されていたが、最近ファレルとザンニは2次元赤外分光法で置換-ポンプ-プローブパルスシーケンスによる2q信号の検出に気付いた。 本稿では,この技術を2次元電子分光法に応用する。 このパルスシーケンスを用いて、2Q信号と0Q信号の両方を検出する。 本稿では,プローブパルスの伝搬相と回転フレームの適用により,2Qと0Qのコヒーレンスを走査間隔で有意な発振周波数を示す。 これらの周波数は同じ符号を共有できる。 2Qと0Qのコヒーレンスを位相サイクリング法と因果強制法を用いて異なるスペクトルに分離することを提案する。 ルビジウム原子の電子的2Qコヒーレンスの測定実験によりブロードバンドスペクトルが得られた。 特に、個々のルビジウム原子の二重励起状態だけでなく、d_{1}$ と $d_{2}$ の両方の双極子-双極子相互作用の集団共鳴も同時に観測する。

Optical two-dimensional (2D) spectroscopy under pump-probe geometry has achieved significant successes in one-quantum research. However, due to the typical phase matching condition, its implementation on the measurement of double-quantum (2Q) coherence have been limited for long, until recently Farrell and Zanni realized detecting 2Q signal with a permuted--pump--probe pulse sequence in 2D infrared spectroscopy. Here, we promote this technique to 2D electronic spectroscopy. Using this pulse sequence, both the 2Q and zero-quantum (0Q) signal will be detected. We present that with the propagation phase of the probe pulse and by applying a rotating frame, the 2Q and 0Q coherence exhibit distinct effective oscillation frequencies during the scanned interval. These frequencies may share the same sign. We propose that 2Q and 0Q coherence could be separated onto different spectra using phase cycling techniques and causality enforcement. Our experimental demonstration on measuring the electronic 2Q coherence of rubidium atoms yields broadband spectra. Notably, we simultaneously observe not only the doubly excited state of an individual rubidium atom but also the collective resonances of dipole-dipole interactions of both $D_{1}$ and $D_{2}$ lines.
翻訳日:2024-01-04 13:57:08 公開日:2024-01-03
# STAF:時空間配向融合によるビデオからの3次元メッシュ復元

STAF: 3D Human Mesh Recovery from Video with Spatio-Temporal Alignment Fusion ( http://arxiv.org/abs/2401.01730v1 )

ライセンス: Link先を確認
Wei Yao, Hongwen Zhang, Yunlian Sun, and Jinhui Tang(参考訳) 近年,単眼画像からの3次元メッシュの回復が顕著に進んでいる。 しかし、既存のモデルは通常、空間的および時間的情報を無視するので、メッシュや画像の不一致や時間的不連続につながる可能性がある。 そこで我々は,新しい時空間配向融合(STAF)モデルを提案する。 ビデオベースモデルとして、注意に基づく時間的コヒーレンス融合モジュール(TCFM)による人間の動きからのコヒーレンスヒントを利用する。 空間メッシュアライメントの証拠として,特徴写像上の予測メッシュプロジェクションを通して微細な局所情報を抽出する。 さらに,その空間的特徴に基づいて,多段隣接空間アライメント融合モジュール(safm)を導入し,対象フレームの特徴表現を強化する。 さらに, モデルが対象のフレームだけでなく, 入力シーケンス全体に集中できるように, 平均プールモジュール (APM) を提案する。 この方法は映像からの復元結果の滑らかさを著しく改善することができる。 3DPW, MPII3D, H36Mの広範囲な実験はSTAFの優位性を示した。 我々は精度と滑らかさの最先端のトレードオフを達成する。 私たちのコードとさらなるビデオ結果は、プロジェクトページhttps://yw0208.github.io/staf/にある。

The recovery of 3D human mesh from monocular images has significantly been developed in recent years. However, existing models usually ignore spatial and temporal information, which might lead to mesh and image misalignment and temporal discontinuity. For this reason, we propose a novel Spatio-Temporal Alignment Fusion (STAF) model. As a video-based model, it leverages coherence clues from human motion by an attention-based Temporal Coherence Fusion Module (TCFM). As for spatial mesh-alignment evidence, we extract fine-grained local information through predicted mesh projection on the feature maps. Based on the spatial features, we further introduce a multi-stage adjacent Spatial Alignment Fusion Module (SAFM) to enhance the feature representation of the target frame. In addition to the above, we propose an Average Pooling Module (APM) to allow the model to focus on the entire input sequence rather than just the target frame. This method can remarkably improve the smoothness of recovery results from video. Extensive experiments on 3DPW, MPII3D, and H36M demonstrate the superiority of STAF. We achieve a state-of-the-art trade-off between precision and smoothness. Our code and more video results are on the project page https://yw0208.github.io/staf/
翻訳日:2024-01-04 13:56:49 公開日:2024-01-03
# Ravnest: 異種デバイス上での分散非同期トレーニング

Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices ( http://arxiv.org/abs/2401.01728v1 )

ライセンス: Link先を確認
Anirudh Rajiv Menon, Unnikrishnan Menon, Kailash Ahirwar(参考訳) より大きく複雑に成長する現代のディープラーニングモデルは、巨大なデータセットのトレーニングによって、例外的な一般化と精度を示している。 この傾向は続くと予想されている。 しかしながら、従来の集中型メソッドはそのようなスケールでのメモリ制約によって制限されるため、これらのモデルのサイズが大きくなるとトレーニングが難しくなる。 本稿では,インターネットに接続された限られたリソースを持つ正規のヘテロジニアスpcの計算能力を活用した,高性能な大規模ディープラーニングモデルのための非同期分散学習パラダイムを提案する。 Ravnestは、各ノードがモデル全体をホストすることを必要とせず、同じデータ転送率と計算能力を持つクラスタに効率的に計算ノードを配置することで、分散トレーニングを促進する。 これらのクラスタは$\textit{zero-bubble asynchronous model parallel}$ trainingに従事し、$\textit{parallel multi-ring all-reduce}$メソッドを使用して、すべてのクラスタで平均的なグローバルパラメータを実行します。 遅延更新を伴うブロック構造最適化問題として非同期SGD損失関数をフレーム化して,最適な収束率を$O\left(\frac{1}{\sqrt{K}}\right)$とする。 さらに,参加するクラスタ数とステイレネスパラメータのバウンドに関して,線形高速化について検討する。

Modern deep learning models, growing larger and more complex, have demonstrated exceptional generalization and accuracy due to training on huge datasets. This trend is expected to continue. However, the increasing size of these models poses challenges in training, as traditional centralized methods are limited by memory constraints at such scales. This paper proposes an asynchronous decentralized training paradigm for large modern deep learning models that harnesses the compute power of regular heterogeneous PCs with limited resources connected across the internet to achieve favourable performance metrics. Ravnest facilitates decentralized training by efficiently organizing compute nodes into clusters with similar data transfer rates and compute capabilities, without necessitating that each node hosts the entire model. These clusters engage in $\textit{Zero-Bubble Asynchronous Model Parallel}$ training, and a $\textit{Parallel Multi-Ring All-Reduce}$ method is employed to effectively execute global parameter averaging across all clusters. We have framed our asynchronous SGD loss function as a block structured optimization problem with delayed updates and derived an optimal convergence rate of $O\left(\frac{1}{\sqrt{K}}\right)$. We further discuss linear speedup with respect to the number of participating clusters and the bound on the staleness parameter.
翻訳日:2024-01-04 13:56:31 公開日:2024-01-03
# 集積量子チップにおける相関ノイズに対するロバスト量子ゲート

Robust Quantum Gates against Correlated Noise in Integrated Quantum Chips ( http://arxiv.org/abs/2401.01810v1 )

ライセンス: Link先を確認
Kangyuan Yi, Yong-Ju Hai, Kai Luo, Libo Zhang, Yuxuan Zhou, Yao Song, Tongxing Yan, Xiu-Hao Deng, Yuanzhen Chen(参考訳) 量子回路がより統合され複雑になるにつれて、それまで重要でなかった追加のエラー源が出現し始める。 その結果、原始条件下でベンチマークされた量子ゲートの忠実度は、現実的な回路での性能を予測できない。 この問題を克服するには、孤立した忠実性に加えて、関連するエラーモデルに対するロバスト性を改善する必要がある。 本稿では,様々なゲート誤差の診断と修正のための幾何学的枠組みに基づく超伝導量子回路におけるロバスト量子ゲートの実験的実現について述べる。 量子プロセストモグラフィーとランダム化ベンチマークを用いて, 大規模量子回路におけるコヒーレントエラーの一般的な原因である, 疑似静的ノイズと空間相関雑音に対するロバストな単一量子ビットゲートを示す。 また,本手法を非定常雑音に適用し,ロバストな2量子ゲートを実現する。 我々の研究は、ノイズ耐性複素量子回路を実現するための汎用ツールボックスを提供する。

As quantum circuits become more integrated and complex, additional error sources that were previously insignificant start to emerge. Consequently, the fidelity of quantum gates benchmarked under pristine conditions falls short of predicting their performance in realistic circuits. To overcome this problem, we must improve their robustness against pertinent error models besides isolated fidelity. Here we report the experimental realization of robust quantum gates in superconducting quantum circuits based on a geometric framework for diagnosing and correcting various gate errors. Using quantum process tomography and randomized benchmarking, we demonstrate robust single-qubit gates against quasi-static noise and spatially-correlated noise in a broad range of strengths, which are common sources of coherent errors in large-scale quantum circuit. We also apply our method to non-static noises and to realize robust two-qubit gates. Our work provides a versatile toolbox for achieving noise-resilient complex quantum circuits.
翻訳日:2024-01-04 13:48:26 公開日:2024-01-03
# aMUSEd:オープンなMUSE再現

aMUSEd: An Open MUSE Reproduction ( http://arxiv.org/abs/2401.01808v1 )

ライセンス: Link先を確認
Suraj Patil, William Berman, Robin Rombach, Patrick von Platen(参考訳) MUSEをベースとしたテキスト・ツー・イメージ生成のための,オープンソースの軽量マスク画像モデルであるaMUSEdを提案する。 MUSEのパラメータの10%で、aMUSEdは高速な画像生成にフォーカスしている。 我々はMIMがテキスト・ツー・イメージ生成の主流である潜時拡散に比べて探索不足であると考えている。 潜伏拡散と比較して、MIMは推論ステップを少なくし、より解釈可能である。 さらに、MIMは1つの画像だけで追加のスタイルを学ぶことができる。 大規模なテキスト・画像生成におけるMIMの有効性を実証し、再現可能なトレーニングコードをリリースすることによって、MIMのさらなる探索を奨励したい。 また、256x256と512x512の解像度で画像を直接生成する2つのモデルのチェックポイントをリリースする。

We present aMUSEd, an open-source, lightweight masked image model (MIM) for text-to-image generation based on MUSE. With 10 percent of MUSE's parameters, aMUSEd is focused on fast image generation. We believe MIM is under-explored compared to latent diffusion, the prevailing approach for text-to-image generation. Compared to latent diffusion, MIM requires fewer inference steps and is more interpretable. Additionally, MIM can be fine-tuned to learn additional styles with only a single image. We hope to encourage further exploration of MIM by demonstrating its effectiveness on large-scale text-to-image generation and releasing reproducible training code. We also release checkpoints for two models which directly produce images at 256x256 and 512x512 resolutions.
翻訳日:2024-01-04 13:48:13 公開日:2024-01-03
# 等分散格子の分類を用いた信頼度集合の効率的な計算

Efficient Computation of Confidence Sets Using Classification on Equidistributed Grids ( http://arxiv.org/abs/2401.01804v1 )

ライセンス: Link先を確認
Lujie Zhou(参考訳) 経済モデルはモーメント不等式を生成し、真のパラメータのテストを作成するのに使用できる。 真のパラメータの信頼集合(CS)はこれらのテストの反転によって導かれる。 しかし、それらはしばしば解析式を欠いており、テストに合格する格子点を保持してcsを数値的に得るためにグリッド探索が必要となる。 統計が漸近的にピボットしない場合、パラメータ空間の各格子点に対する臨界値を構成することで計算負荷が増大する。 本稿では,支援ベクトルマシン(SVM)分類器を用いて,計算問題を分類問題に変換する。 その決定関数は、パラメータ空間を2つの領域に分割するより速くより体系的な方法を提供する。 CSのこれらの点を1、外部点を-1とラベル付けします。 研究者は、管理可能なサイズのグリッド上でsvm分類器をトレーニングし、密度の高いグリッド上のポイントがcsにあるかどうかを判断する。 我々は,CSにおけるテストの漸近的再現を可能にするチューニングを行うために,グリッドの特定の条件を確立する。 これは、極限において、ある点が信頼集合に属することと、それが SVM によって 1 としてラベル付けされている場合に限り分類されることを意味する。

Economic models produce moment inequalities, which can be used to form tests of the true parameters. Confidence sets (CS) of the true parameters are derived by inverting these tests. However, they often lack analytical expressions, necessitating a grid search to obtain the CS numerically by retaining the grid points that pass the test. When the statistic is not asymptotically pivotal, constructing the critical value for each grid point in the parameter space adds to the computational burden. In this paper, we convert the computational issue into a classification problem by using a support vector machine (SVM) classifier. Its decision function provides a faster and more systematic way of dividing the parameter space into two regions: inside vs. outside of the confidence set. We label those points in the CS as 1 and those outside as -1. Researchers can train the SVM classifier on a grid of manageable size and use it to determine whether points on denser grids are in the CS or not. We establish certain conditions for the grid so that there is a tuning that allows us to asymptotically reproduce the test in the CS. This means that in the limit, a point is classified as belonging to the confidence set if and only if it is labeled as 1 by the SVM.
翻訳日:2024-01-04 13:48:02 公開日:2024-01-03
# 幾何モデリングのためのクォータインスパイアニューラルネットワーク

A quatum inspired neural network for geometric modeling ( http://arxiv.org/abs/2401.01801v1 )

ライセンス: Link先を確認
Weitao Du, Shengchao Liu, Hongyu Guo(参考訳) 物理システムを3次元多体点雲として考えることで、SE(3)/E(3)等価GNNのような幾何グラフニューラルネットワーク(GNN)は有望な性能を示した。 特に、効果的なメッセージパッシング機構は、分子や結晶材料のモデリングに長けている。 しかし、現在の幾何学的GNNは、2ボディメッセージパッシングにカプセル化されている多体システムの平均場近似しか提供していないため、これらの幾何学的グラフ内の複雑な関係を捉えるには不十分である。 この制限に対処するため、高次テンソルを用いた多体系を扱うために計算物理学で広く用いられているテンソルネットワークが導入された。 それでも、これらのテンソル化ネットワークをGNNのメッセージパッシングフレームワークに統合することは、拡張性と対称性の保存(例えば、置換と回転)の課題に直面している。 そこで本研究では, テンソル縮約操作の効率的な実装を実現することにより, 革新的な同変行列積状態 (mps) に基づくメッセージ通過戦略を提案する。 本手法は,多体関係を効果的にモデル化し,平均場近似を抑え,幾何学グラフ内の対称性を捉える。 重要なのは、幾何学的GNNに固有の標準メッセージパッシングおよびレイヤ集約モジュールをシームレスに置き換えることである。 従来のニュートン系や量子テンソルハミルトニアン行列の予測を含む、ベンチマークタスクにおけるアプローチの優れた精度を実証的に検証した。 我々の知る限り、我々の手法はパラメータ化幾何テンソルネットワークの初期利用を表している。

By conceiving physical systems as 3D many-body point clouds, geometric graph neural networks (GNNs), such as SE(3)/E(3) equivalent GNNs, have showcased promising performance. In particular, their effective message-passing mechanics make them adept at modeling molecules and crystalline materials. However, current geometric GNNs only offer a mean-field approximation of the many-body system, encapsulated within two-body message passing, thus falling short in capturing intricate relationships within these geometric graphs. To address this limitation, tensor networks, widely employed by computational physics to handle manybody systems using high-order tensors, have been introduced. Nevertheless, integrating these tensorized networks into the message-passing framework of GNNs faces scalability and symmetry conservation (e.g., permutation and rotation) challenges. In response, we introduce an innovative equivariant Matrix Product State (MPS)-based message-passing strategy, through achieving an efficient implementation of the tensor contraction operation. Our method effectively models complex many-body relationships, suppressing mean-field approximations, and captures symmetries within geometric graphs. Importantly, it seamlessly replaces the standard message-passing and layer-aggregation modules intrinsic to geometric GNNs. We empirically validate the superior accuracy of our approach on benchmark tasks, including predicting classical Newton systems and quantum tensor Hamiltonian matrices. To our knowledge, our approach represents the inaugural utilization of parameterized geometric tensor networks.
翻訳日:2024-01-04 13:47:42 公開日:2024-01-03
# オンライン害への曝露を減らすプラットフォーム安全技術との関わりの理解

Understanding engagement with platform safety technology for reducing exposure to online harms ( http://arxiv.org/abs/2401.01796v1 )

ライセンス: Link先を確認
Jonathan Bright, Florence E. Enock, Pica Johansson, Helen Z. Margetts, Francesca Stevens(参考訳) ユーザ対面する'platform safety technology'には,ユーザを害から守るための,プラットフォームが提供するさまざまなツールが含まれている。 これらのツールは、オンラインの安全性にとってますます重要な部分だ。英国では、大規模なプラットフォームがそれを提供するために必要な法律が制定されている。 しかし、そのようなツールによるユーザエンゲージメントについてはほとんど知られていない。 本研究は,7つの共通安全技術に対する意識と経験をカバーした英国成人を対象にした全国調査である。 オンラインの害体験は広く,67%の人がオンライン上の有害なコンテンツを見たこと,26%の人がコンテンツモデレーションによって削除されたコンテンツが少なくとも1つあること,などである。 安全技術の使用も高く、80%以上の人が少なくとも1つを使っている。 特定のツールに対する認識は様々で、予防措置よりもレポートのような「ポストホック」な安全ツールに気付く傾向が強い。 しかし、安全技術への満足度は概して低い。 以前オンライン被害を見た人は、より安全ツールを使う傾向があり、エンゲージメントへの"難しい方法を学ぶ"ことを意味する。 デジタルリテラシーが高い人は、これらのツールを使う可能性が高く、すべてのユーザーにこれらのテクノロジーのアクセシビリティに関する懸念が高まる。 さらに、女性は特定のタイプのオンラインの「安全作業」に従事しやすい。 より安全なオンライン環境を求める人々に対して,我々の結果がもたらす影響について考察する。

User facing 'platform safety technology' encompasses an array of tools offered by platforms to help people protect themselves from harm, for example allowing people to report content and unfollow or block other users. These tools are an increasingly important part of online safety: in the UK, legislation has made it a requirement for large platforms to offer them. However, little is known about user engagement with such tools. We present findings from a nationally representative survey of UK adults covering their awareness of and experiences with seven common safety technologies. We show that experience of online harms is widespread, with 67% of people having seen what they perceived as harmful content online; 26% of people have also had at least one piece of content removed by content moderation. Use of safety technologies is also high, with more than 80\% of people having used at least one. Awareness of specific tools is varied, with people more likely to be aware of 'post-hoc' safety tools, such as reporting, than preventative measures. However, satisfaction with safety technologies is generally low. People who have previously seen online harms are more likely to use safety tools, implying a 'learning the hard way' route to engagement. Those higher in digital literacy are also more likely to use some of these tools, raising concerns about the accessibility of these technologies to all users. Additionally, women are more likely to engage in particular types of online 'safety work'. We discuss the implications of our results for those seeking a safer online environment.
翻訳日:2024-01-04 13:47:18 公開日:2024-01-03
# ハミルトニアンはテンソル積構造と3次元空間を決定するか?

Does the Hamiltonian determine the tensor product structure and the 3d space? ( http://arxiv.org/abs/2401.01793v1 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) ヒルベルト空間のテンソル積構造は、ある条件を満たす多くの有限次元の場合においてハミルトンのスペクトルによって一意に決定される。 3つ以上の立方体に対して、そのような手法は無限に多くのテンソル積構造を導くことができる。 ユニークな解を見つけるのに必要な追加の連続パラメータの数は、クォーディットの数で指数関数的である。 さらに、結果が一意であっても、そのようなハミルトニアンは部分系を絡めない。 これらの結果は、ハミルトニアンから3次元空間を復元するいくつかの提案に影響する。

It was proposed that the tensor product structure of the Hilbert space is uniquely determined by the Hamiltonian's spectrum, for most finite-dimensional cases satisfying certain conditions. I show that, for more than three qudits, any such method can only lead to infinitely many tensor product structures. The number of additional continuous parameters needed to find a unique solution is exponential in the number of qudits. In addition, even if the result were unique, such a Hamiltonian would not entangle subsystems. These results affect some proposals to recover the 3d space from the Hamiltonian.
翻訳日:2024-01-04 13:46:55 公開日:2024-01-03
# CoMoSVC:一貫性モデルに基づく歌声変換

CoMoSVC: Consistency Model-based Singing Voice Conversion ( http://arxiv.org/abs/2401.01792v1 )

ライセンス: Link先を確認
Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo(参考訳) 拡散に基づく歌声変換(SVC)法は,目標音色によく似た自然な音声を生成することで,優れた性能を実現している。 しかし、反復サンプリングプロセスは推論速度が遅くなり、加速度が重要になる。 本稿では,高品質な生成と高速サンプリングを実現することを目的とした,一貫性モデルに基づくsvc法であるcomosvcを提案する。 拡散型教師モデルが最初にsvc用に特別に設計され、学生モデルはさらに自己抵抗特性下で蒸留して一段階サンプリングを行う。 1つのNVIDIA GTX4090 GPUの実験によると、CoMoSVCは、最先端(SOTA)拡散ベースのSVCシステムよりもはるかに高速な推論速度を持つが、主観的および客観的メトリクスの両方に基づいて、同等または優れた変換性能を達成する。 オーディオサンプルとコードはhttps://comosvc.github.io/で入手できる。

The diffusion-based Singing Voice Conversion (SVC) methods have achieved remarkable performances, producing natural audios with high similarity to the target timbre. However, the iterative sampling process results in slow inference speed, and acceleration thus becomes crucial. In this paper, we propose CoMoSVC, a consistency model-based SVC method, which aims to achieve both high-quality generation and high-speed sampling. A diffusion-based teacher model is first specially designed for SVC, and a student model is further distilled under self-consistency properties to achieve one-step sampling. Experiments on a single NVIDIA GTX4090 GPU reveal that although CoMoSVC has a significantly faster inference speed than the state-of-the-art (SOTA) diffusion-based SVC system, it still achieves comparable or superior conversion performance based on both subjective and objective metrics. Audio samples and codes are available at https://comosvc.github.io/.
翻訳日:2024-01-04 13:46:47 公開日:2024-01-03
# 線形分数過程のハーストパラメータのディープラーニングとその信頼性評価

Deep learning the Hurst parameter of linear fractional processes and assessing its reliability ( http://arxiv.org/abs/2401.01789v1 )

ライセンス: Link先を確認
D\'aniel Boros, B\'alint Csan\'ady, Iv\'an Ivkovic, L\'or\'ant Nagy, Andr\'as Luk\'acs, L\'aszl\'o M\'arkus(参考訳) 本研究では,分数確率過程におけるHurstパラメータ推定のためのディープラーニング,特にLong Short-Term Memory(LSTM)ネットワークの信頼性について検討する。 この研究は、分数的ブラウン運動(fBm)、分数的オルンシュタイン-ウレンベック過程(fOU)、線形分数的安定運動(lfsm)の3種類のプロセスに焦点を当てている。 この作業では、fBmとfOUのための広範なデータセットを高速に生成し、LSTMネットワークを大量のデータを実行可能な時間でトレーニングする。 本研究は、RMSE, MAE, MRE, および絶対誤差および相対誤差の量子化に関するLSTMネットワークのHurstパラメータ推定の精度を分析した。 lstm は fbm と fou のプロセスでは従来の統計手法を上回っているが、lfsm のプロセスでは精度は限られている。 また、LSTMの性能に対するトレーニング長と評価シーケンスの長さの影響についても検討した。 この手法は、リチウムイオン電池劣化データ中のハーストパラメータを推定し、推定のための信頼境界を求める。 その結果, 深層学習手法は分数過程のパラメータ推定に有望であるが, その有効性はプロセスタイプとトレーニングデータの質に起因していることがわかった。

This research explores the reliability of deep learning, specifically Long Short-Term Memory (LSTM) networks, for estimating the Hurst parameter in fractional stochastic processes. The study focuses on three types of processes: fractional Brownian motion (fBm), fractional Ornstein-Uhlenbeck (fOU) process, and linear fractional stable motions (lfsm). The work involves a fast generation of extensive datasets for fBm and fOU to train the LSTM network on a large volume of data in a feasible time. The study analyses the accuracy of the LSTM network's Hurst parameter estimation regarding various performance measures like RMSE, MAE, MRE, and quantiles of the absolute and relative errors. It finds that LSTM outperforms the traditional statistical methods in the case of fBm and fOU processes; however, it has limited accuracy on lfsm processes. The research also delves into the implications of training length and valuation sequence length on the LSTM's performance. The methodology is applied by estimating the Hurst parameter in Li-ion battery degradation data and obtaining confidence bounds for the estimation. The study concludes that while deep learning methods show promise in parameter estimation of fractional processes, their effectiveness is contingent on the process type and the quality of training data.
翻訳日:2024-01-04 13:46:28 公開日:2024-01-03
# 機械学習とIoTの屋外大気汚染モニタリング・予測への応用:システム文献レビュー

Applications of machine learning and IoT for Outdoor Air Pollution Monitoring and Prediction: A Systematic Literature Review ( http://arxiv.org/abs/2401.01788v1 )

ライセンス: Link先を確認
Ihsane Gryech, Chaimae Assad, Mounir Ghogho, Abdellatif Kobbane(参考訳) 世界保健機関(WHO)によると、大気汚染は毎年700万人が死亡している。 大気汚染は、低、中、高所得国に影響を及ぼす主要な環境問題である。 過去数年間、研究コミュニティは、屋外大気汚染予測のためのIoT対応機械学習アプリケーションを調査してきた。 本研究の目的は,屋外大気汚染予測のための機械学習とIoT(Internet of Things)の適用と,センサと入力機能の組み合わせを体系的に検討することである。 このレビューのために2つの研究質問が提出された。 1086の出版物が最初のPRISMAの段階で集められた。 審査と適格化の段階を経て,37紙を包括的に選択した。 コストベースの分析を行い、高コストモニタリング、低コストIoT、ハイブリッド対応予測を強調した。 時系列,特徴ベース,時空間の3つの予測方法が同定された。 このレビューの調査結果は、文献に見られるアプリケーションにおける大きな制限、すなわち、カバレッジの欠如、データの多様性の欠如、コンテキスト特有の機能の欠如を指摘している。 本稿では,医療,都市計画,グローバル・シナジー,スマートシティにおける今後の研究の方向性について述べる。

According to the World Health Organization (WHO), air pollution kills seven million people every year. Outdoor air pollution is a major environmental health problem affecting low, middle, and high-income countries. In the past few years, the research community has explored IoT-enabled machine learning applications for outdoor air pollution prediction. The general objective of this paper is to systematically review applications of machine learning and Internet of Things (IoT) for outdoor air pollution prediction and the combination of monitoring sensors and input features used. Two research questions were formulated for this review. 1086 publications were collected in the initial PRISMA stage. After the screening and eligibility phases, 37 papers were selected for inclusion. A cost-based analysis was conducted on the findings to highlight high-cost monitoring, low-cost IoT and hybrid enabled prediction. Three methods of prediction were identified: time series, feature-based and spatio-temporal. This review's findings identify major limitations in applications found in the literature, namely lack of coverage, lack of diversity of data and lack of inclusion of context-specific features. This review proposes directions for future research and underlines practical implications in healthcare, urban planning, global synergy and smart cities.
翻訳日:2024-01-04 13:46:02 公開日:2024-01-03
# 双曲保存則に対するフーリエニューラル作用素による数値フラックス近似

Approximating Numerical Flux by Fourier Neural Operators for the Hyperbolic Conservation Laws ( http://arxiv.org/abs/2401.01783v1 )

ライセンス: Link先を確認
Taeyoung Kim and Myungjoo Sang(参考訳) PDEを数値的に解くための古典的な数値スキームが存在し、近年はニューラルネットワークに基づく手法が開発されている。 しかし、PINNやニューラル演算子などのニューラルネットワークを用いた手法は、堅牢性と一般化力に欠ける。 このような欠点を補うために、古典的数値スキームと機械学習手法を組み合わせた多くの研究が、数値スキームのごく一部をニューラルネットワークに置き換えて行われている。 本研究では, 双曲保存法則に着目し, ニューラル演算子による数値スキームの数値フラックスを置き換える。 このため,保存法則とFNOによる近似数値フラックスの数値スキームによって動機付けられた損失を構築する。 実験により,本手法は,従来の手法と比較することにより,数値スキームとFNOの両方の利点を有することを示した。 例えば,本手法はロバスト性,分解能不変性,およびデータ駆動方式の実現性を示す。 特に本手法は,既存のニューラル演算子手法では解決が困難である分散サンプルに対して,連続的な時間予測と一般化能力を有する。

Classical numerical schemes exist for solving PDEs numerically, and recently, neural network-based methods have been developed. However, methodologies using neural networks, such as PINN and neural operators, lack robustness and generalization power. To compensate for such drawbacks, there are many types of research combining classical numerical schemes and machine learning methods by replacing a small portion of the numerical schemes with neural networks. In this work, we focus on hyperbolic conservation laws and replace numerical fluxes in the numerical schemes by neural operator. For this, we construct losses that are motivated by numerical schemes for conservation laws and approximate numerical flux by FNO. Through experiments, we show that our methodology has advantages of both numerical schemes and FNO by comparing with original methods. For instance, we demonstrate our method gains robustness, resolution invariance property, and feasibility of a data-driven method. Our method especially has the ability to predict continuously in time and generalization power on the out-of-distribution samples, which are challenges to be tackled for existing neural operator methods.
翻訳日:2024-01-04 13:45:44 公開日:2024-01-03
# パフォーマンスバグの炭素フットプリントのプロファイリング

Profiling the carbon footprint of performance bugs ( http://arxiv.org/abs/2401.01782v1 )

ライセンス: Link先を確認
Iztok Fister Jr. and Du\v{s}an Fister and Vili Podgorelec and Iztok Fister(参考訳) 最近の多くの議論は、世界的な二酸化炭素排出量に対する現代の情報と通信技術の影響に向けられている。 グリーンインフォメーションとコミュニケーション技術は、環境への悪影響を最小限に抑える、持続的で環境に優しい計算分野を作るパラダイムである。 グリーン情報と通信技術は、現在常に開発されている。 そこで本稿では,近年までそれほど深く研究されていない性能バグの問題について述べる。 我々は、不適切なソフトウェア実装が世界的な二酸化炭素排出量に重大な影響を与えると仮定する。 ここでは、これらのパフォーマンスバグを分類し、c++で書かれた4つのプログラムの不適切な実装を開発する。 これらのシミュレーション性能のバグを軽減するため、炭素フットプリントの増加を適切に見積もるソフトウェアとハードウェアの手法が提案された。

Much debate nowadays is devoted to the impacts of modern information and communication technology on global carbon emissions. Green information and communication technology is a paradigm creating a sustainable and environmentally friendly computing field that tries to minimize the adverse effects on the environment. Green information and communication technology are under constant development nowadays. Thus, in this paper, we undertake the problem of performance bugs that, until recently, have never been studied so profoundly. We assume that inappropriate software implementations can have a crucial influence on global carbon emissions. Here, we classify those performance bugs and develop inappropriate implementations of four programs written in C++. To mitigate these simulated performance bugs, measuring software and hardware methods that can estimate the increased carbon footprint properly were proposed.
翻訳日:2024-01-04 13:45:23 公開日:2024-01-03
# 不確実性のナビゲート:クローズドブック質問応答における幻覚低減のためのapi依存性の最適化

Navigating Uncertainty: Optimizing API Dependency for Hallucination Reduction in Closed-Book Question Answering ( http://arxiv.org/abs/2401.01780v1 )

ライセンス: Link先を確認
Pierre Erbacher and Louis Falissar and Vincent Guigue and Laure Soulier(参考訳) 大規模言語モデル(llm)は知識を蓄積し、復元することができるが、幻覚に陥りやすい。 特に現実的な疑問に直面した場合、LLMは真正かつ正しい答えを保証するためにパラメータに格納された知識にのみ依存することはできない。 これらのモデルをウェブなどの外部情報ソースで検索する能力で拡張することは、情報を取得するための基礎知識に対する有望なアプローチである。 しかし、大量の文書を検索すると計算/時間コストが増大する。 LLMが回答に自信を持っていない場合にのみ、外部リソースを問い合わせることが最適である。 本稿では, 直接回答できるのか, 外部ツールを要求する必要があるのかを, 自己推定できる新しいLSMを提案する。 本研究は,クローズブック質問応答タスクを用いてラベルを生成する幻覚マスキング機構を導入することにより,教師ありのアプローチを検討する。 さらに,パラメータ効率のよい微調整手法を用いて,少量のデータでモデルをトレーニングすることを提案する。 我々のモデルは、既知のクエリの78.2\%$に対して直接回答を提供し、未知のクエリの77.2\%$を検索する。 その結果、APIの利用料はわずか62.%である。

While Large Language Models (LLM) are able to accumulate and restore knowledge, they are still prone to hallucination. Especially when faced with factual questions, LLM cannot only rely on knowledge stored in parameters to guarantee truthful and correct answers. Augmenting these models with the ability to search on external information sources, such as the web, is a promising approach to ground knowledge to retrieve information. However, searching in a large collection of documents introduces additional computational/time costs. An optimal behavior would be to query external resources only when the LLM is not confident about answers. In this paper, we propose a new LLM able to self-estimate if it is able to answer directly or needs to request an external tool. We investigate a supervised approach by introducing a hallucination masking mechanism in which labels are generated using a close book question-answering task. In addition, we propose to leverage parameter-efficient fine-tuning techniques to train our model on a small amount of data. Our model directly provides answers for $78.2\%$ of the known queries and opts to search for $77.2\%$ of the unknown ones. This results in the API being utilized only $62\%$ of the time.
翻訳日:2024-01-04 13:45:11 公開日:2024-01-03
# 自律量子熱機械における極大定常絡み合い

Maximal steady-state entanglement in autonomous quantum thermal machines ( http://arxiv.org/abs/2401.01776v1 )

ライセンス: Link先を確認
Shishir Khandelwal, Bj\"orn Annby-Andersson, Giovanni Francesco Diotallevi, Andreas Wacker, Armin Tavakoli(参考訳) 我々は3つの対相互作用量子ビットからなる自律量子熱機械を考案し、そのうち2つは局所的に古典的な貯水池に結合する。 タイムコヒーレントな制御や外部駆動、量子バス工学などを必要としないため、機械は自律的に動作し、代わりに貯水池間の化学的ポテンシャルバイアスによって推進される。 理想的な条件下では、この非平衡系は、2つの量子ビットの間に最大に絡み合った状態が決定的に生成できること、あるいは実際には、系の暗黒状態として現れる任意の純粋な2量子絡み合った状態が示される。 絡み合い生成も堅牢であり、操作の理想的な状態からほぼ最大に絡み合った状態を生成することができる。 さらに、我々のマシンアーキテクチャは、2n-1$ qubitsの構成に一般化できることを示す。これは、潜在的なバイアスと2体相互作用だけで、W状態が$n$ qubitsの形で、真のマルチパーティライトの最大絡み合った定常状態を生成するのに十分である。

We devise an autonomous quantum thermal machine consisting of three pairwise-interacting qubits, two of which are locally coupled to separate classical reservoirs. The machine operates autonomously, as it requires no time-coherent control, external driving or quantum bath engineering, and is instead propelled by a chemical potential bias between the reservoirs. Under ideal conditions, we show that this out-of-equilibrium system can deterministically generate a maximally entangled steady-state between two of the qubits, or in fact, any desired pure two-qubit entangled state, emerging as a dark state of the system. The entanglement production is also robust, such that nearly-maximally-entangled states can be generated well-away from the ideal regime of operation. Furthermore, we show that our machine architecture can be generalised to a configuration with $2n-1$ qubits, in which only a potential bias and two-body interactions are sufficient to generate genuine multipartite maximally entangled steady states in the form of a W state of $n$ qubits.
翻訳日:2024-01-04 13:44:50 公開日:2024-01-03
# ニューラル計算の新しいパラダイム:学習可能なニューロンと適応可能な構造を持つx-net

A Novel Paradigm for Neural Computation: X-Net with Learnable Neurons and Adaptable Structure ( http://arxiv.org/abs/2401.01772v1 )

ライセンス: Link先を確認
Yanjie Li, Weijun Li, Lina Yu, Min Wu, Jinyi Liu, Wenqiang Li, Meilan Hao(参考訳) 人工ニューラルネットワーク(ANN)は、バイオインフォマティクスから金融分析まで、様々な分野に浸透し、現代の科学研究の取り組みにとって欠かせない側面となっている。 しかしながら、従来のニューラルネットワークの固有の制限は、比較的固定されたネットワーク構造とアクティベーション関数によって生じる。 1 アクティベーション関数のタイプは単一であり、比較的固定されており、ネットワークの「単位表現能力」が不十分であり、非常に複雑なネットワークで単純な問題を解決するためによく用いられる。 上記の問題に対処するため,本研究では,X-Netと呼ばれる新しいニューラルネットワークを提案する。 設計した交互バックプロパゲーション機構を利用することで,学習中のデリバティブ情報に基づく適切なアクティベーション関数を動的に選択し,特定のタスクに対するネットワークの表現能力を向上する。 同時に、ニューロンレベルでネットワーク構造を正確に調整し、様々な複雑さのタスクに対応し、計算コストを削減する。 実験により,モデルサイズの削減と表現力の向上の観点から,X-Netの2つの利点を実証した。 具体的には、パラメータの数に関して、X-Net は平均で 3$\%$ のベースラインしか持たず、あるタスクでは 1.4$\%$ しか持たない。 表現能力の面では、X-Netはパラメータを導入せずにアクティベーション関数を最適化することで、フィッティングタスクで平均$R^2$=0.985を達成することができる。 最後に, 社会, エネルギー, 環境, 航空宇宙などの複数の分野のデータから科学的な発見を支援するためのX-Netの能力についても検証し, 簡潔で良好な結果を得た。

Artificial neural networks (ANNs) have permeated various disciplinary domains, ranging from bioinformatics to financial analytics, where their application has become an indispensable facet of contemporary scientific research endeavors. However, the inherent limitations of traditional neural networks arise due to their relatively fixed network structures and activation functions. 1, The type of activation function is single and relatively fixed, which leads to poor "unit representation ability" of the network, and it is often used to solve simple problems with very complex networks; 2, the network structure is not adaptive, it is easy to cause network structure redundant or insufficient. To address the aforementioned issues, this study proposes a novel neural network called X-Net. By utilizing our designed Alternating Backpropagation mechanism, X-Net dynamically selects appropriate activation functions based on derivative information during training to enhance the network's representation capability for specific tasks. Simultaneously, it accurately adjusts the network structure at the neuron level to accommodate tasks of varying complexities and reduce computational costs. Through a series of experiments, we demonstrate the dual advantages of X-Net in terms of reducing model size and improving representation power. Specifically, in terms of the number of parameters, X-Net is only 3$\%$ of baselines on average, and only 1.4$\%$ under some tasks. In terms of representation ability, X-Net can achieve an average $R^2$=0.985 on the fitting task by only optimizing the activation function without introducing any parameters. Finally, we also tested the ability of X-Net to help scientific discovery on data from multiple disciplines such as society, energy, environment, and aerospace, and achieved concise and good results.
翻訳日:2024-01-04 13:44:26 公開日:2024-01-03
# ターゲット解析的視点の爆発によるターゲット間距離検出

Cross-target Stance Detection by Exploiting Target Analytical Perspectives ( http://arxiv.org/abs/2401.01761v1 )

ライセンス: Link先を確認
Daijun Ding, Rong Chen, Bowen Zhang, Xu Huang, Li Dong, Xiaowen Zhao, Ge Song, Liwen Jing(参考訳) ターゲット間姿勢検出(ctsd)は、ターゲットからの注釈データを利用して目的地目標の姿勢を推定する重要な課題である。 CTSDにおける重要なアプローチの1つは、複数のターゲット間の知識ギャップを埋めるために、ドメイン不変の特徴を抽出することである。 しかし、非公式かつ短いテキスト構造と暗黙の表現の分析は、ドメイン不変知識の抽出を複雑にする。 本稿では,知識を伝達するブリッジとして解析的視点を用いたCTSDのためのMPPT(Multi-Perspective Prompt-Tuning)モデルを提案する。 まず,大規模言語モデル(llm)に基づく指示を定式化することにより,対象分析の視点を解明し,複数の視点から自然言語説明(nles)を提供する2段階の指導型連鎖思考法(tscot)を開発した。 次に,NLEを姿勢予測器に融合させるマルチパースペクティブ・プロンプトチューニングフレームワーク(MultiPLN)を提案する。 実験の結果,MPPTの最先端のベースライン法に対する優位性を示した。

Cross-target stance detection (CTSD) is an important task, which infers the attitude of the destination target by utilizing annotated data derived from the source target. One important approach in CTSD is to extract domain-invariant features to bridge the knowledge gap between multiple targets. However, the analysis of informal and short text structure, and implicit expressions, complicate the extraction of domain-invariant knowledge. In this paper, we propose a Multi-Perspective Prompt-Tuning (MPPT) model for CTSD that uses the analysis perspective as a bridge to transfer knowledge. First, we develop a two-stage instruct-based chain-of-thought method (TsCoT) to elicit target analysis perspectives and provide natural language explanations (NLEs) from multiple viewpoints by formulating instructions based on large language model (LLM). Second, we propose a multi-perspective prompt-tuning framework (MultiPLN) to fuse the NLEs into the stance predictor. Extensive experiments results demonstrate the superiority of MPPT against the state-of-the-art baseline methods.
翻訳日:2024-01-04 13:43:56 公開日:2024-01-03
# dgdnn:ストック移動予測のための分離グラフ拡散ニューラルネットワーク

DGDNN: Decoupled Graph Diffusion Neural Network for Stock Movement Prediction ( http://arxiv.org/abs/2401.01846v1 )

ライセンス: Link先を確認
Zinuo You, Zijian Shi, Hongbo Bo, John Cartlidge, Li Zhang, Yan Ge(参考訳) 将来の株価動向の予測は、確率的ストック間ダイナミクスと階層的ストック内ダイナミクスが株価に影響を及ぼすため、学術や産業にとって依然として困難である。 近年、グラフニューラルネットワークは、複数のストックをグラフ構造化データとして定式化することで、この問題において顕著な性能を達成している。 しかし、これらのアプローチのほとんどは静的なストックグラフを構築するために人工的に定義された因子に依存しており、これは急速に進化するストック間の固有の相互依存性を捉えることができない。 さらに、これらの手法は株式の階層的特徴を無視し、内部で特有の情報を失うことが多い。 本研究では,これらの課題に対処するために,知識のないグラフ学習手法を提案する。 まず,信号処理の観点から,エントロピー駆動エッジ生成による動的ストックグラフの自動構築を行う。 次に,構築したストックグラフ上での一般化グラフ拡散プロセスを通じて,ストック間のタスク最適依存性をさらに学習する。 最後に,分離表現学習方式を採用し,特徴的階層的在庫内特徴を捉える。 実験により、実世界のデータセットにおける最先端のベースラインを大幅に改善した。 さらに, アブレーション研究と感度研究により, 時間発展するストック間およびイントラストックダイナミクスのモデル化における提案手法の有効性がさらに示された。

Forecasting future stock trends remains challenging for academia and industry due to stochastic inter-stock dynamics and hierarchical intra-stock dynamics influencing stock prices. In recent years, graph neural networks have achieved remarkable performance in this problem by formulating multiple stocks as graph-structured data. However, most of these approaches rely on artificially defined factors to construct static stock graphs, which fail to capture the intrinsic interdependencies between stocks that rapidly evolve. In addition, these methods often ignore the hierarchical features of the stocks and lose distinctive information within. In this work, we propose a novel graph learning approach implemented without expert knowledge to address these issues. First, our approach automatically constructs dynamic stock graphs by entropy-driven edge generation from a signal processing perspective. Then, we further learn task-optimal dependencies between stocks via a generalized graph diffusion process on constructed stock graphs. Last, a decoupled representation learning scheme is adopted to capture distinctive hierarchical intra-stock features. Experimental results demonstrate substantial improvements over state-of-the-art baselines on real-world datasets. Moreover, the ablation study and sensitivity study further illustrate the effectiveness of the proposed method in modeling the time-evolving inter-stock and intra-stock dynamics.
翻訳日:2024-01-04 13:37:09 公開日:2024-01-03
# テキストデータセットにおける半教師あり学習アルゴリズムの検討

Investigating Semi-Supervised Learning Algorithms in Text Datasets ( http://arxiv.org/abs/2401.01843v1 )

ライセンス: Link先を確認
Himmet Toprak Kesgin, Mehmet Fatih Amasyali(参考訳) 大きなトレーニングデータセットを使用することで、ニューラルネットワークの一般化能力が向上する。 半教師付き学習(SSL)は、ラベル付きデータが少なく、ラベルなしデータが多い場合に有用である。 データ拡張を使用するSSLメソッドは、イメージデータセットで最も成功している。 対照的に、テキストは画像として一貫した拡張方法を持っていない。 したがって、拡張を使用するメソッドは、画像データにあるようなテキストデータでは有効ではない。 本研究では, 自己学習, 共学習, トライトレーニング, トリトレーニングなど, 拡張を必要としないsslアルゴリズムを比較した。 実験では、異なるタスクに4つの異なるテキストデータセットを使用しました。 実験的な質問をすることで,様々な視点からアルゴリズムを検証し,いくつかの改善を提案する。 アルゴリズムの中で、意見の一致によるトリトレーニングは、Oracleに最も近いパフォーマンスを示したが、パフォーマンスのギャップは、新しい半教師付きアルゴリズムや既存のメソッドの改善が必要であることを示している。

Using large training datasets enhances the generalization capabilities of neural networks. Semi-supervised learning (SSL) is useful when there are few labeled data and a lot of unlabeled data. SSL methods that use data augmentation are most successful for image datasets. In contrast, texts do not have consistent augmentation methods as images. Consequently, methods that use augmentation are not as effective in text data as they are in image data. In this study, we compared SSL algorithms that do not require augmentation; these are self-training, co-training, tri-training, and tri-training with disagreement. In the experiments, we used 4 different text datasets for different tasks. We examined the algorithms from a variety of perspectives by asking experiment questions and suggested several improvements. Among the algorithms, tri-training with disagreement showed the closest performance to the Oracle; however, performance gap shows that new semi-supervised algorithms or improvements in existing methods are needed.
翻訳日:2024-01-04 13:36:51 公開日:2024-01-03
# 多様体正規化を伴うワッサーシュタイン非負テンソル因子分解

Wasserstein Nonnegative Tensor Factorization with Manifold Regularization ( http://arxiv.org/abs/2401.01842v1 )

ライセンス: Link先を確認
Jianyu Wang, Linruize Tang(参考訳) 非負のテンソル因子化(NTF)は、非負の高次データから固有構造情報を保存した特徴抽出および部分ベース表現の重要なツールとなっている。 しかし、元のNTF法はユークリッドあるいはクルバック・リーブラー分岐を各特徴を等しく扱う損失関数として利用し、特徴の側面情報を無視した。 サンプルの特徴の相関情報と多様体情報を利用するために、入力テンソルデータの分布と再構成の分布の間のワッサーシュタイン距離を最小化するワッサーシュタイン多様体非負テンソル因子化(WMNTF)を導入する。 ワッサーシュタイン距離に関するいくつかの研究は非負行列分解(NMF)において提案されているが、高次データの空間構造情報は無視されている。 我々は、計量としてワッサーシュタイン距離(すなわちアースモーバー距離または最適輸送距離)を使用し、潜在因子にグラフ正規化子を加える。 実験により提案手法の有効性を他のNMF法やNTF法と比較した。

Nonnegative tensor factorization (NTF) has become an important tool for feature extraction and part-based representation with preserved intrinsic structure information from nonnegative high-order data. However, the original NTF methods utilize Euclidean or Kullback-Leibler divergence as the loss function which treats each feature equally leading to the neglect of the side-information of features. To utilize correlation information of features and manifold information of samples, we introduce Wasserstein manifold nonnegative tensor factorization (WMNTF), which minimizes the Wasserstein distance between the distribution of input tensorial data and the distribution of reconstruction. Although some researches about Wasserstein distance have been proposed in nonnegative matrix factorization (NMF), they ignore the spatial structure information of higher-order data. We use Wasserstein distance (a.k.a Earth Mover's distance or Optimal Transport distance) as a metric and add a graph regularizer to a latent factor. Experimental results demonstrate the effectiveness of the proposed method compared with other NMF and NTF methods.
翻訳日:2024-01-04 13:36:39 公開日:2024-01-03
# 学びながら行動する - 非定常マルコフ決定過程における適応的意思決定

Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov Decision Processes ( http://arxiv.org/abs/2401.01841v1 )

ライセンス: Link先を確認
Baiting Luo, Yunuo Zhang, Abhishek Dubey, Ayan Mukhopadhyay(参考訳) シーケンシャルな意思決定における基本的な(そしてほとんどオープンな)課題は、時間とともに外生環境が変化する非定常環境を扱うことである。 このような問題は伝統的に非定常マルコフ決定過程(NSMDP)としてモデル化されている。 しかし、NSMDPにおける意思決定のための既存のアプローチには2つの大きな欠点がある: 第一に、彼らは現在の更新された環境力学が知られていると仮定し(将来の力学は変化しうるが)、第二に、計画は概ね悲観的である。 更新された環境条件は滅多に知られておらず、エージェントが環境と相互作用すると、更新されたダイナミクスについて学び、少なくともそれが自信を持っている状態において、悲観的になることを避けることができる。 我々は,これらの課題に対処するヒューリスティック探索アルゴリズムである \textit{adaptive monte carlo tree search (ada-mcts)"を提案する。 エージェントが更新された環境のダイナミクスを時間とともに学習し、学習しながら行動できること、すなわち、エージェントが更新された知識を持つ状態空間の領域にいる場合、悲観的になることを避けることができる。 更新された知識」を定量化するために、エージェントの更新された信念におけるアレター的およびエピステマティックな不確実性を分解し、エージェントがこれらの見積を意思決定にどのように使用できるかを示す。 提案手法を,複数の確立したオープンソース問題に対する意思決定における最先端手法と比較し,安全性を犠牲にすることなく,提案手法がより高速かつ高度に適応できることを実証的に示す。

A fundamental (and largely open) challenge in sequential decision-making is dealing with non-stationary environments, where exogenous environmental conditions change over time. Such problems are traditionally modeled as non-stationary Markov decision processes (NSMDP). However, existing approaches for decision-making in NSMDPs have two major shortcomings: first, they assume that the updated environmental dynamics at the current time are known (although future dynamics can change); and second, planning is largely pessimistic, i.e., the agent acts ``safely'' to account for the non-stationary evolution of the environment. We argue that both these assumptions are invalid in practice -- updated environmental conditions are rarely known, and as the agent interacts with the environment, it can learn about the updated dynamics and avoid being pessimistic, at least in states whose dynamics it is confident about. We present a heuristic search algorithm called \textit{Adaptive Monte Carlo Tree Search (ADA-MCTS)} that addresses these challenges. We show that the agent can learn the updated dynamics of the environment over time and then act as it learns, i.e., if the agent is in a region of the state space about which it has updated knowledge, it can avoid being pessimistic. To quantify ``updated knowledge,'' we disintegrate the aleatoric and epistemic uncertainty in the agent's updated belief and show how the agent can use these estimates for decision-making. We compare the proposed approach with the multiple state-of-the-art approaches in decision-making across multiple well-established open-source problems and empirically show that our approach is faster and highly adaptive without sacrificing safety.
翻訳日:2024-01-04 13:36:20 公開日:2024-01-03
# 可視赤外人物再同定のための周波数領域モーダリティ不変特徴学習

Frequency Domain Modality-invariant Feature Learning for Visible-infrared Person Re-Identification ( http://arxiv.org/abs/2401.01839v1 )

ライセンス: Link先を確認
Yulin Li, Tianzhu Zhang, Yongdong Zhang(参考訳) 可視的赤外線人物再識別(VI-ReID)は、可視像と赤外線像との相違により困難である。 既存の手法では、複雑なネットワークアーキテクチャの設計や、モダリティ不変な特徴を学ぶためのメトリック学習の制約に焦点が当てられているが、画像のどの特定の要素がモダリティの不一致の原因かをしばしば見落としている。 本稿では,まず,可視画像と赤外線画像の振幅成分の差がモダリティ不一致の原因となる主要な要因であることを明らかにし,さらに,周波数領域の観点からのモダリティ不一致を低減するための新しい周波数領域モダリティ不変特徴学習フレームワーク(fdmnet)を提案する。 本フレームワークでは,適応振幅フィルタ(IAF)モジュールとPhrase-Preserving Normalization(PPNorm)モジュールという2つの新しいモジュールを導入し,モダリティ不変振幅成分の強化と,画像レベルと特徴レベルの両方においてモダリティ固有成分の抑制を行う。 SYSU-MM01とRegDBの2つの標準ベンチマークによる大規模な実験結果から、FDMNetの最先端手法に対する優れた性能を示す。

Visible-infrared person re-identification (VI-ReID) is challenging due to the significant cross-modality discrepancies between visible and infrared images. While existing methods have focused on designing complex network architectures or using metric learning constraints to learn modality-invariant features, they often overlook which specific component of the image causes the modality discrepancy problem. In this paper, we first reveal that the difference in the amplitude component of visible and infrared images is the primary factor that causes the modality discrepancy and further propose a novel Frequency Domain modality-invariant feature learning framework (FDMNet) to reduce modality discrepancy from the frequency domain perspective. Our framework introduces two novel modules, namely the Instance-Adaptive Amplitude Filter (IAF) module and the Phrase-Preserving Normalization (PPNorm) module, to enhance the modality-invariant amplitude component and suppress the modality-specific component at both the image- and feature-levels. Extensive experimental results on two standard benchmarks, SYSU-MM01 and RegDB, demonstrate the superior performance of our FDMNet against state-of-the-art methods.
翻訳日:2024-01-04 13:35:49 公開日:2024-01-03
# nodec:未知力学系の最適制御のためのニューラルode

NODEC: Neural ODE For Optimal Control of Unknown Dynamical Systems ( http://arxiv.org/abs/2401.01836v1 )

ライセンス: Link先を確認
Cheng Chi(参考訳) 複雑な力学系の制御は、変分解析の枠組みの下で既知の力学と特定の制御対象を最小化することと一般的に関係している。 未知のダイナミクスを持つシステムには、動的モデリングのさらなるステップが必要である。 しかしながら、動的モデリングの不正確さは、結果として生じる制御関数の準最適性をもたらす。 未知の動的システムを制御するための別のアプローチ - 強化学習 — は、値関数近似やポリシー勾配を通じて、コントローラのトレーニングに動的モデリングを折り畳み、環境と広範囲に相互作用するが、データ効率の低下に悩まされる。 そこで我々は,未知の力学系を制御する新しいフレームワークであるNODECを紹介した。 2つの結合したニューラルネットワーク間の興味深い相互作用を通じて、NODECはシステムのダイナミクスと、未知の力学系をターゲット状態へと導く最適な制御を学ぶ。 本実験は未知力学系の最適制御学習におけるnodecの有効性とデータ効率を示す。

Controlling complex dynamical systems is generally associated with minimizing certain control objectives with known dynamics under the variational calculus framework. For systems with unknown dynamics, an additional step of dynamics modeling is required. However, any inaccuracy in dynamics modeling will lead to sub-optimality in the resulting control function. Another set of approaches for controlling unknown dynamical systems - reinforcement learning, folds the dynamics modeling into controller training via value function approximation or policy gradient through extensively interacting with the environment, but it suffers from low data efficiency. To address these, we introduce NODEC, a novel framework for controlling unknown dynamical systems, which combines dynamics modelling and controller training using a coupled neural ODE model. Through an intriguing interplay between the two coupled neural networks, NODEC learns system dynamics as well as optimal controls that guides the unknown dynamical system towards target states. Our experiments demonstrate the effectiveness and data efficiency of NODEC for learning optimal control of unknown dynamical systems.
翻訳日:2024-01-04 13:35:25 公開日:2024-01-03
# コンカレントブレインストーミングと仮説の満足: 拡張検索型生成(r2cbr3h-sr)のための反復的枠組み

Concurrent Brainstorming & Hypothesis Satisfying: An Iterative Framework for Enhanced Retrieval-Augmented Generation (R2CBR3H-SR) ( http://arxiv.org/abs/2401.01835v1 )

ライセンス: Link先を確認
Arash Shahmansoori(参考訳) 本研究は,包括的情報検索の複雑さに対処し,革新的で反復的な検索強化生成システムを提案する。 提案手法は,ベクトル空間駆動型再ランク機構と同時ブレーンストーミングを統合し,関連性の高い文書の検索を高速化し,潜在的クエリ生成の合理化を図る。 このプロセスは、仮説定式化と満足度決定戦略を相乗的に組み合わせて、コンテントの妥当性を判断し、思考に基づく一連のプロンプト技術を活用する。 この統合された仮説満足フェーズは、ユーザクエリが十分に対処されたかどうかを確認するために情報をインテリジェントに蒸留する。 この基準に達すると、システムは出力を簡潔な表現に洗練し、最小の冗長度で概念密度を最大化する。 ワークフローの反復性は、プロセスの効率性と正確性を高める。 重要なことに、ブレインストーミングフェーズにおける並行性は再帰的な操作を著しく加速し、ソリューション満足度への迅速な収束を促進する。 従来の手法と比較して,計算時間とコスト効率が著しく向上したことを示す。 本研究は、知識集約型アプリケーションにおける資源効率の高い情報抽出と抽象化のための新しいベンチマークを定め、知的検索システムにおける最先端を推し進める。

Addressing the complexity of comprehensive information retrieval, this study introduces an innovative, iterative retrieval-augmented generation system. Our approach uniquely integrates a vector-space driven re-ranking mechanism with concurrent brainstorming to expedite the retrieval of highly relevant documents, thereby streamlining the generation of potential queries. This sets the stage for our novel hybrid process, which synergistically combines hypothesis formulation with satisfying decision-making strategy to determine content adequacy, leveraging a chain of thought-based prompting technique. This unified hypothesize-satisfied phase intelligently distills information to ascertain whether user queries have been satisfactorily addressed. Upon reaching this criterion, the system refines its output into a concise representation, maximizing conceptual density with minimal verbosity. The iterative nature of the workflow enhances process efficiency and accuracy. Crucially, the concurrency within the brainstorming phase significantly accelerates recursive operations, facilitating rapid convergence to solution satisfaction. Compared to conventional methods, our system demonstrates a marked improvement in computational time and cost-effectiveness. This research advances the state-of-the-art in intelligent retrieval systems, setting a new benchmark for resource-efficient information extraction and abstraction in knowledge-intensive applications.
翻訳日:2024-01-04 13:35:08 公開日:2024-01-03
# Iterative Mask Filling: Masked Language Modeling を用いた効果的なテキスト拡張手法

Iterative Mask Filling: An Effective Text Augmentation Method Using Masked Language Modeling ( http://arxiv.org/abs/2401.01830v1 )

ライセンス: Link先を確認
Himmet Toprak Kesgin, Mehmet Fatih Amasyali(参考訳) データ拡張は、機械学習モデルのパフォーマンスを改善する効果的な技術である。 しかし、自然言語処理(NLP)ではコンピュータビジョンほど広範に研究されていない。 本稿では,変換器をベースとしたBERTモデルのフィルマスク特性を利用したテキスト拡張手法を提案する。 本手法では,文中の単語を反復的にマスキングし,言語モデル予測に置き換える。 提案手法を様々なNLPタスクで検証した結果,多くのケースで有効であることが判明した。 その結果,既存の拡張手法との比較を行った。 実験の結果,提案手法は,特にトピック分類データセットにおいて,性能が著しく向上することがわかった。

Data augmentation is an effective technique for improving the performance of machine learning models. However, it has not been explored as extensively in natural language processing (NLP) as it has in computer vision. In this paper, we propose a novel text augmentation method that leverages the Fill-Mask feature of the transformer-based BERT model. Our method involves iteratively masking words in a sentence and replacing them with language model predictions. We have tested our proposed method on various NLP tasks and found it to be effective in many cases. Our results are presented along with a comparison to existing augmentation methods. Experimental results show that our proposed method significantly improves performance, especially on topic classification datasets.
翻訳日:2024-01-04 13:34:43 公開日:2024-01-03
# Moonshot:マルチモーダル条件による制御可能なビデオ生成と編集を目指して

Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions ( http://arxiv.org/abs/2401.01827v1 )

ライセンス: Link先を確認
David Junhao Zhang, Dongxu Li, Hung Le, Mike Zheng Shou, Caiming Xiong, Doyen Sahoo(参考訳) 既存のビデオ拡散モデル(VDM)の多くは単なるテキスト条件に限定されている。 そのため、通常は、生成されたビデオの視覚的外観や幾何学的構造を制御できない。 この研究は、画像とテキストのマルチモーダル入力を同時に条件付ける新しいビデオ生成モデルであるMoonshotを提示する。 このモデルはマルチモーダルビデオブロック (MVB) と呼ばれるコアモジュール上に構築されており、ビデオの特徴を表現するための従来の時空間層と、外観条件付けのための画像とテキスト入力に対処するための分離された相互アテンション層で構成されている。 さらに,事前学習済みのイメージ制御ネットモジュールを,事前学習のオーバヘッドを必要とせずに任意に統合できるように,モデルアーキテクチャを慎重に設計した。 実験により、多目的マルチモーダル条件付け機構により、Moonshotは既存のモデルと比較して視覚的品質と時間的一貫性を著しく向上することが示された。 さらに、このモデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用でき、制御可能なビデオ生成の基本的なアーキテクチャとして機能する可能性を明らかにすることができる。 モデルはhttps://github.com/salesforce/LAVIS.comで公開される。

Most existing video diffusion models (VDMs) are limited to mere text conditions. Thereby, they are usually lacking in control over visual appearance and geometry structure of the generated videos. This work presents Moonshot, a new video generation model that conditions simultaneously on multimodal inputs of image and text. The model builts upon a core module, called multimodal video block (MVB), which consists of conventional spatialtemporal layers for representing video features, and a decoupled cross-attention layer to address image and text inputs for appearance conditioning. In addition, we carefully design the model architecture such that it can optionally integrate with pre-trained image ControlNet modules for geometry visual conditions, without needing of extra training overhead as opposed to prior methods. Experiments show that with versatile multimodal conditioning mechanisms, Moonshot demonstrates significant improvement on visual quality and temporal consistency compared to existing models. In addition, the model can be easily repurposed for a variety of generative applications, such as personalized video generation, image animation and video editing, unveiling its potential to serve as a fundamental architecture for controllable video generation. Models will be made public on https://github.com/salesforce/LAVIS.
翻訳日:2024-01-04 13:34:34 公開日:2024-01-03
# 生理学 : LLMベースの理学療法アドバイザ

Physio: An LLM-Based Physiotherapy Advisor ( http://arxiv.org/abs/2401.01825v1 )

ライセンス: Link先を確認
R\'uben Almeida, Hugo Sousa, Lu\'is F. Cunha, Nuno Guimar\~aes, Ricardo Campos and Al\'ipio Jorge(参考訳) 最近の言語モデルの能力は、それらを現実世界のアプリケーションに統合することへの関心を高めた。 しかし、これらのモデルが妥当だが不正確なテキストを生成するという事実は、いくつかの領域での使用を考えると制約となる。 医療は、テキスト生成的信頼性が患者の健康を守るための難しい要件であるドメインの典型例です。 本稿では,身体リハビリテーションのためのチャットベースのアプリケーションであるphysioについて述べる。 physioは、提供された情報をサポートする信頼できる健康情報源を引用しながら、初期診断を行うことができる。 さらに,外部知識データベースを参考にして,リハビリテーション運動や症状緩和のための市販薬を推奨する。 これらの特徴を組み合わせることで、Phyloは言語処理に生成モデルのパワーを活用でき、その応答を信頼性と検証可能なソースで条件付けることができる。 physioのライブデモはhttps://physio.inesctec.ptで見ることができる。

The capabilities of the most recent language models have increased the interest in integrating them into real-world applications. However, the fact that these models generate plausible, yet incorrect text poses a constraint when considering their use in several domains. Healthcare is a prime example of a domain where text-generative trustworthiness is a hard requirement to safeguard patient well-being. In this paper, we present Physio, a chat-based application for physical rehabilitation. Physio is capable of making an initial diagnosis while citing reliable health sources to support the information provided. Furthermore, drawing upon external knowledge databases, Physio can recommend rehabilitation exercises and over-the-counter medication for symptom relief. By combining these features, Physio can leverage the power of generative models for language processing while also conditioning its response on dependable and verifiable sources. A live demo of Physio is available at https://physio.inesctec.pt.
翻訳日:2024-01-04 13:34:15 公開日:2024-01-03
# 量子漁業情報による多体インタラクションの探索

Exploring Many-body Interactions Through Quantum Fisher Information ( http://arxiv.org/abs/2401.01824v1 )

ライセンス: Link先を確認
Pawe{\l} Cie\'sli\'nski, Pawe{\l} Kurzy\'nski, Tomasz Sowi\'nski, Waldemar K{\l}obus, Wies{\l}aw Laskowski(参考訳) 多体相互作用の研究は、量子基盤と情報の両方において重要な意味を持つ。 ハミルトニアンが複数の粒子を同時に結合すると、より高速な絡み合い生成、マルチビットゲートの実装、エラー修正の改善につながる。 このような物理的設定の実現を可能にする量子プラットフォームが増えているため、多体インタラクションリソースの検証を研究することが興味深い。 本研究では,量子フィッシャー情報による高次結合検出の可能性について検討する。 対称で翻訳的に不変な$k$-body Ising-like Hamiltonian の族に対しては、積状態における量子フィッシャー情報の境界を導出する。 相互作用の順序に関する順序のため、与えられたハミルトニアン族から与えられた多体結合を適切な境界の違反を観測することで検出する可能性を実証する。

The investigation of many-body interactions holds significant importance in both quantum foundations and information. Hamiltonians coupling multiple particles at once, beyond others, can lead to a faster entanglement generation, multiqubit gate implementation and improved error correction. As an increasing number of quantum platforms enable the realization of such physical settings, it becomes interesting to study the verification of many-body interaction resources. In this work, we explore the possibility of higher-order couplings detection through the quantum Fisher information. For a family of symmetric and translationally invariant $k$-body Ising-like Hamiltonians, we derive the bounds on the quantum Fisher information in product states. Due to its ordering with respect to the order of interaction, we demonstrate the possibility of detecting many-body couplings for a given Hamiltonian from the discussed family by observing violations of an appropriate bound.
翻訳日:2024-01-04 13:34:00 公開日:2024-01-03
# インストラクショナルビデオのナビゲーションのための経路

Detours for Navigating Instructional Videos ( http://arxiv.org/abs/2401.01823v1 )

ライセンス: Link先を確認
Kumar Ashutosh, Zihui Xue, Tushar Nagarajan, Kristen Grauman(参考訳) 授業映像をナビゲートするためのビデオデトゥール問題を提案する。 ソースビデオと自然言語クエリが、ハウツービデオの現在の実行経路をある方法で変更するように要求されると、要求された変更を満たす関連する'detour video'を見つけることが目的である。 この課題に対処するために,ビデオとテキストの条件付きクエリを用いたハウツーの大規模リポジトリから対象の時間セグメントを抽出する,新しいビデオ言語アプローチであるVidDetoursを提案する。 さらに,ハウツービデオナレーションテキストを活用した,弱い教師付きトレーニングデータを生成する言語ベースのパイプラインを考案する。 提案手法はハウツー調理ビデオの領域に適用され,ユーザが現在のレシピから外して,代替材料やツール,テクニックを用いたステップを見つけることができる。 16kのサンプルをアノテートしたデータセット上で検証した結果,ビデオ検索や質問応答における最善の手法に対して,リコール率が35%以上も向上したことを示す。

We introduce the video detours problem for navigating instructional videos. Given a source video and a natural language query asking to alter the how-to video's current path of execution in a certain way, the goal is to find a related ''detour video'' that satisfies the requested alteration. To address this challenge, we propose VidDetours, a novel video-language approach that learns to retrieve the targeted temporal segments from a large repository of how-to's using video-and-text conditioned queries. Furthermore, we devise a language-based pipeline that exploits how-to video narration text to create weakly supervised training data. We demonstrate our idea applied to the domain of how-to cooking videos, where a user can detour from their current recipe to find steps with alternate ingredients, tools, and techniques. Validating on a ground truth annotated dataset of 16K samples, we show our model's significant improvements over best available methods for video retrieval and question answering, with recall rates exceeding the state of the art by 35%.
翻訳日:2024-01-04 13:33:46 公開日:2024-01-03
# hawkrover:マルチセンサー融合とディープラーニングを用いた自律mm波車両通信試験

HawkRover: An Autonomous mmWave Vehicular Communication Testbed with Multi-sensor Fusion and Deep Learning ( http://arxiv.org/abs/2401.01822v1 )

ライセンス: Link先を確認
Ethan Zhu, Haijian Sun(参考訳) 接続された自動走行車(CAV)は、私たちの日常生活を変えるための変革的な技術になっています。 現在、ミリ波帯は有望なCAV接続ソリューションとして認識されている。 高いデータレートを提供するが、mm波信号の伝搬やモビリティ管理時の高減衰など、多くの課題に直面している。 既存のソリューションでは、パイロット信号を起動してチャネル情報を測定し、信号処理を適用して受信側端に向かって最善の狭いビームを計算し、十分な信号電力を確保する必要がある。 このプロセスにはかなりのオーバーヘッドと時間を要するため、車両には適さない。 本研究では,従来「自動化」に用いられてきたlidar(光検出と測位)やカメラ,超音波などのセンサデータを用いて,mm波の車両間通信を容易にするための自律的かつ低コストなテストベッドを提案する。 直感的には、これらのセンサーは車両の周りに3Dマップを構築することができ、信号伝達経路を推定することができる。 このマルチモーダルデータ融合は、AIとともに、‘コネクテッド’研究において大きな進歩をもたらすことが期待されている。

Connected and automated vehicles (CAVs) have become a transformative technology that can change our daily life. Currently, millimeter-wave (mmWave) bands are identified as the promising CAV connectivity solution. While it can provide high data rate, their realization faces many challenges such as high attenuation during mmWave signal propagation and mobility management. Existing solution has to initiate pilot signal to measure channel information, then apply signal processing to calculate the best narrow beam towards the receiver end to guarantee sufficient signal power. This process takes significant overhead and time, hence not suitable for vehicles. In this study, we propose an autonomous and low-cost testbed to collect extensive co-located mmWave signal and other sensors data such as LiDAR (Light Detection and Ranging), cameras, ultrasonic, etc, traditionally for ``automated'', to facilitate mmWave vehicular communications. Intuitively, these sensors can build a 3D map around the vehicle and signal propagation path can be estimated, eliminating iterative the process via pilot signals. This multimodal data fusion, together with AI, is expected to bring significant advances in ``connected'' research.
翻訳日:2024-01-04 13:33:27 公開日:2024-01-03
# 大規模言語モデルが再学習された概念

Large Language Models Relearn Removed Concepts ( http://arxiv.org/abs/2401.01814v1 )

ライセンス: Link先を確認
Michelle Lo, Shay B. Cohen, Fazl Barez(参考訳) ニューロンプラニングによるモデル編集の進歩は、大きな言語モデルから望ましくない概念を取り除くことを約束する。 しかし、モデルが編集後にプルーニングされた概念を再獲得できるかどうかは不明である。 そこで本研究では, モデルにおける概念再学習を, 再学習中のプルーニングニューロンにおける概念の塩分と類似度を追跡することで評価する。 以上の結果から, モデルでは, 先進的な概念を以前の階層に移動させ, プリードされた概念を類似した意味を持つ素性ニューロンに再配置することで, 性能を迅速に回復できることがわかった。 これは、モデルが多semantic capacitiesを示し、個々のニューロンに古い概念と新しい概念をブレンドできることを示しています。 ニューロンのプルーニングはモデル概念への解釈性を提供するが、本研究はモデル \textit{safety} を改善するための恒久的概念除去の課題を浮き彫りにする。 安全でない概念の再学習を緩和するためのモニタリングと技術開発は、より堅牢なモデル編集のための重要な方向である。 全体として,我々の研究は,概念表現のレジリエンスと流動性を,概念除去後のllmsに強く示しています。

Advances in model editing through neuron pruning hold promise for removing undesirable concepts from large language models. However, it remains unclear whether models have the capacity to reacquire pruned concepts after editing. To investigate this, we evaluate concept relearning in models by tracking concept saliency and similarity in pruned neurons during retraining. Our findings reveal that models can quickly regain performance post-pruning by relocating advanced concepts to earlier layers and reallocating pruned concepts to primed neurons with similar semantics. This demonstrates that models exhibit polysemantic capacities and can blend old and new concepts in individual neurons. While neuron pruning provides interpretability into model concepts, our results highlight the challenges of permanent concept removal for improved model \textit{safety}. Monitoring concept reemergence and developing techniques to mitigate relearning of unsafe concepts will be important directions for more robust model editing. Overall, our work strongly demonstrates the resilience and fluidity of concept representations in LLMs post concept removal.
翻訳日:2024-01-04 13:33:09 公開日:2024-01-03
# 網膜における信号処理:ガングリオン細胞応答予測のための解釈可能なグラフ分類器

Signal Processing in the Retina: Interpretable Graph Classifier to Predict Ganglion Cell Responses ( http://arxiv.org/abs/2401.01813v1 )

ライセンス: Link先を確認
Yasaman Parhizkar, Gene Cheung, Andrew W. Eckford(参考訳) 神経科学において、網膜の神経節細胞は観察シーンにおける視覚的特徴を選択的に検出することによって活性化されるという仮説が一般的である。 神経節細胞の発射は、データトレーニングされたディープニューラルネットワークによって予測できるが、ネットワークは依然として解読できないため、細胞の基盤となる操作についてはほとんど理解できない。 そこで本稿では,視覚刺激に応答してガングリオン細胞の発火を予測するために,解析可能なグラフベースの分類器をデータから学習する。 具体的には、事前に計算された特徴ベクトルを持つグラフノード(視覚事象)間のマハラノビス距離を定義する正の半定値(PSD)計量行列 $\mathbf{M} \succeq 0$ を学習する。 数学的には, 距離行列 $\mathbf{M}$ の目的を, 半定値プログラミング (SDP) 問題として書き直された大きな辺近傍(LMNN)のグラフ適応を用いて定義する。 我々はGershgorin disc perfect alignment (GDPA) linearizationと呼ばれる高速近似を用いて効率よく解く。 学習された計量行列 $\mathbf{M}$ は解釈可能性を提供し、重要な特徴は $\mathbf{M}$ の対角線に沿って識別され、それらの相互関係は対角線外項から推測される。 当社の高速メトリック学習フレームワークは,解釈を必要とするchosen前機能を備えた他の生体システムにも適用可能です。

It is a popular hypothesis in neuroscience that ganglion cells in the retina are activated by selectively detecting visual features in an observed scene. While ganglion cell firings can be predicted via data-trained deep neural nets, the networks remain indecipherable, thus providing little understanding of the cells' underlying operations. To extract knowledge from the cell firings, in this paper we learn an interpretable graph-based classifier from data to predict the firings of ganglion cells in response to visual stimuli. Specifically, we learn a positive semi-definite (PSD) metric matrix $\mathbf{M} \succeq 0$ that defines Mahalanobis distances between graph nodes (visual events) endowed with pre-computed feature vectors; the computed inter-node distances lead to edge weights and a combinatorial graph that is amenable to binary classification. Mathematically, we define the objective of metric matrix $\mathbf{M}$ optimization using a graph adaptation of large margin nearest neighbor (LMNN), which is rewritten as a semi-definite programming (SDP) problem. We solve it efficiently via a fast approximation called Gershgorin disc perfect alignment (GDPA) linearization. The learned metric matrix $\mathbf{M}$ provides interpretability: important features are identified along $\mathbf{M}$'s diagonal, and their mutual relationships are inferred from off-diagonal terms. Our fast metric learning framework can be applied to other biological systems with pre-chosen features that require interpretation.
翻訳日:2024-01-04 13:32:52 公開日:2024-01-03
# LEAP-VO:ビジュアルオドメトリーにおける長期有効点追跡

LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry ( http://arxiv.org/abs/2401.01887v1 )

ライセンス: Link先を確認
Weirong Chen, Le Chen, Rui Wang, Marc Pollefeys(参考訳) 視覚オドメトリーは、視覚入力に基づいて動くカメラの動きを推定する。 既存の手法では、主に2視点の点追跡に焦点をあて、画像シーケンス内のリッチな時間的文脈を無視して、グローバルな動きパターンを無視し、完全な軌道信頼性の評価を行なわないことが多い。 これらの欠点は、隠蔽、動的オブジェクト、低テクスチャ領域を持つシナリオのパフォーマンスを妨げる。 これらの課題に対処するため、Long-term Effective Any Point Tracking (LEAP) モジュールを提示する。 LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。 さらに、LEAPの時間確率的定式化は、分布の更新を学習可能な反復修正モジュールに統合し、ポイントワイドの不確実性について推論する。 これらの特徴に基づき, 咬合やダイナミックシーンの処理に適した頑健な視覚オドメトリシステムである leap-vo を開発した。 当社のマインドフルな統合は,長期的なポイントトラッキングをフロントエンドとして採用することで,新たなプラクティスを示しています。 大規模な実験により、提案されたパイプラインは様々なビジュアルオドメトリーベンチマークで既存のベースラインを大幅に上回っていることが示された。

Visual odometry estimates the motion of a moving camera based on visual input. Existing methods, mostly focusing on two-view point tracking, often ignore the rich temporal context in the image sequence, thereby overlooking the global motion patterns and providing no assessment of the full trajectory reliability. These shortcomings hinder performance in scenarios with occlusion, dynamic objects, and low-texture areas. To address these challenges, we present the Long-term Effective Any Point Tracking (LEAP) module. LEAP innovatively combines visual, inter-track, and temporal cues with mindfully selected anchors for dynamic track estimation. Moreover, LEAP's temporal probabilistic formulation integrates distribution updates into a learnable iterative refinement module to reason about point-wise uncertainty. Based on these traits, we develop LEAP-VO, a robust visual odometry system adept at handling occlusions and dynamic scenes. Our mindful integration showcases a novel practice by employing long-term point tracking as the front-end. Extensive experiments demonstrate that the proposed pipeline significantly outperforms existing baselines across various visual odometry benchmarks.
翻訳日:2024-01-04 13:25:52 公開日:2024-01-03
# 音声からフォトリアルへ:会話で人間を合成する

From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations ( http://arxiv.org/abs/2401.01885v1 )

ライセンス: Link先を確認
Evonne Ng, Javier Romero, Timur Bagautdinov, Shaojie Bai, Trevor Darrell, Angjoo Kanazawa, Alexander Richard(参考訳) 本稿では,dyadicインタラクションの対話的ダイナミクスに応じたジェスチャーによるフルボディフォトリアリスティックアバター生成のためのフレームワークを提案する。 音声音声が与えられた場合, 顔, 体, 手など個人に対して, ジェストラル運動の複数の可能性を示す。 本手法の鍵は,ベクトル量子化からのサンプル多様性の利点と拡散によって得られる高周波細部を組み合わせることで,よりダイナミックで表現力に富む運動を生成することである。 ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。 そこで本研究では,まず,フォトリアリスティックなリコンストラクションを可能にする対話型データセットを提案する。 実験により,モデルが適切な多様なジェスチャを生成し,拡散法とvq法の両方に匹敵することを示した。 さらに,我々の知覚的評価は,対話的ジェスチャーにおける微妙な動きの詳細を正確に評価する上で,フォトリアリズム(対メッシュ)の重要性を強調している。 コードとデータセットはオンラインで入手できる。

We present a framework for generating full-bodied photorealistic avatars that gesture according to the conversational dynamics of a dyadic interaction. Given speech audio, we output multiple possibilities of gestural motion for an individual, including face, body, and hands. The key behind our method is in combining the benefits of sample diversity from vector quantization with the high-frequency details obtained through diffusion to generate more dynamic, expressive motion. We visualize the generated motion using highly photorealistic avatars that can express crucial nuances in gestures (e.g. sneers and smirks). To facilitate this line of research, we introduce a first-of-its-kind multi-view conversational dataset that allows for photorealistic reconstruction. Experiments show our model generates appropriate and diverse gestures, outperforming both diffusion- and VQ-only methods. Furthermore, our perceptual evaluation highlights the importance of photorealism (vs. meshes) in accurately assessing subtle motion details in conversational gestures. Code and dataset available online.
翻訳日:2024-01-04 13:25:33 公開日:2024-01-03
# サイバースリート・インテリジェンスによる時間的攻撃パターンのマイニング

Mining Temporal Attack Patterns from Cyberthreat Intelligence Reports ( http://arxiv.org/abs/2401.01883v1 )

ライセンス: Link先を確認
Md Rayhanur Rahman, Brandon Wroblewski, Quinn Matthews, Brantley Morgan, Tim Menzies, Laurie Williams(参考訳) サイバー攻撃から守るには、実践者は高いレベルの敵対行動を行う必要がある。 サイバーテロ情報(cyberthreat intelligence, cti) 過去のサイバー攻撃事件に関する報告は、時間に関する悪意ある行動の連鎖を記述している。 サイバー攻撃の繰り返しを避けるために、実践者は積極的に繰り返し起こる行動の連鎖を識別し、防御しなければならない。 アクション間のパターンの自動マイニングは、過去のサイバー攻撃の敵対的行動に関する構造化および実行可能な情報を提供する。 本研究の目的は,サイバー脅威情報報告からの時間的攻撃パターンをマイニングすることで,サイバー攻撃に対するセキュリティ実践者の優先順位付けと積極的な防御を支援することである。 そこで本研究では,過去のサイバー攻撃に関するcyberthreat intelligence (cti) レポートから時間的攻撃パターンをマイニングする自動パイプラインchronoctiを提案する。 chronoctiを構築するために、時間攻撃パターンの基底真理データセットを構築し、最先端の大規模言語モデル、自然言語処理、機械学習技術を適用する。 我々はChronoCTIを713のCTIレポートに適用し、124の時間的攻撃パターンを特定し、9つのパターンカテゴリに分類した。 最も一般的なパターンカテゴリは、攻撃を開始するために悪意のあるコードを実行し、その後、被害者ネットワークのマルウェア対策システムをバイパスすることである。 監視パターンに基づいて,サイバーセキュリティのベストプラクティスについてユーザを訓練し,機能に制限のある不変なオペレーティングシステムを導入し,マルチユーザ認証を実施することを推奨する。 さらに,ChronoCTIの自動採鉱機能を活用することや,繰り返し発生する攻撃パターンに対する設計対策を推奨する。

Defending from cyberattacks requires practitioners to operate on high-level adversary behavior. Cyberthreat intelligence (CTI) reports on past cyberattack incidents describe the chain of malicious actions with respect to time. To avoid repeating cyberattack incidents, practitioners must proactively identify and defend against recurring chain of actions - which we refer to as temporal attack patterns. Automatically mining the patterns among actions provides structured and actionable information on the adversary behavior of past cyberattacks. The goal of this paper is to aid security practitioners in prioritizing and proactive defense against cyberattacks by mining temporal attack patterns from cyberthreat intelligence reports. To this end, we propose ChronoCTI, an automated pipeline for mining temporal attack patterns from cyberthreat intelligence (CTI) reports of past cyberattacks. To construct ChronoCTI, we build the ground truth dataset of temporal attack patterns and apply state-of-the-art large language models, natural language processing, and machine learning techniques. We apply ChronoCTI on a set of 713 CTI reports, where we identify 124 temporal attack patterns - which we categorize into nine pattern categories. We identify that the most prevalent pattern category is to trick victim users into executing malicious code to initiate the attack, followed by bypassing the anti-malware system in the victim network. Based on the observed patterns, we advocate organizations to train users about cybersecurity best practices, introduce immutable operating systems with limited functionalities, and enforce multi-user authentications. Moreover, we advocate practitioners to leverage the automated mining capability of ChronoCTI and design countermeasures against the recurring attack patterns.
翻訳日:2024-01-04 13:25:14 公開日:2024-01-03
# ベスト・オブ・nアライメント政策に関する理論的保証

Theoretical guarantees on the best-of-n alignment policy ( http://arxiv.org/abs/2401.01879v1 )

ライセンス: Link先を確認
Ahmad Beirami and Alekh Agarwal and Jonathan Berant and Alexander D'Amour, and Jacob Eisenstein and Chirag Nagpal and Ananda Theertha Suresh(参考訳) 生成モデルのアライメントをシンプルかつ効果的に行う方法は、n$サンプルを基本ポリシーから抽出し、報酬関数に基づいてランク付けし、最高ランクのものを選択できる、ベスト・オブ・n$ポリシーである。 文献でよく用いられる分析式は、KL が最良$n$ポリシーと基本ポリシーの間の分岐は$\log (n)(n-1)/n であると主張している。 $ この主張の妥当性を否定し、それが実際のKL発散の上限であることを示す。 我々はまた、この上限の厳密さを異なる体制で探求する。 最後に,klの発散に対する新しい推定器を提案し,いくつかの例を通じて密接な近似を与えることを実証的に示す。

A simple and effective method for the alignment of generative models is the best-of-$n$ policy, where $n$ samples are drawn from a base policy, and ranked based on a reward function, and the highest ranking one is selected. A commonly used analytical expression in the literature claims that the KL divergence between the best-of-$n$ policy and the base policy is equal to $\log (n) - (n-1)/n.$ We disprove the validity of this claim, and show that it is an upper bound on the actual KL divergence. We also explore the tightness of this upper bound in different regimes. Finally, we propose a new estimator for the KL divergence and empirically show that it provides a tight approximation through a few examples.
翻訳日:2024-01-04 13:24:45 公開日:2024-01-03
# サーファクタントマルチプロパティ予測のためのグラフニューラルネットワーク

Graph Neural Networks for Surfactant Multi-Property Prediction ( http://arxiv.org/abs/2401.01874v1 )

ライセンス: Link先を確認
Christoforos Brozos, Jan G. Rittig, Sandip Bhattacharya, Elie Akanny, Christina Kohlmann, Alexander Mitsos(参考訳) 界面活性剤は化粧品、洗剤、油回収、ドラッグデリバリーシステムなど、様々な産業分野で重要である。 そのため, 界面活性剤に対するQSPRモデルの開発が数多く行われている。 それぞれの予測モデルは典型的には1つの界面活性剤クラス(主に非イオン)に焦点を当てる。 グラフニューラルネットワーク (GNN) は, イオン液体, 高分子, 薬物の物性予測において, 高い予測性能を示した。 特に界面活性剤について、GNNは、ミセル化に関連する重要な界面活性剤である臨界ミセル濃度(CMC)を予測できる。 QSPRとGNNモデルの予測能力の重要な要素は、トレーニングに利用可能なデータである。 広範な文献検索に基づいて、429分子のCMCデータベースと164分子の発泡に関連する別の界面活性剤である表面過剰濃度(Gamma$$_{m}$)のための最初の大規模なデータ収集を作成する。 次に,CMCと$\Gamma$$_{m}$を予測するためのGNNモデルを開発し,シングルタスク学習,マルチタスク学習,およびアンサンブル学習とトランスファー学習の異なる学習戦略について検討する。 すべての$\gamma$$_{m}$とcmcデータでトレーニングされたアンサンブル学習を備えたマルチタスクgnnが最適であることがわかった。 最後に, 工業レベルの純成分界面活性剤を一般化するcmcモデルの性能試験を行った。 GNNはCMCの高精度な予測を行い、将来の産業応用の可能性を示している。

Surfactants are of high importance in different industrial sectors such as cosmetics, detergents, oil recovery and drug delivery systems. Therefore, many quantitative structure-property relationship (QSPR) models have been developed for surfactants. Each predictive model typically focuses on one surfactant class, mostly nonionics. Graph Neural Networks (GNNs) have exhibited a great predictive performance for property prediction of ionic liquids, polymers and drugs in general. Specifically for surfactants, GNNs can successfully predict critical micelle concentration (CMC), a key surfactant property associated with micellization. A key factor in the predictive ability of QSPR and GNN models is the data available for training. Based on extensive literature search, we create the largest available CMC database with 429 molecules and the first large data collection for surface excess concentration ($\Gamma$$_{m}$), another surfactant property associated with foaming, with 164 molecules. Then, we develop GNN models to predict the CMC and $\Gamma$$_{m}$ and we explore different learning approaches, i.e., single- and multi-task learning, as well as different training strategies, namely ensemble and transfer learning. We find that a multi-task GNN with ensemble learning trained on all $\Gamma$$_{m}$ and CMC data performs best. Finally, we test the ability of our CMC model to generalize on industrial grade pure component surfactants. The GNN yields highly accurate predictions for CMC, showing great potential for future industrial applications.
翻訳日:2024-01-04 13:24:32 公開日:2024-01-03
# マグノンディック超ラジカル相転移の観測

Observation of the Magnonic Dicke Superradiant Phase Transition ( http://arxiv.org/abs/2401.01873v1 )

ライセンス: Link先を確認
Dasom Kim, Sohail Dasgupta, Xiaoxuan Ma, Joong-Mok Park, Hao-Tian Wei, Liang Luo, Jacques Doumani, Xinwei Li, Wanting Yang, Di Cheng, Richard H. J. Kim, Henry O. Everitt, Shojiro Kimura, Hiroyuki Nojiri, Jigang Wang, Shixun Cao, Motoaki Bamba, Kaden R. A. Hazzard, Junichiro Kono(参考訳) 単一モードキャビティ光子と結合した2レベル原子は、結合強度が臨界値を超えると量子相転移を示すと予測され、原子分極とフォトニック場がゼロ温度でも外部駆動なしで有限となる相に入る。 しかし、この現象である超放射相転移(SRPT)は、ハミルトニアンにおける反磁性項の存在により、ノーゴー定理によって禁止される。 ここでは、erfeo$_3$におけるマグノニックsrptの分光学的証拠を示し、フォトニックsrptにおけるフォトニックモード(2レベル原子)の役割は、fe$^{3+}$マグノンモード(er$^{3+}$スピン)によって演奏される。 Fe$^{3+}$-Er$^{3+}$交換結合における反磁性項の欠如は、no-go定理が適用されないことを保証している。 テラヘルツとギガヘルツの磁気分光実験では、臨界点における2つのスピン-マグノンハイブリッド化モードのSRPT (kink) と軟化の符号が明らかにされた。

Two-level atoms coupled with single-mode cavity photons are predicted to exhibit a quantum phase transition when the coupling strength exceeds a critical value, entering a phase in which atomic polarization and photonic field are finite even at zero temperature and without external driving. However, this phenomenon, the superradiant phase transition (SRPT), is forbidden by a no-go theorem due to the existence of the diamagnetic term in the Hamiltonian. Here, we present spectroscopic evidence for a magnonic SRPT in ErFeO$_3$, where the role of the photonic mode (two-level atoms) in the photonic SRPT is played by an Fe$^{3+}$ magnon mode (Er$^{3+}$ spins). The absence of the diamagnetic term in the Fe$^{3+}$-Er$^{3+}$ exchange coupling ensures that the no-go theorem does not apply. Terahertz and gigahertz magnetospectroscopy experiments revealed the signatures of the SRPT -- a kink and a softening, respectively, of two spin-magnon hybridized modes at the critical point.
翻訳日:2024-01-04 13:24:09 公開日:2024-01-03
# 対称性に基づく学習の難しさについて

On the hardness of learning under symmetries ( http://arxiv.org/abs/2401.01869v1 )

ライセンス: Link先を確認
Bobak T. Kiani, Thien Le, Hannah Lawrence, Stefanie Jegelka, Melanie Weber(参考訳) 勾配降下による同変ニューラルネットワークの学習問題について検討する。 既知の対称性(共分散)をニューラルネットワークに組み込むことは、生物学からコンピュータビジョンまで、学習パイプラインの性能を実証的に改善した。 しかし、リッチで独立した学習理論の研究は、勾配勾配を含むフレームワークである相関統計クエリー(CSQ)モデルにおいて、浅層で完全に接続された(非対称)ネットワークを実際に学習することが指数関数的に複雑であることを示した。 既知の問題対称性は、勾配降下を伴うニューラルネットワークの学習の基本的な困難さを緩和するのに十分か? 私たちは否定的にこの質問に答える。 特に、浅いグラフニューラルネット、畳み込みネットワーク、不変多項式、および置換部分群に対するフレーム平均ネットワークに下界を与え、これらはすべて関連する入力次元において過度または指数的にスケールする。 したがって、対称性によって与えられる重要な帰納的バイアスにもかかわらず、勾配降下によって等価ニューラルネットワークで表される関数の完全なクラスを実際に学ぶことは困難である。

We study the problem of learning equivariant neural networks via gradient descent. The incorporation of known symmetries ("equivariance") into neural nets has empirically improved the performance of learning pipelines, in domains ranging from biology to computer vision. However, a rich yet separate line of learning theoretic research has demonstrated that actually learning shallow, fully-connected (i.e. non-symmetric) networks has exponential complexity in the correlational statistical query (CSQ) model, a framework encompassing gradient descent. In this work, we ask: are known problem symmetries sufficient to alleviate the fundamental hardness of learning neural nets with gradient descent? We answer this question in the negative. In particular, we give lower bounds for shallow graph neural networks, convolutional networks, invariant polynomials, and frame-averaged networks for permutation subgroups, which all scale either superpolynomially or exponentially in the relevant input dimension. Therefore, in spite of the significant inductive bias imparted via symmetry, actually learning the complete classes of functions represented by equivariant neural networks via gradient descent remains hard.
翻訳日:2024-01-04 13:23:45 公開日:2024-01-03
# FMCWレーダを用いた野生におけるステップ長計測

Step length measurement in the wild using FMCW radar ( http://arxiv.org/abs/2401.01868v1 )

ライセンス: Link先を確認
Parthipan Siva, Alexander Wong, Patricia Hewston, George Ioannidis, Dr. Jonathan Adachi, Dr. Alexander Rabinovich, Andrea Lee, Alexandra Papaioannou(参考訳) 高齢化に伴い、高齢者が高齢化できるように、多数の補助・監視技術が開発中である。 転倒、入院等の危険因子を予測し、早期介入が重要である場所の老化を容易にする。 リスク予測のための環境モニタリングに関する研究の多くは、レーダーのようなプライバシー保護センサーを利用して歩行速度の分析に重点を置いている。 歩行速度に加えて歩幅のモニタリングがリスクを予測する上で重要であるという説得力のある証拠にもかかわらず、レーダベースの手法は家庭における歩幅測定を探求していない。 さらに、レーダーを用いた歩幅測定実験は、健康な被験者がほとんどいない概念研究の証明に限られている。 このギャップに対処するため,レーダポイント雲を用いた検出・追跡に基づくホーム用レーダベースステップ長測定システムを提案し,続いてトルソのドップラー速度プロファイリングを行い,家庭内のステップ長を求める。 提案法は,35歳以上の高齢者を対象とする臨床環境下で評価し,その妥当性を確認した。 また, 臨床評価に参加した高齢者21名を対象に, 一般家庭で検討した。 レーダを用いた歩幅測定法は金標準のZeno Walkway Gait Analysis Systemと比較し, 臨床的に4.5cm/8.3%の誤差を示した。 さらに,無制御家庭において高い信頼性を示した(icc(2,k)=0.91,95%ci 0.82から0.96)。 この方法は、家庭の計測と気候評価の間に強い合意(icc(3,k)=0.81 (95% ci 0.53 to 0.92))で示されるように、制御されていない家庭でも正確であることが証明された。

With an aging population, numerous assistive and monitoring technologies are under development to enable older adults to age in place. To facilitate aging in place predicting risk factors such as falls, and hospitalization and providing early interventions are important. Much of the work on ambient monitoring for risk prediction has centered on gait speed analysis, utilizing privacy-preserving sensors like radar. Despite compelling evidence that monitoring step length, in addition to gait speed, is crucial for predicting risk, radar-based methods have not explored step length measurement in the home. Furthermore, laboratory experiments on step length measurement using radars are limited to proof of concept studies with few healthy subjects. To address this gap, a radar-based step length measurement system for the home is proposed based on detection and tracking using radar point cloud, followed by Doppler speed profiling of the torso to obtain step lengths in the home. The proposed method was evaluated in a clinical environment, involving 35 frail older adults, to establish its validity. Additionally, the method was assessed in people's homes, with 21 frail older adults who had participated in the clinical assessment. The proposed radar-based step length measurement method was compared to the gold standard Zeno Walkway Gait Analysis System, revealing a 4.5cm/8.3% error in a clinical setting. Furthermore, it exhibited excellent reliability (ICC(2,k)=0.91, 95% CI 0.82 to 0.96) in uncontrolled home settings. The method also proved accurate in uncontrolled home settings, as indicated by a strong agreement (ICC(3,k)=0.81 (95% CI 0.53 to 0.92)) between home measurements and in-clinic assessments.
翻訳日:2024-01-04 13:23:25 公開日:2024-01-03
# データセットの難易度と誘導バイアスの役割

Dataset Difficulty and the Role of Inductive Bias ( http://arxiv.org/abs/2401.01867v1 )

ライセンス: Link先を確認
Devin Kwok, Nikhil Anand, Jonathan Frankle, Gintare Karolina Dziugaite, David Rolnick(参考訳) データセットのプルーニングと欠陥識別の目標によって、データセット内の個々のサンプルを評価するための、成長するメソッドのボディが開発されている。 これらの手法は「例難易度スコア」と呼ばれ、例のランク付けや分類に一般的に用いられるが、異なるトレーニング実行、スコア付け方法、モデルアーキテクチャ間のランキングの一貫性は一般に不明である。 これらのランダムな効果と制御された効果により、どのようにランキングが変化するかを決定するために、様々なランとモデルアーキテクチャの異なるスコアの定式化を体系的に比較する。 スコアは、モデルの個々の実行時よりもノイズが多く、難易度という単一の概念と強く関連しており、特定のモデルアーキテクチャの帰納的バイアスに対して高い感度から非感受性まで、幅広い例が示されています。 統計遺伝学を参考に,いくつかの敏感な例を用いたフィンガープリントモデル構築法を開発した。 これらの知見は, スコアの一貫性の最大化(例えば, 適切なスコアリング方法, ラン数, サンプルのサブセットの選択など)を指導し, 将来的なスコア評価の総合的ベースラインを確立する。

Motivated by the goals of dataset pruning and defect identification, a growing body of methods have been developed to score individual examples within a dataset. These methods, which we call "example difficulty scores", are typically used to rank or categorize examples, but the consistency of rankings between different training runs, scoring methods, and model architectures is generally unknown. To determine how example rankings vary due to these random and controlled effects, we systematically compare different formulations of scores over a range of runs and model architectures. We find that scores largely share the following traits: they are noisy over individual runs of a model, strongly correlated with a single notion of difficulty, and reveal examples that range from being highly sensitive to insensitive to the inductive biases of certain model architectures. Drawing from statistical genetics, we develop a simple method for fingerprinting model architectures using a few sensitive examples. These findings guide practitioners in maximizing the consistency of their scores (e.g. by choosing appropriate scoring methods, number of runs, and subsets of examples), and establishes comprehensive baselines for evaluating scores in the future.
翻訳日:2024-01-04 13:22:57 公開日:2024-01-03
# 言語モデルの視覚的チェックアップ

A Vision Check-up for Language Models ( http://arxiv.org/abs/2401.01862v1 )

ライセンス: Link先を確認
Pratyusha Sharma, Tamar Rott Shaham, Manel Baradad, Stephanie Fu, Adrian Rodriguez-Munoz, Shivam Duggal, Phillip Isola, Antonio Torralba(参考訳) 文字列間の関係をモデル化する学習は、視覚世界に関する大きな言語モデル(LLM)に何を教えるのか? 複雑化に伴う視覚概念の生成と認識を行うLLMの能力を体系的に評価し,テキストのモデルを用いて視覚表現学習システムをどのように訓練するかを実証する。 言語モデルにはピクセルとして視覚情報を消費または出力する能力が欠けているため、私たちはコードを使用して画像を表現する。 LLM生成画像は自然画像のようには見えないが、画像生成結果とこれらの生成画像の補正能力は、文字列の正確なモデリングが視覚世界の多くの側面について言語モデルを教えることができることを示している。 さらに,テキストモデルを用いた画像を用いた自己教師あり視覚表現学習実験では,自然画像の意味的評価をllmのみで行える視覚モデルの学習の可能性を強調した。

What does learning to model relationships between strings teach large language models (LLMs) about the visual world? We systematically evaluate LLMs' abilities to generate and recognize an assortment of visual concepts of increasing complexity and then demonstrate how a preliminary visual representation learning system can be trained using models of text. As language models lack the ability to consume or output visual information as pixels, we use code to represent images in our study. Although LLM-generated images do not look like natural images, results on image generation and the ability of models to correct these generated images indicate that precise modeling of strings can teach language models about numerous aspects of the visual world. Furthermore, experiments on self-supervised visual representation learning, utilizing images generated with text models, highlight the potential to train vision models capable of making semantic assessments of natural images using just LLMs.
翻訳日:2024-01-04 13:22:36 公開日:2024-01-03
# idと旅行文書の合成データセット

Synthetic dataset of ID and Travel Document ( http://arxiv.org/abs/2401.01858v1 )

ライセンス: Link先を確認
Carlos Boned and Maxime Talarmain and Nabil Ghanmi and Guillaume Chiron and Sanket Biswas and Ahmad Montaser Awal and Oriol Ramos Terrades(参考訳) 本稿では、SIDTDと呼ばれるIDおよび旅行文書の合成データセットを提案する。 SIDTDデータセットは、偽ID文書検出システムのトレーニングと評価を支援する。 このようなデータセットは、IDドキュメントに個人情報が含まれており、実際のドキュメントの公開データセットを公開できないため、必須になっている。 さらに、偽造文書は正当性に比較して不足しており、その生成方法が不正行為者によって異なるため、高い変動率のクラスが生じる。 本稿では,このデータセット上で最先端モデルをトレーニングし,大規模だがプライベートなデータセットで達成した性能と比較する。 このデータセットの作成は、画像分析コミュニティがID文書検証のタスクの進捗を文書化するのに役立ちます。

This paper presents a new synthetic dataset of ID and travel documents, called SIDTD. The SIDTD dataset is created to help training and evaluating forged ID documents detection systems. Such a dataset has become a necessity as ID documents contain personal information and a public dataset of real documents can not be released. Moreover, forged documents are scarce, compared to legit ones, and the way they are generated varies from one fraudster to another resulting in a class of high intra-variability. In this paper we trained state-of-the-art models on this dataset and we compare them to the performance achieved in larger, but private, datasets. The creation of this dataset will help to document image analysis community to progress in the task of ID document verification.
翻訳日:2024-01-04 13:22:21 公開日:2024-01-03
# 未知文脈分布をもつコンテキストバンディットの最適クロスラーニング

Optimal cross-learning for contextual bandits with unknown context distributions ( http://arxiv.org/abs/2401.01857v1 )

ライセンス: Link先を確認
Jon Schneider, Julian Zimmert(参考訳) 本稿では,学習者が現在ラウンドのコンテキストだけでなく,可能なすべてのコンテキストで行う行動の損失を観察するバルセイロ等の「クロスラーニング」設定における文脈的バンディットアルゴリズムの設計問題を考察する。 具体的には,損失が敵対的に選択され,文脈が未知の分布からサンプリングされる状況について考察する。 この設定では、コンテキストの個数とは無関係に$\widetilde{O}(\sqrt{TK})$の後悔境界をほぼ緊密に(対数的因子まで)持つ効率的なアルゴリズムを提供することで、バルセイロらのオープンな問題を解く。 その結果、初値オークション(未知値分布)や睡眠バンディットに確率的行動セットで入札する学習の問題に対する、最初の厳密な後悔の限界を得ることができた。 本アルゴリズムのコアとなるのは,未知分布の推定とアルゴリズムが実行する動作との相関を除去する手段として,複数のエポックにまたがる学習アルゴリズムの実行をコーディネートする新しい手法である。 この手法は、未知の文脈分布の推定を含む他の学習問題に対して独立した関心を持つ可能性がある。

We consider the problem of designing contextual bandit algorithms in the ``cross-learning'' setting of Balseiro et al., where the learner observes the loss for the action they play in all possible contexts, not just the context of the current round. We specifically consider the setting where losses are chosen adversarially and contexts are sampled i.i.d. from an unknown distribution. In this setting, we resolve an open problem of Balseiro et al. by providing an efficient algorithm with a nearly tight (up to logarithmic factors) regret bound of $\widetilde{O}(\sqrt{TK})$, independent of the number of contexts. As a consequence, we obtain the first nearly tight regret bounds for the problems of learning to bid in first-price auctions (under unknown value distributions) and sleeping bandits with a stochastic action set. At the core of our algorithm is a novel technique for coordinating the execution of a learning algorithm over multiple epochs in such a way to remove correlations between estimation of the unknown distribution and the actions played by the algorithm. This technique may be of independent interest for other learning problems involving estimation of an unknown context distribution.
翻訳日:2024-01-04 13:22:09 公開日:2024-01-03
# 変圧器ニューラル自己回帰流

Transformer Neural Autoregressive Flows ( http://arxiv.org/abs/2401.01855v1 )

ライセンス: Link先を確認
Massimiliano Patacchiola, Aliaksandra Shysheya, Katja Hofmann, Richard E. Turner(参考訳) 機械学習における中心的な問題である密度推定は正規化フロー(NF)を用いて行うことができる。 NF は可逆変換の列を構成するので、複素対象の分布は変数の定理の変化を利用して単純なものへと変換される。 神経自己回帰流 (NAFs) とブロック神経自己回帰流 (B-NAFs) は間違いなくNFファミリーの最も永続的な流れである。 しかし、ネットワーク構造に課される制約のため、スケーラビリティの問題やトレーニングの不安定さに苦しむ。 本稿では,トランスフォーマーニューラルオートレグレッシブフロー (T-NAF) と呼ばれる新しいタイプのニューラルフローを定義するためにトランスフォーマーを活用することで,これらの課題に対する新しい解決策を提案する。 T-NAFは、ランダム変数の各次元を個別の入力トークンとして扱い、アテンションマスキングを使用して自己回帰的制約を強制する。 我々は、トランスフォーマーが可逆変換のパラメータを出力する、償却に触発されたアプローチを取る。 実験の結果、UCIベンチマークから得られた複数のデータセットで、T-NAFはNAFとB-NAFを一貫して比較または比較した。 注目すべきは、T-NAFは、複数のフローを構成することなく、従来のアプローチよりも桁違いに少ないパラメータでこれらの結果を達成することである。

Density estimation, a central problem in machine learning, can be performed using Normalizing Flows (NFs). NFs comprise a sequence of invertible transformations, that turn a complex target distribution into a simple one, by exploiting the change of variables theorem. Neural Autoregressive Flows (NAFs) and Block Neural Autoregressive Flows (B-NAFs) are arguably the most perfomant members of the NF family. However, they suffer scalability issues and training instability due to the constraints imposed on the network structure. In this paper, we propose a novel solution to these challenges by exploiting transformers to define a new class of neural flows called Transformer Neural Autoregressive Flows (T-NAFs). T-NAFs treat each dimension of a random variable as a separate input token, using attention masking to enforce an autoregressive constraint. We take an amortization-inspired approach where the transformer outputs the parameters of an invertible transformation. The experimental results demonstrate that T-NAFs consistently match or outperform NAFs and B-NAFs across multiple datasets from the UCI benchmark. Remarkably, T-NAFs achieve these results using an order of magnitude fewer parameters than previous approaches, without composing multiple flows.
翻訳日:2024-01-04 13:21:43 公開日:2024-01-03
# 多言語性のピンチによる多言語指導チューニング

Multilingual Instruction Tuning With Just a Pinch of Multilinguality ( http://arxiv.org/abs/2401.01854v1 )

ライセンス: Link先を確認
Uri Shaham, Jonathan Herzig, Roee Aharoni, Idan Szpektor, Reut Tsarfaty, Matan Eyal(参考訳) 命令調整型大規模言語モデル(LLM)がグローバルに普及するにつれ、複数の言語で命令に従う能力はますます重要になっている。 有望なアプローチのひとつが言語間転送(cross-lingual transfer)で、モデルが別の言語で微調整することで、ある言語上の特定の機能を取得する。 本研究では,多言語LLMの命令チューニングにおける多言語性が言語間の命令追従に与える影響について検討する。 まず、多くの言語が単言語チューニングから他の言語に命令追従機能を転送していることを示す。 さらに、英語のチューニングセットにおける40の多言語例のみが、チューニング中の目視言語と目視言語の両方において、多言語命令追従を大幅に改善していることがわかった。 一般に,多言語混合語でチューニングされたモデルが,単言語で調整されたモデルと比較して,複数の言語で比較して同等あるいは優れた性能を示すのが観察される。 最後に、命令チューニングセットの言語数が1から2,3,4に増加すると、言語間の一般化が増加することが分かる。 以上の結果から,多言語命令調整モデルの構築は,多言語命令応答のごくわずかなセットで行うことができることが示唆された。

As instruction-tuned large language models (LLMs) gain global adoption, their ability to follow instructions in multiple languages becomes increasingly crucial. One promising approach is cross-lingual transfer, where a model acquires specific functionality on some language by finetuning on another language. In this work, we investigate how multilinguality during instruction tuning of a multilingual LLM affects instruction-following across languages. We first show that many languages transfer some instruction-following capabilities to other languages from even monolingual tuning. Furthermore, we find that only 40 multilingual examples in an English tuning set substantially improve multilingual instruction-following, both in seen and unseen languages during tuning. In general, we observe that models tuned on multilingual mixtures exhibit comparable or superior performance in several languages compared to monolingually tuned models, despite training on 10x fewer examples in those languages. Finally, we find that increasing the number of languages in the instruction tuning set from 1 to only 2, 3, or 4 increases cross-lingual generalization. Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instruction-responses.
翻訳日:2024-01-04 13:21:19 公開日:2024-01-03
# トレーニングのパワー:ニューラルネットワークのセットアップの違いがエネルギー需要に与える影響

The Power of Training: How Different Neural Network Setups Influence the Energy Demand ( http://arxiv.org/abs/2401.01851v1 )

ライセンス: Link先を確認
Daniel Gei{\ss}ler, Bo Zhou, Mengxi Liu, Sungho Suh, Paul Lukowicz(参考訳) 本研究は,機械学習学習体制と学習パラダイムの変動が,対応するエネルギー消費に与える影響について検討する。 高性能ハードウェアにおけるデータ可用性とイノベーションの増大は、洗練されたモデルのトレーニングを促進する一方で、エネルギー消費と二酸化炭素排出に対する認識の薄れを支えている。 そこで本研究の目的は,バッチサイズを超える学習率から知識伝達に至るまで,一般的なトレーニングパラメータやプロセスのエネルギー的影響を意識することである。 異なるハイパーパラメータ初期化を持つ複数のセットアップを2つの異なるハードウェア構成で評価し、有意義な結果を得る。 予備訓練とマルチタスクトレーニングに関する実験は、ベースラインの結果に基づいて行われ、持続可能な機械学習への可能性を決定する。

This work examines the effects of variations in machine learning training regimes and learning paradigms on the corresponding energy consumption. While increasing data availability and innovation in high-performance hardware fuels the training of sophisticated models, it also supports the fading perception of energy consumption and carbon emission. Therefore, the goal of this work is to create awareness about the energy impact of general training parameters and processes, from learning rate over batch size to knowledge transfer. Multiple setups with different hyperparameter initializations are evaluated on two different hardware configurations to obtain meaningful results. Experiments on pretraining and multitask training are conducted on top of the baseline results to determine their potential towards sustainable machine learning.
翻訳日:2024-01-04 13:20:58 公開日:2024-01-03
# 脳条件型マルチモーダル合成:調査と分類

Brain-Conditional Multimodal Synthesis: A Survey and Taxonomy ( http://arxiv.org/abs/2401.00430v2 )

ライセンス: Link先を確認
Weijian Mai, Jian Zhang, Pengfei Fang, Zhijun Zhang(参考訳) 人工知能生成コンテンツ(AIGC)の時代において、条件付きマルチモーダル合成技術(例えば、テキスト・トゥ・イメージ、テキスト・トゥ・ビデオ、テキスト・トゥ・オーディオ)は、現実の世界における自然なコンテンツを徐々に作り直す。 マルチモーダル合成技術の鍵は、異なるモダリティ間のマッピング関係を確立することである。 脳信号は、脳が外部情報をどのように解釈するかの潜在的反映として機能し、様々な外部のモダリティと一対一の明確な対応を示す。 この対応により、マルチモーダルコンテンツ合成のための有望な誘導条件として脳信号が出現する。 ブライアン条件のマルチモーダル合成(Brian-conditional multimodal synthesis)とは、脳の信号を知覚経験に復号することであり、脳とコンピュータのインターフェイスシステムを実践し、脳が外部の刺激を理解し理解する方法の基礎となる複雑なメカニズムを明らかにするために重要である。 本研究は、aigc-brainと呼ばれる、aigcベースの脳条件型マルチモーダル合成の新たな分野を包括的に検討し、現在の景観と今後の方向性を明らかにした。 まず、AIGC-Brainデコーディングと分析の基礎として、関連脳神経画像データセット、機能脳領域、および主流生成モデルを導入する。 次に,aigc-脳デコードモデルのための包括的分類法を提供し,タスク固有の代表的作業と詳細な実装戦略を提示し,比較および詳細な解析を容易にする。 質評価は質評価と定量的評価の両方に導入される。 最後に、この調査は得られた洞察を探求し、aigc-brainの現在の課題と展望を概説する。 この領域における最初の調査として、AIGC-Brain研究の進展の道を開き、今後の研究を導く基礎的な概要を提供する。

In the era of Artificial Intelligence Generated Content (AIGC), conditional multimodal synthesis technologies (e.g., text-to-image, text-to-video, text-to-audio, etc) are gradually reshaping the natural content in the real world. The key to multimodal synthesis technology is to establish the mapping relationship between different modalities. Brain signals, serving as potential reflections of how the brain interprets external information, exhibit a distinctive One-to-Many correspondence with various external modalities. This correspondence makes brain signals emerge as a promising guiding condition for multimodal content synthesis. Brian-conditional multimodal synthesis refers to decoding brain signals back to perceptual experience, which is crucial for developing practical brain-computer interface systems and unraveling complex mechanisms underlying how the brain perceives and comprehends external stimuli. This survey comprehensively examines the emerging field of AIGC-based Brain-conditional Multimodal Synthesis, termed AIGC-Brain, to delineate the current landscape and future directions. To begin, related brain neuroimaging datasets, functional brain regions, and mainstream generative models are introduced as the foundation of AIGC-Brain decoding and analysis. Next, we provide a comprehensive taxonomy for AIGC-Brain decoding models and present task-specific representative work and detailed implementation strategies to facilitate comparison and in-depth analysis. Quality assessments are then introduced for both qualitative and quantitative evaluation. Finally, this survey explores insights gained, providing current challenges and outlining prospects of AIGC-Brain. Being the inaugural survey in this domain, this paper paves the way for the progress of AIGC-Brain research, offering a foundational overview to guide future work.
翻訳日:2024-01-04 11:37:02 公開日:2024-01-03
# 周期駆動型オープン量子システム:スペクトル特性と非平衡定常状態

Periodically Driven Open Quantum Systems: Spectral Properties and Non-Equilibrium Steady States ( http://arxiv.org/abs/2401.00131v2 )

ライセンス: Link先を確認
Hao Chen, Yu-Min Hu, Wucheng Zhang, Michael Alexander Kurniawan, Yuelin Shao, Xueqi Chen, Abhinav Prem, Xi Dai(参考訳) 本稿では,Floquet-Lindbladマスター方程式の枠組み内で周期的に駆動されるオープン量子系について検討する。 具体的には,コヒーレントな時間周期駆動の存在下でのリンドブラッドマスター方程式を議論し,その一般スペクトル特徴を定式化する。 また、このスペクトルの観点から、過渡的および非決定的解の概念を明確にし、フロケット・リンドブラド方程式によって記述された任意の物理系は、単位固有値を持つフロケット・リンドブラド進化超作用素 $\mathcal{u}_f$ の固有作用素に対応する少なくとも1つの \textit{physical} 非平衡定常状態(ness)を持つ必要があることを証明する。 floquet-lindblad形式主義は、nessに関する全ての情報をカプセル化するので、原則として、すべての順序に対する非線形効果を一度に得ることができる。 そこでFloquet-Lindblad形式は、絶縁固体の単純な2バンドモデルの非線形光学応答を導出し、ケルディシュ法によって確立された先行結果と比較することにより、駆動散逸固体系を研究する強力なツールを提供する。

In this article, we investigate periodically driven open quantum systems within the framework of Floquet-Lindblad master equations. Specifically, we discuss Lindblad master equations in the presence of a coherent, time-periodic driving and establish their general spectral features. We also clarify the notions of transient and non-decaying solutions from this spectral perspective, and then prove that any physical system described by a Floquet-Lindblad equation must have at least one \textit{physical} non-equilibrium steady state (NESS), corresponding to an eigenoperator of the Floquet-Lindblad evolution superoperator $\mathcal{U}_F$ with unit eigenvalue. Since the Floquet-Lindblad formalism encapsulates the entire information regarding the NESS, it in principle enables us to obtain non-linear effects to all orders at once. The Floquet-Lindblad formalism thus provides a powerful tool for studying driven-dissipative solid-state systems, which we illustrate by deriving the nonlinear optical response of a simple two-band model of an insulating solid and comparing it with prior results established through Keldysh techniques.
翻訳日:2024-01-04 11:36:26 公開日:2024-01-03
# 知覚損失を伴う拡散モデル

Diffusion Model with Perceptual Loss ( http://arxiv.org/abs/2401.00110v2 )

ライセンス: Link先を確認
Shanchuan Lin, Xiao Yang(参考訳) 平均二乗誤差損失で訓練された拡散モデルは非現実的なサンプルを生成する傾向がある。 現在の最先端のモデルは、サンプル品質を改善するために分類器なしのガイダンスに依存しているが、驚くべき有効性は完全には理解されていない。 本稿では,分類者なし指導の有効性は,暗黙的な知覚誘導の一形態である点に起因していることを示す。 その結果, 拡散訓練における知覚損失を直接組み込むことにより, サンプル品質の向上が期待できる。 拡散訓練におけるスコアマッチング対象は、知覚ネットワークの教師なし訓練で使用される雑音化オートエンコーダ目標に強く似ているため、拡散モデル自体が知覚ネットワークであり、有意義な知覚損失を生成するために使用できる。 そこで本研究では,より現実的なサンプルを生成することができる拡散モデルを提案する。 条件付き生成では,条件付き入力と絡み合うことなくサンプル品質を向上できるため,サンプルの多様性を犠牲にしない。 また,非条件生成のためのサンプル品質の改善も可能であり,従来は分類器を使わない指導では不可能であった。

Diffusion models trained with mean squared error loss tend to generate unrealistic samples. Current state-of-the-art models rely on classifier-free guidance to improve sample quality, yet its surprising effectiveness is not fully understood. In this paper, We show that the effectiveness of classifier-free guidance partly originates from it being a form of implicit perceptual guidance. As a result, we can directly incorporate perceptual loss in diffusion training to improve sample quality. Since the score matching objective used in diffusion training strongly resembles the denoising autoencoder objective used in unsupervised training of perceptual networks, the diffusion model itself is a perceptual network and can be used to generate meaningful perceptual loss. We propose a novel self-perceptual objective that results in diffusion models capable of generating more realistic samples. For conditional generation, our method only improves sample quality without entanglement with the conditional input and therefore does not sacrifice sample diversity. Our method can also improve sample quality for unconditional generation, which was not possible with classifier-free guidance before.
翻訳日:2024-01-04 11:35:59 公開日:2024-01-03
# llm-sap: 大規模言語モデル状況認識に基づく計画

LLM-SAP: Large Language Model Situational Awareness Based Planning ( http://arxiv.org/abs/2312.16127v3 )

ライセンス: Link先を確認
Liman Wang, Hanyang Zhong(参考訳) この研究は、大規模言語モデルにおける状況認識に基づく創発的計画能力の評価の先駆者である。 貢献します (i)標準化評価のための新しいベンチマーク及び指標 (ii)進行を促すユニークなデータセット、及び (iii)状況に敏感な計画作業において,複数エージェントスキームを促し,計画性能を著しく向上させるデモンストレーション。 位置決めされたエージェントと自動計画研究に配置し、ドメインの進歩をシミュレートしながらも、世界国家を環境誘導のない行動に効率的にマッピングする、固有の信頼性の課題を強調した。 スコープ外ではあるが、バリデーション方法論とデータ可用性に関する制限は、拡張計画コーパスの微調整や高速な潜在計画のトリガの最適化など、エキサイティングな方向性を示している。 厳密な比較による現在の手法の約束と限界を決定的に示すことで、位置付けられたエージェントに対する信頼できる目標指向の推論を触媒する。

This work pioneers evaluating emergent planning capabilities based on situational awareness in large language models. We contribute (i) novel benchmarks and metrics for standardized assessment; (ii) a unique dataset to spur progress; and (iii) demonstrations that prompting and multi-agent schemes significantly enhance planning performance in context-sensitive planning tasks. Positioning this within a situated agent and automated planning research, we highlight inherent reliability challenges--efficiently mapping world states to actions without environmental guidance remains open despite simulated domain advances. Although out-of-scope, limitations around validation methodology and data availability indicate exciting directions, including fine-tuning on expanded planning corpora and optimizations for triggering fast latent planning. By conclusively demonstrating current methods' promise and limitations via rigorous comparison, we catalyze investigating reliable goal-directed reasoning for situated agents.
翻訳日:2024-01-04 11:35:39 公開日:2024-01-03
# Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents ( http://arxiv.org/abs/2310.19923v3 )

ライセンス: Link先を確認
Michael G\"unther, Jackmin Ong, Isabelle Mohr, Alaeddine Abdessalem, Tanguy Abel, Mohammad Kalim Akram, Susana Guzman, Georgios Mastrapas, Saba Sturua, Bo Wang, Maximilian Werk, Nan Wang, Han Xiao(参考訳) テキスト埋め込みモデルは、文を意味情報をカプセル化する固定サイズの特徴ベクトルに変換する強力なツールとして登場した。 これらのモデルは、情報検索、セマンティッククラスタリング、テキストの再ランクといったタスクには不可欠ですが、既存のオープンソースモデル、特にBERTのようなアーキテクチャ上に構築されたモデルでは、長いドキュメントの表現に苦労し、しばしば切り詰められます。 この課題を緩和するための一般的なアプローチは、文書を埋め込むために小さな段落に分割することである。 しかし、この戦略によりベクトルの集合がより大きくなり、結果としてメモリ消費が増加し、計算集約的なベクトル探索がレイテンシが上昇する。 これらの課題に対処するため,我々は8192トークンまで対応可能なオープンソースのテキスト埋め込みモデルであるjina embeddeds 2を紹介する。 このモデルは,従来の512token制限を超越し,長文処理を行うように設計されている。 Jina Embeddings 2はMTEBベンチマークの様々な組み込み関連タスクにおける最先端のパフォーマンスを達成するだけでなく、OpenAIのプロプライエタリなada-002モデルのパフォーマンスと一致する。 さらに,この拡張コンテキストによって,narrativeqaなどのタスクのパフォーマンスが向上することを示す実験を行った。

Text embedding models have emerged as powerful tools for transforming sentences into fixed-sized feature vectors that encapsulate semantic information. While these models are essential for tasks like information retrieval, semantic clustering, and text re-ranking, most existing open-source models, especially those built on architectures like BERT, struggle to represent lengthy documents and often resort to truncation. One common approach to mitigate this challenge involves splitting documents into smaller paragraphs for embedding. However, this strategy results in a much larger set of vectors, consequently leading to increased memory consumption and computationally intensive vector searches with elevated latency. To address these challenges, we introduce Jina Embeddings 2, an open-source text embedding model capable of accommodating up to 8192 tokens. This model is designed to transcend the conventional 512-token limit and adeptly process long documents. Jina Embeddings 2 not only achieves state-of-the-art performance on a range of embedding-related tasks in the MTEB benchmark but also matches the performance of OpenAI's proprietary ada-002 model. Additionally, our experiments indicate that an extended context can enhance performance in tasks such as NarrativeQA.
翻訳日:2024-01-04 11:35:24 公開日:2024-01-03
# Memory Gym: エージェントのメモリ能力のベンチマークに終止符を打つ

Memory Gym: Towards Endless Tasks to Benchmark Memory Capabilities of Agents ( http://arxiv.org/abs/2309.17207v3 )

ライセンス: Link先を確認
Marco Pleines and Matthias Pallasch and Frank Zimmer and Mike Preuss(参考訳) Memory GymはMortar Mayhem、Mystery Path、Searing Spotlightsという、意思決定エージェントのメモリ能力をベンチマークするために設計された2D部分観測可能な環境スイートを提供する。 これらの環境はもともと有限なタスクを持ち、''I pack my bag''のような累積記憶ゲームにおけるエスカレーション課題を反映して、革新的で無限の形式に拡張されている。 このタスク設計の進歩は、単なるサンプル効率の評価から、動的で長期のシナリオにおけるメモリ効率のレベルの調査へと焦点を移す。 利用可能なメモリベースのDeep Reinforcement Learningベースラインのギャップを解決するために,Transformer-XL (TrXL) とプロキシポリシー最適化を統合した実装を導入する。 このアプローチでは、TrXLをエピソードメモリの形式として使用し、スライディングウインドウ技術を用いる。 Gated Recurrent Unit (GRU) と TrXL の比較では,異なる設定で異なる性能を示す。 trxlは, 有限環境において, モルタルメイヘムのミステリーパスにおいて優れた試料効率を示す。 しかし、GRUはSeaning Spotlightsよりも効率的である。 最も注目すべきは、すべての無限のタスクにおいて、GRUは顕著な復活を行い、TrXLを著しく上回っていることである。 webサイトとソースコード: https://github.com/marcometer/endless-memory-gym/

Memory Gym presents a suite of 2D partially observable environments, namely Mortar Mayhem, Mystery Path, and Searing Spotlights, designed to benchmark memory capabilities in decision-making agents. These environments, originally with finite tasks, are expanded into innovative, endless formats, mirroring the escalating challenges of cumulative memory games such as ``I packed my bag''. This progression in task design shifts the focus from merely assessing sample efficiency to also probing the levels of memory effectiveness in dynamic, prolonged scenarios. To address the gap in available memory-based Deep Reinforcement Learning baselines, we introduce an implementation that integrates Transformer-XL (TrXL) with Proximal Policy Optimization. This approach utilizes TrXL as a form of episodic memory, employing a sliding window technique. Our comparative study between the Gated Recurrent Unit (GRU) and TrXL reveals varied performances across different settings. TrXL, on the finite environments, demonstrates superior sample efficiency in Mystery Path and outperforms in Mortar Mayhem. However, GRU is more efficient on Searing Spotlights. Most notably, in all endless tasks, GRU makes a remarkable resurgence, consistently outperforming TrXL by significant margins. Website and Source Code: https://github.com/MarcoMeter/endless-memory-gym/
翻訳日:2024-01-04 11:34:56 公開日:2024-01-03
# deshadow-anything: segment anythingモデルがゼロショットシャドー削除を満たす

Deshadow-Anything: When Segment Anything Model Meets Zero-shot shadow removal ( http://arxiv.org/abs/2309.11715v3 )

ライセンス: Link先を確認
Xiao Feng Zhang, Tian Yi Song, Jia Wei Yao(参考訳) Segment Anything (SAM)は、拡張ビジュアルデータセットに基づいてトレーニングされた高度なユニバーサルイメージセグメンテーションモデルであり、画像セグメンテーションとコンピュータビジョンの新しいベンチマークを設定した。 しかし、影とその背景を区別するという問題に直面した。 そこで本研究では,大規模データセットの一般化を考慮し,大規模データセットの微調整を行い,画像シャドー除去を実現する。 拡散モデルは、画像のエッジとテクスチャに沿って拡散し、画像の詳細を維持しながら影を取り除くのに役立つ。 さらに,適応入力摂動(DDPM-AIP)とマルチセルフアテンションガイダンス(MSAG)を設計し,拡散の反復的トレーニング速度を高速化する。 シャドウ除去タスクの実験により、これらの手法が画像復元性能を効果的に向上できることが示されている。

Segment Anything (SAM), an advanced universal image segmentation model trained on an expansive visual dataset, has set a new benchmark in image segmentation and computer vision. However, it faced challenges when it came to distinguishing between shadows and their backgrounds. To address this, we developed Deshadow-Anything, considering the generalization of large-scale datasets, and we performed Fine-tuning on large-scale datasets to achieve image shadow removal. The diffusion model can diffuse along the edges and textures of an image, helping to remove shadows while preserving the details of the image. Furthermore, we design Multi-Self-Attention Guidance (MSAG) and adaptive input perturbation (DDPM-AIP) to accelerate the iterative training speed of diffusion. Experiments on shadow removal tasks demonstrate that these methods can effectively improve image restoration performance.
翻訳日:2024-01-04 11:34:31 公開日:2024-01-03
# 誤差の存在下でのステアリングによる量子状態工学

Quantum state engineering by steering in the presence of errors ( http://arxiv.org/abs/2303.16329v4 )

ライセンス: Link先を確認
E. Medina-Guerra, Parveen Kumar, I. V. Gornyi, and Yuval Gefen(参考訳) 量子状態工学は、量子情報分野における様々な応用において重要な役割を果たす。 運転・散逸、断熱冷却、測定に基づくステアリングなど、異なる戦略が過去に提案されており、それぞれが上向きと下向きで、状態生成と操作のために提案されてきた。 本稿では,量子システムを目的とする状態に向けて制御するために,一般化された測定のシーケンスを用いる計測ベースの状態工学プロトコルのクラスについて述べる。 従来、測定ベースのプロトコルは理想的な手順に依存しており、実験的な実現と外部ノイズの不完全性から生じる様々なエラーの影響の探索を避けていた。 我々は,これらのステアリングプロトコルの各種誤差に対するロバスト性に関する詳細な解析を行うために,量子軌道形式を用いる。 プロトコルの実行中に変更が残らないかによって、動的または静的に分類できる一連のエラーについて検討する。 具体的には, システム-検出器結合の誤選択, 測定ステップ後の検出器状態の再初期化, 操舵方向の変動, システム-検出器相互作用における環境負荷の影響について検討する。 このプロトコルは,システム検出器結合パラメータの誤選択に対して完全に堅牢であり,他の誤りに対して合理的な頑健性を示す。 我々は,プロトコルのロバスト性を特徴づけ,解析結果を提供するために,忠実度,トレース距離,線形エントロピーなどの様々な量化器を用いる。 その後,乗算ホワイトノイズを持つハミルトニアンの指数関数の古典的期待値と時間順序演算子の交換と,検出結果に対する期待値と部分的トレースの交換を実演する。

Quantum state engineering plays a vital role in various applications in the field of quantum information. Different strategies, including drive-and-dissipation, adiabatic cooling, and measurement-based steering, have been proposed in the past for state generation and manipulation, each with its upsides and downsides. Here, we address a class of measurement-based state engineering protocols where a sequence of generalized measurements is employed to steer a quantum system toward a desired target state. Previously studied measurement-based protocols relied on idealized procedures and avoided exploration of the effects of various errors stemming from imperfections of experimental realizations and external noise. We employ the quantum trajectory formalism to provide a detailed analysis of the robustness of these steering protocols against various errors. We study a set of errors that can be classified as dynamic or static, depending on whether they remain unchanged while running the protocol. More specifically, we investigate the impact of erroneous choice of system-detector coupling, re-initialization of the detector state following a measurement step, fluctuating steering directions, and environmentally induced errors in the system-detector interaction. We show that the protocol remains fully robust against the erroneous choice of system-detector coupling parameters and presents reasonable robustness against other errors. We employ various quantifiers such as fidelity, trace distance, and linear entropy to characterize the protocol's robustness and provide analytical results. Subsequently, we demonstrate the commutation between the classical expectation value and the time-ordering operator of the exponential of a Hamiltonian with multiplicative white noise, as well as the commutation of the expectation value and the partial trace with respect to detector outcomes.
翻訳日:2024-01-04 11:34:12 公開日:2024-01-03
# 固体スピンに基づく超微細化ジャイロスコープ

Hyperfine-enhanced gyroscope based on solid-state spins ( http://arxiv.org/abs/2401.01334v2 )

ライセンス: Link先を確認
Guoqing Wang, Minh-Thi Nguyen, Paola Cappellaro(参考訳) エレクトロ核スピン系に基づく固体プラットフォームは、工業用途と相性が良い感度、安定性、コンパクトなサイズのため、回転センシングの魅力的な候補である。 従来のスピンベースのジャイロスコープは、核スピン重ね合わせ状態の累積位相を測定して回転速度を抽出し、スピンの低下に苦しむ。 本稿では、ホスト材料に内在的に結びついているスピンを含む2スピン系に基づくジャイロスコーププロトコルを提案し、他方のスピンを分離する。 回転速度は、その集団状態から始まる2つのスピン間の相対的な回転角を測定して抽出される。 特に、2つのスピン間の相対回転速度は、その超微粒子カップリングによって1桁以上増大し、さらに達成可能な感度を高めることができる。 ジャイロスコープの究極の感度はスピン系の寿命によって制限され、磁気ノイズや初期化や量子ビット操作による制御誤差がある場合でも広いダイナミックレンジと互換性がある。 その結果,スロー回転の精密測定と基礎物理学の探索が可能となった。

Solid-state platforms based on electro-nuclear spin systems are attractive candidates for rotation sensing due to their excellent sensitivity, stability, and compact size, compatible with industrial applications. Conventional spin-based gyroscopes measure the accumulated phase of a nuclear spin superposition state to extract the rotation rate and thus suffer from spin dephasing. Here, we propose a gyroscope protocol based on a two-spin system that includes a spin intrinsically tied to the host material, while the other spin is isolated. The rotation rate is then extracted by measuring the relative rotation angle between the two spins starting from their population states, robust against spin dephasing. In particular, the relative rotation rate between the two spins can be enhanced by their hyperfine coupling by more than an order of magnitude, further boosting the achievable sensitivity. The ultimate sensitivity of the gyroscope is limited by the lifetime of the spin system and compatible with a broad dynamic range, even in the presence of magnetic noises or control errors due to initialization and qubit manipulations. Our result enables precise measurement of slow rotations and exploration of fundamental physics.
翻訳日:2024-01-04 11:15:50 公開日:2024-01-03
# ダイヤモンド中の^<15}$nv中心を有するエミュレートされた核スピンジャイロスコープ

Emulated nuclear spin gyroscope with $^{15}$NV centers in diamond ( http://arxiv.org/abs/2401.01333v2 )

ライセンス: Link先を確認
Guoqing Wang, Minh-Thi Nguyen, Dane W. de Quilettes, Eden Price, Zhiyao Hu, Danielle A. Braje, Paola Cappellaro(参考訳) 固体プラットフォームの核スピンは、長いコヒーレンス時間のために回転センサーを構築することを約束している。 これらのプラットフォームの中で、窒素空室センターは環境操作条件でかなりの注目を集めている。 しかし、NVジャイロスコープの現在の性能は、大きなスピンアンサンブルで操作する際のコヒーレンス低下によって制限されている。 これらの系のコヒーレンスを保護するには、コヒーレンス崩壊機構の体系的研究が必要である。 ここでは,nv中心の窒素-15核スピンをジャイロスコープの構築に利用し,そのエネルギー構造が単純で,窒素14核スピンに比べて核四重極項が消滅する利点があるが,コヒーレンス保護の課題が異なる。 我々は、異なるNV電子スピン多様体における核スピンのコヒーレンス崩壊機構を体系的に明らかにし、さらに、NV電子スピンのみを制御することに基づく堅牢なコヒーレンス保護プロトコルを開発し、15倍の劣化時間改善を実現する。 改良されたコヒーレンス保護により,設計した回転率パターンを計測し,磁気感度の向上を示すエミュレートジャイロスコープを実証した。

Nuclear spins in solid-state platforms are promising for building rotation sensors due to their long coherence times. Among these platforms, nitrogen-vacancy centers have attracted considerable attention with ambient operating conditions. However, the current performance of NV gyroscopes remains limited by the degraded coherence when operating with large spin ensembles. Protecting the coherence of these systems requires a systematic study of the coherence decay mechanism. Here we present the use of nitrogen-15 nuclear spins of NV centers in building gyroscopes, benefiting from its simpler energy structure and vanishing nuclear quadrupole term compared with nitrogen-14 nuclear spins, though suffering from different challenges in coherence protection. We systematically reveal the coherence decay mechanism of the nuclear spin in different NV electronic spin manifolds and further develop a robust coherence protection protocol based on controlling the NV electronic spin only, achieving a 15-fold dephasing time improvement. With the developed coherence protection, we demonstrate an emulated gyroscope by measuring a designed rotation rate pattern, showing an order-of-magnitude sensitivity improvement.
翻訳日:2024-01-04 11:15:31 公開日:2024-01-03
# 大規模言語モデルにおける幻覚緩和手法に関する包括的調査

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models ( http://arxiv.org/abs/2401.01313v2 )

ライセンス: Link先を確認
S.M Towhidul Islam Tonmoy, S M Mehedi Zaman, Vinija Jain, Anku Rani, Vipula Rawte, Aman Chadha, Amitava Das(参考訳) 大きな言語モデル (LLMs) は、人間のような文章を書く能力が向上し続けているため、現実的に見えるが根拠のないコンテンツを生み出す傾向に重要な課題が残っている。 この幻覚の問題は、人々の生活に影響を及ぼす現実世界のプロダクションシステムにこれらの強力なLSMを安全に配置する上で、おそらく最大の障害である。 実践環境でのllmの普及に向けた旅は、幻覚の対処と緩和に大きく依存している。 限られたタスクに焦点を当てた従来のAIシステムとは異なり、LLMはトレーニング中に大量のオンラインテキストデータにさらされている。 これにより、印象的な言語流感を表現できる一方で、トレーニングデータのバイアスから情報を外挿したり、曖昧なプロンプトを誤解釈したり、情報を入力と表面的に整合させることもできる。 医療記録の要約や財務分析レポートなど、センシティブなアプリケーションに言語生成機能に頼ると、これは非常に不安になります。 本稿では, llmsの幻覚を緩和するために開発された32以上の手法の包括的調査を行った。 中でも有名なものは、Retrieval Augmented Generation (Lewis et al, 2021), Knowledge Retrieval (Varshney et al, 2023), CoNLI (Lei et al, 2023), CoVe (Dhuliawala et al, 2023)である。 さらに,これらの手法をデータセットの利用,共通タスク,フィードバック機構,レトリバータイプなどのパラメータに基づいて分類する詳細な分類法を提案する。 この分類は、LLMの幻覚問題に取り組むために特別に設計された様々なアプローチを区別するのに役立つ。 さらに,これらの技術に固有の課題や限界を分析し,LLMの領域における幻覚や関連する現象に対処する上で,今後の研究の基盤となる。

As Large Language Models (LLMs) continue to advance in their ability to write human-like text, a key challenge remains around their tendency to hallucinate generating content that appears factual but is ungrounded. This issue of hallucination is arguably the biggest hindrance to safely deploying these powerful LLMs into real-world production systems that impact people's lives. The journey toward widespread adoption of LLMs in practical settings heavily relies on addressing and mitigating hallucinations. Unlike traditional AI systems focused on limited tasks, LLMs have been exposed to vast amounts of online text data during training. While this allows them to display impressive language fluency, it also means they are capable of extrapolating information from the biases in training data, misinterpreting ambiguous prompts, or modifying the information to align superficially with the input. This becomes hugely alarming when we rely on language generation capabilities for sensitive applications, such as summarizing medical records, financial analysis reports, etc. This paper presents a comprehensive survey of over 32 techniques developed to mitigate hallucination in LLMs. Notable among these are Retrieval Augmented Generation (Lewis et al, 2021), Knowledge Retrieval (Varshney et al,2023), CoNLI (Lei et al, 2023), and CoVe (Dhuliawala et al, 2023). Furthermore, we introduce a detailed taxonomy categorizing these methods based on various parameters, such as dataset utilization, common tasks, feedback mechanisms, and retriever types. This classification helps distinguish the diverse approaches specifically designed to tackle hallucination issues in LLMs. Additionally, we analyze the challenges and limitations inherent in these techniques, providing a solid foundation for future research in addressing hallucinations and related phenomena within the realm of LLMs.
翻訳日:2024-01-04 11:15:10 公開日:2024-01-03
# 自動計測のための機械翻訳基準の品質と量

Quality and Quantity of Machine Translation References for Automated Metrics ( http://arxiv.org/abs/2401.01283v2 )

ライセンス: Link先を確認
Vil\'em Zouhar, Ond\v{r}ej Bojar(参考訳) 自動機械翻訳メトリクスは、しばしば人間の翻訳を使用して、システム翻訳の品質を決定する。 この分野の一般的な知恵は、人間の参照は非常に高品質であるべきだと規定している。 しかし,機械翻訳評価の参考資料収集を計画する実践者の指導には,費用対効果分析は使用できない。 高品質な参照は、セグメントレベルでの人間とのメトリクス相関をより良くする。 セグメントごとに7つの参照を持ち、平均を取ることは、すべてのメトリクスに役立つ。 興味深いことに、異なる品質のベンダーからの参照を混ぜ合わせてメトリクスの成功を改善することができる。 しかし、高品質な参照は作成により多くのコストがかかり、これを最適化の問題とみなす:特定の予算が与えられたら、メートル法の成功を最大化するためにどの参照を収集すべきか。 これらの発見は、特定の予算の下で参照を作成する必要がある場合、共有タスクの評価者によって利用することができる。

Automatic machine translation metrics often use human translations to determine the quality system translations. Common wisdom in the field dictates that the human references should be of very high quality. However, there are no cost-benefit analyses that could be used to guide practitioners who plan to collect references for machine translation evaluation. We find that higher-quality references lead to better metric correlations with humans at the segment-level. Having up to 7 references per segment and taking their average helps all metrics. Interestingly, the references from vendors of different qualities can be mixed together and improve metric success. Higher quality references, however, cost more to create and we frame this as an optimization problem: given a specific budget, what references should be collected to maximize metric success. These findings can be used by evaluators of shared tasks when references need to be created under a certain budget.
翻訳日:2024-01-04 11:14:36 公開日:2024-01-03
# 自然言語処理と大規模言語モデルのための公正証明

Fairness Certification for Natural Language Processing and Large Language Models ( http://arxiv.org/abs/2401.01262v2 )

ライセンス: Link先を確認
Vincent Freiberger, Erik Buchmann(参考訳) 自然言語処理(NLP)は,特にLarge Language Models(LLM)の著しい進歩により,私たちの日常生活において重要な役割を果たす。 しかし、nlpには、採用のエキスパートシステムや教育のllmベースの家庭教師など、公正性に批判的なユースケースが数多くある。 NLPは人間の言語に基づいているため、潜在的に有害なバイアスはNLPシステムに拡散し、不公平な結果をもたらす可能性がある。 したがって、NLPアプローチの公平性検証を開発することが重要である。 我々は,NLPの公平性認定に向けた質的研究アプローチに従う。 特に,アルゴリズムの公正性に関する多くの文献をレビューし,その分野の専門家たちとの半構造化された専門家インタビューを行った。 我々は、nlpの6つの公平性基準を体系的に考案し、さらに18のサブカテゴリに分類できる。 当社の基準は,監査機関と監査機関の両方の観点から,公正を証明するための運用プロセスとテストプロセスの基盤を提供します。

Natural Language Processing (NLP) plays an important role in our daily lives, particularly due to the enormous progress of Large Language Models (LLM). However, NLP has many fairness-critical use cases, e.g., as an expert system in recruitment or as an LLM-based tutor in education. Since NLP is based on human language, potentially harmful biases can diffuse into NLP systems and produce unfair results, discriminate against minorities or generate legal issues. Hence, it is important to develop a fairness certification for NLP approaches. We follow a qualitative research approach towards a fairness certification for NLP. In particular, we have reviewed a large body of literature on algorithmic fairness, and we have conducted semi-structured expert interviews with a wide range of experts from that area. We have systematically devised six fairness criteria for NLP, which can be further refined into 18 sub-categories. Our criteria offer a foundation for operationalizing and testing processes to certify fairness, both from the perspective of the auditor and the audited organization.
翻訳日:2024-01-04 11:14:24 公開日:2024-01-03
# 分類課題のマルチタスク学習のための分布マッチング:顔とそれ以上の大規模研究

Distribution Matching for Multi-Task Learning of Classification Tasks: a Large-Scale Study on Faces & Beyond ( http://arxiv.org/abs/2401.01219v2 )

ライセンス: Link先を確認
Dimitrios Kollias, Viktoriia Sharmanska, Stefanos Zafeiriou(参考訳) マルチタスク学習(Multi-Task Learning、MTL)は、複数の関連するタスクを共同で学習し、共有表現空間またはパラメータ転送の恩恵を受けるフレームワークである。 十分な学習支援を提供するため、現代のMTLは、全タスクまたはほとんどのタスクに対して各入力サンプルがアノテートされているような、全タスク、あるいは十分に大きなオーバーラップを伴う注釈付きデータを使用する。 しかし、こうしたアノテーションの収集は多くの実際のアプリケーションでは禁止され、個々のタスクで利用可能なデータセットの恩恵を受けることはできない。 本稿では、この設定に挑戦し、MTLがほとんど、あるいは重複しないアノテーションで分類タスクを成功させることができるか、タスク毎にラベル付きデータのサイズに大きな差があるかを示す。 我々は,協調アノテーションと協調学習のためのタスク関連性を探究し,分散マッチングによるタスク間の知識交換を可能にする新しいアプローチを提案する。 本手法の適用性を実証するため,9つのデータセットを用いて情緒コンピューティング,顔認識,種別認識,ショッピングアイテム分類の分野において多様なケーススタディを行った。 表情認識と顔行動単位検出のための情緒的タスクの大規模研究は,我々のアプローチがネットワーク非依存であることを示し,研究対象と研究対象のデータベースの双方における最先端と比べ,大幅なパフォーマンス向上をもたらす。 あらゆるケーススタディにおいて、タスク関連性によるコトレーニングは有利であり、負の移動を防止する(MTモデルの性能が少なくとも1つの単一タスクモデルよりも悪い場合)。

Multi-Task Learning (MTL) is a framework, where multiple related tasks are learned jointly and benefit from a shared representation space, or parameter transfer. To provide sufficient learning support, modern MTL uses annotated data with full, or sufficiently large overlap across tasks, i.e., each input sample is annotated for all, or most of the tasks. However, collecting such annotations is prohibitive in many real applications, and cannot benefit from datasets available for individual tasks. In this work, we challenge this setup and show that MTL can be successful with classification tasks with little, or non-overlapping annotations, or when there is big discrepancy in the size of labeled data per task. We explore task-relatedness for co-annotation and co-training, and propose a novel approach, where knowledge exchange is enabled between the tasks via distribution matching. To demonstrate the general applicability of our method, we conducted diverse case studies in the domains of affective computing, face recognition, species recognition, and shopping item classification using nine datasets. Our large-scale study of affective tasks for basic expression recognition and facial action unit detection illustrates that our approach is network agnostic and brings large performance improvements compared to the state-of-the-art in both tasks and across all studied databases. In all case studies, we show that co-training via task-relatedness is advantageous and prevents negative transfer (which occurs when MT model's performance is worse than that of at least one single-task model).
翻訳日:2024-01-04 11:14:07 公開日:2024-01-03
# ジョブショップスケジューリング問題に対する微分可能量子アーキテクチャ探索

Differentiable Quantum Architecture Search For Job Shop Scheduling Problem ( http://arxiv.org/abs/2401.01158v2 )

ライセンス: Link先を確認
Yize Sun, Jiarui Liu, Yunpu Ma, Volker Tresp(参考訳) ジョブショップスケジューリング問題(jssp)は、スケジューリング効率を最大化するためにシーケンシングマシンとジョブを含む信号処理(sp)や鉄鋼製造といった産業アプリケーションにおいて重要な役割を担っている。 これまで、JSSPは変動量子アルゴリズム(VQA)によって手動で定義された回路を用いて解決されていた。 優れた回路アーキテクチャを見つけることはタスク固有で時間を要する。 微分可能量子アーキテクチャサーチ(DQAS)は、回路を自動設計できる勾配ベースのフレームワークである。 しかし、DQASは量子近似最適化アルゴリズム(QAOA)と誤差軽減タスクでのみテストされる。 DQASが、変分量子固有解法(VQE)のようなより柔軟なアルゴリズムに基づいてJSSPに適用されるかどうかは、まだ最適化問題に対してオープンである。 本研究では, DQAS をフレームワーク JSSP-DQAS に再定義し,回路評価により DQAS をフレームワーク JSSP-DQAS に拡張し,JSSP 用の回路を自動生成する。 実験の結果、JSSP-DQASは手動設計の回路よりもはるかに優れたノイズ耐性回路アーキテクチャを自動で見つけることができると結論付けた。 JSSPの解決の効率を改善するのに役立ちます。

The Job shop scheduling problem (JSSP) plays a pivotal role in industrial applications, such as signal processing (SP) and steel manufacturing, involving sequencing machines and jobs to maximize scheduling efficiency. Before, JSSP was solved using manually defined circuits by variational quantum algorithm (VQA). Finding a good circuit architecture is task-specific and time-consuming. Differentiable quantum architecture search (DQAS) is a gradient-based framework that can automatically design circuits. However, DQAS is only tested on quantum approximate optimization algorithm (QAOA) and error mitigation tasks. Whether DQAS applies to JSSP based on a more flexible algorithm, such as variational quantum eigensolver (VQE), is still open for optimization problems. In this work, we redefine the operation pool and extend DQAS to a framework JSSP-DQAS by evaluating circuits to generate circuits for JSSP automatically. The experiments conclude that JSSP-DQAS can automatically find noise-resilient circuit architectures that perform much better than manually designed circuits. It helps to improve the efficiency of solving JSSP.
翻訳日:2024-01-04 11:13:37 公開日:2024-01-03
# CityPulse:ストリートビュー時系列による都市変化の微粒化評価

CityPulse: Fine-Grained Assessment of Urban Change with Street View Time Series ( http://arxiv.org/abs/2401.01107v2 )

ライセンス: Link先を確認
Tianyuan Huang, Zejia Wu, Jiajun Wu, Jackelyn Hwang, Ram Rajagopal(参考訳) 都市変革は、個人と地域社会の両方に大きな社会的影響を与える。 これらの変化を正確に評価することは、その根本原因の理解と持続可能な都市計画の確保に不可欠である。 伝統的な測定は時空間的および時間的粒度の制約に遭遇し、リアルタイムの物理的変化を捉えられなかった。 ストリートビューの画像は、歩行者の視点から都市空間の心臓の鼓動を捉え、高精細度、最新、地上での都市変化の視覚的プロキシとして追加することができる。 我々は,これまでで最大のストリートビュー時系列データセットをキュレートし,大規模環境における物理的変化を効果的に捉えたエンドツーエンドの変更検出モデルを提案する。 本提案手法は,過去の文献との比較と都市レベルでの実施により,提案手法の有効性を実証する。 我々のアプローチは既存のデータセットを補完し、都市の変化をきめ細やかに正確に評価する可能性がある。

Urban transformations have profound societal impact on both individuals and communities at large. Accurately assessing these shifts is essential for understanding their underlying causes and ensuring sustainable urban planning. Traditional measurements often encounter constraints in spatial and temporal granularity, failing to capture real-time physical changes. While street view imagery, capturing the heartbeat of urban spaces from a pedestrian point of view, can add as a high-definition, up-to-date, and on-the-ground visual proxy of urban change. We curate the largest street view time series dataset to date, and propose an end-to-end change detection model to effectively capture physical alterations in the built environment at scale. We demonstrate the effectiveness of our proposed method by benchmark comparisons with previous literature and implementing it at the city-wide level. Our approach has the potential to supplement existing dataset and serve as a fine-grained and accurate assessment of urban change.
翻訳日:2024-01-04 11:12:57 公開日:2024-01-03
# ベトナムの詩生成と多言語詩翻訳の展望

Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation ( http://arxiv.org/abs/2401.01078v2 )

ライセンス: Link先を確認
Triet Minh Huynh and Quan Le Bao(参考訳) 詩生成は、言語、感情、スタイルのニュアンスを理解するためにモデルを必要とするため、自然言語処理の分野では難しい課題であった。 本稿では,大規模言語モデルを用いて,自然言語のプロンプトからベトナム語の詩を生成することを提案する。 我々の最も効果的なモデルであるGPT-3 Babbageは、ベトナム詩の「ルークバット」ジャンルに特化して0.8のカスタム評価スコアを得る。 さらに、通常のテキストプロンプトにパラフラージングするアイデアを探求し、"luc bat" のジャンルにおいて、比較的高いスコアである 0.718 を得る。 本実験は, 詩文を入力として, 生成したコンテンツの完全制御を同時に維持しつつ, 詩文を交互に翻訳する可能性を示す。

Poetry generation has been a challenging task in the field of Natural Language Processing, as it requires the model to understand the nuances of language, sentiment, and style. In this paper, we propose using Large Language Models to generate Vietnamese poems from natural language prompts, thereby facilitating an intuitive process with enhanced content control. Our most efficacious model, the GPT-3 Babbage variant, achieves a custom evaluation score of 0.8, specifically tailored to the "luc bat" genre of Vietnamese poetry. Furthermore, we also explore the idea of paraphrasing poems into normal text prompts and yield a relatively high score of 0.718 in the "luc bat" genre. This experiment presents the potential for cross-Language poem-to-poem translation with translated poems as the inputs while concurrently maintaining complete control over the generated content.
翻訳日:2024-01-04 11:12:40 公開日:2024-01-03
# DialCLIP:CLIPをマルチモードダイアログレトリバーとして活用する

DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever ( http://arxiv.org/abs/2401.01076v2 )

ライセンス: Link先を確認
Zhichao Yin, Binyuan Hui, Min Yang, Fei Huang, Yongbin Li(参考訳) 近年,事前学習型視覚言語モデルの大幅な進歩により,マルチモーダル対話システムの性能が大幅に向上している。 これらのモデルは下流タスクの微調整によって大幅に改善されている。 しかし、既存の事前学習モデルは主に視覚と言語モダリティのアライメントを効果的に捉えることに重点を置いており、しばしば対話コンテキストの複雑な性質を無視している。 本稿では,マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法dialogclipを提案する。 具体的には、事前学習された視覚言語モデルCLIP内のプロンプトに蒸留されたコンテキスト特徴を学習するためのマルチモーダルコンテキストプロンプトジェネレータを提案する。 また,ダウンストリームのダイアログデータからディスクリピートを軽減するために,ドメインプロンプトを導入する。 様々なタイプの検索を容易にするために,複数の専門家がCLIP出力からマルチモーダル表現空間へのマッピングを学習し,それぞれが特定の検索タイプに責任を持つように設計する。 大規模な実験により、DialCLIPは2つの広く認識されているベンチマークデータセット(PhotoChatとMDDialog)上で、合計パラメータの0.04%をチューニングすることで、最先端のパフォーマンスを達成することが示された。 これらの結果は,提案手法の有効性と有効性を強調し,マルチモーダルダイアログ検索の分野を前進させる可能性を示している。

Recently, substantial advancements in pre-trained vision-language models have greatly enhanced the capabilities of multi-modal dialog systems. These models have demonstrated significant improvements by fine-tuning on downstream tasks. However, the existing pre-trained models primarily focus on effectively capturing the alignment between vision and language modalities, often ignoring the intricate nature of dialog context. In this paper, we propose a parameter-efficient prompt-tuning method named DialCLIP for multi-modal dialog retrieval. Specifically, our approach introduces a multi-modal context prompt generator to learn context features which are subsequently distilled into prompts within the pre-trained vision-language model CLIP. Besides, we introduce domain prompt to mitigate the disc repancy from the downstream dialog data. To facilitate various types of retrieval, we also design multiple experts to learn mappings from CLIP outputs to multi-modal representation space, with each expert being responsible to one specific retrieval type. Extensive experiments show that DialCLIP achieves state-of-the-art performance on two widely recognized benchmark datasets (i.e., PhotoChat and MMDialog) by tuning a mere 0.04% of the total parameters. These results highlight the efficacy and efficiency of our proposed approach, underscoring its potential to advance the field of multi-modal dialog retrieval.
翻訳日:2024-01-04 11:12:26 公開日:2024-01-03
# 検索型エゴセントリックビデオキャプション

Retrieval-Augmented Egocentric Video Captioning ( http://arxiv.org/abs/2401.00789v2 )

ライセンス: Link先を確認
Jilan Xu, Yifei Huang, Junlin Hou, Guo Chen, Yuejie Zhang, Rui Feng, Weidi Xie(参考訳) 一人称視点のビデオから人間の行動を理解することは大きな課題となる。 従来のアプローチでは、エゴセントリックなビデオのみの表現学習を探求し、既存の大規模な3人称動画を活用できる可能性を見越している。 本稿では,エゴセントリックビデオの動画キャプションを強化するために,セマンティックな第三者指導ビデオを自動的に検索する検索拡張マルチモーダルキャプションモデルであるEgoInstructorを開発する。 2) クロスビュー検索モジュールを訓練するために, 異なる大規模エゴセントリックデータセットと外部セントリックデータセットからエゴ・エクソビデオペアを検出する自動パイプラインを開発した。 3) エゴセントリックやエクソセントリックなビデオ機能を引き寄せる新たなエゴエクソンスロスを,類似したアクションを記述した共有テキスト機能に合わせることで,クロスビュー検索モジュールを訓練する。 (4)7つのベンチマークにおいて,クロスビュー検索モジュールは優れた性能を示す。 エゴセントリックなビデオキャプションに関して、EgoInstructorは、参照として第三者のビデオを活用することで、大幅な改善を示している。

Understanding human actions from videos of first-person view poses significant challenges. Most prior approaches explore representation learning on egocentric videos only, while overlooking the potential benefit of exploiting existing large-scale third-person videos. In this paper, (1) we develop EgoInstructor, a retrieval-augmented multimodal captioning model that automatically retrieves semantically relevant third-person instructional videos to enhance the video captioning of egocentric videos. (2) For training the cross-view retrieval module, we devise an automatic pipeline to discover ego-exo video pairs from distinct large-scale egocentric and exocentric datasets. (3) We train the cross-view retrieval module with a novel EgoExoNCE loss that pulls egocentric and exocentric video features closer by aligning them to shared text features that describe similar actions. (4) Through extensive experiments, our cross-view retrieval module demonstrates superior performance across seven benchmarks. Regarding egocentric video captioning, EgoInstructor exhibits significant improvements by leveraging third-person videos as references.
翻訳日:2024-01-04 11:12:02 公開日:2024-01-03
# 結晶材料研究における深いハミルトン回帰の共分散と表現性:ハイブリッドカスケード回帰フレームワーク

Harmonizing Covariance and Expressiveness for Deep Hamiltonian Regression in Crystalline Material Research: a Hybrid Cascaded Regression Framework ( http://arxiv.org/abs/2401.00744v3 )

ライセンス: Link先を確認
Shi Yin, Xudong Zhu, Tianyu Gao, Haochong Zhang, Feng Wu, Lixin He(参考訳) 材料研究における量子システムのハミルトニアン回帰の深層学習は共分散則を満たす必要があり、その中でネットワークの表現性を犠牲にすることなくso(3)等価性を達成することは、理論的等分散の保証に関する非線形写像の制限のため、難解な課題である。 共分散表現性ジレンマを緩和するために,2つの逐次回帰段階を持つハイブリッドフレームワークを提案する。 第1段階は、3次元原子系の対称性をモデル化する理論的にguaranteed covariant neural networkで、理論的に共変特徴とベースラインハミルトン予測を導き、学習共変性の第2段階を支援する。 一方, 非線形3次元グラフ変換器を用いた第2段階では, 3次元原子系の構造モデリングを提案し, 表現性に優れたハミルトンの詳細な予測として第1段階の出力を洗練する。 理論上は共変だが表現力の低いモデルと高度に表現力のある非線形ネットワークの組み合わせは、座標変換の下で堅牢な共変を維持しつつ、正確で一般化可能な予測を可能にする。 本手法は,5つの結晶材料データベースの実験により確認された電子構造計算のハミルトン予測における最先端性能を実現する。

Deep learning for Hamiltonian regression of quantum systems in material research necessitates satisfying the covariance laws, among which achieving SO(3)-equivariance without sacrificing the expressiveness of networks remains an elusive challenge due to the restriction to non-linear mappings on guaranteeing theoretical equivariance. To alleviate the covariance-expressiveness dilemma, we propose a hybrid framework with two cascaded regression stages. The first stage, with a theoretically-guaranteed covariant neural network modeling symmetry properties of 3D atom systems, yields theoretically covariant features and baseline Hamiltonian predictions, assisting the second stage in learning covariance. Meanwhile, the second stage, powered by a non-linear 3D graph Transformer network we propose for structural modeling of 3D atomic systems, refines the first stage's output as a fine-grained prediction of Hamiltonians with better expressiveness capability. The combination of a theoretically covariant yet inevitably less expressive model with a highly expressive non-linear network enables precise, generalizable predictions while maintaining robust covariance under coordinate transformations. Our method achieves state-of-the-art performance in Hamiltonian prediction for electronic structure calculations, confirmed through experiments on five crystalline material databases.
翻訳日:2024-01-04 11:11:42 公開日:2024-01-03
# オープンシーンにおける半教師付き物体検出のための信頼できる教師

Credible Teacher for Semi-Supervised Object Detection in Open Scene ( http://arxiv.org/abs/2401.00695v2 )

ライセンス: Link先を確認
Jingyu Zhuang, Kuo Wang, Liang Lin, Guanbin Li(参考訳) SSOD(Semi-Supervised Object Detection)は、ラベルのないデータを活用して検出性能を向上させることで、大きな成功を収めた。 しかし、open scene semi-supervised object detection (o-ssod) では、ラベル付きデータで観測されていない未知のオブジェクトを含む場合があり、既知のオブジェクトに対するモデルの予測の不確実性が高まる。 より不確実性が、偽ラベルのローカライズと分類精度の低下につながるため、主に自己学習に依存する現在の手法には有害である。 そこで我々は,エンドツーエンドのフレームワークであるCredible Teacherを提案する。 Credible Teacherは、フレキシブルなラベルを用いたインタラクティブな教育機構を採用し、不確実な擬似ラベルがモデルを誤解させるのを防ぐ。 実験の結果,O-SSODによる副作用を効果的に抑制し,既存手法よりも有意に優れていた。

Semi-Supervised Object Detection (SSOD) has achieved resounding success by leveraging unlabeled data to improve detection performance. However, in Open Scene Semi-Supervised Object Detection (O-SSOD), unlabeled data may contains unknown objects not observed in the labeled data, which will increase uncertainty in the model's predictions for known objects. It is detrimental to the current methods that mainly rely on self-training, as more uncertainty leads to the lower localization and classification precision of pseudo labels. To this end, we propose Credible Teacher, an end-to-end framework. Credible Teacher adopts an interactive teaching mechanism using flexible labels to prevent uncertain pseudo labels from misleading the model and gradually reduces its uncertainty through the guidance of other credible pseudo labels. Empirical results have demonstrated our method effectively restrains the adverse effect caused by O-SSOD and significantly outperforms existing counterparts.
翻訳日:2024-01-04 11:11:19 公開日:2024-01-03
# Diff-PCR:点クラウド登録のための二重確率行列空間での拡散対応検索

Diff-PCR: Diffusion-Based Correspondence Searching in Doubly Stochastic Matrix Space for Point Cloud Registration ( http://arxiv.org/abs/2401.00436v2 )

ライセンス: Link先を確認
Qianliang Wu, Haobo Jiang, Yaqing Ding, Lei Luo, Jin Xie, Jian Yang(参考訳) 点雲間の最適な対応を効果的に見つけることは、剛性および非剛性の両方の点雲登録問題を解決するために重要である。 既存の手法はしばしば幾何学的あるいは意味的な特徴の埋め込みに依存して対応を確立し、変換や流れ場を推定する。 近年、最先端の手法ではRAFTライクな反復的更新を用いてソリューションを洗練している。 しかし、これらの方法には一定の制限がある。 第一に、反復的な改善設計は透明性を欠き、反復的な更新は改良プロセス中に固定された経路を辿り、最適以下の結果をもたらす可能性がある。 第二に、これらの手法は変換や流れ場を解く前駆体として対応(あるいはマッチング行列)の精製や最適化の重要性を見落としている。 それらは通常、点特徴空間内の距離に基づいて候補対応を計算する。 しかし、彼らは候補マッチング行列をシンクホーン演算またはデュアルソフトマックス演算で一度だけある行列空間に射影し、最終的な対応を得る。 このワンショット射影マッチング行列はグローバル最適行列とは程遠い可能性があり、これらのアプローチは対象マッチング行列の分布を考慮しない。 本稿では,2次確率行列空間内の最適マッチング行列の探索勾配を予測するために,デノイング拡散モデルを用いた新しい手法を提案する。 逆復調過程において,本手法は,この復調勾配に沿った解を反復的に探索し,ターゲットマッチング行列の最大極性方向を指し示す。 提案手法は,オンラインバックボーンやホワイトノイズによって提供される任意の初期マッチング行列から検索を開始できるようにする。 3DMatch/3DLoMatchと4DMatch/4DLoMatchデータセットの実験的評価により,新たに設計されたフレームワークの有効性が示された。

Efficiently finding optimal correspondences between point clouds is crucial for solving both rigid and non-rigid point cloud registration problems. Existing methods often rely on geometric or semantic feature embedding to establish correspondences and estimate transformations or flow fields. Recently, state-of-the-art methods have employed RAFT-like iterative updates to refine the solution. However, these methods have certain limitations. Firstly, their iterative refinement design lacks transparency, and their iterative updates follow a fixed path during the refinement process, which can lead to suboptimal results. Secondly, these methods overlook the importance of refining or optimizing correspondences (or matching matrices) as a precursor to solving transformations or flow fields. They typically compute candidate correspondences based on distances in the point feature space. However, they only project the candidate matching matrix into some matrix space once with Sinkhorn or dual softmax operations to obtain final correspondences. This one-shot projected matching matrix may be far from the globally optimal one, and these approaches do not consider the distribution of the target matching matrix. In this paper, we propose a novel approach that exploits the Denoising Diffusion Model to predict a searching gradient for the optimal matching matrix within the Doubly Stochastic Matrix Space. During the reverse denoising process, our method iteratively searches for better solutions along this denoising gradient, which points towards the maximum likelihood direction of the target matching matrix. Our method offers flexibility by allowing the search to start from any initial matching matrix provided by the online backbone or white noise. Experimental evaluations on the 3DMatch/3DLoMatch and 4DMatch/4DLoMatch datasets demonstrate the effectiveness of our newly designed framework.
翻訳日:2024-01-04 11:10:39 公開日:2024-01-03