このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231227となっている論文です。

PDF登録状況(公開日: 20231227)

TitleAuthorsAbstract論文公表日・翻訳日
# トランスバーサルインジェクション:表面コードによる非パウリ固有状態の作成

Transversal Injection: Using the Surface Code to Prepare Non-Pauli Eigenstates ( http://arxiv.org/abs/2404.01301v1 )

ライセンス: Link先を確認
Jason Gavriel, Daniel Herr, Alexis Shaw, Michael J. Bremner, Alexandru Paler, Simon J. Devitt, (参考訳) 大規模アルゴリズムのための量子コンピューティングシステムの開発は、ハードウェアの進歩だけでは達成不可能なターゲット誤差率を必要とする。 量子エラー補正(QEC)により、物理量子ビットが多数存在するシステムを用いて、より少ない論理量子ビットと好ましい論理誤り率を持つフォールトトレラントシステムを構築することができる。 いくつかのゲートはQECコードで容易に実装できるが、普遍的なトランスバーサルゲートセットを持つコードは存在しない。 トランスバーサル・インジェクション(Transversal Injection)は、量子計算の資源状態として使用できる論理的非パウリ固有状態を作成する新しい方法である。 状態準備は表面コードで直接行うことができ、より高い忠実度を注入する状態を作る可能性がある。 他の技術と比較して、トランスバーサル・インジェクションは状態蒸留プロトコルの資源負担を軽減することができる。 本稿では,この新手法の背景となる理論と,表面コードで作成された論理状態を計算するアルゴリズムについて述べる。

The development of quantum computing systems for large scale algorithms requires targeted error rates unachievable through hardware advancements alone. Quantum Error Correction (QEC) allows us to use systems with a large number of physical qubits to form a fault tolerant system with a lower number of logical qubits and a favourable logical error rate. While some gates can be easily implemented in a QEC code transversally, there is no code that has a universal set of transversal gates. Transversal Injection is a new method of preparing logical non-Pauli eigenstates that can be used as resource states for quantum computation. State preparation can be done directly in the surface code and has the potential to prepare higher fidelity injected states. Compared to other techniques, transversal injection can reduce the resource burden for state distillation protocols. In this paper, the authors present the theory behind this new technique as well as an algorithm for calculating the resulting logical states prepared in the surface code.
翻訳日:2024-07-01 12:18:29 公開日:2023-12-27
# 分析駆動アタックグラフ生成のためのスケーラブルなフレームワーク

It Is Time To Steer: A Scalable Framework for Analysis-driven Attack Graph Generation ( http://arxiv.org/abs/2312.16513v1 )

ライセンス: Link先を確認
Alessandro Palma, Marco Angelini, (参考訳) 高度なサイバー攻撃が毎日発生している現代のコンピュータネットワークでは、タイムリーなサイバーリスク評価が最重要である。 アタックグラフ(AG)は、コンピュータネットワーク上でのマルチステップ攻撃をモデル化し解析するのに最も適したソリューションである。 本稿では,AG生成のための分析駆動型フレームワークを紹介する。 定量的な統計的意義を持つAG生成が完了する前に、リアルタイムな攻撃経路解析を可能にする。 我々は、分析クエリをステアリングし、アナリストがいつでもシステムに問い合わせることのできる新しいワークフローをサポートすることにより、AG生成をさらに加速する。 提案手法の有効性を示すため,提案手法を定量的に検証し,前例のない規模のネットワークを実例として提示する。 これは、拡張性と共通の攻撃経路解析に適合するという点で、我々のアプローチの利点を実証するものである。

In modern computer networks where sophisticated cyber attacks occur daily, a timely cyber risk assessment becomes paramount. Attack Graph (AG) represents the best-suited solution to model and analyze multi-step attacks on computer networks, although they suffer from poor scalability due to their combinatorial complexity. This paper introduces an analysis-driven framework for AG generation. It enables real-time attack path analysis before the completion of the AG generation with a quantifiable statistical significance. We further accelerate the AG generation by steering it with the analysis query and supporting a novel workflow in which the analyst can query the system anytime. To show the capabilities of the proposed framework, we perform an extensive quantitative validation and we present a realistic case study on networks of unprecedented size. It demonstrates the advantages of our approach in terms of scalability and fitting to common attack path analyses.
翻訳日:2024-03-18 11:18:35 公開日:2023-12-27
# Ethereumスマートコントラクトのための脆弱性スキャナ - 大規模調査

Vulnerability Scanners for Ethereum Smart Contracts: A Large-Scale Study ( http://arxiv.org/abs/2312.16533v1 )

ライセンス: Link先を確認
Christoph Sendner, Lukas Petzi, Jasper Stang, Alexandra Dmitrienko, (参考訳) 数百万ドルを超える資産を管理するブロックチェーン上の自律的な分散アプリケーションであるEthereumスマートコントラクトは、サイバー攻撃の主要なターゲットとなっている。 2023年だけでも、そのような脆弱性は数十億ドルを超える巨額の損失をもたらした。 これらの脅威に対処するため、スマートコントラクトの脆弱性を検出し緩和するために、学術的および商業的な組織によって様々なツールが開発されている。 本研究は,既存のセキュリティスキャナの有効性と,現在も継続している脆弱性とのギャップについて検討する。 この分析のために4つの異なるデータセットをまとめた。 第1データセットは、ブロックチェーンから直接抽出された77,219のソースコードで構成され、第2データセットにはEthereum Mainnetとtestnetから得られた400万以上のバイトコードが含まれている。 他の2つのデータセットは、手動で注釈付けされたスマートコントラクトと監査を通じて検証された373のスマートコントラクトで構成される。 ラベル付きデータセットを用いて,17個の脆弱性スキャナの総合的定量的評価を行った。 根拠となる真実のデータセットの分析では、テストしたすべてのツールのパフォーマンスが低かったことが分かりました。 この研究は、パフォーマンスが低かった理由を明らかにし、スマートコントラクトセキュリティの現在の最先端技術が、オープンな問題に効果的に対処するのに不足していることを強調し、脆弱性を効果的に検出するという課題が重要で未解決の問題のままであることを強調した。

Ethereum smart contracts, which are autonomous decentralized applications on the blockchain that manage assets often exceeding millions of dollars, have become primary targets for cyberattacks. In 2023 alone, such vulnerabilities led to substantial financial losses exceeding a billion of US dollars. To counter these threats, various tools have been developed by academic and commercial entities to detect and mitigate vulnerabilities in smart contracts. Our study investigates the gap between the effectiveness of existing security scanners and the vulnerabilities that still persist in practice. We compiled four distinct datasets for this analysis. The first dataset comprises 77,219 source codes extracted directly from the blockchain, while the second includes over 4 million bytecodes obtained from Ethereum Mainnet and testnets. The other two datasets consist of nearly 14,000 manually annotated smart contracts and 373 smart contracts verified through audits, providing a foundation for a rigorous ground truth analysis on bytecode and source code. Using the unlabeled datasets, we conducted a comprehensive quantitative evaluation of 17 vulnerability scanners, revealing considerable discrepancies in their findings. Our analysis of the ground truth datasets indicated poor performance across all the tools we tested. This study unveils the reasons for poor performance and underscores that the current state of the art for smart contract security falls short in effectively addressing open problems, highlighting that the challenge of effectively detecting vulnerabilities remains a significant and unresolved issue.
翻訳日:2024-03-18 11:18:35 公開日:2023-12-27
# FreqyWM: 新たなデータ経済のための周波数透かし

FreqyWM: Frequency Watermarking for the New Data Economy ( http://arxiv.org/abs/2312.16547v1 )

ライセンス: Link先を確認
Devriş İşler, Elisa Cabana, Alvaro Garcia-Recuero, Georgia Koutrika, Nikolaos Laoutaris, (参考訳) 本稿では,データセット内のいくつかのトークンの出現頻度を調整し,データ上の所有権を保護するために使用可能な,目に見えない透かしを符号化する手法を提案する。 我々はこのような透かしを作成し検証するための最適かつ高速なヒューリスティックアルゴリズムを開発した。 また,本手法の各種攻撃に対する堅牢性を示すとともに,それを持たないデータセット上の透かしを誤って検出する誤検出確率について解析的境界を導出する。 本手法は, 単一次元および多次元のデータセットに適用可能であり, トークン型とは独立であり, 導入した歪みのきめ細かい制御が可能であり, 現代のデータ市場におけるデータの売買に関わるさまざまなユースケースで利用することができる。

We present a novel technique for modulating the appearance frequency of a few tokens within a dataset for encoding an invisible watermark that can be used to protect ownership rights upon data. We develop optimal as well as fast heuristic algorithms for creating and verifying such watermarks. We also demonstrate the robustness of our technique against various attacks and derive analytical bounds for the false positive probability of erroneously detecting a watermark on a dataset that does not carry it. Our technique is applicable to both single dimensional and multidimensional datasets, is independent of token type, allows for a fine control of the introduced distortion, and can be used in a variety of use cases that involve buying and selling data in contemporary data marketplaces.
翻訳日:2024-03-18 11:18:35 公開日:2023-12-27
# Zero-Trust 6GCに向けて:動的移動目標防御機構を用いたソフトウェア定義周辺手法

Towards Zero-Trust 6GC: A Software Defined Perimeter Approach with Dynamic Moving Target Defense Mechanism ( http://arxiv.org/abs/2312.17271v1 )

ライセンス: Link先を確認
Zeyad Abdelhay, Yahuza Bello, Ahmed Refaey, (参考訳) 6G(Sixth Generation)ネットワークは,アクセス制御や認証,6G Core(6GC)エンティティ間のセキュアな接続,信頼性といった,さまざまなセキュリティ上の問題に対処するために計画されている。 Evolved Packet Core(EPC)ネットワークインフラストラクチャに広くデプロイされている古典的仮想プライベートネットワーク(VPN)は、man-in-the-middleインキュレーション、DNS(Domain Name System)ハイジャック、DoS(DoS)攻撃、ポートスキャニング、永続的不正アクセスの試みなど、さまざまな攻撃を受けやすいことで知られている。 本稿では,SDP(Software Defined Perimeter)の概念を革新的ソリューションとして紹介し,6G Coreネットワーク内でセキュアなゼロトラスト緩和を促進することを目的としたVPNの代替手段を提供する。 我々は、SDPコントローラベースの認証と認証機構を利用して、EPCネットワークの制御機能とデータプレーン機能を確保し、6Gネットワークに拡張可能なアーキテクチャを考案する。 さらに、動的コンポーネントである移動目標防衛(MTD)を組み込むことにより、SDPゼロトラスト機能を増強する。 これにより、VPNを通じて確立された従来の静的ネットワーク環境をターゲットにした攻撃に対するネットワークのレジリエンスが向上する。 厳密なテストベッド分析の結果,従来のVPN手法を併用した場合に,DoSに対する優れたレジリエンスとポートスキャニング攻撃が認められた。

The upcoming Sixth Generation (6G) network is projected to grapple with a range of security concerns, encompassing access control, authentication, secure connections among 6G Core (6GC) entities, and trustworthiness. Classical Virtual Private Networks (VPNs), extensively deployed in Evolved Packet Core (EPC) network infrastructure, are notoriously susceptible to a variety of attacks, including man-in-the-middle incursions, Domain Name System (DNS) hijacking, Denial of Service (DoS) attacks, port scanning, and persistent unauthorized access attempts. This paper introduces the concept of Software Defined Perimeter (SDP) as an innovative solution, providing an alternative to VPNs with the goal of fostering a secure zero-trust milieu within the 6G Core networks. We capitalize on the SDP controller-based authentication and authorization mechanisms to secure the EPC network's control and data plane functions, conceiving an architecture that is expansible to the 6G network. Further, we augment the SDP zero-trust capabilities via the incorporation of a dynamic component, the Moving Target Defense (MTD). This enhances the network's resilience against attacks targeting traditionally static network environments established via VPNs. Following rigorous testbed analysis, our proposed framework manifests superior resilience against DoS and port scanning attacks when juxtaposed with traditional VPN methodologies.
翻訳日:2024-03-18 11:08:48 公開日:2023-12-27
# 量子化可能性問題に対する推定論的アプローチ

An estimation theoretic approach to quantum realizability problems ( http://arxiv.org/abs/2402.10902v1 )

ライセンス: Link先を確認
Thomas C. Fraser, (参考訳) この論文は、いわゆる量子可逆性(quantum realizability)問題(quantum realizability)を解く一般的な方法の開発を目指している。 この論文で採用されるアプローチは、未知の量子状態の性質を学習または推定することに関わる特性推定の関連問題のために以前に開発された数学的手法を活用することである。 私たちの一番の成果は、一致を認識することです。 i) ある量子状態によって実現される性質値、及び (ii) 一般的な量子状態の推定値として時折生成される特性値。 第3章は、簡約群の作用の下で量子状態の流れを特徴づけるために、幾何不変理論と非可換最適化理論から安定性とノルム最小化の概念をレビューする。 第4章では、この流れの勾配(モーメントマップとも呼ばれる)が、多くの同一の量子状態のコピー上で共変量子測定を行うことによってどのように推定されるかを示す。 第5章では、片手でモーメントマップ値の実現可能性と、他方で推定される漸近可能性との対応を概説している。 これらのモーメントマップ推定スキームを適切に構成することにより、モーメントマップの有限個の集合を共同で実現する量子状態の存在に対して必要かつ十分な条件を導出する。 第6章はこれらの知見を量子境界問題に適用し、arXiv:2211.00685の重複である。

This thesis seeks to develop a general method for solving so-called quantum realizability problems, which are questions of the following form: under which conditions does there exist a quantum state exhibiting a given collection of properties? The approach adopted by this thesis is to utilize mathematical techniques previously developed for the related problem of property estimation which is concerned with learning or estimating the properties of an unknown quantum state. Our primary result is to recognize a correspondence between (i) property values which are realized by some quantum state, and (ii) property values which are occasionally produced as estimates of a generic quantum state. Chapter 3 reviews concepts of stability and norm minimization from geometric invariant theory and non-commutative optimization theory for the purposes of characterizing the flow of a quantum state under the action of a reductive group. Chapter 4 demonstrates how the gradient of this flow, also called the moment map, can be estimated by performing a covariant quantum measurement on a large number of identical copies of the quantum state. Chapter 5 outlines the correspondence between between the realizability of a moment map value on one hand and the asymptotic likelihood it is produced as an estimate on the other hand. By appropriately composing these moment map estimation schemes, we derive necessary and sufficient conditions for the existence of a quantum state jointly realizing any finite collection of moment maps. Chapter 6 applies these insights to the quantum marginal problem and is a duplication of arXiv:2211.00685.
翻訳日:2024-03-18 07:28:31 公開日:2023-12-27
# トレーディングオフはなし。 gptと完全な情報プライバシーポリシー

No More Trade-Offs. GPT and Fully Informative Privacy Policies ( http://arxiv.org/abs/2402.00013v1 )

ライセンス: Link先を確認
Przemys{\l}aw Pa{\l}ka and Marco Lippi and Francesca Lagioia and R\=uta Liepi\c{n}a and Giovanni Sartor(参考訳) 本稿は,チャットgpt 3.5と4が提案する新しいフォーマットでデザインされたプライバシーポリシーに関する質問に答えられるかどうかをテストする実験の結果を報告する。 人間のみの通訳の世界では、プライバシーポリシーの包括性と理解性の間にトレードオフがあり、ユーザが意味のあることを学べる十分な情報を含んでいない実際のポリシーにつながった。 gptが新しいフォーマットで比較的うまく機能していることが示されているので、当社のポリシー提案を支持する実験的な証拠を提供します。

The paper reports the results of an experiment aimed at testing to what extent ChatGPT 3.5 and 4 is able to answer questions regarding privacy policies designed in the new format that we propose. In a world of human-only interpreters, there was a trade-off between comprehensiveness and comprehensibility of privacy policies, leading to the actual policies not containing enough information for users to learn anything meaningful. Having shown that GPT performs relatively well with the new format, we provide experimental evidence supporting our policy suggestion, namely that the law should require fully comprehensive privacy policies, even if this means they become less concise.
翻訳日:2024-02-11 17:27:34 公開日:2023-12-27
# 教育用大規模言語モデルへの適応 : 基礎的能力・可能性・課題

Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges ( http://arxiv.org/abs/2401.08664v1 )

ライセンス: Link先を確認
Qingyao Li, Lingyue Fu, Weiming Zhang, Xianyu Chen, Jingwei Yu, Wei Xia, Weinan Zhang, Ruiming Tang, Yong Yu(参考訳) インターネットを利用して教育リソースを配布するオンライン教育プラットフォームは、便利な教育を提供しようとするが、学生とのリアルタイムコミュニケーションでは不足することが多い。 彼らはしばしば、学習旅行中に学生が遭遇する多様な障害に対処するため、パーソナライズされた教育資源を提供するのに苦労する。 近年、ChatGPTのような大規模言語モデル(LLM)の出現は、個々の要求を解釈することでこの問題を解決する可能性を秘めている。 LLMは様々な分野で成功を収めてきたが、LLMベースの教育システムの構築は、必要な幅広い教育スキルにおいて依然として困難である。 本稿では,近年発表された数学,文章,プログラミング,推論,知識に基づく質問応答など教育能力に関するllm研究を概観し,次世代知的教育システム構築におけるその可能性について考察する。 現在の開発状況に基づいて,LLM ベースの教育システムに対する2つのアプローチについて概説する:統一的アプローチと総合的アプローチ (MoE) である。 最後に,課題と今後の方向性を探求し,LLMを教育に適応するための新たな研究機会と視点を提供する。

Online education platforms, leveraging the internet to distribute education resources, seek to provide convenient education but often fall short in real-time communication with students. They often struggle to offer personalized education resources due to the challenge of addressing the diverse obstacles students encounter throughout their learning journey. Recently, the emergence of large language models (LLMs), such as ChatGPT, offers the possibility for resolving this issue by comprehending individual requests. Although LLMs have been successful in various fields, creating an LLM-based education system is still challenging for the wide range of educational skills required. This paper reviews the recently emerged LLM researches related to educational capabilities, including mathematics, writing, programming, reasoning, and knowledge-based question answering, with the aim to explore their potential in constructing the next-generation intelligent education system. Based on the current development status, we further outline two approaches for an LLM-based education system: a unified approach and a mixture-of-expert (MoE) approach. Finally, we explore the challenges and future directions, providing new research opportunities and perspectives on adapting LLMs for education.
翻訳日:2024-01-22 09:38:56 公開日:2023-12-27
# 限定パイロット実証データを用いたロバストアジャイル航空機制御のための統合的模倣・強化学習手法

An Integrated Imitation and Reinforcement Learning Methodology for Robust Agile Aircraft Control with Limited Pilot Demonstration Data ( http://arxiv.org/abs/2401.08663v1 )

ライセンス: Link先を確認
Gulay Goktas Sever, Umut Demir, Abdullah Sadik Satir, Mustafa Cagatay Sahin, Nazim Kemal Ure(参考訳) 本稿では,多種多様なトリム条件と航空機モデルパラメータを一般化した,アジャイル航空機のデータ駆動操作生成モデルを構築する手法を提案する。 機動生成モデルは、航空機の試作機の試験と評価において重要な役割を担っており、機動性と機敏性に関する洞察を提供している。 しかし、モデルの構築は通常、膨大な量の実際のパイロットデータを必要とする。 さらに、限られたデータで構築されたモデルは、元のデータセットでカバーされた特定の飛行条件を超えて一般化するのに苦労することが多い。 これらの課題に対処するため,我々は,ソースモデルと呼ばれるシミュレーションモデルを活用したハイブリッドアーキテクチャを提案する。 このオープンソースのアジャイル航空機シミュレータは、ターゲット機と同じようなダイナミクスを共有し、プロキシ操作生成モデルを構築するために無制限のデータを生成することができます。 次に、実際のパイロットデータだけを使って、このモデルを目標機に微調整する。 この目的を達成するために,模倣学習,転送学習,強化学習といった手法を組み合わせる。 提案手法を検証するため,トルコ航空宇宙工業(TAI)が提供する実際のアジャイルパイロットデータを利用した。 F-16をソースモデルとして使用することにより、実際のパイロットデータを必要とすることなく、様々なトリム条件や航空機パラメータをまたいだ操作生成モデルを構築することができることを示す。 この結果は、アジャイル航空機の堅牢で適応可能なモデル開発における我々のアプローチの有効性を示している。

In this paper, we present a methodology for constructing data-driven maneuver generation models for agile aircraft that can generalize across a wide range of trim conditions and aircraft model parameters. Maneuver generation models play a crucial role in the testing and evaluation of aircraft prototypes, providing insights into the maneuverability and agility of the aircraft. However, constructing the models typically requires extensive amounts of real pilot data, which can be time-consuming and costly to obtain. Moreover, models built with limited data often struggle to generalize beyond the specific flight conditions covered in the original dataset. To address these challenges, we propose a hybrid architecture that leverages a simulation model, referred to as the source model. This open-source agile aircraft simulator shares similar dynamics with the target aircraft and allows us to generate unlimited data for building a proxy maneuver generation model. We then fine-tune this model to the target aircraft using a limited amount of real pilot data. Our approach combines techniques from imitation learning, transfer learning, and reinforcement learning to achieve this objective. To validate our methodology, we utilize real agile pilot data provided by Turkish Aerospace Industries (TAI). By employing the F-16 as the source model, we demonstrate that it is possible to construct a maneuver generation model that generalizes across various trim conditions and aircraft parameters without requiring any additional real pilot data. Our results showcase the effectiveness of our approach in developing robust and adaptable models for agile aircraft.
翻訳日:2024-01-22 09:38:36 公開日:2023-12-27
# 階層的深層強化学習に基づく車両重みを考慮したリスク予測自律運転戦略

Risk-anticipatory autonomous driving strategies considering vehicles' weights, based on hierarchical deep reinforcement learning ( http://arxiv.org/abs/2401.08661v1 )

ライセンス: Link先を確認
Di Chen, Hao Li, Zhicheng Jin and Huizhao Tu(参考訳) 自動運転車(avs)は、ドライバーのエラーによる事故を防止し、道路交通のリスクを減らす可能性がある。 衝突がより深刻な事故を引き起こす重車両の性質のため、自動運転車の潜在的なリスクと結果の低減を目的とした運転戦略を行う際には、車両の重量を考慮する必要がある。 本研究では,周囲車両の重みを考慮し,階層的深層強化学習を用いて,リスク予測に基づく自律運転戦略を開発する。 リスクフィールド理論に基づき、周囲の車両の重量を統合するリスク指標が提案され、自動運転決定に組み込まれている。 ハイブリッドアクションスペースは、左車線変更、右車線変更、車の追尾を可能にするように設計されている。 上記のハイブリッド意思決定問題を解決するため,階層的近似ポリシ最適化(HPPO)アルゴリズムを開発し,アテンション機構を導入し,安定した性能を維持する上で大きなメリットをもたらす。 コンフリクト(PCEC)における潜在的な衝突エネルギーの指標として,潜在的な事故の可能性を両面から検討する。 シミュレーションにより,本モデルが運転効率の維持と同時に,潜在的な事故の可能性と結果の両方を低減できる運転戦略を提供することを示す。 この手法は、高速道路を走行するavsにとって特に有意義であり、重自動車が交通の比率が高い。

Autonomous vehicles (AVs) have the potential to prevent accidents caused by drivers' error and reduce road traffic risks. Due to the nature of heavy vehicles, whose collisions cause more serious crashes, the weights of vehicles need to be considered when making driving strategies aimed at reducing the potential risks and their consequences in the context of autonomous driving. This study develops an autonomous driving strategy based on risk anticipation, considering the weights of surrounding vehicles and using hierarchical deep reinforcement learning. A risk indicator integrating surrounding vehicles' weights, based on the risk field theory, is proposed and incorporated into autonomous driving decisions. A hybrid action space is designed to allow for left lane changes, right lane changes and car-following, which enables AVs to act more freely and realistically whenever possible. To solve the above hybrid decision-making problem, a hierarchical proximal policy optimization (HPPO) algorithm is developed and an attention mechanism is incorporated, providing great advantages in maintaining stable performance. An indicator, potential collision energy in conflicts (PCEC), is newly proposed to evaluate the performance of the developed AV driving strategy from both the perspectives of the likelihood and the consequences of potential accidents. An application is carried out and the simulation results demonstrate that our model provides driving strategies that reduce both the likelihood and consequences of potential accidents, at the same time maintaining driving efficiency. The developed method is especially meaningful for AVs driving on highways, where heavy vehicles make up a high proportion of the traffic.
翻訳日:2024-01-22 09:38:12 公開日:2023-12-27
# gpt-4vに敗れたgemini pro: 教育からの証拠

Gemini Pro Defeated by GPT-4V: Evidence from Education ( http://arxiv.org/abs/2401.08660v1 )

ライセンス: Link先を確認
Gyeong-Geon Lee, Ehsan Latif, Lehong Shi, and Xiaoming Zhai(参考訳) 本研究では,Gemini ProとGPT-4Vの教育環境における分類性能を比較した。 視覚的質問応答(VQA)技術を用いて、両モデルがテキストベースルーブリックを読み取る能力を調べ、科学教育において学生が描いたモデルを自動的に評価した。 学生の科学的モデルから得られたデータセットを用いて定量的・質的分析を行い,nerif (notation-enhanced rubrics for image feedback) プロンプト手法を用いた。 その結果,GPT-4VはGemini Proと4重み付きKappaより有意に優れていた。 質的分析の結果,画像中のきめ細かなテキストを処理できることと,画像の分類性能に違いがあることが判明した。 入力画像のデサイズ化によって NERIF アプローチに適応しても,Gemini Pro は GPT-4V と同等に動作しないようだ。 以上の結果から,gpt-4vは複雑なマルチモーダル教育タスクに優れていることが示唆された。 この研究は、両方のモデルがAIの進歩を表す一方で、GPT-4Vのより高い性能は、マルチモーダルデータ解釈を含む教育アプリケーションに適したツールであると結論付けている。

This study compared the classification performance of Gemini Pro and GPT-4V in educational settings. Employing visual question answering (VQA) techniques, the study examined both models' abilities to read text-based rubrics and then automatically score student-drawn models in science education. We employed both quantitative and qualitative analyses using a dataset derived from student-drawn scientific models and employing NERIF (Notation-Enhanced Rubrics for Image Feedback) prompting methods. The findings reveal that GPT-4V significantly outperforms Gemini Pro in terms of scoring accuracy and Quadratic Weighted Kappa. The qualitative analysis reveals that the differences may be due to the models' ability to process fine-grained texts in images and overall image classification performance. Even adapting the NERIF approach by further de-sizing the input images, Gemini Pro seems not able to perform as well as GPT-4V. The findings suggest GPT-4V's superior capability in handling complex multimodal educational tasks. The study concludes that while both models represent advancements in AI, GPT-4V's higher performance makes it a more suitable tool for educational applications involving multimodal data interpretation.
翻訳日:2024-01-22 09:37:46 公開日:2023-12-27
# 高度なテキスト分析情報システム研究のための大規模言語モデル

Large Language Models for Conducting Advanced Text Analytics Information Systems Research ( http://arxiv.org/abs/2312.17278v1 )

ライセンス: Link先を確認
Benjamin M. Ampel, Chi-Heng Yang, James Hu, and Hsinchun Chen(参考訳) デジタルコンテンツの指数的成長は大量のテキストデータセットを生成し、高度な分析アプローチを必要とする。 大規模言語モデル(llm)は、巨大な非構造化テキストデータセットから洞察を処理し抽出するツールとして登場した。 しかし、テキストベース情報システム(IS)研究にLLMを利用する方法はまだ不明である。 LLMの運用方法を理解するためのIS研究を支援するために,情報システム研究のためのテキスト分析フレームワーク(TAISR)を提案する。 提案フレームワークは,IS と LLM の文献に根ざした,有意義なテキストベースの IS 研究の実施方法に関する詳細な勧告を提供する。 taisrフレームワークを使用して、ビジネスインテリジェンスに関する3つのケーススタディを行い、いくつかのis研究のコンテキストでその応用を実証しました。 また、IS に LLM を採用する際の潜在的な課題と限界についても概説する。 我々のTAISRフレームワークは、その実用性に関する体系的なアプローチと証拠を提供することで、テキスト分析に強力なLLMを組み込もうとする将来のIS研究ストリームに寄与する。

The exponential growth of digital content has generated massive textual datasets, necessitating advanced analytical approaches. Large Language Models (LLMs) have emerged as tools capable of processing and extracting insights from massive unstructured textual datasets. However, how to leverage LLMs for text-based Information Systems (IS) research is currently unclear. To assist IS research in understanding how to operationalize LLMs, we propose a Text Analytics for Information Systems Research (TAISR) framework. Our proposed framework provides detailed recommendations grounded in IS and LLM literature on how to conduct meaningful text-based IS research. We conducted three case studies in business intelligence using our TAISR framework to demonstrate its application across several IS research contexts. We also outline potential challenges and limitations in adopting LLMs for IS. By offering a systematic approach and evidence of its utility, our TAISR framework contributes to future IS research streams looking to incorporate powerful LLMs for text analytics.
翻訳日:2024-01-15 12:39:01 公開日:2023-12-27
# PanGu-$\pi$: 非線形性補償による言語モデルアーキテクチャの強化

PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity Compensation ( http://arxiv.org/abs/2312.17276v1 )

ライセンス: Link先を確認
Yunhe Wang, Hanting Chen, Yehui Tang, Tianyu Guo, Kai Han, Ying Nie, Xutao Wang, Hailin Hu, Zheyuan Bai, Yun Wang, Fangcheng Liu, Zhicheng Liu, Jianyuan Guo, Sinan Zeng, Yinchen Zhang, Qinghua Xu, Qun Liu, Jun Yao, Chao Xu, Dacheng Tao(参考訳) 大規模言語モデル(LLMs)の最近のトレンドは、モデルサイズ(パラメータの数)とデータセットの両方のスケールを拡大して、より優れた生成能力を実現することである。 しかし、大規模なモデルは計算コストが大きすぎることが多く、実用的な用途ではそのような高額な価格が得られない。 しかし、LLMのための強力なモデルアーキテクチャを構築する方法はめったに論じられていない。 まず,最先端言語モデルアーキテクチャを分析し,機能崩壊問題を観察した。 理論的解析に基づいて,視覚タスクのための畳み込みニューラルネットワークで研究される言語モデルにおいても,非線形性が極めて重要であることを示唆する。 一連の情報伝達活性化関数は無視可能な小さな計算で導入され、モデル非線形性を高めるために拡張ショートカットがさらに使用される。 提案手法は, モデル非線形性の向上に極めて有効であることを示し, 近代的, すなわち PanGu-$\pi$ を確立するために, より効率的なモデルアーキテクチャを提案する。 次に同じデータセットとトレーニング戦略を使用して実験を行い、PanGu-$\pi$と最先端のLLMを比較する。 その結果,PanGu-$\pi$-7Bは推定速度が約10\%のベンチマークに匹敵する性能を達成でき,PanGu-$\pi$-1Bは精度と効率で最先端のパフォーマンスを達成できることがわかった。 さらに,PanGu-$\pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。 結果は、YunShanがベンチマークで同様のスケールで他のモデルを上回ることができることを示している。

The recent trend of large language models (LLMs) is to increase the scale of both model size (\aka the number of parameters) and dataset to achieve better generative ability, which is definitely proved by a lot of work such as the famous GPT and Llama. However, large models often involve massive computational costs, and practical applications cannot afford such high prices. However, the method of constructing a strong model architecture for LLMs is rarely discussed. We first analyze the state-of-the-art language model architectures and observe the feature collapse problem. Based on the theoretical analysis, we propose that the nonlinearity is also very important for language models, which is usually studied in convolutional neural networks for vision tasks. The series informed activation function is then introduced with tiny calculations that can be ignored, and an augmented shortcut is further used to enhance the model nonlinearity. We then demonstrate that the proposed approach is significantly effective for enhancing the model nonlinearity through carefully designed ablations; thus, we present a new efficient model architecture for establishing modern, namely, PanGu-$\pi$. Experiments are then conducted using the same dataset and training strategy to compare PanGu-$\pi$ with state-of-the-art LLMs. The results show that PanGu-$\pi$-7B can achieve a comparable performance to that of benchmarks with about 10\% inference speed-up, and PanGu-$\pi$-1B can achieve state-of-the-art performance in terms of accuracy and efficiency. In addition, we have deployed PanGu-$\pi$-7B in the high-value domains of finance and law, developing an LLM named YunShan for practical application. The results show that YunShan can surpass other models with similar scales on benchmarks.
翻訳日:2024-01-15 12:38:45 公開日:2023-12-27
# 量子場理論における状態空間の部分対象への分解

Decomposition of State Spaces into Subobjects in Quantum Field Theory ( http://arxiv.org/abs/2312.17275v1 )

ライセンス: Link先を確認
Pierre Gosselin (IF)(参考訳) 本稿では、量子場の状態空間をいくつかの絡み合ったサブオブジェクト、すなわち状態の部分空間を生成するフィールドに分解するための包括的形式論を導入する。 縮退した背景状態へのいくつかのサブオブジェクトの投影は、縮退を表すパラメータに依存する有効場理論にシステムを還元する。 特に、これらのパラメータは外在的ではない。 初期系におけるサブオブジェクト間の絡み合いはパラメータと非投影サブオブジェクトの相互関係として現れる。 この依存関係をアンタングすることは、有効場に線形一階方程式を課す必要がある。 パラメータ空間の幾何学的特性は、投影された部分対象の有効場と背景の両方に依存する。 任意の変数によって制御される系はダイナミクスを持たないが、いくつかの部分対象の射影はパラメータ依存作用素の最小固有値に従って元の状態空間をスライスすると解釈できる。 スライスには、これらの固有値に基づいて、相互の遷移に類似した振幅が与えられる。 可能な全ての遷移平均化は、固有値が減少する写像よりも固有値が増加する写像の方が振幅が高いことを示している。

This paper introduces a comprehensive formalism for decomposing the state space of a quantum field into several entangled subobjects, i.e., fields generating a subspace of states. Projecting some of the subobjects onto degenerate background states reduces the system to an effective field theory depending on parameters representing the degeneracies. Notably, these parameters are not exogenous. The entanglement among subobjects in the initial system manifests as an interrelation between parameters and non-projected subobjects. Untangling this dependency necessitates imposing linear first-order equations on the effective field. The geometric characteristics of the parameter spaces depend on both the effective field and the background of the projected subobjects. The system, governed by arbitrary variables, has no dynamics, but the projection of some subobjects can be interpreted as slicing the original state space according to the lowest eigenvalues of a parameter-dependent family of operators. The slices can be endowed with amplitudes similar to some transitions between each other, contingent upon these eigenvalues. Averaging over all possible transitions shows that the amplitudes are higher for maps with increased eigenvalue than for maps with decreasing eigenvalue.
翻訳日:2024-01-15 12:38:15 公開日:2023-12-27
# RefineNet: 階層型変換器とプログレッシブ・リファインメントによる高分解能・詳細精度でテキスト・画像変換を実現する

RefineNet: Enhancing Text-to-Image Conversion with High-Resolution and Detail Accuracy through Hierarchical Transformers and Progressive Refinement ( http://arxiv.org/abs/2312.17274v1 )

ライセンス: Link先を確認
Fan Shi(参考訳) 本研究では,テキスト・画像変換システムにおける解像度制限に対処する新しいアーキテクチャであるRefineNetを紹介する。 本研究では,テキスト記述から高解像度画像を生成する際の課題を,精度と計算効率のトレードオフに着目して検討する。 refinenetは階層的トランスフォーマーとプログレッシブ・コンディショナル・リファインメント技術を組み合わせて、既存のモデルを上回って、詳細な高品質な画像を生成する。 多様なデータセットに関する広範な実験を通じて、特に動物、植物、人間の顔のような複雑な画像カテゴリにおいて、RefineNetの明快さと解像度の優位性を実証した。 我々の研究は、画像からテキストへの変換の分野を前進させるだけでなく、様々なアプリケーションにおいて高忠実度画像生成のための新たな道を開く。

In this research, we introduce RefineNet, a novel architecture designed to address resolution limitations in text-to-image conversion systems. We explore the challenges of generating high-resolution images from textual descriptions, focusing on the trade-offs between detail accuracy and computational efficiency. RefineNet leverages a hierarchical Transformer combined with progressive and conditional refinement techniques, outperforming existing models in producing detailed and high-quality images. Through extensive experiments on diverse datasets, we demonstrate RefineNet's superiority in clarity and resolution, particularly in complex image categories like animals, plants, and human faces. Our work not only advances the field of image-to-text conversion but also opens new avenues for high-fidelity image generation in various applications.
翻訳日:2024-01-15 12:37:56 公開日:2023-12-27
# RGBTオブジェクト追跡を支援するXモード

X Modality Assisting RGBT Object Tracking ( http://arxiv.org/abs/2312.17273v1 )

ライセンス: Link先を確認
Zhaisheng Ding, Haiyan Li, Ruichao Hou, Yanyu Liu, Shidong Xie, Dongming Zhou and Jinde Cao(参考訳) 堅牢なマルチモーダル特徴表現の学習は、トラッキング性能の向上に不可欠である。 この目的のために,視覚オブジェクト追跡を3つの異なるレベルに分離し,その後の処理を容易にすることで,融合パラダイムの影響を緩和する新しいX-Modality Assisting Network(X-Net)を提案する。 まず,RGBと熱モダリティの相違から生じる特徴学習のハードルに対処するために,自己知識蒸留学習に基づくプラグ・アンド・プレイ・ピクセルレベルの生成モジュール(PGM)を提案する。 続いて, 最適なサンプル特徴表現を実現し, クロスモーダル相互作用を容易にするために, 混合特徴相互作用変換器と空間次元特徴変換戦略を組み込んだ機能レベル相互作用モジュール (fim) を提案する。 最終的に、インスタンス機能不足によるランダムなドリフトを目指して、光フローとリファインメント機構を含む決定レベルリファインメントモジュール(drm)と呼ばれる柔軟なオンライン最適化戦略を提案する。 提案したX-Netが最先端トラッカーより優れていることを示す3つのベンチマークで実験を行った。

Learning robust multi-modal feature representations is critical for boosting tracking performance. To this end, we propose a novel X Modality Assisting Network (X-Net) to shed light on the impact of the fusion paradigm by decoupling the visual object tracking into three distinct levels, facilitating subsequent processing. Firstly, to tackle the feature learning hurdles stemming from significant differences between RGB and thermal modalities, a plug-and-play pixel-level generation module (PGM) is proposed based on self-knowledge distillation learning, which effectively generates X modality to bridge the gap between the dual patterns while reducing noise interference. Subsequently, to further achieve the optimal sample feature representation and facilitate cross-modal interactions, we propose a feature-level interaction module (FIM) that incorporates a mixed feature interaction transformer and a spatial-dimensional feature translation strategy. Ultimately, aiming at random drifting due to missing instance features, we propose a flexible online optimized strategy called the decision-level refinement module (DRM), which contains optical flow and refinement mechanisms. Experiments are conducted on three benchmarks to verify that the proposed X-Net outperforms state-of-the-art trackers.
翻訳日:2024-01-15 12:37:39 公開日:2023-12-27
# シミュレートアニーリングにおける0/1行列分解を効率よく解くための整列線形型コスト関数を用いたエネルギー景観の勾配生成

Generating gradients in the energy landscape using rectified linear type cost functions for efficiently solving 0/1 matrix factorization in Simulated Annealing ( http://arxiv.org/abs/2312.17272v1 )

ライセンス: Link先を確認
Makiko Konoshima, Hirotaka Tamura, and Yoshiyuki Kabashima(参考訳) 0/1行列分解(0/1 matrix factorization)は、行列積を論理および積和演算子として定義し、様々な決定過程に影響を与える因子を明らかにする。 インスタンスとその特性は行と列に配列される。 エネルギー最小化問題としての行列分解の定式化とシミュレート・アナリング(SA)による探索により、理論上は最小解を十分な時間で見つけることができる。 しかし, エネルギー景観が平坦な斜面を持つ高原が多い場合, 実用時間における最適解の探索が問題となる。 本研究では,現代的なアニーリングマシンで容易に使用可能な整流線形型コスト関数を用いて,エネルギー景観に勾配を適用することで,解過程を容易にする手法を提案する。 また,探索中にコスト関数の勾配を更新することにより,解を迅速に得る手法を提案する。 数値実験を行い、ノイズのない人工データと実データの両方で手法の有効性を確認した。

The 0/1 matrix factorization defines matrix products using logical AND and OR as product-sum operators, revealing the factors influencing various decision processes. Instances and their characteristics are arranged in rows and columns. Formulating matrix factorization as an energy minimization problem and exploring it with Simulated Annealing (SA) theoretically enables finding a minimum solution in sufficient time. However, searching for the optimal solution in practical time becomes problematic when the energy landscape has many plateaus with flat slopes. In this work, we propose a method to facilitate the solution process by applying a gradient to the energy landscape, using a rectified linear type cost function readily available in modern annealing machines. We also propose a method to quickly obtain a solution by updating the cost function's gradient during the search process. Numerical experiments were conducted, confirming the method's effectiveness with both noise-free artificial and real data.
翻訳日:2024-01-15 12:37:16 公開日:2023-12-27
# 予測ネットワーク監視 - 機械学習とデータ分析を用いたサイバー攻撃予測のための外挿研究

Anticipated Network Surveillance -- An extrapolated study to predict cyber-attacks using Machine Learning and Data Analytics ( http://arxiv.org/abs/2312.17270v1 )

ライセンス: Link先を確認
Aviral Srivastava, Dhyan Thakkar, Dr. Sharda Valiveti, Dr. Pooja Shah and Dr. Gaurang Raval(参考訳) 機械学習とデータマイニング技術は、あらゆるネットワークのセキュリティを強化するために利用される。 研究者はパターン検出、異常検出、動的ポリシー設定などに機械学習を使用した。 この方法では、プログラムがデータから学習し、人間の介入なしに意思決定を行うことができ、膨大なトレーニング期間と計算能力が消費される。 本稿では,複数のデータパラメータに基づいてネットワーク内の攻撃を予測する新しい手法について述べる。 データセットはリアルタイムで実装されている。 提案モデルでは,データセットの事前処理とトレーニング,続いてテストフェーズを含む。 テストフェーズの結果に基づいて、攻撃につながる可能性のあるイベントクラスを抽出することで、最良のモデルを選択する。 イベント統計は攻撃に使用される

Machine learning and data mining techniques are utiized for enhancement of the security of any network. Researchers used machine learning for pattern detection, anomaly detection, dynamic policy setting, etc. The methods allow the program to learn from data and make decisions without human intervention, consuming a huge training period and computation power. This paper discusses a novel technique to predict an upcoming attack in a network based on several data parameters. The dataset is continuous in real-time implementation. The proposed model comprises dataset pre-processing, and training, followed by the testing phase. Based on the results of the testing phase, the best model is selected using which, event class which may lead to an attack is extracted. The event statistics are used for attack
翻訳日:2024-01-15 12:36:59 公開日:2023-12-27
# 知識グラフによるリフォームによる会話質問の回答

Conversational Question Answering with Reformulations over Knowledge Graph ( http://arxiv.org/abs/2312.17269v1 )

ライセンス: Link先を確認
Lihui Liu, Blaine Hill, Boxin Du, Fei Wang, Hanghang Tong(参考訳) 知識グラフ(KG)に対する会話型質問応答(convQA)は、KGに含まれる情報に関する多ターン自然言語の質問に答える。 ConvQAの最先端の手法は、しばしば難解な問合せに苦労する。 これらの入力は、人間の会話履歴を理解することは容易ですが、機械が解釈することが困難で、convqaのパフォーマンスを低下させます。 この問題に対処するために,大規模言語モデル(LLM)が生成する質問の修正を利用してConvQA性能を向上させる強化学習(RL)モデルであるCornNetを提案する。 CornNetは、教師モデルが人間の書き直しを使って質問表現を学習する教師学生アーキテクチャと、LLMによって生成された教師モデルの出力を模倣する学生モデルを採用する。 学習された質問表現は、RLモデルによってKG内の正しい答えを見つけるために使用される。 CornNetは最先端のconvQAモデルよりも優れています。

conversational question answering (convQA) over knowledge graphs (KGs) involves answering multi-turn natural language questions about information contained in a KG. State-of-the-art methods of ConvQA often struggle with inexplicit question-answer pairs. These inputs are easy for human beings to understand given a conversation history, but hard for a machine to interpret, which can degrade ConvQA performance. To address this problem, we propose a reinforcement learning (RL) based model, CornNet, which utilizes question reformulations generated by large language models (LLMs) to improve ConvQA performance. CornNet adopts a teacher-student architecture where a teacher model learns question representations using human writing reformulations, and a student model to mimic the teacher model's output via reformulations generated by LLMs. The learned question representation is then used by an RL model to locate the correct answer in a KG. Extensive experimental results show that CornNet outperforms state-of-the-art convQA models.
翻訳日:2024-01-15 12:36:49 公開日:2023-12-27
# 自然薬品の体系的命名と知的知識獲得のためのai駆動プラットフォーム

AI-driven platform for systematic nomenclature and intelligent knowledge acquisition of natural medicinal materials ( http://arxiv.org/abs/2401.00020v1 )

ライセンス: Link先を確認
Zijie Yang, Yongjing Yin, Chaojun Kong, Tiange Chi, Wufan Tao, Yue Zhang, Tian Xu(参考訳) 自然医学材料(nmms)は、広範な情報記録とともに、世界的な臨床応用の長い歴史を持っている。 NMM知識の標準化の非標準化は、歴史的複雑さから起因し、幅広い応用に制限をもたらす。 そこで我々は,知的知識獲得を目的としたAI駆動型プラットフォームであるShennongAlphaを基盤とする,NMMのための体系的命名法を導入する。 この命名システムは、NMMの正確な識別と識別を可能にする。 ShennongAlphaは、標準化されたバイリンガル情報で1万以上のNMMをカタログ化しており、知識管理とアプリケーション機能を強化し、従来の障壁を克服している。 さらに、aiによる会話的知識獲得と標準化された機械翻訳の先駆者でもある。 これらのシナジスティックな革新は、ドメイン固有のNMM知識をAIに統合し、NMMとAIの分野にまたがる研究と応用を推進し、この重要な領域において画期的な先例を確立した最初の大きな進歩である。

Natural Medicinal Materials (NMMs) have a long history of global clinical applications, accompanied by extensive informational records. Despite their significant impact on healthcare, the field faces a major challenge: the non-standardization of NMM knowledge, stemming from historical complexities and causing limitations in broader applications. To address this, we introduce a Systematic Nomenclature for NMMs, underpinned by ShennongAlpha, an AI-driven platform designed for intelligent knowledge acquisition. This nomenclature system enables precise identification and differentiation of NMMs. ShennongAlpha, cataloging over ten thousand NMMs with standardized bilingual information, enhances knowledge management and application capabilities, thereby overcoming traditional barriers. Furthermore, it pioneers AI-empowered conversational knowledge acquisition and standardized machine translation. These synergistic innovations mark the first major advance in integrating domain-specific NMM knowledge with AI, propelling research and applications across both NMM and AI fields while establishing a groundbreaking precedent in this crucial area.
翻訳日:2024-01-15 12:27:18 公開日:2023-12-27
# ハートリー・フォック方程式のシンボリック、数値および量子計算

Symbolic, numeric and quantum computation of Hartree-Fock equation ( http://arxiv.org/abs/2401.00019v1 )

ライセンス: Link先を確認
Ichio Kikuchi and Akihito Kikuchi(参考訳) 本稿では,記号的,数値的,古典的,量子的なアルゴリズムを用いたハイブリッド計算によって,分子のHartree-Fock電子構造計算を行う方法について議論する。 提案アルゴリズムでは、ハートリー・フォック方程式を多変量多項式からなる方程式の集合に置き換える。 これらの多項式を対応する Gr\ オブナー基底に変換し、それに対応する商環を調べ、軌道エネルギー、LCAO係数、原子座標は環の変数で表される。 この商環において、変数は単項基底との乗法を表す変換行列を生成し、それらの行列の固有値は方程式の根を構成する。 量子位相推定(QPE)アルゴリズムにより、より高度で正確な量子計算のために入力データに使用される量子状態にこれらのルートを記録することができる。

In this article, we discuss how a kind of hybrid computation, which employs symbolic, numeric, classic, and quantum algorithms, allows us to conduct Hartree-Fock electronic structure computation of molecules. In the proposed algorithm, we replace the Hartree-Fock equations with a set of equations composed of multivariate polynomials. We transform those polynomials to the corresponding Gr\"obner bases, and then we investigate the corresponding quotient ring, wherein the orbital energies, the LCAO coefficients, or the atomic coordinates are represented by the variables in the ring. In this quotient ring, the variables generate the transformation matrices that represent the multiplication with the monomial bases, and the eigenvalues of those matrices compose the roots of the equation. The quantum phase estimation (QPE) algorithm enables us to record those roots in the quantum states, which would be used in the input data for more advanced and more accurate quantum computations.
翻訳日:2024-01-15 12:26:57 公開日:2023-12-27
# RL-MPCA:Recommenderシステムのための強化学習に基づく多相計算割当手法

RL-MPCA: A Reinforcement Learning Based Multi-Phase Computation Allocation Approach for Recommender Systems ( http://arxiv.org/abs/2401.01369v1 )

ライセンス: Link先を確認
Jiahong Zhou, Shunhui Mao, Guoliang Yang, Bo Tang, Qianlong Xie, Lebin Lin, Xingxing Wang, Dong Wang(参考訳) 推薦システムは、多数の候補から最も適したアイテムをユーザに推薦することを目的としている。 ユーザリクエストの数とサービス(あるいはモデル)の複雑さの増加に伴い、計算コストが増加する。 計算資源(crs)の限界の下では、計算コストと事業収益のトレードオフをいかに行うかが重要な問題となる。 既存の研究では、キュートランケーションシナリオにおけるCRを動的に割り当てること(すなわち、候補のサイズを割り当てること)に焦点を当て、制約付き最適化問題としてCR割り当て問題を定式化する。 そのうちのいくつかは単一フェーズのCRアロケーションにフォーカスするが、他のものはマルチフェーズのCRアロケーションにフォーカスするが、キューのトランケーションシナリオに関するいくつかの仮定を導入する。 しかし、これらの仮定は検索チャネルの選択や予測モデルの選択といった他のシナリオには当てはまらない。 さらに、既存研究では異なるフェーズ間の要求の状態遷移プロセスを無視し、アプローチの有効性を制限している。 本稿では,crsの制約下での事業収益を最大化することを目的とした強化学習(rl)に基づく多相計算割当手法(rl-mpca)を提案する。 RL-MPCAは、CR割り当て問題を弱結合MDP問題として定式化し、RLベースのアプローチで解決する。 具体的には、RL-MPCAは、様々なCR割り当てシナリオに適応する新しいQ-ネットワークを設計し、グローバルCR制約に違反しないように複数の適応ラグランジュ乗算器(adaptive-$\lambda$)を導入してQ-値を校正する。 最後に、オフラインシミュレーション環境とオンラインリアルタイムレコメンデータシステムによる実験を行い、本手法の有効性を検証した。

Recommender systems aim to recommend the most suitable items to users from a large number of candidates. Their computation cost grows as the number of user requests and the complexity of services (or models) increases. Under the limitation of computation resources (CRs), how to make a trade-off between computation cost and business revenue becomes an essential question. The existing studies focus on dynamically allocating CRs in queue truncation scenarios (i.e., allocating the size of candidates), and formulate the CR allocation problem as an optimization problem with constraints. Some of them focus on single-phase CR allocation, and others focus on multi-phase CR allocation but introduce some assumptions about queue truncation scenarios. However, these assumptions do not hold in other scenarios, such as retrieval channel selection and prediction model selection. Moreover, existing studies ignore the state transition process of requests between different phases, limiting the effectiveness of their approaches. This paper proposes a Reinforcement Learning (RL) based Multi-Phase Computation Allocation approach (RL-MPCA), which aims to maximize the total business revenue under the limitation of CRs. RL-MPCA formulates the CR allocation problem as a Weakly Coupled MDP problem and solves it with an RL-based approach. Specifically, RL-MPCA designs a novel deep Q-network to adapt to various CR allocation scenarios, and calibrates the Q-value by introducing multiple adaptive Lagrange multipliers (adaptive-$\lambda$) to avoid violating the global CR constraints. Finally, experiments on the offline simulation environment and online real-world recommender system validate the effectiveness of our approach.
翻訳日:2024-01-15 09:53:59 公開日:2023-12-27
# 空間関連センサ:テキストセマンティクスを用いた3次元人間の動作復元

Spatial-Related Sensors Matters: 3D Human Motion Reconstruction Assisted with Textual Semantics ( http://arxiv.org/abs/2401.05412v1 )

ライセンス: Link先を確認
Xueyuan Yang and Chao Yao and Xiaojuan Ban(参考訳) 運動再建のためのウェアラブルデバイスを活用することは、経済的かつ実行可能な技術として現れている。 ある方法論では、人体にスパース慣性測定ユニット(imus)を用い、データ駆動戦略を利用して人間のポーズをモデル化する。 しかし、スパースIMUデータのみに基づく動きの再構成は、異なるポーズに対応する多数の同一のIMU読影の結果、本質的にあいまいさで区切られている。 本稿では,複数のセンサの空間的重要性について考察する。 具体的には、IMU毎に重み付き特徴を導出するために不確実性を導入する。 また,HTT (Hierarchical Temporal Transformer) を設計し,テキストセマンティクスによるセンサデータの正確な時間的・特徴的アライメントを実現するために,コントラスト学習を適用した。 実験の結果,提案手法は既存手法と比較して,複数の指標の大幅な改善を実現している。 特に,本手法は,座位や立位などの不明瞭な動作を区別するだけでなく,より正確で自然な動きを生じさせる。

Leveraging wearable devices for motion reconstruction has emerged as an economical and viable technique. Certain methodologies employ sparse Inertial Measurement Units (IMUs) on the human body and harness data-driven strategies to model human poses. However, the reconstruction of motion based solely on sparse IMUs data is inherently fraught with ambiguity, a consequence of numerous identical IMU readings corresponding to different poses. In this paper, we explore the spatial importance of multiple sensors, supervised by text that describes specific actions. Specifically, uncertainty is introduced to derive weighted features for each IMU. We also design a Hierarchical Temporal Transformer (HTT) and apply contrastive learning to achieve precise temporal and feature alignment of sensor data with textual semantics. Experimental results demonstrate our proposed approach achieves significant improvements in multiple metrics compared to existing methods. Notably, with textual supervision, our method not only differentiates between ambiguous actions such as sitting and standing but also produces more precise and natural motion.
翻訳日:2024-01-15 08:35:36 公開日:2023-12-27
# エクストリームのための方向木の推定

Estimating a Directed Tree for Extremes ( http://arxiv.org/abs/2102.06197v4 )

ライセンス: Link先を確認
Ngoc Mai Tran and Johannes Buck and Claudia Kl\"uppelberg(参考訳) 極端データからルート指向スパンディングツリーを推定する新しい手法を提案する。 顕著な例は川のネットワークであり、一連の駅で測定された極端な流れから発見される。 我々の新しいアルゴリズムは、極端に因果関係をモデル化するために設計された最大線形ベイズネットワークの定性的側面を利用する。 アルゴリズムは双変量スコアを推定し、ルート指向スパンディングツリーを返す。 ベンチマークデータと新しいデータで非常によく機能します。 新しい推定器は雑音を伴う最大線形ベイズネットワークモデルの下で一貫したものであることを示す。 また,その強みと限界を小さなシミュレーション研究で評価する。

We propose a new method to estimate a root-directed spanning tree from extreme data. A prominent example is a river network, to be discovered from extreme flow measured at a set of stations. Our new algorithm utilizes qualitative aspects of a max-linear Bayesian network, which has been designed for modelling causality in extremes. The algorithm estimates bivariate scores and returns a root-directed spanning tree. It performs extremely well on benchmark data and new data. We prove that the new estimator is consistent under a max-linear Bayesian network model with noise. We also assess its strengths and limitations in a small simulation study.
翻訳日:2023-12-31 16:47:21 公開日:2023-12-27
# SHAP-XRT: 条件付き独立テストを実現するShapley Value

SHAP-XRT: The Shapley Value Meets Conditional Independence Testing ( http://arxiv.org/abs/2207.07038v5 )

ライセンス: Link先を確認
Jacopo Teneggi, Beepul Bharti, Yaniv Romano and Jeremias Sulam(参考訳) ニューラルネットワークの複雑な性質は、現実世界のシナリオにおける信頼性、信頼性、公平性に関する懸念を引き起こす。 ゲーム理論のソリューション概念であるShapley値は、機械学習モデルの最も一般的な説明方法の1つである。 より伝統的に、統計的観点から、特徴の重要性は条件付き独立の観点で定義される。 これまでのところ、解釈可能性と特徴の重要性の2つのアプローチは別々に検討されてきた。 本研究では,shapleyに基づく説明手法と条件付き独立性テストが密接な関係にあることを示す。 本研究では,条件付きランダム化テスト(CRT, Conditional Randomization Test)にインスパイアされたテスト手法であるSHAPley Explanation Randomization Test(SHAP-XRT)を紹介した。 これにより、二分分類問題において、shapley値の限界寄与は、それぞれのテストで期待される$p$-valuesに対して下限と上限を与えることが証明される。 さらに、シャプリー値自体が、大域的(すなわち全体的)ヌル仮説の期待される$p$-値に対する上限を与えることを示した。 その結果,新たな視点からシェープリーに基づく説明手法の理解を深め,シェープリー値を用いて特徴量に関する統計的に妥当な主張をすることができる条件を特徴付けることができた。

The complex nature of artificial neural networks raises concerns on their reliability, trustworthiness, and fairness in real-world scenarios. The Shapley value -- a solution concept from game theory -- is one of the most popular explanation methods for machine learning models. More traditionally, from a statistical perspective, feature importance is defined in terms of conditional independence. So far, these two approaches to interpretability and feature importance have been considered separate and distinct. In this work, we show that Shapley-based explanation methods and conditional independence testing are closely related. We introduce the SHAPley EXplanation Randomization Test (SHAP-XRT), a testing procedure inspired by the Conditional Randomization Test (CRT) for a specific notion of local (i.e., on a sample) conditional independence. With it, we prove that for binary classification problems, the marginal contributions in the Shapley value provide lower and upper bounds to the expected $p$-values of their respective tests. Furthermore, we show that the Shapley value itself provides an upper bound to the expected $p$-value of a global (i.e., overall) null hypothesis. As a result, we further our understanding of Shapley-based explanation methods from a novel perspective and characterize the conditions under which one can make statistically valid claims about feature importance via the Shapley value.
翻訳日:2023-12-29 23:56:22 公開日:2023-12-27
# Rewindable Quantum Computationとクローンおよび適応ポストセレクションの等価性

Rewindable Quantum Computation and Its Equivalence to Cloning and Adaptive Postselection ( http://arxiv.org/abs/2206.05434v3 )

ライセンス: Link先を確認
Ryo Hiromasa, Akihiro Mizutani, Yuki Takeuchi, Seiichiro Tani(参考訳) 量子測定を反転する巻き戻し演算子を定義する。 次に、多項式サイズの量子回路で解くことができる決定問題の集合として、複素クラス ${\sf rwbqp}$, ${\sf cbqp}$, ${\sf adpostbqp}$ を定義する。 主な結果は、${\sf BPP}^{\sf PP}\subseteq{\sf RwBQP}={\sf CBQP}={\sf AdPostBQP}\subseteq{\sf PSPACE}$である。 この結果の副産物として、${\sf PostBQP}$の任意の問題は、多項式的に1に近い確率を持つ出力のポストセレクションでのみ解決できることを示す。 量子コンピュータでは、${\sf BQP}\nsupseteq{\sf SZK}$あるいは最も短い独立ベクトル問題を効率的に解けないという強い信念のもと、単一の巻き戻し演算子が量子計算に難航するタスクを達成するのに十分であることを示す。 さらに,再生可能なクリフォードおよび瞬時量子多項式時間回路について検討する。

We define rewinding operators that invert quantum measurements. Then, we define complexity classes ${\sf RwBQP}$, ${\sf CBQP}$, and ${\sf AdPostBQP}$ as sets of decision problems solvable by polynomial-size quantum circuits with a polynomial number of rewinding operators, cloning operators, and adaptive postselections, respectively. Our main result is that ${\sf BPP}^{\sf PP}\subseteq{\sf RwBQP}={\sf CBQP}={\sf AdPostBQP}\subseteq{\sf PSPACE}$. As a byproduct of this result, we show that any problem in ${\sf PostBQP}$ can be solved with only postselections of outputs whose probabilities are polynomially close to one. Under the strongly believed assumption that ${\sf BQP}\nsupseteq{\sf SZK}$, or the shortest independent vectors problem cannot be efficiently solved with quantum computers, we also show that a single rewinding operator is sufficient to achieve tasks that are intractable for quantum computation. In addition, we consider rewindable Clifford and instantaneous quantum polynomial time circuits.
翻訳日:2023-12-29 23:55:48 公開日:2023-12-27
# 固有説明可能な分類モデルを用いた弱教師付きセグメンテーションとその脳腫瘍分類への応用

Weakly-supervised segmentation using inherently-explainable classification models and their application to brain tumour classification ( http://arxiv.org/abs/2206.05148v2 )

ライセンス: Link先を確認
Soumick Chatterjee, Hadya Yassin, Florian Dubost, Andreas N\"urnberger and Oliver Speck(参考訳) ディープラーニングモデルは、いくつかのアプリケーションの可能性を示している。 しかし、ほとんどのモデルは複雑な推論(ブラックボックス問題として知られる)のために不透明で信頼が難しい。 医学のようないくつかの分野は、そのような技術を受け入れ、採用するために高い透明性を必要とする。 したがって、説明可能な/解釈可能なモデルの作成や、ディープラーニングモデルへの信頼を構築するために分類器にポストホックメソッドを適用する必要がある。 さらに、ディープラーニングの手法は、通常、トレーニングのために手作業で注釈付きセグメンテーションラベルを必要とするセグメンテーションタスクに使用することができる。 本稿では,これら2つの問題を1つとして扱うために,本質的に説明可能な分類器を3つ導入する。 ネットワークが提供する局所化ヒートマップ -- モデルの焦点領域を表現し、分類決定に使用される -- は、モデル説明のための情報を導出するポストホックなメソッドを必要とせずに、直接解釈することができる。 モデルは、入力画像と分類ラベルのみを教師ありの方法で基底として使用することにより、興味のある領域(すなわちセグメントラベル)の場所に関する情報を使用せずに訓練され、分類ラベルを通じてモデルのセグメンテーショントレーニングが弱く監督される。 最終セグメンテーションは、これらのヒートマップをしきい値にすることで得られる。 2つの異なるデータセットを用いたマルチクラス脳腫瘍分類の課題にモデルを適用し, 最良値のf1-scoreを0.93とし, 弱教師付き分割タスクでは0.67$\pm$0.08の中央値を確保した。 さらに、腫瘍のみの画像のサブセットの精度は、最先端のグリオーマ腫瘍グレーディングバイナリ分類器よりも98.7%の精度で優れていた。

Deep learning models have shown their potential for several applications. However, most of the models are opaque and difficult to trust due to their complex reasoning - commonly known as the black-box problem. Some fields, such as medicine, require a high degree of transparency to accept and adopt such technologies. Consequently, creating explainable/interpretable models or applying post-hoc methods on classifiers to build trust in deep learning models are required. Moreover, deep learning methods can be used for segmentation tasks, which typically require hard-to-obtain, time-consuming manually-annotated segmentation labels for training. This paper introduces three inherently-explainable classifiers to tackle both of these problems as one. The localisation heatmaps provided by the networks -- representing the models' focus areas and being used in classification decision-making -- can be directly interpreted, without requiring any post-hoc methods to derive information for model explanation. The models are trained by using the input image and only the classification labels as ground-truth in a supervised fashion - without using any information about the location of the region of interest (i.e. the segmentation labels), making the segmentation training of the models weakly-supervised through classification labels. The final segmentation is obtained by thresholding these heatmaps. The models were employed for the task of multi-class brain tumour classification using two different datasets, resulting in the best F1-score of 0.93 for the supervised classification task while securing a median Dice score of 0.67$\pm$0.08 for the weakly-supervised segmentation task. Furthermore, the obtained accuracy on a subset of tumour-only images outperformed the state-of-the-art glioma tumour grading binary classifiers with the best model achieving 98.7\% accuracy.
翻訳日:2023-12-29 23:55:22 公開日:2023-12-27
# リアプノフ誘導によるリカレントニューラルネットワークの性能表現

Lyapunov-Guided Representation of Recurrent Neural Network Performance ( http://arxiv.org/abs/2204.04876v2 )

ライセンス: Link先を確認
Ryan Vogt, Yang Zheng and Eli Shlizerman(参考訳) リカレントニューラルネットワーク(Recurrent Neural Networks、RNN)は、シーケンスと多変量時系列データのためのユビキタスコンピューティングシステムである。 RNNの頑健なアーキテクチャがいくつか知られているが、RNNの初期化やアーキテクチャ、その他のハイパーパラメータを与えられたタスクに対して正確に関連付ける方法は不明である。 本研究では,非線形力学系に特化して設計された手法であるリアプノフスペクトル解析を用いて,RNNを力学系として扱うことを提案する。 既存のリアプノフスペクトル解析を超越したRNN機能を実現するために,オートエンコーダと潜在表現の埋め込み(AeLLE)を用いて,リアプノフスペクトルから関連する特徴を推定することを提案する。 各種RNNアーキテクチャの研究により,AeLLEはRNNリアプノフスペクトルと精度の相関が得られた。 さらに、AeLLEが学習した潜在表現は、同一タスクからの新規入力に一般化可能であり、RNNトレーニングの初期段階に形成される。 後者の特性は、トレーニングが完了するとRNNが収束する精度の予測を可能にする。 我々は、リアプノフスペクトルによるRNNの表現とAeLLEは、RNNアーキテクチャの変種を整理・解釈するための新しい手法を提供すると結論付けた。

Recurrent Neural Networks (RNN) are ubiquitous computing systems for sequences and multivariate time series data. While several robust architectures of RNN are known, it is unclear how to relate RNN initialization, architecture, and other hyperparameters with accuracy for a given task. In this work, we propose to treat RNN as dynamical systems and to correlate hyperparameters with accuracy through Lyapunov spectral analysis, a methodology specifically designed for nonlinear dynamical systems. To address the fact that RNN features go beyond the existing Lyapunov spectral analysis, we propose to infer relevant features from the Lyapunov spectrum with an Autoencoder and an embedding of its latent representation (AeLLE). Our studies of various RNN architectures show that AeLLE successfully correlates RNN Lyapunov spectrum with accuracy. Furthermore, the latent representation learned by AeLLE is generalizable to novel inputs from the same task and is formed early in the process of RNN training. The latter property allows for the prediction of the accuracy to which RNN would converge when training is complete. We conclude that representation of RNN through Lyapunov spectrum along with AeLLE provides a novel method for organization and interpretation of variants of RNN architectures.
翻訳日:2023-12-29 23:52:54 公開日:2023-12-27
# 非巡回時空における循環因果構造の埋め込み:不定因果関係のノーゴー結果

Embedding cyclic causal structures in acyclic space-times: no-go results for indefinite causality ( http://arxiv.org/abs/2203.11245v3 )

ライセンス: Link先を確認
V. Vilasini and Renato Renner(参考訳) 因果関係は時空や情報理論構造に基づいて定義することができるが、これは因果関係の全く異なる概念に対応する。 しかし、物理実験では、これらの概念は相容れない方法で一緒に機能する。 プロセス行列フレームワークは、情報理論的な意味で不定因果構造(ics)をモデル化するのに有用であるが、そのようなプロセスの物理的性質に関する重要な疑問が残っている。 特に、ミンコフスキー時空に ics プロセスを実装すると主張するいくつかの実験があるが、これは明らかな理論的パラドックスを示している。 そこで我々は,2つの因果関係の概念を混同し,それらの関係を定式化する一般的な枠組みを開発する。 このフレームワークは、フィードバックループによる量子演算の合成と、結果として得られる(おそらく巡回的な)情報理論構造を非循環時空構造に埋め込む。 相対論的因果関係は、2つの構造間の操作的互換性条件として定式化される。 ここではプロセス行列の枠組みを再構築し、時空局所化量子システムを用いた固定時空でのICSの物理的実現は不可能であることを示す。 さらに、時空非局在系を含む任意のICS過程の物理的実現は、決定的(かつ非循環的な)因果順序過程の観点から、よりきめ細かいレベルでの説明を最終的に認めることを証明している。 これらの結果は明らかなパラドックスを完全に解決し,上記の実験の解釈におけるその意味について考察する。 さらに本研究は,不定因果関係の操作的意味について,固定時空の文脈内外における具体的な知見を提供する。

Causality can be defined in terms of space-time or based on information-theoretic structures, which correspond to very different notions of causation. Yet, in physical experiments, these notions play together in a compatible manner. The process matrix framework is useful for modelling indefinite causal structures (ICS) in an information-theoretic sense, but there remain important open questions regarding the physicality of such processes. In particular, there are several experiments that claim to implement ICS processes in Minkowski space-time, which presents an apparent theoretical paradox: how can an indefinite information-theoretic causal structure be compatible with a definite space-time structure? To address this, we develop a general framework that disentangles the two causality notions and formalises their relations. The framework describes a composition of quantum operations through feedback loops, and the embedding of the resulting (possibly cyclic) information-theoretic structure in an acyclic space-time structure. Relativistic causality is formalised as an operational compatibility condition between the two structures. Reformulating the process matrix framework here, we establish no-go results which imply that it is impossible to physically realise ICS in a fixed space-time with space-time localised quantum systems. Further, we prove that physical realisations of any ICS process, even those involving space-time non-localised systems, will ultimately admit an explanation in terms of a definite (and acyclic) causal order process, at a more fine-grained level. These results fully resolve the apparent paradox and we discuss their implications for the interpretation of the above-mentioned experiments. Moreover, our work offers concrete insights on the operational meaning of indefinite causality, both within and beyond the context of a fixed space-time.
翻訳日:2023-12-29 23:52:34 公開日:2023-12-27
# 修正シュロディンガー方程式のエネルギー準位構造はラムシフトと整合することができる

The energy level structure of the modified Schrodinger equation can be consistent with Lamb shift ( http://arxiv.org/abs/2201.10174v2 )

ライセンス: Link先を確認
Yu-kuo Zhao, Yu-xin Dong(参考訳) 原子構造と分子構造の計算の文献において、ほとんどのシュロディンガー方程式はクーロンポテンシャルによって記述される。 しかし、パウリやショートレーの初期の研究など、いくつかの磁気補正法について議論する文献もある。 しかし実際には、これらのシュロディンガー方程式の計算精度はラムシフトと一致しない。 したがって、量子力学の伝統的なab initio計算では、シュロディンガー方程式のエネルギーレベルを補正するためにディラック理論や量子電磁力学(QED)を使うのが一般的である。 しかし、ファインマン図形の計算は、相対性理論や密度汎関数論における自己整合場の適用を含む、恐ろしい問題である。 最近私たちは、修正されたニュートン力学の単純さに気付き、量子力学にも同様の性質があると考えています。 ここでは、このことを述べ、前回の行動電位の補正関数を改善する。 さらに、ここでは水素様およびヘリウム様系の実証を通じて、この結論が潜在的な応用、すなわち、修正シュロディンガー方程式のエネルギー準位構造がラムシフトと一致することを証明することができる。

In the literature of calculating atomic and molecular structures, most Schrodinger equations are described by Coulomb potential. However, there are also a few literatures that discuss some magnetic correction methods, such as Pauli and Shortley's early work. But in fact, the calculation accuracy of these Schrodinger equations is not consistent with Lamb shift. Therefore, in the traditional ab initio calculation of quantum mechanics, it is common and necessary to use Dirac theory or quantum electrodynamics (QED) to correct the energy level of Schrodinger equation. However, the calculation of Feynman diagram is a daunting problem, including the application of self-consistent field in relativity and density functional theory. So recently, we have noticed the simplicity of the modified Newtonian mechanics, and we think that quantum mechanics will have similar properties. Here, we state this and improve the correction function in our previous action potential. In addition, through the demonstration of hydrogen-like and helium-like systems here, it can be proved that this conclusion is a potential application, that is, the energy level structure of our modified Schrodinger equation is consistent with Lamb shift.
翻訳日:2023-12-29 23:51:52 公開日:2023-12-27
# TriCoLo: テキスト検索のための3モーダルなコントラスト損失

TriCoLo: Trimodal Contrastive Loss for Text to Shape Retrieval ( http://arxiv.org/abs/2201.07366v2 )

ライセンス: Link先を確認
Yue Ruan, Han-Hung Lee, Yiming Zhang, Ke Zhang, Angel X. Chang(参考訳) テキスト・ツー・シェイプ検索は3次元形状データの成長にますます関連する問題である。 マルチモーダルデータに対する統合埋め込み学習のためのコントラスト損失に関する最近の研究は、検索や分類などのタスクで成功している。 これまで,3次元形状とテキストの連立表現学習は,表現間の複雑な注意のモデリングやマルチタスク学習による埋め込みの改善に重点を置いてきた。 テキスト, 多視点画像, 3次元形状ボクセルの3次元学習方式を提案し, 大規模なバッチコントラスト学習を行うことで, 複雑な注意機構や損失を伴わずに, テキスト・ツー・シェイプ検索の性能が向上することを示す。 本実験は, テキスト画像形成のための3モーダル埋め込み構築のための基礎となる。

Text-to-shape retrieval is an increasingly relevant problem with the growth of 3D shape data. Recent work on contrastive losses for learning joint embeddings over multimodal data has been successful at tasks such as retrieval and classification. Thus far, work on joint representation learning for 3D shapes and text has focused on improving embeddings through modeling of complex attention between representations, or multi-task learning. We propose a trimodal learning scheme over text, multi-view images and 3D shape voxels, and show that with large batch contrastive learning we achieve good performance on text-to-shape retrieval without complex attention mechanisms or losses. Our experiments serve as a foundation for follow-up work on building trimodal embeddings for text-image-shape.
翻訳日:2023-12-29 23:51:00 公開日:2023-12-27
# 機械学習と物理モデルを統合する微分モデリングと地球科学の進歩

Differentiable modeling to unify machine learning and physical models and advance Geosciences ( http://arxiv.org/abs/2301.04027v2 )

ライセンス: Link先を確認
Chaopeng Shen, Alison P. Appling, Pierre Gentine, Toshiyuki Bandai, Hoshin Gupta, Alexandre Tartakovsky, Marco Baity-Jesi, Fabrizio Fenicia, Daniel Kifer, Li Li, Xiaofeng Liu, Wei Ren, Yi Zheng, Ciaran J. Harman, Martyn Clark, Matthew Farthing, Dapeng Feng, Praveen Kumar, Doaa Aboelyazeed, Farshid Rahmani, Hylke E. Beck, Tadd Bindas, Dipankar Dwivedi, Kuai Fang, Marvin H\"oge, Chris Rackauckas, Tirthankar Roy, Chonggang Xu, Binayak Mohanty, Kathryn Lawson(参考訳) プロセスベースモデリング(PBM)と機械学習(ML)は、しばしば地球科学において異なるパラダイムと見なされる。 ここでは,その間の障壁を解消し,パラダイムシフトを導くための強力な経路として,微分可能な地学モデリングを提案する。 pbmは何十年もの間、解釈可能性と物理的一貫性の利点を提供してきたが、大規模なデータセットを効率的に活用するのに苦労した。 ML手法、特にディープネットワークは、強い予測スキルを示していたが、特定の科学的疑問に答える能力に欠けていた。 ML-物理統合のための様々な手法が提案されているが、重要なテーマである微分可能モデリングは十分に認識されていない。 ここでは、微分可能地科学モデリング(DG)の概念、適用性、意義について概説する。 微分可能」とは、モデル変数に関する勾配を正確かつ効率的に計算し、高次元の未知の関係の学習を可能にする。 DGは、様々な事前知識をニューラルネットワークに接続し、それらを一緒に訓練し、物理誘導機械学習とは異なるスコープを捉え、第一原理を強調する様々な方法を指す。 予備的な証拠は、DGがMLよりも優れた解釈可能性と因果性、一般化性と外挿能力の改善、知識発見の強力な可能性、そして純粋にデータ駆動型MLの性能にアプローチしていることを示している。 DGモデルは、データ量の増加とともに、パフォーマンスと効率を良好にスケーリングしながら、より少ないトレーニングデータを必要とする。 DGでは、地質学者は質問をフレーム化し、調査し、仮説を検証し、認識されていないリンクを発見することができる。

Process-Based Modeling (PBM) and Machine Learning (ML) are often perceived as distinct paradigms in the geosciences. Here we present differentiable geoscientific modeling as a powerful pathway toward dissolving the perceived barrier between them and ushering in a paradigm shift. For decades, PBM offered benefits in interpretability and physical consistency but struggled to efficiently leverage large datasets. ML methods, especially deep networks, presented strong predictive skills yet lacked the ability to answer specific scientific questions. While various methods have been proposed for ML-physics integration, an important underlying theme -- differentiable modeling -- is not sufficiently recognized. Here we outline the concepts, applicability, and significance of differentiable geoscientific modeling (DG). "Differentiable" refers to accurately and efficiently calculating gradients with respect to model variables, critically enabling the learning of high-dimensional unknown relationships. DG refers to a range of methods connecting varying amounts of prior knowledge to neural networks and training them together, capturing a different scope than physics-guided machine learning and emphasizing first principles. Preliminary evidence suggests DG offers better interpretability and causality than ML, improved generalizability and extrapolation capability, and strong potential for knowledge discovery, while approaching the performance of purely data-driven ML. DG models require less training data while scaling favorably in performance and efficiency with increasing amounts of data. With DG, geoscientists may be better able to frame and investigate questions, test hypotheses, and discover unrecognized linkages.
翻訳日:2023-12-29 23:44:09 公開日:2023-12-27
# 手術スキル評価におけるワンショット領域適応

One-shot domain adaptation in video-based assessment of surgical skills ( http://arxiv.org/abs/2301.00812v4 )

ライセンス: Link先を確認
Erim Yanik, Steven Schwaitzberg, Gene Yang, Xavier Intes, Suvranu De(参考訳) 深層学習(DL)は,外科的スキルの自動的,客観的評価を達成している。 しかし、DLモデルの適用性はしばしば、そのデータ要求と特定の訓練領域への制限によって妨げられている。 これにより、少ないデータで新しいタスクに移行することを防ぐ。 したがって、ドメイン適応は現実のシナリオにおいてDLを実践するための重要な要素として現れる。 本稿では,単発学習によるドメインに依存しない外科的スキル分類を実現するメタラーニングモデルであるA-VBANetを紹介する。 A-VBANetは5種類の腹腔鏡およびロボット手術シミュレータで厳格に開発、試験されている。 さらに腹腔鏡下胆嚢摘出術の手術室(OR)ビデオにも検証範囲を広げた。 腹腔鏡下胆嚢摘出術では99.5%,小切片設定では99.9%,腹腔鏡下胆嚢摘出術では89.7%であった。 本研究は,データ不足のリアルライフ手術などの多種多様なハイテイク環境において,より正確かつアクセシブルなトレーニング評価を行うための,外科的スキル評価のためのドメインに依存しない方法論の最初の事例である。

Deep Learning (DL) has achieved automatic and objective assessment of surgical skills. However, the applicability of DL models is often hampered by their substantial data requirements and confinement to specific training domains. This prevents them from transitioning to new tasks with scarce data. Therefore, domain adaptation emerges as a critical element for the practical implementation of DL in real-world scenarios. Herein, we introduce A-VBANet, a novel meta-learning model capable of delivering domain-agnostic surgical skill classification via one-shot learning. A-VBANet has been rigorously developed and tested on five diverse laparoscopic and robotic surgical simulators. Furthermore, we extend its validation to operating room (OR) videos of laparoscopic cholecystectomy. Our model successfully adapts with accuracies up to 99.5% in one-shot and 99.9% in few-shot settings for simulated tasks and 89.7% for laparoscopic cholecystectomy. This research marks the first instance of a domain-agnostic methodology for surgical skill assessment, paving the way for more precise and accessible training evaluation across diverse high-stakes environments such as real-life surgery where data is scarce.
翻訳日:2023-12-29 23:43:17 公開日:2023-12-27
# 適応計測による量子平均値の推定

Quantum-enhanced mean value estimation via adaptive measurement ( http://arxiv.org/abs/2210.15624v3 )

ライセンス: Link先を確認
Kaito Wada, Kazuma Fukuchi, Naoki Yamamoto(参考訳) 量子エンハンスド (quantum-enhanced, 古典的手法と比較してクエリの複雑さが小さくなる) は、観測可能な値の推定は様々な量子技術において基本的なタスクである。 特に、量子推定理論は、そのような推定器の究極の精度を同定しており、量子クラム(英語版)(quantum cram\'{e}r-rao (qcr)) と呼ばれる。 推定精度はこれらの量子技術システムの性能を直接決定するので、QCR境界を達成する汎用的で実用的な推定方法を開発することが要求される。 しかし、不完全条件下では、量子平均値に対する究極的で実装可能な推定器は開発されていない。 本稿では,多くの量子ビットの極限におけるQCR境界を漸近的に達成する脱分極雑音環境における量子化平均値推定法を提案する。 実用的な設定でQCRバウンドにアプローチするために、状態準備の知識を必要とせずに実装可能な振幅増幅と特定の測定を適応的に最適化する。 本稿では,適応推定器の整合性や漸近正規性などの統計的特性を厳密に解析する。 さらに,本手法の有効性を示す数値シミュレーションもいくつか実施されており,特にQCR境界をほぼ飽和させるためには,推定器が最低限の測定値しか必要としないことを示す。

Quantum-enhanced (i.e., less query complexity compared to any classical method) mean value estimation of observables is a fundamental task in various quantum technologies; in particular, it is an essential subroutine in quantum computing algorithms. Notably, the quantum estimation theory identifies the ultimate precision of such estimator, which is referred to as the quantum Cram\'{e}r-Rao (QCR) lower bound or equivalently the inverse of the quantum Fisher information. Because the estimation precision directly determines the performance of those quantum technological systems, it is highly demanded to develop a generic and practically implementable estimation method that achieves the QCR bound. Under imperfect conditions, however, such an ultimate and implementable estimator for quantum mean values has not been developed. In this paper, we propose a quantum-enhanced mean value estimation method in a depolarizing noisy environment that asymptotically achieves the QCR bound in the limit of a large number of qubits. To approach the QCR bound in a practical setting, the method adaptively optimizes the amplitude amplification and a specific measurement that can be implemented without any knowledge of state preparation. We provide a rigorous analysis for the statistical properties of the proposed adaptive estimator such as consistency and asymptotic normality. Furthermore, several numerical simulations are provided to demonstrate the effectiveness of the method, particularly showing that the estimator needs only a modest number of measurements to almost saturate the QCR bound.
翻訳日:2023-12-29 23:40:54 公開日:2023-12-27
# 放射線画像と解剖プロンプトによる放射線要約の改善

Improving Radiology Summarization with Radiograph and Anatomy Prompts ( http://arxiv.org/abs/2210.08303v2 )

ライセンス: Link先を確認
Jinpeng Hu, Zhihong Chen, Yang Liu, Xiang Wan, Tsung-Hui Chang(参考訳) この印象は,放射線科医の知見と推理から結論づけられるため,参考医にとって重要な情報を把握することが重要である。 放射線技師の作業量を軽減し、印象書における繰り返しの人的労働を減らすために、多くの研究者が自動印象生成に焦点を合わせてきた。 しかし,近年の研究では,対応する知見を概説し,放射線画像に対する注意を払拭した。 臨床的には、ラジオグラフィーは、特に複雑な症例において、放射線学者の印象記述を強化するために、より詳細な貴重な観察を提供することができる。 さらに、各文は、通常、単一の解剖に焦点を当てているため、画像全体ではなく、対応する解剖学的領域にのみマッチする必要があり、テキスト的および視覚的特徴のアライメントに有用である。 そこで我々は,印象生成を促進するために,新しい解剖学的拡張型マルチモーダルモデルを提案する。 より詳しくは、まず解剖学を抽出する一連のルールを構築し、各文にこれらのプロンプトを置き、解剖学的特徴を強調する。 次に、ラジオグラフと所見から特徴を抽出するために2つの異なるエンコーダを適用する。 その後,コントラスト学習モジュールを用いて,これら2つの表現を全体レベルで整列させ,解剖学的に強調された文表現の助けを借りて,文レベルでの融合を行う。 そして、デコーダは融合情報を入力としてインプレッションを生成する。 2つのベンチマークデータセットにおける実験結果から,提案手法の有効性を確認した。

The impression is crucial for the referring physicians to grasp key information since it is concluded from the findings and reasoning of radiologists. To alleviate the workload of radiologists and reduce repetitive human labor in impression writing, many researchers have focused on automatic impression generation. However, recent works on this task mainly summarize the corresponding findings and pay less attention to the radiology images. In clinical, radiographs can provide more detailed valuable observations to enhance radiologists' impression writing, especially for complicated cases. Besides, each sentence in findings usually focuses on single anatomy, so they only need to be matched to corresponding anatomical regions instead of the whole image, which is beneficial for textual and visual features alignment. Therefore, we propose a novel anatomy-enhanced multimodal model to promote impression generation. In detail, we first construct a set of rules to extract anatomies and put these prompts into each sentence to highlight anatomy characteristics. Then, two separate encoders are applied to extract features from the radiograph and findings. Afterward, we utilize a contrastive learning module to align these two representations at the overall level and use a co-attention to fuse them at the sentence level with the help of anatomy-enhanced sentence representation. Finally, the decoder takes the fused information as the input to generate impressions. The experimental results on two benchmark datasets confirm the effectiveness of the proposed method, which achieves state-of-the-art results.
翻訳日:2023-12-29 23:40:29 公開日:2023-12-27
# 「私がやっていること」--適性から逐次的な決定タスクへ拡張する

"Guess what I'm doing": Extending legibility to sequential decision tasks ( http://arxiv.org/abs/2209.09141v2 )

ライセンス: Link先を確認
Miguel Faria, Francisco S. Melo, Ana Paiva(参考訳) 本稿では,不確実性下での逐次決定課題における正当性の概念について検討する。 ロボットの動き以外のシナリオへのレジリエンスを拡大する以前の作業は、決定論的設定に集中するか、計算コストが高すぎる。 提案手法はpol-mdpと呼ばれ,不確実性に対処し,計算的に把握可能である。 我々は,複雑度が異なる複数のシミュレーションシナリオにおいて,最先端のアプローチに対するアプローチの利点を確立する。 また,逆強化学習エージェントのデモンストレーションとして,当社のレジブル・ポリシーを活用し,その最適方針に基づく実演に対する優位性を確立した。 最後に,モバイルロボットの動作を観察することで,有効なポリシーに従って目標を推測するユーザスタディを通じて,計算されたポリシーの正当性を評価する。

In this paper we investigate the notion of legibility in sequential decision tasks under uncertainty. Previous works that extend legibility to scenarios beyond robot motion either focus on deterministic settings or are computationally too expensive. Our proposed approach, dubbed PoL-MDP, is able to handle uncertainty while remaining computationally tractable. We establish the advantages of our approach against state-of-the-art approaches in several simulated scenarios of different complexity. We also showcase the use of our legible policies as demonstrations for an inverse reinforcement learning agent, establishing their superiority against the commonly used demonstrations based on the optimal policy. Finally, we assess the legibility of our computed policies through a user study where people are asked to infer the goal of a mobile robot following a legible policy by observing its actions.
翻訳日:2023-12-29 23:39:48 公開日:2023-12-27
# 多重線形回帰に対するフレキシブルな経験的ベイズアプローチとペナル化回帰との接続

A flexible empirical Bayes approach to multiple linear regression and connections with penalized regression ( http://arxiv.org/abs/2208.10910v2 )

ライセンス: Link先を確認
Youngseok Kim, Wei Wang, Peter Carbonetto and Matthew Stephens(参考訳) 大規模多重回帰に対する新しい経験的ベイズ手法を提案する。 私たちのアプローチには2つの重要なアイデアが組み合わさっています (i)正規分布の有限混合による正規分布のスケール混合の非パラメトリック族を近似するフレキシブルな「適応収縮」前駆体の使用 (II) 偏差近似を用いて, 先行パラメータを効率的に推定し, 近似後方を計算する。 これら2つのアイデアを組み合わせると、高速で柔軟な手法となり、lassoのような高速ペナライズされた回帰法に匹敵する計算速度と、幅広いシナリオで優れた予測精度が得られる。 さらに,本手法の後方平均値は,最適化問題を(クロスバリデーションによって調整されるのではなく)直接解決することにより,データからペナルティ関数の正確な形を学習することにより,ペナルティレグレッション問題を解くことができることを示す。 私たちのメソッドは、https://github.com/stephenslab/mr.ash.alphaから利用可能なRパッケージmr.ash.alphaで実装されています。

We introduce a new empirical Bayes approach for large-scale multiple linear regression. Our approach combines two key ideas: (i) the use of flexible "adaptive shrinkage" priors, which approximate the nonparametric family of scale mixture of normal distributions by a finite mixture of normal distributions; and (ii) the use of variational approximations to efficiently estimate prior hyperparameters and compute approximate posteriors. Combining these two ideas results in fast and flexible methods, with computational speed comparable to fast penalized regression methods such as the Lasso, and with superior prediction accuracy across a wide range of scenarios. Furthermore, we show that the posterior mean from our method can be interpreted as solving a penalized regression problem, with the precise form of the penalty function being learned from the data by directly solving an optimization problem (rather than being tuned by cross-validation). Our methods are implemented in an R package, mr.ash.alpha, available from https://github.com/stephenslab/mr.ash.alpha
翻訳日:2023-12-29 23:39:09 公開日:2023-12-27
# SUREL+:スケーラブルなグラフ表現学習のためのウォークからセットへの移行

SUREL+: Moving from Walks to Sets for Scalable Subgraph-based Graph Representation Learning ( http://arxiv.org/abs/2303.03379v3 )

ライセンス: Link先を確認
Haoteng Yin, Muhan Zhang, Jianguo Wang, Pan Li(参考訳) グラフを用いたグラフ表現学習(SGRL)は、モデル表現性と一般化能力の優位性から、最近、グラフ上の多くの予測タスクにおいて強力なツールとして登場した。 従来のSGRLモデルでは、トレーニングやテストクエリごとにサブグラフ抽出のコストが高いため、計算上の課題に直面していた。 最近、SURELはSGRLを加速し、ランダムウォークをオフラインでサンプリングし、これらのウォークを表現学習のためのサブグラフのプロキシとしてオンラインで結合する提案を行った。 異なるクエリにわたるサンプルウォークの再利用性のおかげで、SURELはスケーラビリティと予測精度の点で最先端のパフォーマンスを実現している。 しかし、SURELは、サンプリングされたウォークにおけるノード重複による高い計算オーバーヘッドに悩まされている。 本研究では,ウォークの代わりにノードセットを用いてSURELをアップグレードし,サブグラフを表現する新しいフレームワークSUREL+を提案する。 このセットベースの表現は、繰り返しノードを定義によって排除するが、サイズが不規則であることもある。 この問題に対処するため,ノードの集合を効率的に保存・アクセスするためのスパースデータ構造を設計し,並列バッチでそれらを結合するための特別な演算子を提供する。 SUREL+は、複数のタイプのセットサンプル、構造的特徴、ニューラルエンコーダをサポートし、ウォークからセットへの縮小後の構造的情報損失を補完するようにモジュール化されている。 リンク,関係型,高次パターンの予測タスクにおいて,SUREL+を検証するための大規模な実験が行われた。 SUREL+は他のSGRLベースラインと比較して、SUREL+は$\sim$20$\times$スピードアップを達成し、予測精度を大幅に改善している。

Subgraph-based graph representation learning (SGRL) has recently emerged as a powerful tool in many prediction tasks on graphs due to its advantages in model expressiveness and generalization ability. Most previous SGRL models face computational challenges associated with the high cost of subgraph extraction for each training or test query. Recently, SUREL was proposed to accelerate SGRL, which samples random walks offline and joins these walks online as a proxy of subgraph for representation learning. Thanks to the reusability of sampled walks across different queries, SUREL achieves state-of-the-art performance in terms of scalability and prediction accuracy. However, SUREL still suffers from high computational overhead caused by node duplication in sampled walks. In this work, we propose a novel framework SUREL+ that upgrades SUREL by using node sets instead of walks to represent subgraphs. This set-based representation eliminates repeated nodes by definition but can also be irregular in size. To address this issue, we design a customized sparse data structure to efficiently store and access node sets and provide a specialized operator to join them in parallel batches. SUREL+ is modularized to support multiple types of set samplers, structural features, and neural encoders to complement the structural information loss after the reduction from walks to sets. Extensive experiments have been performed to validate SUREL+ in the prediction tasks of links, relation types, and higher-order patterns. SUREL+ achieves 3-11$\times$ speedups of SUREL while maintaining comparable or even better prediction performance; compared to other SGRL baselines, SUREL+ achieves $\sim$20$\times$ speedups and significantly improves the prediction accuracy.
翻訳日:2023-12-29 23:32:35 公開日:2023-12-27
# ユーザ生成コンテンツの音質評価:データベースと方法

Audio-Visual Quality Assessment for User Generated Content: Database and Method ( http://arxiv.org/abs/2303.02392v2 )

ライセンス: Link先を確認
Yuqin Cao, Xiongkuo Min, Wei Sun, Xiaoping Zhang, Guangtao Zhai(参考訳) ユーザ生成コンテンツ(UGC)の爆発的な増加に伴い,UGCビデオ品質評価(VQA)は,ユーザエクスペリエンスの品質向上(QoE)においてますます重要になっている。 しかしながら、既存のUGC VQA研究のほとんどは、ユーザのQoEが付随する音声信号にも依存していることを無視して、ビデオの視覚的歪みのみに焦点を当てている。 本稿では,UGCオーディオと映像品質評価(AVQA)の課題に対処するための最初の研究を行う。 具体的には、sjtu-uavデータベースと呼ばれる最初のucc avqaデータベースを構築し、520個のin-the-wild ugc audio and video (a/v)シーケンスを含む。 SJTU-UAVデータベースの内容は、音声とビデオの両方から分析され、データベースの特徴を示す。 また,サポートベクトル回帰器(SVR)を介して,一般的なVQA手法とオーディオ機能を融合したAVQAモデルのファミリーを設計する。 提案モデルの有効性を3つのデータベース上で検証する。 実験の結果,VQAモデルは音声信号を用いて知覚品質をより正確に評価できることがわかった。 データベースは、さらなる研究を促進するためにリリースされる。

With the explosive increase of User Generated Content (UGC), UGC video quality assessment (VQA) becomes more and more important for improving users' Quality of Experience (QoE). However, most existing UGC VQA studies only focus on the visual distortions of videos, ignoring that the user's QoE also depends on the accompanying audio signals. In this paper, we conduct the first study to address the problem of UGC audio and video quality assessment (AVQA). Specifically, we construct the first UGC AVQA database named the SJTU-UAV database, which includes 520 in-the-wild UGC audio and video (A/V) sequences, and conduct a user study to obtain the mean opinion scores of the A/V sequences. The content of the SJTU-UAV database is then analyzed from both the audio and video aspects to show the database characteristics. We also design a family of AVQA models, which fuse the popular VQA methods and audio features via support vector regressor (SVR). We validate the effectiveness of the proposed models on the three databases. The experimental results show that with the help of audio signals, the VQA models can evaluate the perceptual quality more accurately. The database will be released to facilitate further research.
翻訳日:2023-12-29 23:31:37 公開日:2023-12-27
# 責任あるAI生成コンテンツへの道

A Pathway Towards Responsible AI Generated Content ( http://arxiv.org/abs/2303.01325v3 )

ライセンス: Link先を確認
Chen Chen, Jie Fu, Lingjuan Lyu(参考訳) AI生成コンテンツ(AIGC)は、画像、テキスト、オーディオ、ビデオなどのフォーマットで生成されたコンテンツとともに、ここ数年で大きな注目を集めています。 一方、AIGCは二刃の剣となり、最近その責任ある使用について多くの批判を受けた。 本稿では,(1)プライバシからのリスク,(2)バイアス,毒性,誤情報,(3)知的財産(ip),(4)堅牢性,(5)オープンソースと説明,(6)技術乱用,(7)同意,信用,補償,(8)環境を含む,aigcの健全な開発と展開を妨げる8つの主な懸念に焦点を当てる。 さらに、これらのリスクに取り組むための有望な方向性について、生成モデルを構築しながら洞察を与え、aigcを社会に真に利益をもたらすためにより責任を持って使用できるようにします。

AI Generated Content (AIGC) has received tremendous attention within the past few years, with content generated in the format of image, text, audio, video, etc. Meanwhile, AIGC has become a double-edged sword and recently received much criticism regarding its responsible usage. In this article, we focus on 8 main concerns that may hinder the healthy development and deployment of AIGC in practice, including risks from (1) privacy; (2) bias, toxicity, misinformation; (3) intellectual property (IP); (4) robustness; (5) open source and explanation; (6) technology abuse; (7) consent, credit, and compensation; (8) environment. Additionally, we provide insights into the promising directions for tackling these risks while constructing generative models, enabling AIGC to be used more responsibly to truly benefit society.
翻訳日:2023-12-29 23:31:14 公開日:2023-12-27
# frauds bargain attack: 単語操作プロセスによる逆テキストサンプルの生成

Frauds Bargain Attack: Generating Adversarial Text Samples via Word Manipulation Process ( http://arxiv.org/abs/2303.01234v2 )

ライセンス: Link先を確認
Mingze Ni, Zhensu Sun and Wei Liu(参考訳) 最近の研究では、自然言語処理(NLP)モデルが敵の例に弱いことが示されている。 しかし、これらの例を生成する現在の手法は決定論的ヒューリスティックな規則に依存しており、最適な逆の例を生み出すことができない。 そこで本研究では, ランダム化機構を用いて探索空間を拡大し, 高い成功確率で高品質な敵例を生成する, 不正取引攻撃 (fba) と呼ばれる新しい手法を提案する。 FBAは、Markov Chain Monte Carlo samplerの一種であるMetropolis-Hasting samplerを使用して、Word Manipulation Process (WMP)と呼ばれるカスタマイズされた確率過程によって生成される全ての候補からの敵例の選択を改善する。 WMP法は、挿入、削除、置換によって、個々の単語を文脈的に認識する方法で修飾する。 本研究では,FBAが攻撃成功率,非受容性,文質において,他の手法よりも優れていることを示す。

Recent research has revealed that natural language processing (NLP) models are vulnerable to adversarial examples. However, the current techniques for generating such examples rely on deterministic heuristic rules, which fail to produce optimal adversarial examples. In response, this study proposes a new method called the Fraud's Bargain Attack (FBA), which uses a randomization mechanism to expand the search space and produce high-quality adversarial examples with a higher probability of success. FBA uses the Metropolis-Hasting sampler, a type of Markov Chain Monte Carlo sampler, to improve the selection of adversarial examples from all candidates generated by a customized stochastic process called the Word Manipulation Process (WMP). The WMP method modifies individual words in a contextually-aware manner through insertion, removal, or substitution. Through extensive experiments, this study demonstrates that FBA outperforms other methods in terms of attack success rate, imperceptibility and sentence quality.
翻訳日:2023-12-29 23:30:56 公開日:2023-12-27
# 臨床データを用いたX線拡散による異常検出のためのMDF-Net

MDF-Net for abnormality detection by fusing X-rays with clinical data ( http://arxiv.org/abs/2302.13390v3 )

ライセンス: Link先を確認
Chihcheng Hsieh and Isabel Blanco Nobre and Sandra Costa Sousa and Chun Ouyang and Margot Brereton and Jacinto C. Nascimento and Joaquim Jorge and Catarina Moreira(参考訳) 本研究は,胸部x線画像における深層学習(dl)分類器の性能に及ぼす患者の臨床情報を含む影響について検討した。 現在の分類器は胸部X線画像のみを用いて高い性能を示すが, 臨床データは画像の解釈や適切な診断に不可欠であると考えられた。 本研究では,患者の臨床データ(構造化データ)と胸部X線(画像データ)を同時に処理できる2つの融合法からなる新しいアーキテクチャを提案する。 これらのデータモダリティは異なる次元空間にあるため,マスクr-cnnモデルにおけるマルチモーダル学習プロセスを容易にする空間配置戦略,空間化を提案する。 MIMIC-CXR(ケストX線画像)、MIMIC IV-ED(患者の臨床データ)、REFLACX(胸部X線における疾患部位の注釈)の3つの指標からなるデータセットであるMIMIC-Eyeを用いて広範囲にわたる実験的評価を行った。 その結果, 患者の臨床データをDLモデルに組み込むことで, 胸部X線のみを用いた標準的なMask R-CNNと比較して, 胸部X線像の病変局在を12倍に向上させることがわかった。 さらにアブレーション研究は、多モードDLアーキテクチャの重要性と、疾患の局所化における患者の臨床データの取り込みも強調している。 本研究で提案するアーキテクチャは,研究の科学的再現性を促進するために公開されている(https://github.com/chihchenghsieh/multimodal-abnormalities-detection)。

This study investigates the effects of including patients' clinical information on the performance of deep learning (DL) classifiers for disease location in chest X-ray images. Although current classifiers achieve high performance using chest X-ray images alone, our interviews with radiologists indicate that clinical data is highly informative and essential for interpreting images and making proper diagnoses. In this work, we propose a novel architecture consisting of two fusion methods that enable the model to simultaneously process patients' clinical data (structured data) and chest X-rays (image data). Since these data modalities are in different dimensional spaces, we propose a spatial arrangement strategy, spatialization, to facilitate the multimodal learning process in a Mask R-CNN model. We performed an extensive experimental evaluation using MIMIC-Eye, a dataset comprising modalities: MIMIC-CXR (chest X-ray images), MIMIC IV-ED (patients' clinical data), and REFLACX (annotations of disease locations in chest X-rays). Results show that incorporating patients' clinical data in a DL model together with the proposed fusion methods improves the disease localization in chest X-rays by 12\% in terms of Average Precision compared to a standard Mask R-CNN using only chest X-rays. Further ablation studies also emphasize the importance of multimodal DL architectures and the incorporation of patients' clinical data in disease localization. The architecture proposed in this work is publicly available to promote the scientific reproducibility of our study (https://github.com/ChihchengHsieh/multimodal-abnormalities-detection)
翻訳日:2023-12-29 23:30:38 公開日:2023-12-27
# 拡散モデルをどのように信頼するか:共形リスク制御への凸最適化アプローチ

How to Trust Your Diffusion Model: A Convex Optimization Approach to Conformal Risk Control ( http://arxiv.org/abs/2302.03791v3 )

ライセンス: Link先を確認
Jacopo Teneggi, Matthew Tivnan, J. Webster Stayman, Jeremias Sulam(参考訳) スコアベースの生成モデリングは、非公式に拡散モデルと呼ばれ、いくつかの重要なドメインやタスクで人気を高め続けている。 実験的な分布から高品質で多様なサンプルを提供する一方で、重要なシナリオにおけるこれらのサンプリング手順の信頼性と信頼性について重要な疑問が残る。 コンフォーマル予測は、ブラックボックス予測器に対して有限サンプルで分布のない不確実性を保証するための現代的なツールである。 本研究では、画像から画像への回帰タスクに焦点をあて、リスク制御予測セット(RCPS)の手順を一般化し、$K$-RCPSと呼ぶ。 (i)$は、任意の拡散モデルの将来のサンプルについてエントリーワイドな調整間隔を提供し、$ (ii)最小平均間隔の基底真理像に対するリスクの特定の概念を$に制御する。 既存の共形リスク制御手法と異なり,提案手法は平均区間長を最小化しつつ,多次元リスク制御を可能にする新しい凸最適化手法に依存している。 本研究は, 顔の自然画像と腹部のctスキャンの2つの実世界の画像特徴量問題に対するアプローチについて紹介する。

Score-based generative modeling, informally referred to as diffusion models, continue to grow in popularity across several important domains and tasks. While they provide high-quality and diverse samples from empirical distributions, important questions remain on the reliability and trustworthiness of these sampling procedures for their responsible use in critical scenarios. Conformal prediction is a modern tool to construct finite-sample, distribution-free uncertainty guarantees for any black-box predictor. In this work, we focus on image-to-image regression tasks and we present a generalization of the Risk-Controlling Prediction Sets (RCPS) procedure, that we term $K$-RCPS, which allows to $(i)$ provide entrywise calibrated intervals for future samples of any diffusion model, and $(ii)$ control a certain notion of risk with respect to a ground truth image with minimal mean interval length. Differently from existing conformal risk control procedures, ours relies on a novel convex optimization approach that allows for multidimensional risk control while provably minimizing the mean interval length. We illustrate our approach on two real-world image denoising problems: on natural images of faces as well as on computed tomography (CT) scans of the abdomen, demonstrating state of the art performance.
翻訳日:2023-12-29 23:28:19 公開日:2023-12-27
# 準凹最適化を用いたランダム化平滑化における大半径化に向けて

Towards Large Certified Radius in Randomized Smoothing using Quasiconcave Optimization ( http://arxiv.org/abs/2302.00209v2 )

ライセンス: Link先を確認
Bo-Han Kung and Shang-Tse Chen(参考訳) ランダム化平滑化は現在、ディープニューラルネットワークの堅牢性を保証する最先端の方法である。 しかし、その過度に保守的な性質のため、この不完全検証法は実世界のデータセット上で適切な認証半径を達成できないことが多い。 より大きな認証半径を得る一つの方法は、全てのデータポイントに対して固定ガウスフィルタを使用する代わりに、入力固有のアルゴリズムを使用することである。 このアイデアに基づくいくつかの手法が提案されているが、高い計算コストに苦しむか、認定半径の限界改善を得るかのどちらかである。 本研究では,疑似凸問題構造を生かして,計算オーバーヘッドの少ないほとんどのデータポイントに対して最適なradiiを求めることができることを示す。 この観測により、効率的で効果的な入力固有ランダム化平滑化アルゴリズムが導かれる。 我々はCIFAR-10とImageNetの広範な実験と実証分析を行った。 その結果,提案手法は計算オーバーヘッドの少ない認定radiiを著しく向上させることがわかった。

Randomized smoothing is currently the state-of-the-art method that provides certified robustness for deep neural networks. However, due to its excessively conservative nature, this method of incomplete verification often cannot achieve an adequate certified radius on real-world datasets. One way to obtain a larger certified radius is to use an input-specific algorithm instead of using a fixed Gaussian filter for all data points. Several methods based on this idea have been proposed, but they either suffer from high computational costs or gain marginal improvement in certified radius. In this work, we show that by exploiting the quasiconvex problem structure, we can find the optimal certified radii for most data points with slight computational overhead. This observation leads to an efficient and effective input-specific randomized smoothing algorithm. We conduct extensive experiments and empirical analysis on CIFAR-10 and ImageNet. The results show that the proposed method significantly enhances the certified radii with low computational overhead.
翻訳日:2023-12-29 23:27:58 公開日:2023-12-27
# 準粒子の相関誘発感度と非エルミート皮膚効果

Correlation-Induced Sensitivity and Non-Hermitian Skin Effect of Quasiparticles ( http://arxiv.org/abs/2302.00019v2 )

ライセンス: Link先を確認
Tommaso Micallo, Carl Lehmann, Jan Carl Budich(参考訳) 非エルミタン(NH)ハミルトニアンは、NH皮膚効果や境界条件に対する指数スペクトル感度など、ユニークな特徴を示すことが示されている。 本研究では,最近広く予測され観測されたこれらの驚くべき現象が,エルミート多体ハミルトニアンによって制御される閉相関フェルミオン系においてもどの程度発生するかを検討する。 ここで、効果的に nh 準粒子記述は、自然にグリーン関数形式において、散逸の固有源を表す粒子間散乱によって生じる。 具体的なプラットフォームとして, 境界条件の異なる拡張相互作用を持つSu-Schrieffer-Heeger (SSH) モデルを構築し, 正確な対角化と非平衡グリーン関数法を用いて解析する。 このようにして、このエルミート模型系の準粒子特性における前述のNH現象の存在を明らかにした。

Non-Hermitian (NH) Hamiltonians have been shown to exhibit unique signatures, including the NH skin effect and an exponential spectral sensitivity with respect to boundary conditions. Here, we investigate as to what extent these remarkable phenomena, recently predicted and observed in a broad range of settings, may also occur in closed correlated fermionic systems that are governed by a Hermitian many-body Hamiltonian. There, an effectively NH quasiparticle description naturally arises in the Green's function formalism due to inter-particle scattering that represents an inherent source of dissipation. As a concrete platform we construct an extended interacting Su-Schrieffer-Heeger (SSH) model subject to varying boundary conditions, which we analyze using exact diagonalization and non-equilibrium Green's function methods. That way, we clearly identify the presence of the aforementioned NH phenomena in the quasi-particle properties of this Hermitian model system.
翻訳日:2023-12-29 23:27:44 公開日:2023-12-27
# 否定と述語発明による一般化

Generalisation Through Negation and Predicate Invention ( http://arxiv.org/abs/2301.07629v4 )

ライセンス: Link先を確認
David M. Cerna and Andrew Cropper(参考訳) 少数の例から一般化する能力は、機械学習における基本的な課題である。 この課題に対処するために、否定と述語的発明を組み合わせた帰納論理プログラミング(ILP)アプローチを導入する。 これら2つの特徴を組み合わせることで、ilpシステムは普遍的に定量化されたボディのみの変数でルールを学習することで、よりよい一般化が可能になる。 提案手法をNOPIで実装し, 正規論理プログラムを述語で学習し, 階層的否定を伴うデータログプログラムを含む。 複数のドメインで実験した結果,予測精度と学習時間を改善することができた。

The ability to generalise from a small number of examples is a fundamental challenge in machine learning. To tackle this challenge, we introduce an inductive logic programming (ILP) approach that combines negation and predicate invention. Combining these two features allows an ILP system to generalise better by learning rules with universally quantified body-only variables. We implement our idea in NOPI, which can learn normal logic programs with predicate invention, including Datalog programs with stratified negation. Our experimental results on multiple domains show that our approach can improve predictive accuracies and learning times.
翻訳日:2023-12-29 23:27:28 公開日:2023-12-27
# NLPのアウト・オブ・ディストリビューション検出に関する調査

A Survey on Out-of-Distribution Detection in NLP ( http://arxiv.org/abs/2305.03236v2 )

ライセンス: Link先を確認
Hao Lang, Yinhe Zheng, Yixuan Li, Jian Sun, Fei Huang, Yongbin Li(参考訳) 現実世界における機械学習システムの信頼性と安全なデプロイには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。 過去数年間、大きな進歩を遂げてきた。 本稿では,OOD検出の最近の進歩について,特に自然言語処理に焦点をあてて概説する。 まず、OOD検出の正式な定義を提供し、いくつかの関連分野について論じる。 次に,最近のアルゴリズムを,(1)OODデータが利用可能であること,(2)OODデータが利用できないこと,(3)OODデータが利用できないこと,(3)IDラベルが利用できないこと,の3つのクラスに分類する。 第3に、データセット、アプリケーション、メトリクスを紹介します。 最後に,既存研究の概要と今後の研究課題について述べる。

Out-of-distribution (OOD) detection is essential for the reliable and safe deployment of machine learning systems in the real world. Great progress has been made over the past years. This paper presents the first review of recent advances in OOD detection with a particular focus on natural language processing approaches. First, we provide a formal definition of OOD detection and discuss several related fields. We then categorize recent algorithms into three classes according to the data they used: (1) OOD data available, (2) OOD data unavailable + in-distribution (ID) label available, and (3) OOD data unavailable + ID label unavailable. Third, we introduce datasets, applications, and metrics. Finally, we summarize existing work and present potential future research topics.
翻訳日:2023-12-29 23:15:43 公開日:2023-12-27
# 事前学習拡散モデルを用いた希少概念の生成

Generating images of rare concepts using pre-trained diffusion models ( http://arxiv.org/abs/2304.14530v3 )

ライセンス: Link先を確認
Dvir Samuel, Rami Ben-Ari, Simon Raviv, Nir Darshan, Gal Chechik(参考訳) テキストと画像の拡散モデルは高品質な画像を合成できるが、様々な制限がある。 ここでは、これらのモデルの一般的な失敗モード、すなわち、手のひらのような一般的でない概念と構造化された概念の生成を強調する。 webクローリングされたデータセットは、強くバランスがとれず、モデルが分散のテールから概念を過小表現する原因となっている。 テキストから画像へのモデルに対する不均衡なトレーニングデータの効果を特徴付け、修正を提供する。 本稿では,SedSelectと呼ぶ画像の参照セットを用いて,ノイズ空間における適切な生成種を慎重に選択することで,稀な概念を正しく生成できることを示す。 SeedSelectは拡散モデルの再トレーニングや微調整を必要としない。 種子の忠実性,品質,多様性を評価して希少な物体を作製し,ハンドイメージのような複雑な形状を生成し,一貫して優れた性能を実現する。 さらにセマンティックデータ拡張におけるSeedSelectの利点を示す。 意味的適切な画像を生成することは、頭部および拡散モデルの訓練データ尾部からのクラスにおいて、数ショット認識ベンチマークのパフォーマンスを向上させることができる

Text-to-image diffusion models can synthesize high-quality images, but they have various limitations. Here we highlight a common failure mode of these models, namely, generating uncommon concepts and structured concepts like hand palms. We show that their limitation is partly due to the long-tail nature of their training data: web-crawled data sets are strongly unbalanced, causing models to under-represent concepts from the tail of the distribution. We characterize the effect of unbalanced training data on text-to-image models and offer a remedy. We show that rare concepts can be correctly generated by carefully selecting suitable generation seeds in the noise space, using a small reference set of images, a technique that we call SeedSelect. SeedSelect does not require retraining or finetuning the diffusion model. We assess the faithfulness, quality and diversity of SeedSelect in creating rare objects and generating complex formations like hand images, and find it consistently achieves superior performance. We further show the advantage of SeedSelect in semantic data augmentation. Generating semantically appropriate images can successfully improve performance in few-shot recognition benchmarks, for classes from the head and from the tail of the training data of diffusion models
翻訳日:2023-12-29 23:15:03 公開日:2023-12-27
# nebla:neural beer-lambertによるパノラマx線写真からの口腔構造の3次元再構築

NeBLa: Neural Beer-Lambert for 3D Reconstruction of Oral Structures from Panoramic Radiographs ( http://arxiv.org/abs/2304.04027v5 )

ライセンス: Link先を確認
Sihwa Park, Seongjun Kim, Doeyoung Kwon, Yohan Jang, In-Seok Song, Seungjun Baek(参考訳) パノラマX線撮影(パノラマX線、PX)は歯科検査において広く用いられている画像モダリティである。 しかし、PXは平らな2D画像のみを提供し、口腔構造の3Dビューを欠いている。 本稿では,NeBLa(Neural Beer-Lambert)を用いて実世界のPXから3次元口腔構造を推定する。 neblaは、パノラマ画像のみに基づくさまざまな対象(患者)に対して、完全な3d再構成に取り組む。 我々は3次元コーンビームCT(CBCT)データから、X線レンダリングのBeer-Lambert法則とPX画像の回転原理に基づいて、シミュレートされたPX(SimPX)と呼ばれる中間表現を生成する。 simpxはpxを真にシミュレートするだけでなく、3dデータへの戻すプロセスを手助けする。 我々は,SimPXを3次元出力に変換するために,グローバルおよびローカルな入力特徴を利用するレイトレーシングに基づく新しいニューラルモデルを提案する。 推測時に、実PX画像を意味正規化を伴うSimPXスタイルの画像に変換し、その変換画像を生成モジュールで処理して高品質な出力を生成する。 実験の結果,NeBLaは再現作業において,定量的かつ質的に,先行技術よりも優れていた。 従来の方法とは異なり、NeBLaは歯科アーチの形状や整合したPX-CBCTデータセットなどの事前情報を必要としない。 私たちのコードはhttps://github.com/sihwa-park/neblaで入手できます。

Panoramic radiography (Panoramic X-ray, PX) is a widely used imaging modality for dental examination. However, PX only provides a flattened 2D image, lacking in a 3D view of the oral structure. In this paper, we propose NeBLa (Neural Beer-Lambert) to estimate 3D oral structures from real-world PX. NeBLa tackles full 3D reconstruction for varying subjects (patients) where each reconstruction is based only on a single panoramic image. We create an intermediate representation called simulated PX (SimPX) from 3D Cone-beam computed tomography (CBCT) data based on the Beer-Lambert law of X-ray rendering and rotational principles of PX imaging. SimPX aims at not only truthfully simulating PX, but also facilitates the reverting process back to 3D data. We propose a novel neural model based on ray tracing which exploits both global and local input features to convert SimPX to 3D output. At inference, a real PX image is translated to a SimPX-style image with semantic regularization, and the translated image is processed by generation module to produce high-quality outputs. Experiments show that NeBLa outperforms prior state-of-the-art in reconstruction tasks both quantitatively and qualitatively. Unlike prior methods, NeBLa does not require any prior information such as the shape of dental arches, nor the matched PX-CBCT dataset for training, which is difficult to obtain in clinical practice. Our code is available at https://github.com/sihwa-park/nebla.
翻訳日:2023-12-29 23:12:46 公開日:2023-12-27
# 定常schr\"odinger方程式と最大エントロピーランダムウォークからのdarwin項

Stationary Schr\"odinger Equation and Darwin Term from Maximal Entropy Random Walk ( http://arxiv.org/abs/2304.02368v2 )

ライセンス: Link先を確認
Manfried Faber(参考訳) 格子上の最大エントロピーランダムウォーク (MERW) という, 特別な拡散過程によって電位中の粒子を記述する。 MERWは変分問題に由来するため、ヒルベルト空間の線型代数を量子力学と共有する。 ボルンの規則は、過去の平衡状態と将来の同じ平衡状態の間の測定から現れる。 このときの観測によるポテンシャルの導入は、異なる速度で異なる高さで走る重力場において、MERWは同じ期間の全ての軌道が等しい確率で数えられるという規則を尊重する。 このようにして、merw はポテンシャルの粒子に対するシュル=オディンガー方程式とディラック方程式の非相対論的拡大のダーウィン項を導出することができる。 最後に、なぜ量子力学は単にmerwの結果ではないのかについて議論するが、多くの類似性により、merwはさらなる理解の道を開くかもしれない。

We describe particles in a potential by a special diffusion process, the maximal entropy random walk (MERW) on a lattice. Since MERW originates in a variational problem, it shares the linear algebra of Hilbert spaces with quantum mechanics. The Born rule appears from measurements between equilibrium states in the past and the same equilibrium states in the future. Introducing potentials by the observation that time, in a gravitational field running in different heights with a different speed, MERW respects the rule that all trajectories of the same duration are counted with equal probability. In this way, MERW allows us to derive the Schr\"odinger equation for a particle in a potential and the Darwin term of the nonrelativistic expansion of the Dirac equation. Finally, we discuss why quantum mechanics cannot be simply a result of MERW, but, due to the many analogies, MERW may pave the way for further understanding.
翻訳日:2023-12-29 23:12:21 公開日:2023-12-27
# 代理モデルを用いたマルチタスク学習における負転移の同定

Identification of Negative Transfers in Multitask Learning Using Surrogate Models ( http://arxiv.org/abs/2303.14582v2 )

ライセンス: Link先を確認
Dongyue Li, Huy L. Nguyen, and Hongyang R. Zhang(参考訳) マルチタスク学習は、複数の関連するソースタスクで強化することで、低リソースのターゲットタスクのトレーニングに広く利用されている。 しかしながら、すべてのソースタスクとターゲットタスクをネイティブに組み合わせることで、負の転送による目標タスクの予測性能が必ずしも向上するとは限らない。 したがって、マルチタスク学習における重要な問題は、ターゲットタスクに有利なソースタスクのサブセットを特定することである。 サブセット選択のための効率的なヒューリスティックは、タスクサブセットとマルチタスク学習のパフォーマンスの関係を常に捉えているとは限らない。 本稿では,代理モデルを用いてこの問題に対処する効率的な手法を提案する。 代理モデルでは、ソースタスクの(ランダムな)サブセットをサンプリングし、マルチタスク学習性能を事前計算する。 次に,未処理のタスクサブセットのマルチタスク性能を予測できる線形回帰モデルを用いて,事前計算した性能を近似する。 理論的および実証的に、このモデルに適合するには、ソースタスクの数で線形に多数のサブセットをサンプリングするだけでよいことを示します。 適合モデルは、ソースとターゲットタスク間の関連スコアを提供する。 関連スコアを用いて、閾値付けによるマルチタスク学習のためのサブセット選択を行う。 実験により,提案手法は既存のタスク親和性尺度よりもはるかに正確に,複数のタスクからの負の移動を予測できることを示す。 さらに,いくつかの弱い教師付きデータセットに対して,マルチタスク学習のための既存の最適化手法を一貫して改善することを示す。

Multitask learning is widely used in practice to train a low-resource target task by augmenting it with multiple related source tasks. Yet, naively combining all the source tasks with a target task does not always improve the prediction performance for the target task due to negative transfers. Thus, a critical problem in multitask learning is identifying subsets of source tasks that would benefit the target task. This problem is computationally challenging since the number of subsets grows exponentially with the number of source tasks; efficient heuristics for subset selection do not always capture the relationship between task subsets and multitask learning performances. In this paper, we introduce an efficient procedure to address this problem via surrogate modeling. In surrogate modeling, we sample (random) subsets of source tasks and precompute their multitask learning performances. Then, we approximate the precomputed performances with a linear regression model that can also predict the multitask performance of unseen task subsets. We show theoretically and empirically that fitting this model only requires sampling linearly many subsets in the number of source tasks. The fitted model provides a relevance score between each source and target task. We use the relevance scores to perform subset selection for multitask learning by thresholding. Through extensive experiments, we show that our approach predicts negative transfers from multiple source tasks to target tasks much more accurately than existing task affinity measures. Additionally, we demonstrate that for several weak supervision datasets, our approach consistently improves upon existing optimization methods for multitask learning.
翻訳日:2023-12-29 23:12:07 公開日:2023-12-27
# 3Dポイントクラウド理解のためのインコンテキスト学習の探索

Explore In-Context Learning for 3D Point Cloud Understanding ( http://arxiv.org/abs/2306.08659v2 )

ライセンス: Link先を確認
Zhongbin Fang, Xiangtai Li, Xia Li, Joachim M. Buhmann, Chen Change Loy, Mengyuan Liu(参考訳) 広範囲なデータに基づいて訓練された大規模モデルの台頭により、自然言語処理やコンピュータビジョンタスクにおいて大きな可能性を示す新たな学習パラダイムとなった。 一方、インコンテキスト学習は、3d point cloudドメインではまだほとんど未調査である。 マスク付きモデリングは、2Dビジョンにおけるコンテキスト内学習に成功しているが、それを3Dポイントクラウドに直接拡張することは、依然として困難な課題である。 点雲の場合、トークンそのものは、推論中にマスクされる点雲の位置(座標)である。 さらに、前作における位置埋め込みは、不注意に情報漏洩をもたらす可能性がある。 このような課題に対処するために,我々は,特に3d ポイントクラウドにおけるインコンテキスト学習用に設計された point-in-context という新しいフレームワークを導入する。 さらに,一般点サンプリング演算子と協調して動作するよう慎重に設計したジョイントサンプリングモジュールを提案し,上記の技術的課題を効果的に解決する。 提案手法の汎用性と適応性を検証するため,幅広いタスクを扱うための広範囲な実験を行った。

With the rise of large-scale models trained on broad data, in-context learning has become a new learning paradigm that has demonstrated significant potential in natural language processing and computer vision tasks. Meanwhile, in-context learning is still largely unexplored in the 3D point cloud domain. Although masked modeling has been successfully applied for in-context learning in 2D vision, directly extending it to 3D point clouds remains a formidable challenge. In the case of point clouds, the tokens themselves are the point cloud positions (coordinates) that are masked during inference. Moreover, position embedding in previous works may inadvertently introduce information leakage. To address these challenges, we introduce a novel framework, named Point-In-Context, designed especially for in-context learning in 3D point clouds, where both inputs and outputs are modeled as coordinates for each task. Additionally, we propose the Joint Sampling module, carefully designed to work in tandem with the general point sampling operator, effectively resolving the aforementioned technical issues. We conduct extensive experiments to validate the versatility and adaptability of our proposed methods in handling a wide range of tasks.
翻訳日:2023-12-29 23:05:51 公開日:2023-12-27
# マルチアーキテクチャマルチエキスパート拡散モデル

Multi-Architecture Multi-Expert Diffusion Models ( http://arxiv.org/abs/2306.04990v2 )

ライセンス: Link先を確認
Yunsung Lee, Jin-Young Kim, Hyojun Go, Myeongho Jeong, Shinhyeok Oh, Seungtaek Choi(参考訳) 本稿では,Multi-architecturE Multi-Expertfusion Model (MEME)を導入することで,効率的な拡散モデルの性能劣化を解消する。 拡散過程の異なるタイミングで調整された操作の必要性を特定し、この知見を利用してコンパクトで高性能なモデルを作成する。 MEMEは異なる時間間隔に異なるアーキテクチャを割り当て、観測周波数特性に基づいて畳み込みと自己注意操作のバランスをとる。 包括的トレーニングのためのソフトインターバル割り当て戦略も導入する。 MEMEはベースラインよりも3.3倍高速で、画像生成品質(FIDスコア)を0.62(FFHQ)と0.37(CelebA)改善している。 より効率的なモデルがより大きなモデルより優れている時間ステップ毎に最適なアーキテクチャを割り当てることの有効性を検証するが、MEMEは大規模なマルチエキスパートモデルなど他のシナリオにも容易に適用可能な拡散モデルに対する新しい設計選択をオープンにしていると論じる。

In this paper, we address the performance degradation of efficient diffusion models by introducing Multi-architecturE Multi-Expert diffusion models (MEME). We identify the need for tailored operations at different time-steps in diffusion processes and leverage this insight to create compact yet high-performing models. MEME assigns distinct architectures to different time-step intervals, balancing convolution and self-attention operations based on observed frequency characteristics. We also introduce a soft interval assignment strategy for comprehensive training. Empirically, MEME operates 3.3 times faster than baselines while improving image generation quality (FID scores) by 0.62 (FFHQ) and 0.37 (CelebA). Though we validate the effectiveness of assigning more optimal architecture per time-step, where efficient models outperform the larger models, we argue that MEME opens a new design choice for diffusion models that can be easily applied in other scenarios, such as large multi-expert models.
翻訳日:2023-12-29 23:04:36 公開日:2023-12-27
# CAVEN:雑音環境下での高能率音声・ビジュアルナビゲーションのための会話エージェント

CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual Navigation in Noisy Environments ( http://arxiv.org/abs/2306.04047v2 )

ライセンス: Link先を確認
Xiulong Liu, Sudipta Paul, Moitreya Chatterjee, Anoop Cherian(参考訳) 特に音声が散発的である場合や環境が騒がしい場合、音声目標の特定に向けたエージェントの視聴覚ナビゲーションは難しい課題である。 本稿では,エージェントが人間/オラクルと対話し,音声目標へのナビゲートの課題を解決するための対話型視聴覚具体化ナビゲーションフレームワークであるcavenを提案する。 具体的には、CAVENを半可観測的な半マルコフ決定プロセスとしてモデル化し、音声ベースのナビゲーションポリシーの不確かさを暗黙的に学習して、エージェントがオラクルといつどのように相互作用するかを決定する。 我々のCAVENエージェントは、関連する質問を生成し、オーディオ視覚コンテキストに基づいて、オラクルから自由な、潜在的にノイズの多い応答を解釈することで、完全な双方向の自然言語会話を行うことができる。 このような機能を実現するため、CAVENは以下の機能を備えている。 一 推定目標に対する潜在的な軌道を生成するために、音声・視覚的手がかりに基礎を置いている軌道予測ネットワーク (ii)自然言語に基づく質問生成・推論ネットワークは、オラクルに対してインタラクティブな質問をしたり、オラクルの応答を解釈してナビゲーション命令を生成する。 インタラクティブモジュールをトレーニングするために,ランドマークrxrデータセットに基づいた大規模データセットavn-instructを提案する。 本研究では,様々な雑音環境下でのSoundSpacesシミュレータを用いて,音声目標タスクのベンチマーク実験を行った。 その結果,新しい音源のローカライズや一方向インタラクションのみを使用する手法に対して,全会話的アプローチは成功率の桁違いな改善をもたらすことが明らかとなった。

Audio-visual navigation of an agent towards locating an audio goal is a challenging task especially when the audio is sporadic or the environment is noisy. In this paper, we present CAVEN, a Conversation-based Audio-Visual Embodied Navigation framework in which the agent may interact with a human/oracle for solving the task of navigating to an audio goal. Specifically, CAVEN is modeled as a budget-aware partially observable semi-Markov decision process that implicitly learns the uncertainty in the audio-based navigation policy to decide when and how the agent may interact with the oracle. Our CAVEN agent can engage in fully-bidirectional natural language conversations by producing relevant questions and interpret free-form, potentially noisy responses from the oracle based on the audio-visual context. To enable such a capability, CAVEN is equipped with: (i) a trajectory forecasting network that is grounded in audio-visual cues to produce a potential trajectory to the estimated goal, and (ii) a natural language based question generation and reasoning network to pose an interactive question to the oracle or interpret the oracle's response to produce navigation instructions. To train the interactive modules, we present a large scale dataset: AVN-Instruct, based on the Landmark-RxR dataset. To substantiate the usefulness of conversations, we present experiments on the benchmark audio-goal task using the SoundSpaces simulator under various noisy settings. Our results reveal that our fully-conversational approach leads to nearly an order-of-magnitude improvement in success rate, especially in localizing new sound sources and against methods that only use uni-directional interaction.
翻訳日:2023-12-29 23:03:35 公開日:2023-12-27
# ロシア・ウクライナ戦争:twitter停止の予測と説明

Russo-Ukrainian War: Prediction and explanation of Twitter suspension ( http://arxiv.org/abs/2306.03502v2 )

ライセンス: Link先を確認
Alexander Shevtsov, Despoina Antonakaki, Ioannis Lamprou, Ioannis Kontogiorgakis, Polyvios Pratikakis, Sotiris Ioannidis(参考訳) 2022年2月24日、ロシアはウクライナに侵攻し、現在ロシア・ウクライナ戦争と呼ばれる戦争が始まった。 Twitterは、オープンで民主的な性格を持つ最も人気のあるSNの1つであり、大きなユーザー層の間で透明な議論を可能にしている。 残念ながら、これはTwitterのポリシー違反、プロパガンダ、虐待行為、公民権侵害、結果としてユーザーアカウントの停止と削除につながることが多い。 本研究は,twitterのサスペンション機構と,これにつながる可能性のあるユーザアカウントの共有コンテンツと機能の解析に焦点を当てている。 この目標に向けて、Twitter APIを使用して、980万人のユーザーから生まれた107.7万のツイートを含むデータセットを得た。 懸濁アカウントの共有コンテンツのカテゴリを抽出し,コサイン類似度クラスタリングと結合したテキスト埋め込みの抽出を通じてその特徴を説明する。 当社の調査結果は、ロシアとウクライナのbitcoin紛争やethereum詐欺、スパム、広告キャンペーンに関するトレンドを生かした詐欺キャンペーンが明らかになった。 さらに、ユーザアカウントの停止方法を理解し説明するために、SHapley Additive説明可能性モデルを含む機械学習手法を適用した。

On 24 February 2022, Russia invaded Ukraine, starting what is now known as the Russo-Ukrainian War, initiating an online discourse on social media. Twitter as one of the most popular SNs, with an open and democratic character, enables a transparent discussion among its large user base. Unfortunately, this often leads to Twitter's policy violations, propaganda, abusive actions, civil integrity violation, and consequently to user accounts' suspension and deletion. This study focuses on the Twitter suspension mechanism and the analysis of shared content and features of the user accounts that may lead to this. Toward this goal, we have obtained a dataset containing 107.7M tweets, originating from 9.8 million users, using Twitter API. We extract the categories of shared content of the suspended accounts and explain their characteristics, through the extraction of text embeddings in junction with cosine similarity clustering. Our results reveal scam campaigns taking advantage of trending topics regarding the Russia-Ukrainian conflict for Bitcoin and Ethereum fraud, spam, and advertisement campaigns. Additionally, we apply a machine learning methodology including a SHapley Additive explainability model to understand and explain how user accounts get suspended.
翻訳日:2023-12-29 23:03:04 公開日:2023-12-27
# SimFBO: シンプルでフレキシブルでコミュニケーション効率の良い双方向学習を目指して

SimFBO: Towards Simple, Flexible and Communication-efficient Federated Bilevel Learning ( http://arxiv.org/abs/2305.19442v5 )

ライセンス: Link先を確認
Yifan Yang, Peiyao Xiao and Kaiyi Ji(参考訳) fbo(federated bilevel optimization)は、メタラーニングや微調整、ハイパーパラメータチューニングといった新たなネスト最適化構造によって、マシンラーニングやエッジコンピューティングにおいて、近年大きな可能性を秘めている。 しかし、既存のFBOアルゴリズムは複雑な計算を伴い、1イテレーションごとに複数のサブループが必要であり、それぞれが複数の通信ラウンドを含む。 本稿では,サブループなしで実装が容易で,汎用的なサーバ側アグリゲーションと通信効率向上のための更新を含む,シンプルで柔軟なFBOフレームワークSimFBOを提案する。 さらに,不均一局所計算に対する強いレジリエンスを持つSimFBOの変種として,システムレベルの不均質FBO(ShroFBO)を提案する。 我々は,SimFBO と ShroFBO がリニアコンバージェンス・スピードアップを実現し,部分的なクライアント参加とクライアントサンプリングを置き換えることなく実現し,サンプルと通信の複雑さを改善したことを示す。 実験は既存のfboアルゴリズムに対する提案手法の有効性を実証する。

Federated bilevel optimization (FBO) has shown great potential recently in machine learning and edge computing due to the emerging nested optimization structure in meta-learning, fine-tuning, hyperparameter tuning, etc. However, existing FBO algorithms often involve complicated computations and require multiple sub-loops per iteration, each of which contains a number of communication rounds. In this paper, we propose a simple and flexible FBO framework named SimFBO, which is easy to implement without sub-loops, and includes a generalized server-side aggregation and update for improving communication efficiency. We further propose System-level heterogeneity robust FBO (ShroFBO) as a variant of SimFBO with stronger resilience to heterogeneous local computation. We show that SimFBO and ShroFBO provably achieve a linear convergence speedup with partial client participation and client sampling without replacement, as well as improved sample and communication complexities. Experiments demonstrate the effectiveness of the proposed methods over existing FBO algorithms.
翻訳日:2023-12-29 23:02:11 公開日:2023-12-27
# バロン型空間に対する埋め込み不等式

Embedding Inequalities for Barron-type Spaces ( http://arxiv.org/abs/2305.19082v3 )

ライセンス: Link先を確認
Lei Wu(参考訳) 機械学習理論における重要な問題は、高次元の2層ニューラルネットワークの近似と一般化特性を理解することである。 この目的のために、研究者はバロン空間 $\mathcal{B}_s(\Omega)$ とスペクトルバロン空間 $\mathcal{F}_s(\Omega)$ を導入し、インデックス $s\in [0,\infty)$ はこれらの空間内の函数の滑らかさを示し、$\Omega\subset\mathbb{R}^d$ は入力領域を表す。 しかし、2種類のバロン空間の間の正確な関係はいまだ不明である。 任意の$\delta\in (0,1), s\in \mathbb{n}^{+}$ および $f: \omega \mapsto\mathbb{r}$ に対して、 \[ \delta \|f\|_{\mathcal{f}_{s-\delta}(\omega)}\lesssim_s \|f\|_{\mathcal{b}_s(\omega)}\lesssim_s \|f\|_{\mathcal{b}_s(\omega)}\lesssim_s \|f\|_{\mathcal{f}_{s+1}(\omega)} が成立する。 重要なことは、定数は入力次元$d$に依存せず、埋め込みが高次元で有効であることを示唆している。 また,下限と上限はともにタイトであることが判明した。

An important problem in machine learning theory is to understand the approximation and generalization properties of two-layer neural networks in high dimensions. To this end, researchers have introduced the Barron space $\mathcal{B}_s(\Omega)$ and the spectral Barron space $\mathcal{F}_s(\Omega)$, where the index $s\in [0,\infty)$ indicates the smoothness of functions within these spaces and $\Omega\subset\mathbb{R}^d$ denotes the input domain. However, the precise relationship between the two types of Barron spaces remains unclear. In this paper, we establish a continuous embedding between them as implied by the following inequality: for any $\delta\in (0,1), s\in \mathbb{N}^{+}$ and $f: \Omega \mapsto\mathbb{R}$, it holds that \[ \delta \|f\|_{\mathcal{F}_{s-\delta}(\Omega)}\lesssim_s \|f\|_{\mathcal{B}_s(\Omega)}\lesssim_s \|f\|_{\mathcal{F}_{s+1}(\Omega)}. \] Importantly, the constants do not depend on the input dimension $d$, suggesting that the embedding is effective in high dimensions. Moreover, we also show that the lower and upper bound are both tight.
翻訳日:2023-12-29 23:01:51 公開日:2023-12-27
# 高解像度画像の脳活動からのデコードに対するコントラスト, 態度, 難易度

Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain Activities ( http://arxiv.org/abs/2305.17214v4 )

ライセンス: Link先を確認
Jingyuan Sun, Mingxiao Li, Zijiao Chen, Yunhao Zhang, Shaonan Wang, Marie-Francine Moens(参考訳) 機能的磁気共鳴画像(fmri)によって記録された神経反応からの視覚刺激の復号は、認知神経科学と機械学習の興味深い交点を示し、人間の視覚知覚の理解と非侵襲的脳-機械インターフェイスの構築を約束する。 しかし、この課題はfMRI信号のノイズの性質と脳の視覚表現の複雑なパターンによって困難である。 これらの課題を軽減するために,2相fMRI表現学習フレームワークを導入する。 第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。 第2フェーズは、画像オートエンコーダからのガイダンスにより、視覚再構成に最も有用な神経活性化パターンに、特徴学習者が出席するようにチューニングする。 最適化されたfMRI特徴学習者は、脳活動から画像刺激を再構成するために潜時拡散モデルを設定する。 実験により,50-way-top-1のセマンティック分類精度において,従来の最先端手法よりも39.34%,高解像度かつセマンティックな画像を生成する上で,モデルが優れていることを示す。 本研究は,非侵襲的脳-機械インタフェースの開発に寄与し,その可能性を探究するものである。

Decoding visual stimuli from neural responses recorded by functional Magnetic Resonance Imaging (fMRI) presents an intriguing intersection between cognitive neuroscience and machine learning, promising advancements in understanding human visual perception and building non-invasive brain-machine interfaces. However, the task is challenging due to the noisy nature of fMRI signals and the intricate pattern of brain visual representations. To mitigate these challenges, we introduce a two-phase fMRI representation learning framework. The first phase pre-trains an fMRI feature learner with a proposed Double-contrastive Mask Auto-encoder to learn denoised representations. The second phase tunes the feature learner to attend to neural activation patterns most informative for visual reconstruction with guidance from an image auto-encoder. The optimized fMRI feature learner then conditions a latent diffusion model to reconstruct image stimuli from brain activities. Experimental results demonstrate our model's superiority in generating high-resolution and semantically accurate images, substantially exceeding previous state-of-the-art methods by 39.34% in the 50-way-top-1 semantic classification accuracy. Our research invites further exploration of the decoding task's potential and contributes to the development of non-invasive brain-machine interfaces.
翻訳日:2023-12-29 23:00:42 公開日:2023-12-27
# ReLUネットワークの多相最適化ダイナミクスとリッチ非線形挙動の理解

Understanding Multi-phase Optimization Dynamics and Rich Nonlinear Behaviors of ReLU Networks ( http://arxiv.org/abs/2305.12467v5 )

ライセンス: Link先を確認
Mingze Wang, Chao Ma(参考訳) ReLUニューラルネットワークのトレーニングプロセスはしばしば複雑な非線形現象を示す。 モデルの非線形性と損失の非凸性は理論解析に重大な課題をもたらす。 したがって、ニューラルネットワークの最適化力学に関するこれまでの理論研究は、局所解析(訓練終了など)や近似線形モデル(ニューラル・タンジェント・カーネルなど)に重点を置いていた。 本研究では, 線形分離可能なデータに基づいて, グラディエントフローにより学習した2層ReLUネットワークの学習過程を理論的に解析する。 この特定の環境では、ランダム初期化から最終収束までの最適化過程全体を解析する。 研究した比較的単純なモデルとデータにもかかわらず、学習プロセス全体とは4つの異なるフェーズがあることがわかりました。 特定の非線形挙動は、初期凝縮、サドル・トゥ・プラトー力学、プラトーエスケープ、活性化パターンの変化、複雑さの増加による学習など、理論的に正確に識別・捕獲することができる。

The training process of ReLU neural networks often exhibits complicated nonlinear phenomena. The nonlinearity of models and non-convexity of loss pose significant challenges for theoretical analysis. Therefore, most previous theoretical works on the optimization dynamics of neural networks focus either on local analysis (like the end of training) or approximate linear models (like Neural Tangent Kernel). In this work, we conduct a complete theoretical characterization of the training process of a two-layer ReLU network trained by Gradient Flow on a linearly separable data. In this specific setting, our analysis captures the whole optimization process starting from random initialization to final convergence. Despite the relatively simple model and data that we studied, we reveal four different phases from the whole training process showing a general simplifying-to-complicating learning trend. Specific nonlinear behaviors can also be precisely identified and captured theoretically, such as initial condensation, saddle-to-plateau dynamics, plateau escape, changes of activation patterns, learning with increasing complexity, etc.
翻訳日:2023-12-29 23:00:17 公開日:2023-12-27
# マルチタスクモデルによる逆襲

Multi-Task Models Adversarial Attacks ( http://arxiv.org/abs/2305.12066v3 )

ライセンス: Link先を確認
Lijun Zhang, Xiao Liu, Kaleel Mahmood, Caiwen Ding, Hui Guan(参考訳) マルチタスク学習(MTL)は、マルチタスクモデルとして知られる特異モデルを開発し、複数のタスクを同時に実行する。 シングルタスクモデルのセキュリティは徹底的に研究されているが、マルチタスクモデルはいくつかの重要なセキュリティ問題を引き起こす。 1)シングルタスクの敵攻撃に対する脆弱性。 2)複数のタスクを対象とする攻撃の設計の可能性 3)このような攻撃に対するレジリエンスに及ぼすタスク共有と敵対的トレーニングの影響 本稿では,詳細な分析と厳密な実験を通じて,これらの問合せについて述べる。 まず,シングルタスクのホワイトボックス攻撃をマルチタスクモデルに適用し,その限界を特定する。 次に,GB-MTA(Gradient Balancing Multi-Task Attack)という,マルチタスクモデルの攻撃を最適化問題として扱う新しい攻撃フレームワークを導入する。 この問題は、タスク間の平均相対損失変化に基づいて、整数線形プログラミング問題として近似される。 MTLベンチマークであるNYUv2とTiny-Taxonomyの大規模な評価は、GB-MTAが標準および逆向きに訓練されたマルチタスクモデルの両方に対して有効であることを示す。 また,パラメータ共有によるタスク精度向上と,攻撃伝達性の向上によるモデル脆弱性の増大とのトレードオフも強調した。

Multi-Task Learning (MTL) involves developing a singular model, known as a multi-task model, to concurrently perform multiple tasks. While the security of single-task models has been thoroughly studied, multi-task models pose several critical security questions, such as 1) their vulnerability to single-task adversarial attacks, 2) the possibility of designing attacks that target multiple tasks, and 3) the impact of task sharing and adversarial training on their resilience to such attacks. This paper addresses these queries through detailed analysis and rigorous experimentation. First, we explore the adaptation of single-task white-box attacks to multi-task models and identify their limitations. We then introduce a novel attack framework, the Gradient Balancing Multi-Task Attack (GB-MTA), which treats attacking a multi-task model as an optimization problem. This problem, based on averaged relative loss change across tasks, is approximated as an integer linear programming problem. Extensive evaluations on MTL benchmarks, NYUv2 and Tiny-Taxonomy, demonstrate GB-MTA's effectiveness against both standard and adversarially trained multi-task models. The results also highlight a trade-off between task accuracy improvement via parameter sharing and increased model vulnerability due to enhanced attack transferability.
翻訳日:2023-12-29 23:00:00 公開日:2023-12-27
# 大規模言語モデルの包括的概要

A Comprehensive Overview of Large Language Models ( http://arxiv.org/abs/2307.06435v7 )

ライセンス: Link先を確認
Humza Naveed, Asad Ullah Khan, Shi Qiu, Muhammad Saqib, Saeed Anwar, Muhammad Usman, Naveed Akhtar, Nick Barnes, Ajmal Mian(参考訳) 大規模言語モデル(LLM)は、最近自然言語処理タスクなどにおいて顕著な機能を示した。 LLMの成功は、この方向に多くの研究貢献をもたらした。 これらの作業は、アーキテクチャの革新、より良いトレーニング戦略、コンテキスト長の改善、微調整、マルチモーダルllm、ロボティクス、データセット、ベンチマーク、効率など、さまざまなトピックをカバーする。 LLM研究における技術の急速な発展と定期的なブレークスルーにより、この方向の進歩の全体像を理解することは極めて困難になっている。 LLMに関する文献が急速に増えていることを考えると、研究コミュニティは、この分野の最近の発展の簡潔かつ包括的概要から恩恵を受けることができることが不可欠である。 本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。 LLM研究の最前線における先進的なトピックを取り上げ,その背景概念について概観した。 このレビュー記事は、体系的な調査だけでなく、研究者や実践者が既存の研究の広範な情報的要約から洞察を引き出し、LLM研究を前進させることも意図している。

Large Language Models (LLMs) have recently demonstrated remarkable capabilities in natural language processing tasks and beyond. This success of LLMs has led to a large influx of research contributions in this direction. These works encompass diverse topics such as architectural innovations, better training strategies, context length improvements, fine-tuning, multi-modal LLMs, robotics, datasets, benchmarking, efficiency, and more. With the rapid development of techniques and regular breakthroughs in LLM research, it has become considerably challenging to perceive the bigger picture of the advances in this direction. Considering the rapidly emerging plethora of literature on LLMs, it is imperative that the research community is able to benefit from a concise yet comprehensive overview of the recent developments in this field. This article provides an overview of the existing literature on a broad range of LLM-related concepts. Our self-contained comprehensive overview of LLMs discusses relevant background concepts along with covering the advanced topics at the frontier of research in LLMs. This review article is intended to not only provide a systematic survey but also a quick comprehensive reference for the researchers and practitioners to draw insights from extensive informative summaries of the existing works to advance the LLM research.
翻訳日:2023-12-29 22:52:17 公開日:2023-12-27
# 高インピーダンスマルチモード共振器に結合したジョセフソン接合の創発的量子相転移

Emergent quantum phase transition of a Josephson junction coupled to a high-impedance multimode resonator ( http://arxiv.org/abs/2307.06383v2 )

ライセンス: Link先を確認
Luca Giacomelli and Cristiano Ciuti(参考訳) 抵抗性環境に結合したジョセフソン接合の物理学は、高インピーダンス多モード共振器による超伝導プラットフォームの出現によって強く復活した激しい議論の中心における長年の根本的な問題である。 ここでは,モード数が増加すると,多モード共振器に結合した接合の創発的臨界度について検討する。 マルチモード環境がジョゼフソンと静電容量エネルギーを再正規化し、熱力学的限界において、インピーダンスが抵抗量子よりも大きいときに充電エネルギーが支配され、2つのエネルギースケールの素比と接合の位相のコンパクトまたは拡張性とは無関係に無視可能であることを示す。 正確な対角化によって、遷移は基底状態ではなく、エネルギーギャップが熱力学的極限で消滅する最初の励起状態を含む準反交差によって驚くほど生じることが分かる。 我々は、基底と励起状態の異なる挙動を指差して2相の性質を明らかにし、遷移点において、スペクトルが低周波だけではなく普遍性を示すことを示す。 最近の実験と一致して、相転移の顕著なスペクトルシグネチャが明らかにされる。

The physics of a single Josephson junction coupled to a resistive environment is a long-standing fundamental problem at the center of an intense debate, strongly revived by the advent of superconducting platforms with high-impedance multimode resonators. Here we investigate the emergent criticality of a junction coupled to a multimode resonator when the number of modes is increased. We demonstrate how the multimode environment renormalizes the Josephson and capacitive energies of the junction so that in the thermodynamic limit the charging energy dominates when the impedance is larger than the resistance quantum and is negligible otherwise, independently from the bare ratio between the two energy scales and the compact or extended nature of the phase of the junction. Via exact diagonalization, we find that the transition surprisingly stems from a level anticrossing involving not the ground state, but the first excited state, whose energy gap vanishes in the thermodynamic limit. We clarify the nature of the two phases by pointing at a different behaviour of the ground and excited states and we show that at the transition point the spectrum displays universality not only at low frequencies. In agreement with recent experiments, we reveal striking spectral signatures of the phase transition.
翻訳日:2023-12-29 22:51:57 公開日:2023-12-27
# 動的グラフのためのディープラーニング:モデルとベンチマーク

Deep learning for dynamic graphs: models and benchmarks ( http://arxiv.org/abs/2307.06104v2 )

ライセンス: Link先を確認
Alessio Gravina and Davide Bacciu(参考訳) 近年,Deep Graph Networks (DGNs) の研究が進展し,グラフ上の学習領域が成熟した。 この研究分野の成長にもかかわらず、まだ解決されていない重要な課題が残っている。 具体的には、時間とともに進化する相互接続された実体の現実的なシステム上での予測タスクに適したDGNを作成することを提案する。 まず、動的グラフの領域における研究の促進を目的として、時間的情報と空間的情報の両方を学習する最近の利点を調査し、動的グラフの表現学習の領域における現在の最先端の概観を提供する。 第二に、ノードとエッジレベルのタスクに関する最も一般的な提案手法と、厳密なモデル選択と評価を活用して、新しいアーキテクチャとアプローチを評価するためのサウンドベースラインを確立することによる、公正なパフォーマンス比較を行う。

Recent progress in research on Deep Graph Networks (DGNs) has led to a maturation of the domain of learning on graphs. Despite the growth of this research field, there are still important challenges that are yet unsolved. Specifically, there is an urge of making DGNs suitable for predictive tasks on realworld systems of interconnected entities, which evolve over time. With the aim of fostering research in the domain of dynamic graphs, at first, we survey recent advantages in learning both temporal and spatial information, providing a comprehensive overview of the current state-of-the-art in the domain of representation learning for dynamic graphs. Secondly, we conduct a fair performance comparison among the most popular proposed approaches on node and edge-level tasks, leveraging rigorous model selection and assessment for all the methods, thus establishing a sound baseline for evaluating new architectures and approaches
翻訳日:2023-12-29 22:51:36 公開日:2023-12-27
# 10^\mathrm{-22}$$$\mathrm{w/\sqrt{hz}}$感度を持つ実用的な単一マイクロ波光子カウンタ

Practical Single Microwave Photon Counter with $10^\mathrm{-22}$ $\mathrm{W/\sqrt{Hz}}$ sensitivity ( http://arxiv.org/abs/2307.03614v2 )

ライセンス: Link先を確認
L\'eo Balembois, Jaime Travesedo, Louis Pallegoix, Alexandre May, Eric Billaud, Marius Villiers, Daniel Est\`eve, Denis Vion, Patrice Bertet, Emmanuel Flurin(参考訳) 単一光子検出は量子光学の発展に重要な役割を果たした。 マイクロ波領域におけるその実装は、光子エネルギーが5桁小さいため困難である。 近年、超伝導量子ビットまたはボロメーターに基づく単一マイクロ波光子検出器(SMPD)の開発において大きな進展が見られた。 本稿では, 4波混合プロセスによるトランモン量子ビットの励起状態への入射光子の可逆移動に基づく新しい実用SMPDを提案する。 この装置は検出効率$\eta = 0.43$ と演算ダークカウントレート $\alpha = 85$$ $\mathrm{s^{-1}}$ を達成する。 対応する電力感度は$\mathcal{s} = 10^{-22}$ $\mathrm{w/\sqrt{hz}}$であり、これは芸術の状況よりも1桁低い。 この検出器は、義務サイクル$\eta_\mathrm{D}=0.84$で時間スケールで連続的に動作し、周波数チューナビリティは7GHzあたり$\sim 400$MHzである。

Single photon detection played an important role in the development of quantum optics. Its implementation in the microwave domain is challenging because the photon energy is 5 orders of magnitude smaller. In recent years, significant progress has been made in developing single microwave photon detectors (SMPDs) based on superconducting quantum bits or bolometers. In this paper we present a new practical SMPD based on the irreversible transfer of an incoming photon to the excited state of a transmon qubit by a four-wave mixing process. This device achieves a detection efficiency $\eta = 0.43$ and an operational dark count rate $\alpha = 85$ $\mathrm{s^{-1}}$, mainly due to the out-of-equilibrium microwave photons in the input line. The corresponding power sensitivity is $\mathcal{S} = 10^{-22}$ $\mathrm{W/\sqrt{Hz}}$, one order of magnitude lower than the state of the art. The detector operates continuously over hour timescales with a duty cycle $\eta_\mathrm{D}=0.84$, and offers frequency tunability of $\sim 400$ MHz around 7 GHz.
翻訳日:2023-12-29 22:50:27 公開日:2023-12-27
# kapitza-dirac効果におけるスピンフリップの二次元シミュレーション

Two-dimensional simulation of the spin-flip in the Kapitza-Dirac effect ( http://arxiv.org/abs/2307.01571v2 )

ライセンス: Link先を確認
Ping Ge, Sven Ahrens, Baifei Shen(参考訳) 強磁場場の量子論における多くの計算は単純な場の幾何学を用いて行われ、しばしば空間場のエンベロープを無視する。 本稿では,ガウスビーム定在光波におけるカピツァ・ディラック効果の電子回折量子力学をシミュレートする。 2次元シミュレーションは、高速フーリエ変換スプリット作用素法を用いてディラック方程式を解いて相対論的枠組みで計算する。 数値伝搬法を除くと,近似を適用しず,カピツァ・ディラック効果のスピンフリップが可能であることを示す。 さらに,理論記述における平面波アプローチの有効性,レーザービーム集光による縦偏光成分の影響,カピツァ・ディラック散乱における高次回折ピークなどについて検討した。

Many calculations in strong field quantum field theory are carried out by using a simple field geometry, often neglecting the spacial field envelope. In this article, we simulate the electron diffraction quantum dynamics of the Kapitza-Dirac effect in a Gaussian beam standing light wave. The two-dimensional simulation is computed in a relativistic framework, by solving the Dirac equation with the fast Fourier transform split operator method. Except the numerical propagation method, our results are obtained without applying approximations and demonstrate that a spin-flip in the Kapitza-Dirac effect is possible. We further discuss properties, such as the validity of a plane wave approach for the theoretical description, the influence of the longitudinal polarization component due to laser beam focusing and higher order diffraction peaks in Kapitza-Dirac scattering.
翻訳日:2023-12-29 22:50:02 公開日:2023-12-27
# 局所性とロバスト性を活用した大規模スケーラブルガウス過程回帰

Leveraging Locality and Robustness to Achieve Massively Scalable Gaussian Process Regression ( http://arxiv.org/abs/2306.14731v2 )

ライセンス: Link先を確認
Robert Allison, Anthony Stephenson, Samuel F, Edward Pyzer-Knapp(参考訳) gp回帰による正確な予測と原理不確実性の測定はo(n^3)コストを伴い、現代の大規模アプリケーションでは禁止されている。 これは計算効率の良い近似に関する広範な研究の動機となった。 GPN(Nest-Nighbour)予測の強靭性特性と制限挙動を探索することによって,新しい視点を導入する。 我々は,データサイズnが大きくなるにつれて,推定パラメータの精度とGPモデル仮定がGPnn予測精度とますます無関係になることを示す。 したがって、粗悪な具体化が存在する場合でも高いmse精度を達成するために、パラメータ推定に少量の労力を費やすだけで十分である。 対照的に、n は無限大になりがちであるため、不確実性校正と nll は1つのパラメータに対して感度が保たれていることが示されるが、この不正確性の原因は補正可能であることが示され、十分な不確実性対策と極めて低い計算コストで正確な予測が可能となる。 大規模UCIデータセットで測定した他の最先端GP近似と比較して,スタンドアウト性能の非常に単純なGPnn回帰アルゴリズムを示す。 例えば、基本的なラップトップでは、n = 1.6 x 10^6のデータセットでトレーニングするのに約30秒かかる。

The accurate predictions and principled uncertainty measures provided by GP regression incur O(n^3) cost which is prohibitive for modern-day large-scale applications. This has motivated extensive work on computationally efficient approximations. We introduce a new perspective by exploring robustness properties and limiting behaviour of GP nearest-neighbour (GPnn) prediction. We demonstrate through theory and simulation that as the data-size n increases, accuracy of estimated parameters and GP model assumptions become increasingly irrelevant to GPnn predictive accuracy. Consequently, it is sufficient to spend small amounts of work on parameter estimation in order to achieve high MSE accuracy, even in the presence of gross misspecification. In contrast, as n tends to infinity, uncertainty calibration and NLL are shown to remain sensitive to just one parameter, the additive noise-variance; but we show that this source of inaccuracy can be corrected for, thereby achieving both well-calibrated uncertainty measures and accurate predictions at remarkably low computational cost. We exhibit a very simple GPnn regression algorithm with stand-out performance compared to other state-of-the-art GP approximations as measured on large UCI datasets. It operates at a small fraction of those other methods' training costs, for example on a basic laptop taking about 30 seconds to train on a dataset of size n = 1.6 x 10^6.
翻訳日:2023-12-29 22:48:33 公開日:2023-12-27
# AVOIDDS:航空機ビジョンに基づく侵入者検出データセットとシミュレータ

AVOIDDS: Aircraft Vision-based Intruder Detection Dataset and Simulator ( http://arxiv.org/abs/2306.11203v2 )

ライセンス: Link先を確認
Elysia Q. Smyers, Sydney M. Katz, Anthony L. Corso and Mykel J. Kochenderfer(参考訳) 堅牢な機械学習システムの設計は依然としてオープンな問題であり、下流タスクにおける環境変化と評価の両方をカバーするベンチマーク問題が必要である。 本研究では,視覚に基づく航空機検出・回避問題に対する現実的な物体検出ベンチマークであるAVOIDDSを紹介する。 様々な照明条件、気象条件、相対測地および地理的位置を有する侵入者航空機の72,000枚のフォトリアリスティック画像からなるラベル付きデータセットを提供する。 また、このデータセットのスライス上でトレーニングされたモデルを評価し、環境条件の変化に対する性能の変化を特定するインタフェースも提供する。 最後に,視覚に基づく検出・回避問題の完全統合型閉ループシミュレータを実装し,下流衝突回避タスクに対する訓練モデルの評価を行った。 このベンチマークにより、安全クリティカルなアプリケーションに使用する堅牢な機械学習システムの設計に関するさらなる研究が可能になる。 AVOIDDSデータセットとコードは、https://purl.stanford.edu/hj293cv5980とhttps://github.com/sisl/VisionBasedAircraftDAAで公開されている。

Designing robust machine learning systems remains an open problem, and there is a need for benchmark problems that cover both environmental changes and evaluation on a downstream task. In this work, we introduce AVOIDDS, a realistic object detection benchmark for the vision-based aircraft detect-and-avoid problem. We provide a labeled dataset consisting of 72,000 photorealistic images of intruder aircraft with various lighting conditions, weather conditions, relative geometries, and geographic locations. We also provide an interface that evaluates trained models on slices of this dataset to identify changes in performance with respect to changing environmental conditions. Finally, we implement a fully-integrated, closed-loop simulator of the vision-based detect-and-avoid problem to evaluate trained models with respect to the downstream collision avoidance task. This benchmark will enable further research in the design of robust machine learning systems for use in safety-critical applications. The AVOIDDS dataset and code are publicly available at https://purl.stanford.edu/hj293cv5980 and https://github.com/sisl/VisionBasedAircraftDAA respectively.
翻訳日:2023-12-29 22:48:07 公開日:2023-12-27
# 非エルミートハミルトニアンに対する擬PT対称性理論について:時間依存系

On the {\eta} pseudo PT symmetry theory for non-Hermitian Hamiltonians: time-dependent systems ( http://arxiv.org/abs/2308.13834v4 )

ライセンス: Link先を確認
Mustapha Maamache(参考訳) 非エルミート量子力学の文脈では、多くの系は擬pt対称性を持つこと、すなわち非ヘルミートハミルトニアン h は関係式 h^{{\dag}}=pthpt を介してその随伴 h^{{\dag}} と関連していることが知られている。 時間依存非ヘルミティアンハミルトニアンに対して,時間依存準ヘルミティティー関係を満たさずにハイゼンベルク発展方程式に従う新しい計量 {\eta}(t)=pt{\eta}(t) を導出することにより,擬pt対称性とpseudo-hermiticityの導出を提案する。 そこで本研究では,su(1,1)時間依存非エルミートハミルトニアンを解き,この新しい計量を用いて時間依存解を構築し,その具体的な物理応用について考察する。

In the context of non-Hermitian quantum mechanics, many systems are known to possess a pseudo PT symmetry , i.e. the non-Hermitian Hamiltonian H is related to its adjoint H^{{\dag}} via the relation, H^{{\dag}}=PTHPT . We propose a derivation of pseudo PT symmetry and {\eta} -pseudo-Hermiticity simultaneously for the time dependent non-Hermitian Hamiltonians by intoducing a new metric {\eta}(t)=PT{\eta}(t) that not satisfy the time-dependent quasi-Hermiticity relation but obeys the Heisenberg evolution equation. Here, we solve the SU(1,1) time-dependent non-Hermitian Hamiltonian and we construct a time-dependent solutions by employing this new metric and discuss a concrete physical applications of our results.
翻訳日:2023-12-29 22:40:07 公開日:2023-12-27
# EnrichEvent: イベント抽出の進化のためのコンテキスト情報によるソーシャルデータ強化

EnrichEvent: Enriching Social Data with Contextual Information for Emerging Event Extraction ( http://arxiv.org/abs/2307.16082v4 )

ライセンス: Link先を確認
Mohammadali Sefidi Esfahani, Mohammad Akbari(参考訳) ソーシャルプラットフォームは、情報を広め、実際のソーシャルイベントについて議論するための重要なプラットフォームとして登場し、研究者が新しいイベント検出フレームワークを設計し実装する素晴らしい機会を提供します。 しかし、既存のアプローチのほとんどは、キーワードバーストネスやネットワーク構造を利用して特定されていないイベントを検出する。 そのため、イベントや社会データの困難な性質に関する未知の事象を特定するのに役立つことが多い。 社会データ(例えばツイート)は、ミススペル、不完全性、単語認識の曖昧さ、不規則な言語、意見の側面の変化によって特徴づけられる。 さらに,限られた構造知識を生かしてイベントを進化させる識別的特徴やパターンを抽出することは不可能である。 本稿では,これらの課題に対処するために,ストリーミングソーシャルデータの言語的および文脈的表現を活用する新しいフレームワークであるEnrichEventを提案する。 特に,文脈的および言語的知識を活用して意味的関連のあるツイートを検出し,イベント検出手法の有効性を高める。 最終的に、提案フレームワークは各イベントに対してクラスタチェーンを生成し、時間を通じてイベントの変動を示す。 社会イベントの検出と識別において,そのハイパフォーマンスと有効性を検証するため,フレームワークを評価するために広範な実験を行った。

Social platforms have emerged as crucial platforms for disseminating information and discussing real-life social events, offering researchers an excellent opportunity to design and implement novel event detection frameworks. However, most existing approaches only exploit keyword burstiness or network structures to detect unspecified events. Thus, they often need help identifying unknown events regarding the challenging nature of events and social data. Social data, e.g., tweets, is characterized by misspellings, incompleteness, word sense ambiguation, irregular language, and variation in aspects of opinions. Moreover, extracting discriminative features and patterns for evolving events by exploiting the limited structural knowledge is almost infeasible. To address these challenges, in this paper, we propose a novel framework, namely EnrichEvent, that leverages the linguistic and contextual representations of streaming social data. In particular, we leverage contextual and linguistic knowledge to detect semantically related tweets and enhance the effectiveness of the event detection approaches. Eventually, our proposed framework produces cluster chains for each event to show the evolving variation of the event through time. We conducted extensive experiments to evaluate our framework, validating its high performance and effectiveness in detecting and distinguishing unspecified social events.
翻訳日:2023-12-29 22:37:42 公開日:2023-12-27
# 逐次レコメンダシステムのトレーニングデータ摂動に対するロバスト性の検討

Investigating the Robustness of Sequential Recommender Systems Against Training Data Perturbations ( http://arxiv.org/abs/2307.13165v2 )

ライセンス: Link先を確認
Filippo Betello, Federico Siciliano, Pushkar Mishra, Fabrizio Silvestri(参考訳) SRS(Sequential Recommender Systems)は、ユーザの振る舞いを時間とともにモデル化するために広く利用されている。 しかし、トレーニングデータの摂動に直面した彼らの堅牢性は、ほとんど検討されていないが重要な問題である。 ランクバイアスオーバーラップ(RBO)の類似性は、アイテムの無限ランク付けのために設計されており、現実のシナリオにおける制限を示すため、このタスクには特に適していない。 例えば、2つの同一の有限長ランキングに対して1の完全スコアを達成できない。 有限ランクバイアスオーバーラップ(FRBO: Finite Rank-Biased Overlap)は、有限ランクに最適化された拡張された類似性である。 この革新は、実践的な環境でより直感的な評価を促進する。 目的を追求するために,我々は時間順に順序づけられたシーケンス内の異なる位置の項目を削除することの影響を実証的に検討する。 我々は複数のデータセットにまたがる2つの異なるSRSモデルを評価し,NDCG(正規化カウント累積ゲイン)やランクリスト感度などの指標を用いて評価した。 以上の結果から,NDCGは60%まで低下し,シーケンスの最後にアイテムを除去することが統計的にパフォーマンスに有意な影響を及ぼすことが示された。 逆に、初期または中期からの項目の削除には大きな効果がない。 これらの結果は,トレーニングデータにおける摂動項目の位置の重要度を裏付けるものである。 現状のSRSに固有の脆弱性を見極めながら、敵の摂動に対する堅牢性を強化するための研究努力の強化を熱心に提唱する。

Sequential Recommender Systems (SRSs) are widely employed to model user behavior over time. However, their robustness in the face of perturbations in training data remains a largely understudied yet critical issue. A fundamental challenge emerges in previous studies aimed at assessing the robustness of SRSs: the Rank-Biased Overlap (RBO) similarity is not particularly suited for this task as it is designed for infinite rankings of items and thus shows limitations in real-world scenarios. For instance, it fails to achieve a perfect score of 1 for two identical finite-length rankings. To address this challenge, we introduce a novel contribution: Finite Rank-Biased Overlap (FRBO), an enhanced similarity tailored explicitly for finite rankings. This innovation facilitates a more intuitive evaluation in practical settings. In pursuit of our goal, we empirically investigate the impact of removing items at different positions within a temporally ordered sequence. We evaluate two distinct SRS models across multiple datasets, measuring their performance using metrics such as Normalized Discounted Cumulative Gain (NDCG) and Rank List Sensitivity. Our results demonstrate that removing items at the end of the sequence has a statistically significant impact on performance, with NDCG decreasing up to 60%. Conversely, removing items from the beginning or middle has no significant effect. These findings underscore the criticality of the position of perturbed items in the training data. As we spotlight the vulnerabilities inherent in current SRSs, we fervently advocate for intensified research efforts to fortify their robustness against adversarial perturbations.
翻訳日:2023-12-29 22:36:58 公開日:2023-12-27
# 多体系の秩序相における絡み合い非対称性:イジング場理論

Entanglement asymmetry in the ordered phase of many-body systems: the Ising Field Theory ( http://arxiv.org/abs/2307.12127v2 )

ライセンス: Link先を確認
Luca Capizzi, Michele Mazzoni(参考訳) 量子多体系の大域的対称性は自発的に破られる。 このメカニズムが発生すると、基底状態は縮退し、順序付けられた位相に遭遇する。 本研究の目的は,特定の領域の絡み合い非対称性を調べることで,この現象を解明することである。 u(1)$ 対称性の破れという文脈で最近導入されたこの量は、任意の有限群 $g$ を包含するように拡張される。 また、ツイスト演算子を用いたレプリカ理論における場理論の枠組みも確立する。 1+1次元のイジング場理論の順序相における我々の構成を明確に示し、$\mathbb{Z}_2$対称性が自発的に破れ、合成ねじれ場の族を特徴づけるためにフォームファクタブートストラップアプローチを用いる。 区間の長さが大きくなるにつれて、イジングモデルにおける区間の絡み合い非対称性を解析的に予測する。 また、多種多様な状態に対して有効であると考えられる絡み合い非対称性と退化空孔の数に関する一般予想を提案し、いくつかのケースで明確に証明する。

Global symmetries of quantum many-body systems can be spontaneously broken. Whenever this mechanism happens, the ground state is degenerate and one encounters an ordered phase. In this study, our objective is to investigate this phenomenon by examining the entanglement asymmetry of a specific region. This quantity, which has recently been introduced in the context of $U(1)$ symmetry breaking, is extended to encompass arbitrary finite groups $G$. We also establish a field theoretic framework in the replica theory using twist operators. We explicitly demonstrate our construction in the ordered phase of the Ising field theory in 1+1 dimensions, where a $\mathbb{Z}_2$ symmetry is spontaneously broken, and we employ a form factor bootstrap approach to characterise a family of composite twist fields. Analytical predictions are provided for the entanglement asymmetry of an interval in the Ising model as the length of the interval becomes large. We also propose a general conjecture relating the entanglement asymmetry and the number of degenerate vacua, expected to be valid for a large class of states, and we prove it explicitly in some cases.
翻訳日:2023-12-29 22:36:29 公開日:2023-12-27
# 高精度クロスビューカメラローカライゼーションのためのDense Flow Fieldの学習

Learning Dense Flow Field for Highly-accurate Cross-view Camera Localization ( http://arxiv.org/abs/2309.15556v2 )

ライセンス: Link先を確認
Zhenbo Song, Xianghui Ze, Jianfeng Lu, Yujiao Shi(参考訳) 本稿では,局所環境を包含する衛星画像に関して,地上画像に対する3次元カメラのポーズ推定の問題に対処する。 地上画像と衛星画像のペアにおいて,高密度な画素単位の流れ場を学習し,カメラのポーズを計算する手法を提案する。 提案手法は,画素レベルで特徴量を構築することで既存の手法と異なり,視界を横断する特徴的幾何学的構成や視覚的外観を学習するためのフルイメージの監視を可能にする。 具体的には、地上および衛星の特徴抽出に2つの異なる畳み込みネットワークを用いる。 そこで, 固定カメラ高さ推定法を用いて, 地上地形図を鳥眼ビュー(BEV)に投影し, 予備的な幾何学的アライメントを実現する。 さらに、BEVと衛星の特徴の関連性を確立するために、予測されたBEV機能を洗練するための残差畳み込みブロックを導入する。 RAFTに基づくフローデコーダネットワークを用いた改良されたBEV特徴マップと衛星特徴マップ上で光流量推定を行う。 濃密な流れの対応を得た後、最小二乗法を用いて、マッチング不整合をフィルタリングし、地上カメラのポーズを後退させる。 広範な実験により、最先端の方法に比べて大幅な改善が示されている。 特に,本手法では,KITTI,Ford multi-AV,VIGOR,Oxford RobotCarの各データセットにおいて,中央値のローカライゼーション誤差を89%,19%,80%,35%削減する。

This paper addresses the problem of estimating the 3-DoF camera pose for a ground-level image with respect to a satellite image that encompasses the local surroundings. We propose a novel end-to-end approach that leverages the learning of dense pixel-wise flow fields in pairs of ground and satellite images to calculate the camera pose. Our approach differs from existing methods by constructing the feature metric at the pixel level, enabling full-image supervision for learning distinctive geometric configurations and visual appearances across views. Specifically, our method employs two distinct convolution networks for ground and satellite feature extraction. Then, we project the ground feature map to the bird's eye view (BEV) using a fixed camera height assumption to achieve preliminary geometric alignment. To further establish content association between the BEV and satellite features, we introduce a residual convolution block to refine the projected BEV feature. Optical flow estimation is performed on the refined BEV feature map and the satellite feature map using flow decoder networks based on RAFT. After obtaining dense flow correspondences, we apply the least square method to filter matching inliers and regress the ground camera pose. Extensive experiments demonstrate significant improvements compared to state-of-the-art methods. Notably, our approach reduces the median localization error by 89%, 19%, 80% and 35% on the KITTI, Ford multi-AV, VIGOR and Oxford RobotCar datasets, respectively.
翻訳日:2023-12-29 22:26:39 公開日:2023-12-27
# データはしばしば短い深さでロード可能である:財務、画像、流体、タンパク質のためのテンソルネットワークからの量子回路

Data is often loadable in short depth: Quantum circuits from tensor networks for finance, images, fluids, and proteins ( http://arxiv.org/abs/2309.13108v3 )

ライセンス: Link先を確認
Raghav Jumade, Nicolas PD Sawaya(参考訳) 古典的データセットを研究するための量子アルゴリズムの開発にはかなりの進歩があったが、単純に \textit{loading} 古典的データのコストは量子的優位性の障害となっている。 振幅符号化を使用する場合、任意の古典ベクトルをロードするには、量子ビット数に対して指数回路の深さを最大にする必要がある。 ここでは、この ``input problem'' に2つの貢献で対処する。 まず,テンソルネットワーク(TN)理論に基づく回路コンパイル手法を提案する。 AMLET(Automatic Multi-layer Loader Exploiting TNs)は、特定のTNトポロジーを慎重に構築することで、任意の回路深さに合わせて調整することができる。 第2に,金融,画像,流体力学,タンパク質の4つの異なる領域から,実世界の古典データについて数値実験を行う。 我々の知る限りでは、これは古典的なデータを量子コンピュータにロードするまでの最も広い数値解析である。 要求される回路深さは指数的にスケーリングされる一般的な負荷アルゴリズムよりも数桁低いことが多い。 より効率的なローディングアルゴリズムを導入することに加えて、この研究は、多くの古典的データセットが従来よりもはるかに短い深さでロード可能であることを示す。

Though there has been substantial progress in developing quantum algorithms to study classical datasets, the cost of simply \textit{loading} classical data is an obstacle to quantum advantage. When the amplitude encoding is used, loading an arbitrary classical vector requires up to exponential circuit depths with respect to the number of qubits. Here, we address this ``input problem'' with two contributions. First, we introduce a circuit compilation method based on tensor network (TN) theory. Our method -- AMLET (Automatic Multi-layer Loader Exploiting TNs) -- proceeds via careful construction of a specific TN topology and can be tailored to arbitrary circuit depths. Second, we perform numerical experiments on real-world classical data from four distinct areas: finance, images, fluid mechanics, and proteins. To the best of our knowledge, this is the broadest numerical analysis to date of loading classical data into a quantum computer. The required circuit depths are often several orders of magnitude lower than the exponentially-scaling general loading algorithm would require. Besides introducing a more efficient loading algorithm, this work demonstrates that many classical datasets are loadable in depths that are much shorter than previously expected, which has positive implications for speeding up classical workloads on quantum computers.
翻訳日:2023-12-29 22:26:14 公開日:2023-12-27
# オンライン音声認識のための構造化状態空間系列モデルによるコンフォーメータの拡張

Augmenting conformers with structured state-space sequence models for online speech recognition ( http://arxiv.org/abs/2309.08551v2 )

ライセンス: Link先を確認
Haozhe Shan, Albert Gu, Zhong Meng, Weiran Wang, Krzysztof Choromanski, Tara Sainath(参考訳) モデルが左の文脈のみにアクセスするオンライン音声認識は、ASRシステムにとって重要かつ困難なユースケースである。 本研究では、構造化状態空間列モデル(S4)を組み込んだオンラインASRのためのニューラルエンコーダの強化について検討する。 s4モデルの変種を比較するために系統的アブレーションを行い,これらを畳み込みと組み合わせた2つの新しいアプローチを提案する。 最も効果的な設計は、局所的な畳み込みで実値のリカレント重みを使って小さなS4を積み重ねることで、それらを補完的に動作させることである。 我々の最良のモデルは、LibrispeechによるテストセットでWERの4.01%/8.53%を達成する。

Online speech recognition, where the model only accesses context to the left, is an important and challenging use case for ASR systems. In this work, we investigate augmenting neural encoders for online ASR by incorporating structured state-space sequence models (S4), a family of models that provide a parameter-efficient way of accessing arbitrarily long left context. We performed systematic ablation studies to compare variants of S4 models and propose two novel approaches that combine them with convolutions. We found that the most effective design is to stack a small S4 using real-valued recurrent weights with a local convolution, allowing them to work complementarily. Our best model achieves WERs of 4.01%/8.53% on test sets from Librispeech, outperforming Conformers with extensively tuned convolution.
翻訳日:2023-12-29 22:24:58 公開日:2023-12-27
# PromptTTS++:自然言語記述を用いたPrompt-based Text-to-Speechにおける話者識別制御

PromptTTS++: Controlling Speaker Identity in Prompt-Based Text-to-Speech Using Natural Language Descriptions ( http://arxiv.org/abs/2309.08140v2 )

ライセンス: Link先を確認
Reo Shimizu, Ryuichi Yamamoto, Masaya Kawamura, Yuma Shirahata, Hironori Doi, Tatsuya Komatsu, Kentaro Tachibana(参考訳) 本稿では,自然言語記述を用いた話者識別制御が可能な音声合成システムPromptTTS++を提案する。 本稿では,アクセプティブに基づくTTSフレームワーク内での話者識別を制御するために,音声の特徴(性中立性,若年者,老年者,マフラーなど)をほぼ独立に記述した話者プロンプトの概念を導入する。 話者プロンプトを含む大規模データセットは存在しないため、まず手動で注釈付き話者プロンプトを用いたLibriTTS-Rコーパスに基づくデータセットを構築する。 次に,混合密度ネットワークを用いた拡散型音響モデルを用いて,学習データ中の多様な話者因子をモデル化する。 ピッチ, 発話速度, エネルギーなど, 話者の個性の限定的な側面のみを記述する従来の研究とは異なり, 自然言語記述から多様な話者の音響特徴へのマッピングを効果的に学習するために, 追加の話者プロンプトを用いる。 主観評価の結果から,提案手法は話者プロンプトを使わずに話者特性を制御できることがわかった。 オーディオサンプルはhttps://reppy4620.github.io/demo.prompttspp/で入手できる。

We propose PromptTTS++, a prompt-based text-to-speech (TTS) synthesis system that allows control over speaker identity using natural language descriptions. To control speaker identity within the prompt-based TTS framework, we introduce the concept of speaker prompt, which describes voice characteristics (e.g., gender-neutral, young, old, and muffled) designed to be approximately independent of speaking style. Since there is no large-scale dataset containing speaker prompts, we first construct a dataset based on the LibriTTS-R corpus with manually annotated speaker prompts. We then employ a diffusion-based acoustic model with mixture density networks to model diverse speaker factors in the training data. Unlike previous studies that rely on style prompts describing only a limited aspect of speaker individuality, such as pitch, speaking speed, and energy, our method utilizes an additional speaker prompt to effectively learn the mapping from natural language descriptions to the acoustic features of diverse speakers. Our subjective evaluation results show that the proposed method can better control speaker characteristics than the methods without the speaker prompt. Audio samples are available at https://reppy4620.github.io/demo.promptttspp/.
翻訳日:2023-12-29 22:24:41 公開日:2023-12-27
# colld:多言語事前学習音声エンコーダ圧縮のための造影層間蒸留

CoLLD: Contrastive Layer-to-layer Distillation for Compressing Multilingual Pre-trained Speech Encoders ( http://arxiv.org/abs/2309.07707v2 )

ライセンス: Link先を確認
Heng-Jui Chang, Ning Dong, Ruslan Mavlyutov, Sravya Popuri, Yu-An Chung(参考訳) 大規模自己教師付き事前学習音声エンコーダは、音声認識や翻訳タスクにおける従来のアプローチを上回っている。 これらの大規模モデルを開発するコストが高いため、新しいタスクのための新しいエンコーダの構築と、デバイス上のアプリケーションへのデプロイは不可能である。 先行研究では、この問題に対処するためにモデル圧縮手法を提案するが、これらはより小さなモデルとより現実的なタスクに焦点を当てている。 そこで我々は,マスク付き予測とコントラスト学習を利用して,事前学習した音声エンコーダを圧縮する新しい知識蒸留法であるContrastive Layer-to-layer Distillation (CoLLD)を提案する。 CoLLDは従来の手法よりも優れており、多言語音声テキスト翻訳および認識ベンチマークにおける小型モデルと大規模モデルのギャップを埋める。

Large-scale self-supervised pre-trained speech encoders outperform conventional approaches in speech recognition and translation tasks. Due to the high cost of developing these large models, building new encoders for new tasks and deploying them to on-device applications are infeasible. Prior studies propose model compression methods to address this issue, but those works focus on smaller models and less realistic tasks. Thus, we propose Contrastive Layer-to-layer Distillation (CoLLD), a novel knowledge distillation method to compress pre-trained speech encoders by leveraging masked prediction and contrastive learning to train student models to copy the behavior of a large teacher model. CoLLD outperforms prior methods and closes the gap between small and large models on multilingual speech-to-text translation and recognition benchmarks.
翻訳日:2023-12-29 22:24:17 公開日:2023-12-27
# SSHNN:心エコー画像分割のための半スーパービジョンハイブリッドNASネットワーク

SSHNN: Semi-Supervised Hybrid NAS Network for Echocardiographic Image Segmentation ( http://arxiv.org/abs/2309.04672v2 )

ライセンス: Link先を確認
Renqi Chen, Jingjing Luo, Fan Nian, Yuhui Cen, Yiheng Peng and Zekuan Yu(参考訳) 特にノイズのない心エコー図に対する正確な医用画像分割は,ネットワーク設計を精巧に行う必要がある。 手動設計と比較して、ニューラルネットワークサーチ(NAS)は、より大きな検索空間と自動最適化によるセグメンテーション結果の改善を実現するが、既存の手法のほとんどは層単位での機能集約が弱く、「強いエンコーダ、弱いデコーダ」構造を採用しており、グローバルな関係や局所的な詳細を扱うには不十分である。 そこで本研究では,sshnnと呼ばれる医用画像分割のための半教師付きハイブリッドnasネットワークを提案する。 SSHNNでは、正規化されたスカラーではなく階層的な機能融合で畳み込み操作を創造的に利用し、NASをエンコーダとして強化する。 さらに,グローバルコンテキストの補償のためにトランスフォーマーを導入し,グローバルコンテキストとローカル特徴を効率的に接続するU字型デコーダを設計した。 具体的には,ラベル付き医用画像データセットの容量制限問題を克服するために,半教師付きアルゴリズム平均教師を実装した。 camus echocardiographyデータセットの広範な実験は、sshnnが最先端のアプローチよりも優れ、正確なセグメンテーションを実現していることを示している。 コードは公開される予定だ。

Accurate medical image segmentation especially for echocardiographic images with unmissable noise requires elaborate network design. Compared with manual design, Neural Architecture Search (NAS) realizes better segmentation results due to larger search space and automatic optimization, but most of the existing methods are weak in layer-wise feature aggregation and adopt a ``strong encoder, weak decoder" structure, insufficient to handle global relationships and local details. To resolve these issues, we propose a novel semi-supervised hybrid NAS network for accurate medical image segmentation termed SSHNN. In SSHNN, we creatively use convolution operation in layer-wise feature fusion instead of normalized scalars to avoid losing details, making NAS a stronger encoder. Moreover, Transformers are introduced for the compensation of global context and U-shaped decoder is designed to efficiently connect global context with local features. Specifically, we implement a semi-supervised algorithm Mean-Teacher to overcome the limited volume problem of labeled medical image dataset. Extensive experiments on CAMUS echocardiography dataset demonstrate that SSHNN outperforms state-of-the-art approaches and realizes accurate segmentation. Code will be made publicly available.
翻訳日:2023-12-29 22:24:00 公開日:2023-12-27
# 弱い測定相互作用におけるメーター揺らぎの起源

Origin of meter fluctuations in weak measurement interactions ( http://arxiv.org/abs/2309.01932v2 )

ライセンス: Link先を確認
Tomonori Matsushita and Holger F. Hofmann(参考訳) 測定値は、観測可能な対象の値をメートルシフトにマップし、結果として、メートル状態の初期統計と観測対象の量子統計とを組み合わせるメートル読み出しが行われる。 弱い測定相互作用の限界においても、測定相互作用によって引き起こされる読み出し変動の変化から、観測可能な対象の揺らぎに関する情報を抽出することができる。 そこで,このハイゼンベルク像を用いて,測定値応答における非線形性の影響を含む,十分な弱測定相互作用による測定値の読み出し統計量の変化を分析する。 その後のシステム測定で追加情報が得られると、対象の観測可能な後選択された統計に基づいてメーター変動が変化する。 また,測定間相互作用における計測器の動力学にポストセレクション確率が依存することによるメーター変動の直接的変化を解析により明らかにする。 量子フォーマリズムは、この動的項を観測対象の物理的変動と区別することを難しくし、観測対象の実際の条件変動と測定バックアクションに関連する動的擬分散とを区別することの重要性を強調している。

Measurements map the value of a target observable onto a meter shift, resulting in a meter readout that combines the initial statistics of the meter state with the quantum statistics of the target observable. Even in the limit of weak measurement interactions, some information about the fluctuations of the target observable can be extracted from the change in the readout fluctuations caused by the measurement interaction. Here, we apply the Heisenberg picture to analyze the changes in the meter readout statistics caused by sufficiently weak measurement interactions, including the effects of non-linearities in the meter response. When additional information is obtained in a subsequent measurement of the system, the meter fluctuations are modified based on the post-selected statistics of the target observable. In addition, our analysis reveals a direct modification of the meter fluctuations due to the dependence of the post-selection probability on the dynamics induced by the meter in the measurement interaction. We point out that the quantum formalism makes it difficult to distinguish this dynamic term from the physical fluctuations of the target observable and stress the importance of distinguishing between genuine conditional fluctuations of the target observable and the dynamic pseudovariance associated with the measurement back-action.
翻訳日:2023-12-29 22:22:24 公開日:2023-12-27
# AskIt: 大規模言語モデルによるプログラミングのための統一プログラミングインターフェース

AskIt: Unified Programming Interface for Programming with Large Language Models ( http://arxiv.org/abs/2308.15645v2 )

ライセンス: Link先を確認
Katsumi Okuda, Saman Amarasinghe(参考訳) 大規模言語モデル(LLM)は創発的能力として知られるユニークな現象を示し、テキストの要約からコード生成に至るまで、多くのタスクで有効性を示す。 これらの能力は、ソフトウェア設計とクラフトの新たな道を開く一方で、その法人化には大きな課題がある。 開発者は、アプリケーション内で直接タスクを実行するためのLLMの使用と、これらのタスクを達成するためのコードの生成と実行に関する決定に直面します。 さらに、自然言語出力からデータを抽出する必要性から、効果的なプロンプト設計が重要な関心事となる。 これらの複雑さに対処するために、LLM用に特別に設計されたドメイン固有言語(DSL)であるAskItを紹介します。 AskItは、LLMを使用して直接タスクを実行することができるだけでなく、コード生成と実行のサイクル全体をサポートする統一インターフェースを提供することで、LLM統合を単純化する。 このデュアル機能は、(1)型誘導出力制御、(2)テンプレートベースの関数定義、(3)両方の使用モードのプロンプト生成によって実現される。 我々の評価はAskItの有効性を裏付けるものである。 50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長を短縮した。 さらに、アプリケーションでLLMを直接使用してコードを生成するためのシームレスな移行を可能にすることで、GSM8Kベンチマーク実験で見られるように、AskItは大幅な効率改善を実現しました。 TypeScriptとPythonのAskItの実装は、https://github.com/katsumiok/ts-askitとhttps://github.com/katsumiok/pyaskitでそれぞれ提供されている。

Large Language Models (LLMs) exhibit a unique phenomenon known as emergent abilities, demonstrating adeptness across numerous tasks, from text summarization to code generation. While these abilities open up novel avenues in software design and crafting, their incorporation presents substantial challenges. Developers face decisions regarding the use of LLMs for directly performing tasks within applications as well as for generating and executing code to accomplish these tasks. Moreover, effective prompt design becomes a critical concern, given the necessity of extracting data from natural language outputs. To address these complexities, this paper introduces AskIt, a domain-specific language (DSL) specifically designed for LLMs. AskIt simplifies LLM integration by providing a unified interface that not only allows for direct task execution using LLMs but also supports the entire cycle of code generation and execution. This dual capability is achieved through (1) type-guided output control, (2) template-based function definitions, and (3) prompt generation for both usage modes. Our evaluations underscore AskIt's effectiveness. Across 50 tasks, AskIt generated concise prompts, achieving a 16.14 % reduction in prompt length compared to benchmarks. Additionally, by enabling a seamless transition between using LLMs directly in applications and for generating code, AskIt achieved significant efficiency improvements, as observed in our GSM8K benchmark experiments. The implementations of AskIt in TypeScript and Python are available at https://github.com/katsumiok/ts-askit and https://github.com/katsumiok/pyaskit, respectively.
翻訳日:2023-12-29 22:21:45 公開日:2023-12-27
# 弱教師付きセマンティックセグメンテーションのためのパッチコントラスト学習によるトップKプーリング

Top-K Pooling with Patch Contrastive Learning for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2310.09828v2 )

ライセンス: Link先を確認
Wangyu Wu, Tianhong Dai, Xiaowei Huang, Fei Ma, Jimin Xiao(参考訳) 画像レベルラベルのみを用いたWSSS(Weakly Supervised Semantic Segmentation)は費用対効果から注目されている。 近年,クラスアクティベーションマップ(CAM)を持たない視覚変換器(ViT)を用いた手法は,従来の手法よりも信頼性の高い擬似ラベルを生成する能力が高いことが示された。 しかし、現在のViTベースの手法では、最大プーリングを用いて、パッチレベルの分類を画像レベルにマッピングするために、パッチの正確な分類による擬似ラベルの品質に影響を与える可能性のある、最高の予測スコアを持つパッチを選択する。 本稿では,新しいvitベースのwsss法であるtop-k pooling with patch contrastive learning (tkp-pcl)を提案する。 また,パッチ埋め込みを向上し,最終的な結果を改善するパッチコントラッシブエラー (PCE) も提案されている。 実験の結果,本手法はPASCAL VOC 2012データセットの他の最先端のWSSS手法よりも効率が良く,性能も優れていた。

Weakly Supervised Semantic Segmentation (WSSS) using only image-level labels has gained significant attention due to cost-effectiveness. Recently, Vision Transformer (ViT) based methods without class activation map (CAM) have shown greater capability in generating reliable pseudo labels than previous methods using CAM. However, the current ViT-based methods utilize max pooling to select the patch with the highest prediction score to map the patch-level classification to the image-level one, which may affect the quality of pseudo labels due to the inaccurate classification of the patches. In this paper, we introduce a novel ViT-based WSSS method named top-K pooling with patch contrastive learning (TKP-PCL), which employs a top-K pooling layer to alleviate the limitations of previous max pooling selection. A patch contrastive error (PCE) is also proposed to enhance the patch embeddings to further improve the final results. The experimental results show that our approach is very efficient and outperforms other state-of-the-art WSSS methods on the PASCAL VOC 2012 dataset.
翻訳日:2023-12-29 22:13:26 公開日:2023-12-27
# マルチモーダル大言語モデルの編集は可能か?

Can We Edit Multimodal Large Language Models? ( http://arxiv.org/abs/2310.08475v4 )

ライセンス: Link先を確認
Siyuan Cheng, Bozhong Tian, Qingbin Liu, Xi Chen, Yongheng Wang, Huajun Chen, Ningyu Zhang(参考訳) 本稿では,MLLM(Multimodal Large Language Models)の編集に焦点をあてる。 単一モードLLMの編集に比べ、マルチモーダルモデル編集はより困難であり、編集プロセスにおいてより高度な精査と慎重な考慮が必要である。 そこで本研究では,マルチモーダル LLM の編集と評価のための革新的な指標のスイートを構築するため,MMEdit という新しいベンチマークを構築した。 各種モデル編集ベースラインの包括的実験を行い、多モードLLMにおける様々なコンポーネントの編集の影響を分析した。 経験的に、以前のベースラインはある程度はマルチモーダル LLM の編集を実装できるが、その効果はいまだに十分であり、この課題の潜在的な難しさを示している。 私たちの研究がNLPコミュニティに洞察を与えてくれることを願っています。 コードとデータセットはhttps://github.com/zjunlp/EasyEditで入手できる。

In this paper, we focus on editing Multimodal Large Language Models (MLLMs). Compared to editing single-modal LLMs, multimodal model editing is more challenging, which demands a higher level of scrutiny and careful consideration in the editing process. To facilitate research in this area, we construct a new benchmark, dubbed MMEdit, for editing multimodal LLMs and establishing a suite of innovative metrics for evaluation. We conduct comprehensive experiments involving various model editing baselines and analyze the impact of editing different components for multimodal LLMs. Empirically, we notice that previous baselines can implement editing multimodal LLMs to some extent, but the effect is still barely satisfactory, indicating the potential difficulty of this task. We hope that our work can provide the NLP community with insights. Code and dataset are available in https://github.com/zjunlp/EasyEdit.
翻訳日:2023-12-29 22:12:52 公開日:2023-12-27
# 高速なR-CNNオブジェクト検出器を効果的に訓練して不確かさを定量化する方法

How To Effectively Train An Ensemble Of Faster R-CNN Object Detectors To Quantify Uncertainty ( http://arxiv.org/abs/2310.04829v3 )

ライセンス: Link先を確認
Denis Mbey Akola, Gianni Franchi(参考訳) 本稿では,2段階の物体検出アンサンブルモデル,具体的にはr-cnnモデルを用いて不確かさを推定する新しい手法を提案する。 我々は1つの領域提案ネットワーク(RPN)と複数の高速R-CNN予測ヘッドをトレーニングすることを提案し、オブジェクト検出の不確実性を推定するための堅牢なディープアンサンブルネットワークを構築する必要がある。 我々は、このアプローチを提示し、このアプローチがアンサンブルで全ての$n$モデルを完全にトレーニングするナイーブな方法よりもはるかに高速であることを示す実験を提供する。 また,このアンサンブルモデルの予測校正誤差(ECE)を測定し,不確実性を推定する。 さらに,このモデルの性能を,予測境界ボックス座標を用いた不確かさをモデル化した YOLOv3 の変種である Gaussian YOLOv3 と比較する。 ソースコードは \url{https://github.com/Akola-Mbey-Denis/EfficientEnsemble} で公開されている。

This paper presents a new approach for training two-stage object detection ensemble models, more specifically, Faster R-CNN models to estimate uncertainty. We propose training one Region Proposal Network(RPN) and multiple Fast R-CNN prediction heads is all you need to build a robust deep ensemble network for estimating uncertainty in object detection. We present this approach and provide experiments to show that this approach is much faster than the naive method of fully training all $n$ models in an ensemble. We also estimate the uncertainty by measuring this ensemble model's Expected Calibration Error (ECE). We then further compare the performance of this model with that of Gaussian YOLOv3, a variant of YOLOv3 that models uncertainty using predicted bounding box coordinates. The source code is released at \url{https://github.com/Akola-Mbey-Denis/EfficientEnsemble}
翻訳日:2023-12-29 22:12:11 公開日:2023-12-27
# IPMix:ロバスト分類器の学習のためのラベル保存データ拡張法

IPMix: Label-Preserving Data Augmentation Method for Training Robust Classifiers ( http://arxiv.org/abs/2310.04780v6 )

ライセンス: Link先を確認
Zhenglin Huang, Xianan Bao, Na Zhang, Qingqi Zhang, Xiaomei Tu, Biao Wu, Xi Yang(参考訳) データ拡張は、過剰フィッティングを防止し、高精度畳み込みニューラルネットワーク分類器のトレーニングに有効であることが証明されている。 しかし、現実世界のシナリオでディープニューラルネットワークを構築するには、クリーンなデータに対する高い精度だけでなく、データ分布が変化する際のロバスト性も必要となる。 従来の手法では精度とロバスト性の間にトレードオフがあることが提案されているが, クリーンな精度を損なうことなくロバスト性を改善するシンプルなデータ拡張手法であるIMMixを提案する。 ipmixは3つのレベルのデータ拡張(イメージレベル、パッチレベル、ピクセルレベル)をコヒーレントでラベル保存技術に統合し、計算オーバーヘッドの少ないトレーニングデータの多様性を高める。 堅牢性をさらに向上するため、IMMixは様々なレベルで構造的複雑さを導入し、より多様な画像を生成し、マルチスケール情報融合にランダム混合法を採用する。 実験により、IMMixはCIFAR-CとImageNet-Cで最先端の破損堅牢性を上回っていることが示された。 さらに, IPMixは, 対向摂動, キャリブレーション, 予測整合性, 異常検出の堅牢性, ImageNet-R, ImageNet-A, ImageNet-O など,いくつかのベンチマークにおいて, 最先端ないし同等の結果が得られた。

Data augmentation has been proven effective for training high-accuracy convolutional neural network classifiers by preventing overfitting. However, building deep neural networks in real-world scenarios requires not only high accuracy on clean data but also robustness when data distributions shift. While prior methods have proposed that there is a trade-off between accuracy and robustness, we propose IPMix, a simple data augmentation approach to improve robustness without hurting clean accuracy. IPMix integrates three levels of data augmentation (image-level, patch-level, and pixel-level) into a coherent and label-preserving technique to increase the diversity of training data with limited computational overhead. To further improve the robustness, IPMix introduces structural complexity at different levels to generate more diverse images and adopts the random mixing method for multi-scale information fusion. Experiments demonstrate that IPMix outperforms state-of-the-art corruption robustness on CIFAR-C and ImageNet-C. In addition, we show that IPMix also significantly improves the other safety measures, including robustness to adversarial perturbations, calibration, prediction consistency, and anomaly detection, achieving state-of-the-art or comparable results on several benchmarks, including ImageNet-R, ImageNet-A, and ImageNet-O.
翻訳日:2023-12-29 22:11:55 公開日:2023-12-27
# ポーズフリー汎用レンダリングトランス

Pose-Free Generalizable Rendering Transformer ( http://arxiv.org/abs/2310.03704v3 )

ライセンス: Link先を確認
Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang(参考訳) ノベルビュー合成の分野では、レンダリングの前にカメラのポーズを知る必要性(例えば、Structure from Motion)が一般的である。 しかし、正確なカメラポーズの連続的な取得は明らかにならず、ポーズ抽出におけるエラーは、ビュー合成プロセスに悪影響を及ぼす可能性がある。 この課題に対処するために、我々は、Generalizable Rendering Transformer用の新しいPF-GRTフレームワークを導入し、事前計算されたカメラポーズの必要性を排除し、データから直接学習した特徴マッチングを活用する。 PF-GRTは、ソース画像の1つを原点とする局所相対座標系を用いてパラメータ化される。 omniview トランスフォーマーは、ポーズフリー設定下でマルチビューのキューを融合するために設計されており、未設定のビュー融合とオリジン中心のアグリゲーションが行われる。 選択された原点面に投影してターゲット線に沿った3d点特徴をサンプリングする。 最終的なピクセル強度は、別のTransformerを使用して変調および復号化される。 pf-grtは、事前のカメラポーズを必要とせずに、トレーニング段階では見つからなかった新しいシーンに一般化する素晴らしい能力を示している。 llff, realestate-10k, shiny, blenderデータセット上でゼロショットレンダリングを行った結果,画像生成に優れた品質が得られた。 さらに、テストカメラのポーズにおけるノイズに対する堅牢性を示す。 コードはhttps://zhiwenfan.github.io/PF-GRT/で入手できる。

In the field of novel-view synthesis, the necessity of knowing camera poses (e.g., via Structure from Motion) before rendering has been a common practice. However, the consistent acquisition of accurate camera poses remains elusive, and errors in pose extraction can adversely impact the view synthesis process. To address this challenge, we introduce PF-GRT, a new Pose-Free framework for Generalizable Rendering Transformer, eliminating the need for pre-computed camera poses and instead leveraging feature-matching learned directly from data. PF-GRT is parameterized using a local relative coordinate system, where one of the source images is set as the origin. An OmniView Transformer is designed for fusing multi-view cues under the pose-free setting, where unposed-view fusion and origin-centric aggregation are performed. The 3D point feature along target ray is sampled by projecting onto the selected origin plane. The final pixel intensities are modulated and decoded using another Transformer. PF-GRT demonstrates an impressive ability to generalize to new scenes that were not encountered during the training phase, without the need of pre-computing camera poses. Our experiments with zero-shot rendering on the LLFF, RealEstate-10k, Shiny, and Blender datasets reveal that it produces superior quality in generating photo-realistic images. Moreover, it demonstrates robustness against noise in test camera poses. Code is available at https://zhiwenfan.github.io/PF-GRT/.
翻訳日:2023-12-29 22:11:15 公開日:2023-12-27
# 暗号通貨の解読:暗号通貨による消費者の知識と嗜好

Deciphering the Crypto-shopper: Knowledge and Preferences of Consumers Using Cryptocurrencies for Purchases ( http://arxiv.org/abs/2310.02911v4 )

ライセンス: Link先を確認
Massimiliano Silenzi, Umut Can Cabuk, Enis Karaarslan, Omer Aydin(参考訳) 急速に成長する暗号通貨部門は、ビジネスと消費者の両方に挑戦と機会を与えている。 本研究では、暗号通貨で買い物をする人の知識、専門知識、購買習慣を調査した。 516名の被験者を対象に調査を行ったところ,知識レベルは初心者から専門家まで様々であった。 興味深いことに、回答者の30%近くが、限られた知識にもかかわらず高い購入頻度を示した。 回帰分析の結果、ドメイン知識が果たす役割は、購入頻度に影響を与える要因の11.6%に過ぎなかった。 K平均クラスタ分析により、回答者はさらに3つの異なるグループに分類された。 これらの結果は、幅広い知識を暗号通貨の利用の増加に結びつける従来の考え方に異議を唱え、他の要因を示唆している。 さまざまな暗号通貨購入者層を理解することは、ビジネスにとって重要な要素であり、適切な戦略とユーザーフレンドリーな体験の必要性を強調している。 この研究は、現在の暗号商取引行動に関する洞察を提供し、暗号商業界における幅広い影響と潜在的な変化を探求する将来の研究について論じる。

The fast-growing cryptocurrency sector presents both challenges and opportunities for businesses and consumers alike. This study investigates the knowledge, expertise, and buying habits of people who shop using cryptocurrencies. Our survey of 516 participants shows that knowledge levels vary from beginners to experts. Interestingly, a segment of respondents, nearly 30%, showed high purchase frequency despite their limited knowledge. Regression analyses indicated that while domain knowledge plays a role, it only accounts for 11.6% of the factors affecting purchasing frequency. A K-means cluster analysis further segmented the respondents into three distinct groups, each having unique knowledge levels and purchasing tendencies. These results challenge the conventional idea linking extensive knowledge to increased cryptocurrency usage, suggesting other factors at play. Understanding this varying crypto-shopper demographic is pivotal for businesses, emphasizing the need for tailored strategies and user-friendly experiences. This study offers insights into current crypto-shopping behaviors and discusses future research exploring the broader impacts and potential shifts in the crypto-consumer landscape.
翻訳日:2023-12-29 22:10:29 公開日:2023-12-27
# Ophiuchus: 階層的粗粒化SO(3)-等価オートエンコーダによるタンパク質構造のスケーラブルモデリング

Ophiuchus: Scalable Modeling of Protein Structures through Hierarchical Coarse-graining SO(3)-Equivariant Autoencoders ( http://arxiv.org/abs/2310.02508v2 )

ライセンス: Link先を確認
Allan dos Santos Costa and Ilan Mitnikov and Mario Geiger and Manvitha Ponnapati and Tess Smidt and Joseph Jacobson(参考訳) 自然タンパク質の3次元ネイティブ状態は反復的および階層的パターンを示す。 しかし、従来のグラフベースのタンパク質構造のモデリングは、しばしば単一のきめ細かい解像度で操作することに限られ、それらのハイレベルな構成要素を学ぶのに砂時計の神経アーキテクチャが欠如している。 我々は,全原子タンパク質構造を効率的に操作するso(3)同変粗粒モデルであるophiuchusを導入することで,このギャップを狭める。 我々のモデルは、グラフモデリングを採用する現在のアプローチから離れ、代わりに、局所的な畳み込みの粗大化に焦点をあて、タンパク質長の効率的な時間複雑さを伴うシーケンス-モチーフ相互作用をモデル化する。 我々は,Ophiuchusの再現能力を異なる圧縮速度で測定し,既存のモデルと比較する。 学習された潜在空間を調べ,その有用性を示す。 最後に,潜伏空間における拡散確率モデル(DDPM)を用いてタンパク質構造を効率的にサンプリングする。 我々の実験は、Ophiuchusが効率的なタンパク質モデリングと生成のためのスケーラブルな基盤であることを実証した。

Three-dimensional native states of natural proteins display recurring and hierarchical patterns. Yet, traditional graph-based modeling of protein structures is often limited to operate within a single fine-grained resolution, and lacks hourglass neural architectures to learn those high-level building blocks. We narrow this gap by introducing Ophiuchus, an SO(3)-equivariant coarse-graining model that efficiently operates on all-atom protein structures. Our model departs from current approaches that employ graph modeling, instead focusing on local convolutional coarsening to model sequence-motif interactions with efficient time complexity in protein length. We measure the reconstruction capabilities of Ophiuchus across different compression rates, and compare it to existing models. We examine the learned latent space and demonstrate its utility through conformational interpolation. Finally, we leverage denoising diffusion probabilistic models (DDPM) in the latent space to efficiently sample protein structures. Our experiments demonstrate Ophiuchus to be a scalable basis for efficient protein modeling and generation.
翻訳日:2023-12-29 22:10:14 公開日:2023-12-27
# Mini-Behavior: 身体的AIにおける長距離意思決定のための手続き的に生成されたベンチマーク

Mini-BEHAVIOR: A Procedurally Generated Benchmark for Long-horizon Decision-Making in Embodied AI ( http://arxiv.org/abs/2310.01824v2 )

ライセンス: Link先を確認
Emily Jin, Jiaheng Hu, Zhuoyi Huang, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Roberto Mart\'in-Mart\'in(参考訳) エージェントが推論や意思決定のスキルを駆使して、日常の人間の課題に類似した複雑なタスクを解決するための新しいベンチマークであるmini-behaviorを提案する。 Mini-BEHAVIOR環境は高速で現実的なGridworld環境であり、複雑なAIベンチマークで見られる物理リアリズムと複雑性の象徴的なレベルを維持しながら、迅速なプロトタイピングと使いやすさのメリットを提供する。 手続き生成などの重要な機能を導入し、無数のタスクのバリエーションの作成を可能にし、オープンエンド学習をサポートする。 Mini-BEHAVIORは、データ収集および強化学習エージェントトレーニングのスタータコードとともに、オリジナルのBEHAVIORベンチマークから様々な家庭用タスクの実装を提供する。 本質的には、Mini-BEHAVIORは、組み込みAIにおける意思決定と計画ソリューションを評価するための、高速でオープンなベンチマークを提供する。 研究のためのユーザフレンドリーなエントリポイントとして機能し、ソリューションの評価と開発を促進し、インボディードAIの分野を前進させながら、その評価と開発を簡素化する。 コードはhttps://github.com/stanfordvl/mini_behaviorで公開されている。

We present Mini-BEHAVIOR, a novel benchmark for embodied AI that challenges agents to use reasoning and decision-making skills to solve complex activities that resemble everyday human challenges. The Mini-BEHAVIOR environment is a fast, realistic Gridworld environment that offers the benefits of rapid prototyping and ease of use while preserving a symbolic level of physical realism and complexity found in complex embodied AI benchmarks. We introduce key features such as procedural generation, to enable the creation of countless task variations and support open-ended learning. Mini-BEHAVIOR provides implementations of various household tasks from the original BEHAVIOR benchmark, along with starter code for data collection and reinforcement learning agent training. In essence, Mini-BEHAVIOR offers a fast, open-ended benchmark for evaluating decision-making and planning solutions in embodied AI. It serves as a user-friendly entry point for research and facilitates the evaluation and development of solutions, simplifying their assessment and development while advancing the field of embodied AI. Code is publicly available at https://github.com/StanfordVL/mini_behavior.
翻訳日:2023-12-29 22:09:56 公開日:2023-12-27
# 限定データと無制限ポテンシャル:マスク付きオートエンコーダによるvits拡張に関する研究

Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked Autoencoders ( http://arxiv.org/abs/2310.20704v2 )

ライセンス: Link先を確認
Srijan Das, Tanmay Jain, Dominick Reilly, Pranav Balaji, Soumyajit Karmakar, Shyam Marjit, Xiang Li, Abhijit Das, and Michael S. Ryoo(参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいてユビキタスになった。 彼らの成功にもかかわらず、ViTには誘導バイアスがないため、限られたデータでトレーニングすることは難しい。 この課題に対処するために、先行研究では、自己教師付き学習(SSL)と微調整を順次行うViTのトレーニングを提案する。 しかし,訓練データの量に制限がある場合には,主タスクと自己監督補助タスク(SSAT)を共同最適化することは驚くほど有益である。 我々は、主要なタスクと並行して最適化できる適切なSSLタスク、これらのタスクのトレーニングスキーム、そしてそれらが最も効果的であるデータスケールについて検討する。 以上の結果から,SSATは自己教師型タスクとプライマリタスクの両方の特長を活用できる強力な技術であり,SSLの事前トレーニングや微調整による微調整よりも優れた性能を実現していることがわかった。 実験では, 炭素フットプリントを低減しつつ, SSAT が ViT 性能を大幅に向上することを示した。 また,ビデオ領域におけるSSATの有効性を確認し,その一般化性を示す。 私たちのコードはhttps://github.com/dominickrei/limited-data-vitsで利用可能です。

Vision Transformers (ViTs) have become ubiquitous in computer vision. Despite their success, ViTs lack inductive biases, which can make it difficult to train them with limited data. To address this challenge, prior studies suggest training ViTs with self-supervised learning (SSL) and fine-tuning sequentially. However, we observe that jointly optimizing ViTs for the primary task and a Self-Supervised Auxiliary Task (SSAT) is surprisingly beneficial when the amount of training data is limited. We explore the appropriate SSL tasks that can be optimized alongside the primary task, the training schemes for these tasks, and the data scale at which they can be most effective. Our findings reveal that SSAT is a powerful technique that enables ViTs to leverage the unique characteristics of both the self-supervised and primary tasks, achieving better performance than typical ViTs pre-training with SSL and fine-tuning sequentially. Our experiments, conducted on 10 datasets, demonstrate that SSAT significantly improves ViT performance while reducing carbon footprint. We also confirm the effectiveness of SSAT in the video domain for deepfake detection, showcasing its generalizability. Our code is available at https://github.com/dominickrei/Limited-data-vits.
翻訳日:2023-12-29 22:02:00 公開日:2023-12-27
# 動的最適輸送問題のための新しいスキップ直交リスト

A Novel Skip Orthogonal List for Dynamic Optimal Transport Problem ( http://arxiv.org/abs/2310.18446v3 )

ライセンス: Link先を確認
Xiaoyang Xu, Hu Ding(参考訳) 最適な輸送は基本的なトピックであり、過去数十年間、最適化コミュニティから多くの注目を集めてきた。 本稿では,データポイントの重みや位置が変化するとき,最適輸送計画を効率的に更新できるかという,興味深い離散的動的最適輸送問題を考える。 この問題は、機械学習のいくつかの応用によって自然に動機付けられている。 例えば、2つの異なるデータセット間の最適な転送コストを計算する必要がある。いくつかのデータポイントに何らかの変更が発生した場合、高複雑性コスト関数を再計算するか、あるいは効率的な動的データ構造によってコストを更新するべきか? これまでいくつかの動的最大フローアルゴリズムが提案されてきたが、我々の知る限りでは、動的最小コストフロー問題の研究はまだかなり限られている。 本稿では,新しい2次元スキップ直交リストと動的木手法を提案する。 我々のアルゴリズムは従来の単純な手法に基づいているが、期待される$O(1)$時間内でピボットする変数を効率よく見つけ、期待される$O(|V|)$時間内で各ピボット操作を完了させることができる。 動的修正は通常大きな変更を起こさないため、我々のアルゴリズムは実際に数回の単純な反復しか必要としない。 したがって、アルゴリズムは、すべての$|e| = o(|v|^2)$変数に対して少なくとも1つのトラバーサルを必要とする最適な輸送コストを再計算するよりも効率的である。 実験により,本アルゴリズムが動的シナリオにおいて既存のアルゴリズムを大きく上回ることを示した。

Optimal transport is a fundamental topic that has attracted a great amount of attention from the optimization community in the past decades. In this paper, we consider an interesting discrete dynamic optimal transport problem: can we efficiently update the optimal transport plan when the weights or the locations of the data points change? This problem is naturally motivated by several applications in machine learning. For example, we often need to compute the optimal transport cost between two different data sets; if some changes happen to a few data points, should we re-compute the high complexity cost function or update the cost by some efficient dynamic data structure? We are aware that several dynamic maximum flow algorithms have been proposed before, however, the research on dynamic minimum cost flow problem is still quite limited, to the best of our knowledge. We propose a novel 2D Skip Orthogonal List together with some dynamic tree techniques. Although our algorithm is based on the conventional simplex method, it can efficiently find the variable to pivot within expected $O(1)$ time, and complete each pivoting operation within expected $O(|V|)$ time where $V$ is the set of all supply and demand nodes. Since dynamic modifications typically do not introduce significant changes, our algorithm requires only a few simplex iterations in practice. So our algorithm is more efficient than re-computing the optimal transport cost that needs at least one traversal over all $|E| = O(|V|^2)$ variables, where $|E|$ denotes the number of edges in the network. Our experiments demonstrate that our algorithm significantly outperforms existing algorithms in the dynamic scenarios.
翻訳日:2023-12-29 22:01:37 公開日:2023-12-27
# 階層的ランダム化平滑化

Hierarchical Randomized Smoothing ( http://arxiv.org/abs/2310.16221v2 )

ライセンス: Link先を確認
Yan Scholten, Jan Schuchardt, Aleksandar Bojchevski, Stephan G\"unnemann(参考訳) 実世界のデータは複雑で、しばしば複数のエンティティ(例えば画像はピクセル、グラフは相互接続ノード)に分解できるオブジェクトで構成されている。 ランダム化平滑化(randomized smoothing)は、モデルが入力の小さな変更に対して確実に堅牢になるための強力なフレームワークである。 しかし、オブジェクト全体(例えば画像)を任意に摂動せず、エンティティのサブセット(例えばピクセル)しか持たない場合、ランダムな平滑化による複雑なデータに対するロバスト性の証明は困難である。 ランダムに選択されたエンティティのサブセットにのみランダムノイズを追加することにより、部分的にオブジェクトを平滑化します。 従来の手法よりも標的に雑音を加えることで、高い精度を維持しながら強靭性を保証する。 異なるノミージング分布を用いて階層的平滑化を初期化し,離散的および連続的領域に対する新しいロバスト性証明を導出する。 画像とノードの分類における階層的平滑化の重要性を実験的に実証し,ロバスト性・正確性に優れたトレードオフをもたらすことを示した。 全体として、階層的平滑化は、摂動に対して確実に堅牢で正確であるモデルにとって重要な貢献である。

Real-world data is complex and often consists of objects that can be decomposed into multiple entities (e.g. images into pixels, graphs into interconnected nodes). Randomized smoothing is a powerful framework for making models provably robust against small changes to their inputs - by guaranteeing robustness of the majority vote when randomly adding noise before classification. Yet, certifying robustness on such complex data via randomized smoothing is challenging when adversaries do not arbitrarily perturb entire objects (e.g. images) but only a subset of their entities (e.g. pixels). As a solution, we introduce hierarchical randomized smoothing: We partially smooth objects by adding random noise only on a randomly selected subset of their entities. By adding noise in a more targeted manner than existing methods we obtain stronger robustness guarantees while maintaining high accuracy. We initialize hierarchical smoothing using different noising distributions, yielding novel robustness certificates for discrete and continuous domains. We experimentally demonstrate the importance of hierarchical smoothing in image and node classification, where it yields superior robustness-accuracy trade-offs. Overall, hierarchical smoothing is an important contribution towards models that are both - certifiably robust to perturbations and accurate.
翻訳日:2023-12-29 22:00:55 公開日:2023-12-27
# E4S:地域GANインバージョン編集による顔のきめ細かいスワップ

E4S: Fine-grained Face Swapping via Editing With Regional GAN Inversion ( http://arxiv.org/abs/2310.15081v2 )

ライセンス: Link先を確認
Maomao Li, Ge Yuan, Cairong Wang, Zhian Liu, Yong Zhang, Yongwei Nie, Jue Wang, Dong Xu(参考訳) 本稿では, 顔のきめ細かい編集の観点から, 顔のスワップに対する新しいアプローチを提案し, 「顔のスワップのための編集」 (E4S) について述べる。 従来のフェイススワッピング手法はグローバルな特徴抽出に依存しており、しばしばソースidの保存に失敗する。 対照的に、我々のフレームワークは、形状とテクスチャの明示的な切り離しを可能にするRegional GAN Inversion(RGI)手法を提案する。 特に,e4sでは,事前学習されたスタイルガンの潜在空間で顔スワップを行う。マルチスケールのマスクガイドエンコーダを用いて,顔成分のテクスチャを地域的なスタイルコードに投影し,マスクガイドインジェクションモジュールがスタイルコードで特徴マップを操作する。 この絡み合いに基づいて、フェイススワップはスタイルやマスクスワップとして単純化することができる。 また,対象画像の光源面の再構成は不規則な照明につながる可能性があるため,交換された面が目標面の照明条件を維持するように再色ネットワークを訓練することを提案する。 さらに,マスク交換時の潜在的なミスマッチ領域に対処するために,ポストプロセッシングとして顔ペイントネットワークを設計した。 我々のE4Sはテクスチャ、形状、照明の保存において既存の方法よりも優れています。 実装はhttps://github.com/e4s2023/e4s2023で利用可能です。

This paper proposes a novel approach to face swapping from the perspective of fine-grained facial editing, dubbed "editing for swapping" (E4S). The traditional face swapping methods rely on global feature extraction and often fail to preserve the source identity. In contrast, our framework proposes a Regional GAN Inversion (RGI) method, which allows the explicit disentanglement of shape and texture. Specifically, our E4S performs face swapping in the latent space of a pretrained StyleGAN, where a multi-scale mask-guided encoder is applied to project the texture of each facial component into regional style codes and a mask-guided injection module then manipulates feature maps with the style codes. Based on this disentanglement, face swapping can be simplified as style and mask swapping. Besides, since reconstructing the source face in the target image may lead to disharmony lighting, we propose to train a re-coloring network to make the swapped face maintain the lighting condition on the target face. Further, to deal with the potential mismatch area during mask exchange, we designed a face inpainting network as post-processing. The extensive comparisons with state-of-the-art methods demonstrate that our E4S outperforms existing methods in preserving texture, shape, and lighting. Our implementation is available at https://github.com/e4s2023/E4S2023.
翻訳日:2023-12-29 21:59:16 公開日:2023-12-27
# 計画, 検証, 切り替え: 異種X-of-Thoughtを用いた統合推論

Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts ( http://arxiv.org/abs/2310.14628v2 )

ライセンス: Link先を確認
Tengxiao Liu, Qipeng Guo, Yuqing Yang, Xiangkun Hu, Yue Zhang, Xipeng Qiu, Zheng Zhang(参考訳) 大規模言語モデル (LLM) は, 思考の連鎖, 思考のプログラムなど, 様々なプロンプト法で有効性を示したので, これらの手法が数学推論タスクにおいて互いに大きな相補関係を形成していることがわかった。 本稿では,様々な推論思考をllmに促し,統合型問題解決フレームワークであるxotを提案する。 各質問に対して、xotは常に最も適切なメソッドの選択から始まり、反復的に各メソッドを実行する。 各イテレーションの中で、xotは生成された回答の有効性を積極的にチェックし、外部エグゼキュータからのフィードバックを取り入れ、異なるプロンプトメソッド間で動的に切り替えることができる。 10の一般的な数学推論データセットに関する広範な実験を通じて,提案手法の有効性を実証し,各モジュールの強度を徹底的に解析する。 さらに、経験的結果は、我々のフレームワークは、単一推論メソッドを改善し、論理推論ドメインにさらに一般化する最近の作業と直交していることを示唆している。 メソッドの切り替えを可能にすることで、xotは統一フレームワークにおける多様な推論思考の協調的統合に関する新しい視点を提供する。 コードはhttps://github.com/tengxiaoliu/xotで入手できる。

As large language models (LLMs) have shown effectiveness with different prompting methods, such as Chain of Thought, Program of Thought, we find that these methods have formed a great complementarity to each other on math reasoning tasks. In this work, we propose XoT, an integrated problem solving framework by prompting LLMs with diverse reasoning thoughts. For each question, XoT always begins with selecting the most suitable method then executes each method iteratively. Within each iteration, XoT actively checks the validity of the generated answer and incorporates the feedback from external executors, allowing it to dynamically switch among different prompting methods. Through extensive experiments on 10 popular math reasoning datasets, we demonstrate the effectiveness of our proposed approach and thoroughly analyze the strengths of each module. Moreover, empirical results suggest that our framework is orthogonal to recent work that makes improvements on single reasoning methods and can further generalise to logical reasoning domain. By allowing method switching, XoT provides a fresh perspective on the collaborative integration of diverse reasoning thoughts in a unified framework. The code is available at https://github.com/tengxiaoliu/XoT.
翻訳日:2023-12-29 21:58:50 公開日:2023-12-27
# 高速多重超電導量子ビット読み出し用小型広帯域パーセルフィルタの特性評価

Characterization of Broadband Purcell Filters with Compact Footprint for Fast Multiplexed Superconducting Qubit Readout ( http://arxiv.org/abs/2310.13282v2 )

ライセンス: Link先を確認
Seong Hyeon Park, Gahyun Choi, Gyunghun Kim, Jaehyeong Jo, Bumsung Lee, Geonyoung Kim, Kibog Park, Yong-Ho Lee, Seungyong Hahn(参考訳) 超伝導量子ビットに接続する外部環境の存在感は、測定速度の増大が超伝導量子ビットに自然放出損失をもたらすため、必要不可欠である。 本稿では, 高速な計測速度を失うことなく, パーセル損失を効果的に抑制できる広帯域Purcellフィルタの設計について報告する。 我々は, フィルタの周波数応答を4.3 Kで評価し, 提案したフィルタ設計による超伝導平面回路レイアウトの有限要素法シミュレーションによりパーセル損失抑制を推定する。 測定帯域幅は 0.29 mm$^2$ で 790 MHz 以上であり、推定寿命延長は複数のパーセルフィルタで 5000 倍を超える。 提案したフィルタ設計は、既存の超伝導量子回路に容易に統合でき、高速かつ多重化された読み出しが可能であり、フットプリントが大きい。

Engineering the admittance of external environments connected to superconducting qubits is essential, as increasing the measurement speed introduces spontaneous emission loss to superconducting qubits, known as Purcell loss. Here, we report a broad bandwidth Purcell filter design within a small footprint, which effectively suppresses Purcell loss without losing the fast measurement speed. We characterize the filter's frequency response at 4.3 K and also estimate Purcell loss suppression by finite-element-method simulations of superconducting planar circuit layouts with the proposed filter design. The measured bandwidth is over 790 MHz within 0.29 mm$^2$ while the estimated lifetime enhancement can be over 5000 times with multiple Purcell filters. The presented filter design is expected to be easily integrated on existing superconducting quantum circuits for fast and multiplexed readout without occupying large footprint.
翻訳日:2023-12-29 21:58:31 公開日:2023-12-27
# エントロピー生成による波動関数の自発的崩壊特性

Characterizing the spontaneous collapse of a wavefunction through entropy production ( http://arxiv.org/abs/2310.12675v2 )

ライセンス: Link先を確認
Simone Artini, Mauro Paternostro(参考訳) 非平衡熱力学の観点から連続自然局在化(CSL)モデルのエネルギーの非保存につながる現象論を考察し、モデル(dCSL)の散逸的定式化に伴う平衡過程を評価するためにそのような枠組みを用いる。 崩壊理論の研究を目的としたフロンティア実験で現在解決されているパラダイム的状況として、熱状態の1次元機械振動子を考える。 非可逆性を特徴づける非平衡量であるエントロピー生成速度を便利に解析できる発振器の位相空間で解析を行う。 CSLモデルは負のエントロピー生成速度を示すため、クラウシウス法則に反し、一方、dCSLモデルは一定の力学条件下では一貫して平衡に達し、パラメータ空間における値の特定を可能にし、後者のメカニズムは熱力学的に一貫した現象を記述するために忠実に使用できる。

We investigate the phenomenology leading to the non-conservation of energy of the continuous spontaneous localization (CSL) model from the viewpoint of non-equilibrium thermodynamics, and use such framework to assess the equilibration process entailed by the dissipative formulation of the model (dCSL). As a paradigmatic situation currently addressed in frontier experiments aimed at investigating possible collapse theories, we consider a one-dimensional mechanical oscillator in a thermal state. We perform our analysis in the phase space of the oscillator, where the entropy production rate, a non-equilibrium quantity used to characterize irreversibility, can be conveniently analyzed. We show that the CSL model violates Clausius law, as it exhibits a negative entropy production rate, while the dCSL model reaches equilibrium consistently only under certain dynamical conditions, thus allowing us to identify the values -- in the parameter space -- where the latter mechanism can be faithfully used to describe a thermodynamically consistent phenomenon.
翻訳日:2023-12-29 21:58:15 公開日:2023-12-27
# 新しいオンラインコミュニティ - 匿名投票ネットワークにおけるグラフ深層学習による多元的ガバナンスの脆弱性の特定

New Online Communities: Graph Deep Learning on Anonymous Voting Networks to Identify Sybils in Polycentric Governance ( http://arxiv.org/abs/2311.17929v3 )

ライセンス: Link先を確認
Quinn DuPont(参考訳) 本研究では、ブロックチェーンベースの分散自律組織(DAO)におけるデジタル資産の多元的ガバナンスについて検討する。 理論的な枠組みを提供し、シビルや急激なアイデンティティを識別する手法を開発することによって、分散型ガバナンスに直面する重要な課題に対処する。 この手法は、DAOガバナンスデータセット(snapshot.org)のシビルアクティビティをグラフ深層学習技術を用いて識別する。 特に、グラフ畳み込みニューラルネットワーク(GCNN)は投票行動を学び、高速なk平均ベクトルクラスタリングアルゴリズム(FAISS)はグラフ内の類似ノードを特定するために高次元埋め込みを使用した。 その結果、ディープラーニングはシビルを効果的に識別し、投票グラフを2-5%削減できることがわかった。 この研究は、DAOにおけるシビル抵抗の重要性を浮き彫りにして、分散ガバナンス、将来の政策、規制、ガバナンスの実践について新しい視点を提供する。

This research examines the polycentric governance of digital assets in blockchain-based Decentralized Autonomous Organizations (DAOs). It offers a theoretical framework and addresses a critical challenge facing decentralized governance by developing a method to identify sybils, or spurious identities. The method uses graph deep learning techniques to identify sybil activity in a DAO governance dataset (snapshot.org). Specifically, a Graph Convolutional Neural Network (GCNN) learned voting behaviours and a fast k-means vector clustering algorithm (FAISS) used the high dimensional embeddings to identify similar nodes in a graph. The results reveal that deep learning can effectively identify sybils, reducing the voting graph by 2-5%. This research underscores the importance of sybil resistance in DAOs and offers a novel perspective on decentralized governance, informing future policy, regulation, and governance practices.
翻訳日:2023-12-29 21:50:05 公開日:2023-12-27
# StyleCap: 音声と言語による自己教師型学習モデルに基づく音声の自動キャプション

StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models ( http://arxiv.org/abs/2311.16509v2 )

ライセンス: Link先を確認
Kazuki Yamauchi, Yusuke Ijima, Yuki Saito(参考訳) 音声に現れる話し方の自然言語記述を生成する方法であるStyleCapを提案する。 従来のパラ言語/非言語情報認識技術のほとんどは、分類分類や事前定義されたラベルの強度推定に重点を置いているが、認識結果を解釈可能な方法で推論することはできない。 StyleCapは、音声から発声スタイルのプロンプト、すなわち自動発声スタイルのキャプションを生成するエンドツーエンドメソッドへの第一歩である。 stylecapは、音声と自然言語記述のペアデータで訓練される。 我々は,音声表現ベクトルをプレフィックスベクトルに変換するニューラルネットワークを訓練し,大きな言語モデル(LLM)ベースのテキストデコーダに入力する。 本稿では,この課題に適したテキストデコーダと音声特徴表現について検討する。 実験結果から,よりリッチなLLMをテキストデコーダ,音声自己教師学習(SSL)機能に活用したStyleCapは,音声文の精度と多様性を向上することが示された。 StyleCapが生成した話し方キャプションのサンプルが公開されている。

We propose StyleCap, a method to generate natural language descriptions of speaking styles appearing in speech. Although most of conventional techniques for para-/non-linguistic information recognition focus on the category classification or the intensity estimation of pre-defined labels, they cannot provide the reasoning of the recognition result in an interpretable manner. StyleCap is a first step towards an end-to-end method for generating speaking-style prompts from speech, i.e., automatic speaking-style captioning. StyleCap is trained with paired data of speech and natural language descriptions. We train neural networks that convert a speech representation vector into prefix vectors that are fed into a large language model (LLM)-based text decoder. We explore an appropriate text decoder and speech feature representation suitable for this new task. The experimental results demonstrate that our StyleCap leveraging richer LLMs for the text decoder, speech self-supervised learning (SSL) features, and sentence rephrasing augmentation improves the accuracy and diversity of generated speaking-style captions. Samples of speaking-style captions generated by our StyleCap are publicly available.
翻訳日:2023-12-29 21:48:04 公開日:2023-12-27
# 機械監督へのシフト : 自動医用画像分割・分類のためのアノテーション効率の高いセミ・セルフ教師付き学習

Shifting to Machine Supervision: Annotation-Efficient Semi and Self-Supervised Learning for Automatic Medical Image Segmentation and Classification ( http://arxiv.org/abs/2311.10319v2 )

ライセンス: Link先を確認
Pranav Singh, Raviteja Chukkapalli, Shravan Chaudhari, Luoyao Chen, Mei Chen, Jinqian Pan, Craig Smuda and Jacopo Cirrone(参考訳) 臨床治療の進歩は、大量の注釈付きデータに大きく依存する教師付き学習技術の限界によってますます制限されている。 アノテーションのプロセスは費用がかかるだけでなく、臨床専門家にかなりの時間を要する。 本稿では,S4MI(Self-Supervision and Semi-Supervision for Medical Imaging)パイプラインを導入する。 これらの技術はラベリングを必要としない補助的なタスクに携わり、完全に教師された手法に比べて機械の監督のスケーリングを簡素化する。 本研究は,3つの医用画像データセットにこれらの手法をベンチマークし,分類および分節作業における有効性を評価する。 注目すべきなのは,アノテーションの10%しか持たない自己教師付き学習が,ほとんどのデータセットの分類において,完全なアノテーションのパフォーマンスを上回ったことだ。 同様に、半教師付きアプローチはセグメンテーションにおいて優れた結果を示し、全データセットで50%少ないラベルで完全に教師付きメソッドを上回った。 科学コミュニティへのコントリビューションへのコミットメントに合わせて、私たちはS4MIコードを公開して、より広範な適用とこれらの手法のさらなる開発を可能にしました。

Advancements in clinical treatment are increasingly constrained by the limitations of supervised learning techniques, which depend heavily on large volumes of annotated data. The annotation process is not only costly but also demands substantial time from clinical specialists. Addressing this issue, we introduce the S4MI (Self-Supervision and Semi-Supervision for Medical Imaging) pipeline, a novel approach that leverages the advancements in self-supervised and semi-supervised learning. These techniques engage in auxiliary tasks that do not require labeling, thus simplifying the scaling of machine supervision compared to fully-supervised methods. Our study benchmarks these techniques on three distinct medical imaging datasets to evaluate their effectiveness in classification and segmentation tasks. Remarkably, we observed that self-supervised learning with only 10% of the annotation surpassed the performance of full annotation in the classification of most datasets. Similarly, the semi-supervised approach demonstrated superior outcomes in segmentation, outperforming fully-supervised methods with 50% fewer labels across all datasets. In line with our commitment to contributing to the scientific community, we have made the S4MI code openly accessible, allowing for broader application and further development of these methods.
翻訳日:2023-12-29 21:45:53 公開日:2023-12-27
# ユビキタス逐次計算の効率的な並列化

Efficient Parallelization of a Ubiquitous Sequential Computation ( http://arxiv.org/abs/2311.06281v4 )

ライセンス: Link先を確認
Franz A. Heinsen(参考訳) x_t = a_t x_{t-1} + b_t$ を2つのプレフィックス和と並行して計算するための簡潔な式を見つけ、$t = (1, 2, \dots, n)$, $a_t \in \mathbb{R}^n$, $b_t \in \mathbb{R}^n$, initial value $x_0 \in \mathbb{R}$とする。 n$並列プロセッサでは、$n$要素の計算は$\mathcal{O}(\log n)$ timeと$\mathcal{O}(n)$ spaceを発生させる。 この形式のシーケンスは科学や工学においてユビキタスであり、効率的な並列化は多数のアプリケーションに有用である。 ソフトウェアで式を実装し、並列ハードウェアでテストし、$\frac{n}{\log n}$という係数でシーケンシャルな計算よりも高速に実行されることを検証します。

We find a succinct expression for computing the sequence $x_t = a_t x_{t-1} + b_t$ in parallel with two prefix sums, given $t = (1, 2, \dots, n)$, $a_t \in \mathbb{R}^n$, $b_t \in \mathbb{R}^n$, and initial value $x_0 \in \mathbb{R}$. On $n$ parallel processors, the computation of $n$ elements incurs $\mathcal{O}(\log n)$ time and $\mathcal{O}(n)$ space. Sequences of this form are ubiquitous in science and engineering, making efficient parallelization useful for a vast number of applications. We implement our expression in software, test it on parallel hardware, and verify that it executes faster than sequential computation by a factor of $\frac{n}{\log n}$.
翻訳日:2023-12-29 21:45:33 公開日:2023-12-27
# Prune-Deprune:適応圧縮型スプリット学習とネットワーク効率向上のための推論

Prune-Deprune: Adaptive Compression-Aware Split Learning and Inference for Enhanced Network Efficiency ( http://arxiv.org/abs/2311.05739v2 )

ライセンス: Link先を確認
Akrit Mudvari, Antero Vainio, Iason Ofeidis, Sasu Tarkoma, Leandros Tassiulas(参考訳) モバイルデバイスにおけるAI駆動アプリケーションの増加により、ディープラーニングモデルと利用可能なエッジクラウドリソースを統合するソリューションが生まれました。 デバイス上のエネルギー消費量の削減、レイテンシの改善、ネットワーク利用の改善、プライバシの改善など、複数のメリットがあるため、ディープラーニングモデルをモバイルデバイスから分割して分散的に計算する、分割学習は、広く検討されているトピックとなっている。 圧縮認識手法(学習が通信データの圧縮レベルに適応する)の導入により、スプリット学習はさらに有利になった。 この手法は、フェデレーション学習のような従来の方法の代替手段を提供することもできる。 本研究では,よりネットワーク効率のよい深層学習モデルを改良し,訓練するための適応型圧縮対応分割学習法('deprune')を開発し,エッジクラウドリソースの助けを借りて,より弱いデバイスに展開することが理想である。 この方法は、転送学習アプローチによって、よりネットワーク効率のよい推論能力のために、ほとんど精度を落とさずに、非常に迅速にディープラーニングモデルを訓練するために拡張('prune')される。 提案手法は, 精度を損なうことなく, 分割学習手法と比較してネットワーク使用率を4倍に削減できると同時に, 圧縮認識分割学習よりも精度を4%向上できることを示す。 最後に,'prune'法は,圧縮認識による分割学習手法と比較して,精度に影響を与えずに,特定のモデルのトレーニング時間を最大6倍削減できることを示す。

The growing number of AI-driven applications in mobile devices has led to solutions that integrate deep learning models with the available edge-cloud resources. Due to multiple benefits such as reduction in on-device energy consumption, improved latency, improved network usage, and certain privacy improvements, split learning, where deep learning models are split away from the mobile device and computed in a distributed manner, has become an extensively explored topic. Incorporating compression-aware methods (where learning adapts to compression level of the communicated data) has made split learning even more advantageous. This method could even offer a viable alternative to traditional methods, such as federated learning techniques. In this work, we develop an adaptive compression-aware split learning method ('deprune') to improve and train deep learning models so that they are much more network-efficient, which would make them ideal to deploy in weaker devices with the help of edge-cloud resources. This method is also extended ('prune') to very quickly train deep learning models through a transfer learning approach, which trades off little accuracy for much more network-efficient inference abilities. We show that the 'deprune' method can reduce network usage by 4x when compared with a split-learning approach (that does not use our method) without loss of accuracy, while also improving accuracy over compression-aware split-learning by 4 percent. Lastly, we show that the 'prune' method can reduce the training time for certain models by up to 6x without affecting the accuracy when compared against a compression-aware split-learning approach.
翻訳日:2023-12-29 21:45:08 公開日:2023-12-27
# マルチスケールモデリングにおけるマイクロマクロ整合性:高速・低速力学系のスコアベースモデルによるサンプリング

Micro-Macro Consistency in Multiscale Modeling: Score-Based Model Assisted Sampling of Fast/Slow Dynamical Systems ( http://arxiv.org/abs/2312.05715v2 )

ライセンス: Link先を確認
Ellis R. Crabtree, Juan M. Bello-Rivas, Ioannis G. Kevrekidis(参考訳) 計算化学、生物学、材料科学などの分野におけるマルチスケール力学系のモデリングにおける重要なステップは、長期にわたる関心事における位相空間の代表的なサンプリングである。 例えば、多くの自由度を持つ系の長期的挙動は直接力学シミュレーションによって効率的に計算できないことが多く、そのようなシステムは局所的な自由エネルギーミニマの中に閉じ込められることがある。 物理学に基づくマルチ時間力学系の研究において、自由エネルギー障壁を越える探索を加速するためにサンプリングを強化する技術が開発されている。 一方、機械学習の分野では、生成モデルの一般的な目標は、この密度から経験的なサンプルをトレーニングした後、ターゲット密度からサンプルをサンプリングすることである。 スコアベース生成モデル(SGM)は、目標トレーニング分布から可塑性データを生成する最先端の能力を実証している。 このような生成モデルの条件付き実装は、強化サンプリングに対する長い確立された-および物理に基づく-ソリューションと大きな並列性を示すことが示されている。 これらの物理に基づく手法は、ML生成モデルとの結合によって強化され、強度を補完し、それぞれの技術の弱点を軽減することができる。 本研究では,SGMをこのような結合フレームワークで利用することにより,マルチスケールな動的システムのサンプリングを改善することができることを示す。

A valuable step in the modeling of multiscale dynamical systems in fields such as computational chemistry, biology, materials science and more, is the representative sampling of the phase space over long timescales of interest; this task is not, however, without challenges. For example, the long term behavior of a system with many degrees of freedom often cannot be efficiently computationally explored by direct dynamical simulation; such systems can often become trapped in local free energy minima. In the study of physics-based multi-time-scale dynamical systems, techniques have been developed for enhancing sampling in order to accelerate exploration beyond free energy barriers. On the other hand, in the field of Machine Learning, a generic goal of generative models is to sample from a target density, after training on empirical samples from this density. Score based generative models (SGMs) have demonstrated state-of-the-art capabilities in generating plausible data from target training distributions. Conditional implementations of such generative models have been shown to exhibit significant parallels with long-established -- and physics based -- solutions to enhanced sampling. These physics-based methods can then be enhanced through coupling with the ML generative models, complementing the strengths and mitigating the weaknesses of each technique. In this work, we show that that SGMs can be used in such a coupling framework to improve sampling in multiscale dynamical systems.
翻訳日:2023-12-29 21:37:40 公開日:2023-12-27
# 神経積分方程式のスペクトル法

Spectral methods for Neural Integral Equations ( http://arxiv.org/abs/2312.05654v2 )

ライセンス: Link先を確認
Emanuele Zappala(参考訳) 神経積分方程式 (neural integral equation) は、積分方程式の理論に基づく深層学習モデルであり、このモデルが積分作用素と、最適化手順によって学習される対応する(第2種類の)方程式からなる。 このアプローチでは、機械学習における積分演算子の非局所的性質を活用できるが、計算コストは高い。 本稿では,スペクトル領域の演算子を学習し,計算コストの低減と補間精度の向上を実現するための,スペクトル法に基づくニューラル積分方程式の枠組みを提案する。 本手法の特性について検討し,モデルの近似能力,および数値解への収束に関して,様々な理論的保証を示す。 得られたモデルの有効性を示す数値実験を行う。

Neural integral equations are deep learning models based on the theory of integral equations, where the model consists of an integral operator and the corresponding equation (of the second kind) which is learned through an optimization procedure. This approach allows to leverage the nonlocal properties of integral operators in machine learning, but it is computationally expensive. In this article, we introduce a framework for neural integral equations based on spectral methods that allows us to learn an operator in the spectral domain, resulting in a cheaper computational cost, as well as in high interpolation accuracy. We study the properties of our methods and show various theoretical guarantees regarding the approximation capabilities of the model, and convergence to solutions of the numerical methods. We provide numerical experiments to demonstrate the practical effectiveness of the resulting model.
翻訳日:2023-12-29 21:37:19 公開日:2023-12-27
# 量子計算のためのロデオアルゴリズムによる状態数の推定

Estimating the Number of States via the Rodeo Algorithm for Quantum Computation ( http://arxiv.org/abs/2312.04322v2 )

ライセンス: Link先を確認
Julio Cesar Siqueira Rocha, Raphael Fortes Infante Gomes, Wallon Anderson Tadaiesky Nogueira, Rodrigo Alves Dias(参考訳) 提案手法では,Shr\odinger方程式を明示的に解くことなく,量子系のすべてのエネルギー準位に関連する状態の数を決定できるロデオアルゴリズムのカスタマイズを提案する。 量子コンピュータは、量子システムの複雑さに対処する能力を持っているため、このアプローチは量子系の熱力学の研究に特に有望である。 本手法の有効性を説明するために,1次元横場イジングモデルの状態数を計算し,その結果,その比熱を計算する。

Our proposal introduces a customization of the rodeo algorithm that enables us to determine the number of states associated with all energy levels of a quantum system without explicitly solving the Schr\"odinger equation. Quantum computers, with their innate ability to address the intricacies of quantum systems, make this approach particularly promising for the study of the thermodynamics of quantum systems. To illustrate the effectiveness of our approach, we apply it to compute the number of states of the 1D transverse-field Ising model and, consequently, its specific heat.
翻訳日:2023-12-29 21:37:06 公開日:2023-12-27
# 知識駆動型自動運転に向けて

Towards Knowledge-driven Autonomous Driving ( http://arxiv.org/abs/2312.04316v3 )

ライセンス: Link先を確認
Xin Li, Yeqi Bai, Pinlong Cai, Licheng Wen, Daocheng Fu, Bo Zhang, Xuemeng Yang, Xinyu Cai, Tao Ma, Jianfei Guo, Xing Gao, Min Dou, Yikang Li, Botian Shi, Yong Liu, Liang He, Yu Qiao(参考訳) 本稿では,新たな知識駆動自動運転技術について検討する。 我々の調査は、現在の自動運転システムの限界、特にデータバイアスに対する感度、長期シナリオの扱いの難しさ、解釈可能性の欠如を強調している。 逆に、認知、一般化、生涯学習の能力を持つ知識駆動手法が、これらの課題を克服するための有望な方法として現れる。 本稿では,知識駆動型自動運転の本質を掘り下げ,その中核となるコンポーネントであるデータセットとベンチマーク,環境,ドライバエージェントについて検討する。 大規模な言語モデル、世界モデル、ニューラルレンダリング、その他の高度な人工知能技術を活用することで、これらのコンポーネントは総合的に、適応的で、インテリジェントな自動運転システムに貢献する。 本論文は、この領域におけるこれまでの研究成果を体系的に整理、レビューし、将来の研究および自動運転の実践的応用に関する洞察とガイダンスを提供する。 知識駆動型自動運転の最先端開発に関する最新情報と、関連する貴重なオープンソースリソースについて、継続的に公開します。

This paper explores the emerging knowledge-driven autonomous driving technologies. Our investigation highlights the limitations of current autonomous driving systems, in particular their sensitivity to data bias, difficulty in handling long-tail scenarios, and lack of interpretability. Conversely, knowledge-driven methods with the abilities of cognition, generalization and life-long learning emerge as a promising way to overcome these challenges. This paper delves into the essence of knowledge-driven autonomous driving and examines its core components: dataset \& benchmark, environment, and driver agent. By leveraging large language models, world models, neural rendering, and other advanced artificial intelligence techniques, these components collectively contribute to a more holistic, adaptive, and intelligent autonomous driving system. The paper systematically organizes and reviews previous research efforts in this area, and provides insights and guidance for future research and practical applications of autonomous driving. We will continually share the latest updates on cutting-edge developments in knowledge-driven autonomous driving along with the relevant valuable open-source resources at: \url{https://github.com/PJLab-ADG/awesome-knowledge-driven-AD}.
翻訳日:2023-12-29 21:36:57 公開日:2023-12-27
# 総合標準化試験におけるAIチャットボットの性能評価 : GREを用いた事例

Assessing AI Chatbots Performance in Comprehensive Standardized Test Preparation; A Case Study with GRE ( http://arxiv.org/abs/2312.03719v3 )

ライセンス: Link先を確認
Mohammad Abu-Haifa, Bara'a Etawi, Huthaifa Alkhatatbeh, and Ayman Ababneh(参考訳) 本研究は,Bing,ChatGPT,GPT-4の3つの人工知能チャットボットが,標準化されたテストから質問に答える際の性能について分析した。 本論文では,大学院記録試験(GRE)をケーススタディとして用いた。 量的推論の異なる137の質問と、その能力を評価するために言語カテゴリの質問157の質問が使用された。 本稿では,各チャットボットの性能を,試験でテストしたさまざまなスキルとスタイルで比較する。 本稿では,これらのチャットボットの習熟度について検討し,各チャットボットの不確実性について述べる。 その結果, GPT-4が最も熟達したチャットボット, 特に複雑な言語理解タスクや画像に基づく質問において, チャットボット全体の成功度は様々であった。 結果は、これらのチャットボットが高いスコアでGREをパスする能力を強調し、テストの準備にこれらのチャットボットを使用することを促進する。 結果はまた、検査がオンラインで行われている場合、その検査が新型コロナウイルスの期間中に、より高い教育機会に関する公正な競争のためにこれらのリソースから分離されることを確実にすることが重要であることも示している。

This research paper presents an analysis of how well three artificial intelligence chatbots, Bing, ChatGPT, and GPT-4, perform when answering questions from standardized tests. The Graduate Record Examination (GRE) is used in this paper as a case study. A total of 137 questions with different forms of quantitative reasoning and 157 questions with verbal categories were used to assess their capabilities. This paper presents the performance of each chatbot across various skills and styles tested in the exam. This paper also explores the proficiency of these chatbots in addressing image-based questions and illustrates the uncertainty level of each chatbot. The results show varying degrees of success across the chatbots, where GPT-4 served as the most proficient, especially in complex language understanding tasks and image-based questions. Results highlight the ability of these chatbots to pass the GRE with a high score, which encourages the use of these chatbots in test preparation. The results also show how important it is to ensure that, if the test is administered online, as it was during COVID, the test taker is segregated from these resources for a fair competition on higher education opportunities.
翻訳日:2023-12-29 21:36:38 公開日:2023-12-27
# Hulk:人間中心タスクのためのユニバーサル知識翻訳ツール

Hulk: A Universal Knowledge Translator for Human-Centric Tasks ( http://arxiv.org/abs/2312.01697v3 )

ライセンス: Link先を確認
Yizhou Wang, Yixuan Wu, Shixiang Tang, Weizhen He, Xun Guo, Feng Zhu, Lei Bai, Rui Zhao, Jian Wu, Tong He, Wanli Ouyang(参考訳) 人間中心の知覚タスク、例えば歩行者検出、スケルトンに基づく行動認識、ポーズ推定は、メタバースやスポーツ分析のような幅広い産業応用がある。 近年、人間中心の知覚タスクに利益をもたらす人間中心の基礎モデルの開発が急増している。 多くの人間中心の基礎モデルは成功したが、人間中心で必要なタスク固有の微調整のための3dおよび視覚言語タスクは探索しなかった。 これらの制限により、アプリケーションはより下流のタスクや状況に制限される。 これらの問題に対処するために,2次元視覚,3次元視覚,骨格ベース,視覚言語タスクをタスク固有の微調整なしで対応可能な,初のマルチモーダル人間中心のジェネラリストモデルであるhulkを提案する。 これを達成する鍵は、様々なタスク固有のヘッドを2つの一般的なヘッドにまとめることである。1つは離散表現、例えば言語、もう1つは連続表現、例えば位置座標である。 2つのヘッドの出力はさらに4つの異なる入力と出力のモダリティに積み重ねることができる。 この一様表現により、ハルクは多様な人間中心のタスクをモダリティ翻訳として扱い、幅広いタスクに知識を統合することができる。 ヒト中心タスクを8つ含む12のベンチマークにおけるハルクの総合的な評価は,提案手法の優位性を示し,11のベンチマークで最先端のパフォーマンスを達成する。 コードはhttps://github.com/OpenGVLab/HumanBench.comで入手できる。

Human-centric perception tasks, e.g., pedestrian detection, skeleton-based action recognition, and pose estimation, have wide industrial applications, such as metaverse and sports analysis. There is a recent surge to develop human-centric foundation models that can benefit a broad range of human-centric perception tasks. While many human-centric foundation models have achieved success, they did not explore 3D and vision-language tasks for human-centric and required task-specific finetuning. These limitations restrict their application to more downstream tasks and situations. To tackle these problems, we present Hulk, the first multimodal human-centric generalist model, capable of addressing 2D vision, 3D vision, skeleton-based, and vision-language tasks without task-specific finetuning. The key to achieving this is condensing various task-specific heads into two general heads, one for discrete representations, e.g., languages, and the other for continuous representations, e.g., location coordinates. The outputs of two heads can be further stacked into four distinct input and output modalities. This uniform representation enables Hulk to treat diverse human-centric tasks as modality translation, integrating knowledge across a wide range of tasks. Comprehensive evaluations of Hulk on 12 benchmarks covering 8 human-centric tasks demonstrate the superiority of our proposed method, achieving state-of-the-art performance in 11 benchmarks. The code will be available on https://github.com/OpenGVLab/HumanBench.
翻訳日:2023-12-29 21:35:15 公開日:2023-12-27
# 変量量子固有解法におけるハミルトン期待値評価のための効率的な後処理法

Efficient Postprocessing Procedure for Evaluating Hamiltonian Expectation Values in Variational Quantum Eigensolver ( http://arxiv.org/abs/2312.01023v2 )

ライセンス: Link先を確認
Chi-Chun Chen and Hsi-Sheng Goan(参考訳) 本研究では,変分量子固有解法(vqes)におけるハミルトン期待値の評価後処理オーバーヘッドを改善するための簡易な手法を提案する。 与えられたハミルトニアンの可換可観測群 g に対して、測定結果ビット列 $b$ に対して <b|g|b> が対応するベースで固定されていることを観測し、ハミルトニアン内のすべての可換作用素群 g に対して測定メモリ (mm) 辞書を作成する。 測定結果ビット文字列 $b$ が現れると、キーと値として $b$ と <b|g|b> を格納し、次に同じビット文字列が現れると、再び評価するのではなく、メモリから <b|g|b> を見つけることができる。 さらに,mm の複雑さを解析し,一般的な後処理法と比較し,mm が時間的複雑性の点で常により効率的であることを見出した。 完全連結Ising Hamiltonianを最大20キュービット、$H_2$、$H_4$、$LiH$、および$H_2O$分子ハミルトニアンを異なるグループ化法で最小化するタスクでこの手順を実行する。 すべての$o(n^2)$項が可換であるイジングハミルトニアンの場合、この方法は保存された時間の割合で$o(n^2)$のスピードアップを提供する。 分子ハミルトニアンの場合,グルーピング法により,O(N)$%の時間を節約できた。

We proposed a simple strategy to improve the postprocessing overhead of evaluating Hamiltonian expectation values in Variational quantum eigensolvers (VQEs). Observing the fact that for a mutually commuting observable group G in a given Hamiltonian, <b|G|b> is fixed for a measurement outcome bit string $b$ in the corresponding basis, we create a measurement memory (MM) dictionary for every commuting operator group G in a Hamiltonian. Once a measurement outcome bit string $b$ appears, we store $b$ and <b|G|b> as key and value, and the next time the same bit string appears, we can find <b|G|b> from the memory, rather than evaluate it once again. We further analyze the complexity of MM and compare it with commonly employed post-processing procedure, finding that MM is always more efficient in terms of time complexity. We implement this procedure on the task of minimizing a fully connected Ising Hamiltonians up to 20 qubits, and $H_2$, $H_4$, $LiH$, and $H_2O$ molecular Hamiltonians with different grouping methods. For Ising Hamiltonian, where all $O(N^2)$ terms commute, our method offers an $O(N^2)$ speedup in terms of the percentage of time saved. In the case of molecular Hamiltonians, we achieved over $O(N)$ percentage time saved, depending on the grouping method.
翻訳日:2023-12-29 21:34:25 公開日:2023-12-27
# e2pnet: 時空間表現学習によるクラウド登録イベント

E2PNet: Event to Point Cloud Registration with Spatio-Temporal Representation Learning ( http://arxiv.org/abs/2311.18433v2 )

ライセンス: Link先を確認
Xiuhong Lin, Changjie Qiu, Zhipeng Cai, Siqi Shen, Yu Zang, Weiquan Liu, Xuesheng Bian, Matthias M\"uller, Cheng Wang(参考訳) イベントカメラは、非平行時間分解能とダイナミックレンジのため、近年、有望な視覚センサとして登場している。 2D RGBイメージを3Dポイントクラウドに登録することは、コンピュータビジョンにおける長年の問題であるが、イベントカメラの2D-3Dイメージ登録に関する先行研究は存在しない。 そこで本研究では,イベント・ツー・ポイント・クラウド登録のための最初の学習手法であるE2PNetを提案する。 E2PNetのコアはEvent-Points-to-Tensor (EP2T)と呼ばれる新しい特徴表現ネットワークで、イベントデータを2Dグリッド型の特徴テンソルにエンコードする。 このグリッド型の機能は、ハイパーパラメータやトレーニング手順を変更することなく、成熟したrgbベースのフレームワークをイベントツーポイントのクラウド登録に簡単に使用できる。 EP2Tはイベント入力を時空間雲として扱う。 点雲のすべての次元を等しく扱う標準的な3D学習アーキテクチャとは異なり、EP2Tの新たなサンプリングおよび情報集約モジュールは、空間的および時間的次元の不均一性を扱うように設計されている。 mvsecおよびベクトルデータセットの実験は、手作りや他の学習に基づく方法よりもe2pnetが優れていることを示している。 RGBベースの登録と比較して、E2PNetはイベントデータを使用するため、極端な照明や速い動きに対してより堅牢である。 2d-3d登録以外にも,フロー推定やイベントツーイメージ再構成,オブジェクト認識など,他のビジョンタスクにおけるep2tの可能性も示す。 ソースコードはhttps://github.com/xmu-qcj/e2pnet。

Event cameras have emerged as a promising vision sensor in recent years due to their unparalleled temporal resolution and dynamic range. While registration of 2D RGB images to 3D point clouds is a long-standing problem in computer vision, no prior work studies 2D-3D registration for event cameras. To this end, we propose E2PNet, the first learning-based method for event-to-point cloud registration. The core of E2PNet is a novel feature representation network called Event-Points-to-Tensor (EP2T), which encodes event data into a 2D grid-shaped feature tensor. This grid-shaped feature enables matured RGB-based frameworks to be easily used for event-to-point cloud registration, without changing hyper-parameters and the training procedure. EP2T treats the event input as spatio-temporal point clouds. Unlike standard 3D learning architectures that treat all dimensions of point clouds equally, the novel sampling and information aggregation modules in EP2T are designed to handle the inhomogeneity of the spatial and temporal dimensions. Experiments on the MVSEC and VECtor datasets demonstrate the superiority of E2PNet over hand-crafted and other learning-based methods. Compared to RGB-based registration, E2PNet is more robust to extreme illumination or fast motion due to the use of event data. Beyond 2D-3D registration, we also show the potential of EP2T for other vision tasks such as flow estimation, event-to-image reconstruction and object recognition. The source code can be found at: https://github.com/Xmu-qcj/E2PNet.
翻訳日:2023-12-29 21:32:55 公開日:2023-12-27
# WAVER:オープンボキャブラリ知識による視覚言語モデルの蒸留による筆記型ビデオ検索

WAVER: Writing-style Agnostic Video Retrieval via Distilling Vision-Language Models Through Open-Vocabulary Knowledge ( http://arxiv.org/abs/2312.09507v2 )

ライセンス: Link先を確認
Huy Le, Tung Kieu, Anh Nguyen, Ngan Le(参考訳) マルチモーダル情報検索分野において著名なサブフィールドであるテキスト・ビデオ検索は近年著しい成長を遂げている。 しかし、既存の手法では、ビデオシーンは偏りのない説明と一致していると仮定している。 これらの制限は、アノテータバイアス、多様な書き込みスタイル、さまざまなテキスト視点の影響を受けやすいため、現実世界のシナリオと一致しない。 上述した問題を克服するために、ビデオ記述における異なる書体スタイルを扱うという課題に対処するために設計されたオープン語彙知識を用いて、視覚言語モデルによるドメイン間知識蒸留フレームワークWAVERを導入する。 WAVERは、事前訓練された視覚言語モデルに存在するオープンな語彙特性を活かし、教師モデルから教師モデルにテキストベースの知識を伝達するために暗黙の知識蒸留アプローチを採用している。 様々な設定を含む4つの標準ベンチマークデータセットで実施された実証研究は、WAVERがテキストビデオ検索タスクにおいて、書き込みスタイルのバリエーションを処理しながら、最先端のパフォーマンスを達成できるという説得力のある証拠を提供する。

Text-video retrieval, a prominent sub-field within the domain of multimodal information retrieval, has witnessed remarkable growth in recent years. However, existing methods assume video scenes are consistent with unbiased descriptions. These limitations fail to align with real-world scenarios since descriptions can be influenced by annotator biases, diverse writing styles, and varying textual perspectives. To overcome the aforementioned problems, we introduce WAVER, a cross-domain knowledge distillation framework via vision-language models through open-vocabulary knowledge designed to tackle the challenge of handling different writing styles in video descriptions. WAVER capitalizes on the open-vocabulary properties that lie in pre-trained vision-language models and employs an implicit knowledge distillation approach to transfer text-based knowledge from a teacher model to a vision-based student. Empirical studies conducted across four standard benchmark datasets, encompassing various settings, provide compelling evidence that WAVER can achieve state-of-the-art performance in text-video retrieval task while handling writing-style variations.
翻訳日:2023-12-29 21:24:19 公開日:2023-12-27
# ロボットの育成法 --ヒューマノイド支援ロボットの制約タスク計画におけるニューロシンボリックaiの事例-

How to Raise a Robot -- A Case for Neuro-Symbolic AI in Constrained Task Planning for Humanoid Assistive Robots ( http://arxiv.org/abs/2312.08820v3 )

ライセンス: Link先を確認
Niklas Hemken, Florian Jacob, Fabian Peller-Konrad, Rainer Kartmann, Tamim Asfour, Hannes Hartenstein(参考訳) ヒューマノイドロボットは、人間の日常生活、特に多目的な行動能力のために、人間を助けることができる。 しかし、これらのロボットは学習と探索にはある程度の自律性が必要だが、アクセス制御など、さまざまな制約を尊重する必要がある。 ロボットタスク計画手法を用いて,プライバシ,セキュリティ,アクセス制御の制約を取り入れた新しい分野を探求する。 本稿では,古典的シンボリックアプローチ,深層学習ニューラルネットワーク,および知識ベースとして大規模言語モデルを用いた現代的アイデアに関する予備的結果を報告する。 それらのトレードオフの分析から,ハイブリッドなアプローチが必要であると結論し,ニューロシンボリック人工知能の新たな分野への新たなユースケースを提案する。

Humanoid robots will be able to assist humans in their daily life, in particular due to their versatile action capabilities. However, while these robots need a certain degree of autonomy to learn and explore, they also should respect various constraints, for access control and beyond. We explore the novel field of incorporating privacy, security, and access control constraints with robot task planning approaches. We report preliminary results on the classical symbolic approach, deep-learned neural networks, and modern ideas using large language models as knowledge base. From analyzing their trade-offs, we conclude that a hybrid approach is necessary, and thereby present a new use case for the emerging field of neuro-symbolic artificial intelligence.
翻訳日:2023-12-29 21:23:37 公開日:2023-12-27
# 医用画像における細粒度画像-テキストアライメントによる周期的画像レポート生成

Fine-Grained Image-Text Alignment in Medical Imaging Enables Cyclic Image-Report Generation ( http://arxiv.org/abs/2312.08078v4 )

ライセンス: Link先を確認
Wenting Chen, Linlin Shen, Xiang Li, Yixuan Yuan(参考訳) 本稿では,胸部x線(cxr)画像領域を医療報告書中の単語に関連付ける適応パッチワードマッチング(adamatch)モデルを提案し,それをcxrレポート生成に適用し,生成過程の説明可能性を提供する。 AdaMatchは、適応パッチと単語のきめ細かい関係を利用して、対応する単語で特定の画像領域の説明を提供する。 異なるサイズと位置の異常領域をキャプチャするために、適応パッチ抽出(adapatch)モジュールを導入し、これらの領域に対する適応パッチを適応的に取得する。 本稿では,CXR-Report生成タスクの明示的な説明性を提供するために,CXR-Report生成のためのAdaMatchベースの双方向大言語モデルを提案する。 adamatchを使用して、cxrイメージのキーワードを取得し、医療レポートの‘keypatches’を、cxrレポート生成のヒントとして使用する。 利用可能な2つのCXRデータセットに対する大規模な実験により,提案手法の有効性と既存手法よりも優れた性能が証明された。

To address these issues, we propose a novel Adaptive patch-word Matching (AdaMatch) model to correlate chest X-ray (CXR) image regions with words in medical reports and apply it to CXR-report generation to provide explainability for the generation process. AdaMatch exploits the fine-grained relation between adaptive patches and words to provide explanations of specific image regions with corresponding words. To capture the abnormal regions of varying sizes and positions, we introduce the Adaptive Patch extraction (AdaPatch) module to acquire the adaptive patches for these regions adaptively. In order to provide explicit explainability for CXR-report generation task, we propose an AdaMatch-based bidirectional large language model for Cyclic CXR-report generation (AdaMatch-Cyclic). It employs the AdaMatch to obtain the keywords for CXR images and `keypatches' for medical reports as hints to guide CXR-report generation. Extensive experiments on two publicly available CXR datasets prove the effectiveness of our method and its superior performance to existing methods.
翻訳日:2023-12-29 21:22:47 公開日:2023-12-27
# 複雑な果樹園環境におけるオブジェクトセグメンテーションのためのYOLOv8とMask RCNNの比較

Comparing YOLOv8 and Mask RCNN for object segmentation in complex orchard environments ( http://arxiv.org/abs/2312.07935v2 )

ライセンス: Link先を確認
Ranjan Sapkota, Dawood Ahmed, Manoj Karkee(参考訳) 農業における自動化のための重要な画像処理操作であるインスタンスセグメンテーションは、画像内の個々の関心対象を正確に定義するために使用され、選択的な収穫や精密な刈り取りなど、さまざまな自動化やロボットタスクの基礎情報を提供する。 本研究では,1段階のYOLOv8と2段階のMask R-CNN機械学習モデルを比較した。 休眠期に収集されたデータセット1には、木の枝と幹を並べた多目的セグメンテーションモデルのトレーニングに使用された休眠リンゴのイメージが含まれている。 初期の成長期に収集されたデータセット2には、未熟リンゴのみを規定する単一対象セグメンテーションモデルを訓練するために用いられた、緑の葉を持つリンゴの樹冠と未熟リンゴ(フルーツレットとも呼ばれる)の画像が含まれている。 その結果、yolov8はマスクr-cnnよりも優れた性能を示し、信頼しきい値0.5で両データセットをまたいだ精度とほぼ完全なリコールを達成した。 具体的には、Dataset 1ではYOLOv8が精度0.90、リコール0.95を達成した。 比較として、Mask R-CNNは0.81の精度を示し、同じデータセットに対して0.81のリコールを行った。 Dataset 2でYOLOv8は精度0.93、リコール0.97を達成した。 Mask R-CNNはこのシングルクラスのシナリオで精度0.85とリコール0.88を達成した。 さらに、YOLOv8の推論時間は、マルチクラスのセグメンテーション(データセット1)で10.9ms、シングルクラスのセグメンテーション(データセット2)で7.8msであり、Mask R-CNNが達成した15.6msと12.8msである。

Instance segmentation, an important image processing operation for automation in agriculture, is used to precisely delineate individual objects of interest within images, which provides foundational information for various automated or robotic tasks such as selective harvesting and precision pruning. This study compares the one-stage YOLOv8 and the two-stage Mask R-CNN machine learning models for instance segmentation under varying orchard conditions across two datasets. Dataset 1, collected in dormant season, includes images of dormant apple trees, which were used to train multi-object segmentation models delineating tree branches and trunks. Dataset 2, collected in the early growing season, includes images of apple tree canopies with green foliage and immature (green) apples (also called fruitlet), which were used to train single-object segmentation models delineating only immature green apples. The results showed that YOLOv8 performed better than Mask R-CNN, achieving good precision and near-perfect recall across both datasets at a confidence threshold of 0.5. Specifically, for Dataset 1, YOLOv8 achieved a precision of 0.90 and a recall of 0.95 for all classes. In comparison, Mask R-CNN demonstrated a precision of 0.81 and a recall of 0.81 for the same dataset. With Dataset 2, YOLOv8 achieved a precision of 0.93 and a recall of 0.97. Mask R-CNN, in this single-class scenario, achieved a precision of 0.85 and a recall of 0.88. Additionally, the inference times for YOLOv8 were 10.9 ms for multi-class segmentation (Dataset 1) and 7.8 ms for single-class segmentation (Dataset 2), compared to 15.6 ms and 12.8 ms achieved by Mask R-CNN's, respectively.
翻訳日:2023-12-29 21:22:25 公開日:2023-12-27
# socialstigmaqa: 生成言語モデルにおけるstigmaの増幅を示すベンチマーク

SocialStigmaQA: A Benchmark to Uncover Stigma Amplification in Generative Language Models ( http://arxiv.org/abs/2312.07492v4 )

ライセンス: Link先を確認
Manish Nagireddy, Lamogha Chiazor, Moninder Singh, Ioana Baldini(参考訳) 望ましくない社会的偏見監査のための現在のデータセットは、人種や性別などの保護された人口動態の研究に限られている。 本研究では,遺伝的言語モデルにおけるシュティグマを通して,社会的偏見の増幅を捉えるための総合的なベンチマークを導入する。 社会科学研究からインスピレーションを得て、93の米国中心のスティグマのリストから始め、単純な社会的状況を含む質問回答データセット(QA)をキュレートする。 私たちのベンチマークであるSocialStigmaQAには、ソーシャルバイアスとモデルロバストネスの両方を体系的にテストするために、さまざまなプロンプトスタイルの約10Kプロンプトが含まれています。 そこで我々は,SocialStigmaQAを2つのオープンソース生成言語モデルで比較した結果,社会的に偏りのあるアウトプットの割合は,様々なデコード戦略やスタイルのプロンプトにおいて45%から59%であることがわかった。 ベンチマークにおけるテンプレートの意図的な設計(例えば、プロンプトにバイアステキストの追加や、バイアスを示す回答を変更する異なる動詞の使用)は、モデルに偏りのあるアウトプットを生成する傾向に影響を与えることを実証します。 さらに,手作業による評価を通じて,微妙なバイアスから推論の欠如まで,生成する思考連鎖アウトプットに問題のあるパターンを見出す。 警告: 本論文は有害で偏りがあり、潜在的に有害なテキストの例を含む。

Current datasets for unwanted social bias auditing are limited to studying protected demographic features such as race and gender. In this work, we introduce a comprehensive benchmark that is meant to capture the amplification of social bias, via stigmas, in generative language models. Taking inspiration from social science research, we start with a documented list of 93 US-centric stigmas and curate a question-answering (QA) dataset which involves simple social situations. Our benchmark, SocialStigmaQA, contains roughly 10K prompts, with a variety of prompt styles, carefully constructed to systematically test for both social bias and model robustness. We present results for SocialStigmaQA with two open source generative language models and we find that the proportion of socially biased output ranges from 45% to 59% across a variety of decoding strategies and prompting styles. We demonstrate that the deliberate design of the templates in our benchmark (e.g., adding biasing text to the prompt or using different verbs that change the answer that indicates bias) impacts the model tendencies to generate socially biased output. Additionally, through manual evaluation, we discover problematic patterns in the generated chain-of-thought output that range from subtle bias to lack of reasoning. Warning: This paper contains examples of text which are toxic, biased, and potentially harmful.
翻訳日:2023-12-29 21:21:50 公開日:2023-12-27
# コントラスト活性化付加による操舵ラマ2

Steering Llama 2 via Contrastive Activation Addition ( http://arxiv.org/abs/2312.06681v2 )

ライセンス: Link先を確認
Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner(参考訳) 本稿では,前方通過時のアクティベーションを変更することで,言語モデルを操る革新的な手法であるContrastive Activation Addition (CAA)を紹介する。 CAAは、事実と幻覚反応のような特定の行動の肯定的および否定的な例のペア間の残ストリームアクティベーションの差を平均化することにより、 `steering vectors'' を計算する。 推論中、これらのステアリングベクトルは、ユーザのプロンプト後のすべてのトークン位置に正あるいは負の係数で加算され、ターゲットの行動の度合いを正確に制御できる。 Llama 2 ChatにおけるCAAの有効性を,複数選択行動質問データセットとオープンエンド生成タスクを用いて評価した。 私たちはCAAがモデル動作を著しく変更し、微調整や数発のプロンプトといった従来の手法より優れ、最小限の機能を減らすことを示した。 さらに,様々なアクティベーション空間解釈手法を用いて,CAAのメカニズムについて深い知見を得る。 CAAは、モデル出力を正確に管理し、また、Large Language Models (LLMs) でどのようにハイレベルな概念が表現されるかを明らかにします。

We introduce Contrastive Activation Addition (CAA), an innovative method for steering language models by modifying activations during their forward passes. CAA computes ``steering vectors'' by averaging the difference in residual stream activations between pairs of positive and negative examples of a particular behavior such as factual versus hallucinatory responses. During inference, these steering vectors are added at all token positions after the user's prompt with either a positive or negative coefficient, allowing precise control over the degree of the targeted behavior. We evaluate CAA's effectiveness on Llama 2 Chat using both multiple-choice behavioral question datasets and open-ended generation tasks. We demonstrate that CAA significantly alters model behavior, outperforms traditional methods like finetuning and few-shot prompting, and minimally reduces capabilities. Moreover, by employing various activation space interpretation methods, we gain deeper insights into CAA's mechanisms. CAA both accurately steers model outputs and also sheds light on how high-level concepts are represented in Large Language Models (LLMs).
翻訳日:2023-12-29 21:20:48 公開日:2023-12-27
# 質問応答における幻覚の早期検出について

On Early Detection of Hallucinations in Factual Question Answering ( http://arxiv.org/abs/2312.14183v2 )

ライセンス: Link先を確認
Ben Snyder, Marius Moisescu, Muhammad Bilal Zafar(参考訳) 大きな言語モデル(LLM)は、検索や要約といった多くのタスクで人間を助けるために大きな努力をしてきたが、幻覚は依然として、ユーザの信頼を得るための大きな障害である。 幻覚がモデルが幻覚であるかどうかを検出するのが困難であるときでさえ、モデル生成の流動性とコヒーレンス。 本研究では,モデル世代に関連する成果物が,その世代が幻覚を含むというヒントを提供できるかどうかを考察する。 具体的には LLM を探索する。 1)統合勾配に基づくトークン属性による入力 2) ソフトマックス確率による出力, および 3)オープンエンド質問応答課題に対する幻覚の徴候に対する自己注意と完全連結層活性化による内部状態 その結果,これらの成果物の分布は幻覚と非幻覚の世代で異なることがわかった。 この知見に基づいて、これらのアーティファクトを入力特徴として使用するバイナリ分類器を訓練し、モデル世代を幻覚と非幻覚に分類する。 これらの幻覚分類器は最大0.80AUROCに達する。 さらに,幻覚の前にあるトークンが,それが起こる前に幻覚を予測できることを示す。

While large language models (LLMs) have taken great strides towards helping humans with a plethora of tasks like search and summarization, hallucinations remain a major impediment towards gaining user trust. The fluency and coherence of model generations even when hallucinating makes it difficult to detect whether or not a model is hallucinating. In this work, we explore if the artifacts associated with the model generations can provide hints that the generation will contain hallucinations. Specifically, we probe LLMs at 1) the inputs via Integrated Gradients based token attribution, 2) the outputs via the Softmax probabilities, and 3) the internal state via self-attention and fully-connected layer activations for signs of hallucinations on open-ended question answering tasks. Our results show that the distributions of these artifacts differ between hallucinated and non-hallucinated generations. Building on this insight, we train binary classifiers that use these artifacts as input features to classify model generations into hallucinations and non-hallucinations. These hallucination classifiers achieve up to 0.80 AUROC. We further show that tokens preceding a hallucination can predict the subsequent hallucination before it occurs.
翻訳日:2023-12-29 21:12:47 公開日:2023-12-27
# Repaint123:プログレッシブ・コントロール可能な2Dリペイントによる高速かつ高品質な1次元画像から3D生成

Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting ( http://arxiv.org/abs/2312.13271v3 )

ライセンス: Link先を確認
Junwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Munan Ning, Li Yuan(参考訳) 近年の3次元画像生成法では, スコア蒸留サンプリング (SDS) が一般的である。 印象的な結果にもかかわらず、マルチビューの不整合、過飽和、過度にスムースなテクスチャ、そして遅い生成速度など、複数の欠陥がある。 これらの欠陥に対処するため,多視点バイアスを緩和し,テクスチャ劣化を緩和し,生成プロセスを高速化するRepaint123を提案する。 中心となる考え方は、2次元拡散モデルの強力な画像生成能力と、高画質のマルチビュー画像を生成するための塗り替え戦略のテクスチャアライメント能力を組み合わせることである。 さらに, 重なり領域に対する可視性を考慮した適応塗り戻し強度を提案し, 塗り返し過程における画像品質の向上を図る。 生成された高品質で複数ビューの一貫性のある画像は、高速な3Dコンテンツ生成に単純なMean Square Error(MSE)損失を利用することができる。 提案手法は,多視点整合性,微視的テクスチャをスクラッチから2分で生成し,高品質な3Dコンテンツを生成する能力に優れることを示す。 プロジェクトページはhttps://pku-yuangroup.github.io/repaint123/で閲覧できます。

Recent one image to 3D generation methods commonly adopt Score Distillation Sampling (SDS). Despite the impressive results, there are multiple deficiencies including multi-view inconsistency, over-saturated and over-smoothed textures, as well as the slow generation speed. To address these deficiencies, we present Repaint123 to alleviate multi-view bias as well as texture degradation and speed up the generation process. The core idea is to combine the powerful image generation capability of the 2D diffusion model and the texture alignment ability of the repainting strategy for generating high-quality multi-view images with consistency. We further propose visibility-aware adaptive repainting strength for overlap regions to enhance the generated image quality in the repainting process. The generated high-quality and multi-view consistent images enable the use of simple Mean Square Error (MSE) loss for fast 3D content generation. We conduct extensive experiments and show that our method has a superior ability to generate high-quality 3D content with multi-view consistency and fine textures in 2 minutes from scratch. Our project page is available at https://pku-yuangroup.github.io/repaint123/.
翻訳日:2023-12-29 21:12:10 公開日:2023-12-27
# 量子化ニューラルネットワークの有効検証に向けて

Towards Efficient Verification of Quantized Neural Networks ( http://arxiv.org/abs/2312.12679v2 )

ライセンス: Link先を確認
Pei Huang, Haoze Wu, Yuting Yang, Ieva Daukantas, Min Wu, Yedi Zhang and Clark Barrett(参考訳) 量子化は、ディープニューラルネットワークモデルの浮動小数点演算を整数演算に置き換え、より少ない電力とメモリでより効率的なオンデバイス推論を提供する。 本研究では,量子化ニューラルネットワークの特性を正式に検証する枠組みを提案する。 本手法は,音質と完全性の両方を保証する整数線形計画に基づいている。 次に,グラデーションに基づくヒューリスティック探索法とバウンドプロパゲーション手法を用いることで,効率を向上させる方法を示す。 PyTorchで量子化された知覚ネットワークに対する我々のアプローチを評価する。 その結果,従来の技術よりもスケーラビリティと効率のよい量子化ネットワークを検証できることが示唆された。

Quantization replaces floating point arithmetic with integer arithmetic in deep neural network models, providing more efficient on-device inference with less power and memory. In this work, we propose a framework for formally verifying properties of quantized neural networks. Our baseline technique is based on integer linear programming which guarantees both soundness and completeness. We then show how efficiency can be improved by utilizing gradient-based heuristic search methods and also bound-propagation techniques. We evaluate our approach on perception networks quantized with PyTorch. Our results show that we can verify quantized networks with better scalability and efficiency than the previous state of the art.
翻訳日:2023-12-29 21:11:22 公開日:2023-12-27
# インストラクションの品質を再考する: リフトはあなたが必要とするもの

Rethinking the Instruction Quality: LIFT is What You Need ( http://arxiv.org/abs/2312.11508v2 )

ライセンス: Link先を確認
Yang Xu, Yongqiang Yao, Yufan Huang, Mengnan Qi, Maoquan Wang, Bin Gu, Neel Sundaresan(参考訳) 命令データセットによる大規模言語モデル(LLM)の性能向上のための特殊手法であるインストラクションチューニングは、採用データの品質に大きく依存する。 既存の品質改善手法は、データセットの拡張やキュレーションを通じて命令データを変更する。 しかし、拡張方法はデータの冗長性、潜在的にllmのパフォーマンスを損なうリスクを負い、キュレーションアプローチはllmのポテンシャルを元のデータセットに限定する。 私たちの目標は、これらの欠点に遭遇することなく、元のデータ品質を上回ることです。 そこで本研究では,命令品質を新たな高さに高めるために,新しい多目的パラダイムであるLIFT(LLM Instruction Fusion Transfer)を提案する。 LIFTは、データ分散を戦略的に拡張し、より高品質なサブスペースを包含し、冗長性を排除する。 実験結果から, LLMは, パラダイムによって選択された高品質な命令データが少ない場合でも, 各種タスクにおける頑健な性能を常に維持するだけでなく, 最先端の成果を超越して, パラダイムによって達成される命令品質の大幅な向上が示されている。

Instruction tuning, a specialized technique to enhance large language model (LLM) performance via instruction datasets, relies heavily on the quality of employed data. Existing quality improvement methods alter instruction data through dataset expansion or curation. However, the expansion method risks data redundancy, potentially compromising LLM performance, while the curation approach confines the LLM's potential to the original dataset. Our aim is to surpass the original data quality without encountering these shortcomings. To achieve this, we propose LIFT (LLM Instruction Fusion Transfer), a novel and versatile paradigm designed to elevate the instruction quality to new heights. LIFT strategically broadens data distribution to encompass more high-quality subspaces and eliminates redundancy, concentrating on high-quality segments across overall data subspaces. Experimental results demonstrate that, even with a limited quantity of high-quality instruction data selected by our paradigm, LLMs not only consistently uphold robust performance across various tasks but also surpass some state-of-the-art results, highlighting the significant improvement in instruction quality achieved by our paradigm.
翻訳日:2023-12-29 21:10:54 公開日:2023-12-27
# 会話推薦システムのための表現学習強化のための知識グラフと事前学習言語モデル

Knowledge Graphs and Pre-trained Language Models enhanced Representation Learning for Conversational Recommender Systems ( http://arxiv.org/abs/2312.10967v2 )

ライセンス: Link先を確認
Zhangchi Qiu, Ye Tao, Shirui Pan and Alan Wee-Chung Liew(参考訳) 会話推薦システム(CRS)は、自然言語の対話と対話履歴を利用してユーザの好みを推測し、正確なレコメンデーションを提供する。 会話のコンテキストや背景知識が限られているため、既存のCRSは知識グラフのような外部ソースに依存してコンテキストとモデルエンティティを相互関係に基づいて強化する。 しかし、これらの手法はエンティティ内の豊富な固有情報を無視する。 これを解決するために,知識グラフと事前学習言語モデルの両方を活用する知識強化エンティティ表現学習(KERL)フレームワークを導入し,CRSのエンティティの意味的理解を改善する。 KERLフレームワークでは、エンティティのテキスト記述は事前訓練された言語モデルを介して符号化され、知識グラフはそれらのエンティティの表現を強化するのに役立つ。 また,会話中の実体の時間的情報を効果的に捉えるために位置符号化を用いる。 強化されたエンティティ表現は、よりインフォームドなレコメンデーションのためにエンティティとコンテキストの両方の表現を融合するレコメンデーションコンポーネントと、応答テキストで有用なエンティティ関連情報を生成する対話コンポーネントの開発に使用される。 本研究は,Wiki Movie Knowledge Graph (WikiMKG) という,エンティティ記述に整合した高品質な知識グラフを構築した。 実験の結果,kerlはレコメンデーションタスクとレスポンス生成タスクの両方において最先端の結果を得ることができた。

Conversational recommender systems (CRS) utilize natural language interactions and dialogue history to infer user preferences and provide accurate recommendations. Due to the limited conversation context and background knowledge, existing CRSs rely on external sources such as knowledge graphs to enrich the context and model entities based on their inter-relations. However, these methods ignore the rich intrinsic information within entities. To address this, we introduce the Knowledge-Enhanced Entity Representation Learning (KERL) framework, which leverages both the knowledge graph and a pre-trained language model to improve the semantic understanding of entities for CRS. In our KERL framework, entity textual descriptions are encoded via a pre-trained language model, while a knowledge graph helps reinforce the representation of these entities. We also employ positional encoding to effectively capture the temporal information of entities in a conversation. The enhanced entity representation is then used to develop a recommender component that fuses both entity and contextual representations for more informed recommendations, as well as a dialogue component that generates informative entity-related information in the response text. A high-quality knowledge graph with aligned entity descriptions is constructed to facilitate our study, namely the Wiki Movie Knowledge Graph (WikiMKG). The experimental results show that KERL achieves state-of-the-art results in both recommendation and response generation tasks.
翻訳日:2023-12-29 21:09:37 公開日:2023-12-27
# インストラクション融合:ハイブリダイゼーションによる迅速な進化の促進

Instruction Fusion: Advancing Prompt Evolution through Hybridization ( http://arxiv.org/abs/2312.15692v2 )

ライセンス: Link先を確認
Weidong Guo, Jiuding Yang, Kaitong Yang, Xiangyang Li, Zhuwei Rao, Yu Xu, Di Niu(参考訳) コード生成に特化した大規模言語モデル(llm)の微調整は、オープンドメインのコーディングクエリの使用によって顕著な進歩を遂げている。 成功にもかかわらず、Evol-Instructのような既存の方法論はパフォーマンスの制限に直面し、コード生成タスクのさらなる強化を妨げる。 本稿では,既存のプロンプト進化技術の制約を検証し,新しい手法である命令融合(if)を提案する。 ハイブリダイゼーションプロセスを通じて2つの異なるプロンプトを革新的に組み合わせることで、コードllmのためのトレーニングプロンプトの進化が促進される。 提案手法は,HumanEval,HumanEval+,MBPP,MBPP+,MultiPL-Eの5つのコード生成ベンチマークにおけるコードLLMの性能を著しく向上し,コード生成におけるLLMの能力向上にインストラクションフュージョンが有効であることを示す。

The fine-tuning of Large Language Models (LLMs) specialized in code generation has seen notable advancements through the use of open-domain coding queries. Despite the successes, existing methodologies like Evol-Instruct encounter performance limitations, impeding further enhancements in code generation tasks. This paper examines the constraints of existing prompt evolution techniques and introduces a novel approach, Instruction Fusion (IF). IF innovatively combines two distinct prompts through a hybridization process, thereby enhancing the evolution of training prompts for code LLMs. Our experimental results reveal that the proposed novel method effectively addresses the shortcomings of prior methods, significantly improving the performance of Code LLMs across five code generation benchmarks, namely HumanEval, HumanEval+, MBPP, MBPP+ and MultiPL-E, which underscore the effectiveness of Instruction Fusion in advancing the capabilities of LLMs in code generation.
翻訳日:2023-12-29 21:02:16 公開日:2023-12-27
# 説明可能な勧告のための大規模言語モデルの可能性の解き放つ

Unlocking the Potential of Large Language Models for Explainable Recommendations ( http://arxiv.org/abs/2312.15661v2 )

ライセンス: Link先を確認
Yucong Luo, Mingyue Cheng, Hao Zhang, Junyu Lu, Qi Liu, Enhong Chen(参考訳) オンラインサービスを利用する際に、ユーザの信頼を高め、よりインフォームドな意思決定を容易にする言語生成技術の進歩により、アイテムが推奨される理由に関するユーザフレンドリな説明がますます一般的になっている。 しかし、既存の説明可能なレコメンデーションシステムは、小型言語モデルの使用に重点を置いている。 説明ジェネレータを最近登場した大規模言語モデル(LLM)に置き換える影響は、まだ不明である。 前例のない結果が期待できますか。 本研究では,LLMXRecを提案する。LLMXRecはシンプルだが効果的な2段階説明可能な推薦フレームワークである。 既存のLLMベースのレコメンデーションワークとは異なり、LLMXRecの重要な特徴は、以前のレコメンデーターモデルとLCMベースの説明ジェネレータの密接なコラボレーションである。 具体的には、パラメータ効率の指導的チューニングやパーソナライズされたプロンプト技術など、いくつかの重要な微調整手法を採用することで、説明の目的を達成するために、制御可能で流動的な説明を生成することができる。 とくに、説明の有効性を評価するために、3つの異なる視点を提供する。 最後に、いくつかのベンチマークレコメンデータモデルと公開データセットについて広範な実験を行う。 実験の結果は有効性と効率の点で肯定的な結果を得るだけでなく、これまで知らなかった結果も明らかにする。 この領域のさらなる調査を容易にするため、完全なコードと詳細なオリジナルの結果はhttps://anonymous.4open.science/r/LLM_rec_explanation-7028/でオープンソース化されている。

Generating user-friendly explanations regarding why an item is recommended has become increasingly common, largely due to advances in language generation technology, which can enhance user trust and facilitate more informed decision-making when using online services. However, existing explainable recommendation systems focus on using small-size language models. It remains uncertain what impact replacing the explanation generator with the recently emerging large language models (LLMs) would have. Can we expect unprecedented results? In this study, we propose LLMXRec, a simple yet effective two-stage explainable recommendation framework aimed at further boosting the explanation quality by employing LLMs. Unlike most existing LLM-based recommendation works, a key characteristic of LLMXRec is its emphasis on the close collaboration between previous recommender models and LLM-based explanation generators. Specifically, by adopting several key fine-tuning techniques, including parameter-efficient instructing tuning and personalized prompt techniques, controllable and fluent explanations can be well generated to achieve the goal of explanation recommendation. Most notably, we provide three different perspectives to evaluate the effectiveness of the explanations. Finally, we conduct extensive experiments over several benchmark recommender models and publicly available datasets. The experimental results not only yield positive results in terms of effectiveness and efficiency but also uncover some previously unknown outcomes. To facilitate further explorations in this area, the full code and detailed original results are open-sourced at https://anonymous.4open.science/r/LLM_rec_explanation-7028/
翻訳日:2023-12-29 21:02:00 公開日:2023-12-27
# ジェントリフィケーションを予測するグラフベースのマルチモーダルフレームワーク

A graph-based multimodal framework to predict gentrification ( http://arxiv.org/abs/2312.15646v2 )

ライセンス: Link先を確認
Javad Eshtiyagh, Baotong Zhang, Yujing Sun, Linhui Wu, Zhao Wang(参考訳) ジェントリフィケーション - 裕福な住民の流入による低所得都市部の変容-は、多くの再生利益をもたらしている。 しかし、低所得の住民にとっての課題も極めて大きい。 政策立案者が低所得者を保護するためのターゲットと早期の行動を支援するため、研究者は最近、社会経済と画像の特徴を用いた性化を予測する機械学習モデルをいくつか提案した。 先行研究に基づいて, 道路・必須施設(学校, 病院, 地下鉄駅など)の都市ネットワークに基づくゲントリフィケーションを予測するための, グラフ型マルチモーダル深層学習フレームワークを提案する。 シカゴ、ニューヨーク、ロサンゼルスのデータを使って提案されたフレームワークをトレーニングし、テストする。 このモデルは平均0.9倍の精度で国勢調査水準のジェントリフィケーションを予測できる。 さらに、この枠組みは、学校とジェントリフィケーションの未検討の強い関係を発見し、ジェントリフィケーションに影響を及ぼす社会的要因のさらなる探索の基盤となる。

Gentrification--the transformation of a low-income urban area caused by the influx of affluent residents--has many revitalizing benefits. However, it also poses extremely concerning challenges to low-income residents. To help policymakers take targeted and early action in protecting low-income residents, researchers have recently proposed several machine learning models to predict gentrification using socioeconomic and image features. Building upon previous studies, we propose a novel graph-based multimodal deep learning framework to predict gentrification based on urban networks of tracts and essential facilities (e.g., schools, hospitals, and subway stations). We train and test the proposed framework using data from Chicago, New York City, and Los Angeles. The model successfully predicts census-tract level gentrification with 0.9 precision on average. Moreover, the framework discovers a previously unexamined strong relationship between schools and gentrification, which provides a basis for further exploration of social factors affecting gentrification.
翻訳日:2023-12-29 21:01:28 公開日:2023-12-27
# Identifiability Guaranteeによる依存度測定のための深部コピュラに基づく生存分析

Deep Copula-Based Survival Analysis for Dependent Censoring with Identifiability Guarantees ( http://arxiv.org/abs/2312.15566v2 )

ライセンス: Link先を確認
Weijia Zhang, Chun Kai Ling, Xuanhui Zhang(参考訳) センシングは生存分析における中心的な問題であり、各サンプルに対して時間と時間(例えば、死亡)または時間と時間(例えば、フォローアップの喪失)が観察される。 既存の機械学習ベースの生存分析手法の大多数は、生存は一組の共変量からなる検閲とは条件的に独立していると仮定している。 依存検閲の存在と、現在の推定器の固有のバイアスは、様々なアプリケーションで実証され、よりニュアンスなアプローチの必要性が強調されている。 しかし、既存の検閲の調整方法では、実践者が真理のコプラを指定する必要がある。 この要件は、モデルの不特定が重大なバイアスを引き起こすため、実用的なアプリケーションにとって重大な課題となる。 本研究では,依存する検閲に対応し,基礎的真理を規定する必要をなくし,柔軟な深層学習に基づく生存率分析手法を提案する。 理論的には,コプラと生存分布の広い系統の下でのモデルの同定可能性を証明する。 実験結果は,本手法が基盤となる依存関係構造を識別し,既存手法と比較して生存推定バイアスを大幅に低減することを示した。

Censoring is the central problem in survival analysis where either the time-to-event (for instance, death), or the time-tocensoring (such as loss of follow-up) is observed for each sample. The majority of existing machine learning-based survival analysis methods assume that survival is conditionally independent of censoring given a set of covariates; an assumption that cannot be verified since only marginal distributions is available from the data. The existence of dependent censoring, along with the inherent bias in current estimators has been demonstrated in a variety of applications, accentuating the need for a more nuanced approach. However, existing methods that adjust for dependent censoring require practitioners to specify the ground truth copula. This requirement poses a significant challenge for practical applications, as model misspecification can lead to substantial bias. In this work, we propose a flexible deep learning-based survival analysis method that simultaneously accommodate for dependent censoring and eliminates the requirement for specifying the ground truth copula. We theoretically prove the identifiability of our model under a broad family of copulas and survival distributions. Experiments results from a wide range of datasets demonstrate that our approach successfully discerns the underlying dependency structure and significantly reduces survival estimation bias when compared to existing methods.
翻訳日:2023-12-29 20:59:42 公開日:2023-12-27
# A-SDM:冗長除去と性能最適化による安定拡散の加速

A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization ( http://arxiv.org/abs/2312.15516v2 )

ライセンス: Link先を確認
Jinchao Zhu, Yuxuan Wang, Xiaobing Tu, Siyuan Pan, Pengfei Wan, Gao Huang(参考訳) 安定拡散モデル(stable Diffusion Model, SDM)は、t2iの生成とi2iの生成モデルである。 サンプリングステップ、モデル蒸留、ネットワーク量子化を減らそうとする試みはいくつかあったが、これらの手法は一般に元のネットワークアーキテクチャを保っている。 数十億のスケールパラメータと高い計算要求は、モデルアーキテクチャ調整の研究を弱める。 そこで本研究では,まずネットワークの計算冗長性の部分を探索し,次にモデルの冗長性ブロックを掘り下げ,漸進的なインキュベーション戦略を通じてネットワーク性能を維持する。 第2に、モデル性能を維持するために、ブロックプルーニング部にクロス層マルチエキスパート条件畳み込み(CLME-Condconv)を加え、元の畳み込みパラメータを継承する。 第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。 最後に,教師モデルと学生モデルの出力をセマンティックレベルで調整するために,意味認識監視(SAS)を用いる。 実験により、本手法は、元のsdモデルの性能に近い軽量モデルを効果的に訓練でき、限られた資源でモデル速度を効果的に向上できることを示した。 実験により,本手法は,sdモデルの性能に近い軽量モデルを効果的に訓練し,限られた資源でモデル速度を効果的に向上できることを示した。 加速後、モデルのunet部分は22%高速であり、全体の速度は19%高速である。

The Stable Diffusion Model (SDM) is a popular and efficient text-to-image (t2i) generation and image-to-image (i2i) generation model. Although there have been some attempts to reduce sampling steps, model distillation, and network quantization, these previous methods generally retain the original network architecture. Billion scale parameters and high computing requirements make the research of model architecture adjustment scarce. In this work, we first explore the computational redundancy part of the network, and then prune the redundancy blocks of the model and maintain the network performance through a progressive incubation strategy. Secondly, in order to maintaining the model performance, we add cross-layer multi-expert conditional convolution (CLME-Condconv) to the block pruning part to inherit the original convolution parameters. Thirdly, we propose a global-regional interactive (GRI) attention to speed up the computationally intensive attention part. Finally, we use semantic-aware supervision (SAS) to align the outputs of the teacher model and student model at the semantic level. Experiments show that this method can effectively train a lightweight model close to the performance of the original SD model, and effectively improve the model speed under limited resources. Experiments show that the proposed method can effectively train a light-weight model close to the performance of the original SD model, and effectively improve the model speed under limited resources. After acceleration, the UNet part of the model is 22% faster and the overall speed is 19% faster.
翻訳日:2023-12-29 20:59:19 公開日:2023-12-27
# グラフ・オブ・サートを用いた逆多声対話共通センス推論

Reverse Multi-Choice Dialogue Commonsense Inference with Graph-of-Thought ( http://arxiv.org/abs/2312.15291v2 )

ライセンス: Link先を確認
Li Zheng, Hao Fei, Fei Li, Bobo Li, Lizi Liao, Donghong Ji and Chong Teng(参考訳) インターネット上での対話データの普及に伴い,対話コモンセンス・マルチチョイス質問応答(dc-mcq)タスクが,ユーザの質問や意図の理解という課題に対する回答として出現した。 一般的な手法は, シングルチョイス問題に対処する上で有効であるが, 複雑化と情報密度の増大により, 複数チョイス問合せの処理が困難である。 本稿では,選択肢を段階的に排除する人間の認知プロセスに触発されて,オプション排他,エラー分析,複合情報を含む3段階の逆排他グラフ(ReX-GoT)フレームワークを提案する。 特に、我々のReX-GoTは、不適切な選択肢を徐々に排除し、オプションエラーがGoTの最適経路を選択し、最終的に正しい答えを推測する理由を学ぶことで、人間の推論を模倣します。 複雑な手がかりを段階的に統合することにより、多選択推論の難易度を効果的に低減し、DC-MCQの新しいソリューションを提供する。 CICEROおよびCICERO$_{v2}$データセットに関する大規模な実験により、DC-MCQタスクにおける我々のアプローチの大幅な改善が検証された。 ゼロショット設定では、マルチ選択タスクのF1スコアにおいて、我々のモデルは最高のベースラインを17.67%上回る。 GPT3.5ベースのReX-GoTフレームワークは、F1スコアの39.44%の顕著な増加を実現しています。

With the proliferation of dialogic data across the Internet, the Dialogue Commonsense Multi-choice Question Answering (DC-MCQ) task has emerged as a response to the challenge of comprehending user queries and intentions. Although prevailing methodologies exhibit effectiveness in addressing single-choice questions, they encounter difficulties in handling multi-choice queries due to the heightened intricacy and informational density. In this paper, inspired by the human cognitive process of progressively excluding options, we propose a three-step Reverse Exclusion Graph-of-Thought (ReX-GoT) framework, including Option Exclusion, Error Analysis, and Combine Information. Specifically, our ReX-GoT mimics human reasoning by gradually excluding irrelevant options and learning the reasons for option errors to choose the optimal path of the GoT and ultimately infer the correct answer. By progressively integrating intricate clues, our method effectively reduces the difficulty of multi-choice reasoning and provides a novel solution for DC-MCQ. Extensive experiments on the CICERO and CICERO$_{v2}$ datasets validate the significant improvement of our approach on DC-MCQ task. On zero-shot setting, our model outperform the best baseline by 17.67% in terms of F1 score for the multi-choice task. Most strikingly, our GPT3.5-based ReX-GoT framework achieves a remarkable 39.44% increase in F1 score.
翻訳日:2023-12-29 20:58:51 公開日:2023-12-27
# 大面積空間順序メサトップシングル量子ドット:オンチップ集積量子情報処理プラットフォームに適した単一光子エミッタ

Large-Area Spatially Ordered Mesa Top Single Quantum Dots: Suitable Single Photon Emitters for On-Chip Integrated Quantum Information Processing Platforms ( http://arxiv.org/abs/2312.15132v2 )

ライセンス: Link先を確認
Qi Huang, Lucas Jordao, Siyuan Lu, Swarnabha Chattaraj, Jiefei Zhang, and Anupam Madhukar(参考訳) 長い間望まれていたオンチップのスケーラブルなフォトニック量子情報処理ネットワークの実現は、大量のしきい値を超えるエミッションフィギュアを持つ空間的に秩序づけられてスケーラブルなシングル光子エミッタが存在しないために妨げられている。 位置決めは必要な精度を満たさなければならないため、相互接続によって必要な機能ネットワークを構築することができる。 本稿では,mesa-top single quantum dots (mtsqds) の大規模空間配列の実現について報告する。[1] 量子鍵分布,線形光学量子コンピューティング,量子多体問題のシミュレーション,メトロロジー/センシングを対象とする量子フォトニック回路/プラットフォームの実装要件を満たす特性を持つオンデマンド単一光子エミッタであることを示す。 SESRE (substrate-encoded size-reducing epitaxy) を介して成長した報告されたGaAs/InGaAs/GaAs MTSQDアレイは、半径1cmの範囲で最大100x100の多重配列である。 3.35nmの標準偏差を示す放射強度(明度)と色符号化波長分布の図示的な大面積画像を示す。 走査型透過電子顕微鏡は、qd位置の左右に約3nm、垂直に約1nmの顕著な制御を示す。 残る主な課題は、基板全体にわたる現在の湿式化学的にエッチングされたナノメカの側面サイズを均一に制御することである。 このように、sesreは、オンチップで完全に集積された量子フォトニック回路プラットフォーム(絶縁体上のalgaasに基づくような)や、シリコンオン絶縁体(soi)フォトニック集積回路(pic)を利用するハイブリッドといった、オンチップでスケーラブルな、オンデマンドで明るい単一量子エミッタの配列を実現する、最も有望なアプローチを提供する。

Realization of the long sought on-chip scalable photonic quantum information processing networks has been thwarted by the absence of spatially-ordered and scalable on-demand single photon emitters with emission figures-of-merit exceeding the required thresholds across large numbers. The positioning must meet the required degree of accuracy that enables fabricating their interconnection to create the desired functional network. Here we report on the realization of large-area spatially-ordered arrays of mesa-top single quantum dots (MTSQDs) that are demonstrated [1] to be on-demand single photon emitters with characteristics that meet the requirements for implementing quantum photonic circuits/platforms aimed at quantum key distribution, linear optical quantum computing, simulations of quantum many-body problems, and metrology/sensing. The reported GaAs/InGaAs/GaAs MTSQD arrays, grown via SESRE (substrate-encoded size-reducing epitaxy) are in multiple arrays of up to 100x100 with 5um pitch, across a centimeter radius area. We show illustrative large-area images of the emission intensity (brightness) and color-coded wavelength distribution exhibiting ~3.35nm standard deviation. Scanning transmission electron microscopy shows a remarkable control on the QD location to within ~3nm accuracy laterally and ~1nm vertically. The primary remaining challenge is the control on the uniformity of the currently wet-chemically etched as-patterned nanomesa lateral size across the substrate, a surmountable technical issue. Thus, SESRE offers the most promising approach to realizing on-chip scalable spatially-ordered arrays of on-demand bright single quantum emitters meeting the figures-of-merit required for on-chip fully integrated quantum photonic circuit platforms-monolithic (such as based upon AlGaAs on insulator) or hybrid that leverage the silicon-on-insulator (SOI) photonic integrated circuit (PIC).
翻訳日:2023-12-29 20:58:29 公開日:2023-12-27
# TACO:アルゴリズムによるCOde生成データセットのトピック

TACO: Topics in Algorithmic COde generation dataset ( http://arxiv.org/abs/2312.14852v3 )

ライセンス: Link先を確認
Rongao Li, Jie Fu, Bo-Wen Zhang, Tao Huang, Zhihong Sun, Chen Lyu, Guang Liu, Zhi Jin, Ge Li(参考訳) 我々は,オープンソースの大規模コード生成データセットであるtacoを紹介し,アルゴリズムの光学に重点を置いて,コード生成モデルの分野でより困難なトレーニングデータセットと評価ベンチマークを提供する。 TACOには、現実のプログラミングシナリオにおける問題理解と推論能力を向上または評価する、より難しい競合レベルのプログラミング質問が含まれている。 トレーニングとテストセットには25433と1000のコーディング問題があり、最大155万の多様な解答がある。 さらに、各TACO問題には、タスクトピック、アルゴリズム、プログラミングスキル、難易度といったいくつかのきめ細かいラベルが含まれており、コード生成モデルのトレーニングと評価をより正確に参照している。 データセットと評価スクリプトはHugging Face Hub(https://huggingface.co/datasets/BAAI/TACO)とGithub(https://github.com/FlagOpen/TACO)で入手できる。

We introduce TACO, an open-source, large-scale code generation dataset, with a focus on the optics of algorithms, designed to provide a more challenging training dataset and evaluation benchmark in the field of code generation models. TACO includes competition-level programming questions that are more challenging, to enhance or evaluate problem understanding and reasoning abilities in real-world programming scenarios. There are 25433 and 1000 coding problems in training and test set, as well as up to 1.55 million diverse solution answers. Moreover, each TACO problem includes several fine-grained labels such as task topics, algorithms, programming skills, and difficulty levels, providing a more precise reference for the training and evaluation of code generation models. The dataset and evaluation scripts are available on Hugging Face Hub (https://huggingface.co/datasets/BAAI/TACO) and Github (https://github.com/FlagOpen/TACO).
翻訳日:2023-12-29 20:57:30 公開日:2023-12-27
# 測定による圧縮フォック状態の生成

Generation of squeezed Fock states by measurement ( http://arxiv.org/abs/2312.14643v2 )

ライセンス: Link先を確認
S. B. Korolev, E. N. Bashmakova, A. K. Tagantsev, T. Yu. Golubeva(参考訳) 2モードの絡み合ったガウス状態(TMEG)からの1つ以上の光子サブトラクションによる圧縮フォック状態の生成は理論的に対処される。 その結果,任意の順序フォック状態が生成可能であることを示し,tmeg状態のパラメータに課してそのような生成を保証すべき条件を得た。 我々はこの条件が満たされる体制を普遍的解決体制と呼んだ。 その結果, 任意のTMEG状態からの1光子サブトラクションにより, 第1圧縮Fock状態の生成が引き続き可能となるように, 上記条件は冗長であることがわかった。 同時に、最初の圧縮されたフォック状態生成の最大生成確率は、普遍解状態に対応する。 本研究では,ビームスプリッタと制御Z演算を用いた圧縮フォック状態の生成に関する記述に,上記の結果を適用した。 最大確率でスクイズドフォック状態を得るために必要な,これらの設定パラメータと入力スクイズド状態のパラメータを推定した。

The generation of squeezed Fock states by the one or more photon subtraction from a two-mode entangled Gaussian (TMEG) state is theoretically addressed. We showed that an arbitrary order Fock state can be generated this way and we obtained a condition that should be imposed on the parameters of the TMEG state to guaranty such a generation. We called the regime, in which this condition is satisfied, universal solution regime. We showed that, for first squeezed Fock state, the above condition is redundant such that the generation of the first squeezed Fock state is still possible by a one photon subtraction from an arbitrary TMEG state. At the same time, the maximum generation probability of the first squeezed Fock state generation corresponds to the universal solution regime. We applied the above results to the description of generation of the squeezed Fock states using a beam splitter and a Controlled-Z operation. We have estimated the parameters of such setups and input squeezed states, which are necessary to obtain squeezed Fock states with the maximum probability.
翻訳日:2023-12-29 20:57:12 公開日:2023-12-27
# gromov-wasserstein距離の半定値緩和

Semidefinite Relaxations of the Gromov-Wasserstein Distance ( http://arxiv.org/abs/2312.14572v2 )

ライセンス: Link先を確認
Junyu Chen, Binh T. Nguyen, Yong Sheng Soh(参考訳) グロモフ=ワッセルシュタイン距離(gromov-wasserstein distance)は、可比較空間間の対象をマッチングできる最適な輸送問題の変種である。 その中核では、GW距離は非凸二次プログラムの解として指定されており、解けないことは知られていない。 特に、GW距離の既存の解法は局所最適解のみを見つけることができる。 本稿では,GW距離の半定値プログラミング(SDP)緩和を提案する。 緩和は、輸送写像の線型項と二次項を関連付ける制約によって拡張されたgw距離の双対と見なすことができる。 我々の緩和は、任意の輸送写像の近似比を大域最適解に計算する原理的な方法を提供する。 最後に,数値実験により,大域的最適解を頻繁に計算し,大域的最適性の証明を行うことで,提案する緩和が強いことが示唆された。

The Gromov-Wasserstein (GW) distance is a variant of the optimal transport problem that allows one to match objects between incomparable spaces. At its core, the GW distance is specified as the solution of a non-convex quadratic program and is not known to be tractable to solve. In particular, existing solvers for the GW distance are only able to find locally optimal solutions. In this work, we propose a semi-definite programming (SDP) relaxation of the GW distance. The relaxation can be viewed as the dual of the GW distance augmented with constraints that relate the linear and quadratic terms of transportation maps. Our relaxation provides a principled manner to compute the approximation ratio of any transport map to the global optimal solution. Finally, our numerical experiments suggest that the proposed relaxation is strong in that it frequently computes the global optimal solution, together with a proof of global optimality.
翻訳日:2023-12-29 20:56:57 公開日:2023-12-27
# 部分群によるクラスタ化配向問題

Clustered Orienteering Problem with Subgroups ( http://arxiv.org/abs/2312.16154v2 )

ライセンス: Link先を確認
Luciano E. Almeida and Douglas G. Macharet(参考訳) 本稿では,OP(Clustered Orienteering Problem with Subgroups, COPS)の拡張について述べる。 この変種では、ノードはサブグループに配置され、サブグループはクラスタに編成される。 報酬は各サブグループに関連付けられ、すべてのノードが訪問される場合にのみ得られるが、少なくとも1つのサブグループをクラスタごとに訪問することができる。 目的は、旅行予算を達成しながら収集した報酬を最大化することである。 我々の新しい定式化は、ここで紹介された他のシナリオに加えて、以前のよく知られた2つの変種であるクラスタ指向問題(COP)とセット指向問題(SOP)をモデル化し、解決する能力を持っていることを示す。 Integer Linear Programming (ILP) の定式化と Tabu Search に基づくヒューリスティックを提案する。 実験の結果,ILP法は時間的コストで最適解が得られるのに対し,メタヒューリスティック法はより合理的な計算コストで同等の解が得られることがわかった。

This paper introduces an extension to the Orienteering Problem (OP), called Clustered Orienteering Problem with Subgroups (COPS). In this variant, nodes are arranged into subgroups, and the subgroups are organized into clusters. A reward is associated with each subgroup and is gained only if all of its nodes are visited; however, at most one subgroup can be visited per cluster. The objective is to maximize the total collected reward while attaining a travel budget. We show that our new formulation has the ability to model and solve two previous well-known variants, the Clustered Orienteering Problem (COP) and the Set Orienteering Problem (SOP), in addition to other scenarios introduced here. An Integer Linear Programming (ILP) formulation and a Tabu Search-based heuristic are proposed to solve the problem. Experimental results indicate that the ILP method can yield optimal solutions at the cost of time, whereas the metaheuristic produces comparable solutions within a more reasonable computational cost.
翻訳日:2023-12-29 20:43:53 公開日:2023-12-27
# メディアバイアス分類法 : メディアバイアスの形式と自動検出に関する体系的文献レビュー

The Media Bias Taxonomy: A Systematic Literature Review on the Forms and Automated Detection of Media Bias ( http://arxiv.org/abs/2312.16148v2 )

ライセンス: Link先を確認
Timo Spinde, Smilla Hinterreiter, Fabian Haak, Terry Ruas, Helge Giese, Norman Meuschke, Bela Gipp(参考訳) メディアがイベントを提示する方法は、大衆の認識に大きく影響し、人々の信念や見解を変える可能性がある。 メディアバイアスは、トピックについて一方的あるいは偏見的な視点を記述する。 本稿は,2019年から2022年にかけて発行された3140の研究論文を体系的にレビューし,メディアバイアス検出のための計算手法に関する研究をまとめる。 研究領域間での偏見の相互理解を構築・支援するために,メディアバイアス分類法(Media Bias Taxonomy)を紹介した。 メディアバイアス検出は,近年,トランスフォーマーに基づく分類手法が著しく改善されている,非常に活発な研究分野であることを示す。 これらの改善には、より高い分類精度とよりきめ細かい偏見を検出する能力が含まれる。 しかし,既存のプロジェクトでは学際性が欠如していること,メディアバイアス検出システムの性能評価を方法論的に徹底的に支援するために,様々なメディアバイアスをより認識する必要があることが判明した。 分析の結果,近年の機械学習の進歩と,他の研究分野からの信頼性と多様なバイアス評価戦略の統合が,この分野における今後の研究貢献の最も有望な分野であることがわかった。

The way the media presents events can significantly affect public perception, which in turn can alter people's beliefs and views. Media bias describes a one-sided or polarizing perspective on a topic. This article summarizes the research on computational methods to detect media bias by systematically reviewing 3140 research papers published between 2019 and 2022. To structure our review and support a mutual understanding of bias across research domains, we introduce the Media Bias Taxonomy, which provides a coherent overview of the current state of research on media bias from different perspectives. We show that media bias detection is a highly active research field, in which transformer-based classification approaches have led to significant improvements in recent years. These improvements include higher classification accuracy and the ability to detect more fine-granular types of bias. However, we have identified a lack of interdisciplinarity in existing projects, and a need for more awareness of the various types of media bias to support methodologically thorough performance evaluations of media bias detection systems. Concluding from our analysis, we see the integration of recent machine learning advancements with reliable and diverse bias assessment strategies from other research areas as the most promising area for future research contributions in the field.
翻訳日:2023-12-29 20:43:17 公開日:2023-12-27
# 4つの一重項量子ビットの普遍制御

Universal control of four singlet-triplet qubits ( http://arxiv.org/abs/2312.16101v2 )

ライセンス: Link先を確認
Xin Zhang, Elizaveta Morozova, Maximilian Rimbach-Russ, Daniel Jirovec, Tzu-Kan Hsiao, Pablo Cova Fari\~na, Chien-An Wang, Stefan D. Oosterhout, Amir Sammak, Giordano Scappucci, Menno Veldhorst, Lieven M. K. Vandersypen(参考訳) 半導体量子ドットにおける相互作用スピンのコヒーレント制御は、量子情報処理だけでなく、ボトムアップからの量子磁気の研究にも強い関心を持つ。 スピンスピン結合はゲート電圧によって独立に制御できるが, 非線形性やクロストークは, 過去数年で進行が鈍化している。 ここでは、近接するスピン間の完全かつ制御可能な相互作用を持つゲルマニウム量子ドットアレイについて述べる。 制御レベルを実証するため、本システムでは4つのシングルトリップキュービットを定義し、隣接する全てのキュービットペア間の全てのキュービットとSWAPスタイルの2ビットゲートの2軸シングルキュービット制御を示す。 これらの演算を組み合わせることで、配列間の絡み合いを発生・分散する回路を実験的に実装する。 これらの結果は、量子コンピューティングの競合するプラットフォームとしてのシングルトリップキュービットの可能性を強調し、拡張双線形アレイにおける量子ドットスピンの制御のスケールアップが可能であることを示す。

The coherent control of interacting spins in semiconductor quantum dots is of strong interest for quantum information processing as well as for studying quantum magnetism from the bottom up. On paper, individual spin-spin couplings can be independently controlled through gate voltages, but nonlinearities and crosstalk introduce significant complexity that has slowed down progress in past years. Here, we present a $2\times4$ germanium quantum dot array with full and controllable interactions between nearest-neighbor spins. As a demonstration of the level of control, we define four singlet-triplet qubits in this system and show two-axis single-qubit control of all qubits and SWAP-style two-qubit gates between all neighbouring qubit pairs. Combining these operations, we experimentally implement a circuit designed to generate and distribute entanglement across the array. These results highlight the potential of singlet-triplet qubits as a competing platform for quantum computing and indicate that scaling up the control of quantum dot spins in extended bilinear arrays can be feasible.
翻訳日:2023-12-29 20:42:55 公開日:2023-12-27
# 非線形ブラックボックスシステム同定のための訓練段階におけるディープネットワークの能力活用

Exploiting the capacity of deep networks only at training stage for nonlinear black-box system identification ( http://arxiv.org/abs/2312.15969v2 )

ライセンス: Link先を確認
Vahid MohammadZadeh Eivaghi, Mahdi Aliyari Shooredeli(参考訳) システム同定における深層モデルのモデリング能力の恩恵を受けるために, 推定時間を気にせずに, 学習段階でのみ深層モデルを用いた新しいトレーニング戦略を提案する。 この目的のために、異なる構造と目標を持つ2つの別々のモデルが採用されている。 1つ目は、教師モデルと呼ばれるシステム出力の分布をモデル化することを目的とした深い生成モデルであり、もう1つは、システム出力を予測するためにシステム入力(s)によって供給される学生モデルと呼ばれる浅い基底関数モデルである。 つまり、これらの孤立した経路は同じ究極の目標に達する必要がある。 ディープモデルは高非線形システムのモデリングにおいて優れた性能を示すため、これらの2つのモデルによって学習された表現空間を整列させることで、学生モデルは教師モデルの近似力を継承する。 提案する目的関数は,学習した潜伏表現間の距離ペナルティを加算した各生徒と教師モデルの目的から構成される。 3つの非線形ベンチマークのシミュレーション結果は、同じベンチマークに適用したディープアーキテクチャとの比較性能を示す。 アルゴリズムの透明性と構造効率も副産物として達成される。

To benefit from the modeling capacity of deep models in system identification, without worrying about inference time, this study presents a novel training strategy that uses deep models only at the training stage. For this purpose two separate models with different structures and goals are employed. The first one is a deep generative model aiming at modeling the distribution of system output(s), called the teacher model, and the second one is a shallow basis function model, named the student model, fed by system input(s) to predict the system output(s). That means these isolated paths must reach the same ultimate target. As deep models show a great performance in modeling of highly nonlinear systems, aligning the representation space learned by these two models make the student model to inherit the approximation power of the teacher model. The proposed objective function consists of the objective of each student and teacher model adding up with a distance penalty between the learned latent representations. The simulation results on three nonlinear benchmarks show a comparative performance with examined deep architectures applied on the same benchmarks. Algorithmic transparency and structure efficiency are also achieved as byproducts.
翻訳日:2023-12-29 20:42:20 公開日:2023-12-27
# モダリティを欠くロバストなマルチモーダルプロンプトに向けて

Towards Robust Multimodal Prompting With Missing Modalities ( http://arxiv.org/abs/2312.15890v2 )

ライセンス: Link先を確認
Jaehyuk Jang, Yooseung Wang, Changick Kim(参考訳) 近年,すべてのモダリティケースに対して学習可能な欠落認識プロンプトを導入するマルチモーダルプロンプトが注目されている。 しかし、2つの重大な問題に直面している。 1)プロンプトの数は,モダリティの数が増えるにつれて指数関数的に増加する。 2)トレーニングと推論の間にモダリティの異なるシナリオでは堅牢性に欠ける。 本稿では,これらの課題に対処するための簡易かつ効果的なプロンプトデザインを提案する。 欠落認識のプロンプトを使う代わりに、プロンプトをモダリティ固有のトークンとして利用し、各モダリティのユニークな特徴を捉えることができる。 さらに,プロンプト間の直交性をキー要素として活用し,異なるモダリティにまたがる異なる情報を学び,学習表現の多様性を促進する。 広範な実験によって、プロンプト数を減らしながら、プロンプト設計がパフォーマンスとロバスト性の両方を向上できることが示されました。

Recently, multimodal prompting, which introduces learnable missing-aware prompts for all missing modality cases, has exhibited impressive performance. However, it encounters two critical issues: 1) The number of prompts grows exponentially as the number of modalities increases; and 2) It lacks robustness in scenarios with different missing modality settings between training and inference. In this paper, we propose a simple yet effective prompt design to address these challenges. Instead of using missing-aware prompts, we utilize prompts as modality-specific tokens, enabling them to capture the unique characteristics of each modality. Furthermore, our prompt design leverages orthogonality between prompts as a key element to learn distinct information across different modalities and promote diversity in the learned representations. Extensive experiments demonstrate that our prompt design enhances both performance and robustness while reducing the number of prompts.
翻訳日:2023-12-29 20:42:04 公開日:2023-12-27
# クロスモーダル医用画像検索のためのマスキングコントラスト再構成

Masked Contrastive Reconstruction for Cross-modal Medical Image-Report Retrieval ( http://arxiv.org/abs/2312.15840v2 )

ライセンス: Link先を確認
Zeqiang Wei, Kai Jin, Xiuzhuang Zhou(参考訳) クロスモーダル医療画像検索タスクは臨床診断や様々な医療生成タスクにおいて重要な役割を果たす。 セマンティクスの一貫性を高めるために、異なるモダリティ間の多様性を排除することが、このタスクの重要な課題である。 現在の視覚言語予備訓練(vlp)モデルは、クロスモーダルコントラスト学習(cross-modal contrastive learning)とマスクドリコンストラクション( masked reconstruction)を併用し、クロスモーダル検索の性能を効果的に向上させることができる。 このフレームワークは典型的にはデュアルストリーム入力を使用し、クロスモーダルなコントラスト学習や再構成のためのマスク付きデータにアンマスケデータを使用する。 しかし,タスク競合や2つのプロキシタスクの入力の違いによる情報干渉により,モーダル内およびモーダル間における表現学習の有効性は制限されている。 本稿では,マスク付きデータを両タスクの唯一の入力として利用する,Masked Contrastive and Reconstruction (MCR) という効率的なVLPフレームワークを提案する。 これにより、タスク接続が強化され、情報干渉や競合を減らすと同時に、必要なgpuメモリとトレーニング時間が大幅に削減される。 さらに、アグリゲーション前のマッピング(MbA)と呼ばれる新しいモダリティアライメント戦略を導入する。 従来の手法とは異なり、MbAは局所的な特徴集約を行う前に、異なるモダリティを共通の特徴空間にマッピングすることにより、モダリティアライメントを改善するために必要な詳細な意味情報の損失を減らす。 MIMIC-CXRデータセットを用いた定性的,定量的な実験により,医療用クロスモーダル検索タスクの最先端性能を実証した。

Cross-modal medical image-report retrieval task plays a significant role in clinical diagnosis and various medical generative tasks. Eliminating heterogeneity between different modalities to enhance semantic consistency is the key challenge of this task. The current Vision-Language Pretraining (VLP) models, with cross-modal contrastive learning and masked reconstruction as joint training tasks, can effectively enhance the performance of cross-modal retrieval. This framework typically employs dual-stream inputs, using unmasked data for cross-modal contrastive learning and masked data for reconstruction. However, due to task competition and information interference caused by significant differences between the inputs of the two proxy tasks, the effectiveness of representation learning for intra-modal and cross-modal features is limited. In this paper, we propose an efficient VLP framework named Masked Contrastive and Reconstruction (MCR), which takes masked data as the sole input for both tasks. This enhances task connections, reducing information interference and competition between them, while also substantially decreasing the required GPU memory and training time. Moreover, we introduce a new modality alignment strategy named Mapping before Aggregation (MbA). Unlike previous methods, MbA maps different modalities to a common feature space before conducting local feature aggregation, thereby reducing the loss of fine-grained semantic information necessary for improved modality alignment. Qualitative and quantitative experiments conducted on the MIMIC-CXR dataset validate the effectiveness of our approach, demonstrating state-of-the-art performance in medical cross-modal retrieval tasks.
翻訳日:2023-12-29 20:41:47 公開日:2023-12-27
# GPGPU量子シミュレータによるベンゼンとその誘導体の量子位相推定

Quantum Phase Estimations of Benzene and Its Derivatives on GPGPU Quantum Simulators ( http://arxiv.org/abs/2312.16375v1 )

ライセンス: Link先を確認
Yusuke Ino, Misaki Yonekawa, Hideto Yuzawa, Yuichiro Minato, and Kenji Sugisaki(参考訳) 量子位相推定(QPE)アルゴリズムを用いることにより、量子コンピュータは古典的手法に比べて計算量が少なく、完全な共役相互作用計算を実行することが期待されている。 しかし、QPEに基づく量子化学計算の限られた数のみが古典的コンピュータ上の数値シミュレーションでも報告されており、最大5個の原子の小さな分子に焦点を当てている。 本稿では,反復qpeアルゴリズムを用いて,産業上重要な分子の電子的接地と励起状態の量子化学計算を行った。 シングルgpgpuに基づくsimula-torを用いて,マルチcpuによる高速化を観測した。 また, 量子シミュレータを用いてこの方法の実現可能性を確認し, ベンゼンとそのモノ置換誘導体の電子励起エネルギーを評価した。 我々のメタオドは他の分子にも容易に適用でき、実用分子のQPEに基づくクオンタム化学計算の標準的な手法となる。

Quantum computers are expected to perform the full con-figuration interaction calculations with fewer computa-tional resources compared to classical ones, thanks to the use of the quantum phase estimation (QPE) algorithms. However, only limited number of the QPE-based quantum chemical calculations have been reported even on the numerical simulations on a classical computer, focusing on small molecules of up to five atoms. In this paper, we performed quantum chemical calculations of electronic ground and excited states on industrially important mole-cules using the iterative QPE algorithms. With the simula-tor based on a single-GPGPU, we observed the speedup compared to the ones based on multi-CPUs. We also con-firmed the feasibility of this method using a quantum simulator and evaluated the {\pi}-{\pi}* excitation energies of benzene and its mono-substituted derivatives. Our meth-od is easily applicable to other molecules and can be a standard approach for performing the QPE-based quan-tum chemical calculations of practical molecules.
翻訳日:2023-12-29 19:52:42 公開日:2023-12-27
# LLMポリグラフ:中間データ解析によるLLMの実態識別

LLM Polygraph: Uncovering LLMs' Factual Discernment through Intermediate Data Analysis ( http://arxiv.org/abs/2312.16374v1 )

ライセンス: Link先を確認
Jinwen He, Yujia Gong, Kai Chen, Zijin Lin, Chengan Wei, Yue Zhao(参考訳) 大規模言語モデル(llm)は、幅広い知識と創造性を備えた様々なドメインに革命をもたらした。 しかし、LLMにおける重要な問題は、現実と異なる出力を生成する傾向にある。 この現象は、正確性が最重要である医療相談や法的助言のような敏感な応用において特に関係している。 本稿では,llmの内部状態を利用して事実検出を行う新しいシャムネットワークモデルであるllmfactoscopeを提案する。 本研究は,LLMの内部状態における実物と非実物との区別可能なパターンを明らかにする。 我々は,様々なアーキテクチャにおけるllmファクトスコープの有効性を実証し,96%以上の精度を実現した。 本研究は, LLMの内部状態を事実検出に活用するための新たな道を開き, 信頼性と透明性を高めるため, LLMの内部動作のさらなる探索を奨励する。

Large Language Models (LLMs) have revolutionized various domains with extensive knowledge and creative capabilities. However, a critical issue with LLMs is their tendency to produce outputs that diverge from factual reality. This phenomenon is particularly concerning in sensitive applications such as medical consultation and legal advice, where accuracy is paramount. In this paper, we introduce the LLM factoscope, a novel Siamese network-based model that leverages the inner states of LLMs for factual detection. Our investigation reveals distinguishable patterns in LLMs' inner states when generating factual versus non-factual content. We demonstrate the LLM factoscope's effectiveness across various architectures, achieving over 96% accuracy in factual detection. Our work opens a new avenue for utilizing LLMs' inner states for factual detection and encourages further exploration into LLMs' inner workings for enhanced reliability and transparency.
翻訳日:2023-12-29 19:52:25 公開日:2023-12-27
# アクティブな第三者模倣学習

Active Third-Person Imitation Learning ( http://arxiv.org/abs/2312.16365v1 )

ライセンス: Link先を確認
Timo Klein and Susanna Weinberger and Adish Singla and Sebastian Tschiatschek(参考訳) 我々は,学習者が専門家を観察する視点を選ばなければならないという課題を伴って,第三者模倣学習の問題を考える。 この設定では,各視点は専門家の行動に関する限られた情報しか提供せず,学習エージェントは異なる視点からの情報を慎重に選択し,組み合わせて競争性能を達成する必要がある。 この設定は、実世界の模倣学習アプリケーション(ロボット工学など)に触発され、ロボットはカメラを通して人間のデモストラクタを観察し、カメラの位置に応じて異なる視点から情報を受け取ることができる。 本稿では、前述のアクティブな第三者模倣学習問題を定式化し、その特徴を理論的に分析し、生成的対向ネットワークに基づくアクティブな学習手法を提案する。 実験的に,提案手法は専門家による実証実験から効果的に学習でき,学習者のパフォーマンスに対する異なるアーキテクチャ選択の重要性を探求することができると結論づける。

We consider the problem of third-person imitation learning with the additional challenge that the learner must select the perspective from which they observe the expert. In our setting, each perspective provides only limited information about the expert's behavior, and the learning agent must carefully select and combine information from different perspectives to achieve competitive performance. This setting is inspired by real-world imitation learning applications, e.g., in robotics, a robot might observe a human demonstrator via camera and receive information from different perspectives depending on the camera's position. We formalize the aforementioned active third-person imitation learning problem, theoretically analyze its characteristics, and propose a generative adversarial network-based active learning approach. Empirically, we demstrate that our proposed approach can effectively learn from expert demonstrations and explore the importance of different architectural choices for the learner's performance.
翻訳日:2023-12-29 19:52:11 公開日:2023-12-27
# リスク駆動シーンの知識に基づく論理のロバスト性検証

Robustness Verification for Knowledge-Based Logic of Risky Driving Scenes ( http://arxiv.org/abs/2312.16364v1 )

ライセンス: Link先を確認
Xia Wang, Anda Liang, Jonathan Sprinkle and Taylor T. Johnson(参考訳) 現代の人生における多くの意思決定シナリオは、データ駆動の哲学と自動プログラムまたはシステムに焦点を当てた人工知能アルゴリズムの決定サポートから恩恵を受ける。 しかし、セキュリティ、公正性、プライバシに関連する決定的な問題は、そのようなAIアルゴリズムをより適切なソリューションに到達し、より効果的に社会に利益をもたらすために、より人間の知識と原則を検討するべきである。 本研究では,公共交通機関の事故データから学習したリスクの高い運転形式を規定する知識に基づく論理を抽出し,その知識の最良の部分について詳細な分析を行っていない。 さらに重要なのは、この知識は交通の危険を認識するために重要であり、安全クリティカルなシステムのAIモデルを監督し、改善することができることだ。 次に,このような論理のロバスト性を検証するために,自動検証手法を用いる。 具体的には、data.govから72の事故データセットを収集し、状態別に整理する。 さらに、各状態のデータセット上で決定木とXGBoostモデルをトレーニングし、事故判定ロジックを導出する。 最後に,これらの木モデル上で複数のパラメータの組み合わせでロバスト性検証を行う。

Many decision-making scenarios in modern life benefit from the decision support of artificial intelligence algorithms, which focus on a data-driven philosophy and automated programs or systems. However, crucial decision issues related to security, fairness, and privacy should consider more human knowledge and principles to supervise such AI algorithms to reach more proper solutions and to benefit society more effectively. In this work, we extract knowledge-based logic that defines risky driving formats learned from public transportation accident datasets, which haven't been analyzed in detail to the best of our knowledge. More importantly, this knowledge is critical for recognizing traffic hazards and could supervise and improve AI models in safety-critical systems. Then we use automated verification methods to verify the robustness of such logic. More specifically, we gather 72 accident datasets from Data.gov and organize them by state. Further, we train Decision Tree and XGBoost models on each state's dataset, deriving accident judgment logic. Finally, we deploy robustness verification on these tree-based models under multiple parameter combinations.
翻訳日:2023-12-29 19:51:55 公開日:2023-12-27
# チームを維持する - オンライン問題ベースの学習コンペティションにおけるドロップアウト予測

Keeping Teams in the Game: Predicting Dropouts in Online Problem-Based Learning Competition ( http://arxiv.org/abs/2312.16362v1 )

ライセンス: Link先を確認
Aditya Panwar, Ashwin T S, Ramkumar Rajendran, Kavi Arya(参考訳) 近年,オンライン学習やMOOCが普及し,技術ブームの影響で傾向が続いている。 これらのオンラインコースでは、インストラクターが対面教室で行っているのと同じように、学習者の行動を観察する必要がある。 学習者の行動を理解する上で,学習者の戦略や活動が不可欠となる。 オンラインコースにおける大きな課題のひとつは、ドロップアウト行動の予測と防止だ。 このような分析を行おうとする研究はいくつかあるが、減少率を理解し予測するために異なるデータストリームを利用する研究はいまだに不足している。 さらに、研究は、完全にオンラインなチームベースの協調環境を文脈として使うことは滅多にない。 そこで本研究では,オンライン縦型問題ベース学習(pbl)をテストベッドとして採用する。 本研究は,方法論的三角測量を通じて,参加チームの談話討論フォーラム「活動」と自己報告型オンライン学習戦略アンケート(OSLQ)のコントリビューションを通じて,ドロップアウト行動を予測することを目的とする。 この研究はまた、質的なインタビューを使って根拠の真理と結果を高める。 OSLQデータは4000人以上の参加者から収集される。 さらに、この研究は、オンライン環境における研究を進めるためのOSLQの信頼性を確立することを目的としている。 さまざまな機械学習アルゴリズムを用いてデータを解析する。 以上の結果から,oslqの信頼性とサンプルサイズが明らかとなり,オンラインコンペティションにおけるドロップアウト率の予測に有望な結果が得られた。

Online learning and MOOCs have become increasingly popular in recent years, and the trend will continue, given the technology boom. There is a dire need to observe learners' behavior in these online courses, similar to what instructors do in a face-to-face classroom. Learners' strategies and activities become crucial to understanding their behavior. One major challenge in online courses is predicting and preventing dropout behavior. While several studies have tried to perform such analysis, there is still a shortage of studies that employ different data streams to understand and predict the drop rates. Moreover, studies rarely use a fully online team-based collaborative environment as their context. Thus, the current study employs an online longitudinal problem-based learning (PBL) collaborative robotics competition as the testbed. Through methodological triangulation, the study aims to predict dropout behavior via the contributions of Discourse discussion forum 'activities' of participating teams, along with a self-reported Online Learning Strategies Questionnaire (OSLQ). The study also uses Qualitative interviews to enhance the ground truth and results. The OSLQ data is collected from more than 4000 participants. Furthermore, the study seeks to establish the reliability of OSLQ to advance research within online environments. Various Machine Learning algorithms are applied to analyze the data. The findings demonstrate the reliability of OSLQ with our substantial sample size and reveal promising results for predicting the dropout rate in online competition.
翻訳日:2023-12-29 19:51:37 公開日:2023-12-27
# 時系列パッチを独立に埋め込む学習

Learning to Embed Time Series Patches Independently ( http://arxiv.org/abs/2312.16427v1 )

ライセンス: Link先を確認
Seunghan Lee, Taeyoung Park, Kibok Lee(参考訳) 近年,時系列モデリングは時系列の自己教師型表現学習戦略として注目されている。 コンピュータビジョンにおけるマスク付きイメージモデリングにインスパイアされた最近の研究は、まず最初にパッチをパッチ化し、部分的に時系列をマスクアウトし、次にトランスフォーマーをトレーニングして、マスク付きパッチを非マスクパッチから予測することでパッチ間の依存関係をキャプチャする。 しかし、このようなパッチ依存関係をキャプチャすることは、時系列表現学習の最適戦略ではなく、個別にパッチを埋め込む学習は、より良い時系列表現をもたらす。 具体的には 1)他のパッチを見ることなく各パッチを自動エンコードする簡単なパッチ再構築タスク。 2) パッチを個別に埋め込むシンプルなパッチワイドMLP。 さらに,隣接時系列情報を階層的に効率的に捉えるために,補完的コントラスト学習を導入する。 提案手法は,現状のトランスフォーマーモデルと比較して時系列予測と分類性能を向上し,パラメータ数やトレーニング/推論時間の観点からより効率的である。 コードは、このリポジトリで入手できる。

Masked time series modeling has recently gained much attention as a self-supervised representation learning strategy for time series. Inspired by masked image modeling in computer vision, recent works first patchify and partially mask out time series, and then train Transformers to capture the dependencies between patches by predicting masked patches from unmasked patches. However, we argue that capturing such patch dependencies might not be an optimal strategy for time series representation learning; rather, learning to embed patches independently results in better time series representations. Specifically, we propose to use 1) the simple patch reconstruction task, which autoencode each patch without looking at other patches, and 2) the simple patch-wise MLP that embeds each patch independently. In addition, we introduce complementary contrastive learning to hierarchically capture adjacent time series information efficiently. Our proposed method improves time series forecasting and classification performance compared to state-of-the-art Transformer-based models, while it is more efficient in terms of the number of parameters and training/inference time. Code is available at this repository: https://github.com/seunghan96/pits.
翻訳日:2023-12-29 19:43:19 公開日:2023-12-27
# 単眼RGB映像による手指3次元物体再構成

In-Hand 3D Object Reconstruction from a Monocular RGB Video ( http://arxiv.org/abs/2312.16425v1 )

ライセンス: Link先を確認
Shijian Jiang, Qi Ye, Rengan Xie, Yuchi Huo, Xiang Li, Yang Zhou, Jiming Chen(参考訳) 我々の研究は、静止RGBカメラの前で手で保持・回転する3Dオブジェクトを再構築することを目的としている。 暗黙の神経表現を用いて、多視点画像からジェネリックハンドヘルドオブジェクトの形状を復元する従来の手法は、オブジェクトの可視部分において魅力的な結果を得た。 しかし, 咬合により手指接触領域内の形状を正確に把握することは困難である。 本稿では,2次元オクルージョンの解明と物理的接触制約を取り入れて,咬合下の表面再構成を扱う新しい手法を提案する。 前者に対しては、オブジェクトの2次元完全マスクを隠蔽下で推測するためのオブジェクトアモーダル補完ネットワークを導入する。 予測した2次元アモーダルマスクの精度と視認性を確保するため,アモーダルマスクの精密化と3次元再構成のための統合最適化手法を考案した。 後者については,接触領域における局所幾何学の浸透とアトラクションの制約を課す。 HO3D と HOD のデータセットに対するアプローチを評価し,HO3D では 52 % ,HOD では 20 % の精度で再現面品質において最先端の手法よりも優れていることを示す。 プロジェクトwebページ: https://east-j.github.io/ihor。

Our work aims to reconstruct a 3D object that is held and rotated by a hand in front of a static RGB camera. Previous methods that use implicit neural representations to recover the geometry of a generic hand-held object from multi-view images achieved compelling results in the visible part of the object. However, these methods falter in accurately capturing the shape within the hand-object contact region due to occlusion. In this paper, we propose a novel method that deals with surface reconstruction under occlusion by incorporating priors of 2D occlusion elucidation and physical contact constraints. For the former, we introduce an object amodal completion network to infer the 2D complete mask of objects under occlusion. To ensure the accuracy and view consistency of the predicted 2D amodal masks, we devise a joint optimization method for both amodal mask refinement and 3D reconstruction. For the latter, we impose penetration and attraction constraints on the local geometry in contact regions. We evaluate our approach on HO3D and HOD datasets and demonstrate that it outperforms the state-of-the-art methods in terms of reconstruction surface quality, with an improvement of $52\%$ on HO3D and $20\%$ on HOD. Project webpage: https://east-j.github.io/ihor.
翻訳日:2023-12-29 19:43:01 公開日:2023-12-27
# 時系列のソフトコントラスト学習

Soft Contrastive Learning for Time Series ( http://arxiv.org/abs/2312.16424v1 )

ライセンス: Link先を確認
Seunghan Lee, Taeyoung Park, Kibok Lee(参考訳) コントラスト学習は時系列からの表現を自己指導的に学習するのに有効であることが示されている。 しかし、類似の時系列インスタンスや時系列内の隣接するタイムスタンプからの値と対照的に、それらの固有の相関は無視され、結果として学習された表現の品質が低下する。 この問題に対処するために,時系列の簡易かつ効果的なソフトコントラスト学習戦略であるSoftCLTを提案する。 これは、ゼロから1までのソフト代入を伴うインスタンス毎および時間的コントラスト損失を導入することで実現される。 具体的にはソフトな割り当てを定義します 1)データ空間上の時系列間の距離によるケースワイドコントラスト損失と 2)タイムスタンプの違いによる時間的コントラスト損失。 SoftCLTは時系列のコントラスト学習のためのプラグアンドプレイ方式であり、ベルやホイッスルを使わずに学習表現の品質を向上させる。 実験により,softcltは分類,半教師付き学習,転送学習,異常検出などの下流タスクのパフォーマンスを一貫して向上させ,最先端のパフォーマンスを示すことを示した。 コードは、このリポジトリで入手できる。 https://github.com/seunghan96/softclt。

Contrastive learning has shown to be effective to learn representations from time series in a self-supervised way. However, contrasting similar time series instances or values from adjacent timestamps within a time series leads to ignore their inherent correlations, which results in deteriorating the quality of learned representations. To address this issue, we propose SoftCLT, a simple yet effective soft contrastive learning strategy for time series. This is achieved by introducing instance-wise and temporal contrastive loss with soft assignments ranging from zero to one. Specifically, we define soft assignments for 1) instance-wise contrastive loss by the distance between time series on the data space, and 2) temporal contrastive loss by the difference of timestamps. SoftCLT is a plug-and-play method for time series contrastive learning that improves the quality of learned representations without bells and whistles. In experiments, we demonstrate that SoftCLT consistently improves the performance in various downstream tasks including classification, semi-supervised learning, transfer learning, and anomaly detection, showing state-of-the-art performance. Code is available at this repository: https://github.com/seunghan96/softclt.
翻訳日:2023-12-29 19:42:37 公開日:2023-12-27
# 4種類のSAT問題の解法

General Method for Solving Four Types of SAT Problems ( http://arxiv.org/abs/2312.16423v1 )

ライセンス: Link先を確認
Anqi Li and Congying Han and Tiande Guo and Haoran Li and Bonan Li(参考訳) 既存の手法は、様々なタイプのBoolean satisfiability problem (SAT) に対して様々なアルゴリズムを提供する。 そこで本研究では,整数プログラミングと強化学習(RL)に基づく統合フレームワーク DCSAT を提案し,MaxSAT,Weighted MaxSAT,PMS,WPMS などのSAT問題を解く。 具体的には,目的関数係数を調整して4種類のsat問題に対する統合整数計画表現を構築した。 次に,sat問題に対する0-1整数計画に基づいて,適切な強化学習モデルを構築する。 二元木探索構造に基づき,sat問題に対してモンテカルロ木探索 (mcts) 法を適用した。 最後に、この手法は、大数のWiener-khinchin法則に基づく全ての最適ブール代入を見つけることができることを示す。 このパラダイムが不必要な探索空間を創り出し、問題に対する最適なブール代入を見つけることを実験的に検証する。 さらに,SAT問題に対する教師付き学習のための多種多様なラベルを提供することができる。

Existing methods provide varying algorithms for different types of Boolean satisfiability problems (SAT), lacking a general solution framework. Accordingly, this study proposes a unified framework DCSAT based on integer programming and reinforcement learning (RL) algorithm to solve different types of SAT problems such as MaxSAT, Weighted MaxSAT, PMS, WPMS. Specifically, we first construct a consolidated integer programming representation for four types of SAT problems by adjusting objective function coefficients. Secondly, we construct an appropriate reinforcement learning models based on the 0-1 integer programming for SAT problems. Based on the binary tree search structure, we apply the Monte Carlo tree search (MCTS) method on SAT problems. Finally, we prove that this method can find all optimal Boolean assignments based on Wiener-khinchin law of large Numbers. We experimentally verify that this paradigm can prune the unnecessary search space to find the optimal Boolean assignments for the problem. Furthermore, the proposed method can provide diverse labels for supervised learning methods for SAT problems.
翻訳日:2023-12-29 19:42:18 公開日:2023-12-27
# ロバストグラフ畳み込みネットワークのためのヘテロフィルグラフ上の潜在ホモフィル構造

Refining Latent Homophilic Structures over Heterophilic Graphs for Robust Graph Convolution Networks ( http://arxiv.org/abs/2312.16418v1 )

ライセンス: Link先を確認
Chenyang Qiu, Guoshun Nan, Tianyu Xiong, Wendi Deng, Di Wang, Zhiyang Teng, Lijuan Sun, Qimei Cui, Xiaofeng Tao(参考訳) グラフ畳み込みネットワーク(GCN)は、空間データから知識を抽出するために様々なグラフタスクで広く利用されている。 本研究は,ノード分類のための全表現不均一グラフ上のGCNロバスト性を定量的に検討する先駆的な試みである。 主な脆弱性は、構造的アウト・オブ・ディストリビューション(OOD)の問題によるものである。 この発見は,好気性グラフ上で潜在好気性構造を自動的に学習することによってgcnを硬化させる新しい手法を提案する動機となった。 我々は、LHSのような方法論を述べる。 本研究の最初のステップは,複数ノード相互作用に基づく新しい自己表現手法を用いることで,潜在構造を学習することである。 その後、ペアで制約されたデュアルビューコントラスト学習アプローチを用いて構造を洗練する。 上記の手順を反復的に実行し,gcnモデルがヘテロ親和グラフ上で情報集約を可能にする。 このような適応可能な構造を具備すれば、ヘテロ親和性グラフ上の構造OOD脅威を適切に緩和することができる。 様々なベンチマーク実験により、堅牢GCNに対するLHSアプローチの有効性が示された。

Graph convolution networks (GCNs) are extensively utilized in various graph tasks to mine knowledge from spatial data. Our study marks the pioneering attempt to quantitatively investigate the GCN robustness over omnipresent heterophilic graphs for node classification. We uncover that the predominant vulnerability is caused by the structural out-of-distribution (OOD) issue. This finding motivates us to present a novel method that aims to harden GCNs by automatically learning Latent Homophilic Structures over heterophilic graphs. We term such a methodology as LHS. To elaborate, our initial step involves learning a latent structure by employing a novel self-expressive technique based on multi-node interactions. Subsequently, the structure is refined using a pairwisely constrained dual-view contrastive learning approach. We iteratively perform the above procedure, enabling a GCN model to aggregate information in a homophilic way on heterophilic graphs. Armed with such an adaptable structure, we can properly mitigate the structural OOD threats over heterophilic graphs. Experiments on various benchmarks show the effectiveness of the proposed LHS approach for robust GCNs.
翻訳日:2023-12-29 19:42:01 公開日:2023-12-27
# 流れマッチングモデルのベルマン最適ステップサイズストライニング

Bellman Optimal Step-size Straightening of Flow-Matching Models ( http://arxiv.org/abs/2312.16414v1 )

ライセンス: Link先を確認
Bao Nguyen, Binh Nguyen, Viet Anh Nguyen(参考訳) フローマッチングは、様々なアプリケーション、特に画像合成で高品質なサンプルを生成するための強力なフレームワークである。 しかしながら、特に微調整プロセスやサンプリングプロセスにおいて、これらのモデルの集中的な計算要求は、低リソースシナリオにとって大きな課題となる。 本稿では,フローマッチング生成モデルを蒸留するためのBellman Optimal Step-Size Straightening (BOSS)技術について紹介する。 第一に、この手法は事前訓練されたネットワークのステップサイズを最適化する動的プログラミングアルゴリズムを含む。 そして、速度ネットワークを改良して最適なステップサイズに適合させ、生成経路を直線化する。 画像生成タスクに対する大規模な実験的評価は、資源利用と画質の両方の観点から、BOSSの有効性を示す。 以上の結果から,BOSSは,低リソース制約とフローマッチング生成モデルの要求条件とのギャップを効果的に埋めつつ,競争力のあるサンプル品質を維持しながら,効率を大幅に向上することがわかった。 私たちの論文は、人工知能の責任ある開発を強化し、計算コストと環境フットプリントを削減する、より持続可能な生成モデルを提供します。 私たちのコードはhttps://anonymous.4open.science/r/drl-8e88にある。

Flow matching is a powerful framework for generating high-quality samples in various applications, especially image synthesis. However, the intensive computational demands of these models, especially during the fine-tuning process and sampling processes, pose significant challenges for low-resource scenarios. This paper introduces Bellman Optimal Step-size Straightening (BOSS) technique for distilling flow-matching generative models: it aims specifically for a few step efficient image sampling while adhering to a computational budget constraint. First, this technique involves a dynamic programming algorithm that optimizes the step sizes of the pretrained network. Then, it refines the velocity network to match the optimal step sizes, aiming to straighten the generation paths. Extensive experimental evaluations across image generation tasks demonstrate the efficacy of BOSS in terms of both resource utilization and image quality. Our results reveal that BOSS achieves substantial gains in efficiency while maintaining competitive sample quality, effectively bridging the gap between low-resource constraints and the demanding requirements of flow-matching generative models. Our paper also fortifies the responsible development of artificial intelligence, offering a more sustainable generative model that reduces computational costs and environmental footprints. Our code can be found at https://anonymous.4open.science/r/DRL-8E88.
翻訳日:2023-12-29 19:41:42 公開日:2023-12-27
# VHRリモートセンシング画像における教師なし変化検出のためのセグメント変更モデル(SCM) : 建物を事例として

Segment Change Model (SCM) for Unsupervised Change detection in VHR Remote Sensing Images: a Case Study of Buildings ( http://arxiv.org/abs/2312.16410v1 )

ライセンス: Link先を確認
Xiaoliang Tan, Guanzhou Chen, Tong Wang, Jiaqi Wang, Xiaodong Zhang(参考訳) リモートセンシング(RS)の分野は、超高解像度(VHR)画像に変化検出(CD)を広く採用している。 既存のディープラーニングベースの手法のほとんどは、注釈付きサンプルにヒンジしてCDプロセスを完成させている。 近年、ビジョンファウンデーションモデル(VFM)の出現により、特定のビジョンタスクにおけるゼロショット予測が可能になった。 本研究では,Segment Anything Model (SAM) と Contrastive Language- Image Pre-training (CLIP) をベースとした,Segment Change Model (SCM) と呼ばれる教師なしCD手法を提案する。 本手法は,異なるスケールで抽出した特徴をトップダウン方式で統合し,識別的変化エッジを強化する。 さらに, 学習することなく意味表現を提供し, 擬似的変化現象を最小化できる, 革新的な区分的意味的注意(psa)スキームをデザインする。 2つの公開データセットの実験を行うことで、提案されたSCMは、mIoUを46.09%から53.67%に、WHU-CDデータセットでは47.56%から52.14%に増やした。 私たちのコードはhttps://github.com/StephenApX/UCD-SCMで利用可能です。

The field of Remote Sensing (RS) widely employs Change Detection (CD) on very-high-resolution (VHR) images. A majority of extant deep-learning-based methods hinge on annotated samples to complete the CD process. Recently, the emergence of Vision Foundation Model (VFM) enables zero-shot predictions in particular vision tasks. In this work, we propose an unsupervised CD method named Segment Change Model (SCM), built upon the Segment Anything Model (SAM) and Contrastive Language-Image Pre-training (CLIP). Our method recalibrates features extracted at different scales and integrates them in a top-down manner to enhance discriminative change edges. We further design an innovative Piecewise Semantic Attention (PSA) scheme, which can offer semantic representation without training, thereby minimize pseudo change phenomenon. Through conducting experiments on two public datasets, the proposed SCM increases the mIoU from 46.09% to 53.67% on the LEVIR-CD dataset, and from 47.56% to 52.14% on the WHU-CD dataset. Our codes are available at https://github.com/StephenApX/UCD-SCM.
翻訳日:2023-12-29 19:41:21 公開日:2023-12-27
# ロバストな半教師付き連続学習のための動的サブグラフ蒸留

Dynamic Sub-graph Distillation for Robust Semi-supervised Continual Learning ( http://arxiv.org/abs/2312.16409v1 )

ライセンス: Link先を確認
Yan Fan, Yu Wang, Pengfei Zhu, Qinghua Hu(参考訳) 連続学習(CL)は、有望な結果を示し、完全に教師された方法で一度に学習に匹敵する性能を示した。 しかし、CL戦略は一般的に多数のラベル付きサンプルを必要とするため、実際のデプロイは困難である。 本研究では,半教師付き連続学習(SSCL)に着目し,そのモデルが未知のカテゴリを持つ部分ラベル付きデータから徐々に学習する。 我々は,ssclの包括的解析を行い,ラベルのないデータの信頼できない分布が不安定なトレーニングと進行段階の洗練につながることを示す。 この問題はSSCLの性能に大きな影響を及ぼす。 そこで本研究では,半教師付き連続学習のための動的サブグラフ蒸留(dsgd)と呼ばれる新しい手法を提案する。 まず, 構造蒸留の一般モデルを定式化し, 連続的な学習の進行を図った動的グラフ構築を設計する。 次に,構造蒸留ベクトルを定義し,エンド・ツー・エンドのトレーニングとタスクのスケールアップ性を実現する動的サブグラフ蒸留アルゴリズムを設計する。 提案手法は,様々なCLメソッドや監視設定に適用可能である。 最後に,CIFAR10,CIFAR100,ImageNet-100の3つのデータセットで行った実験により,半教師付き連続学習シナリオにおける破滅的忘れ問題を軽減するための提案手法の有効性を示した。

Continual learning (CL) has shown promising results and comparable performance to learning at once in a fully supervised manner. However, CL strategies typically require a large number of labeled samples, making their real-life deployment challenging. In this work, we focus on semi-supervised continual learning (SSCL), where the model progressively learns from partially labeled data with unknown categories. We provide a comprehensive analysis of SSCL and demonstrate that unreliable distributions of unlabeled data lead to unstable training and refinement of the progressing stages. This problem severely impacts the performance of SSCL. To address the limitations, we propose a novel approach called Dynamic Sub-Graph Distillation (DSGD) for semi-supervised continual learning, which leverages both semantic and structural information to achieve more stable knowledge distillation on unlabeled data and exhibit robustness against distribution bias. Firstly, we formalize a general model of structural distillation and design a dynamic graph construction for the continual learning progress. Next, we define a structure distillation vector and design a dynamic sub-graph distillation algorithm, which enables end-to-end training and adaptability to scale up tasks. The entire proposed method is adaptable to various CL methods and supervision settings. Finally, experiments conducted on three datasets CIFAR10, CIFAR100, and ImageNet-100, with varying supervision ratios, demonstrate the effectiveness of our proposed approach in mitigating the catastrophic forgetting problem in semi-supervised continual learning scenarios.
翻訳日:2023-12-29 19:40:58 公開日:2023-12-27
# 空間相関時系列予測のための学習時間認識グラフ構造

Learning Time-aware Graph Structures for Spatially Correlated Time Series Forecasting ( http://arxiv.org/abs/2312.16403v1 )

ライセンス: Link先を確認
Minbo Ma, Jilin Hu, Christian S. Jensen, Fei Teng, Peng Han, Zhiqiang Xu, Tianrui Li(参考訳) 多くのサイバー物理システム(CPS)において,空間相関時系列の将来値の時空間予測が重要である。 近年の研究では、時系列間の潜在相関を捉えるグラフニューラルネットワークの利用が、予測の強化の可能性を持っていることが示されている。 しかし、既存のほとんどの手法は、静的または非意図的に動的であり、CPSの下位プロセスの規則性に起因する傾向や周期性を示す時間変化相関をモデル化できない、事前定義されたあるいは自己学習グラフに依存している。 このような制限に対処するために,高次元空間におけるノードと時間表現の相互作用を測定することで時系列間の時間認識相関を抽出する時間認識グラフ構造学習(TagSL)を提案する。 特に,距離に基づく正規化項を用いたコントラスト学習を用いて,学習空間相関をトレンド系列に制約する時間差学習を提案する。 さらに,ノードの状態から周期的な変化をキャプチャできる周期的判別関数を提案する。 次に,時間認識とノード固有パターンを学習しながら,時間的および時間的依存性を相互に捉えるグラフ畳み込み型ゲートリカレントユニット(gcgru)を提案する。 最後に、多段階時空間予測のためのエンコーダデコーダアーキテクチャにおいて、TagSLとGCGRUを組み合わせたTGCRN(Time-aware Graph Convolutional Recurrent Network)という統合フレームワークを導入する。 我々は,TGCRNによる実験と,5つの実世界のデータセットに対する一般的なアプローチについて報告する。 また,詳細なアブレーション研究と可視化分析を行い,時間認識構造学習の有効性について詳細な知見を得た。

Spatio-temporal forecasting of future values of spatially correlated time series is important across many cyber-physical systems (CPS). Recent studies offer evidence that the use of graph neural networks to capture latent correlations between time series holds a potential for enhanced forecasting. However, most existing methods rely on pre-defined or self-learning graphs, which are either static or unintentionally dynamic, and thus cannot model the time-varying correlations that exhibit trends and periodicities caused by the regularity of the underlying processes in CPS. To tackle such limitation, we propose Time-aware Graph Structure Learning (TagSL), which extracts time-aware correlations among time series by measuring the interaction of node and time representations in high-dimensional spaces. Notably, we introduce time discrepancy learning that utilizes contrastive learning with distance-based regularization terms to constrain learned spatial correlations to a trend sequence. Additionally, we propose a periodic discriminant function to enable the capture of periodic changes from the state of nodes. Next, we present a Graph Convolution-based Gated Recurrent Unit (GCGRU) that jointly captures spatial and temporal dependencies while learning time-aware and node-specific patterns. Finally, we introduce a unified framework named Time-aware Graph Convolutional Recurrent Network (TGCRN), combining TagSL, and GCGRU in an encoder-decoder architecture for multi-step spatio-temporal forecasting. We report on experiments with TGCRN and popular existing approaches on five real-world datasets, thus providing evidence that TGCRN is capable of advancing the state-of-the-art. We also cover a detailed ablation study and visualization analysis, offering detailed insight into the effectiveness of time-aware structure learning.
翻訳日:2023-12-29 19:40:34 公開日:2023-12-27
# 潜在拡散モデルに基づく自然敵パッチ生成法

Natural Adversarial Patch Generation Method Based on Latent Diffusion Model ( http://arxiv.org/abs/2312.16401v1 )

ライセンス: Link先を確認
Xianyi Chen and Fazhan Liu and Dong Jiang and Kai Yan(参考訳) 近年の研究では、ディープニューラルネットワークは敵の攻撃に対して脆弱であることを示しており、よく訓練されたサンプルやパッチは、ニューラルネットワーク検出器や人間の視覚知覚を騙すのに使うことができる。 しかし、これらの敵対的なパッチは目立ち、異常なパターンを持ち、カモフラージュがなく、現実世界で簡単に疑念を抱かせることができる。 この問題を解決するために,本研究では,Latent Diffusion Patch (LDP, Latent Diffusion Patch) と呼ばれる新たな逆パッチ手法を提案する。 次に、上記の特徴空間を用いて拡散モデルを訓練する。 最後に,画像復調技術を用いて,事前学習拡散モデルの潜時空間を探索する。 拡散モデルの強力な自然能力によってパッチやイメージを磨き、より人間の視覚系に受け入れられるようにします。 デジタル世界と物理世界の両方で実験の結果、LCDは効果的な攻撃能力を維持しつつも、視覚的主観性スコア87.3%を達成した。

Recently, some research show that deep neural networks are vulnerable to the adversarial attacks, the well-trainned samples or patches could be used to trick the neural network detector or human visual perception. However, these adversarial patches, with their conspicuous and unusual patterns, lack camouflage and can easily raise suspicion in the real world. To solve this problem, this paper proposed a novel adversarial patch method called the Latent Diffusion Patch (LDP), in which, a pretrained encoder is first designed to compress the natural images into a feature space with key characteristics. Then trains the diffusion model using the above feature space. Finally, explore the latent space of the pretrained diffusion model using the image denoising technology. It polishes the patches and images through the powerful natural abilities of diffusion models, making them more acceptable to the human visual system. Experimental results, both digital and physical worlds, show that LDPs achieve a visual subjectivity score of 87.3%, while still maintaining effective attack capabilities.
翻訳日:2023-12-29 19:39:52 公開日:2023-12-27
# Skippable Sub-Pathsを用いた適応深さネットワーク

Adaptive Depth Networks with Skippable Sub-Paths ( http://arxiv.org/abs/2312.16392v1 )

ライセンス: Link先を確認
Woochul Kang(参考訳) 実行時のネットワーク深さの系統的適応は、推論遅延を制御し、様々なデバイスのリソース条件を満たす効果的な方法である。 しかし、従来の奥行き適応型ネットワークは、なぜどの層をスキップできるかという一般的な原則や公式な説明を提供しておらず、それらのアプローチは一般化が困難であり、長く複雑な訓練手順を必要とする。 本稿では,適応深度ネットワークのためのアーキテクチャパターンとトレーニング手法を提案する。 提案手法では,各残差段階を異なる性質を持つ2つの連続部分パスに分割する。 最初のサブパスは階層的特徴学習に必須であるが、もう1つはスキップしても性能低下を最小限に抑えるよう最適化されている。 従来のアダプティブネットワークとは異なり、このアプローチは固定されたサブネットワークのセットを反復的に自己蒸留しないため、トレーニング時間が大幅に短縮される。 しかし、一度デバイスに展開すると、異なる深さのサブネットワークを構築し、単一のモデルで様々な精度と効率のトレードオフを提供することができる。 提案手法は,提案手法が選択したサブパスのスキップの影響を最小限に抑えつつ,全体的な予測誤差を低減できることを示す。 また,畳み込みニューラルネットワークと視覚トランスフォーマーの両方から,様々な残留ネットワークを用いたアプローチの汎用性と有効性を示す。

Systematic adaptation of network depths at runtime can be an effective way to control inference latency and meet the resource condition of various devices. However, previous depth adaptive networks do not provide general principles and a formal explanation on why and which layers can be skipped, and, hence, their approaches are hard to be generalized and require long and complex training steps. In this paper, we present an architectural pattern and training method for adaptive depth networks that can provide flexible accuracy-efficiency trade-offs in a single network. In our approach, every residual stage is divided into 2 consecutive sub-paths with different properties. While the first sub-path is mandatory for hierarchical feature learning, the other is optimized to incur minimal performance degradation even if it is skipped. Unlike previous adaptive networks, our approach does not iteratively self-distill a fixed set of sub-networks, resulting in significantly shorter training time. However, once deployed on devices, it can instantly construct sub-networks of varying depths to provide various accuracy-efficiency trade-offs in a single model. We provide a formal rationale for why the proposed architectural pattern and training method can reduce overall prediction errors while minimizing the impact of skipping selected sub-paths. We also demonstrate the generality and effectiveness of our approach with various residual networks, both from convolutional neural networks and vision transformers.
翻訳日:2023-12-29 19:39:21 公開日:2023-12-27
# 極端に監督された時間的ビデオグラウンドにおける多様なイベントをキャプチャするためのプルプッシュ学習方式によるガウス混合の提案

Gaussian Mixture Proposals with Pull-Push Learning Scheme to Capture Diverse Events for Weakly Supervised Temporal Video Grounding ( http://arxiv.org/abs/2312.16388v1 )

ライセンス: Link先を確認
Sunoh Kim, Jungchan Cho, Joonsang Yu, YoungJoon Yoo, Jin Young Choi(参考訳) 弱教師付き時間的ビデオグラウンドング研究では、従来の手法では、文クエリによって記述された多様なイベントを表現する能力のない、所定の単一のガウス的提案を用いる。 提案の表現能力を高めるために, 混合中のガウスの重要度, 遠心性, 範囲を学習することで任意の形状を表現できるガウス混合提案 (gmp) を提案する。 GMPの学習において、各ガウスは特徴空間で訓練されるのではなく、時間的位置で実装される。 したがって,ガウス混合モデルの従来の特徴ベース学習は有効ではない。 本稿では,多種多様な事象を収集するガウス混合を適度に結合した学習を行うために,損失の引き抜きと押し込みを用いたプルプッシュ学習方式を提案する。 本手法における成分の影響を広範囲なアブレーション研究により詳細に検証し,その総合的な評価結果を得た。 私たちのコードはhttps://github.com/sunoh-kim/ppsで利用可能です。

In the weakly supervised temporal video grounding study, previous methods use predetermined single Gaussian proposals which lack the ability to express diverse events described by the sentence query. To enhance the expression ability of a proposal, we propose a Gaussian mixture proposal (GMP) that can depict arbitrary shapes by learning importance, centroid, and range of every Gaussian in the mixture. In learning GMP, each Gaussian is not trained in a feature space but is implemented over a temporal location. Thus the conventional feature-based learning for Gaussian mixture model is not valid for our case. In our special setting, to learn moderately coupled Gaussian mixture capturing diverse events, we newly propose a pull-push learning scheme using pulling and pushing losses, each of which plays an opposite role to the other. The effects of components in our scheme are verified in-depth with extensive ablation studies and the overall scheme achieves state-of-the-art performance. Our code is available at https://github.com/sunoh-kim/pps.
翻訳日:2023-12-29 19:38:39 公開日:2023-12-27
# フレームレベルの感情状態アライメント法による音声認識

Frame-level emotional state alignment method for speech emotion recognition ( http://arxiv.org/abs/2312.16383v1 )

ライセンス: Link先を確認
Qifei Li, Yingming Gao, Cong Wang, Yayue Deng, Jinlong Xue, Yichen Han, Ya Li(参考訳) 音声感情認識(ser)システムは、人間とコンピュータの対話中に人間の感情状態を認識することを目的としている。 既存のサーシステムは発話レベルラベルに基づいて訓練されている。 しかし、音声中の全てのフレームが発話レベルラベルと一致した感情状態を持つわけではないため、モデルが音声の真の感情を識別し、パフォーマンスを損なうことが困難である。 そこで本研究では,serのフレームレベル感情状態アライメント手法を提案する。 まず,タスク適応事前学習(TAPT)法によるSERシステムを取得し,その変換器層から埋め込みを抽出し,クラスタリングによるフレームレベルの擬似感情ラベルを生成する。 次に、擬似ラベルを使用して、HuBERTをプリトレーニングする。 したがって、HuBERTの各フレーム出力は対応する感情情報を有する。 最後に、上面に注意層を追加することで、上記の事前学習されたhubert for serを微調整し、発話レベルのラベルと感情的に一貫性のあるフレームのみに焦点を当てます。 IEMOCAPで行った実験結果から,提案手法は最先端(SOTA)法よりも優れた性能を示した。

Speech emotion recognition (SER) systems aim to recognize human emotional state during human-computer interaction. Most existing SER systems are trained based on utterance-level labels. However, not all frames in an audio have affective states consistent with utterance-level label, which makes it difficult for the model to distinguish the true emotion of the audio and perform poorly. To address this problem, we propose a frame-level emotional state alignment method for SER. First, we fine-tune HuBERT model to obtain a SER system with task-adaptive pretraining (TAPT) method, and extract embeddings from its transformer layers to form frame-level pseudo-emotion labels with clustering. Then, the pseudo labels are used to pretrain HuBERT. Hence, the each frame output of HuBERT has corresponding emotional information. Finally, we fine-tune the above pretrained HuBERT for SER by adding an attention layer on the top of it, which can focus only on those frames that are emotionally more consistent with utterance-level label. The experimental results performed on IEMOCAP indicate that our proposed method performs better than state-of-the-art (SOTA) methods.
翻訳日:2023-12-29 19:37:29 公開日:2023-12-27
# 量子機械学習による太陽光発電電力予測

Photovoltaic power forecasting using quantum machine learning ( http://arxiv.org/abs/2312.16379v1 )

ライセンス: Link先を確認
Asel Sagingalieva, Stefan Komornyik, Arsenii Senokosov, Ayush Joshi, Alexander Sedykh, Christopher Mansell, Olga Tsurkan, Karan Pinto, Markus Pflitsch, and Alexey Melnikov(参考訳) ソーラーパネル出力の予測はエネルギー遷移の進行に不可欠であるが、太陽エネルギーの可変性と非線形性によって複雑である。 これは多くの気象要因、地理的位置決め、太陽電池の性質に影響され、精度とグリッド安定性の予測に重大な課題がある。 本研究は、これらの複雑性に対処するために設計されたハイブリッド量子ニューラルネットワークを中心とした一連のソリューションを提案する。 最初のモデルであるハイブリッド量子長短期記憶は、テストされた全てのモデルよりも40%低い絶対値と平均二乗誤差で上回っている。 2つ目の提案されたモデルであるHybrid Quantum Sequence-to-Sequence Neural Networkは、任意の時間間隔の平均絶対誤差を16%低く予測し、それ以前の気象データを必要としない。 さらに、私たちのハイブリッドモデルは、限られたデータセットでトレーニングしてもパフォーマンスが向上します。 これらの結果は、ハイブリッド量子モデルによるエネルギーパワー予測における時系列予測課題の解決への取り組みであり、再生可能エネルギー遷移を触媒する量子機械学習の変換ポテンシャルを示している。

Predicting solar panel power output is crucial for advancing the energy transition but is complicated by the variable and non-linear nature of solar energy. This is influenced by numerous meteorological factors, geographical positioning, and photovoltaic cell properties, posing significant challenges to forecasting accuracy and grid stability. Our study introduces a suite of solutions centered around hybrid quantum neural networks designed to tackle these complexities. The first proposed model, the Hybrid Quantum Long Short-Term Memory, surpasses all tested models by over 40% lower mean absolute and mean squared errors. The second proposed model, Hybrid Quantum Sequence-to-Sequence neural network, once trained, predicts photovoltaic power with 16% lower mean absolute error for arbitrary time intervals without the need for prior meteorological data, highlighting its versatility. Moreover, our hybrid models perform better even when trained on limited datasets, underlining their potential utility in data-scarce scenarios. These findings represent a stride towards resolving time series prediction challenges in energy power forecasting through hybrid quantum models, showcasing the transformative potential of quantum machine learning in catalyzing the renewable energy transition.
翻訳日:2023-12-29 19:36:57 公開日:2023-12-27
# LLMを用いたコンテンツ中心認知エージェントの知識獲得の自動化

Automating Knowledge Acquisition for Content-Centric Cognitive Agents Using LLMs ( http://arxiv.org/abs/2312.16378v1 )

ライセンス: Link先を確認
Sanjay Oruganti, Sergei Nirenburg, Jesse English, Marjorie McShane(参考訳) 本稿では,大規模言語モデル(LLM)技術を用いて,知的エージェントのセマンティック辞書における新たなエントリの自動学習を支援するシステムについて述べる。 このプロセスは、既存の非トイレキシコンと自然言語生成器によってブートストラップされ、形式的で存在論的に接地した意味の表現を自然言語文に変換する。 学習方法は、LCM要求のシーケンスを含み、自動品質制御ステップを含む。 この学習方法は, エージェントの語彙において, 移動動詞に相当する意味を持つ多語表現の学習に応用されている。 この実験は、知識に基づく手法とリソースを従来のデータ分析とLLMの両方に統合するハイブリッド学習アーキテクチャの利点を実証する。

The paper describes a system that uses large language model (LLM) technology to support the automatic learning of new entries in an intelligent agent's semantic lexicon. The process is bootstrapped by an existing non-toy lexicon and a natural language generator that converts formal, ontologically-grounded representations of meaning into natural language sentences. The learning method involves a sequence of LLM requests and includes an automatic quality control step. To date, this learning method has been applied to learning multiword expressions whose meanings are equivalent to those of transitive verbs in the agent's lexicon. The experiment demonstrates the benefits of a hybrid learning architecture that integrates knowledge-based methods and resources with both traditional data analytics and LLMs.
翻訳日:2023-12-29 19:36:36 公開日:2023-12-27
# GANを用いた映像強調のための超解像の検討

A Survey on Super Resolution for video Enhancement Using GAN ( http://arxiv.org/abs/2312.16471v1 )

ライセンス: Link先を確認
Ankush Maity, Roshan Pious, Sourabh Kumar Lenka, Vishal Choudhary and Prof.Sharyau Lokande(参考訳) 様々な研究論文のハイライトをまとめて、ジェネレーティブ・アドバイサル・ネットワークのようなディープラーニングアルゴリズムを用いた超高解像度画像とビデオの最近の展開を概観する。 これらの要約で取り上げられた研究は、ビデオ超解像における再帰学習、新規損失関数、フレームレート向上、アテンションモデル統合といった、画像と映像品質を改善するための新しい手法を提供する。 これらの手法はPSNR、SSIM、知覚指標などの基準を用いて頻繁に評価される。 これらの進歩は、低解像度ビデオの視覚的明快さと品質を高めることを目的としており、監視技術から医用画像まで様々な分野で大きな可能性を秘めている。 さらに、このコレクションは、生成的敵ネットワークの幅広い分野に展開し、その原則、トレーニングアプローチ、および幅広いドメインにわたる応用を探求するとともに、この急速に進化し変化する人工知能分野における今後の研究の課題と機会を強調している。

This compilation of various research paper highlights provides a comprehensive overview of recent developments in super-resolution image and video using deep learning algorithms such as Generative Adversarial Networks. The studies covered in these summaries provide fresh techniques to addressing the issues of improving image and video quality, such as recursive learning for video super-resolution, novel loss functions, frame-rate enhancement, and attention model integration. These approaches are frequently evaluated using criteria such as PSNR, SSIM, and perceptual indices. These advancements, which aim to increase the visual clarity and quality of low-resolution video, have tremendous potential in a variety of sectors ranging from surveillance technology to medical imaging. In addition, this collection delves into the wider field of Generative Adversarial Networks, exploring their principles, training approaches, and applications across a broad range of domains, while also emphasizing the challenges and opportunities for future research in this rapidly advancing and changing field of artificial intelligence.
翻訳日:2023-12-29 19:29:46 公開日:2023-12-27
# resynthdetect: 再構成と合成機能を備えた眼底異常検出ネットワーク

ReSynthDetect: A Fundus Anomaly Detection Network with Reconstruction and Synthetic Features ( http://arxiv.org/abs/2312.16470v1 )

ライセンス: Link先を確認
Jingqi Niu, Qinji Yu, Shiwen Dong, Zilong Wang, Kang Dang and Xiaowei Ding(参考訳) 正常組織と異常組織との類似性、およびその不明瞭な境界により、教師なしの方法による根底画像の異常の検出は難しい課題である。 現在の手法では、偽陽性を避けながら微妙な異常を正確に検出する制限がある。 これらの課題に対処するために,正規画像のモデル化にレコンストラクションネットワークを利用するresynthdetect networkと,基底画像の出現と一致する合成異常を生成するアノマリージェネレータを提案する。 本手法は,一貫した異常発生と画像再構成の特徴を組み合わせることで,眼底異常の検出に適している。 提案手法はEyeQやIDRiDといったベンチマークデータセットで広くテストされており、画像レベルと画素レベルの異常検出の両方で最先端のパフォーマンスが実証されている。 実験の結果,EyeQではAUROCが9%改善し,IDRiDではAUPRが17.1%改善した。

Detecting anomalies in fundus images through unsupervised methods is a challenging task due to the similarity between normal and abnormal tissues, as well as their indistinct boundaries. The current methods have limitations in accurately detecting subtle anomalies while avoiding false positives. To address these challenges, we propose the ReSynthDetect network which utilizes a reconstruction network for modeling normal images, and an anomaly generator that produces synthetic anomalies consistent with the appearance of fundus images. By combining the features of consistent anomaly generation and image reconstruction, our method is suited for detecting fundus abnormalities. The proposed approach has been extensively tested on benchmark datasets such as EyeQ and IDRiD, demonstrating state-of-the-art performance in both image-level and pixel-level anomaly detection. Our experiments indicate a substantial 9% improvement in AUROC on EyeQ and a significant 17.1% improvement in AUPR on IDRiD.
翻訳日:2023-12-29 19:29:29 公開日:2023-12-27
# 一般化カテゴリー発見のための転送とアライメントネットワーク

Transfer and Alignment Network for Generalized Category Discovery ( http://arxiv.org/abs/2312.16467v1 )

ライセンス: Link先を確認
Wenbin An, Feng Tian, Wenkai Shi, Yan Chen, Yaqiang Wu, Qianying Wang, Ping Chen(参考訳) 一般カテゴリー発見は重要な現実世界の課題である。 既知のカテゴリのパフォーマンスが向上したにもかかわらず、現在の手法は新しいカテゴリでは性能が良くない。 ラベル付きデータとラベルなしデータの間の偏りのある知識伝達とラベルなしデータに対するノイズの多い表現学習である。 そこで本研究では,バイアスド知識を校正するための2つの知識伝達機構と,識別的特徴を学習するための2つの特徴アライメント機構を組み込んだトランスファー・アライメント・ネットワーク(tan)を提案する。 具体的には、プロトタイプを用いて異なるカテゴリをモデル化し、ラベル付きデータのプロトタイプを既知のカテゴリに対するモデルバイアスを補正するために転送する。 一方、ラベルのないデータの既知のカテゴリのインスタンスをこれらのプロトタイプに近づけて、よりコンパクトなクラスタを形成し、既知のカテゴリと新しいカテゴリの境界重なりを避ける。 一方,これらのプロトタイプは,カテゴリの類似性に基づく未ラベルデータから推定される雑音のあるプロトタイプの校正に利用されており,後から信頼性の高い学習ターゲットとして使用できる新しいカテゴリのプロトタイプをより正確に評価することができる。 知識伝達の後,拡張された機能とキャリブレーションされたプロトタイプの両方にインスタンスの特徴を整合させることにより,非ラベルデータからインスタンスレベルとカテゴリレベルの知識を取得するための2つの機能アライメント機構を提案する。 3つのベンチマークデータセットの実験により、我々のモデルはSOTA法、特に新しいカテゴリよりも優れていることが示された。 理論解析は、我々のモデル全般の詳細な理解のために提供される。 コードとデータはhttps://github.com/lackel/tan.comから入手できます。

Generalized Category Discovery is a crucial real-world task. Despite the improved performance on known categories, current methods perform poorly on novel categories. We attribute the poor performance to two reasons: biased knowledge transfer between labeled and unlabeled data and noisy representation learning on the unlabeled data. To mitigate these two issues, we propose a Transfer and Alignment Network (TAN), which incorporates two knowledge transfer mechanisms to calibrate the biased knowledge and two feature alignment mechanisms to learn discriminative features. Specifically, we model different categories with prototypes and transfer the prototypes in labeled data to correct model bias towards known categories. On the one hand, we pull instances with known categories in unlabeled data closer to these prototypes to form more compact clusters and avoid boundary overlap between known and novel categories. On the other hand, we use these prototypes to calibrate noisy prototypes estimated from unlabeled data based on category similarities, which allows for more accurate estimation of prototypes for novel categories that can be used as reliable learning targets later. After knowledge transfer, we further propose two feature alignment mechanisms to acquire both instance- and category-level knowledge from unlabeled data by aligning instance features with both augmented features and the calibrated prototypes, which can boost model performance on both known and novel categories with less noise. Experiments on three benchmark datasets show that our model outperforms SOTA methods, especially on novel categories. Theoretical analysis is provided for an in-depth understanding of our model in general. Our code and data are available at https://github.com/Lackel/TAN.
翻訳日:2023-12-29 19:29:12 公開日:2023-12-27
# City-on-Web: Web上の大規模シーンのリアルタイムニューラルレンダリング

City-on-Web: Real-time Neural Rendering of Large-scale Scenes on the Web ( http://arxiv.org/abs/2312.16457v1 )

ライセンス: Link先を確認
Kaiwen Song, Juyong Zhang(参考訳) NeRFは、様々な環境にまたがる複雑な詳細を捉えながら、3Dシーンの大幅な再構築を行っている。 既存の方法は、小さなシーンのリアルタイムレンダリングを容易にするために、レイディアンスフィールドベーキングをうまく活用している。 しかしながら、大規模なシーンに適用すると、計算、メモリ、帯域幅の制限により、シームレスなリアルタイムエクスペリエンスの提供に苦慮するなど、これらのテクニックは大きな課題に直面する。 そこで,本稿では,各シーンをそれぞれ独自のレベル・オブ・ディテールを持つ管理可能なブロックに分割し,高忠実性,効率的なメモリ管理,高速なレンダリングを実現し,シーン全体を表現したcity-on-webを提案する。 一方、Web上の最終的なレンダリング結果がトレーニングと一致するように、トレーニングおよび推論プロセスを慎重に設計する。 資源制約のある環境で大規模シーンのリアルタイムレンダリングを初めて実現したのは,我々の新しい表現と,慎重に設計されたトレーニング/推論プロセスのおかげです。 RTX 3060 GPU で 1080P 解像度で 32FPS を達成し,また最先端の手法と密に競合する品質を実現し,Web プラットフォーム上での大規模シーンのリアルタイムレンダリングを容易にすることを実証した。 プロジェクトページ: https://ustc3dv.github.io/City-on-Web/

NeRF has significantly advanced 3D scene reconstruction, capturing intricate details across various environments. Existing methods have successfully leveraged radiance field baking to facilitate real-time rendering of small scenes. However, when applied to large-scale scenes, these techniques encounter significant challenges, struggling to provide a seamless real-time experience due to limited resources in computation, memory, and bandwidth. In this paper, we propose City-on-Web, which represents the whole scene by partitioning it into manageable blocks, each with its own Level-of-Detail, ensuring high fidelity, efficient memory management and fast rendering. Meanwhile, we carefully design the training and inference process such that the final rendering result on web is consistent with training. Thanks to our novel representation and carefully designed training/inference process, we are the first to achieve real-time rendering of large-scale scenes in resource-constrained environments. Extensive experimental results demonstrate that our method facilitates real-time rendering of large-scale scenes on a web platform, achieving 32FPS at 1080P resolution with an RTX 3060 GPU, while simultaneously achieving a quality that closely rivals that of state-of-the-art methods. Project page: https://ustc3dv.github.io/City-on-Web/
翻訳日:2023-12-29 19:28:44 公開日:2023-12-27
# 深部強化学習のための適応軌道制約探索戦略

Adaptive trajectory-constrained exploration strategy for deep reinforcement learning ( http://arxiv.org/abs/2312.16456v1 )

ライセンス: Link先を確認
Guojian Wang, Faguo Wu, Xiao Zhang, Ning Guo, Zhiming Zheng(参考訳) 深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で大きな課題に直面している。 これらの課題はDRLの実用化を著しく制限した。 以前の調査手法のほとんどは、状態の新規性を推定するために複雑なアーキテクチャに依存していた。 この問題を軽減するため,drlの適応軌道拘束型探索手法を提案する。 提案手法は,不完全なオフラインデモを参照として活用することにより,エージェントのポリシーを最適化ソリューションから遠ざけている。 このアプローチはエージェントの探索範囲を徐々に拡大し、制約付き最適化方式で最適性を求める。 さらに,シングルエージェントとマルチエージェントの強化学習に適応的にクリッピングされた軌道距離報酬を利用する新しいポリシ勾配に基づく最適化アルゴリズムを提案する。 本稿では,最悪の近似誤差境界の導出を含む手法の理論的解析を行い,探索を強化するためのアプローチの有効性を強調した。 提案手法の有効性を評価するため,2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクの実験を行った。 広範に実験した結果, 時間的に拡張された探索と, 単一エージェントとマルチエージェントの両方において, 近視的, 準最適動作を回避できる重要な利点が示された。 特に、特定の測定値と定量化結果がこれらの発見をさらに支持している。 この研究で使用されたコードは \url{https://github.com/buaawgj/tace} で入手できる。

Deep reinforcement learning (DRL) faces significant challenges in addressing the hard-exploration problems in tasks with sparse or deceptive rewards and large state spaces. These challenges severely limit the practical application of DRL. Most previous exploration methods relied on complex architectures to estimate state novelty or introduced sensitive hyperparameters, resulting in instability. To mitigate these issues, we propose an efficient adaptive trajectory-constrained exploration strategy for DRL. The proposed method guides the policy of the agent away from suboptimal solutions by leveraging incomplete offline demonstrations as references. This approach gradually expands the exploration scope of the agent and strives for optimality in a constrained optimization manner. Additionally, we introduce a novel policy-gradient-based optimization algorithm that utilizes adaptively clipped trajectory-distance rewards for both single- and multi-agent reinforcement learning. We provide a theoretical analysis of our method, including a deduction of the worst-case approximation error bounds, highlighting the validity of our approach for enhancing exploration. To evaluate the effectiveness of the proposed method, we conducted experiments on two large 2D grid world mazes and several MuJoCo tasks. The extensive experimental results demonstrate the significant advantages of our method in achieving temporally extended exploration and avoiding myopic and suboptimal behaviors in both single- and multi-agent settings. Notably, the specific metrics and quantifiable results further support these findings. The code used in the study is available at \url{https://github.com/buaawgj/TACE}.
翻訳日:2023-12-29 19:28:20 公開日:2023-12-27
# 超解像の指向性から学ぶ:指向性演算子変換器

Learn From Orientation Prior for Radiograph Super-Resolution: Orientation Operator Transformer ( http://arxiv.org/abs/2312.16455v1 )

ライセンス: Link先を確認
Yongsong Huang, Tomo Miyazaki, Xiaofeng Liu, Kaiyuan Jiang, Zhengmi Tang, Shinichiro Omachi(参考訳) 背景と目的:高分解能画像は骨格筋疾患の早期診断と治療において重要な役割を果たす。 放射線画像場に単一画像超解像(SISR)モデルを導入することにより,画質の向上が期待できる。 しかし、色空間と画素間パターンからSRとdenoisingの混合マッピングを学習できる従来の画像パイプラインは、限られたパターン特徴を持つX線画像に対して特別な課題を生んでいる。 この問題に対処するため,本稿では,Orientation Operator Transformer - $O^{2}$formerという新しいアプローチを提案する。 メソッド: エンコーダに向き付け演算子を組み込んで、マッピングの感度を高め、向き付けを事前に統合します。 さらに,向きの異なる受容場でキャプチャされた特徴を,より効果的なデコーダの潜在表現にするために,マルチスケール特徴融合戦略を提案する。 これらのイノベーティブなコンポーネントに基づいて,放射線画像専用に設計された変圧器ベースのsisrモデル,すなわち$o^{2}$formerを提案する。 結果: 本手法は,$\times 4$ upsampling factorの競合と比較して, 客観的指標において, 最高または2番目に優れた性能が得られることを示す。 定性的には、より客観的な詳細が復元される。 結論: 本研究は, 方向演算子とマルチスケール特徴融合戦略を導入することで, 再構成モデルの性能を向上させる放射線画像超解像タスクのための $o^{2}$former という新しい枠組みを提案する。 我々のアプローチは、X線画像強調分野のさらなる推進を約束する。

Background and objective: High-resolution radiographic images play a pivotal role in the early diagnosis and treatment of skeletal muscle-related diseases. It is promising to enhance image quality by introducing single-image super-resolution (SISR) model into the radiology image field. However, the conventional image pipeline, which can learn a mixed mapping between SR and denoising from the color space and inter-pixel patterns, poses a particular challenge for radiographic images with limited pattern features. To address this issue, this paper introduces a novel approach: Orientation Operator Transformer - $O^{2}$former. Methods: We incorporate an orientation operator in the encoder to enhance sensitivity to denoising mapping and to integrate orientation prior. Furthermore, we propose a multi-scale feature fusion strategy to amalgamate features captured by different receptive fields with the directional prior, thereby providing a more effective latent representation for the decoder. Based on these innovative components, we propose a transformer-based SISR model, i.e., $O^{2}$former, specifically designed for radiographic images. Results: The experimental results demonstrate that our method achieves the best or second-best performance in the objective metrics compared with the competitors at $\times 4$ upsampling factor. For qualitative, more objective details are observed to be recovered. Conclusions: In this study, we propose a novel framework called $O^{2}$former for radiological image super-resolution tasks, which improves the reconstruction model's performance by introducing an orientation operator and multi-scale feature fusion strategy. Our approach is promising to further promote the radiographic image enhancement field.
翻訳日:2023-12-29 19:27:56 公開日:2023-12-27
# Feynman-Vernon のリンドブレディアン

A Lindbladian From Feynman-Vernon ( http://arxiv.org/abs/2312.16454v1 )

ライセンス: Link先を確認
Jose A. Magpantay(参考訳) 1)密度行列に対するフォン・ノイマン方程式の置換(LGKS)と(2)自由度を積分して系の密度行列に到達するファインマン-ヴァーノン経路積分微分(Feynman-Vernon path-integral derivation)である。 本稿では,従来Feynman and Vernon (FV) が検討し,後に Caldeira and Leggett (CL) が提唱した調和振動子の浴と相互作用する点粒子であるリンドブラディアンを機械的な例で導出した2つの手法を結合する。 しかし、(FV)/(CL) は非マルコフ効果、つまりバス相互作用によるメモリの項のみをもたらす。 リンドブラジアンを導出するため、私はバス調和振動子と相互作用する点粒子を考慮に入れるべき相互作用項をより現実的なものに変えた。 密度行列に対する系のプロパゲータの経路積分式から、リンドブラディアン項と非マルコフ項は、この単純な問題に対して読まれる。 また、これらの項の原因として、点粒子と調和振動子の古典解との局所的相互作用と、点粒子と古典解のゆらぎとの大域的相互作用からの非マルコフ項が指摘される。

The effective dynamics of a system interacting with a bath or environment is presented in two ways, (1) the (LGKS) replacement of the von Neuman equation for the density matrix and (2) the Feynman-Vernon path-integral derivation, by integrating out the bath degree of freedom, to arrive at a system's density matrix. In this paper, I connect the two methods by deriving a Lindbladian in a mechanical example, a point particle interacting with a bath of harmonic oscillators, previously considered by Feynman and Vernon (FV) and expounded on later by Caldeira and Leggett (CL). But the (FV)/(CL) results only in non-Markov effect, memory terms from the bath interaction. To derive a Lindbladian, I changed the interaction term they considered to take into account the point particle interacting with the bath harmonic oscillators to something more realistic. From the resulting path-integral expression of the system's propagator for the density matrix, the Lindbladian and non-Markov terms are read for this simple problem. I also point out the causes of these terms, the Markov Lindbladian from the very local interaction of the point particle with the classical solutions of the harmonic oscillator and the non-Markov term from the global interaction of the point particle with the fluctuation of the classical solutions.
翻訳日:2023-12-29 19:27:28 公開日:2023-12-27
# Vital Phase Augmentationによるドメインの一般化

Domain Generalization with Vital Phase Augmentation ( http://arxiv.org/abs/2312.16451v1 )

ライセンス: Link先を確認
Ingyun Lee, Wooju Lee, Hyun Myung(参考訳) ディープニューラルネットワークは画像分類において顕著な性能を示している。 しかし, 入力データの劣化により性能は著しく低下した。 分散データに対するロバストモデルをトレーニングするためにドメイン一般化法が提案されている。 周波数領域におけるデータ拡張は、モデルが位相特徴を学習してドメイン不変表現を確立することを可能にするアプローチの1つである。 このアプローチは、位相を保ちながら入力データの振幅を変化させる。 しかしながら、固定位相を用いると、振幅と位相の変動が分布外に存在するため、位相変動への感受性が生じる。 本研究では,この問題を解決するために,固定位相の維持よりも入力データの位相の有限変化を用いた手法を提案する。 ドメイン不変特徴の程度が各位相ごとに異なるという仮定に基づき、この次数に基づいて位相を識別する手法を提案する。 さらに, 与えられた位相の領域不変特性の度合いに応じて, 位相に異なる変化を施す「バイタル位相拡張法(VIPAug)」を提案する。 このモデルは、振幅と位相変動に対する堅牢性を達成するために、よりドメイン不変の特徴を含む必要不可欠な位相に依存する。 本研究では, クリーンデータと破損データの両方の性能向上を示す提案手法を実験的に評価した。 VIPAug は、ベンチマーク CIFAR-10 と CIFAR-100 のデータセットで SOTA のパフォーマンス、ImageNet-100 と ImageNet のデータセットで SOTA に近いパフォーマンスを達成した。 私たちのコードはhttps://github.com/excitedkid/vipaugで入手できる。

Deep neural networks have shown remarkable performance in image classification. However, their performance significantly deteriorates with corrupted input data. Domain generalization methods have been proposed to train robust models against out-of-distribution data. Data augmentation in the frequency domain is one of such approaches that enable a model to learn phase features to establish domain-invariant representations. This approach changes the amplitudes of the input data while preserving the phases. However, using fixed phases leads to susceptibility to phase fluctuations because amplitudes and phase fluctuations commonly occur in out-of-distribution. In this study, to address this problem, we introduce an approach using finite variation of the phases of input data rather than maintaining fixed phases. Based on the assumption that the degree of domain-invariant features varies for each phase, we propose a method to distinguish phases based on this degree. In addition, we propose a method called vital phase augmentation (VIPAug) that applies the variation to the phases differently according to the degree of domain-invariant features of given phases. The model depends more on the vital phases that contain more domain-invariant features for attaining robustness to amplitude and phase fluctuations. We present experimental evaluations of our proposed approach, which exhibited improved performance for both clean and corrupted data. VIPAug achieved SOTA performance on the benchmark CIFAR-10 and CIFAR-100 datasets, as well as near-SOTA performance on the ImageNet-100 and ImageNet datasets. Our code is available at https://github.com/excitedkid/vipaug.
翻訳日:2023-12-29 19:27:03 公開日:2023-12-27
# fcdnet:多変量時系列予測のための周波数誘導相補依存モデリング

FCDNet: Frequency-Guided Complementary Dependency Modeling for Multivariate Time-Series Forecasting ( http://arxiv.org/abs/2312.16450v1 )

ライセンス: Link先を確認
Weijun Chen, Heyuan Wang, Ye Tian, Shijie Guan, Ning Liu(参考訳) 多変量時系列予測(MTS)は多くの実世界の非定常動的シナリオにおいて難しい課題である。 時系列内信号に加えて、系列間依存性は将来のトレンドを形成する上でも重要な役割を果たしている。 モデルが依存情報を認識できるようにする方法は、かなりの研究の注目を集めている。 以前のアプローチでは、ドメイン知識に基づく依存性の制約を前提とするか、リアルタイムの機能類似性を使ってそれらを強制していた。 しかし、MSSデータは長期の静的な関係と一時的な短期的な相互作用の両方を示し、両者の進化状態に相互に影響を及ぼす。 より正確なMSS予測のために、補完的な依存関係を認識し、組み込む必要がある。 時系列の周波数情報は複雑な時間力学の背後にある進化的規則を反映しており、異なる周波数成分は変数間の長期および短期の相互依存構造をうまく構築するのに使うことができる。 そこで本研究では,多変量時系列予測のための簡潔かつ効果的なフレームワークであるFCDNetを提案する。 具体的には、FCDNetは2つの軽量依存コンストラクタを適用し、多レベル周波数パターンから長期および短期依存情報を適応的に抽出する。 入力変数の増加に伴い、FCDNetのトレーニング可能なパラメータの数は線形的に増加し、モデルのスケーラビリティに寄与し、過度な適合を避けることができる。 さらに、周波数ベースの視点を採用することで、mtsデータ内のノイズの影響を効果的に軽減することができる。 複数のフィールドから得られた6つの実世界のデータセット実験の結果、FCDNetは強いベースラインをはるかに上回り、MAEは6.82%、RMSEは4.98%、MAPEは4.91%改善した。

Multivariate time-series (MTS) forecasting is a challenging task in many real-world non-stationary dynamic scenarios. In addition to intra-series temporal signals, the inter-series dependency also plays a crucial role in shaping future trends. How to enable the model's awareness of dependency information has raised substantial research attention. Previous approaches have either presupposed dependency constraints based on domain knowledge or imposed them using real-time feature similarity. However, MTS data often exhibit both enduring long-term static relationships and transient short-term interactions, which mutually influence their evolving states. It is necessary to recognize and incorporate the complementary dependencies for more accurate MTS prediction. The frequency information in time series reflects the evolutionary rules behind complex temporal dynamics, and different frequency components can be used to well construct long-term and short-term interactive dependency structures between variables. To this end, we propose FCDNet, a concise yet effective framework for multivariate time-series forecasting. Specifically, FCDNet overcomes the above limitations by applying two light-weight dependency constructors to help extract long- and short-term dependency information adaptively from multi-level frequency patterns. With the growth of input variables, the number of trainable parameters in FCDNet only increases linearly, which is conducive to the model's scalability and avoids over-fitting. Additionally, adopting a frequency-based perspective can effectively mitigate the influence of noise within MTS data, which helps capture more genuine dependencies. The experimental results on six real-world datasets from multiple fields show that FCDNet significantly exceeds strong baselines, with an average improvement of 6.82% on MAE, 4.98% on RMSE, and 4.91% on MAPE.
翻訳日:2023-12-29 19:26:39 公開日:2023-12-27
# 最適ポートフォリオ選択におけるランダム化署名手法

Randomized Signature Methods in Optimal Portfolio Selection ( http://arxiv.org/abs/2312.16448v1 )

ライセンス: Link先を確認
Erdinc Akyildirim, Matteo Gambara, Josef Teichmann, Syang Zhou(参考訳) 多変量金融市場における非線形非パラメトリックドリフト推定に対するランダム化署名法の適用に関する実証的な結果を示す。 ドリフト推定は、小さな信号とノイズ比のために定義されていることで悪名高いが、ポートフォリオ最適化のためにデータから将来のリターンへの最適な非線形写像を学習しようとすることができる。 古典的なシグネチャとは対照的にランダム化されたシグネチャは、高次元の市場次元を可能にし、同じスケールの機能を提供する。 ここではランダム化署名の理論に貢献するのではなく、実際の市場データや取引コストを含む現実の環境でのポートフォリオ選択に関する実証的な知見を提示する。

We present convincing empirical results on the application of Randomized Signature Methods for non-linear, non-parametric drift estimation for a multi-variate financial market. Even though drift estimation is notoriously ill defined due to small signal to noise ratio, one can still try to learn optimal non-linear maps from data to future returns for the purposes of portfolio optimization. Randomized Signatures, in contrast to classical signatures, allow for high dimensional market dimension and provide features on the same scale. We do not contribute to the theory of Randomized Signatures here, but rather present our empirical findings on portfolio selection in real world settings including real market data and transaction costs.
翻訳日:2023-12-29 19:26:12 公開日:2023-12-27
# 可変条件下でのロバストペグインホールタスクにおける視覚的空間的注意と受動的データ駆動強化学習

Visual Spatial Attention and Proprioceptive Data-Driven Reinforcement Learning for Robust Peg-in-Hole Task Under Variable Conditions ( http://arxiv.org/abs/2312.16438v1 )

ライセンス: Link先を確認
Andr\'e Yuji Yasutomi, Hideyuki Ichiwara, Hiroshi Ito, Hiroki Mori, Tetsuya Ogata(参考訳) アンカーボルト挿入(anchor-bolt insert)は、コンクリート中のホールの建設現場で行われているペグ・イン・ホール作業である。 このタスクを自動化する努力がなされているが、可変照明とホール面条件、および短いセットアップとタスク実行時間の要件が自動化を困難にしている。 本研究では,この課題に対して,照明条件や穴面条件に頑健な視覚とプロプリセプティブなデータ駆動型ロボット制御モデルを提案する。 このモデルは、空間的注意点ネットワーク(SAP)と、ロボットを制御するためにエンドツーエンドにトレーニングされた深層強化学習(DRL)ポリシーから構成される。 モデルはオフラインでトレーニングされ、トレーニング時間を短縮し、モデルを物理的世界に移行する際の現実のギャップを最小限に抑えるために、サンプル効率のよいフレームワークが設計されている。 16の異なる初期位置から12の未知の穴で作業を行う産業用ロボットによる評価と、3つの異なる照明条件(2つは誤解を招く影を持つ)の下、sapは挑戦的な照明条件でも画像の適切な注意ポイントを発生できることを実証する。 また,提案モデルにより,各種ベースラインよりも高い成功率と短いタスク完了時間でタスク実行が可能となることを示す。 厳密な照明,初期位置,ホール条件においても,提案モデルの有効性が高く,オフライントレーニングフレームワークの高サンプリング効率と短時間のトレーニング時間により,本手法は建設に容易に適用できる。

Anchor-bolt insertion is a peg-in-hole task performed in the construction field for holes in concrete. Efforts have been made to automate this task, but the variable lighting and hole surface conditions, as well as the requirements for short setup and task execution time make the automation challenging. In this study, we introduce a vision and proprioceptive data-driven robot control model for this task that is robust to challenging lighting and hole surface conditions. This model consists of a spatial attention point network (SAP) and a deep reinforcement learning (DRL) policy that are trained jointly end-to-end to control the robot. The model is trained in an offline manner, with a sample-efficient framework designed to reduce training time and minimize the reality gap when transferring the model to the physical world. Through evaluations with an industrial robot performing the task in 12 unknown holes, starting from 16 different initial positions, and under three different lighting conditions (two with misleading shadows), we demonstrate that SAP can generate relevant attention points of the image even in challenging lighting conditions. We also show that the proposed model enables task execution with higher success rate and shorter task completion time than various baselines. Due to the proposed model's high effectiveness even in severe lighting, initial positions, and hole conditions, and the offline training framework's high sample-efficiency and short training time, this approach can be easily applied to construction.
翻訳日:2023-12-29 19:26:00 公開日:2023-12-27
# 計算ユニバーサルから厳密な測定に基づく量子計算への触媒変換

Catalytic Transformation from Computationally-Universal to Strictly-Universal Measurement-Based Quantum Computation ( http://arxiv.org/abs/2312.16433v1 )

ライセンス: Link先を確認
Yuki Takeuchi(参考訳) 測定に基づく量子計算(mbqc)には、2種類の普遍性が存在する: ${\it strict}$ と ${\it computational}$ universalities である。 前者の方が後者より強いことはよく知られている。 本稿では,ある種類の計算ユニバーサルMBQCから厳密なユニバーサルMBQCへ変換する方法を提案する。 本手法は,資源状態の単一キュービットをPauli-$Y$固有状態に置き換える。 提案手法を適用して,これまで計算ユニバーサルなハイパーグラフ状態のみが知られていたのに対して,パウリ測度のみではハイパーグラフ状態が厳密に普遍的であることを示す。

There exist two types of universality in measurement-based quantum computation (MBQC): ${\it strict}$ and ${\it computational}$ universalities. It is well known that the former is stronger than the latter. In this paper, we give a method of transforming from a certain type of computationally-universal MBQC to the strictly-universal one. Our method simply replaces a single qubit in a resource state with a Pauli-$Y$ eigenstate. We apply our method to show that hypergraph states can be made strictly universal with only Pauli measurements, while only computationally-universal hypergraph states were known so far.
翻訳日:2023-12-29 19:25:32 公開日:2023-12-27
# ボルンマシンを用いた時間伝播からのハミルトニアンの導出

Derivation of Hamiltonians from time propagations using Born machines ( http://arxiv.org/abs/2312.16432v1 )

ライセンス: Link先を確認
Hikaru Wakaura and Andriyan Bayu Suksmono(参考訳) Recently there are more promising qubit technology such as Majorana fermions Rydberg atoms and Silicon quantum dot have yet to be developed for realizing a quantum computer than Superconductivity and Ion trap into the world The simulation of the quantum hardware of these qubits can only be done numerically However a classical numerical simulation is limited concerning available resources The method for simulation of quantum hardware by quantum hardware may be necessary In this paper we propose a novel method for optimizing time propagation from initial states to aimed given states of systems by the Born machine We call this method the Hamiltonian Engineering Born Machine HEBM We calculated the optimal Hamiltonians for propagation to Bars and Stripes distribution Gaussian distribution and Gibbs state for $H=-\Sum Z_j Z_{j+1}$ and revealed that they can be realized rapidly and accurately

Recently there are more promising qubit technology such as Majorana fermions Rydberg atoms and Silicon quantum dot have yet to be developed for realizing a quantum computer than Superconductivity and Ion trap into the world The simulation of the quantum hardware of these qubits can only be done numerically However a classical numerical simulation is limited concerning available resources The method for simulation of quantum hardware by quantum hardware may be necessary In this paper we propose a novel method for optimizing time propagation from initial states to aimed given states of systems by the Born machine We call this method the Hamiltonian Engineering Born Machine HEBM We calculated the optimal Hamiltonians for propagation to Bars and Stripes distribution Gaussian distribution and Gibbs state for $H=-\Sum Z_j Z_{j+1}$ and revealed that they can be realized rapidly and accurately
翻訳日:2023-12-29 19:25:20 公開日:2023-12-27
# コンパタンスサンプリングによるリワード, 最大優先度最適化の選好

Preference as Reward, Maximum Preference Optimization with Importance Sampling ( http://arxiv.org/abs/2312.16430v1 )

ライセンス: Link先を確認
Zaifan Jiang, Xing Huang, Chao Wei(参考訳) 優先度学習は、言語モデルと人間の価値を合わせるための重要な技術である。 人的フィードバックからの強化学習(rlhf)は、まず選好スコアに対して報奨モデルに適合し、次に報奨を最大化するためにオンポリシーppoアルゴリズムで生成ポリシーを最適化する、選好学習を最適化するモデルベースアルゴリズムである。 RLHFの処理は複雑で、時間がかかり、不安定である。 オフラインアルゴリズムを用いた直接選好最適化(DPO)アルゴリズムにより、生成ポリシーを直接最適化し、データ効率が高く安定した報酬モデルの必要性を排除する。 DPOはBradley-Terryモデルとログロスを使用し、決定論的に近い場合のKL正規化項を無視して優先データに過度に適合する。 IPOは、ルートフィンディングのペアワイズMSEロスを使用して、無視されるKL正規化問題を解決し、最適なポリシーを学ぶ。 しかし、IPOのペアワイズ損失は、KLレギュラー化をうまく動かせません。 本稿では,重要サンプリング視点から,簡便で直感的なオフポリシー選好最適化アルゴリズムを設計し,kl正規化を真に効果的にするオフポリシーkl正規化項を追加する。 学習プロセスの簡素化とメモリ使用量の削減のために,前もって正規化データを生成することができ,最適化段階における報酬モデルと参照ポリシーの両方の必要性を排除できる。

Preference learning is a key technology for aligning language models with human values. Reinforcement Learning from Human Feedback (RLHF) is a model based algorithm to optimize preference learning, which first fitting a reward model for preference score, and then optimizing generating policy with on-policy PPO algorithm to maximize the reward. The processing of RLHF is complex, time-consuming and unstable. Direct Preference Optimization (DPO) algorithm using off-policy algorithm to direct optimize generating policy and eliminating the need for reward model, which is data efficient and stable. DPO use Bradley-Terry model and log-loss which leads to over-fitting to the preference data at the expense of ignoring KL-regularization term when preference near deterministic. IPO uses a root-finding pairwise MSE loss to solve the ignoring KL-regularization problem, and learning an optimal policy. But IPO's pairwise loss still can't s make the KL-regularization to work. In this paper, we design a simple and intuitive off-policy preferences optimization algorithm from an importance sampling view, and add an off-policy KL-regularization term which makes KL-regularization truly effective. To simplify the learning process and save memory usage, we can generate regularization data in advance, which eliminate the needs for both reward model and reference policy in the stage of optimization.
翻訳日:2023-12-29 19:25:14 公開日:2023-12-27
# GAD-PVI: 一般化された動的重粒子に基づく変分推論フレームワーク

GAD-PVI: A General Accelerated Dynamic-Weight Particle-Based Variational Inference Framework ( http://arxiv.org/abs/2312.16429v1 )

ライセンス: Link先を確認
Fangyikang Wang, Huminhao Zhu, Chao Zhang, Hanbin Zhao, Hui Qian(参考訳) 粒子に基づく変分推論 (ParVI) 法は, 有限重み付き粒子系を反復的に発展させ, ターゲット分布を近似する。 ParVI法の最近の進歩は、加速位置更新戦略と動的重み調整アプローチの利点を明らかにしている。 本稿では,加速位置更新と動的重み調整を同時に行う最初のParVIフレームワークを提案し,GAD-PVI(General Accelerated Dynamic-Weight Particle-based Variational Inference)フレームワークと命名した。 一般に、gad-pviは、新しい情報-魚-rao空間上の半ハミルトニアン勾配流れをシミュレートし、局所的な機能散逸をさらに減少させる。 GAD-PVIは3つの情報メトリクスの下で異なる相似関数と関連する平滑化アプローチと互換性がある。 合成データと実世界のデータの両方の実験は、最先端のGAD-PVI法の高速収束と近似誤差の低減を実証している。

Particle-based Variational Inference (ParVI) methods approximate the target distribution by iteratively evolving finite weighted particle systems. Recent advances of ParVI methods reveal the benefits of accelerated position update strategies and dynamic weight adjustment approaches. In this paper, we propose the first ParVI framework that possesses both accelerated position update and dynamical weight adjustment simultaneously, named the General Accelerated Dynamic-Weight Particle-based Variational Inference (GAD-PVI) framework. Generally, GAD-PVI simulates the semi-Hamiltonian gradient flow on a novel Information-Fisher-Rao space, which yields an additional decrease on the local functional dissipation. GAD-PVI is compatible with different dissimilarity functionals and associated smoothing approaches under three information metrics. Experiments on both synthetic and real-world data demonstrate the faster convergence and reduced approximation error of GAD-PVI methods over the state-of-the-art.
翻訳日:2023-12-29 19:24:50 公開日:2023-12-27
# Fl RDTによる負球面パーセプトロン容量の極小化

Fl RDT based ultimate lowering of the negative spherical perceptron capacity ( http://arxiv.org/abs/2312.16531v1 )

ライセンス: Link先を確認
Mihailo Stojnic(参考訳) 古典的な \emph{spherical} パーセプトロンを考察し、それらの能力を研究する。 有名なゼロスレッショルドのケースは、高次元の組合せ的考察を通じて、前世紀の60世紀に解決された(\cite{wendel62,winder,cover65} を参照)。 しかし、一般的なしきい値である$\kappa$のケースはずっと難しく、その後の数十年は手が届かなかった。 その後、大きな進歩が \cite{SchTir02} と \cite{StojnicGardGen13} で行われ、そこでは \emph{ positive} 閾値 (\kappa\geq 0$) のシナリオが最終的に完全に解決された。 負の対数 (\kappa\leq 0$) は届かなかったが、 \cite{StojnicGardGen13} は、ランダム双対性理論 (RDT) が優れた上限を与えるのに十分強力であることを示した。 さらに、 \cite{StojnicGardSphNeg13} において、 \emph{partially lifted} RDT 変種が検討され、 \cite{StojnicGardGen13} の上界を下げることができた。 近年のbilinearly indexed (bli) random process in \cite{stojnicsflgscompyx23,stojnicnflgscompyx23}, \emph{fully lifted} random duality theory (fl rdt) の研究は、 \cite{stojnicflrdt23} で展開された。 ここではまず, fl RDT のフレームに \emph{ negative spherical perceptrons} を装着し,そのキャパシティを特徴付けるために fl RDT 機構全体を用いることを示す。 完全に実用的に運用するには、fl RDTは相当な数値計算を必要とする。 しかし, キー持ち上げパラメータ間の有意な閉形式解析関係を明らかにする。 このような発見により、必要な数値計算を実行して具体的な容量値を得ることができる。 また、(相対的に改良された$\sim 0.1\%$を持つ)優れた収束は既に \emph{stationarized} の3番目の(非自明な)レベルにおいて達成されていることも観察する。

We consider the classical \emph{spherical} perceptrons and study their capacities. The famous zero-threshold case was solved in the sixties of the last century (see, \cite{Wendel62,Winder,Cover65}) through the high-dimensional combinatorial considerations. The general threshold, $\kappa$, case though turned out to be much harder and stayed out of reach for the following several decades. A substantial progress was then made in \cite{SchTir02} and \cite{StojnicGardGen13} where the \emph{positive} threshold ($\kappa\geq 0$) scenario was finally fully settled. While the negative counterpart ($\kappa\leq 0$) remained out of reach, \cite{StojnicGardGen13} did show that the random duality theory (RDT) is still powerful enough to provide excellent upper bounds. Moreover, in \cite{StojnicGardSphNeg13}, a \emph{partially lifted} RDT variant was considered and it was shown that the upper bounds of \cite{StojnicGardGen13} can be lowered. After recent breakthroughs in studying bilinearly indexed (bli) random processes in \cite{Stojnicsflgscompyx23,Stojnicnflgscompyx23}, \emph{fully lifted} random duality theory (fl RDT) was developed in \cite{Stojnicflrdt23}. We here first show that the \emph{negative spherical perceptrons} can be fitted into the frame of the fl RDT and then employ the whole fl RDT machinery to characterize the capacity. To be fully practically operational, the fl RDT requires a substantial numerical work. We, however, uncover remarkable closed form analytical relations among key lifting parameters. Such a discovery enables performing the needed numerical calculations to obtain concrete capacity values. We also observe that an excellent convergence (with the relative improvement $\sim 0.1\%$) is achieved already on the third (second non-trivial) level of the \emph{stationarized} full lifting.
翻訳日:2023-12-29 19:19:10 公開日:2023-12-27
# サラウンドビューシステムのためのカメラキャリブレーション:ベンチマークとデータセット

Camera calibration for the surround-view system: a benchmark and dataset ( http://arxiv.org/abs/2312.16499v1 )

ライセンス: Link先を確認
L Qin, C Lin, S Huang, S Yang and Y Zhao(参考訳) Surround-view System (SVS) はAdvanced Driver Assistance System (ADAS) で広く使われている。 SVSは4つの魚眼レンズを使って車周りのリアルタイムシーンをモニタする。 しかし、システムの適切な機能には、正確な内在的および外在的パラメータ推定が必要である。 現在、内在キャリブレーションはチェッカーボードアルゴリズムを用いてパイプライン化でき、外在キャリブレーションは未熟である。 そこで本研究では,外因性パラメータを頑健に推定する特定のキャリブレーションパイプラインを提案する。 この方式は4台のカメラの駆動シーケンスを入力とする。 まず車線を利用して各カメラのポーズを概算する。 それぞれのカメラの環境条件の違いを考慮して,2つの手法から戦略を分離し,そのパラメータを正確に推定する。 前方カメラと後方カメラの両方の正確な推定を実現するために,ライン検出とポーズ推定を相互に反復する手法を提案する。 バイラテラルカメラについては,隣り合うカメラの接地プロジェクション間のテクスチャとエッジ誤差を最小にすることで,カメラのポーズと位置を反復的に調整する。 外部パラメータを推定した後、サラウンドビュー画像はホモグラフィに基づく変換によって合成できる。 提案するパイプラインは,実走行環境での4つのsvsカメラの外部パラメータをロバストに推定できる。 さらに,提案手法を評価するために,異なる実交通シナリオから取得した40本のビデオを含むサラウンドビュー魚眼データセットを構築した。 各ビデオ内のすべてのフレームは、そのGT外部パラメータでレーンアノテーションで手動でラベル付けされる。 さらに、このサラウンドビューデータセットは、他の研究者がパフォーマンスを評価するために使用できる。 データセットは近く提供される。

Surround-view system (SVS) is widely used in the Advanced Driver Assistance System (ADAS). SVS uses four fisheye lenses to monitor real-time scenes around the vehicle. However, accurate intrinsic and extrinsic parameter estimation is required for the proper functioning of the system. At present, the intrinsic calibration can be pipeline by utilizing checkerboard algorithm, while extrinsic calibration is still immature. Therefore, we proposed a specific calibration pipeline to estimate extrinsic parameters robustly. This scheme takes a driving sequence of four cameras as input. It firstly utilizes lane line to roughly estimate each camera pose. Considering the environmental condition differences in each camera, we separately select strategies from two methods to accurately estimate the extrinsic parameters. To achieve accurate estimates for both front and rear camera, we proposed a method that mutually iterating line detection and pose estimation. As for bilateral camera, we iteratively adjust the camera pose and position by minimizing texture and edge error between ground projections of adjacent cameras. After estimating the extrinsic parameters, the surround-view image can be synthesized by homography-based transformation. The proposed pipeline can robustly estimate the four SVS camera extrinsic parameters in real driving environments. In addition, to evaluate the proposed scheme, we build a surround-view fisheye dataset, which contains 40 videos with 32,000 frames, acquired from different real traffic scenarios. All the frames in each video are manually labeled with lane annotation, with its GT extrinsic parameters. Moreover, this surround-view dataset could be used by other researchers to evaluate their performance. The dataset will be available soon.
翻訳日:2023-12-29 19:18:21 公開日:2023-12-27
# マルチスケールアテンショントランスと輝度整合損失を考慮した非均一低光画像強調法

A Non-Uniform Low-Light Image Enhancement Method with Multi-Scale Attention Transformer and Luminance Consistency Loss ( http://arxiv.org/abs/2312.16498v1 )

ライセンス: Link先を確認
Xiao Fang, Xin Gao, Baofeng Li, Feng Zhai, Yu Qin, Zhihang Meng, Jiansheng Lu, Chun Xiao(参考訳) 低照度画像強調は、薄暗い環境で収集された画像の知覚を改善し、画像認識タスクのための高品質なデータサポートを提供することを目的としている。 非均一照明下で撮影された写真を扱う場合、既存の方法では区別された輝度情報を適応的に抽出することはできない。 教師なし学習の観点からは,光バランスのための局所的特徴と全体的特徴を十分に抽出し,視覚品質を向上させるマルチスケールアテンショントランスフォーマを提案する。 具体的には,各層のウィンドウサイズを調整するために指数列を用いたマルチスケールウィンドウ分割スキームを提案する。 異なるサイズのウィンドウ内では、自己注意計算が洗練され、モデルのピクセルレベルの特徴処理能力が保証される。 ウィンドウ間の機能インタラクションのために、グローバルトランスフォーマーブランチが構築され、包括的な輝度知覚と露出問題を緩和する。 さらに,重み付き混合により生成された多彩な画像と輝度整合性損失を用いて,モデルの一般化能力を効果的に改善するループトレーニング戦略を提案する。 いくつかのベンチマークデータセットに対する大規模な実験は、我々のMSATrが最先端の低照度画像強調法よりも優れていることを定量的に定性的に証明している。 コードはhttps://github.com/fang001021/msatrでリリースされる。

Low-light image enhancement aims to improve the perception of images collected in dim environments and provide high-quality data support for image recognition tasks. When dealing with photos captured under non-uniform illumination, existing methods cannot adaptively extract the differentiated luminance information, which will easily cause over-exposure and under-exposure. From the perspective of unsupervised learning, we propose a multi-scale attention Transformer named MSATr, which sufficiently extracts local and global features for light balance to improve the visual quality. Specifically, we present a multi-scale window division scheme, which uses exponential sequences to adjust the window size of each layer. Within different-sized windows, the self-attention computation can be refined, ensuring the pixel-level feature processing capability of the model. For feature interaction across windows, a global transformer branch is constructed to provide comprehensive brightness perception and alleviate exposure problems. Furthermore, we propose a loop training strategy, using the diverse images generated by weighted mixing and a luminance consistency loss to improve the model's generalization ability effectively. Extensive experiments on several benchmark datasets quantitatively and qualitatively prove that our MSATr is superior to state-of-the-art low-light image enhancement methods, and the enhanced images have more natural brightness and outstanding details. The code is released at https://github.com/fang001021/MSATr.
翻訳日:2023-12-29 19:17:59 公開日:2023-12-27
# エッジインテリジェンスのためのモビリティとコスト対応推論アルゴリズム

Mobility and Cost Aware Inference Accelerating Algorithm for Edge Intelligence ( http://arxiv.org/abs/2312.16497v1 )

ライセンス: Link先を確認
Xin Yuan, Ning Li, kang Wei, Wenchao Xu, Quan Chen, Hao Chen, Song Guo(参考訳) エッジインテリジェンス(EI)は最近広く応用されている。 デバイス、エッジサーバ、クラウド間でモデルを分割することで、eiの性能が大幅に向上する。 ユーザモビリティのないモデルセグメンテーションは,これまでにも深く研究されてきた。 しかし、EIのほとんどのユースケースでは、エンドデバイスはモバイルである。 この点に関しては、いくつかの作品しか行われていない。 これらの作業には、モバイルデバイスのエネルギー消費の無視、不適切なネットワーク仮定、ユーザモビリティへの適応効果の低さなど、多くの課題がある。 そこで,先行研究におけるモデルセグメンテーションと資源配分の欠点に対処するために,移動性とコストを考慮したモデルセグメンテーションと資源割当アルゴリズムを提案する。 ユーザモビリティのないシナリオでは、ループ間勾配勾配降下(Li-GD)アルゴリズムが提供される。 モバイルユーザが大きなモデル推論タスクを計算しなければならない場合、最適なモデルセグメンテーションとリソース割り当て戦略を見つけるために、モバイルユーザのエネルギー消費量、通信と計算リソースのレンタルコスト、推論遅延を考慮に入れる。 ユーザモビリティのシナリオでは,モビリティを考慮したLi-GD (MLi-GD) アルゴリズムが最適戦略を計算するために提案される。 そこで,提案アルゴリズムの特性について,収束率,複雑性,近似比について検討した。 実験の結果,提案アルゴリズムの有効性が示された。

The edge intelligence (EI) has been widely applied recently. Spliting the model between device, edge server, and cloud can improve the performance of EI greatly. The model segmentation without user mobility has been investigated deeply by previous works. However, in most use cases of EI, the end devices are mobile. Only a few works have been carried out on this aspect. These works still have many issues, such as ignoring the energy consumption of mobile device, inappropriate network assumption, and low effectiveness on adaptiving user mobility, etc. Therefore, for addressing the disadvantages of model segmentation and resource allocation in previous works, we propose mobility and cost aware model segmentation and resource allocation algorithm for accelerating the inference at edge (MCSA). Specfically, in the scenario without user mobility, the loop interation gradient descent (Li-GD) algorithm is provided. When the mobile user has a large model inference task needs to be calculated, it will take the energy consumption of mobile user, the communication and computing resource renting cost, and the inference delay into account to find the optimal model segmentation and resource allocation strategy. In the scenario with user mobility, the mobiity aware Li-GD (MLi-GD) algorithm is proposed to calculate the optimal strategy. Then, the properties of the proposed algorithms are investigated, including convergence, complexity, and approximation ratio. The experimental results demonstrate the effectiveness of the proposed algorithms.
翻訳日:2023-12-29 19:17:31 公開日:2023-12-27
# 位相雑音下での二相シフト鍵識別のためのロバストハイブリッド受信機

A robust hybrid receiver for binary phase-shift keying discrimination in the presence of phase noise ( http://arxiv.org/abs/2312.16493v1 )

ライセンス: Link先を確認
Michele N. Notarnicola and Stefano Olivares(参考訳) 位相拡散の存在下でのコヒーレント状態の識別の問題に対処する。 我々は,[J. Opt. Am. B 40, 705-714 (2023)]で提案したHybrid near-optimum receiver (HYNORE) の役割について検討した。 我々はHYNOREがロバストな受信機であることを証明し、変位光子数分解(DPNR)受信機よりも優れ、特定のレシエーションにおける標準量子限界を上回ります。 本稿では,可逆位相雑音$\sigma_{\mathrm{max}}$をレシーバのロバスト性を示す指標として導入し,DPNRレシーバに対するHYNOREの値が増加することを示す。

We address the problem of coherent state discrimination in the presence of phase diffusion. We investigate the role of the hybrid near-optimum receiver (HYNORE) we proposed in [J. Opt. Soc. Am. B 40, 705-714 (2023)] in the task of mitigating the noise impact. We prove the HYNORE to be a robust receiver, outperforming the displacement photon-number-resolving (DPNR) receiver and beating the standard quantum limit in particular regimes. We introduce the maximum tolerable phase noise $\sigma_{\mathrm{max}}$ as a figure of merit for the receiver robustness and show that HYNORE increases its value with respect to the DPNR receiver.
翻訳日:2023-12-29 19:17:10 公開日:2023-12-27
# ニュース作成インテントを理解する:フレーム,データセット,方法

Understanding News Creation Intents: Frame, Dataset, and Method ( http://arxiv.org/abs/2312.16490v1 )

ライセンス: Link先を確認
Zhengjia Wang, Danding Wang, Qiang Sheng, Juan Cao, Silong Su, Yifan Sun, Beizhe Hu, Siyuan Ma(参考訳) メディア経済のディスラプティブな変化と代替ニュースメディアの拡散に伴い、ニュースの意図は徐々に、大衆の関心に合う倫理的基準から逸脱していった。 ニュース意図とは、ニュース記事の作成の背後にある目的や意図を指す。 ニュースインテントの研究の意義は広く認識されているが、体系的なニュースインテント理解フレームワークの欠如は、ニュースインテントとその下流アプリケーションをさらに探究することを妨げる。 このギャップを埋めるために、我々は、哲学、心理学、認知科学の研究に基づいて、ニュース作成意図を理解するための最初のコンポーネント認識フォーマリズムであるNews INTent(NINT)フレームを提案する。 本枠組みでは,ニュース意図識別タスクを定義し,詳細なラベル付きベンチマークデータセットと効率的なベンチマーク手法を提案する。 実験により、NINTは意図の識別タスクと、ニュースの深い理解を要求する下流タスクの両方に有益であることが示された。 この研究は、より体系的なニュース作成意図の探求に向けた基礎的な一歩である。

As the disruptive changes in the media economy and the proliferation of alternative news media outlets, news intent has progressively deviated from ethical standards that serve the public interest. News intent refers to the purpose or intention behind the creation of a news article. While the significance of research on news intent has been widely acknowledged, the absence of a systematic news intent understanding framework hinders further exploration of news intent and its downstream applications. To bridge this gap, we propose News INTent (NINT) frame, the first component-aware formalism for understanding the news creation intent based on research in philosophy, psychology, and cognitive science. Within this frame, we define the news intent identification task and provide a benchmark dataset with fine-grained labels along with an efficient benchmark method. Experiments demonstrate that NINT is beneficial in both the intent identification task and downstream tasks that demand a profound understanding of news. This work marks a foundational step towards a more systematic exploration of news creation intents.
翻訳日:2023-12-29 19:16:54 公開日:2023-12-27
# 両世界の最良のリニア・コンテクスト・バンディット

Best-of-Both-Worlds Linear Contextual Bandits ( http://arxiv.org/abs/2312.16489v1 )

ライセンス: Link先を確認
Masahiro Kato and Shinji Ito(参考訳) 本研究は, 対向汚職下での多武装盗賊問題の事例である$K$腕線形文脈盗賊の問題を考察する。 各ラウンドにおいて、意思決定者は独立かつ同一に分散したコンテキストを観察し、そのコンテキストと過去の観察に基づいてarmを選択する。 意思決定者は、アームを選択すると、選択されたアームに対応する損失を負う。 意思決定者は裁判での累積損失を最小限に抑えることを目指している。 本研究の目的は,理論的保証のある確率的・対角的両環境に有効な戦略を開発することである。 まず, 自己拘束的制約を伴う文脈的逆境体制と呼ばれる, 逆境汚職を伴うバンディットの新たな設定を導入することで, 問題を定式化する。 損失と文脈の関係を線形モデルとして仮定する。 次に,Neu & Olkhovskaya (2020) と FTRL (Follow-The-Regularized-Leader) による RealLinExp3 の拡張戦略を提案する。 o\left(\min\left\{\frac{(\log(t))^3}{\delta_{*}} + \sqrt{\frac{c(\log(t))^3}{\delta_{*}}},\ \sqrt{t}(\log(t))^2\right\}\right)$, ここで$t \in\mathbb{n}$ はラウンド数、$\delta_{*} > 0$ は任意のコンテキストにおいて最善と亜最適のアームの間の一定最小ギャップであり、$c\in[0, t] $ は逆の腐敗パラメータである。 この後悔の上限は、確率的な環境では$o\left(\frac{(\log(t))^3}{\delta_{*}}\right)$であり、敵対的な環境では$o\left( \sqrt{t}(\log(t))^2\right)$である。 我々は、我々の戦略を「最高の両世界」(bobw)リアルフトルル(realftrl)と呼んでいる。

This study investigates the problem of $K$-armed linear contextual bandits, an instance of the multi-armed bandit problem, under an adversarial corruption. At each round, a decision-maker observes an independent and identically distributed context and then selects an arm based on the context and past observations. After selecting an arm, the decision-maker incurs a loss corresponding to the selected arm. The decision-maker aims to minimize the cumulative loss over the trial. The goal of this study is to develop a strategy that is effective in both stochastic and adversarial environments, with theoretical guarantees. We first formulate the problem by introducing a novel setting of bandits with adversarial corruption, referred to as the contextual adversarial regime with a self-bounding constraint. We assume linear models for the relationship between the loss and the context. Then, we propose a strategy that extends the RealLinExp3 by Neu & Olkhovskaya (2020) and the Follow-The-Regularized-Leader (FTRL). The regret of our proposed algorithm is shown to be upper-bounded by $O\left(\min\left\{\frac{(\log(T))^3}{\Delta_{*}} + \sqrt{\frac{C(\log(T))^3}{\Delta_{*}}},\ \ \sqrt{T}(\log(T))^2\right\}\right)$, where $T \in\mathbb{N}$ is the number of rounds, $\Delta_{*} > 0$ is the constant minimum gap between the best and suboptimal arms for any context, and $C\in[0, T] $ is an adversarial corruption parameter. This regret upper bound implies $O\left(\frac{(\log(T))^3}{\Delta_{*}}\right)$ in a stochastic environment and by $O\left( \sqrt{T}(\log(T))^2\right)$ in an adversarial environment. We refer to our strategy as the Best-of-Both-Worlds (BoBW) RealFTRL, due to its theoretical guarantees in both stochastic and adversarial regimes.
翻訳日:2023-12-29 19:16:37 公開日:2023-12-27
# ソースコードはグラフでありシーケンスではない:コードクローン検出の言語横断的な視点

Source Code is a Graph, Not a Sequence: A Cross-Lingual Perspective on Code Clone Detection ( http://arxiv.org/abs/2312.16488v1 )

ライセンス: Link先を確認
Mohammed Ataaur Rahaman, Julia Ive(参考訳) ソースコードのクローン検出は、同じまたは類似の機能を持つが、構文や構造が異なるコードフラグメントを見つけるタスクである。 このタスクはソフトウェアのメンテナンス、再利用、品質保証(roy et al. 2009)において重要である。 しかし、ソースコードは異なる言語、ドメイン、スタイルで書くことができるため、コードクローン検出は困難である。 本稿では、ソースコードは本質的にシーケンスではなくグラフであり、グラフベースの手法はシーケンスベースの手法よりもコードクローン検出に適していると主張する。 我々は、シーケンスベースのモデルであるCodeBERT(Feng et al. 2020)とグラフベースのモデルであるCodeGraph(Yu et al. 2023)の2つのベンチマークデータセットであるBCB(Svajlenko et al. 2014)とPoolC(PoolC no date)を比較した。 CodeGraphは、両方のデータセット、特に言語間コードクローンにおいて、CodeBERTよりも優れています。 我々の知る限りでは、これは言語間コードクローン検出におけるシーケンスベースの手法よりもグラフベースの手法の方が優れていることを示す最初の試みである。

Source code clone detection is the task of finding code fragments that have the same or similar functionality, but may differ in syntax or structure. This task is important for software maintenance, reuse, and quality assurance (Roy et al. 2009). However, code clone detection is challenging, as source code can be written in different languages, domains, and styles. In this paper, we argue that source code is inherently a graph, not a sequence, and that graph-based methods are more suitable for code clone detection than sequence-based methods. We compare the performance of two state-of-the-art models: CodeBERT (Feng et al. 2020), a sequence-based model, and CodeGraph (Yu et al. 2023), a graph-based model, on two benchmark data-sets: BCB (Svajlenko et al. 2014) and PoolC (PoolC no date). We show that CodeGraph outperforms CodeBERT on both data-sets, especially on cross-lingual code clones. To the best of our knowledge, this is the first work to demonstrate the superiority of graph-based methods over sequence-based methods on cross-lingual code clone detection.
翻訳日:2023-12-29 19:15:48 公開日:2023-12-27
# PanGu-Draw: 時間分割学習と再利用可能なクープ拡散による資源効率の良いテキスト・画像合成

PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion ( http://arxiv.org/abs/2312.16486v1 )

ライセンス: Link先を確認
Guansong Lu, Yuanfan Guo, Jianhua Han, Minzhe Niu, Yihan Zeng, Songcen Xu, Zeyi Huang, Zhao Zhong, Wei Zhang, Hang Xu(参考訳) 現在の大規模拡散モデルは条件付き画像合成において大きな飛躍を示しており、テキスト、人間のポーズ、エッジといった多様な手がかりを解釈することができる。 しかし、計算資源や膨大なデータ収集への依存は依然としてボトルネックとなっている。 一方で、異なる制御とユニークな潜在空間での操作に特化した既存の拡散モデルの統合は、互換性のない画像解像度と潜在空間埋め込み構造のために課題となり、共同使用を妨げている。 これらの制約に対処するため,複数の制御信号に対応可能な資源効率の高いテキスト・画像合成のための新しい潜時拡散モデルPanGu-Drawを提案する。 まず,モノリシックなテキストから画像へのモデルを構造とテクスチャ生成器に分割した,リソース効率の高い時間分離トレーニング戦略を提案する。 各ジェネレータは、データ利用と計算効率を最大化し、データ準備を48%削減し、トレーニングリソースを51%削減するレジームを使用してトレーニングされる。 次に,異なる潜在空間と事前定義された分解能を持つ様々な事前学習拡散モデルの協調的利用を可能にするアルゴリズムであるcoop-diffusionを提案する。 これにより、追加データや再トレーニングを必要とせず、任意の解像度でマルチコントロール画像合成が可能となる。 pangu-drawの実証的検証は、テキスト対画像およびマルチコントロール画像生成における例外的な能力を示し、将来のモデルのトレーニング効率と世代の汎用性に有望な方向を示している。 最大の5B T2I PanGu-DrawモデルはAscendプラットフォームでリリースされた。 プロジェクトページ: https://pangu-draw.github.io

Current large-scale diffusion models represent a giant leap forward in conditional image synthesis, capable of interpreting diverse cues like text, human poses, and edges. However, their reliance on substantial computational resources and extensive data collection remains a bottleneck. On the other hand, the integration of existing diffusion models, each specialized for different controls and operating in unique latent spaces, poses a challenge due to incompatible image resolutions and latent space embedding structures, hindering their joint use. Addressing these constraints, we present "PanGu-Draw", a novel latent diffusion model designed for resource-efficient text-to-image synthesis that adeptly accommodates multiple control signals. We first propose a resource-efficient Time-Decoupling Training Strategy, which splits the monolithic text-to-image model into structure and texture generators. Each generator is trained using a regimen that maximizes data utilization and computational efficiency, cutting data preparation by 48% and reducing training resources by 51%. Secondly, we introduce "Coop-Diffusion", an algorithm that enables the cooperative use of various pre-trained diffusion models with different latent spaces and predefined resolutions within a unified denoising process. This allows for multi-control image synthesis at arbitrary resolutions without the necessity for additional data or retraining. Empirical validations of Pangu-Draw show its exceptional prowess in text-to-image and multi-control image generation, suggesting a promising direction for future model training efficiencies and generation versatility. The largest 5B T2I PanGu-Draw model is released on the Ascend platform. Project page: https://pangu-draw.github.io
翻訳日:2023-12-29 19:15:27 公開日:2023-12-27
# ReLU$^k$ Activationを用いたディープニューラルネットワークの表現性と近似特性

Expressivity and Approximation Properties of Deep Neural Networks with ReLU$^k$ Activation ( http://arxiv.org/abs/2312.16483v1 )

ライセンス: Link先を確認
Juncai He, Tong Mao, Jinchao Xu(参考訳) 本稿では,ReLU$^k$ 活性化関数を$k \geq 2$ に用いたディープニューラルネットワークの表現性と近似特性について検討する。 ディープReLUネットワークは多項式を効率的に近似することができるが、ディープReLU$^k$ネットワークは高次多項式を正確に表現することができる。 最初の貢献は、深層relu$^k$ネットワークを用いた多項式表現の包括的で構成的な証明です。 これにより、ネットワークパラメータのサイズと数の両方に上限を確立することができます。 したがって、ソボレフ空間からの関数と解析函数の準最適近似率を示すことができる。 さらに,浅層ネットワークに対する深層relu$^k$ネットワークの表現力の調査を通じて,深層relu$^k$ネットワークは,relu$^k$アクティベーション関数のみによって生成されるネットワークを超えて,様々な変動空間から関数を近似できることを明らかにした。 この発見は、様々な変動空間内の近似関数における深い relu$^k$ ネットワークの適応性を示す。

In this paper, we investigate the expressivity and approximation properties of deep neural networks employing the ReLU$^k$ activation function for $k \geq 2$. Although deep ReLU networks can approximate polynomials effectively, deep ReLU$^k$ networks have the capability to represent higher-degree polynomials precisely. Our initial contribution is a comprehensive, constructive proof for polynomial representation using deep ReLU$^k$ networks. This allows us to establish an upper bound on both the size and count of network parameters. Consequently, we are able to demonstrate a suboptimal approximation rate for functions from Sobolev spaces as well as for analytic functions. Additionally, through an exploration of the representation power of deep ReLU$^k$ networks for shallow networks, we reveal that deep ReLU$^k$ networks can approximate functions from a range of variation spaces, extending beyond those generated solely by the ReLU$^k$ activation function. This finding demonstrates the adaptability of deep ReLU$^k$ networks in approximating functions within various variation spaces.
翻訳日:2023-12-29 19:14:56 公開日:2023-12-27
# 自己情報誤り軽減による雑音対応学習

Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation ( http://arxiv.org/abs/2312.16478v1 )

ライセンス: Link先を確認
Zhuohang Dang, Minnan Luo, Chengyou Jia, Guang Dai, Xiaojun Chang, Jingdong Wang(参考訳) クロスモーダル検索は、実際に苦労する大規模データセットによくマッチする。 近年、高価なデータ収集を緩和するため、インターネットからの共同収集ペアが自動的に訓練のために回収されている。 しかし、必然的に、不一致のペア、iie、ノイズ対応、監督の信頼性の低下、性能の低下などが含まれる。 現在の手法では、ディープニューラルネットワークの暗記効果を利用してノイズ対応に対処している。 以上のことから,新しい雑音対応学習フレームワーク,すなわち \textbf{S}elf-\textbf{R}einforcing \textbf{E}rrors \textbf{M}itigation (SREM)を導入する。 具体的には、サンプルマッチングをバッチ内の分類タスクとして見ることにより、与えられたサンプルの分類ロジットを生成する。 一つの類似度スコアではなく, エネルギーの不確かさによるサンプル濾過を精錬し, 選択したクリーンサンプルの感度を, 全体的な予測分布を考慮した分類エントロピーを用いて推定する。 さらに,過度な学習で見過ごされる負の一致を生かし,モデル最適化の安定性を向上し,自己強化誤差を抑制するために,クロスモーダルバイアス付き補完学習を提案する。 難解なベンチマークに関する広範囲な実験はsemの有効性と効率を肯定する。

Cross-modal retrieval relies on well-matched large-scale datasets that are laborious in practice. Recently, to alleviate expensive data collection, co-occurring pairs from the Internet are automatically harvested for training. However, it inevitably includes mismatched pairs, \ie, noisy correspondences, undermining supervision reliability and degrading performance. Current methods leverage deep neural networks' memorization effect to address noisy correspondences, which overconfidently focus on \emph{similarity-guided training with hard negatives} and suffer from self-reinforcing errors. In light of above, we introduce a novel noisy correspondence learning framework, namely \textbf{S}elf-\textbf{R}einforcing \textbf{E}rrors \textbf{M}itigation (SREM). Specifically, by viewing sample matching as classification tasks within the batch, we generate classification logits for the given sample. Instead of a single similarity score, we refine sample filtration through energy uncertainty and estimate model's sensitivity of selected clean samples using swapped classification entropy, in view of the overall prediction distribution. Additionally, we propose cross-modal biased complementary learning to leverage negative matches overlooked in hard-negative training, further improving model optimization stability and curbing self-reinforcing errors. Extensive experiments on challenging benchmarks affirm the efficacy and efficiency of SREM.
翻訳日:2023-12-29 19:14:40 公開日:2023-12-27
# 空間符号化を用いた3次元形状解析のためのグループマルチビュートランス

Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding ( http://arxiv.org/abs/2312.16477v1 )

ライセンス: Link先を確認
Lixiang Xu, Qingzhe Cui, Richang Hong, Wei Xu, Enhong Chen, Xin Yuan, Yuanyan Tang(参考訳) 近年,ビューベース3次元形状認識手法の結果は飽和しており,パラメータが大きすぎるため,メモリ制限デバイスに優れた性能を持つモデルは展開できない。 この問題に対処するために,本分野の知識蒸留に基づく圧縮法を紹介し,モデル性能をできるだけ保ちながらパラメータ数を大幅に削減する。 具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。 GMViTでは、ビューレベルのViTが最初にビューレベルの機能間の関係を確立する。 さらに、より深い機能を捉えるために、グループ化モジュールを使用して、ビューレベルの機能をグループレベルの機能に拡張します。 最後に、グループレベルのViTは、グループレベルの特徴を完全な3D形状記述子に集約する。 特に,両vitsにおいて,カメラ座標の空間符号化を革新的な位置埋め込みとして導入する。 さらに,GMViT-simpleとGMViT-miniの2つの圧縮版を提案する。 そこで本研究では,gmvitプロセス全体において,各gmvit成分のキー出力を蒸留対象とする知識蒸留法を提案する。 大規模実験により提案手法の有効性が示された。 大規模モデルgmvitは、ベンチマークデータセットmodelnet、shapenetcore55、mcbにおいて優れた3d分類および検索結果を達成する。 GMViT-simpleとGMViT-miniは、それぞれパラメータサイズを8倍と17.6倍に削減し、分類と検索性能の少なくとも90%を維持しながら、平均1.5倍の形状認識速度を向上させる。

In recent years, the results of view-based 3D shape recognition methods have saturated, and models with excellent performance cannot be deployed on memory-limited devices due to their huge size of parameters. To address this problem, we introduce a compression method based on knowledge distillation for this field, which largely reduces the number of parameters while preserving model performance as much as possible. Specifically, to enhance the capabilities of smaller models, we design a high-performing large model called Group Multi-view Vision Transformer (GMViT). In GMViT, the view-level ViT first establishes relationships between view-level features. Additionally, to capture deeper features, we employ the grouping module to enhance view-level features into group-level features. Finally, the group-level ViT aggregates group-level features into complete, well-formed 3D shape descriptors. Notably, in both ViTs, we introduce spatial encoding of camera coordinates as innovative position embeddings. Furthermore, we propose two compressed versions based on GMViT, namely GMViT-simple and GMViT-mini. To enhance the training effectiveness of the small models, we introduce a knowledge distillation method throughout the GMViT process, where the key outputs of each GMViT component serve as distillation targets. Extensive experiments demonstrate the efficacy of the proposed method. The large model GMViT achieves excellent 3D classification and retrieval results on the benchmark datasets ModelNet, ShapeNetCore55, and MCB. The smaller models, GMViT-simple and GMViT-mini, reduce the parameter size by 8 and 17.6 times, respectively, and improve shape recognition speed by 1.5 times on average, while preserving at least 90% of the classification and retrieval performance.
翻訳日:2023-12-29 19:14:15 公開日:2023-12-27
# SVGDreamer:拡散モデルによるテキストガイドSVG生成

SVGDreamer: Text Guided SVG Generation with Diffusion Model ( http://arxiv.org/abs/2312.16476v1 )

ライセンス: Link先を確認
Ximing Xing, Haitao Zhou, Chuang Wang, Jing Zhang, Dong Xu, Qian Yu(参考訳) 近年,テキスト誘導型スケーラブルベクターグラフィックス (SVG) 合成はイコノグラフィやスケッチなどの領域で有望であることが示されている。 しかし、既存のテキスト-SVG生成手法は編集性に欠け、視覚的品質と結果の多様性に苦慮している。 これらの制約に対処するために,svgdreamerと呼ばれる新しいテキストガイドベクターグラフィックス合成法を提案する。 SVGDreamerは、前景オブジェクトと背景への合成の分解を可能にする意味駆動画像ベクトル化(SIVE)プロセスを導入し、編集性を向上させる。 具体的には、注意に基づく原始的制御と、個々の要素の効果的な制御と操作のための注意マスク損失関数を導入する。 さらに,色過飽和,ベクトルプリミティブ過平滑化,および既存のテキスト-SVG生成手法における限られた結果の多様性に対処するためのベクトル化粒子を用いたスコア蒸留(VPSD)手法を提案する。 さらに,VPSDに基づくReward Feedback Learning (ReFL)を導入し,VPSDの収束を加速し,美的魅力を向上させる。 svgdreamerの有効性を検証するために広範な実験が行われており、編集性、視覚的品質、多様性の観点から、ベースラインメソッドよりも優れていることを示している。

Recently, text-guided scalable vector graphics (SVGs) synthesis has shown promise in domains such as iconography and sketch. However, existing text-to-SVG generation methods lack editability and struggle with visual quality and result diversity. To address these limitations, we propose a novel text-guided vector graphics synthesis method called SVGDreamer. SVGDreamer incorporates a semantic-driven image vectorization (SIVE) process that enables the decomposition of synthesis into foreground objects and background, thereby enhancing editability. Specifically, the SIVE process introduce attention-based primitive control and an attention-mask loss function for effective control and manipulation of individual elements. Additionally, we propose a Vectorized Particle-based Score Distillation (VPSD) approach to tackle the challenges of color over-saturation, vector primitives over-smoothing, and limited result diversity in existing text-to-SVG generation methods. Furthermore, on the basis of VPSD, we introduce Reward Feedback Learning (ReFL) to accelerate VPSD convergence and improve aesthetic appeal. Extensive experiments have been conducted to validate the effectiveness of SVGDreamer, demonstrating its superiority over baseline methods in terms of editability, visual quality, and diversity.
翻訳日:2023-12-29 19:13:50 公開日:2023-12-27
# 知識融合による連合型連続学習:調査

Federated Continual Learning via Knowledge Fusion: A Survey ( http://arxiv.org/abs/2312.16475v1 )

ライセンス: Link先を確認
Xin Yang, Hao Yu, Xin Gao, Hao Wang, Junbo Zhang and Tianrui Li(参考訳) データプライバシとサイロは、多くの現実世界のアプリケーションで非常に難しい。 フェデレーション学習(federated learning)は、クライアントデバイスからグローバルサーバへの生データを交換することなく、複数のローカルクライアントにまたがってモデルをトレーニングするための分散アプローチである。 しかし、既存の作業は静的なデータ環境にフォーカスし、インクリメンタルなタスクでストリーミングデータからの継続的な学習を無視している。 フェデレーション連続学習(federated continual learning, fcl)は、フェデレーション学習と連続学習の両方において、モデル学習に取り組むための新しいパラダイムである。 FCLの主な目的は、異なるクライアントからの異種知識を融合し、新しいタスクを学習しながら、以前のタスクの知識を保持することである。 本研究は,まずフェデレーション学習と継続学習を統合し,その統合,すなわちFCL,特にFCLを知識融合を通じて議論する。 In summary, our motivations are four-fold: we (1) raise a fundamental problem called ''spatial-temporal catastrophic forgetting'' and evaluate its impact on the performance using a well-known method called federated averaging (FedAvg), (2) integrate most of the existing FCL methods into two generic frameworks, namely synchronous FCL and asynchronous FCL, (3) categorize a large number of methods according to the mechanism involved in knowledge fusion, and finally (4) showcase an outlook on the future work of FCL.

Data privacy and silos are nontrivial and greatly challenging in many real-world applications. Federated learning is a decentralized approach to training models across multiple local clients without the exchange of raw data from client devices to global servers. However, existing works focus on a static data environment and ignore continual learning from streaming data with incremental tasks. Federated Continual Learning (FCL) is an emerging paradigm to address model learning in both federated and continual learning environments. The key objective of FCL is to fuse heterogeneous knowledge from different clients and retain knowledge of previous tasks while learning on new ones. In this work, we delineate federated learning and continual learning first and then discuss their integration, i.e., FCL, and particular FCL via knowledge fusion. In summary, our motivations are four-fold: we (1) raise a fundamental problem called ''spatial-temporal catastrophic forgetting'' and evaluate its impact on the performance using a well-known method called federated averaging (FedAvg), (2) integrate most of the existing FCL methods into two generic frameworks, namely synchronous FCL and asynchronous FCL, (3) categorize a large number of methods according to the mechanism involved in knowledge fusion, and finally (4) showcase an outlook on the future work of FCL.
翻訳日:2023-12-29 19:13:23 公開日:2023-12-27
# MolSets: 混合特性モデリングのための分子グラフ深層集合学習

MolSets: Molecular Graph Deep Sets Learning for Mixture Property Modeling ( http://arxiv.org/abs/2312.16473v1 )

ライセンス: Link先を確認
Hengrui Zhang, Jie Chen, James M. Rondinelli, Wei Chen(参考訳) 機械学習(ML)の最近の進歩は、材料発見と設計を迅速化している。 材料に対するMLで直面する重要な課題の1つは、多種多様な構成物とその柔軟な構成によって形成される潜在的な材料の拡張的な組合せ空間である。 この複雑さは、バッテリ電解質などの材料の頻繁に研究される空間である分子混合物において特に顕著である。 分子の複雑な構造と混合物のシーケンスに依存しない性質のため、従来のml法はそのようなシステムのモデリングが困難である。 ここでは分子混合物の特殊なMLモデルであるMollSetsを紹介する。 個々の分子をグラフとして、それらの混合物をセットとして表現するmolsetsは、グラフニューラルネットワークとディープセットアーキテクチャを利用して、分子レベルで情報を抽出し、混合レベルで集約する。 リチウム電池電解質の導電率予測におけるMollSetsの有効性を実証し, 複合化学空間の仮想スクリーニングにおける利点を明らかにする。

Recent advances in machine learning (ML) have expedited materials discovery and design. One significant challenge faced in ML for materials is the expansive combinatorial space of potential materials formed by diverse constituents and their flexible configurations. This complexity is particularly evident in molecular mixtures, a frequently explored space for materials such as battery electrolytes. Owing to the complex structures of molecules and the sequence-independent nature of mixtures, conventional ML methods have difficulties in modeling such systems. Here we present MolSets, a specialized ML model for molecular mixtures. Representing individual molecules as graphs and their mixture as a set, MolSets leverages a graph neural network and the deep sets architecture to extract information at the molecule level and aggregate it at the mixture level, thus addressing local complexity while retaining global flexibility. We demonstrate the efficacy of MolSets in predicting the conductivity of lithium battery electrolytes and highlight its benefits in virtual screening of the combinatorial chemical space.
翻訳日:2023-12-29 19:12:48 公開日:2023-12-27
# AE-Flow: フローを正規化するオートエンコーダ

AE-Flow: AutoEncoder Normalizing Flow ( http://arxiv.org/abs/2312.16552v1 )

ライセンス: Link先を確認
Jakub Mosi\'nski, Piotr Bili\'nski, Thomas Merritt, Abdelhamid Ezzerg, Daniel Korzekwa(参考訳) 近年,テキスト音声 (TTS) や音声変換 (VC) では,SOTA (State-of-the-art) の性能が向上している。 正規化フローは教師なし生成モデルである。 本稿では,並列データを必要とせず,フローの正規化に関するトレーニングプロセスの監督について紹介する。 私たちはこのトレーニングパラダイムをAutoEncoder Normalizing Flow (AE-Flow)と呼んでいる。 モデルにコンディショニングから情報を使ってオーディオサンプルを再構築させるリコンストラクションロスが追加される。 我々のゴールは、各コンポーネントの影響を理解し、負の対数類似度(NLL)と結合ブロックによる正規化フローのトレーニングにおける再構成損失の正しい組み合わせを見つけることである。 そのため、トレーニングされたフローベースのマッピングモデルを比較します。 (i)NLL損失 (ii)nll及び復興損失、及び (iii) 復元損失のみ。 さらに、私たちのモデルをSOTA VCベースラインと比較する。 モデルは、自然性、話者類似性、多対多のVC設定における知性の観点から評価される。 提案手法は,正規化流の正規化法と比較して,話者の類似性と自然性が系統的に向上することを示す。 さらに,提案手法は,最先端技術に対する話者の類似性や知性を向上させる。

Recently normalizing flows have been gaining traction in text-to-speech (TTS) and voice conversion (VC) due to their state-of-the-art (SOTA) performance. Normalizing flows are unsupervised generative models. In this paper, we introduce supervision to the training process of normalizing flows, without the need for parallel data. We call this training paradigm AutoEncoder Normalizing Flow (AE-Flow). It adds a reconstruction loss forcing the model to use information from the conditioning to reconstruct an audio sample. Our goal is to understand the impact of each component and find the right combination of the negative log-likelihood (NLL) and the reconstruction loss in training normalizing flows with coupling blocks. For that reason we will compare flow-based mapping model trained with: (i) NLL loss, (ii) NLL and reconstruction losses, as well as (iii) reconstruction loss only. Additionally, we compare our model with SOTA VC baseline. The models are evaluated in terms of naturalness, speaker similarity, intelligibility in many-to-many and many-to-any VC settings. The results show that the proposed training paradigm systematically improves speaker similarity and naturalness when compared to regular training methods of normalizing flows. Furthermore, we show that our method improves speaker similarity and intelligibility over the state-of-the-art.
翻訳日:2023-12-29 19:04:49 公開日:2023-12-27
# ブラインド画像の品質評価:簡単な調査

Blind Image Quality Assessment: A Brief Survey ( http://arxiv.org/abs/2312.16551v1 )

ライセンス: Link先を確認
Miaohui Wang(参考訳) ブラインド画像品質評価(BIQA)は、参照にアクセスすることなく視覚信号の知覚品質を自動的に評価するために必要である。 本稿では,BIQA分野における最近の発展に関する総合的な分析と考察を行う。 手作りのBIQAは歪み特異的で汎用的な手法に特化しており、また教師なしおよび教師なしの学習技術を用いた深層学習のBIQAも網羅している。 さらに,視覚モダリティと音声モダリティの相互作用,および視覚モダリティとテキストモダリティを考慮したマルチモーダル品質評価手法についても検討した。 最後に、合成および真正の歪みを含む、代表的なbiqaデータベースに関する洞察を提供しました。 この調査は、最新の開発状況と、ビジュアル品質コミュニティの新たなトレンドに関する貴重な理解を提供するものだと考えています。

Blind Image Quality Assessment (BIQA) is essential for automatically evaluating the perceptual quality of visual signals without access to the references. In this survey, we provide a comprehensive analysis and discussion of recent developments in the field of BIQA. We have covered various aspects, including hand-crafted BIQAs that focus on distortion-specific and general-purpose methods, as well as deep-learned BIQAs that employ supervised and unsupervised learning techniques. Additionally, we have explored multimodal quality assessment methods that consider interactions between visual and audio modalities, as well as visual and text modalities. Finally, we have offered insights into representative BIQA databases, including both synthetic and authentic distortions. We believe this survey provides valuable understandings into the latest developments and emerging trends for the visual quality community.
翻訳日:2023-12-29 19:04:28 公開日:2023-12-27
# LLMはいかに、コンテキスト内のメジャーなラベルバイアスにロバストか?

How Robust are LLMs to In-Context Majority Label Bias? ( http://arxiv.org/abs/2312.16549v1 )

ライセンス: Link先を確認
Karan Gupta, Sumegh Roychowdhury, Siva Rajesh Kasa, Santhosh Kumar Kasa, Anish Bhanushali, Nikhil Pattisapu, Prasanna Srinivasa Murthy(参考訳) In-Context Learning (ICL) 設定では、ラベルバイアスの様々な形態が現れる。 このようなマニフェストのひとつがマジョリティラベルバイアスであり、コンテキスト内サンプルのラベル付きサンプルの分布が、LLM(Large Language Models)がそれらのラベルを予測しやすくする1つ以上の特定のクラスに歪められたときに発生する。 このような不一致は、実業界では避けられない、論理的制約、データ収集方法固有のバイアス、多様なデータソースへのアクセス制限など、さまざまな要因から生じる可能性がある。 本研究は,テキスト分類タスクのパースペクティブ内において,過半数のラベルバイアスに起因する変化に対するLLMにおける文脈内学習の堅牢性について検討する。 以前の研究は、llmによる文脈内学習はそのようなバイアスに影響を受けやすいことを示している。 本研究では,ロバスト性の境界がモデルやタスクによって大きく異なること,llmがラベルバイアスの多数派に対して高いロバスト(約90%)であること,などを示す。 さらに,モデルサイズの影響と,モデルのロバスト性に寄与する指導プロンプトの豊かさについても考察した。 私たちは、透明性と再現性を確保するために、公開可能なオープンソースモデルのみに研究を制限しています。

In the In-Context Learning (ICL) setup, various forms of label biases can manifest. One such manifestation is majority label bias, which arises when the distribution of labeled examples in the in-context samples is skewed towards one or more specific classes making Large Language Models (LLMs) more prone to predict those labels. Such discrepancies can arise from various factors, including logistical constraints, inherent biases in data collection methods, limited access to diverse data sources, etc. which are unavoidable in a real-world industry setup. In this work, we study the robustness of in-context learning in LLMs to shifts that occur due to majority label bias within the purview of text classification tasks. Prior works have shown that in-context learning with LLMs is susceptible to such biases. In our study, we go one level deeper and show that the robustness boundary varies widely for different models and tasks, with certain LLMs being highly robust (~90%) to majority label bias. Additionally, our findings also highlight the impact of model size and the richness of instructional prompts contributing towards model robustness. We restrict our study to only publicly available open-source models to ensure transparency and reproducibility.
翻訳日:2023-12-29 19:04:15 公開日:2023-12-27
# テキストの概念的多様性のための新しい尺度の提案

A proposed new metric for the conceptual diversity of a text ( http://arxiv.org/abs/2312.16548v1 )

ライセンス: Link先を確認
\.Ilknur D\"onmez Phd, Mehmet Hakl{\i}d{\i}r Phd(参考訳) 単語は1つ以上の隠された概念を含むことができる。 動物」という言葉は私たちの心に多くのイメージを喚起し、多くの概念(鳥、犬、猫、ワニなど)をカプセル化する一方で、「parrot」という言葉は1つのイメージ(短いくちばしと音を模倣する色のついた鳥)を連想させる。 話し言葉や書き言葉では、一般的な意味での単語と、特定の対象を指し示すための詳細な方法を使用する。 これまで、テキストの概念的多様性の値は標準的かつ正確な手法で決定できない。 本研究は、異なるテキストとドメインにおける概念の多様性を評価し比較するための標準化された方法とジェネリックメトリックを提供することにより、aiの自然言語処理分野に寄与する。 また、言語の意味研究の分野にも貢献している。 2つの文の多様性スコアの例を挙げると、"He found an unknown entity"は高い概念的多様性スコア(16.6801)を持ち、"the endoplasmic reticulum form a series of flattened sacs in the cytoplasm of eukaryotic cells"は3.9068である。

A word may contain one or more hidden concepts. While the "animal" word evokes many images in our minds and encapsulates many concepts (birds, dogs, cats, crocodiles, etc.), the `parrot' word evokes a single image (a colored bird with a short, hooked beak and the ability to mimic sounds). In spoken or written texts, we use some words in a general sense and some in a detailed way to point to a specific object. Until now, a text's conceptual diversity value cannot be determined using a standard and precise technique. This research contributes to the natural language processing field of AI by offering a standardized method and a generic metric for evaluating and comparing concept diversity in different texts and domains. It also contributes to the field of semantic research of languages. If we give examples for the diversity score of two sentences, "He discovered an unknown entity." has a high conceptual diversity score (16.6801), and "The endoplasmic reticulum forms a series of flattened sacs within the cytoplasm of eukaryotic cells." sentence has a low conceptual diversity score which is 3.9068.
翻訳日:2023-12-29 19:03:52 公開日:2023-12-27
# FALCON: メモリ効率の良いGNNのための特徴ラベル制約付きグラフネット崩壊

FALCON: Feature-Label Constrained Graph Net Collapse for Memory Efficient GNNs ( http://arxiv.org/abs/2312.16542v1 )

ライセンス: Link先を確認
Christopher Adnel and Islem Rekik(参考訳) グラフニューラルネットワーク(GNN)は、相互接続されたデータセットによる機械学習の新しい時代の幕開けとなった。 従来のニューラルネットワークは独立したサンプルでのみトレーニングできるが、GNNはトレーニングプロセスにサンプル間インタラクションを組み込むことができる。 しかし、これによりメモリコストが増大し、多くのGNNは数千万のノード(例えば、ソーシャルサークル、Webグラフ、脳グラフ)を持つ巨大で複雑なネットワークを含む現実世界のアプリケーションではスケールできない。 これは、GPUメモリが大幅に少ないGNNモデルをトレーニングするだけでも、グラフをメインメモリに格納することが難しいことを意味する。 近年の文献の多くは、GNN法や量子化に重点を置いているが、グラフの削減方法はほとんどない。 さらに、現在のグラフ削減アプローチにはいくつかの欠点がある。 まず、ほとんどのグラフ還元は推論段階(例えば凝縮と蒸留)のみに焦点を当て、完全なグラフgnnトレーニングを必要とするため、トレーニングメモリフットプリントは減少しない。 第二に、多くの手法はグラフの構造的側面にのみ焦点をあて、初期個体群の特徴-ラベル分布を無視し、歪んだ後ラベル分布をもたらす。 本稿では,これらの制約に対処するため,Feature-Label COnstrained graph Net collapse, FALCONを提案する。 私たちの3つの中心となる貢献は (i)機能ラベル分布を保存するトポロジー対応グラフ削減技術であるファルコンの設計 (II)FALCONと他のメモリ削減手法(ミニバッチGNNと量子化)を併用して、メモリ削減を図ること。 3) FALCONメモリ削減評価のためのSOTA法に対する広範なベンチマークおよびアブレーション研究。 以上の結果から,FALCONはGNNモデル間で同等の予測品質を達成しつつ,様々な公開データセットを著しく崩壊させることができることがわかった。 コード:https://github.com/basiralab/FALCON

Graph Neural Network (GNN) ushered in a new era of machine learning with interconnected datasets. While traditional neural networks can only be trained on independent samples, GNN allows for the inclusion of inter-sample interactions in the training process. This gain, however, incurs additional memory cost, rendering most GNNs unscalable for real-world applications involving vast and complicated networks with tens of millions of nodes (e.g., social circles, web graphs, and brain graphs). This means that storing the graph in the main memory can be difficult, let alone training the GNN model with significantly less GPU memory. While much of the recent literature has focused on either mini-batching GNN methods or quantization, graph reduction methods remain largely scarce. Furthermore, present graph reduction approaches have several drawbacks. First, most graph reduction focuses only on the inference stage (e.g., condensation and distillation) and requires full graph GNN training, which does not reduce training memory footprint. Second, many methods focus solely on the graph's structural aspect, ignoring the initial population feature-label distribution, resulting in a skewed post-reduction label distribution. Here, we propose a Feature-Label COnstrained graph Net collapse, FALCON, to address these limitations. Our three core contributions lie in (i) designing FALCON, a topology-aware graph reduction technique that preserves feature-label distribution; (ii) implementation of FALCON with other memory reduction methods (i.e., mini-batched GNN and quantization) for further memory reduction; (iii) extensive benchmarking and ablation studies against SOTA methods to evaluate FALCON memory reduction. Our extensive results show that FALCON can significantly collapse various public datasets while achieving equal prediction quality across GNN models. Code: https://github.com/basiralab/FALCON
翻訳日:2023-12-29 19:03:27 公開日:2023-12-27
# 光の角位置と角運動量の量子状態について

On Quantum States for angular Position and Angular Momentum of Light ( http://arxiv.org/abs/2312.16535v1 )

ライセンス: Link先を確認
Bo-Sture K. Skagerstam and Per K. Rekdal(参考訳) 本稿では,自己随伴可観測角位置 $\theta$ と対応する角運動量演算子 $l = -id/d\theta$ に対する楕円型ヤコビテータ関数を用いて,適切に定義された量子状態を構成する。 状態に対する量子不確実性 $\Delta \theta$ と $\Delta L$ はよく定義されており、例えば、不確実性積 $\Delta \theta \Delta L$ の値が Ref の最小不確実性状態よりも低いことが示されている。 略称は「Padgett_2004」。 状態の平均値$<l>$は整数である必要はない。 半整数平均値 $<L >$ の場合、状態は上と下の境界を持つ顕著な臨界挙動を示し、$\Delta \theta < \sqrt{\pi^2/3 -2}$ と $\Delta L > 1/2$ である。

In the present paper we construct a properly defined quantum state expressed in terms of elliptic Jacobi theta functions for the self-adjoint observables angular position $\theta$ and the corresponding angular momentum operator $L = -id/d\theta$. The quantum uncertainties $\Delta \theta$ and $\Delta L$ for the state are well-defined and are, e.g., shown to give a lower value of the uncertainty product $\Delta \theta \Delta L$ than the minimal uncertainty states of Ref.\cite{Padgett_2004}. The mean value $< L >$ of the state is not required to be an integer. In the case of any half-integer mean value $< L >$ the state constructed exhibits a remarkable critical behavior with upper and lower bounds $\Delta \theta < \sqrt{\pi^2/3 -2}$ and $\Delta L > 1/2$.
翻訳日:2023-12-29 19:02:57 公開日:2023-12-27
# 量子パラメトリック発振器における非ガウス性の研究

Dawn and fall of non-Gaussianity in the quantum parametric oscillator ( http://arxiv.org/abs/2312.16530v1 )

ライセンス: Link先を確認
Marcello Calvanese Strinati, Claudio Conti(参考訳) イジングマシンを形成する光パラメトリック発振器(OPO)の結合システムは、イジングモデルの大規模シミュレータとして出現している。 コンピュータ科学と非線形光学の進歩は、ハイブリッド(電子光学)または全光学イジングマシンの物理的実現だけでなく、量子インスパイアされたアルゴリズムの実証によって性能が向上した。 これまでのところ、パラメトリック生成光の量子的性質を計算のためのさらなる資源として用いることは、大きな未解決問題である。 鍵となる量子的特徴は、振動閾値を越えて系の状態の非ガウス的特徴である。 本稿では,応用外部場を持つ単一量子OPOにおける非ガウス性の出現を広範囲に解析する。 完全対角化に基づく ab initio 法による数値解法である lindblad master 方程式により opo をモデル化する。 非ガウス性は、ヒルベルト=シュミット距離、量子相対エントロピー、光子分布の3つの異なる指標によって定量化される。 パラメトリックドライブと応用フィールドの非自明な相互作用を明らかにする。 (i)ポンプの増加は単調に非ガウス性を高め、 (ii) 磁場の増加はまず非ガウス性が鋭くなり、次いで閾値を超えると状態のガウス性が回復する。

Systems of coupled optical parametric oscillators (OPOs) forming an Ising machine are emerging as large-scale simulators of the Ising model. The advances in computer science and nonlinear optics have triggered not only the physical realization of hybrid (electro-optical) or all-optical Ising machines, but also the demonstration of quantum-inspired algorithms boosting their performances. To date, the use of the quantum nature of parametrically generated light as a further resource for computation represents a major open issue. A key quantum feature is the non-Gaussian character of the system state across the oscillation threshold. In this paper, we perform an extensive analysis of the emergence of non-Gaussianity in the single quantum OPO with an applied external field. We model the OPO by a Lindblad master equation, which is numerically solved by an ab initio method based on exact diagonalization. Non-Gaussianity is quantified by means of three different metrics: Hilbert-Schmidt distance, quantum relative entropy, and photon distribution. Our findings reveal a nontrivial interplay between parametric drive and applied field: (i) Increasing pump monotonously enhances non-Gaussianity, and (ii) Increasing field first sharpens non-Gaussianity, and then restores the Gaussian character of the state when above a threshold value.
翻訳日:2023-12-29 19:02:34 公開日:2023-12-27
# 近傍近傍分類アルゴリズム構築のためのリッチカテゴリー理論の利用

Using Enriched Category Theory to Construct the Nearest Neighbour Classification Algorithm ( http://arxiv.org/abs/2312.16529v1 )

ライセンス: Link先を確認
Matthew Pugh, Jo Grundy, Corina Cirstea, Nick Harris(参考訳) 強化カテゴリー理論が機械学習の代替アプローチの基盤となるかどうかを探求する。 本稿では,強化カテゴリー理論のみを用いた機械学習アルゴリズムの構築と動機付けを行う。 カテゴリー理論がロバストで説明可能なアルゴリズムの動機付けに利用できるという証拠を補うために、データセットに関する一連の合理的な仮定がNearest Neighbours Algorithmの構築につながることを示した。 特に、ローヴェア計量空間の圏におけるプロファンクターを用いた元のデータセットの拡張として。 これにより、よりリッチな近近近傍アルゴリズムが定義され、結果としてヴォロノイ図形のリッチな形式も生成される。 本論文はカテゴリー理論の知識がなくてもアクセス可能であることを意図している。

Exploring whether Enriched Category Theory could provide the foundation of an alternative approach to Machine Learning. This paper is the first to construct and motivate a Machine Learning algorithm solely with Enriched Category Theory. In order to supplement evidence that Category Theory can be used to motivate robust and explainable algorithms, it is shown that a series of reasonable assumptions about a dataset lead to the construction of the Nearest Neighbours Algorithm. In particular, as an extension of the original dataset using profunctors in the category of Lawvere metric spaces. This leads to a definition of an Enriched Nearest Neighbours Algorithm, which consequently also produces an enriched form of the Voronoi diagram. This paper is intended to be accessible without any knowledge of Category Theory
翻訳日:2023-12-29 19:02:13 公開日:2023-12-27
# 運動空間」表現におけるタキオン

Tachyons in "momentum-space'' representation ( http://arxiv.org/abs/2312.16522v1 )

ライセンス: Link先を確認
Victor Aldaya, Julio Guerrero and Francisco F. L\'opez-Ruiz(参考訳) タキオン粒子」に付随する運動量空間は、ポインカルユエ群の時空変換によって直接パラメータ化された通常の双対空間からミンコフスキー空間へと非常に複雑であることが証明される。 実際、時空変換に関連する運動定数(ネーター不変量)によって記述されるが、それらは回転部分群のパラメータに非自明に依存する。 しかし、モーメント空間がネーター不変量によってパラメータ化されると、通常の粒子のように振る舞う。 一方、進化パラメータはもはや、ネーター不変量である$P_o$が基本となる時間変換に関連付けられていない。 進化は空間的な方向で行われる。 これらの事実は、対応する表現の計算を難しくするだけでなく、コーシー超曲面、スカラー積、そしてもちろん因果関係に関するいくつかの伝統的な成分の健全な修正を強いる。 その後、理論は一貫したものとなり、インフレーションやブラックホールの中を旅するといった特別な物理的状況に新しい光を当てることができた。

The momentum space associated with "tachyonic particles" proves to be rather intricate, departing very much from the ordinary dual to Minkowski space directly parametrized by space-time translations of the Poincar\'e group. In fact, although described by the constants of motion (Noether invariants) associated with space-time translations, they depend non-trivially on the parameters of the rotation subgroup. However, once the momentum space is parametrized by the Noether invariants, it behaves exactly as that of ordinary particles. On the other hand, the evolution parameter is no longer the one associated with time translation, whose Noether invariant, $P_o$, is now a basic one. Evolution takes place in a spatial direction. These facts not only make difficult the computation of the corresponding representation, but also force us to a sound revision of several traditional ingredients related to Cauchy hypersurface, scalar product and, of course, causality. After that, the theory becomes consistent and could shed new light on some special physical situations like inflation or traveling inside a black hole.
翻訳日:2023-12-29 19:02:00 公開日:2023-12-27
# 反復的プレコンディショニング誘導による拡散モデルによる画像復元

Image Restoration by Denoising Diffusion Models with Iteratively Preconditioned Guidance ( http://arxiv.org/abs/2312.16519v1 )

ライセンス: Link先を確認
Tomer Garber, Tom Tirer(参考訳) ディープニューラルネットワークのトレーニングは、画像復元問題を解決する一般的なアプローチとなっている。 各観測モデルに対して「タスク固有の」ネットワークをトレーニングする別の方法は、事前訓練されたディープデノイザを使用して、追加のトレーニングをすることなく、信号の事前の反復アルゴリズムのみを付与することである。 近年,拡散/スコアベース生成モデルの普及により,本手法のサンプリングに基づく変種が普及している。 一般的な目的の復元にデノイザーを使用するには、観測と信号の一致を保証するために反復を導く必要がある。 低ノイズ環境では、バックプロジェクション(BP)に基づくガイダンスは有望な戦略であることが示されている(最近は"pseudoinverse" や "range/null-space" と呼ばれることもある)。 しかし、観測におけるノイズの存在は、このアプローチの利益を妨げている。 本稿では,bpに基づく指導から復元計画に沿った最小二乗法へのトラバースを可能にするプリコンディショニングに基づく新しい指導手法を提案する。 提案手法はノイズに対して堅牢であるが、代替手法よりもはるかに単純な実装である(例えば、SVDや多数のイテレーションを必要としない)。 最適化スキームとサンプリングベーススキームの両方で使用し、既存の画像分解法や超解像法よりも優れていることを示す。

Training deep neural networks has become a common approach for addressing image restoration problems. An alternative for training a "task-specific" network for each observation model is to use pretrained deep denoisers for imposing only the signal's prior within iterative algorithms, without additional training. Recently, a sampling-based variant of this approach has become popular with the rise of diffusion/score-based generative models. Using denoisers for general purpose restoration requires guiding the iterations to ensure agreement of the signal with the observations. In low-noise settings, guidance that is based on back-projection (BP) has been shown to be a promising strategy (used recently also under the names "pseudoinverse" or "range/null-space" guidance). However, the presence of noise in the observations hinders the gains from this approach. In this paper, we propose a novel guidance technique, based on preconditioning that allows traversing from BP-based guidance to least squares based guidance along the restoration scheme. The proposed approach is robust to noise while still having much simpler implementation than alternative methods (e.g., it does not require SVD or a large number of iterations). We use it within both an optimization scheme and a sampling-based scheme, and demonstrate its advantages over existing methods for image deblurring and super-resolution.
翻訳日:2023-12-29 19:01:41 公開日:2023-12-27
# constscene: 建設環境におけるロバストな意味セグメンテーションのためのデータセットとモデル

ConstScene: Dataset and Model for Advancing Robust Semantic Segmentation in Construction Environments ( http://arxiv.org/abs/2312.16516v1 )

ライセンス: Link先を確認
Maghsood Salimi, Mohammad Loni, Sara Afshar, Marjan Sirjani, Antonio Cicchetti(参考訳) 建設環境における自律機械の需要の増加は、様々な気象や環境条件で効果的に機能する堅牢な物体検出アルゴリズムの開発を必要とする。 本稿では,建設現場用に特別に調整された新しい意味セグメンテーションデータセットを提案する。 データセットは、オブジェクト検出モデルのトレーニングと評価を強化し、実際の構築アプリケーションにおける適応性と信頼性を育むように設計されている。 我々のデータセットは、晴れた日、雨季、霧の大気、低照度状況など、さまざまな気象条件下で撮影された注釈付き画像で構成されています。 さらに、カメラレンズ上の汚れや泥の存在などの環境要因を、実際のキャプチャと合成生成を通じてデータセットに統合し、建設現場で一般的な複雑な条件をシミュレートする。 また, 車輪ローダマシン, 人体, 車体, 構造要素など, 建設環境に共通するさまざまなオブジェクトに対して, 正確な意味的セグメンテーションマスクを含むアノテーションの合成画像を生成する。 データセットの有用性を示すために,提案するベンチマークにおいて,最先端のオブジェクト検出アルゴリズムを評価する。 その結果、様々な条件における敵対的トレーニングモデルの成功が強調され、そのような環境変動を欠いた既存のデータセットと比較して、その有効性が示された。

The increasing demand for autonomous machines in construction environments necessitates the development of robust object detection algorithms that can perform effectively across various weather and environmental conditions. This paper introduces a new semantic segmentation dataset specifically tailored for construction sites, taking into account the diverse challenges posed by adverse weather and environmental conditions. The dataset is designed to enhance the training and evaluation of object detection models, fostering their adaptability and reliability in real-world construction applications. Our dataset comprises annotated images captured under a wide range of different weather conditions, including but not limited to sunny days, rainy periods, foggy atmospheres, and low-light situations. Additionally, environmental factors such as the existence of dirt/mud on the camera lens are integrated into the dataset through actual captures and synthetic generation to simulate the complex conditions prevalent in construction sites. We also generate synthetic images of the annotations including precise semantic segmentation masks for various objects commonly found in construction environments, such as wheel loader machines, personnel, cars, and structural elements. To demonstrate the dataset's utility, we evaluate state-of-the-art object detection algorithms on our proposed benchmark. The results highlight the dataset's success in adversarial training models across diverse conditions, showcasing its efficacy compared to existing datasets that lack such environmental variability.
翻訳日:2023-12-29 19:01:18 公開日:2023-12-27
# S2M:会話型質問応答のためのシングルTurnからマルチTurnへの変換

S2M: Converting Single-Turn to Multi-Turn Datasets for Conversational Question Answering ( http://arxiv.org/abs/2312.16511v1 )

ライセンス: Link先を確認
Baokui Li, Sen Zhang, Wangshu Zhang, Yicheng Chen, Changlin Yang, Sen Hu, Teng Xu, Siye liu, Jiwei Li(参考訳) 会話型質問応答(CQA)へのデータ追加は、効果的にモデル性能を向上させることができる。 しかし、シングルターンデータセットとマルチターンデータセットの分散ギャップのため、CQAにおけるシングルターンデータセットの改善は少ない。 一方,シングルターンデータセットは多数用意されているが,有効利用はされていない。 そこで本研究では,シングルターンデータセットをマルチターンデータセットに変換する新しい手法を提案する。 提案手法は, qaペア生成器, qaペア再組み立て器, 質問書き直し器の3つの部分からなる。 コンテクストとシングルターンQAペアからなるサンプルが与えられた場合、ジェネレータはコンテキストに基づいて候補QAペアと知識グラフを取得する。 Reassemblerは知識グラフを利用して逐次QAペアを取得し、Rewriterは会話の観点から質問を書き直してマルチターンデータセットS2Mを得る。 提案手法は,CQAのための効果的なトレーニング資源を合成できることを示す。 特に、S2Mは提出時点でQuACのリーダーボードで1位(2022年8月24日)。

Supplying data augmentation to conversational question answering (CQA) can effectively improve model performance. However, there is less improvement from single-turn datasets in CQA due to the distribution gap between single-turn and multi-turn datasets. On the other hand, while numerous single-turn datasets are available, we have not utilized them effectively. To solve this problem, we propose a novel method to convert single-turn datasets to multi-turn datasets. The proposed method consists of three parts, namely, a QA pair Generator, a QA pair Reassembler, and a question Rewriter. Given a sample consisting of context and single-turn QA pairs, the Generator obtains candidate QA pairs and a knowledge graph based on the context. The Reassembler utilizes the knowledge graph to get sequential QA pairs, and the Rewriter rewrites questions from a conversational perspective to obtain a multi-turn dataset S2M. Our experiments show that our method can synthesize effective training resources for CQA. Notably, S2M ranks 1st place on the QuAC leaderboard at the time of submission (Aug 24th, 2022).
翻訳日:2023-12-29 19:00:52 公開日:2023-12-27
# 複雑系とモデルにおける隠れ推定の方法論的発見と扱いに向けて

Toward Methodical Discovery and Handling of Hidden Assumptions in Complex Systems and Models ( http://arxiv.org/abs/2312.16507v1 )

ライセンス: Link先を確認
David Harel, Uwe A{\ss}mann, Fabiana Fournier, Lior Limonad, Assaf Marron and Smadar Szekely(参考訳) 複雑なシステムやモデルの開発のための方法論には、ドメインや技術の専門家による外部レビューが含まれる。 このようなレビューは、正確で安全な操作や制約の適用性に不可欠な、文書化されていないビルトインの仮定を明らかにすることができる。 このような仮定は、レビューやアジャイル開発、リスク分析といった人間中心のプロセスからいまだに逃れる可能性があるため、私たちはこのプロセスをより体系的で自動化可能にするために貢献します。 まず,分類学の青写真と問題の形式化について述べる。 そして、システムやモデルのさまざまなデジタルアーティファクトが、広範な参照知識に対して自動的にチェックされることを示す。 専門家の知識やスキルの広さや深さを模倣することは不可能に思われるので,openaiのchatgptを用いた初歩的な実験による自動化の基本的な実現可能性を示す。 システム工学のこの側面を体系的に扱うことは、複雑なシステムやモデルの品質と安全性、そして開発プロジェクトの効率に大きく貢献できると考えている。 私たちはこの研究を、モデリングとモデルベースの開発、産業とアカデミアへの貢献、特に安全性に重点を置いたwerner damm氏に捧げ、我々の規律と、ここで説明するアプローチや技術を含む多くの科学者や専門家の仕事に対する確固たる基盤を確立するのに役立ちました。

Methodologies for development of complex systems and models include external reviews by domain and technology experts. Among others, such reviews can uncover undocumented built-in assumptions that may be critical for correct and safe operation or constrain applicability. Since such assumptions may still escape human-centered processes like reviews, agile development, and risk analyses, here, we contribute toward making this process more methodical and automatable. We first present a blueprint for a taxonomy and formalization of the problem. We then show that a variety of digital artifacts of the system or model can be automatically checked against extensive reference knowledge. Since mimicking the breadth and depth of knowledge and skills of experts may appear unattainable, we illustrate the basic feasibility of automation with rudimentary experiments using OpenAI's ChatGPT. We believe that systematic handling of this aspect of system engineering can contribute significantly to the quality and safety of complex systems and models, and to the efficiency of development projects. We dedicate this work to Werner Damm, whose contributions to modeling and model-based development, in industry and academia, with a special focus on safety, helped establish a solid foundation to our discipline and to the work of many scientists and professionals, including, naturally, the approaches and techniques described here.
翻訳日:2023-12-29 19:00:35 公開日:2023-12-27
# 注意深い貯留層計算

Attention-Enhanced Reservoir Computing ( http://arxiv.org/abs/2312.16503v1 )

ライセンス: Link先を確認
Felix K\"oster, Kazutaka Kanno, Jun Ohkubo, and Atsushi Uchida(参考訳) 時系列予測では、これらの予測を加速するハードウェア実装の必要性が高まっているため、フォトニック・リザーバ・コンピューティングが利用されてきた。 カオス時系列の予測は依然として重要な課題であり、従来の貯留層計算フレームワークが予測精度の限界に遭遇する分野である。 出力段階における貯水池計算モデルに注意機構を導入する。 このアテンション層は、異なる特徴と時間系列を優先して設計され、予測精度が大幅に向上する。 その結果,注意機構が強化されたフォトニック貯水池コンピュータは,小型貯水池の予測能力の向上を示した。 これらの進歩は、カオス時系列の正確な予測が不可欠である実用的な応用のための貯水池計算の転換可能性を強調している。

Photonic reservoir computing has been recently utilized in time series forecasting as the need for hardware implementations to accelerate these predictions has increased. Forecasting chaotic time series remains a significant challenge, an area where the conventional reservoir computing framework encounters limitations of prediction accuracy. We introduce an attention mechanism to the reservoir computing model in the output stage. This attention layer is designed to prioritize distinct features and temporal sequences, thereby substantially enhancing the forecasting accuracy. Our results show that a photonic reservoir computer enhanced with the attention mechanism exhibits improved forecasting capabilities for smaller reservoirs. These advancements highlight the transformative possibilities of reservoir computing for practical applications where accurate forecasting of chaotic time series is crucial.
翻訳日:2023-12-29 19:00:10 公開日:2023-12-27
# EasyView: 統合開発環境にパフォーマンスプロファイルをもたらす

EasyView: Bringing Performance Profiles into Integrated Development Environments ( http://arxiv.org/abs/2312.16598v1 )

ライセンス: Link先を確認
Qidong Zhao, Milind Chabbi, Xu Liu(参考訳) 動的プログラム解析(プロファイリング)は、ソフトウェアパッケージのパフォーマンスの非効率を識別する能力で有名である。 多くの動的プログラム解析技術が学術や産業で開発されているが、ソフトウェア開発者によって通常のソフトウェア開発活動で広く利用されているものはほとんどない。 主な理由は3つある。 まず、動的解析ツール(プロファイラとしても知られる)は、ideやエディタといったコーディング環境とは無関係です。 第二に、分析結果を解釈するために様々なツールを習得するには、かなりの努力が必要だ。さらに悪いことに、多くのツールは、データ表示のためのグラフィカルユーザインタフェース(GUI)を独自に設計しており、学習曲線を急ぐ。 第3に、ほとんどの既存のツールはユーザ定義の分析をサポートするためのインターフェースをほとんど公開していない。 コーディング環境において、様々なプロファイリング結果の解釈と視覚化を統合するための一般的なソリューションであるEasyViewを開発した。 EasyViewの新規性は3倍だ。 まず,さまざまな言語を対象とした主流プロファイラをサポート可能な汎用データフォーマットを開発する。 第2に,プロファイルの分析と視覚化を直感的に行うための,カスタマイズ可能なスキームセットを開発した。 第三に、EasyViewをMicrosoft Visual Studio Codeのような人気のあるコーディング環境と密に統合し、簡単なコード探索とユーザインタラクションを提供します。 評価の結果、easyviewはさまざまな言語でさまざまなプロファイラをサポートでき、異なるドメインのパフォーマンスの非効率性に関するユニークな洞察を提供できることがわかった。

Dynamic program analysis (also known as profiling) is well-known for its powerful capabilities of identifying performance inefficiencies in software packages. Although a large number of dynamic program analysis techniques are developed in academia and industry, very few of them are widely used by software developers in their regular software developing activities. There are three major reasons. First, the dynamic analysis tools (also known as profilers) are disjoint from the coding environments such as IDEs and editors; frequently switching focus between them significantly complicates the entire cycle of software development. Second, mastering various tools to interpret their analysis results requires substantial efforts; even worse, many tools have their own design of graphical user interfaces (GUI) for data presentation, which steepens the learning curves. Third, most existing tools expose few interfaces to support user-defined analysis, which makes the tools less customizable to fulfill diverse user demands. We develop EasyView, a general solution to integrate the interpretation and visualization of various profiling results in the coding environments, which bridges software developers with profilers to provide easy and intuitive dynamic analysis during the code development cycle. The novelty of EasyView is three-fold. First, we develop a generic data format, which enables EasyView to support mainstream profilers for different languages. Second, we develop a set of customizable schemes to analyze and visualize the profiles in intuitive ways. Third, we tightly integrate EasyView with popular coding environments, such as Microsoft Visual Studio Code, with easy code exploration and user interaction. Our evaluation shows that EasyView is able to support various profilers for different languages and provide unique insights into performance inefficiencies in different domains.
翻訳日:2023-12-29 18:53:33 公開日:2023-12-27
# 外周重み付きオートエンコーダによる交通流予測の強化:リアルタイム変更処理

Enhancing Traffic Flow Prediction using Outlier-Weighted AutoEncoders: Handling Real-Time Changes ( http://arxiv.org/abs/2312.16596v1 )

ライセンス: Link先を確認
Himanshu Choudhary and Marwan Hassani(参考訳) 今日の都市景観において、交通渋滞は、特に異常なシナリオにおいて、重要な課題となっている。 これらの異常値は、突然のトラフィックピーク、落下、または不規則な傾向を示し、しばしば事故、イベント、道路工事などの要因から生じる。 さらに,交通の動的な性質を考えると,交通予測の正確かつ最新性を確保するために,リアルタイム交通モデリングの必要性も重要となる。 これらの課題に対処するために、Outlier Weighted Autoencoder Modeling (OWAM)フレームワークを紹介します。 OWAMは自動エンコーダを用いて局所的な異常検出を行い、近隣の交通の影響を評価する相関スコアを生成する。 これらのスコアは、モデルに融合する前に、近隣のセンサーの重み付け要因となる。 この情報はトラフィックモデルの性能を高め、動的なトラフィックパターンをキャプチャするための重要な側面である効果的なリアルタイム更新をサポートする。 OWAMは精度と効率のトレードオフを示し、現実世界のアプリケーションに非常に適している。 本研究は,より効率的で適応的な交通予測モデルの開発に大きく寄与し,今後の交通管理の分野を前進させる。 私たちのフレームワークのコードとデータセットはhttps://github.com/himanshudce/OWAM.comで公開されています。

In today's urban landscape, traffic congestion poses a critical challenge, especially during outlier scenarios. These outliers can indicate abrupt traffic peaks, drops, or irregular trends, often arising from factors such as accidents, events, or roadwork. Moreover, Given the dynamic nature of traffic, the need for real-time traffic modeling also becomes crucial to ensure accurate and up-to-date traffic predictions. To address these challenges, we introduce the Outlier Weighted Autoencoder Modeling (OWAM) framework. OWAM employs autoencoders for local outlier detection and generates correlation scores to assess neighboring traffic's influence. These scores serve as a weighted factor for neighboring sensors, before fusing them into the model. This information enhances the traffic model's performance and supports effective real-time updates, a crucial aspect for capturing dynamic traffic patterns. OWAM demonstrates a favorable trade-off between accuracy and efficiency, rendering it highly suitable for real-world applications. The research findings contribute significantly to the development of more efficient and adaptive traffic prediction models, advancing the field of transportation management for the future. The code and datasets of our framework is publicly available under https://github.com/himanshudce/OWAM.
翻訳日:2023-12-29 18:53:06 公開日:2023-12-27
# GaAs量子ドットにおける2つの一重項量子ビットの最大絡み合いの制限

Limitations on the maximal level of entanglement of two singlet-triplet qubits in GaAs quantum dots ( http://arxiv.org/abs/2312.16583v1 )

ライセンス: Link先を確認
Igor Bragar, {\L}ukasz Cywi\'nski(参考訳) 磁場勾配 ($\delta b_{z}$) に関連するエネルギーが一重項状態と三重項状態 (shulman m. et al., science 336, 202 (2012)] の間の交換エネルギー ($j$) よりも桁違いに小さい場合の、2つの一重項三重項 (s$-$t_{0}$) 量子ビットの絡み合いの手順を詳細に分析した。 理論的には1つの$S$-$T_{0}$ qubitを自由誘導減衰とスピンエコー実験で研究した。 我々はBlochベクトルの成分の時間依存性に関する解析式を$\Delta B_{z}$の準静的揺らぎと$J$の準静的あるいは動的な1/f^{\beta}$タイプのゆらぎに対して取得した。 次に、これらのパラメータの揺らぎが2つの$S$-$T_{0}$ qubits間のIsing型結合を利用するエンタングリング手順の効率に与える影響を考察した。 特に、1/f^{\beta}$-type fluctuations of $J$の影響を受ける2つの量子ビットの進化に関する解析式を得た。 この式は、絡み込み手順を実行することで生成できる最大の絡み合いレベルを示す。 以上の実験では、S$-$T_{0}$ qubitsは非相関な1/f^{\beta$ チャージノイズの影響を受けていた。

We analyze in detail a procedure of entangling of two singlet-triplet ($S$-$T_{0}$) qubits operated in a regime when energy associated with the magnetic field gradient, $\Delta B_{z}$, is an order of magnitude smaller than the exchange energy, $J$, between singlet and triplet states [Shulman M. et al., Science 336, 202 (2012)]. We have studied theoretically a single $S$-$T_{0}$ qubit in free induction decay and spin echo experiments. We have obtained analytical expressions for time dependence of components of its Bloch vector for quasistatical fluctuations of $\Delta B_{z}$ and quasistatical or dynamical $1/f^{\beta}$-type fluctuations of $J$. We have then considered the impact of fluctuations of these parameters on the efficiency of the entangling procedure which uses an Ising-type coupling between two $S$-$T_{0}$ qubits. Particularly, we have obtained an analytical expression for evolution of two qubits affected by $1/f^{\beta}$-type fluctuations of $J$. This expression indicates the maximal level of entanglement that can be generated by performing the entangling procedure. Our results deliver also an evidence that in the above-mentioned experiment, the $S$-$T_{0}$ qubits were affected by uncorrelated $1/f^{\beta}$ charge noises.
翻訳日:2023-12-29 18:52:48 公開日:2023-12-27
# ポイントクラウド再構築のための学習可能なシャムハ距離

Learnable Chamfer Distance for Point Cloud Reconstruction ( http://arxiv.org/abs/2312.16582v1 )

ライセンス: Link先を確認
Tianxin Huang, Qingyao Liu, Xiangrui Zhao, Jun Chen, Yong Liu(参考訳) 点雲は変分不変の3次元信号であるため、既存の作業の多くは、予め定義された規則と一致する点雲間の平均点間距離との形状差を計測して、再構成ネットワークを訓練する。 しかし、静的マッチング規則は実際の形状の違いから逸脱する可能性がある。 適合するルールを置き換えるために動的に更新された学習可能な構造を提案する作品もあるが、うまく収束するにはより多くのイテレーションが必要である。 本研究では,学習可能なネットワーク群で制御される異なる重み分布の一致した距離に動的に注意を払うことで,学習可能なチャンファー距離(LCD)という,シンプルで効果的な再構成損失を提案する。 逆戦略を用いてトレーニングすることにより、LCDは再構成された結果の欠陥を探索し、静的マッチングルールの弱点を克服する。 複数の再構成ネットワークの実験により、LCDはより優れた再構成性能を実現し、より高速な収束と同等の訓練効率でより代表的な表現を抽出できることを確認した。 ソースコードはhttps://github.com/Tianxinhuang/LCDNet.gitで公開されている。

As point clouds are 3D signals with permutation invariance, most existing works train their reconstruction networks by measuring shape differences with the average point-to-point distance between point clouds matched with predefined rules. However, the static matching rules may deviate from actual shape differences. Although some works propose dynamically-updated learnable structures to replace matching rules, they need more iterations to converge well. In this work, we propose a simple but effective reconstruction loss, named Learnable Chamfer Distance (LCD) by dynamically paying attention to matching distances with different weight distributions controlled with a group of learnable networks. By training with adversarial strategy, LCD learns to search defects in reconstructed results and overcomes the weaknesses of static matching rules, while the performances at low iterations can also be guaranteed by the basic matching algorithm. Experiments on multiple reconstruction networks confirm that LCD can help achieve better reconstruction performances and extract more representative representations with faster convergence and comparable training efficiency. The source codes are provided in https://github.com/Tianxinhuang/LCDNet.git.
翻訳日:2023-12-29 18:52:18 公開日:2023-12-27
# 正規および不規則時系列インプットのための連続時間オートエンコーダ

Continuous-time Autoencoders for Regular and Irregular Time Series Imputation ( http://arxiv.org/abs/2312.16581v1 )

ライセンス: Link先を確認
Hyowon Wi, Yehjin Shin, Noseong Park, Sungpil Woo, Sunhwan Lim(参考訳) 時系列計算は、時系列の最も基本的なタスクの1つである。 実世界の時系列データセットは、しばしば不完全である(または観測が不完全である)。 多くの異なる時系列計算法が提案されている。 最近のセルフアテンションに基づく手法は最先端のインプテーション性能を示している。 しかし、連続時間リカレントニューラルネットワーク(rnn)、すなわちニューラルネットワーク制御微分方程式(ncdes)に基づくインプテーション法を設計するのは、長い間見過ごされてきた。 この目的のために、NCDEに基づいて時系列(変分)オートエンコーダを再設計する。 提案手法は連続時間オートエンコーダ(cta)と呼ばれ、入力時系列サンプルを(隠れたベクトルではなく)連続した隠れ経路に符号化し、それをデコードして入力を再構成・インデュートする。 4つのデータセットと19のベースラインを用いた実験では、ほぼすべてのケースで最高のインプテーション性能を示す。

Time series imputation is one of the most fundamental tasks for time series. Real-world time series datasets are frequently incomplete (or irregular with missing observations), in which case imputation is strongly required. Many different time series imputation methods have been proposed. Recent self-attention-based methods show the state-of-the-art imputation performance. However, it has been overlooked for a long time to design an imputation method based on continuous-time recurrent neural networks (RNNs), i.e., neural controlled differential equations (NCDEs). To this end, we redesign time series (variational) autoencoders based on NCDEs. Our method, called continuous-time autoencoder (CTA), encodes an input time series sample into a continuous hidden path (rather than a hidden vector) and decodes it to reconstruct and impute the input. In our experiments with 4 datasets and 19 baselines, our method shows the best imputation performance in almost all cases.
翻訳日:2023-12-29 18:51:58 公開日:2023-12-27
# VLCounter:ゼロショットオブジェクトカウントのためのテキスト認識型視覚表現

VLCounter: Text-aware VIsual Representation for Zero-Shot Object Counting ( http://arxiv.org/abs/2312.16580v1 )

ライセンス: Link先を確認
Seunggu Kang, WonJun Moon, Euiyeon Kim, Jae-Pil Heo(参考訳) Zero-Shot Object Counting (ZSOC)は、クエリイメージ内の任意のクラスの参照インスタンスを、人間が注釈を付けることなくカウントすることを目的としている。 ZSOCに対処するため、先行研究は2段階のパイプラインを提案した。 しかし、逐次的に設計された2段階プロセスのエラー伝播には脆弱性がある。 本稿では,CLIPのセマンティックパッチ埋め込みの暗黙的関連を探求するワンステージベースラインであるVisual-Language Baseline (VLBase)を提案する。 その後、VLBaseからVisual- Language Counter(VLCounter)への拡張は、オブジェクトカウントのためにVLBaseをカスタマイズするために考案された3つのモジュールを統合することで達成される。 まず、SPT(Semantic-conditioned Prompt Tuning)が画像エンコーダ内に導入され、ターゲットハイライト表現を取得する。 第二に、Learningable Affine Transformation (LAT) を用いて、意味パッチ類似性マップをカウントタスクに適したものに翻訳する。 最後に、レイヤワイズで符号化された機能は、Segment-aware Skip Connection (SaSC)を通じてデコーダに転送される。 FSC147、CARPK、PUCPR+に関する広範な実験を通じて、エンドツーエンドフレームワークであるVLCounterの利点が示された。

Zero-Shot Object Counting (ZSOC) aims to count referred instances of arbitrary classes in a query image without human-annotated exemplars. To deal with ZSOC, preceding studies proposed a two-stage pipeline: discovering exemplars and counting. However, there remains a challenge of vulnerability to error propagation of the sequentially designed two-stage process. In this work, an one-stage baseline, Visual-Language Baseline (VLBase), exploring the implicit association of the semantic-patch embeddings of CLIP is proposed. Subsequently, the extension of VLBase to Visual-language Counter (VLCounter) is achieved by incorporating three modules devised to tailor VLBase for object counting. First, Semantic-conditioned Prompt Tuning (SPT) is introduced within the image encoder to acquire target-highlighted representations. Second, Learnable Affine Transformation (LAT) is employed to translate the semantic-patch similarity map to be appropriate for the counting task. Lastly, the layer-wisely encoded features are transferred to the decoder through Segment-aware Skip Connection (SaSC) to keep the generalization capability for unseen classes. Through extensive experiments on FSC147, CARPK, and PUCPR+, the benefits of the end-to-end framework, VLCounter, are demonstrated.
翻訳日:2023-12-29 18:51:40 公開日:2023-12-27
# 弱教師付き3次元意味セグメンテーションに対するマルチモダリティアフィニティ推論

Multi-modality Affinity Inference for Weakly Supervised 3D Semantic Segmentation ( http://arxiv.org/abs/2312.16578v1 )

ライセンス: Link先を確認
Xiawei Li Qingyuan Xu Jing Zhang Tianyi Zhang Qian Yu Lu Sheng Dong Xu(参考訳) 3d point cloud semantic segmentationには幅広いアプリケーションがある。 近年,シーンレベルのラベルを活用することで,高価な手作業によるアノテーション処理を緩和することを目的とした,制御の弱いポイントクラウドセグメンテーション手法が提案されている。 しかし、これらの手法は、RGB-Dスキャンに存在するリッチな幾何学情報(形状やスケールなど)や外観情報(色やテクスチャなど)を効果的に活用していない。 さらに、現在のアプローチでは、弱いシーンレベルのラベルから学ぶのに不可欠である特徴抽出ネットワークから推測できる点親和性を完全に活用できない。 さらに、従来の研究は、弱教師付き3次元セマンティックセマンティックセグメンテーションにおけるポイントクラウドデータの長期分布による有害な効果を見落としている。 そこで本研究では,新たに導入された多モード点親和性推論モジュールを用いて,シーンレベルの弱教師付きポイントクラウドセグメンテーション手法を提案する。 本論文で提案する点親和性は,複数モード(例えば,点雲とRGB)の特徴を特徴とし,分類器重みを正規化することにより,カテゴリ分布の先行を必要とせずに,長い尾分布の有害な影響を軽減する。 ScanNetとS3DISベンチマークの大規模な実験により,提案手法の有効性が検証された。 コードはhttps://github.com/Sunny599/AAAI24-3DWSSG-MMAで公開されている。

3D point cloud semantic segmentation has a wide range of applications. Recently, weakly supervised point cloud segmentation methods have been proposed, aiming to alleviate the expensive and laborious manual annotation process by leveraging scene-level labels. However, these methods have not effectively exploited the rich geometric information (such as shape and scale) and appearance information (such as color and texture) present in RGB-D scans. Furthermore, current approaches fail to fully leverage the point affinity that can be inferred from the feature extraction network, which is crucial for learning from weak scene-level labels. Additionally, previous work overlooks the detrimental effects of the long-tailed distribution of point cloud data in weakly supervised 3D semantic segmentation. To this end, this paper proposes a simple yet effective scene-level weakly supervised point cloud segmentation method with a newly introduced multi-modality point affinity inference module. The point affinity proposed in this paper is characterized by features from multiple modalities (e.g., point cloud and RGB), and is further refined by normalizing the classifier weights to alleviate the detrimental effects of long-tailed distribution without the need of the prior of category distribution. Extensive experiments on the ScanNet and S3DIS benchmarks verify the effectiveness of our proposed method, which outperforms the state-of-the-art by ~4% to ~6% mIoU. Codes are released at https://github.com/Sunny599/AAAI24-3DWSSG-MMA.
翻訳日:2023-12-29 18:51:16 公開日:2023-12-27
# GRSDet:Few-shot Object Detectionのための局所逆サンプル生成学習

GRSDet: Learning to Generate Local Reverse Samples for Few-shot Object Detection ( http://arxiv.org/abs/2312.16571v1 )

ライセンス: Link先を確認
Hefei Mei, Taijin Zhao, Shiyuan Tang, Heqian Qiu, Lanxiao Wang, Minjian Zhang, Fanman Meng, Hongliang Li(参考訳) Few-shot Object Detection (FSOD) は、いくつかの新しいクラストレーニングデータを用いてのみオブジェクト検出を実現することを目的としている。 既存の手法の多くは、ベースクラスの知識を伝達することで、新しいクラス分布を構築するための移行学習戦略を採用している。 しかし、この直接的な方法は、決定空間における新しいクラスと他の類似のカテゴリとを簡単に混同する。 この問題に対処するために,プロトタイプ参照フレームに局所逆サンプル(lrsamples)を生成し,新しいクラス分布の中心位置と境界範囲を適応的に調整し,fsodのより識別的な新しいクラスサンプルを学習する。 まず, LRSamples の選択規則, LRSamples の生成元, 校正分布中心への拡張を含む Center Calibration Variance Augmentation (CCVA) モジュールを提案する。 具体的には,クラス内機能変換器(ifc)をccvaの生成器として設計し,選択規則を学習する。 IFCは、ベーストレーニングから微調整に知識を移すことで、新しいクラス分布を校正するために、豊富な新しいサンプルを生成する。 さらに,決定境界からの距離に応じて,サンプルの重要性を適応的に調整する特徴密度境界最適化 (FDBO) モジュールを提案する。 類似クラスの高密度領域(閉じた決定境界領域)の重要性を強調し、類似クラスの低密度領域(より決定境界領域)の重みを減少させることで、各カテゴリの明確な決定境界を最適化することができる。 提案手法の有効性を示すために広範な実験を行った。 提案手法は,DeFRCN と MFDC ベースラインに基づく Pascal VOC と MS COCO データセットに対して一貫した改善を実現する。

Few-shot object detection (FSOD) aims to achieve object detection only using a few novel class training data. Most of the existing methods usually adopt a transfer-learning strategy to construct the novel class distribution by transferring the base class knowledge. However, this direct way easily results in confusion between the novel class and other similar categories in the decision space. To address the problem, we propose generating local reverse samples (LRSamples) in Prototype Reference Frames to adaptively adjust the center position and boundary range of the novel class distribution to learn more discriminative novel class samples for FSOD. Firstly, we propose a Center Calibration Variance Augmentation (CCVA) module, which contains the selection rule of LRSamples, the generator of LRSamples, and augmentation on the calibrated distribution centers. Specifically, we design an intra-class feature converter (IFC) as the generator of CCVA to learn the selecting rule. By transferring the knowledge of IFC from the base training to fine-tuning, the IFC generates plentiful novel samples to calibrate the novel class distribution. Moreover, we propose a Feature Density Boundary Optimization (FDBO) module to adaptively adjust the importance of samples depending on their distance from the decision boundary. It can emphasize the importance of the high-density area of the similar class (closer decision boundary area) and reduce the weight of the low-density area of the similar class (farther decision boundary area), thus optimizing a clearer decision boundary for each category. We conduct extensive experiments to demonstrate the effectiveness of our proposed method. Our method achieves consistent improvement on the Pascal VOC and MS COCO datasets based on DeFRCN and MFDC baselines.
翻訳日:2023-12-29 18:50:50 公開日:2023-12-27
# 連続可変系における真の多部絡み合いのマルチコピー活性化

Multi-copy activation of genuine multipartite entanglement in continuous-variable systems ( http://arxiv.org/abs/2312.16570v1 )

ライセンス: Link先を確認
Kl\'ara Baksov\'a, Olga Leskovjanov\'a, Ladislav Mi\v{s}ta Jr., Elizabeth Agudelo, Nicolai Friis(参考訳) 真のマルチパートエンタングルメント(GME)の活性化は、2つの分離可能な状態の複数のコピーがGMEとなる現象である。 これは有限次元で一般化可能であることが示されている。 ここでは、この解析を無限次元に拡張する。 GME活性非ガウス状態の例を示す。 ガウス状態に対しては、共分散行列 (CM) に必要な双分離性基準を用い、GMEの活性化を検出できないことを示す。 さらに, 基準を満たしながら, 複数コピーであってもgmeであることを示す, 完全に分離できないガウス状態を特定する。 したがって,cmビセパラビリティ基準はガウス状態においても十分ではないことを示す。

Activation of genuine multipartite entanglement (GME) is a phenomenon whereby multiple copies of biseparable but fully inseparable states can be GME. This was shown to be generically possible in finite dimensions. Here, we extend this analysis to infinite dimensions. We provide examples of GME-activatable non-Gaussian states. For Gaussian states we employ a necessary biseparability criterion for the covariance matrix (CM) and show that it cannot detect GME activation. We further identify fully inseparable Gaussian states that satisfy the criterion but show that multiple and, in some cases, even single copies are GME. Thus, we show that the CM biseparability criterion is not sufficient even for Gaussian states.
翻訳日:2023-12-29 18:50:19 公開日:2023-12-27
# 構造リスク最小化に基づく未知報酬モデルによる逆強化学習

Inverse Reinforcement Learning with Unknown Reward Model based on Structural Risk Minimization ( http://arxiv.org/abs/2312.16566v1 )

ライセンス: Link先を確認
Chendi Qu, Jianping He, Xiaoming Duan, Jiming Chen(参考訳) 逆強化学習(IRL)は通常、報酬関数のモデルが事前に特定され、パラメータのみを推定する。 しかし、適切な報酬モデルを決定する方法は非自明である。 単純化されたモデルは真の報酬関数を含まないが、高い複雑性を持つモデルは計算コストと過度に適合するリスクをもたらす。 本稿では、統計学習から構造リスク最小化(SRM)手法を導入することにより、IRLモデル選択におけるこのトレードオフに対処する。 SRMは推定誤差とモデルの複雑さを最小化する仮説セットから最適報酬関数クラスを選択する。 irl の srm スキームを定式化するために,実証的なリスクとして作用し,仮説クラスのラデマシェ複雑性の上限をモデルペナルティとして定式化することにより,政策勾配を推定する。 学習保証はさらに提示される。 特に、IRL における共通線型重み付け和設定に対して明示的な SRM を提供する。 シミュレーションは,提案手法の性能と効率を示す。

Inverse reinforcement learning (IRL) usually assumes the model of the reward function is pre-specified and estimates the parameter only. However, how to determine a proper reward model is nontrivial. A simplistic model is less likely to contain the real reward function, while a model with high complexity leads to substantial computation cost and risks overfitting. This paper addresses this trade-off in IRL model selection by introducing the structural risk minimization (SRM) method from statistical learning. SRM selects an optimal reward function class from a hypothesis set minimizing both estimation error and model complexity. To formulate an SRM scheme for IRL, we estimate policy gradient by demonstration serving as empirical risk and establish the upper bound of Rademacher complexity of hypothesis classes as model penalty. The learning guarantee is further presented. In particular, we provide explicit SRM for the common linear weighted sum setting in IRL. Simulations demonstrate the performance and efficiency of our scheme.
翻訳日:2023-12-29 18:50:04 公開日:2023-12-27
# RDGCL:リコメンデーションのための反応拡散グラフコントラスト学習

RDGCL: Reaction-Diffusion Graph Contrastive Learning for Recommendation ( http://arxiv.org/abs/2312.16563v1 )

ライセンス: Link先を確認
Jeongwhan Choi, Hyowon Wi, Chaejeong Lee, Sung-Bae Cho, Dongha Lee, Noseong Park(参考訳) コントラスト学習 (CL) は, 生データからの自己教師付き信号を活用することで, データの分散性の課題に対処し, 推薦システムを改善するための有望な手法として登場した。 グラフ畳み込みネットワーク(gcn)ベースの協調フィルタリング(cfs)とclの統合は推奨システムで検討されている。 しかし、現在のclベースのレコメンデーションモデルは低パスフィルタとグラフ拡張に大きく依存している。 本稿では,リアクション拡散グラフコントラスト学習モデル (RDGCL) と呼ばれる,リコメンデータシステムのための新しいCL法を提案する。 我々は、拡散、すなわち低域通過フィルタと反応、すなわち高域通過フィルタ、方程式の両方に基づいて、自分たちのgcn for cfを設計する。 提案したCLベーストレーニングは, 反応と拡散に基づく埋め込みの間に発生するため, グラフ強化は不要である。 6つのベンチマークデータセットの実験的評価により,提案手法がclベースレコメンデーションモデルよりも優れていることが示された。 推薦精度と多様性を高めることにより,提案手法はレコメンダシステムにおけるCLの進歩をもたらす。

Contrastive learning (CL) has emerged as a promising technique for improving recommender systems, addressing the challenge of data sparsity by leveraging self-supervised signals from raw data. Integration of CL with graph convolutional network (GCN)-based collaborative filterings (CFs) has been explored in recommender systems. However, current CL-based recommendation models heavily rely on low-pass filters and graph augmentations. In this paper, we propose a novel CL method for recommender systems called the reaction-diffusion graph contrastive learning model (RDGCL). We design our own GCN for CF based on both the diffusion, i.e., low-pass filter, and the reaction, i.e., high-pass filter, equations. Our proposed CL-based training occurs between reaction and diffusion-based embeddings, so there is no need for graph augmentations. Experimental evaluation on 6 benchmark datasets demonstrates that our proposed method outperforms state-of-the-art CL-based recommendation models. By enhancing recommendation accuracy and diversity, our method brings an advancement in CL for recommender systems.
翻訳日:2023-12-29 18:49:47 公開日:2023-12-27
# Adaptive Message Passing: オーバースムーシング、オーバースキャッシング、アンダーレッシングを緩和するための一般的なフレームワーク

Adaptive Message Passing: A General Framework to Mitigate Oversmoothing, Oversquashing, and Underreaching ( http://arxiv.org/abs/2312.16560v1 )

ライセンス: Link先を確認
Federico Errica, Henrik Christiansen, Viktor Zaverkin, Takashi Maruyama, Mathias Niepert, Francesco Alesiani(参考訳) 長距離相互作用は多くの科学分野における複雑なシステムの正しい記述に不可欠である。 しかし、計算にそれらを含める費用は、全体的な計算コストの劇的な増加である。 近年、ディープグラフネットワークはグラフとして表される複雑なシステムの特性を予測するための効率的なデータ駆動サロゲートモデルとして採用されている。 これらのモデルは、局所的かつ反復的なメッセージパッシング戦略に依存しており、原則として、対応するインタラクションを明示的にモデル化することなく、長距離情報をキャプチャすべきである。 実際には、ほとんどのディープグラフネットワークは、(同期)メッセージパッシングの固有の制限、すなわちオーバースムーシング、オーバースキャッシング、アンダーレッシングのために、実際には長距離依存をモデル化することはできない。 この研究は、これらの制限を緩和する一般的なフレームワークを提案する: 変分推論フレームワークでは、メッセージパッシングアーキテクチャに、その深さを自由に適応させ、その途中でメッセージをフィルタリングする能力を与えます。 理論的および経験的議論により、この単純な戦略が5つのノードとグラフ予測データセットの最先端を上回ることで、長距離インタラクションをよりうまく捉えていることを示す。 我々のアプローチは、これらのタスクでテストされたベースラインのパフォーマンスを一貫して改善します。 我々は, フレームワークの内部動作をより深く理解するために, 質的分析とアブレーションを用いて展示を補完する。

Long-range interactions are essential for the correct description of complex systems in many scientific fields. The price to pay for including them in the calculations, however, is a dramatic increase in the overall computational costs. Recently, deep graph networks have been employed as efficient, data-driven surrogate models for predicting properties of complex systems represented as graphs. These models rely on a local and iterative message passing strategy that should, in principle, capture long-range information without explicitly modeling the corresponding interactions. In practice, most deep graph networks cannot really model long-range dependencies due to the intrinsic limitations of (synchronous) message passing, namely oversmoothing, oversquashing, and underreaching. This work proposes a general framework that learns to mitigate these limitations: within a variational inference framework, we endow message passing architectures with the ability to freely adapt their depth and filter messages along the way. With theoretical and empirical arguments, we show that this simple strategy better captures long-range interactions, by surpassing the state of the art on five node and graph prediction datasets suited for this problem. Our approach consistently improves the performances of the baselines tested on these tasks. We complement the exposition with qualitative analyses and ablations to get a deeper understanding of the framework's inner workings.
翻訳日:2023-12-29 18:49:28 公開日:2023-12-27
# 事例依存型正ラベルデータに対する共同的リスク最小化

Joint empirical risk minimization for instance-dependent positive-unlabeled data ( http://arxiv.org/abs/2312.16557v1 )

ライセンス: Link先を確認
Wojciech Rejchel, Pawe{\l} Teisseyre, Jan Mielniczuk(参考訳) 正およびラベルなしデータ(PU学習)からの学習は、機械学習タスクとして積極的に研究されている。 目標は、ラベル付きインスタンスとラベル付きインスタンスの一部を含むトレーニングデータセットに基づいて、バイナリ分類モデルをトレーニングすることだ。 非ラベル集合は、正の残りの部分と全ての負の観測を含む。 pu学習の重要な要素は、ラベル付けメカニズム、すなわち、ポジティブな観察に対するラベルの割り当てのモデル化である。 多くの先行研究とは異なり、ラベル割り当ての確率、すなわち確率スコアがインスタンスに依存した現実的な設定を考える。 本研究では,ポジティブクラスにおける包含確率とプロペンサリティスコアの両方に依存する共同リスクの経験的対応者の最小化について検討する。 非凸経験的リスクは、両関数のパラメータに関して交互に最適化される。 理論解析では, 経験過程の理論から最近導出した手法を用いて, ミニミザのリスク一貫性を確立する。 さらに、ここでの重要な発展は最適化アルゴリズムの新たな実装の提案であり、ラベルのないものの間での正の観測集合の逐次近似が重要である。 これは条件付き確率に基づくしきい値規則と同様に「スパイ」の修正技術に依存する。 様々なラベリングシナリオに対する20のデータセットを用いた実験により,提案手法は,プロペンサシティ関数推定に基づく最先端手法と同等かそれ以上に有効であることが示された。

Learning from positive and unlabeled data (PU learning) is actively researched machine learning task. The goal is to train a binary classification model based on a training dataset containing part of positives which are labeled, and unlabeled instances. Unlabeled set includes remaining part of positives and all negative observations. An important element in PU learning is modeling of the labeling mechanism, i.e. labels' assignment to positive observations. Unlike in many prior works, we consider a realistic setting for which probability of label assignment, i.e. propensity score, is instance-dependent. In our approach we investigate minimizer of an empirical counterpart of a joint risk which depends on both posterior probability of inclusion in a positive class as well as on a propensity score. The non-convex empirical risk is alternately optimised with respect to parameters of both functions. In the theoretical analysis we establish risk consistency of the minimisers using recently derived methods from the theory of empirical processes. Besides, the important development here is a proposed novel implementation of an optimisation algorithm, for which sequential approximation of a set of positive observations among unlabeled ones is crucial. This relies on modified technique of 'spies' as well as on a thresholding rule based on conditional probabilities. Experiments conducted on 20 data sets for various labeling scenarios show that the proposed method works on par or more effectively than state-of-the-art methods based on propensity function estimation.
翻訳日:2023-12-29 18:49:05 公開日:2023-12-27
# ボース・アインシュタイン凝縮体における非平衡不連続量子相転移のダイナミクス

Dynamics of a Nonequilibrium Discontinuous Quantum Phase Transition in a Spinor Bose-Einstein Condensate ( http://arxiv.org/abs/2312.16555v1 )

ライセンス: Link先を確認
Matthew T. Wheeler, Hayder Salman, Magnus O. Borgh(参考訳) 対称性を破る量子相転移は、幅広い物理系におけるトポロジカル欠陥や領域壁の生成につながる。 2階遷移では、これらはキブル・ズレック機構によって記述される普遍的なスケーリング法則を示すが、一階遷移に関しても同様に普遍的なアプローチはいまだに欠如している。 本稿では,1次量子相転移における臨界スケーリング挙動を汎用的性質から理解可能なテストベッドシステムとしてスピノルボース・アインシュタイン凝縮法を提案する。 1) 短周期スケールでの準安定状態の崩壊の開始、(2) 1次元スピン-1凝縮物が1次量子相転移を横切るため、位相分離された強磁性ドメインの長い時間における数、の臨界指数を決定するために、kibble-zurek機構を一般化する。 この予測は平均場数値シミュレーションとよく一致しており、実験可能なシステムにおける準安定状態の崩壊を研究するためのパラダイムを提供する。

Symmetry-breaking quantum phase transitions lead to the production of topological defects or domain walls in a wide range of physical systems. In second-order transitions, these exhibit universal scaling laws described by the Kibble-Zurek mechanism, but for first-order transitions a similarly universal approach is still lacking. Here we propose a spinor Bose-Einstein condensate as a testbed system where critical scaling behavior in a first-order quantum phase transition can be understood from generic properties. We generalize the Kibble-Zurek mechanism to determine the critical exponents for: (1) the onset of the decay of the metastable state on short times scales, and (2) the number of resulting phase-separated ferromagnetic domains at longer times, as a one-dimensional spin-1 condensate is ramped across a first-order quantum phase transition. The predictions are in excellent agreement with mean-field numerical simulations and provide a paradigm for studying the decay of metastable states in experimentally accessible systems.
翻訳日:2023-12-29 18:48:46 公開日:2023-12-27
# フェデレーション学習における効率制約付きユーティリティ・プライヴァシー二目的最適化の理論解析

A Theoretical Analysis of Efficiency Constrained Utility-Privacy Bi-Objective Optimization in Federated Learning ( http://arxiv.org/abs/2312.16554v1 )

ライセンス: Link先を確認
Hanlin Gu (1), Xinyuan Zhao (2), Yuxing Han (2), Yan Kang (1), Lixin Fan (1), Qiang Yang (1 and 3) ((1) WeBank, China, (2) Tsinghua University, China, (3) Hong Kong University of Science and Technology, China)(参考訳) フェデレーション学習(fl)は、複数のクライアントが個別のデータを共有することなく、協調的に共有モデルを学ぶことができる。 flのユーティリティ、プライバシ、トレーニング効率に関する懸念は、大きな研究の注目を集めている。 差分プライバシはflの一般的なテクニックとして登場し、ユーティリティとトレーニング効率に影響を与えながら、個々のユーザデータのプライバシを保護している。 差別化プライバシフェデレート・フェデレーション・ラーニング(DPFL)では、従来の研究は主にユーティリティ・プライバシのトレードオフに焦点を当てており、トレーニングの効率を無視している。 さらに、ディファレンシャルプライバシは、各通信ラウンド毎に選択したクライアントに制御されたランダム性(ノイズ)を導入することで、プライバシを実現する。 これまでの研究は主に、ノイズレベル($\sigma$)と通信ラウンド($T$)が、プライバシユーティリティのダイナミクスに与える影響を調査し、サンプル比率($q$、選択されたクライアントの割合)などの他の影響要因を見越した。 本稿ではDPFLにおける効率制約付きユーティリティプライバシ双目的最適化問題を体系的に定式化し,$\sigma$,$T$,$q$に着目した。 我々は包括的理論解析を行い,パレート前線の分析解を導出する。 DPFLにおける低コストパラメータ設計のための有用なガイダンスを提供するとともに,本分析の有効性と有効性を検証する。

Federated learning (FL) enables multiple clients to collaboratively learn a shared model without sharing their individual data. Concerns about utility, privacy, and training efficiency in FL have garnered significant research attention. Differential privacy has emerged as a prevalent technique in FL, safeguarding the privacy of individual user data while impacting utility and training efficiency. Within Differential Privacy Federated Learning (DPFL), previous studies have primarily focused on the utility-privacy trade-off, neglecting training efficiency, which is crucial for timely completion. Moreover, differential privacy achieves privacy by introducing controlled randomness (noise) on selected clients in each communication round. Previous work has mainly examined the impact of noise level ($\sigma$) and communication rounds ($T$) on the privacy-utility dynamic, overlooking other influential factors like the sample ratio ($q$, the proportion of selected clients). This paper systematically formulates an efficiency-constrained utility-privacy bi-objective optimization problem in DPFL, focusing on $\sigma$, $T$, and $q$. We provide a comprehensive theoretical analysis, yielding analytical solutions for the Pareto front. Extensive empirical experiments verify the validity and efficacy of our analysis, offering valuable guidance for low-cost parameter design in DPFL.
翻訳日:2023-12-29 18:48:27 公開日:2023-12-27
# DOSA-MO:多目的問題における過大評価の2段階最適化によるバイオマーカー発見の改善

DOSA-MO: Dual-stage Optimizer for Systematic overestimation Adjustment in Multi-Objective problems improves biomarker discovery ( http://arxiv.org/abs/2312.16624v1 )

ライセンス: Link先を確認
Luca Cattelani and Vittorio Fortino(参考訳) バイオマーカーの発見とオミクスデータからの機械学習による検証の課題は、分子の特徴の豊富さとサンプルの不足にある。 ほとんどの機械学習ベースの特徴選択方法は、通常、検証セット上で多くの代替品を評価することによって実行されるハイパーパラメータチューニングを必要とする。 評価には性能推定誤差があり、多くのモデル間で選択が行われると、最良のモデルはほぼ確実に過大評価される。 バイオマーカーの同定は、予測能力と分子的特徴数の相似性の間のトレードオフを伴う典型的な多目的問題である。 遺伝的アルゴリズムは多目的最適化の一般的なツールであるが、多くの解を進化させ、過大評価しがちである。 モデルが単一対象問題において既に選択された後、過大評価を減らす方法が提案されているが、我々の知る限り、最適化時に過大評価を低減できるアルゴリズムは存在せず、より良いモデル選択、あるいはより一般的な多目的問題領域に適用された。 提案アルゴリズムは, 最適化時の性能の期待値を予測し, 解集合の構成を改善し, 元の推定値, 分散値, 特徴セットサイズを推定する方法を学習する, 新規な多目的最適化ラッパーアルゴリズムであるDOSA-MOを提案する。 癌サブタイプおよび/または患者全体の生存率を予測する場合, DOSA-MOは, 腎癌および乳癌の3つの転写学的データセットを用いて, 最先端の遺伝的アルゴリズムの性能を向上させることが確認された。

The challenge in biomarker discovery and validation using machine learning from omics data lies in the abundance of molecular features but scarcity of samples. Most machine learning-based feature selection methods necessitate of hyperparameter tuning, typically performed by evaluating numerous alternatives on a validation set. Every evaluation has a performance estimation error and when the selection takes place between many models the best ones are almost certainly overestimated. Biomarker identification is a typical multi-objective problem with trade-offs between the predictive ability and the parsimony in the number of molecular features. Genetic algorithms are a popular tool for multi-objective optimization but they evolve numerous solutions and are prone to overestimation. Methods have been proposed to reduce the overestimation after a model has already been selected in single-objective problems, but to the best of our knowledge no algorithm existed that was capable of reducing the overestimation during the optimization, leading to a better model selection, or that had been applied in the more general domain of multi-objective problems. We propose DOSA-MO, a novel multi-objective optimization wrapper algorithm that learns how the original estimation, its variance, and the feature set size of the solutions predict the overestimation, and adjusts the expectation of the performance during the optimization, improving the composition of the solution set. We verify that DOSA-MO improves the performance of a state-of-the-art genetic algorithm on left-out or external sample sets, when predicting cancer subtypes and/or patient overall survival, using three transcriptomics datasets for kidney and breast cancer.
翻訳日:2023-12-29 18:42:41 公開日:2023-12-27
# 階層的注意とガウス混合モデルによるBERTに基づく中国語スペルチェックモデルの構築

Make BERT-based Chinese Spelling Check Model Enhanced by Layerwise Attention and Gaussian Mixture Model ( http://arxiv.org/abs/2312.16623v1 )

ライセンス: Link先を確認
Yongchang Cao, Liang He, Zhen Wu, Xinyu Dai(参考訳) BERTベースのモデルは、最近中国のスペルチェック(CSC)タスクにおいて顕著な能力を示している。 しかし、従来のBERTベースの手法には2つの制限がある。 まず、以前の研究では、CSCタスクにおいて、Part-Of-Speech (POS) タグのような明示的な事前知識が有用であることを示したが、CSCデータに固有のスペルエラーが間違ったタグや誤ったモデルにつながるという事実を無視した。 さらに、BERTの中間層で符号化された暗黙の階層情報と異なる言語現象との相関を無視した。 これにより、準最適精度が得られる。 上記の2つの問題を緩和するために、BERTベースのCSCモデルを強化するための異種知識注入フレームワークを設計する。 明示的なpos知識を取り入れるために,ガウス混合モデルによって駆動される補助タスク戦略を用いる。 一方,エンコーダ内に暗黙的な階層的言語知識を組み込むため,多層表現を生成するために,n-gramに基づく階層的自己組織化の新しい形式を提案する。 実験の結果,提案フレームワークは4つの強力なベースラインモデルに対して安定した性能向上を実現し,従来の2つのデータセット上での最先端手法よりも優れていた。

BERT-based models have shown a remarkable ability in the Chinese Spelling Check (CSC) task recently. However, traditional BERT-based methods still suffer from two limitations. First, although previous works have identified that explicit prior knowledge like Part-Of-Speech (POS) tagging can benefit in the CSC task, they neglected the fact that spelling errors inherent in CSC data can lead to incorrect tags and therefore mislead models. Additionally, they ignored the correlation between the implicit hierarchical information encoded by BERT's intermediate layers and different linguistic phenomena. This results in sub-optimal accuracy. To alleviate the above two issues, we design a heterogeneous knowledge-infused framework to strengthen BERT-based CSC models. To incorporate explicit POS knowledge, we utilize an auxiliary task strategy driven by Gaussian mixture model. Meanwhile, to incorporate implicit hierarchical linguistic knowledge within the encoder, we propose a novel form of n-gram-based layerwise self-attention to generate a multilayer representation. Experimental results show that our proposed framework yields a stable performance boost over four strong baseline models and outperforms the previous state-of-the-art methods on two datasets.
翻訳日:2023-12-29 18:42:12 公開日:2023-12-27
# 量子ランダムオラクルモデルにおけるCRYSTALS-Dilithiumの安全性の評価

Evaluating the security of CRYSTALS-Dilithium in the quantum random oracle model ( http://arxiv.org/abs/2312.16619v1 )

ライセンス: Link先を確認
Kelsey A. Jackson, Carl A. Miller, Daochen Wang(参考訳) 量子コンピューティングハードウェアの最近の進歩を受けて、National Institute of Standards and Technology (NIST)は、量子敵による攻撃に耐性のある暗号プロトコルを標準化している。 NISTが選択した主要なデジタル署名スキームはCRYSTALS-Dilithiumである。 このスキームの難しさは、エラー付きモジュール学習(MLWE)、MSIS(Module Short Integer Solution)、SelfTargetMSIS(SelfTargetMSIS)の3つの計算問題の難しさに基づいている。 MLWEとMSISはよく研究されており、安全であると広く信じられている。 しかし、SelfTargetMSISは新しく、古典的にはMSISと同じくらい硬いが、その量子硬さは不明瞭である。 本稿では,量子ランダムOracleモデル(QROM)におけるMLWEの低減によるSelfTargetMSISの硬さの最初の証明について述べる。 我々の証明は、最近開発された量子再プログラミングと再巻き戻しの技術を用いている。 このアプローチの中心的な部分は、msis問題から派生したハッシュ関数が崩壊していることの証明です。 このアプローチから,ダイアリシウムの適切なパラメータ設定下での新しいセキュリティ証明を推定する。 ディリシウム-QROMの変種に対する唯一の厳密なセキュリティ証明と比較すると、我々の証明は q = 1 mod 2n という条件の下で適用できるという利点がある。 この条件は元々のディリシウムの提案の一部であり、スキームの効率的な実装に不可欠である。 q = 1 mod 2nという条件の下で、新しいセキュアパラメータセットを提供し、公開鍵サイズとシグネチャサイズが、同じセキュリティレベルにおいて、dilithium-qromのそれの2.5倍から2.8倍大きいことを見出します。

In the wake of recent progress on quantum computing hardware, the National Institute of Standards and Technology (NIST) is standardizing cryptographic protocols that are resistant to attacks by quantum adversaries. The primary digital signature scheme that NIST has chosen is CRYSTALS-Dilithium. The hardness of this scheme is based on the hardness of three computational problems: Module Learning with Errors (MLWE), Module Short Integer Solution (MSIS), and SelfTargetMSIS. MLWE and MSIS have been well-studied and are widely believed to be secure. However, SelfTargetMSIS is novel and, though classically as hard as MSIS, its quantum hardness is unclear. In this paper, we provide the first proof of the hardness of SelfTargetMSIS via a reduction from MLWE in the Quantum Random Oracle Model (QROM). Our proof uses recently developed techniques in quantum reprogramming and rewinding. A central part of our approach is a proof that a certain hash function, derived from the MSIS problem, is collapsing. From this approach, we deduce a new security proof for Dilithium under appropriate parameter settings. Compared to the only other rigorous security proof for a variant of Dilithium, Dilithium-QROM, our proof has the advantage of being applicable under the condition q = 1 mod 2n, where q denotes the modulus and n the dimension of the underlying algebraic ring. This condition is part of the original Dilithium proposal and is crucial for the efficient implementation of the scheme. We provide new secure parameter sets for Dilithium under the condition q = 1 mod 2n, finding that our public key sizes and signature sizes are about 2.5 to 2.8 times larger than those of Dilithium-QROM for the same security levels.
翻訳日:2023-12-29 18:41:49 公開日:2023-12-27
# クエリによる複数インデックスモデルの自動学習

Agnostically Learning Multi-index Models with Queries ( http://arxiv.org/abs/2312.16616v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Vasilis Kontonis, Christos Tzamos, Nikos Zarifis(参考訳) ガウス分布下での非依存学習課題に対するクエリアクセスのパワーについて検討する。 不可知モデルでは、ラベルの仮定は行われず、既知のクラスにおける {\em best-fit} 関数と競合する仮説を計算すること、すなわち、エラー $\mathrm{opt}+\epsilon$ を達成すること、すなわち、$\mathrm{opt}$ はクラス内の最良関数の誤差である。 例えば、未知リンク関数 $g$ と a $k \times d$ matrix $\mathbf{W}$ に対して $g(\mathbf{W} \mathbf{x})$ という形式を持つ。 マルチインデックスモデルは、ReLUアクティベーションを持つ定数深度ニューラルネットワークやハーフスペースの交叉など、広く研究されている関数クラスをカバーする。 我々の主な結果は、クエリアクセスは、MIMを不可知的に学習するランダムな例よりも大幅に実行時の改善をもたらすことを示している。 リンク関数の標準的な正則性仮定(つまり、有界変動や表面積)の下では、複雑性が$O(k)^{\mathrm{poly}(1/\epsilon)} \; \mathrm{poly}(d) $ のMIMに対して非依存的なクエリ学習を行う。 対照的に、ランダムな例のみに依存するアルゴリズムは、単一のReLUまたはハーフスペースを不可知的に学習する基本的な問題であっても、$d^{\mathrm{poly}(1/\epsilon)}$サンプルとランタイムを必要とする。 アルゴリズムの結果, ガウス分布下でのpacとpac+queryモデルとの強い計算的分離が確立された。 私たちの研究以前には、そのような分離は知られていなかった -- 単一のハーフスペースを不可知的に学習する特別なケースであっても。 その結果,基礎となるラベル関数の勾配(平滑化バージョン)を推定するために,問合せアクセスを利用する一般次元推論手法が有効となった。

We study the power of query access for the task of agnostic learning under the Gaussian distribution. In the agnostic model, no assumptions are made on the labels and the goal is to compute a hypothesis that is competitive with the {\em best-fit} function in a known class, i.e., it achieves error $\mathrm{opt}+\epsilon$, where $\mathrm{opt}$ is the error of the best function in the class. We focus on a general family of Multi-Index Models (MIMs), which are $d$-variate functions that depend only on few relevant directions, i.e., have the form $g(\mathbf{W} \mathbf{x})$ for an unknown link function $g$ and a $k \times d$ matrix $\mathbf{W}$. Multi-index models cover a wide range of commonly studied function classes, including constant-depth neural networks with ReLU activations, and intersections of halfspaces. Our main result shows that query access gives significant runtime improvements over random examples for agnostically learning MIMs. Under standard regularity assumptions for the link function (namely, bounded variation or surface area), we give an agnostic query learner for MIMs with complexity $O(k)^{\mathrm{poly}(1/\epsilon)} \; \mathrm{poly}(d) $. In contrast, algorithms that rely only on random examples inherently require $d^{\mathrm{poly}(1/\epsilon)}$ samples and runtime, even for the basic problem of agnostically learning a single ReLU or a halfspace. Our algorithmic result establishes a strong computational separation between the agnostic PAC and the agnostic PAC+Query models under the Gaussian distribution. Prior to our work, no such separation was known -- even for the special case of agnostically learning a single halfspace, for which it was an open problem first posed by Feldman. Our results are enabled by a general dimension-reduction technique that leverages query access to estimate gradients of (a smoothed version of) the underlying label function.
翻訳日:2023-12-29 18:41:21 公開日:2023-12-27
# 逆条件下でのロバストな個人化音声活動検出のための自己教師付き事前学習

Self-supervised Pretraining for Robust Personalized Voice Activity Detection in Adverse Conditions ( http://arxiv.org/abs/2312.16613v1 )

ライセンス: Link先を確認
Holger Severin Bovbjerg (1), Jesper Jensen (1, 2), Jan {\O}stergaard (1), Zheng-Hua Tan (1, 3) ((1) Aalborg University, (2) Oticon, (3) Pioneer Centre for AI, Denmark)(参考訳) 本稿では,個人化された音声活動検出(VAD)モデルの性能向上を図るために,大規模な未学習データセットに自己教師付き事前訓練を適用することを提案する。 我々は、自己回帰予測符号化(APC)フレームワークを用いて、長期記憶(LSTM)エンコーダを事前訓練し、パーソナライズされたVADのために微調整する。 また, パーソナライズされたvadのロバスト性向上を目的として, apcの異形化を提案する。 訓練されたモデルは、SNRレベルが異なる様々な種類のノイズによって汚染されたクリーン音声と音声の両方で体系的に評価され、純粋な教師付きモデルと比較される。 実験により,自己教師付き事前学習は,クリーンな条件下でのパフォーマンスを向上させるだけでなく,純粋に教師付き学習よりも有害な条件に頑健なモデルを生み出すことが示された。

In this paper, we propose the use of self-supervised pretraining on a large unlabelled data set to improve the performance of a personalized voice activity detection (VAD) model in adverse conditions. We pretrain a long short-term memory (LSTM)-encoder using the autoregressive predictive coding (APC) framework and fine-tune it for personalized VAD. We also propose a denoising variant of APC, with the goal of improving the robustness of personalized VAD. The trained models are systematically evaluated on both clean speech and speech contaminated by various types of noise at different SNR-levels and compared to a purely supervised model. Our experiments show that self-supervised pretraining not only improves performance in clean conditions, but also yields models which are more robust to adverse conditions compared to purely supervised learning.
翻訳日:2023-12-29 18:40:36 公開日:2023-12-27
# メタ学習アルゴリズム改善のためのタスク内関係の探索

Exploring intra-task relations to improve meta-learning algorithms ( http://arxiv.org/abs/2312.16612v1 )

ライセンス: Link先を確認
Prabhat Agarwal, Shreya Singh(参考訳) メタラーニングは、いくつかの現実世界のタスクや問題をモデリングするための効果的な方法論として登場した。 まれな疾患の分類から、大規模なデータセットの可用性がまれな、珍しい言語の言語モデリングまで、さまざまなシナリオがあります。 同様に、自動運転車のようなより広範なシナリオでは、あらゆる状況を扱うために自動運転車を訓練する必要があります。 これにより、高品質なデータでさまざまなタスクでMLモデルをトレーニングする必要があります。 しかし、多くの場合、さまざまなタスクにまたがるデータ分布が歪んでいること、すなわち、データはロングテール分布に従うことに気付く。 これにより、モデルはいくつかのタスクでうまく機能し、他のタスクではうまく機能せず、ロバストネスの問題をモデル化します。 メタラーニングは、1つのタスクから効果的に学習し、その学習を未発見のタスクに一般化できる潜在的な学習パラダイムとして最近登場した。 本研究では,タスク関係の外部知識を活用し,タスクの効果的なミニバッチによる学習安定性の向上を目指す。 ミニバッチでタスクの多様なセットを選択すると、完全な勾配がより良く見積もられるため、トレーニングにおけるノイズの低減につながる、という仮説を立てる。

Meta-learning has emerged as an effective methodology to model several real-world tasks and problems due to its extraordinary effectiveness in the low-data regime. There are many scenarios ranging from the classification of rare diseases to language modelling of uncommon languages where the availability of large datasets is rare. Similarly, for more broader scenarios like self-driving, an autonomous vehicle needs to be trained to handle every situation well. This requires training the ML model on a variety of tasks with good quality data. But often times, we find that the data distribution across various tasks is skewed, i.e.the data follows a long-tail distribution. This leads to the model performing well on some tasks and not performing so well on others leading to model robustness issues. Meta-learning has recently emerged as a potential learning paradigm which can effectively learn from one task and generalize that learning to unseen tasks. In this study, we aim to exploit external knowledge of task relations to improve training stability via effective mini-batching of tasks. We hypothesize that selecting a diverse set of tasks in a mini-batch will lead to a better estimate of the full gradient and hence will lead to a reduction of noise in training.
翻訳日:2023-12-29 18:40:19 公開日:2023-12-27
# 小さなデータセットから学ぶ:画像再構成のための逆問題に対するパッチベースの正規化子

Learning from small data sets: Patch-based regularizers in inverse problems for image reconstruction ( http://arxiv.org/abs/2312.16611v1 )

ライセンス: Link先を確認
Moritz Piening, Fabian Altekr\"uger, Johannes Hertrich, Paul Hagemann, Andrea Walther, Gabriele Steidl(参考訳) 逆問題の解法は、医学と天文学のイメージング、地球物理学、工学と生命科学に基本的な関心を持っている。 最近の進歩は、機械学習、特にディープニューラルネットワークの手法を用いて行われた。 これらの手法の多くは、ネットワークをトレーニングするために大量の(ペア化された)データとコンピュータ容量を必要とするが、しばしば利用できない。 本稿は,ごく少数の画像のパッチを考慮に入れて,小さなデータセットから学習する問題に対処する。 モデルに基づく手法とデータ駆動方式の組み合わせに焦点をあてて、変化モデルにおける正則化(Regularizer)としても知られる画像のみを近似する。 本稿では,パッチ分布の最大ログ類似度を最適化する手法と,経験的パッチ分布全体のwasserstein様の不一致を罰する手法について検討した。 ベイズ逆問題の観点からは、Langevin Monte Carlo法を用いて後部を近似することで不確実量化を実現する方法を示す。 計算トモグラフィー、画像超解像、塗装における手法のパワーを実証する。 実際、このアプローチは、低解像度の画像しか利用できないゼロショット超解像の高品質な結果も提供する。 この論文には、すべてのメソッドの実装とデータ例を含むGitHubリポジトリが付属しており、読者がパフォーマンスに関する独自の洞察を得ることができる。

The solution of inverse problems is of fundamental interest in medical and astronomical imaging, geophysics as well as engineering and life sciences. Recent advances were made by using methods from machine learning, in particular deep neural networks. Most of these methods require a huge amount of (paired) data and computer capacity to train the networks, which often may not be available. Our paper addresses the issue of learning from small data sets by taking patches of very few images into account. We focus on the combination of model-based and data-driven methods by approximating just the image prior, also known as regularizer in the variational model. We review two methodically different approaches, namely optimizing the maximum log-likelihood of the patch distribution, and penalizing Wasserstein-like discrepancies of whole empirical patch distributions. From the point of view of Bayesian inverse problems, we show how we can achieve uncertainty quantification by approximating the posterior using Langevin Monte Carlo methods. We demonstrate the power of the methods in computed tomography, image super-resolution, and inpainting. Indeed, the approach provides also high-quality results in zero-shot super-resolution, where only a low-resolution image is available. The paper is accompanied by a GitHub repository containing implementations of all methods as well as data examples so that the reader can get their own insight into the performance.
翻訳日:2023-12-29 18:40:01 公開日:2023-12-27
# 不確実性を考慮した特徴量線形変調を用いた効率的なDeweather Mixture-of-Expert

Efficient Deweather Mixture-of-Experts with Uncertainty-aware Feature-wise Linear Modulation ( http://arxiv.org/abs/2312.16610v1 )

ライセンス: Link先を確認
Rongyu Zhang, Yulin Luo, Jiaming Liu, Huanrui Yang, Zhen Dong, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Yuan Du, Shanghang Zhang(参考訳) Mixture-of-Experts (MoE) アプローチは、マルチタスク学習において、複数の悪天候効果の同時除去などの低レベル上流タスクを含む優れたスケーラビリティを示す。 しかしながら、並列フィードフォワードネットワーク(ffn)の専門家による従来のmoeアーキテクチャは、効率的なデプロイメントを妨げる重要なパラメータと計算オーバーヘッドをもたらす。 さらに、naive moeリニアルータは、タスク特有の機能を複数の専門家に割り当てるときに最適であり、拡張性が制限される。 本研究では,専門家間での重み共有による効率的なMoEアーキテクチャを提案する。 リニア特徴変調(fm)のアイデアに触発されて,単一共有専門家ブロック上で学習可能なアクティベーション変調を通じて,複数の専門家を暗黙的にインスタンス化する。 提案されているFeature Modulated Expert (FME)は、新しいMixture-of-Feature-Modulation-Experts (MoFME)アーキテクチャのビルディングブロックとして機能し、オーバーヘッドの少ない専門家の数をスケールアップすることができる。 さらに,さまざまなfmモジュールにタスク固有の機能を割り当てるための不確実性対応ルータ(uar)を提案する。 これにより、MoFMEは複数のタスクに対して多様な専門家関数を効果的に学習することができる。 その結果,MFMEは画像復元品質を0.1-0.2dB向上させ,従来のMoEよりも72%以上のパラメータと39%の推論時間を節約しつつ,SOTA互換性能を実現した。 下流セグメンテーションと分類タスクの実験は、MoFMEの実際のオープンワールドアプリケーションへの一般化可能性をさらに示している。

The Mixture-of-Experts (MoE) approach has demonstrated outstanding scalability in multi-task learning including low-level upstream tasks such as concurrent removal of multiple adverse weather effects. However, the conventional MoE architecture with parallel Feed Forward Network (FFN) experts leads to significant parameter and computational overheads that hinder its efficient deployment. In addition, the naive MoE linear router is suboptimal in assigning task-specific features to multiple experts which limits its further scalability. In this work, we propose an efficient MoE architecture with weight sharing across the experts. Inspired by the idea of linear feature modulation (FM), our architecture implicitly instantiates multiple experts via learnable activation modulations on a single shared expert block. The proposed Feature Modulated Expert (FME) serves as a building block for the novel Mixture-of-Feature-Modulation-Experts (MoFME) architecture, which can scale up the number of experts with low overhead. We further propose an Uncertainty-aware Router (UaR) to assign task-specific features to different FM modules with well-calibrated weights. This enables MoFME to effectively learn diverse expert functions for multiple tasks. The conducted experiments on the multi-deweather task show that our MoFME outperforms the baselines in the image restoration quality by 0.1-0.2 dB and achieves SOTA-compatible performance while saving more than 72% of parameters and 39% inference time over the conventional MoE counterpart. Experiments on the downstream segmentation and classification tasks further demonstrate the generalizability of MoFME to real open-world applications.
翻訳日:2023-12-29 18:39:39 公開日:2023-12-27
# ナッシュ平衡収束のための非凸ゲームにおける隠れ構造の爆発

Exploiting hidden structures in non-convex games for convergence to Nash equilibrium ( http://arxiv.org/abs/2312.16609v1 )

ライセンス: Link先を確認
Iosif Sakos and Emmanouil-Vasileios Vlatakis-Gkaragkounis and Panayotis Mertikopoulos and Georgios Piliouras(参考訳) 敵対モデルからマルチエージェント強化学習まで、現代の機械学習アプリケーションは、ナッシュ平衡がシステムの望ましい運用状態を表す非協調ゲームとして定式化することができる。 極めて非凸損失の景観を持つにもかかわらず、多くの興味のあるケースは潜在凸構造を有しており、平衡に収束する可能性がある。 そこで本研究では,このような「隠れ構造」をうまく活用し,プレイヤーの制御変数とゲームの潜在的凸構造層をつなぐ変換の最小仮定下での収束を実現するフレキシブルな一階法を提案する。 提案手法は, 自然勾配法に係わる規則的に選択された勾配前処理方式に基づいて, プレコンディション付き隠れ勾配降下法 (PHGD) と呼ぶ。 重要なことは、ゲームの内部構造に対する分離可能性の仮定は行わず、決定論的環境と確率的環境の両方に対して明確な収束率を保証する。

A wide array of modern machine learning applications - from adversarial models to multi-agent reinforcement learning - can be formulated as non-cooperative games whose Nash equilibria represent the system's desired operational states. Despite having a highly non-convex loss landscape, many cases of interest possess a latent convex structure that could potentially be leveraged to yield convergence to equilibrium. Driven by this observation, our paper proposes a flexible first-order method that successfully exploits such "hidden structures" and achieves convergence under minimal assumptions for the transformation connecting the players' control variables to the game's latent, convex-structured layer. The proposed method - which we call preconditioned hidden gradient descent (PHGD) - hinges on a judiciously chosen gradient preconditioning scheme related to natural gradient methods. Importantly, we make no separability assumptions for the game's hidden structure, and we provide explicit convergence rate guarantees for both deterministic and stochastic environments.
翻訳日:2023-12-29 18:39:10 公開日:2023-12-27
# 肝細胞癌と肝内胆管癌の鑑別のための分極・放射線核融合ネットワーク

A Polarization and Radiomics Feature Fusion Network for the Classification of Hepatocellular Carcinoma and Intrahepatic Cholangiocarcinoma ( http://arxiv.org/abs/2312.16607v1 )

ライセンス: Link先を確認
Jia Dong, Yao Yao, Liyan Lin, Yang Dong, Jiachen Wan, Ran Peng, Chao Li and Hui Ma(参考訳) 肝疾患患者における肝細胞癌(HCC)と肝内胆管癌(ICC)は治療選択と予後評価において重要なステップである。 従来の病理診断はこの文脈で課題を提起する。 本研究では,肝病理標本のミューラーマトリクス画像から得られた分極特徴と,対応する病理画像から得られた放射線特徴を組み合わせてhccとiccを分類する,新しい分極・放射能特徴融合ネットワークを提案する。 我々の融合ネットワークは、初期特徴レベル融合と後期分類レベル融合を含む2層融合アプローチを統合している。 偏光イメージング技術と画像特徴ベース機械学習の強みを活かし,提案する融合ネットワークは,分類精度を大幅に向上させる。 特に、画像解像度が小さくても、融合ネットワークは、人間の視覚的知覚と一致しない偏光特徴による追加情報のために、堅牢な性能を維持している。 実験の結果,この融合ネットワークはコンピュータ支援によるHCCとICCの診断の強力なツールであり,現在の画像集約型デジタル病理診断に偏光イメージング技術を統合するメリットと展望が示された。 我々は,この革新的なアプローチを,医用画像や癌診断の分野において,新たな洞察と貴重なツールを提供することを目指しています。 肝癌分類に偏光イメージングを導入することで,医療画像解析の課題に対処し,医療画像診断とがん診断の進歩を約束する学際的可能性を示す。

Classifying hepatocellular carcinoma (HCC) and intrahepatic cholangiocarcinoma (ICC) is a critical step in treatment selection and prognosis evaluation for patients with liver diseases. Traditional histopathological diagnosis poses challenges in this context. In this study, we introduce a novel polarization and radiomics feature fusion network, which combines polarization features obtained from Mueller matrix images of liver pathological samples with radiomics features derived from corresponding pathological images to classify HCC and ICC. Our fusion network integrates a two-tier fusion approach, comprising early feature-level fusion and late classification-level fusion. By harnessing the strengths of polarization imaging techniques and image feature-based machine learning, our proposed fusion network significantly enhances classification accuracy. Notably, even at reduced imaging resolutions, the fusion network maintains robust performance due to the additional information provided by polarization features, which may not align with human visual perception. Our experimental results underscore the potential of this fusion network as a powerful tool for computer-aided diagnosis of HCC and ICC, showcasing the benefits and prospects of integrating polarization imaging techniques into the current image-intensive digital pathological diagnosis. We aim to contribute this innovative approach to top-tier journals, offering fresh insights and valuable tools in the fields of medical imaging and cancer diagnosis. By introducing polarization imaging into liver cancer classification, we demonstrate its interdisciplinary potential in addressing challenges in medical image analysis, promising advancements in medical imaging and cancer diagnosis.
翻訳日:2023-12-29 18:38:52 公開日:2023-12-27
# evolution swarm robotics: 未知環境における探索とナビゲーションのための動的サブゴアベース経路形成とタスク割り当て

Evolutionary Swarm Robotics: Dynamic Subgoal-Based Path Formation and Task Allocation for Exploration and Navigation in Unknown Environments ( http://arxiv.org/abs/2312.16606v1 )

ライセンス: Link先を確認
Lavanya Ratnabala, Robinroy Peter, E.Y.A. Charles(参考訳) 本稿では,進化的スワーミングロボットの観点から,未知環境における探索とナビゲーションの課題について述べる。 経路形成は、協調的なスワーミングロボットがこれらのタスクを達成するために重要な役割を担っている。 そこで本論文では,2つの異なる位置間の経路を視覚的に連結したサブゴールを用いて確立する,サブゴールベースの経路形成法を提案する。 argosシミュレータで行ったシミュレーション実験は、ほとんどの試行でパスの形成が成功したことを示している。 さらに,経路形成に携わる多数のロボット間の相互衝突(交通)の問題に対処し,サブゴール方式の性能に悪影響を及ぼす。 この問題を軽減するために、ローカル通信プロトコルと光信号に基づく通信を活用するタスク割り当て戦略を提案する。 この戦略はポイント間の距離を評価し、経路形成タスクに必要なロボットの数を判断し、不要な探索と交通渋滞を減らす。 経路長,時間,資源削減をA*アルゴリズムと比較することにより,サブゴールベースの経路形成とタスク割り当て戦略の性能を評価する。 シミュレーション実験により,提案手法のスケーラビリティ,ロバスト性,耐障害性などを示す有望な結果が得られた。

This research paper addresses the challenges of exploration and navigation in unknown environments from an evolutionary swarm robotics perspective. Path formation plays a crucial role in enabling cooperative swarm robots to accomplish these tasks. The paper presents a method called the sub-goal-based path formation, which establishes a path between two different locations by exploiting visually connected sub-goals. Simulation experiments conducted in the Argos simulator demonstrate the successful formation of paths in the majority of trials. Furthermore, the paper tackles the problem of inter-collision (traffic) among a large number of robots engaged in path formation, which negatively impacts the performance of the sub-goal-based method. To mitigate this issue, a task allocation strategy is proposed, leveraging local communication protocols and light signal-based communication. The strategy evaluates the distance between points and determines the required number of robots for the path formation task, reducing unwanted exploration and traffic congestion. The performance of the sub-goal-based path formation and task allocation strategy is evaluated by comparing path length, time, and resource reduction against the A* algorithm. The simulation experiments demonstrate promising results, showcasing the scalability, robustness, and fault tolerance characteristics of the proposed approach.
翻訳日:2023-12-29 18:38:25 公開日:2023-12-27
# 不均衡半教師学習のための2クラスバイアス補正

Twice Class Bias Correction for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2312.16604v1 )

ライセンス: Link先を確認
Lan Li, Bowen Tao, Lu Han, De-chuan Zhan, Han-jia Ye(参考訳) 従来の半教師付き学習とは違い,(1)訓練サンプルの不均衡分布は,特定のクラスに対するモデルバイアスをもたらし,(2)ラベル付きサンプルの分布は未知であり,ラベル付きサンプルと異なる可能性があり,トレーニング中の擬似ラベルのクラスバイアスにさらに寄与する。 これら2つの課題に対処するため、新しいアプローチとして \textbf{T}wice \textbf{C}lass \textbf{B}ias \textbf{C}orrection (\textbf{TCBC})を導入する。 まず,参加者のトレーニングサンプルからのクラス分布の推定結果を用いてモデル修正を行い,クラスバランスの取れた事前条件下でのサンプルの後方確率を学習する。 この補正は、モデル固有のクラスバイアスを軽減するのに役立つ。 この基礎に基づいて、トレーニングプロセス中に現在のモデルパラメータのクラスバイアスを推定する。 ラベルなしサンプルに対するモデルの擬似ラベルに二次補正を適用し,ラベルなしサンプルの異なるクラスにまたがる擬似ラベルの割り当てを可能な限り等価にすることを目的とした。 CIFAR10/100-LT, STL10-LT, および大容量長尾データセットSUN397の広範な実験を通じて, 提案手法がクラス不均衡半教師付き学習の性能を確実に向上することを示す決定的証拠を提供する。

Differing from traditional semi-supervised learning, class-imbalanced semi-supervised learning presents two distinct challenges: (1) The imbalanced distribution of training samples leads to model bias towards certain classes, and (2) the distribution of unlabeled samples is unknown and potentially distinct from that of labeled samples, which further contributes to class bias in the pseudo-labels during training. To address these dual challenges, we introduce a novel approach called \textbf{T}wice \textbf{C}lass \textbf{B}ias \textbf{C}orrection (\textbf{TCBC}). We begin by utilizing an estimate of the class distribution from the participating training samples to correct the model, enabling it to learn the posterior probabilities of samples under a class-balanced prior. This correction serves to alleviate the inherent class bias of the model. Building upon this foundation, we further estimate the class bias of the current model parameters during the training process. We apply a secondary correction to the model's pseudo-labels for unlabeled samples, aiming to make the assignment of pseudo-labels across different classes of unlabeled samples as equitable as possible. Through extensive experimentation on CIFAR10/100-LT, STL10-LT, and the sizable long-tailed dataset SUN397, we provide conclusive evidence that our proposed TCBC method reliably enhances the performance of class-imbalanced semi-supervised learning.
翻訳日:2023-12-29 18:38:05 公開日:2023-12-27
# 汎用マルチモーダルモデルに向けた視覚インストラクションチューニング:調査

Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey ( http://arxiv.org/abs/2312.16602v1 )

ライセンス: Link先を確認
Jiaxing Huang, Jingyi Zhang, Kai Jiang, Han Qiu and Shijian Lu(参考訳) 従来のコンピュータビジョンは、1つのタスクを個別のモデルによって独立に解き、そのタスク命令はモデルアーキテクチャで暗黙的に設計され、2つの制限が生じた:(1)異なるタスクのために複数のモデルを必要とし、多様なタスクの潜在的なシナジーを制限するタスク固有のモデルに繋がる。 これに対処するため、視覚命令チューニング(vit)は近年、言語をタスク命令とする大きな視覚モデルを微調整し、言語指示によって記述される幅広い視覚タスクから学習することを目的としており、任意の命令に従うことができ、ユーザが指定した任意のタスクを解決できる汎用マルチモーダルモデルである。 This work aims to provide a systematic review of visual instruction tuning, covering (1) the background that presents computer vision task paradigms and the development of VIT; (2) the foundations of VIT that introduce commonly used network architectures, visual instruction tuning frameworks and objectives, and evaluation setups and tasks; (3) the commonly used datasets in visual instruction tuning and evaluation; (4) the review of existing VIT methods that categorizes them with a taxonomy according to both the studied vision task and the method design and highlights the major contributions, strengths, and shortcomings of them; (5) the comparison and discussion of VIT methods over various instruction-following benchmarks; (6) several challenges, open directions and possible future works in visual instruction tuning research.

Traditional computer vision generally solves each single task independently by a dedicated model with the task instruction implicitly designed in the model architecture, arising two limitations: (1) it leads to task-specific models, which require multiple models for different tasks and restrict the potential synergies from diverse tasks; (2) it leads to a pre-defined and fixed model interface that has limited interactivity and adaptability in following user' task instructions. To address them, Visual Instruction Tuning (VIT) has been intensively studied recently, which finetunes a large vision model with language as task instructions, aiming to learn from a wide range of vision tasks described by language instructions a general-purpose multimodal model that can follow arbitrary instructions and thus solve arbitrary tasks specified by the user. This work aims to provide a systematic review of visual instruction tuning, covering (1) the background that presents computer vision task paradigms and the development of VIT; (2) the foundations of VIT that introduce commonly used network architectures, visual instruction tuning frameworks and objectives, and evaluation setups and tasks; (3) the commonly used datasets in visual instruction tuning and evaluation; (4) the review of existing VIT methods that categorizes them with a taxonomy according to both the studied vision task and the method design and highlights the major contributions, strengths, and shortcomings of them; (5) the comparison and discussion of VIT methods over various instruction-following benchmarks; (6) several challenges, open directions and possible future works in visual instruction tuning research.
翻訳日:2023-12-29 18:37:37 公開日:2023-12-27
# クラスタ対応反復学習によるcRNA-seqデータクラスタリング

scRNA-seq Data Clustering by Cluster-aware Iterative Contrastive Learning ( http://arxiv.org/abs/2312.16600v1 )

ライセンス: Link先を確認
Weikang Jiang, Jinxian Wang, Jihong Guan and Shuigeng Zhou(参考訳) 単一細胞RNAシークエンシング(scRNA-seq)により、研究者は単一細胞レベルで遺伝子発現を解析できる。 scRNA-seqデータ分析における重要なタスクのひとつは、教師なしクラスタリング(unsupervised clustering)である。 本稿では,反復表現学習およびクラスタリングフレームワークを用いて,クラスタ認識によるコントラスト損失を伴うscrna-seqデータのクラスタリング構造を段階的に学習するscrna-seqデータクラスタリングのための,クラスタ認識型反復コントラスト学習(cicl)と呼ばれる新しい手法を提案する。 CICLはTransformerエンコーダ、クラスタリングヘッド、プロジェクションヘッド、コントラスト損失モジュールで構成される。 まず、CICLはトランスフォーマーエンコーダにより、オリジナルおよび拡張データの特徴ベクトルを抽出する。 そして、k平均でクラスタリングセンタロイドを計算し、学生t分布を用いてクラスタリングヘッド内の全セルに擬似ラベルを割り当てる。 投影ヘッドは、拡張データの投影を得るために多層パーセプトロン(mlp)を使用する。 最後に、擬似ラベルと射影の両方が、モデルのトレーニングを導くためにコントラスト損失として使用される。 このようなプロセスは反復的に行われ、クラスタリングの結果がより良くなるようにします。 25の現実世界の scRNA-seq データセットに対する大規模な実験により、CICL が SOTA 法より優れていることが示された。 具体的には、CICLは既存の手法を14%から280%に上回り、それぞれパフォーマンス指標のARIとNMIの平均で5%から133%に上っている。

Single-cell RNA sequencing (scRNA-seq) enables researchers to analyze gene expression at single-cell level. One important task in scRNA-seq data analysis is unsupervised clustering, which helps identify distinct cell types, laying down the foundation for other downstream analysis tasks. In this paper, we propose a novel method called Cluster-aware Iterative Contrastive Learning (CICL in short) for scRNA-seq data clustering, which utilizes an iterative representation learning and clustering framework to progressively learn the clustering structure of scRNA-seq data with a cluster-aware contrastive loss. CICL consists of a Transformer encoder, a clustering head, a projection head and a contrastive loss module. First, CICL extracts the feature vectors of the original and augmented data by the Transformer encoder. Then, it computes the clustering centroids by K-means and employs the student t-distribution to assign pseudo-labels to all cells in the clustering head. The projection-head uses a Multi-Layer Perceptron (MLP) to obtain projections of the augmented data. At last, both pseudo-labels and projections are used in the contrastive loss to guide the model training. Such a process goes iteratively so that the clustering result becomes better and better. Extensive experiments on 25 real world scRNA-seq datasets show that CICL outperforms the SOTA methods. Concretely, CICL surpasses the existing methods by from 14% to 280%, and from 5% to 133% on average in terms of performance metrics ARI and NMI respectively.
翻訳日:2023-12-29 18:37:13 公開日:2023-12-27
# Deep Neural Networks (DNN) を用いた聴覚と意味訓練の関係

Relationship between auditory and semantic entrainment using Deep Neural Networks (DNN) ( http://arxiv.org/abs/2312.16599v1 )

ライセンス: Link先を確認
Jay Kejriwal, \v{S}tefan Be\v{n}u\v{s}(参考訳) 相互作用する際に類似した行動、一致、同期を行う傾向は、エントレーメント(entrainment)として知られている。 多くの研究は言語(音韻構造と語彙構造)とパラ言語(ピッチ、強度)のエントレメントを検討したが、それらの関係を見出すには注意が払わなかった。 本研究では,BERT や TRILL (TRILL) ベクターのような最先端の DNN 埋め込みを用いて,2言語に比較して音声コーパスの対話におけるターンの意味的・聴覚的類似性を測定する。 聴覚的特徴と比較して意味的特徴をより訓練する傾向がみられた。 さらに,意味的・聴覚的言語的特徴のエントレメントは正の相関関係にあることがわかった。 本研究の成果は,ヒトと機械の相互作用(HMI)における運動のメカニズムの実装に有効である。

The tendency of people to engage in similar, matching, or synchronized behaviour when interacting is known as entrainment. Many studies examined linguistic (syntactic and lexical structures) and paralinguistic (pitch, intensity) entrainment, but less attention was given to finding the relationship between them. In this study, we utilized state-of-the-art DNN embeddings such as BERT and TRIpLet Loss network (TRILL) vectors to extract features for measuring semantic and auditory similarities of turns within dialogues in two comparable spoken corpora of two different languages. We found people's tendency to entrain on semantic features more when compared to auditory features. Additionally, we found that entrainment in semantic and auditory linguistic features are positively correlated. The findings of this study might assist in implementing the mechanism of entrainment in human-machine interaction (HMI).
翻訳日:2023-12-29 18:36:48 公開日:2023-12-27
# I2V-Adapter:ビデオ拡散モデルのための一般画像変換アダプタ

I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models ( http://arxiv.org/abs/2312.16693v1 )

ライセンス: Link先を確認
Xun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Chongyang Ma, Weiming Hu, Zhengjun Zha, Haibin Huang, Pengfei Wan, Di Zhang(参考訳) 急速に発展するデジタルコンテンツ生成の領域において、焦点はテキスト・ツー・イメージ(t2i)モデルから、テキスト・ツー・ビデオ(t2v)や画像・ビデオ(i2v)といったより高度なビデオ拡散モデルへとシフトしている。 本稿では,i2vが提示する複雑な課題に対処し,静止画像から動画像に類似した動画像に変換する。 従来の手法では、画像全体を拡散プロセスに統合したり、事前訓練されたエンコーダを横断的に使用するのが一般的である。 しかしながら、これらのアプローチは、しばしばT2Iモデルの基本重みを変更し、再使用性を制限する必要がある。 このような制約を克服する新しいソリューション、すなわちi2v-adapterを導入する。 提案手法は,T2Iモデルとその固有運動モジュールの構造的整合性を保持する。 I2V-Adapterは、軽量なアダプタモジュールを使用して、入力画像と並行してノイズ付きビデオフレームを処理する。 このモジュールはブリッジとして機能し、T2Iモデルの構造変更を必要とせずに、入力をモデルの自己保持機構に効率的にリンクする。 さらに、I2V-Adapterは従来のモデルのパラメータのごく一部しか必要とせず、既存のコミュニティ主導のT2Iモデルやコントロールツールとの互換性を確保する。 実験により,I2V-Adapterが高品質な映像出力を実現することを示す。 このパフォーマンスは、汎用性とトレーニング可能なパラメータの必要性の低減と相まって、AI駆動のビデオ生成分野、特にクリエイティブなアプリケーションにおいて、大幅に進歩している。

In the rapidly evolving domain of digital content generation, the focus has shifted from text-to-image (T2I) models to more advanced video diffusion models, notably text-to-video (T2V) and image-to-video (I2V). This paper addresses the intricate challenge posed by I2V: converting static images into dynamic, lifelike video sequences while preserving the original image fidelity. Traditional methods typically involve integrating entire images into diffusion processes or using pretrained encoders for cross attention. However, these approaches often necessitate altering the fundamental weights of T2I models, thereby restricting their reusability. We introduce a novel solution, namely I2V-Adapter, designed to overcome such limitations. Our approach preserves the structural integrity of T2I models and their inherent motion modules. The I2V-Adapter operates by processing noised video frames in parallel with the input image, utilizing a lightweight adapter module. This module acts as a bridge, efficiently linking the input to the model's self-attention mechanism, thus maintaining spatial details without requiring structural changes to the T2I model. Moreover, I2V-Adapter requires only a fraction of the parameters of conventional models and ensures compatibility with existing community-driven T2I models and controlling tools. Our experimental results demonstrate I2V-Adapter's capability to produce high-quality video outputs. This performance, coupled with its versatility and reduced need for trainable parameters, represents a substantial advancement in the field of AI-driven video generation, particularly for creative applications.
翻訳日:2023-12-29 18:30:16 公開日:2023-12-27
# 不規則ハルデンモデルにおける位相相転移

Topological Phase Transitions in the Disordered Haldane Model ( http://arxiv.org/abs/2312.16689v1 )

ライセンス: Link先を確認
J. Mildner, M. D. Caio, G. M\"oller, N. R. Cooper, M. J. Bhaseen(参考訳) オンサイト障害の存在下での不規則ハルダンモデルの相転移と相転移について検討する。 実空間のチャーンマーカーと伝達行列を用いて、幅広いパラメータから臨界指数を抽出する。 乱れ駆動の遷移は、不規則なディラックフェルミオンの最近のシミュレーションと一致して、整数量子ホール効果(iqhe)のプラトー遷移と一致する。 我々の数値的な結果は、連続的な相関長指数を持つ質量駆動遷移の付加的なラインと互換性がある。 値が自由ディラックフェルミオンとIQHEの間に介在し、障害強度が増大する。 また,チャーンマーカーのゆらぎは,二つの遷移点の近傍でパワーローの発散を示し,別の異なる指数を与えることを示した。 これらの結果の解釈について議論する。

We investigate the phases and phase transitions of the disordered Haldane model in the presence of on-site disorder. We use the real-space Chern marker and transfer matrices to extract critical exponents over a broad range of parameters. The disorder-driven transitions are consistent with the plateau transitions in the Integer Quantum Hall Effect (IQHE), in conformity with recent simulations of disordered Dirac fermions. Our numerical findings are compatible with an additional line of mass-driven transitions with a continuously varying correlation length exponent. The values interpolate between free Dirac fermions and the IQHE with increasing disorder strength. We also show that the fluctuations of the Chern marker exhibit a power-law divergence in the vicinity of both sets of transitions, yielding another varying exponent. We discuss the interpretation of these results.
翻訳日:2023-12-29 18:29:47 公開日:2023-12-27
# 他のものよりもクリンジが多いものがある:ペアワイズクリンジ損失による選好最適化

Some things are more CRINGE than others: Preference Optimization with the Pairwise Cringe Loss ( http://arxiv.org/abs/2312.16682v1 )

ライセンス: Link先を確認
Jing Xu, Andrew Lee, Sainbayar Sukhbaatar, Jason Weston(参考訳) 実践者は、ペアの好みを使って大きな言語モデルをアライメントする。つまり、型応答Aのラベルは、与えられた入力に対して応答Bに好まれる。 おそらくより一般的には、バイナリフィードバックのためのメソッドも開発されている。つまり、型応答Aのラベルが良いか悪いかが与えられたトレーニングモデルである。 本稿では,既存の2値フィードバック手法であるCrynge Loss(Adolphs et al., 2022)を,単純なソフトマージン拡張を用いてペアの選好設定に一般化する方法を示す。 Pairwise Cringe Lossは簡単に実装でき、訓練も効率的で、AlpacaFarmベンチマークではPPOやDPOといった最先端の選好最適化アルゴリズムよりも優れています。

Practitioners commonly align large language models using pairwise preferences, i.e., given labels of the type response A is preferred to response B for a given input. Perhaps less commonly, methods have also been developed for binary feedback, i.e. training models given labels of type response A is good or bad. We show how an existing performant binary feedback method, the Cringe Loss (Adolphs et al., 2022), can be generalized to the pairwise preference setting using a simple soft margin extension. Pairwise Cringe Loss is straightforward to implement and efficient to train, and we find it outperforms state-of-the-art preference optimization algorithms such as PPO and DPO on the AlpacaFarm benchmark.
翻訳日:2023-12-29 18:29:35 公開日:2023-12-27
# 3つの状態の$\mathcal{pt}$-symmetric mappingとそのクラウド量子プロセッサへの実装

$\mathcal{PT}$-symmetric mapping of three states and its implementation on a cloud quantum processor ( http://arxiv.org/abs/2312.16680v1 )

ライセンス: Link先を確認
Yaroslav Balytskyi, Yevgen Kotukh, Gennady Khalimov, Sang-Yoon Chang(参考訳) 我々は,3つの純量子ビット状態のマッピングを行い,拡張法で実装する$\mathcal{PT}$-symmetricアプローチを開発し,IBM Quantum Experienceによって提供される超伝導量子プロセッサを用いてそれを実証する。 選択後の$\mathcal{PT}$-対称部分空間の人口に対する厳密な公式を導出し、エルミートの場合と整合性を示し、基準ベクトル上の平均射影の保存、および量子フィッシャー情報を示す。 N = 2$純状態の判別に使用される場合、我々のアルゴリズムは従来の曖昧な量子状態の判別と等価な結果を与える。 n = 3$状態の場合、このアプローチは従来のエルミートの場合では利用できない新しい性質を提供し、3つの量子状態の任意の集合を他の3つの状態の任意の集合に変換することができる。 QKD3状態プロトコルでは,従来の最小誤差,最大信頼度,最大相互情報戦略と同じ誤差率を有する。 提案手法は,非MSE測定値を用いた量子センシングにおけるHermitian法を超越し,特定のデータ領域内での正確な推定の利点と,出力値に対するロバスト性の向上を提供する。 量子データベース探索に応用すると,従来のGroverの探索アルゴリズムと比較して回路深度が顕著に減少する一方,平均呼び出し数も同じであり,NISQコンピュータには大きな利点がある。 さらに,本手法の汎用性は,非対称量子状態の識別や量子誤差補正に有用である。 私たちの研究は、量子通信、コンピューティング、暗号に$\mathcal{pt}$-symmetryを適用するための新しいドアを解き放ちます。

We develop a new $\mathcal{PT}$-symmetric approach for mapping three pure qubit states, implement it by the dilation method, and demonstrate it with a superconducting quantum processor provided by the IBM Quantum Experience. We derive exact formulas for the population of the post-selected $\mathcal{PT}$-symmetric subspace and show consistency with the Hermitian case, conservation of average projections on reference vectors, and Quantum Fisher Information. When used for discrimination of $N = 2$ pure states, our algorithm gives an equivalent result to the conventional unambiguous quantum state discrimination. For $N = 3$ states, our approach provides novel properties unavailable in the conventional Hermitian case and can transform an arbitrary set of three quantum states into another arbitrary set of three states at the cost of introducing an inconclusive result. For the QKD three-state protocol, our algorithm has the same error rate as the conventional minimum error, maximum confidence, and maximum mutual information strategies. The proposed method surpasses its Hermitian counterparts in quantum sensing using non-MSE metrics, providing an advantage for precise estimations within specific data space regions and improved robustness to outliers. Applied to quantum database search, our approach yields a notable decrease in circuit depth in comparison to traditional Grover's search algorithm while maintaining the same average number of oracle calls, thereby offering significant advantages for NISQ computers. Additionally, the versatility of our method can be valuable for the discrimination of highly non-symmetric quantum states, and quantum error correction. Our work unlocks new doors for applying $\mathcal{PT}$-symmetry in quantum communication, computing, and cryptography.
翻訳日:2023-12-29 18:29:18 公開日:2023-12-27
# N$_{2 }$およびO$_{2}$分子のヘリウムイオン効果と偏光効果による励起

Excitations of N$_{2 }$ and O$_{2}$ molecules due to helium ion impact and a polarization effect ( http://arxiv.org/abs/2312.16676v1 )

ライセンス: Link先を確認
M. Gochitashvili, R. Lomsadze, R. Ya. Kezerashvili, I. Noselidze, and M. Schulz(参考訳) ヘリウムイオンと窒素および酸素分子の衝突における解離励起を0.7-10$kevの衝突エネルギーで実験的に研究する。 絶対放射断面積は、窒素と酸素の原子線とイオン線の大部分、真空紫外(80-130$ nm)、可視領域(380-800$ nm)で測定され、報告されている。 He$^{+}+$N$_{2}$とHe$^{+}+$O$_{2}$の衝突系で実現されたプロセスの顕著な類似性を観察する。 本研究では,he$^{+}+$n$_{2}$衝突系の偏光測定を行う。 高分解能光学分光法の改良により励起解離生成物の放出が検出された。 遅延電位法と高分解能静電エネルギー分析装置とを組み込んで入射粒子のエネルギーと分散のエネルギーを正確に測定する。 光学分解能の向上により、断面を10$^{-19}$ cm$^{2}$以下の順序で測定することができる。

We present an experimentally study of the dissociative excitation in collision of helium ions with nitrogen and oxygen molecules for collision energy of $0.7-10$ keV. Absolute emission cross sections is measured and reported for the most nitrogen and oxygen atomic and ionic lines in wide, vacuum ultraviolet ($80-130$ nm) and visible ($380-800$ nm), spectral region. The striking similarities of processes realized in He$^{+}+$N$_{2}$ and He$^{+}+$O$_{2}$ collision system are observed. We present polarization measurements for He$^{+}+$N$_{2}$ collision system. Emission of excited dissociative products was detected with the improved method of high-resolution optical spectroscopy. This device is incorporated with the retarding potential method and a high resolution electrostatic energy analyzer to measure precisely the energy of incident particles and the energy of dispersion. The improvement of an optics resolution allows us to measure the cross section on the order of 10$^{-19}$ cm$^{2}$ or lower.
翻訳日:2023-12-29 18:28:45 公開日:2023-12-27
# 量子イマジナリー時間発展による組合せ最適化

Combinatorial optimization with quantum imaginary time evolution ( http://arxiv.org/abs/2312.16664v1 )

ライセンス: Link先を確認
Nora M. Bauer, Rizwanul Alam, James Ostrowski, George Siopsis(参考訳) 多項式非拘束二元最適化 (pubo) 問題を解くために量子虚時発展 (qite) を用いる。 線形アンザッツは幅広いPUBO問題に対して良い結果をもたらすことを示し、ゲーマン・ウィリアムソン(GW)アルゴリズムのような標準的な古典的手法よりも優れていることがよく示されている。 我々は,Low Autocorrelation Binary Sequences (LABS) と重み付きMaxCut組合せ最適化問題の数値結果を得た。 LABS問題におけるQITEの性能は, p=10 QAOA に匹敵する分離可能な Ansatz と同等であり, 絡み合う Ansatz では大きな優位性は得られない。 重み付きmaxcutでは、分離可能なansatzを持つqiteは、グラフ上のgwアルゴリズムを150頂点まで上回ることが多い。

We use Quantum Imaginary Time Evolution (QITE) to solve polynomial unconstrained binary optimization (PUBO) problems. We show that a linear Ansatz yields good results for a wide range of PUBO problems, often outperforming standard classical methods, such as the Goemans-Williamson (GW) algorithm. We obtain numerical results for the Low Autocorrelation Binary Sequences (LABS) and weighted MaxCut combinatorial optimization problems, thus extending an earlier demonstration of successful application of QITE on MaxCut for unweighted graphs. We find the performance of QITE on the LABS problem with a separable Ansatz comparable with p=10 QAOA, and do not see a significant advantage with an entangling Ansatz. On weighted MaxCut, QITE with a separable Ansatz often outperforms the GW algorithm on graphs up to 150 vertices.
翻訳日:2023-12-29 18:28:28 公開日:2023-12-27
# アイデンティティ関連書き込み改善のための大規模言語モデルに基づく計算手法

A Large Language Model-based Computational Approach to Improve Identity-Related Write-Ups ( http://arxiv.org/abs/2312.16659v1 )

ライセンス: Link先を確認
Alex Doboli(参考訳) 著作物の作成は、個人のアイデンティティや個人的な経験など、現代生活にとって不可欠である。 しかし、文章を書くことはしばしば難しい活動であり、中央の考えを枠組むために多大な努力を要し、中央の考えを伝えるために追求されたアプローチ、例えばアナロジー、メタファ、その他の可能な手段、必要な表現構造、実際の言語表現を使う。 最近登場した機械学習のアプローチであるLarge Language Modelsは、労力を削減し、製品の品質を改善する上で大きな助けとなる。 本稿では,大規模言語モデルへの入力が与えられれば,思考された製品を改善する手がかりが生成できる,プロンプトを探索するための新しい計算手法を提案する。 本論文では,類推に基づく書き上げ改善とメタファーに基づく書き上げ改善に関する2つのケーススタディも紹介する。

Creating written products is essential to modern life, including writings about one's identity and personal experiences. However, writing is often a difficult activity that requires extensive effort to frame the central ideas, the pursued approach to communicate the central ideas, e.g., using analogies, metaphors, or other possible means, the needed presentation structure, and the actual verbal expression. Large Language Models, a recently emerged approach in Machine Learning, can offer a significant help in reducing the effort and improving the quality of written products. This paper proposes a new computational approach to explore prompts that given as inputs to a Large Language Models can generate cues to improve the considered written products. Two case studies on improving write-ups, one based on an analogy and one on a metaphor, are also presented in the paper.
翻訳日:2023-12-29 18:28:11 公開日:2023-12-27
# 不変型プログラム修復

Invariant-based Program Repair ( http://arxiv.org/abs/2312.16652v1 )

ライセンス: Link先を確認
Omar I. Al-Bataineh(参考訳) 本稿では,プログラム不変量の概念に基づく汎用型自動プログラム修復(APR)フレームワークについて述べる。 修正フレームワークでは、欠陥のあるプログラムの実行トレースを動的に解析して、$\varphi_{correct}$と$\varphi_{violated}$を推論し、ここで$\varphi_{correct}$は、実行に要する可能性のある不変値(よいパターン)の集合を表し、$\varphi_{violated}$は、欠陥のあるプログラムのバグを引き起こす可能性のある疑わしい不変値(悪いパターン)の集合を表す。 これらの仕様は、厳密なプログラム解析技術を用いて洗練され、また、修正プロセスを実行可能なパッチに向けて推進し、生成されたパッチの正しさを評価するためにも使われる。 最初の分析は、プログラムの効率が機能に悪影響を及ぼすことなく向上することを保証するパッチを生成することにより、パフォーマンスバグを処理するための不変ベースのAPRの有効性を示している。

This paper describes a formal general-purpose automated program repair (APR) framework based on the concept of program invariants. In the presented repair framework, the execution traces of a defected program are dynamically analyzed to infer specifications $\varphi_{correct}$ and $\varphi_{violated}$, where $\varphi_{correct}$ represents the set of likely invariants (good patterns) required for a run to be successful and $\varphi_{violated}$ represents the set of likely suspicious invariants (bad patterns) that result in the bug in the defected program. These specifications are then refined using rigorous program analysis techniques, which are also used to drive the repair process towards feasible patches and assess the correctness of generated patches.We demonstrate the usefulness of leveraging invariants in APR by developing an invariant-based repair system for performance bugs. The initial analysis shows the effectiveness of invariant-based APR in handling performance bugs by producing patches that ensure program's efficiency increase without adversely impacting its functionality.
翻訳日:2023-12-29 18:27:55 公開日:2023-12-27
# 汎用合成画像検出のための偽造対応適応変圧器

Forgery-aware Adaptive Transformer for Generalizable Synthetic Image Detection ( http://arxiv.org/abs/2312.16649v1 )

ライセンス: Link先を確認
Huan Liu, Zichang Tan, Chuangchuang Tan, Yunchao Wei, Yao Zhao, Jingdong Wang(参考訳) 本稿では,GANや拡散モデルなどの多種多様な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。 カットエッジソリューションは、事前訓練されたモデルの利点を探求し始め、主に、凍ったCLIP-ViTとUniFDの学習可能な線形層を組み合わせて、付属の分類器のみを訓練する固定パラダイムに従う。 しかし,このような固定パラダイムは,偽造表現に関する学習が不十分な検出器を生成する傾向にある。 本稿では,偽造適応の欠如を鍵となる課題として,新しい偽造対応トランスフォーマー,すなわちfatformerを提案する。 クリップの事前訓練された視覚言語空間に基づいて、fatformerは一般的な偽造表現を構築するために2つのコア設計を導入する。 まず,合成画像検出に画像解析と周波数解析の両方が不可欠であることに動機づけられ,画像特徴を画像領域と周波数領域内の局所的な偽造トレースを識別・統合するために,偽造対応アダプタを開発した。 第二に、適応画像特徴とテキストプロンプト埋め込みの対照的な目的を考えると、これまで見過ごされていた側面は、非自明な一般化の改善をもたらす。 そこで,fatformerにおいて,画像およびテキストプロンプトによる偽造適応を監督するために,言語案内アライメントを導入する。 実験により,これらの2つの設計を結合することにより,4種類の ProGAN データをチューニングし,平均98%の精度でGANを観測し,95%の精度で拡散モデルに驚くほど一般化した。

In this paper, we study the problem of generalizable synthetic image detection, aiming to detect forgery images from diverse generative methods, e.g., GANs and diffusion models. Cutting-edge solutions start to explore the benefits of pre-trained models, and mainly follow the fixed paradigm of solely training an attached classifier, e.g., combining frozen CLIP-ViT with a learnable linear layer in UniFD. However, our analysis shows that such a fixed paradigm is prone to yield detectors with insufficient learning regarding forgery representations. We attribute the key challenge to the lack of forgery adaptation, and present a novel forgery-aware adaptive transformer approach, namely FatFormer. Based on the pre-trained vision-language spaces of CLIP, FatFormer introduces two core designs for the adaption to build generalized forgery representations. First, motivated by the fact that both image and frequency analysis are essential for synthetic image detection, we develop a forgery-aware adapter to adapt image features to discern and integrate local forgery traces within image and frequency domains. Second, we find that considering the contrastive objectives between adapted image features and text prompt embeddings, a previously overlooked aspect, results in a nontrivial generalization improvement. Accordingly, we introduce language-guided alignment to supervise the forgery adaptation with image and text prompts in FatFormer. Experiments show that, by coupling these two designs, our approach tuned on 4-class ProGAN data attains a remarkable detection performance, achieving an average of 98% accuracy to unseen GANs, and surprisingly generalizes to unseen diffusion models with 95% accuracy.
翻訳日:2023-12-29 18:27:31 公開日:2023-12-27
# LIP-Loc: クロスモーダルローカライゼーションのためのLiDAR画像プレトレーニング

LIP-Loc: LiDAR Image Pretraining for Cross-Modal Localization ( http://arxiv.org/abs/2312.16648v1 )

ライセンス: Link先を確認
Sai Shubodh Puligilla, Mohammad Omama, Husain Zaidi, Udit Singh Parihar and Madhava Krishna(参考訳) 自律運転アプリケーションにとって重要なLiDARマップのグローバルな視覚的ローカライゼーションは、クロスモーダルな異質性ギャップを埋めることの難しさから、いまだほとんど解明されていない。 ポピュラーなマルチモーダル学習アプローチ コントラスト言語イメージ前訓練(clip)は、テキストと画像のマルチモーダルドメインに適用することにより、バッチ構築技術を用いてコントラスト対称損失を広めてきた。 このアプローチを2次元画像領域と3次元lidar点領域に適用し,クロスモーダル局所化の課題に適用する。 画像エンコーダとLiDARエンコーダを共同でトレーニングすることで,N (image, LiDAR) ペアのバッチを構築し, N X N の可能なペア間の適切なマッチングを予測し,マルチモーダル埋め込み空間を学習する。 このように、N 個の正の対のコサイン類似性が最大化され、残りの負の対のコサイン類似性が最小化される。 最後に、得られた類似度スコアに対して対称クロスエントロピー損失を最適化する。 我々の知る限り、これは画像とLiDARデータのクロスモーダルな設定にバッチ化ロスアプローチを適用し、また視覚的ローカライゼーション設定でゼロショット転送を示す最初の試みである。 我々は,KITTI や KITTI-360 などの標準自律運転データセットを広範囲に分析する。 魚眼画像を用いた最新技術アプローチとは対照的に,kitti-360データセットのリコール@1精度を22.4%向上させた。 さらに、この優れたパフォーマンスは複雑なアーキテクチャに頼ることなく達成される。 さらに,モデルのゼロショット能力を実証し,トレーニングも行わずにSOTAを8%上回った。 さらに、KITTIデータセット上でのクロスモーダルなローカライゼーションのための最初のベンチマークを確立する。

Global visual localization in LiDAR-maps, crucial for autonomous driving applications, remains largely unexplored due to the challenging issue of bridging the cross-modal heterogeneity gap. Popular multi-modal learning approach Contrastive Language-Image Pre-Training (CLIP) has popularized contrastive symmetric loss using batch construction technique by applying it to multi-modal domains of text and image. We apply this approach to the domains of 2D image and 3D LiDAR points on the task of cross-modal localization. Our method is explained as follows: A batch of N (image, LiDAR) pairs is constructed so as to predict what is the right match between N X N possible pairings across the batch by jointly training an image encoder and LiDAR encoder to learn a multi-modal embedding space. In this way, the cosine similarity between N positive pairings is maximized, whereas that between the remaining negative pairings is minimized. Finally, over the obtained similarity scores, a symmetric cross-entropy loss is optimized. To the best of our knowledge, this is the first work to apply batched loss approach to a cross-modal setting of image & LiDAR data and also to show Zero-shot transfer in a visual localization setting. We conduct extensive analyses on standard autonomous driving datasets such as KITTI and KITTI-360 datasets. Our method outperforms state-of-the-art recall@1 accuracy on the KITTI-360 dataset by 22.4%, using only perspective images, in contrast to the state-of-the-art approach, which utilizes the more informative fisheye images. Additionally, this superior performance is achieved without resorting to complex architectures. Moreover, we demonstrate the zero-shot capabilities of our model and we beat SOTA by 8% without even training on it. Furthermore, we establish the first benchmark for cross-modal localization on the KITTI dataset.
翻訳日:2023-12-29 18:26:58 公開日:2023-12-27
# スピン・スプリングマッピングを用いた最適STIRAPショートカット

Optimal STIRAP shortcuts using the spin to spring mapping ( http://arxiv.org/abs/2312.16643v1 )

ライセンス: Link先を確認
Vasileios Evangelakos, Emmanuel Paspalakis, Dionisis Stefanatos(参考訳) 我々は,古典駆動型散逸型高調波発振器の簡易なシステム上で,対応する最適制御問題を定式化するためにスピン・スプリングマッピングを用いて,3レベル$\Lambda$量子系における集団移動を最大化する断熱性の導出を行う。 我々は、春の最適制御問題を解くとともに、最適パルス列を構成する要素であるインパルス、ゼロ制御間隔の持続時間、特異制御に関する解析式を得る。 また、スプリング問題に対して、最適値よりもインパルスが少ない部分最適解と、より滑らかな多項式制御を持つ部分最適解を導出する。 次に, スプリングシステムから導出された解を元のシステムに適用し, 数値最適制御による人口移動効率と元のシステムで得られた解を比較した。 全ての散逸率について、最適ばね制御の効率は、より小さな減衰率に対してより早く達成されたアプローチにより、より長い期間の数値最適解に近づく。 インパルスの少ない準最適バネ制御で達成される効率は、すべての場合において最適なバネ制御と非常に近いが、多項式制御で得られるものは以下であり、これはインパルスを使用しないために支払われる価格であり、中間状態において非ゼロ人口を迅速に構築することができる。 古典的消散発振器の最適解法の解析は、手元のシステムに限らず、運動する調和ポテンシャルに閉じ込められたコヒーレントな状態の輸送や、確率的熱力学におけるメソスコピックな物体の輸送にも適用することができる。

We derive shortcuts to adiabaticity maximizing population transfer in a three-level $\Lambda$ quantum system, using the spin to spring mapping to formulate the corresponding optimal control problem on the simpler system of a classical driven dissipative harmonic oscillator. We solve the spring optimal control problem and obtain analytical expressions for the impulses, the durations of the zero control intervals and the singular control, which are the elements composing the optimal pulse sequence. We also derive suboptimal solutions for the spring problem, one with less impulses than the optimal and others with smoother polynomial controls. We then apply the solutions derived for the spring system to the original system, and compare the population transfer efficiency with that obtained for the original system using numerical optimal control. For all dissipation rates used, the efficiency of the optimal spring control approaches that of the numerical optimal solution for longer durations, with the approach accomplished earlier for smaller decay rates. The efficiency achieved with the suboptimal spring control with less impulses is very close to that of the optimal spring control in all cases, while that obtained with polynomial controls lies below, and this is the price paid for not using impulses, which can quickly build a nonzero population in the intermediate state. The analysis of the optimal solution for the classical driven dissipative oscillator is not restricted to the system at hand but can also be applied in the transport of a coherent state trapped in a moving harmonic potential and the transport of a mesoscopic object in stochastic thermodynamics.
翻訳日:2023-12-29 18:26:27 公開日:2023-12-27
# 動的ネットワーク上でのフォールトトレラント垂直フェデレート学習

Fault-Tolerant Vertical Federated Learning on Dynamic Networks ( http://arxiv.org/abs/2312.16638v1 )

ライセンス: Link先を確認
Surojit Ganguli, Zeyu Zhou, Christopher G. Brinton, David I. Inouye(参考訳) Vertical Federated Learning (VFL) はFLのクラスであり、各クライアントは同じサンプルスペースを共有するが、機能のサブセットのみを保持する。 vflは分散学習の重要なプライバシー問題に取り組む一方で、完璧なハードウェアと通信機能を想定することが多い。 この仮定は、特にエッジデバイスにおけるvflの広範な展開を妨げる。 このギャップに対処するために、データ分割とネットワークコンテキストを含むインターネット学習(IL)を定義し、クライアントの極端な動的条件下での優れたパフォーマンスを第一の目標とする。 本稿では,vflをベースラインとして提案し,学習のilパラダイムを扱うための拡張をいくつか開発する。 さらに,センサネットワークのシミュレーションに基づいて,新しい手法を実装し,メトリクスを提案し,結果を広範囲に分析する。 その結果,提案手法はVFLベースラインよりもネットワークの変化に対して堅牢であることがわかった。

Vertical Federated learning (VFL) is a class of FL where each client shares the same sample space but only holds a subset of the features. While VFL tackles key privacy challenges of distributed learning, it often assumes perfect hardware and communication capabilities. This assumption hinders the broad deployment of VFL, particularly on edge devices, which are heterogeneous in their in-situ capabilities and will connect/disconnect from the network over time. To address this gap, we define Internet Learning (IL) including its data splitting and network context and which puts good performance under extreme dynamic condition of clients as the primary goal. We propose VFL as a naive baseline and develop several extensions to handle the IL paradigm of learning. Furthermore, we implement new methods, propose metrics, and extensively analyze results based on simulating a sensor network. The results show that the developed methods are more robust to changes in the network than VFL baseline.
翻訳日:2023-12-29 18:25:55 公開日:2023-12-27
# Gray Literatureを使ってソフトウェアエンジニアリングカリキュラムに影響を与える

Using Gray Literature to Influence Software Engineering Curricula ( http://arxiv.org/abs/2312.16634v1 )

ライセンス: Link先を確認
James D Kiper, Simon Sultana, Brent Auernheimer, Gursimran Singh Walia(参考訳) ソフトウェアエンジニアリング(SE)は急速に進化し、技術と業界の期待が変わる。 カリキュラム審査機関(例えば、acmおよびieee-csワーキンググループ)はよく反応するが、数年でリフレッシュサイクルを計測することができる。 コンピュータサイエンスとse教育者がアジャイルであり、予測し、変化し続ける技術トレンドに適応するためには、グレーの文学(gl)を巧みに利用することが役立つ。 他の分野では、GLは学術研究と産業のニーズを橋渡しするのに有用である。 gl を se に拡張することで,学生の産業準備を支援することができる。 まず、技術的な変化の速度を考えると、現在のカリキュラムガイドラインは業界慣行と卒業生の必要性を正確に反映しているか? 第2に、現在のトレンドと新興トレンドをトラッキングして、関連する能力を取得するにはどうすればよいのか? 学術文献の研究は、現在および新興のトレンドに対する理解に限定的な影響を及ぼし、カリキュラムデザイナーはGLをうまく活用するであろうと我々は主張する。 私たちはSE教育者の推薦を締めくくる。

Software engineering (SE) evolves rapidly, with changing technology and industry expectations. The curriculum review bodies (e.g., ACM and IEEE-CS working groups) respond well but can have refresh cycles measured in years. For Computer Science and SE educators to be agile, predictive, and adapt to changing technology trends, judicious use of gray literature (GL) can be helpful. Other fields have found GL useful in bridging academic research and industry needs. GL can be extended to SE to aid faculty preparing students for industry. We address two questions: first, given the velocity of technical change, do current curricular guidelines accurately reflect industry practice and need for our graduates? Second, how can we track current and emerging trends to capture relevant competencies? We argue a study of the scholarly literature will have a limited impact on our understanding of current and emerging trends and curriculum designers would do well to utilize GL. We close with recommendations for SE educators.
翻訳日:2023-12-29 18:25:39 公開日:2023-12-27
# MIM4DD:データセット蒸留のための相互情報の最大化

MIM4DD: Mutual Information Maximization for Dataset Distillation ( http://arxiv.org/abs/2312.16627v1 )

ライセンス: Link先を確認
Yuzhang Shang, Zhihang Yuan, Yan Yan(参考訳) dataset distillation(dd)は、テストパフォーマンスが同じモデルを使った完全なデータセットに匹敵する小さなデータセットを合成することを目的としている。 State-of-the-art (SoTA) の手法は、主に2つのネットワークから抽出されたヒューリスティックな指標(実データと合成データ(図1参照))をマッチングすることで合成データセットを最適化する。 DDは、データに含まれる情報の保存を最大化することを強調する圧縮問題である。 情報理論における変数間の共有情報量を測定するための明確な指標は、成功の測定には必要であるが、以前の研究では考慮されていない。 そこで我々は,合成データセットと実データセット間の共有情報を定量化するための指標として相互情報(MI)を導入し,比較学習フレームワーク内で新たに設計された最適化可能な目的によってMIを数値的に最大化し,合成データセットを更新する。 具体的には、正のペアと負のペアと同一のラベルを共有する異なるデータセットにサンプルを指定します。 そして、NCE損失を最小化することにより、正対と負対のサンプルをそれぞれコントラスト空間に押し込みます。 その結果、対象とするmiは、サンプルの特徴マップで表される下界に変換でき、数値的に実現可能である。 実験の結果,MIM4DDは既存のSoTA DDメソッドのアドオンモジュールとして実装可能であることがわかった。

Dataset distillation (DD) aims to synthesize a small dataset whose test performance is comparable to a full dataset using the same model. State-of-the-art (SoTA) methods optimize synthetic datasets primarily by matching heuristic indicators extracted from two networks: one from real data and one from synthetic data (see Fig.1, Left), such as gradients and training trajectories. DD is essentially a compression problem that emphasizes maximizing the preservation of information contained in the data. We argue that well-defined metrics which measure the amount of shared information between variables in information theory are necessary for success measurement but are never considered by previous works. Thus, we introduce mutual information (MI) as the metric to quantify the shared information between the synthetic and the real datasets, and devise MIM4DD numerically maximizing the MI via a newly designed optimizable objective within a contrastive learning framework to update the synthetic dataset. Specifically, we designate the samples in different datasets that share the same labels as positive pairs and vice versa negative pairs. Then we respectively pull and push those samples in positive and negative pairs into contrastive space via minimizing NCE loss. As a result, the targeted MI can be transformed into a lower bound represented by feature maps of samples, which is numerically feasible. Experiment results show that MIM4DD can be implemented as an add-on module to existing SoTA DD methods.
翻訳日:2023-12-29 18:25:25 公開日:2023-12-27
# 畳み込みニューラルネットワークによるリサイクルのためのスマートフォン部品の選別

Sorting of Smartphone Components for Recycling Through Convolutional Neural Networks ( http://arxiv.org/abs/2312.16626v1 )

ライセンス: Link先を確認
\'Alvaro G. Becker, Marcelo P. Cenci, Thiago L. T. da Silveira, Hugo M. Veit(参考訳) 廃電気・電子機器のリサイクルは循環経済を実現する上で必須の手段であり, 環境・経済面で大きな利益をもたらす可能性がある。 しかし、従来の物質分離技術は、物理的および化学的プロセスに基づいて、相当な投資を必要とし、全てのケースに当てはまらない。 本研究では,画像分類ニューラルネットワークを,スマートフォンの廃棄物処理における自動材料分離プロセスを制御する潜在的な手段として利用し,既存のツールよりも効率的で低コストで,より広く適用可能な代替手段として機能することを検討する。 熱分解スマートフォン部品の1,127枚の画像を用いたデータセットを作成し,VGG-16画像分類モデルの訓練と評価に利用した。 このモデルは83.33%の精度を達成し、そのようなニューラルネットワークを物質分離に活用する可能性に信頼性を貸与した。

The recycling of waste electrical and electronic equipment is an essential tool in allowing for a circular economy, presenting the potential for significant environmental and economic gain. However, traditional material separation techniques, based on physical and chemical processes, require substantial investment and do not apply to all cases. In this work, we investigate using an image classification neural network as a potential means to control an automated material separation process in treating smartphone waste, acting as a more efficient, less costly, and more widely applicable alternative to existing tools. We produced a dataset with 1,127 images of pyrolyzed smartphone components, which was then used to train and assess a VGG-16 image classification model. The model achieved 83.33% accuracy, lending credence to the viability of using such a neural network in material separation.
翻訳日:2023-12-29 18:24:55 公開日:2023-12-27
# 強化学習と対話的意思決定の基礎

Foundations of Reinforcement Learning and Interactive Decision Making ( http://arxiv.org/abs/2312.16730v1 )

ライセンス: Link先を確認
Dylan J. Foster and Alexander Rakhlin(参考訳) これらの講義ノートは強化学習と対話的意思決定の基礎に関する統計的視点を与える。 本稿では,頻度主義的アプローチとベイズ的アプローチを用いて探索・探索ジレンマに対処するための統一的な枠組みを提案する。 ニューラルネットワークのような関数近似やフレキシブルモデルクラスには特に注意が払われている。 対象とするトピックには、マルチアームおよびコンテキストバンディット、構造化バンディット、高次元フィードバックによる強化学習などがある。

These lecture notes give a statistical perspective on the foundations of reinforcement learning and interactive decision making. We present a unifying framework for addressing the exploration-exploitation dilemma using frequentist and Bayesian approaches, with connections and parallels between supervised learning/estimation and decision making as an overarching theme. Special attention is paid to function approximation and flexible model classes such as neural networks. Topics covered include multi-armed and contextual bandits, structured bandits, and reinforcement learning with high-dimensional feedback.
翻訳日:2023-12-29 18:18:32 公開日:2023-12-27
# FairCompass: 機械学習におけるフェアネスの運用

FairCompass: Operationalising Fairness in Machine Learning ( http://arxiv.org/abs/2312.16726v1 )

ライセンス: Link先を確認
Jessica Liu, Huaming Chen, Jun Shen, Kim-Kwang Raymond Choo(参考訳) 人工知能(AI)が我々の社会活動や個人活動の不可欠な部分となるにつれ、責任あるAIソリューションを開発するための衝動が高まっている。 機械学習の公平性ソリューションの多種多様な分類が文献で提案されているが、現実のアプリケーションにおけるこれらのツールの実用的な実装が欠如していると伝えられている。 業界の専門家は、機械学習を応用したソリューションの開発における公平さの運用に関する課題に関する徹底的な議論に参加しており、既存の技術の制限を緩和するために、人間中心のアプローチへのシフトが即座に提唱されている。 本研究では,公平性監査のためのヒューマン・イン・ザ・ループ・アプローチを提案し,サブグループ発見手法とエンドユーザーのための決定木ベースのスキーマを統合した混合視覚分析システム(以下「faircompass」と呼ぶ)を提案する。 さらに,faircompassにおける知識生成モデルの利用を促進するため,探索,指導,インフォームド分析ループを革新的に統合した。 実世界のシナリオにおけるフェアネス監査におけるFairCompassの有効性を評価し,実世界のデプロイ可能性を示す。 本研究は、フェアネス研究の現在のギャップに対処し、機械学習システムにおけるフェアネスの運用を促進することを期待する。

As artificial intelligence (AI) increasingly becomes an integral part of our societal and individual activities, there is a growing imperative to develop responsible AI solutions. Despite a diverse assortment of machine learning fairness solutions is proposed in the literature, there is reportedly a lack of practical implementation of these tools in real-world applications. Industry experts have participated in thorough discussions on the challenges associated with operationalising fairness in the development of machine learning-empowered solutions, in which a shift toward human-centred approaches is promptly advocated to mitigate the limitations of existing techniques. In this work, we propose a human-in-the-loop approach for fairness auditing, presenting a mixed visual analytical system (hereafter referred to as 'FairCompass'), which integrates both subgroup discovery technique and the decision tree-based schema for end users. Moreover, we innovatively integrate an Exploration, Guidance and Informed Analysis loop, to facilitate the use of the Knowledge Generation Model for Visual Analytics in FairCompass. We evaluate the effectiveness of FairCompass for fairness auditing in a real-world scenario, and the findings demonstrate the system's potential for real-world deployability. We anticipate this work will address the current gaps in research for fairness and facilitate the operationalisation of fairness in machine learning systems.
翻訳日:2023-12-29 18:18:15 公開日:2023-12-27
# 商業用果樹園における3次元果実再局在とニューラルネットによる収率回帰を用いた複数オレンジ検出・追跡用パイプライン

A pipeline for multiple orange detection and tracking with 3-D fruit relocalization and neural-net based yield regression in commercial citrus orchards ( http://arxiv.org/abs/2312.16724v1 )

ライセンス: Link先を確認
Thiago T. Santos and Kleber X. S. de Souza and Jo\~ao Camargo Neto and Luciano V. Koenigkan and Al\'ecio S. Moreira and S\^onia Ternes(参考訳) 伝統的に、甘いオレンジの作物の予測には、労働集約的なプロセスである多くの木の果実を手動で数える必要があった。 近位画像、コンピュータビジョン、機械学習に基づく果実計数自動システムは、手作業による計数に有望な選択肢または補足と考えられている。 これらのシステムは、異なる画像で観察される同じ果実の複数のカウントを防ぐデータ関連コンポーネントを必要とする。 しかし,複数果実の計数精度を評価する作業が不足している。 一 葉の茂った木に緑の果実をふさぎ、再侵入すること (ii)耕作地における地中データの測定 本稿では,パイプラインとして実装されたビデオの果実数を利用した非侵襲的な代替手段を提案する。 まず,目に見える果実の検出にCNNを用いる。 フレーム間のアソシエーション技術を使用して、フレーム間の果物を追跡する。 果実の結実と再出現に対処するため,果実の位置を3次元推定する再局在成分を導入する。 最後に、ニューラルネットワークレグレッサを用いて果実の総数を推定し、画像ベースの果実計数と作物品種や樹木の大きさなどの他の木データを統合する。 その結果,提案手法の性能は動画の品質と密接に関連していることがわかった。 果実の少なくとも30%を正確に検出・追跡・数えることにより, 収率回帰器の精度は0.85である。 私たちの知る限りでは,本研究は果樹数を評価基準点として組み込んだ果樹推定における数少ない取り組みの1つである。 また,マルチオレンジトラッキング (MOrangeT) と検出 (OranDet) のための注釈付きデータセットを導入し,画像に基づく実数計測の新しい手法の開発を促進する。

Traditionally, sweet orange crop forecasting has involved manually counting fruits from numerous trees, which is a labor-intensive process. Automatic systems for fruit counting, based on proximal imaging, computer vision, and machine learning, have been considered a promising alternative or complement to manual counting. These systems require data association components that prevent multiple counting of the same fruit observed in different images. However, there is a lack of work evaluating the accuracy of multiple fruit counting, especially considering (i) occluded and re-entering green fruits on leafy trees, and (ii) counting ground-truth data measured in the crop field. We propose a non-invasive alternative that utilizes fruit counting from videos, implemented as a pipeline. Firstly, we employ CNNs for the detection of visible fruits. Inter-frame association techniques are then applied to track the fruits across frames. To handle occluded and re-appeared fruit, we introduce a relocalization component that employs 3-D estimation of fruit locations. Finally, a neural network regressor is utilized to estimate the total number of fruit, integrating image-based fruit counting with other tree data such as crop variety and tree size. The results demonstrate that the performance of our approach is closely tied to the quality of the field-collected videos. By ensuring that at least 30% of the fruit is accurately detected, tracked, and counted, our yield regressor achieves an impressive coefficient of determination of 0.85. To the best of our knowledge, this study represents one of the few endeavors in fruit estimation that incorporates manual fruit counting as a reference point for evaluation. We also introduce annotated datasets for multiple orange tracking (MOrangeT) and detection (OranDet), publicly available to foster the development of novel methods for image-based fruit counting.
翻訳日:2023-12-29 18:17:17 公開日:2023-12-27
# 適応型テキスト・画像生成のためのプロンプト展開

Prompt Expansion for Adaptive Text-to-Image Generation ( http://arxiv.org/abs/2312.16720v1 )

ライセンス: Link先を確認
Siddhartha Datta, Alexander Ku, Deepak Ramachandran, Peter Anderson(参考訳) テキストから画像への生成モデルは強力だが使いにくい。 ユーザーは、より優れた画像を得るための特定のプロンプトを作る。 本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。 プロンプト拡張モデルは、テキストクエリを入力として、テキストから画像へのモデルに渡されると、より多様な魅力的な画像を生成するように最適化された拡張テキストプロンプトのセットを出力する。 本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。 全体として,テキスト対画像生成エクスペリエンスを改善するための新しい効果的なアプローチを提案する。

Text-to-image generation models are powerful but difficult to use. Users craft specific prompts to get better images, though the images can be repetitive. This paper proposes a Prompt Expansion framework that helps users generate high-quality, diverse images with less effort. The Prompt Expansion model takes a text query as input and outputs a set of expanded text prompts that are optimized such that when passed to a text-to-image model, generates a wider variety of appealing images. We conduct a human evaluation study that shows that images generated through Prompt Expansion are more aesthetically pleasing and diverse than those generated by baseline methods. Overall, this paper presents a novel and effective approach to improving the text-to-image generation experience.
翻訳日:2023-12-29 18:16:05 公開日:2023-12-27
# リモートセンシング画像とディープニューラルネットワークを用いた地すべり検出とセグメンテーション

Landslide Detection and Segmentation Using Remote Sensing Images and Deep Neural Network ( http://arxiv.org/abs/2312.16717v1 )

ライセンス: Link先を確認
Cam Le, Lam Pham, Jasmin Lampert, Matthias Schl\"ogl, Alexander Schindler(参考訳) 過去の地すべり発生に関する知識は,災害リスク低減戦略を支援する上で重要である。 2022年地すべり4senseコンペティションの結果をもとに,多元リモートセンシング画像入力からの地すべり検出とセグメンテーションのための深層ニューラルネットワークシステムを提案する。 ベースラインモデルとしてクロスエントロピー損失をトレーニングしたU-Netを用いる。 次に、幅広いディープラーニング技術を活用して、U-Netベースラインモデルを改善する。 特に,オリジナルバンドから新しいバンドデータを生成し,リモートセンシング画像入力の品質向上に寄与する特徴工学を行う。 ネットワークアーキテクチャに関しては、U-Netベースラインの従来の畳み込み層を残留畳み込み層に置き換える。 また,マルチヘッドアテンション方式を利用したアテンション層を提案する。 さらに、3つの異なる解像度の複数の出力マスクを生成し、推論プロセスで3つの出力のアンサンブルを生成し、性能を向上させる。 最後に,ネットワークの学習に焦点損失とiou損失を併用した複合損失関数を提案する。 Landslide4Sense チャレンジの開発セットに関する実験は F1 スコアと mIoU スコアをそれぞれ84.07 と 76.07 で達成した。 ベストモデルでは,F1スコア/mIoUスコアを6.8/7.4,10.5/8.8で改善した。

Knowledge about historic landslide event occurrence is important for supporting disaster risk reduction strategies. Building upon findings from 2022 Landslide4Sense Competition, we propose a deep neural network based system for landslide detection and segmentation from multisource remote sensing image input. We use a U-Net trained with Cross Entropy loss as baseline model. We then improve the U-Net baseline model by leveraging a wide range of deep learning techniques. In particular, we conduct feature engineering by generating new band data from the original bands, which helps to enhance the quality of remote sensing image input. Regarding the network architecture, we replace traditional convolutional layers in the U-Net baseline by a residual-convolutional layer. We also propose an attention layer which leverages the multi-head attention scheme. Additionally, we generate multiple output masks with three different resolutions, which creates an ensemble of three outputs in the inference process to enhance the performance. Finally, we propose a combined loss function which leverages Focal loss and IoU loss to train the network. Our experiments on the development set of the Landslide4Sense challenge achieve an F1 score and an mIoU score of 84.07 and 76.07, respectively. Our best model setup outperforms the challenge baseline and the proposed U-Net baseline, improving the F1 score/mIoU score by 6.8/7.4 and 10.5/8.8, respectively.
翻訳日:2023-12-29 18:15:52 公開日:2023-12-27
# 深層学習によるLoRaデバイス識別とローグ信号検出の逆攻撃

Adversarial Attacks on LoRa Device Identification and Rogue Signal Detection with Deep Learning ( http://arxiv.org/abs/2312.16715v1 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Tugba Erpek(参考訳) LoRaのような低電力広域ネットワーク(LPWAN)技術は、モノのインターネット(IoT)アプリケーションのための長距離低電力通信を可能にする能力において大きな注目を集めている。 しかし、loraネットワークのセキュリティは依然として大きな関心事であり、特に正当な信号と偽りの信号のデバイス識別と分類が重要である。 本稿では,LoRaデバイス識別と正当性を考慮したLoRaデバイス分類タスクを考慮したディープラーニングフレームワークについて検討する。 畳み込みニューラルネットワーク(CNN)またはフィードフォワードニューラルネットワーク(FNN)のいずれかであるディープニューラルネットワーク(DNN)は、LoRa信号の実際の実験I/Qデータを利用して各タスクに対して訓練され、ローグ信号はローグ装置によって受信された信号のカーネル密度推定(KDE)を用いて生成される。 深層学習モデルを用いたLoRa信号分類タスクにおいて,FGSMに基づく逆方向攻撃が検討されている。 これらの攻撃は、これらの信号分類タスクに対する分離的または共通の摂動を利用して、デバイス識別と正当性対ローグデバイス分類の2つのタスクのパフォーマンスに与える影響を評価する。 本稿では、異なるLoRa信号分類タスクに対する敵攻撃の転送可能性のレベルを主要な脆弱性として定量化し、敵攻撃に対してIoTアプリケーションを堅牢にする必要性を強調する。

Low-Power Wide-Area Network (LPWAN) technologies, such as LoRa, have gained significant attention for their ability to enable long-range, low-power communication for Internet of Things (IoT) applications. However, the security of LoRa networks remains a major concern, particularly in scenarios where device identification and classification of legitimate and spoofed signals are crucial. This paper studies a deep learning framework to address these challenges, considering LoRa device identification and legitimate vs. rogue LoRa device classification tasks. A deep neural network (DNN), either a convolutional neural network (CNN) or feedforward neural network (FNN), is trained for each task by utilizing real experimental I/Q data for LoRa signals, while rogue signals are generated by using kernel density estimation (KDE) of received signals by rogue devices. Fast Gradient Sign Method (FGSM)-based adversarial attacks are considered for LoRa signal classification tasks using deep learning models. The impact of these attacks is assessed on the performance of two tasks, namely device identification and legitimate vs. rogue device classification, by utilizing separate or common perturbations against these signal classification tasks. Results presented in this paper quantify the level of transferability of adversarial attacks on different LoRa signal classification tasks as a major vulnerability and highlight the need to make IoT applications robust to adversarial attacks.
翻訳日:2023-12-29 18:15:29 公開日:2023-12-27
# ペトリネットとイベント構造に関する可逆的視点

A Reversible Perspective on Petri Nets and Event Structures ( http://arxiv.org/abs/2312.16714v1 )

ライセンス: Link先を確認
Hern\'an Melgratti, Claudio Antares Mezzina, G. Michele Pinna(参考訳) イベント構造は並列計算の基礎モデルとして登場し、イベントとその実行を決定する関係を概説することで計算過程を説明する。 それらは因果性や独立性といった並行計算モデルの重要側面の研究において重要な役割を果たし、永続性、確率性、量子コンピューティングといった領域にまたがる幅広い言語やモデルにまたがる応用を見出した。 近年、イベント構造は可逆性に対処するために拡張され、計算プロセスは以前の計算を解き放つことができる。 この文脈では、可逆イベント構造は、計算において前方と後方の両方のステップが可能なプロセスの抽象表現を提供する。 イベント構造は、導入以来、ペトリネットやプロセス計算によって伝統的に例示されるような操作モデルをブリッジする上で重要な役割を担ってきた。 この文脈では、ペトリネットとイベント構造の間の標準接続を可逆性レンズの下で再検討する。 具体的には、可逆的因果ネットと呼ばれる文脈的ペトリネットのサブセットを導入し、可逆的素イベント構造に正確に対応します。 可逆因果ネットの特徴的な特徴は、インヒビターアークから因果関係を導出することであり、遷移のポストとプレセットの重なりに従来からの依存から遠ざかる。 このようにして、可逆的な素イベント構造の全モデルを運用的に説明できる。

Event structures have emerged as a foundational model for concurrent computation, explaining computational processes by outlining the events and the relationships that dictate their execution. They play a pivotal role in the study of key aspects of concurrent computation models, such as causality and independence, and have found applications across a broad range of languages and models, spanning realms like persistence, probabilities, and quantum computing. Recently, event structures have been extended to address reversibility, where computational processes can undo previous computations. In this context, reversible event structures provide abstract representations of processes capable of both forward and backward steps in a computation. Since their introduction, event structures have played a crucial role in bridging operational models, traditionally exemplified by Petri nets and process calculi, with denotational ones, i.e., algebraic domains. In this context, we revisit the standard connection between Petri nets and event structures under the lenses of reversibility. Specifically, we introduce a subset of contextual Petri nets, dubbed reversible causal nets, that precisely correspond to reversible prime event structures. The distinctive feature of reversible causal nets lies in deriving causality from inhibitor arcs, departing from the conventional dependence on the overlap between the post and preset of transitions. In this way, we are able to operationally explain the full model of reversible prime event structures.
翻訳日:2023-12-29 18:15:01 公開日:2023-12-27
# 医療時間帯の知識向上型条件計算

Knowledge Enhanced Conditional Imputation for Healthcare Time-series ( http://arxiv.org/abs/2312.16713v1 )

ライセンス: Link先を確認
Linglong Qian, Zina Ibrahim, Hugh Logan Ellis, Ao Zhang, Yuezhou Zhang, Tao Wang, Richard Dobson(参考訳) 本研究では,医療データの複雑さに着目した多変量時系列における欠落データの問題に対処する新しいアプローチを提案する。 コンディショナル・セルフアテンション・インダクション(CSAI)モデルでは,医療時系列データの複雑化に合わせて,条件付き隠れ状態初期化を導入する。 この手法は、医療データセットでしばしば見過ごされる重要な側面であるデータ分散の不均衡を特にターゲットとして、従来のインプテーション技術から逸脱している。 高度な知識の埋め込みと一様でないマスキング戦略を統合することで、CSAIは電子健康記録(EHRs)の欠落したデータのパターンに順応的に適応する。

This study presents a novel approach to addressing the challenge of missing data in multivariate time series, with a particular focus on the complexities of healthcare data. Our Conditional Self-Attention Imputation (CSAI) model, grounded in a transformer-based framework, introduces a conditional hidden state initialization tailored to the intricacies of medical time series data. This methodology diverges from traditional imputation techniques by specifically targeting the imbalance in missing data distribution, a crucial aspect often overlooked in healthcare datasets. By integrating advanced knowledge embedding and a non-uniform masking strategy, CSAI adeptly adjusts to the distinct patterns of missing data in Electronic Health Records (EHRs).
翻訳日:2023-12-29 18:14:37 公開日:2023-12-27
# 相対論的ab initio法によるLiFr分子の最低状態の分光及び放射特性と光サイクルのモデル化に関する研究

Relativistic ab initio study on the spectroscopic and radiative properties of the lowest states and modeling of the optical cycles for the LiFr molecule ( http://arxiv.org/abs/2312.16711v1 )

ライセンス: Link先を確認
Maksim Shundalau and Patrizia Lamberti(参考訳) LiFr二原子は、理論上も実験的にもまだ研究されていない間接レーザー冷却の候補である。 初めてFock_space相対論的結合クラスター理論を用いて、地盤のポテンシャルエネルギー曲線とLiFrヘテロ核アルカリ金属二量体の低_lying励起状態を算出する。 電子項エネルギー、平衡核間距離、遷移と永久双極子モーメント、振動エネルギーのシーケンス、調和振動周波数、Franck_Condon因子、放射寿命(境界および自由遷移を含む)などの多くの特性が予測される。 また、高励起振動状態から地上振動状態へのlifr分子の移動過程における2_stepスキーム(オプティカルサイクル)の確率も予測する。 得られたデータはレーザー冷却とLiFr分子による分光実験に有用である。

The LiFr diatomic represents a promising candidate for indirect laser cooling that has not yet been investigated not theoretically or experimentally. The potential energy curves of the ground and low_lying excited states of the LiFr heteronuclear alkali metal dimer are calculated using the Fock_space relativistic coupled cluster theory for the first time. A number of properties such as the electronic term energies, equilibrium internuclear distances, transition and permanent dipole moments, sequences of vibrational energies, harmonic vibrational frequencies, Franck_Condon factors, and radiative lifetimes (including bound and free transitions) are predicted. The probabilities of the two_step schemes (optical cycles) for the transfer process of the LiFr molecules from high excited vibrational states to the ground vibronic state are also predicted. The data obtained would be useful for laser cooling and spectral experiments with LiFr molecules.
翻訳日:2023-12-29 18:14:21 公開日:2023-12-27
# 量子ゲートにおけるレーザーノイズの影響の進化的低減

Evolutionary reduction of the laser noise impact on quantum gates ( http://arxiv.org/abs/2312.16709v1 )

ライセンス: Link先を確認
Tam'si Ley, Anna Ouskova Leonteva, Johannes Schachenmayer, Pierre Collet(参考訳) 量子ハードウェアのサイズが徐々に大きくなるにつれて、量子技術の予想された計算上の利点はノイズによって脅かされ、量子論理ゲートの設計をランダムに損なう。 その物質に対する騒音の影響を減らすために既にいくつかの方法が存在する。 しかし, 信頼性が高く, ユーザフレンドリーな騒音低減手法は提案されていない。 本稿では,ゲート設計の進化的最適化と変調に基づく関連する手法を提案する。 本手法は,レーザー位相のベクトルによりパラメータ化される時間依存ノイズ項を持つ量子ゲート設計のモデルと,ゲート忠実度と時間消費シミュレーションモデルのパルス持続時間関連メトリックとのトレードオフを満たすための進化的最適化プラットフォームからなる。 この作品の主な特徴は、この作品である。 もう一つの利点は、その特性(例えば、ばらつき、周波数範囲など)に関係なく、あらゆるノイズスペクトルを扱う能力である。 ランダムゲート軌跡の実験的平均化に基づいて,提案手法の徹底的な検証を行う。 ノイズ低減に進化的手法をうまく応用できることが示されている。 提案手法は,ノイズ耐性量子ゲートの設計に役立つことが期待される。

As the size of quantum hardware progressively increases, the conjectured computational advantages of quantum technologies tend to be threatened by noise, which randomly corrupts the design of quantum logical gates. Several methods already exist to reduce the impacts of noise on that matter. However, a reliable and user-friendly one to reduce the noise impact has not been presented yet. Addressing this issue, this paper proposes a relevant method based on evolutionary optimisation and modulation of the gate design. This method consists of two parts : a model of quantum gate design with time-dependent noise terms, parameterised by a vector of laser phases, and an evolutionary optimisation platform aimed at satisfying a trade-off between the gate fidelity and a pulse duration-related metric of the time consuming simulation model. This feature is the main novelty of this work. Another advantage is the ability to treat any noise spectrum, regardless of its characteristics (e.g., variance, frequency range, etc). A thorough validation of the method is presented, which is based on empirical averaging of random gate trajectories. It is shown that evolutionary based method is successfully applied for noise mitigation. It is expected that the proposed method will help designing more and more noise-resisting quantum gates.
翻訳日:2023-12-29 18:14:04 公開日:2023-12-27
# システムリスクのモデル化:時変非パラメトリック因果推論フレームワーク

Modeling Systemic Risk: A Time-Varying Nonparametric Causal Inference Framework ( http://arxiv.org/abs/2312.16707v1 )

ライセンス: Link先を確認
Jalal Etesami and Ali Habibnia and Negar Kiyavash(参考訳) 時系列ネットワークの進化する因果構造を推定し, 時系列間の高次元, 非線形, 時間的相互関係を捉える上で, 従来の計量モデルの限界に対処するために, 非パラメトリックかつ時間的指向性情報グラフ(TV-DIG)フレームワークを提案する。 この枠組みは、線形力学と非線形力学の両方に適用できるグレンジャー・コーサリティの一般化されたバージョンに根ざした情報理論的な尺度を用いる。 本フレームワークは,システムリスクの測定の進歩を提供し,ベクトル自己回帰やスイッチングモデルなど,確立された計量モデルと有意義なつながりを確立する。 提案モデルの有効性をシミュレーション実験と経験的解析により評価し,非線形・多変量構造を有するシミュレーションネットワークの回復に有望な結果を報告した。 本枠組みは、金融ネットワーク内の主要資産・産業セクター間の相互接続性とシステム的リスクの進化を特定し、監視するものである。 新型コロナウイルス(COVID-19)のパンデミックや連邦準備制度理事会(FRB)の2020年の緊急対応など、他のセクターへの流出効果など、金融安定に対する仮想通貨のシステム的リスクの可能性に焦点を当てる。 この結果から、2020年以前の暗号通貨の影響が一部の金融セクターに及ぼし、その潜在的なシステム的リスクを浮き彫りにし、金融ネットワーク内でのクロスセクターの相互作用の追跡に体系的なアプローチを提供する。

We propose a nonparametric and time-varying directed information graph (TV-DIG) framework to estimate the evolving causal structure in time series networks, thereby addressing the limitations of traditional econometric models in capturing high-dimensional, nonlinear, and time-varying interconnections among series. This framework employs an information-theoretic measure rooted in a generalized version of Granger-causality, which is applicable to both linear and nonlinear dynamics. Our framework offers advancements in measuring systemic risk and establishes meaningful connections with established econometric models, including vector autoregression and switching models. We evaluate the efficacy of our proposed model through simulation experiments and empirical analysis, reporting promising results in recovering simulated time-varying networks with nonlinear and multivariate structures. We apply this framework to identify and monitor the evolution of interconnectedness and systemic risk among major assets and industrial sectors within the financial network. We focus on cryptocurrencies' potential systemic risks to financial stability, including spillover effects on other sectors during crises like the COVID-19 pandemic and the Federal Reserve's 2020 emergency response. Our findings reveals significant, previously underrecognized pre-2020 influences of cryptocurrencies on certain financial sectors, highlighting their potential systemic risks and offering a systematic approach in tracking evolving cross-sector interactions within financial networks.
翻訳日:2023-12-29 18:13:44 公開日:2023-12-27
# ファジィ量子化器に基づくファジィラフ集合の粒界表現について

On the Granular Representation of Fuzzy Quantifier-Based Fuzzy Rough Sets ( http://arxiv.org/abs/2312.16704v1 )

ライセンス: Link先を確認
Adnan Theerens and Chris Cornelis(参考訳) ラフ集合論(英: rough set theory)は、概念の下値と上値の近似を提供することで、一貫性のないデータを扱えるよく知られた数学的枠組みである。 これらの近似の顕著な性質は、その粒状表現である:すなわち、それらは、顆粒と呼ばれる単純集合の和として書くことができる。 後者は"if...., then..."ルールで識別でき、粗い集合規則誘導のバックボーンを形成する。 この特性は、順序付き重み付き平均(OWA)演算子など、様々なファジィ粗い集合モデルに対して維持可能であることが以前に示されている。 本稿では、ファジィ量子化器に基づくファジィ粗集合(FQFRS)の一般クラスのいくつかの例に焦点を当てる。 これらのモデルでは, 2値および1値のファジィ量化器を用いて下値と上値の近似を評価する。 本研究の主な目的の1つは、FQFRSの異なるモデルの粒度の表現を調べることである。 主な知見は,チェケットベースファジィ粗集合はOWAベースファジィ粗集合と同じ条件下で,スゲノベースファジィ粗集合は常に粒度で表現できるということである。 この観察は、データの矛盾を解消し、ノイズを管理するこれらのモデルの可能性を強調している。

Rough set theory is a well-known mathematical framework that can deal with inconsistent data by providing lower and upper approximations of concepts. A prominent property of these approximations is their granular representation: that is, they can be written as unions of simple sets, called granules. The latter can be identified with "if. . . , then. . . " rules, which form the backbone of rough set rule induction. It has been shown previously that this property can be maintained for various fuzzy rough set models, including those based on ordered weighted average (OWA) operators. In this paper, we will focus on some instances of the general class of fuzzy quantifier-based fuzzy rough sets (FQFRS). In these models, the lower and upper approximations are evaluated using binary and unary fuzzy quantifiers, respectively. One of the main targets of this study is to examine the granular representation of different models of FQFRS. The main findings reveal that Choquet-based fuzzy rough sets can be represented granularly under the same conditions as OWA-based fuzzy rough sets, whereas Sugeno-based FRS can always be represented granularly. This observation highlights the potential of these models for resolving data inconsistencies and managing noise.
翻訳日:2023-12-29 18:13:16 公開日:2023-12-27
# 大規模言語モデルによる表データ理解の再考

Rethinking Tabular Data Understanding with Large Language Models ( http://arxiv.org/abs/2312.16702v1 )

ライセンス: Link先を確認
Tianyang Liu, Fei Wang, Muhao Chen(参考訳) 大規模言語モデル(LLM)は様々なタスクをこなせるが、表形式のデータの解釈と推論の能力は未探索の領域のままである。 本研究は,表の構造的摂動に対するllmの頑健性,表上のテキスト的・記号的推論の比較分析,複数の推論経路の集約によるモデル性能の向上の可能性という3つの視点から検討する。 同じ内容を示す表の構造的分散は、特に象徴的推論タスクにおいて顕著な性能低下を示す。 これにより、表構造正規化の方法が提案される。 さらに、テキスト推論は記号的推論をわずかに外し、詳細な誤り解析により、それぞれが特定のタスクによって異なる強度を示すことが明らかになった。 特に、テキストおよびシンボリック推論経路の集約は、混合自己整合機構によって促進され、従来のLLMのテーブル処理パラダイムよりも大幅に進歩したWIKITABLEQUESTIONS上で73.6%の精度でSOTA性能を達成する結果となった。

Large Language Models (LLMs) have shown to be capable of various tasks, yet their capability in interpreting and reasoning over tabular data remains an underexplored area. In this context, this study investigates from three core perspectives: the robustness of LLMs to structural perturbations in tables, the comparative analysis of textual and symbolic reasoning on tables, and the potential of boosting model performance through the aggregation of multiple reasoning pathways. We discover that structural variance of tables presenting the same content reveals a notable performance decline, particularly in symbolic reasoning tasks. This prompts the proposal of a method for table structure normalization. Moreover, textual reasoning slightly edges out symbolic reasoning, and a detailed error analysis reveals that each exhibits different strengths depending on the specific tasks. Notably, the aggregation of textual and symbolic reasoning pathways, bolstered by a mix self-consistency mechanism, resulted in achieving SOTA performance, with an accuracy of 73.6% on WIKITABLEQUESTIONS, representing a substantial advancement over previous existing table processing paradigms of LLMs.
翻訳日:2023-12-29 18:12:53 公開日:2023-12-27
# ReLUネットワークにおける最適化に基づく境界強調の計算トレードオフ

Computational Tradeoffs of Optimization-Based Bound Tightening in ReLU Networks ( http://arxiv.org/abs/2312.16699v1 )

ライセンス: Link先を確認
Fabian Badilla, Marcos Goycoolea, Gonzalo Mu\~noz, Thiago Serra(参考訳) relu(recurtified linear unit)アクティベーションを持つニューラルネットワークを表現するためのmilp(mixed-integer linear programming)モデルの利用は、この10年間でますます広まっている。 これにより、MILP技術を用いて、テストまたはストレス・サービヘイビアを行い、トレーニングを逆向きに改善し、予測能力を活用した最適化モデルに組み込むことができる。 これらのMILPモデルの多くはアクティベーション境界に依存している。 すなわち、各ニューロンの入力値に束縛される。 本研究では,これらの境界の厳密さと,その結果のMILPモデルの解法とのトレードオフについて検討する。 ネットワーク構造、正規化、ラウンドリングの影響に基づき、これらのモデルを実装するためのガイドラインを提供する。

The use of Mixed-Integer Linear Programming (MILP) models to represent neural networks with Rectified Linear Unit (ReLU) activations has become increasingly widespread in the last decade. This has enabled the use of MILP technology to test-or stress-their behavior, to adversarially improve their training, and to embed them in optimization models leveraging their predictive power. Many of these MILP models rely on activation bounds. That is, bounds on the input values of each neuron. In this work, we explore the tradeoff between the tightness of these bounds and the computational effort of solving the resulting MILP models. We provide guidelines for implementing these models based on the impact of network structure, regularization, and rounding.
翻訳日:2023-12-29 18:12:34 公開日:2023-12-27
# GNNに基づくセッションベース推薦アルゴリズムの性能比較

Performance Comparison of Session-based Recommendation Algorithms based on GNNs ( http://arxiv.org/abs/2312.16695v1 )

ライセンス: Link先を確認
Faisal Shehzad and Dietmar Jannach(参考訳) セッションベースのレコメンデーション設定では、リコメンデーションシステムは、進行中のセッションで提供されないユーザインタラクションに基づいて提案をベースとする必要があります。 このようなセッションはごく少数のインタラクションでのみ構成できるため,グラフニューラルネットワーク(GNN)に基づく様々なアプローチが提案されている。 残念なことに、さまざまな評価設定が、例えばプロトコル、メトリクス、ベースラインといった文献で使われており、芸術の状態を表すものを評価することは困難である。 本研究は, 高品質メディアで最近発表された8つのGNNベースのアプローチの評価結果である。 公平な比較のために、すべてのモデルは3つの共通のデータセットを使用して体系的に調整され、同じ条件下でテストされます。 さらに、k-nearest-neighborとシーケンシャルなルールベースモデルもベースラインとして含みます。 驚いたことに、単純なモデルは、我々が最適化基準として使用した平均相互ランクの点で、最近の全てのgnnモデルよりも優れており、ヒット率の点では3つのケースでしかないことがわかった。 さらなる分析により、論文でしばしば深く議論されていない他のいくつかの要因、例えばランダム種は、gnnベースのモデルの性能に顕著な影響を及ぼすことが判明した。 したがって、我々の結果 (a)研究方法論の観点からのコミュニティの課題の継続と留意点 b)セッションベースのレコメンデーションの改善の余地が十分にあることを示す。

In session-based recommendation settings, a recommender system has to base its suggestions on the user interactions that are ob served in an ongoing session. Since such sessions can consist of only a small set of interactions, various approaches based on Graph Neural Networks (GNN) were recently proposed, as they allow us to integrate various types of side information about the items in a natural way. Unfortunately, a variety of evaluation settings are used in the literature, e.g., in terms of protocols, metrics and baselines, making it difficult to assess what represents the state of the art. In this work, we present the results of an evaluation of eight recent GNN-based approaches that were published in high-quality outlets. For a fair comparison, all models are systematically tuned and tested under identical conditions using three common datasets. We furthermore include k-nearest-neighbor and sequential rules-based models as baselines, as such models have previously exhibited competitive performance results for similar settings. To our surprise, the evaluation showed that the simple models outperform all recent GNN models in terms of the Mean Reciprocal Rank, which we used as an optimization criterion, and were only outperformed in three cases in terms of the Hit Rate. Additional analyses furthermore reveal that several other factors that are often not deeply discussed in papers, e.g., random seeds, can markedly impact the performance of GNN-based models. Our results therefore (a) point to continuing issues in the community in terms of research methodology and (b) indicate that there is ample room for improvement in session-based recommendation.
翻訳日:2023-12-29 18:12:22 公開日:2023-12-27
# SU(2) Witten-Chern-Simons理論におけるダブルブレイディングによる普遍位相量子コンピューティング

Universal topological quantum computing via double-braiding in SU(2) Witten-Chern-Simons theory ( http://arxiv.org/abs/2312.16747v1 )

ライセンス: Link先を確認
Adrian L. Kaufmann, Shawn X. Cui(参考訳) 我々は、$SU(2)$ Witten-Chern-Simons理論によって記述される任意のモデルの普遍性の問題をレベル$k$で研究する。 フリードマン=ラルセン=ワンの古典的な定理は、$k \geq 3, \k \neq 4$に対して、トポロジカルチャージ1/2$はトポロジカル量子コンピューティングにおいて普遍的であると述べている。 1つの量子ビットの場合、そのような任意の2重層は、既に普遍的であるというより強い結果が証明される。

We study the problem of universality in the anyon model described by the $SU(2)$ Witten-Chern-Simons theory at level $k$. A classic theorem of Freedman-Larsen-Wang states that for $k \geq 3, \ k \neq 4$, braiding of the anyons of topological charge $1/2$ is universal for topological quantum computing. For the case of one qubit, we prove a stronger result that double-braiding of such anyons alone is already universal.
翻訳日:2023-12-29 18:01:42 公開日:2023-12-27
# 逆場制御のみを持つ量子ビットにおける一様重ね合わせの最小時間生成

Minimum time generation of a uniform superposition in a qubit with only transverse field control ( http://arxiv.org/abs/2312.16744v1 )

ライセンス: Link先を確認
Vasileios Evangelakos, Emmanuel Paspalakis, Dionisis Stefanatos(参考訳) この2つのレベルと、ゼロと最大振幅の間の値を取ることができる1つの横方向制御場との間に固定エネルギー間隔(デチューニング)を持つ2レベルシステムを考える。 ポントリャーギンの最大原理を用いることで、最大制御振幅とデチューニングの比のすべての値について、最小時間で2つの量子状態の1つから一様重ね合わせを生成する問題を完全に解決する。 この比の各々の値について、バンバン型を持つ最適なパルスシーケンスを見つけ、それを構成するパルスの持続時間を計算する。 提案するフレームワークは、手持ちの問題に限らず、2レベルシステムに基づく量子電池の高速充電の問題や、単一光子源としての利用の前提となる量子エミッタにおける励起状態の制御に使用されるパルス系列の最適化にも利用することができる。

We consider a two-level system with a fixed energy spacing (detuning) between the two levels and a single transverse control field which can take values between zero and a maximum amplitude. Using Pontryagin's maximum principle, we completely solve the problem of generating in minimum time a uniform superposition of the two quantum states when starting from one of them, for all the values of the ratio between the maximum control amplitude and the detuning. For each value of this ratio we find the optimal pulse sequence to have the bang-bang form, and calculate the durations of the pulses composing it. The suggested framework is not only restricted to the problem at hand, but it can be also exploited in the problem of fast charging a quantum battery based on a two-level system, as well as for the optimization of pulse-sequences used for the controlled preparation of the excited state in a quantum emitter, which is a prerequisite for its usage as a single-photon source.
翻訳日:2023-12-29 18:01:29 公開日:2023-12-27
# HMP:ビデオからのポーズと形状推定のための手の動き優先

HMP: Hand Motion Priors for Pose and Shape Estimation from Video ( http://arxiv.org/abs/2312.16737v1 )

ライセンス: Link先を確認
Enes Duran, Muhammed Kocabas, Vasileios Choutas, Zicong Fan and Michael J. Black(参考訳) 人間が世界とどのように相互作用するかを理解するには正確な3次元手ポーズ推定(手の動きの高度化、頻繁な閉塞、自己閉塞、迅速な動き)が必要である。 既存の方法の多くはシングルイメージの入力に依存しているが、ビデオには上記の問題に対処するためのヒントがある。 しかし、既存のビデオベースの3Dハンドデータセットは、フィードフォワードモデルを訓練するには不十分である。 一方、AMASSのような手の動きを含む大規模な人間のモーションキャプチャデータセットにアクセスすることができる。 そこで我々は,多種多様で高品質な手の動きを特徴とするAMASSデータセットに基づいて,手の動きを事前に学習する。 この動きは、遅延最適化手法に従って、ビデオベースの手の動き推定に使用される。 当社のロバストな動作の統合は,特にオクルードされたシナリオにおいて,パフォーマンスを大幅に向上させます。 従来の単一フレーム法を超越した安定かつ時間的に一貫した結果を生み出す。 本稿では,ho3d と dexycb データセットの質的および定量的評価,特に ho3d の咬合中心部分集合に着目し,本手法の有効性を示す。 コードはhttps://hmp.is.tue.mpg.deで入手できる。

Understanding how humans interact with the world necessitates accurate 3D hand pose estimation, a task complicated by the hand's high degree of articulation, frequent occlusions, self-occlusions, and rapid motions. While most existing methods rely on single-image inputs, videos have useful cues to address aforementioned issues. However, existing video-based 3D hand datasets are insufficient for training feedforward models to generalize to in-the-wild scenarios. On the other hand, we have access to large human motion capture datasets which also include hand motions, e.g. AMASS. Therefore, we develop a generative motion prior specific for hands, trained on the AMASS dataset which features diverse and high-quality hand motions. This motion prior is then employed for video-based 3D hand motion estimation following a latent optimization approach. Our integration of a robust motion prior significantly enhances performance, especially in occluded scenarios. It produces stable, temporally consistent results that surpass conventional single-frame methods. We demonstrate our method's efficacy via qualitative and quantitative evaluations on the HO3D and DexYCB datasets, with special emphasis on an occlusion-focused subset of HO3D. Code is available at https://hmp.is.tue.mpg.de
翻訳日:2023-12-29 18:01:11 公開日:2023-12-27
# SuperServe:予測不能なワークロードに対応する細粒度推論

SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads ( http://arxiv.org/abs/2312.16733v1 )

ライセンス: Link先を確認
Alind Khare, Dhruv Garg, Sukrit Kalra, Snigdha Grandhi, Ion Stoica, Alexey Tumanov(参考訳) データセンタとエッジの両方における運用アプリケーションのクリティカルパスへのMLモデルのデプロイの増加には、予測不能でバースト的な要求到着率の下でこれらのモデルを提供するためのML推論サービスシステムが必要である。 このような条件下でモデルを提供するには、これらのシステムに対して、アプリケーションのレイテンシと精度の要件と、希少リソースの利用効率の全体的なバランスを取る必要がある。 State-of-the-artシステムは、すべてのリクエストを処理するために遅延精度トレードオフ空間の静的なポイントを選択するか、リクエスト提供の重要なパスで特定のモデルをロードすることによって、この緊張を解消する。 この作業では、レイテンシー-精度トレードオフ空間にまたがるモデルの全範囲を同時に提供することで、この緊張を解消します。 我々の新しいメカニズムであるSubNetActは、重み付けされたSuperNetworksに特殊演算子を慎重に挿入することでこれを実現する。 これらの演算子により、SubNetActはネットワークを介して動的にリクエストをルーティングし、レイテンシと精度の目標を満たすことができる。 SubNetActは2.6倍のメモリを必要とし、従来の最先端のモデルよりもはるかに多くのモデルを提供する。 さらに、subnetactのほぼ瞬時モデルのアクティベーションは、きめ細かなリアクティブスケジューリングポリシーの設計スペースを開放する。 このような極めて効果的なポリシーであるSlackFitの設計を検討し、実際のシステムであるSuperServeでSubNetActとSlackFitの両方をインスタンス化する。 SuperServeは、現実世界のMicrosoft Azure Functionsのワークロードから派生したトレースと同じ精度で、同じSLO達成の4.67%、SLO達成の2.85倍の精度を達成した。

The increasing deployment of ML models on the critical path of production applications in both datacenter and the edge requires ML inference serving systems to serve these models under unpredictable and bursty request arrival rates. Serving models under such conditions requires these systems to strike a careful balance between the latency and accuracy requirements of the application and the overall efficiency of utilization of scarce resources. State-of-the-art systems resolve this tension by either choosing a static point in the latency-accuracy tradeoff space to serve all requests or load specific models on the critical path of request serving. In this work, we instead resolve this tension by simultaneously serving the entire-range of models spanning the latency-accuracy tradeoff space. Our novel mechanism, SubNetAct, achieves this by carefully inserting specialized operators in weight-shared SuperNetworks. These operators enable SubNetAct to dynamically route requests through the network to meet a latency and accuracy target. SubNetAct requires upto 2.6x lower memory to serve a vastly-higher number of models than prior state-of-the-art. In addition, SubNetAct's near-instantaneous actuation of models unlocks the design space of fine-grained, reactive scheduling policies. We explore the design of one such extremely effective policy, SlackFit and instantiate both SubNetAct and SlackFit in a real system, SuperServe. SuperServe achieves 4.67% higher accuracy for the same SLO attainment and 2.85x higher SLO attainment for the same accuracy on a trace derived from the real-world Microsoft Azure Functions workload and yields the best trade-offs on a wide range of extremely-bursty synthetic traces automatically.
翻訳日:2023-12-29 18:00:52 公開日:2023-12-27
# Disentangled Continual Learning: モデル更新からメモリ編集を分離する

Disentangled Continual Learning: Separating Memory Edits from Model Updates ( http://arxiv.org/abs/2312.16731v1 )

ライセンス: Link先を確認
Sebastian Dziadzio, \c{C}a\u{g}atay Y{\i}ld{\i}z, Gido M. van de Ven, Tomasz Trzci\'nski, Tinne Tuytelaars, Matthias Bethge(参考訳) 機械学習システムの継続的に学習する能力は、新しいタスクを学ぶ際に既存の知識を上書きするニューラルネットワークの傾向である壊滅的な忘れによって妨げられる。 既存の連続学習法は正規化、パラメータ分離、リハーサルを通じてこの問題を緩和し、通常は少数のタスクからなるベンチマークで評価される。 一般化をカプセル化するクラス非依存の知識から記憶すべきクラス固有情報を解き放つことを目的とした,連続的な分類に対する新しい概念的アプローチを提案する。 前者をバッファに格納し、新しいカテゴリが現れると簡単に刈り取ったり更新したりできますが、後者はタスクをまたいで一般化するニューラルネットワークで表現されます。 クラス非依存のネットワークは壊滅的な記憶に苦しめられず,それを利用して分類を行うことで,過去のタスクの精度を時間とともに向上できることを示す。 さらに,オープンセット分類とワンショット一般化もサポートする。 Infinite dSpritesは、連続的な分類と任意の長さのアンタングルメントベンチマークを作成するためのツールであり、生成因子を完全に制御する。 本手法では,記憶や忘れを明示的に制御しながら,数百以上のタスクを連続的に学習することを可能にする。

The ability of machine learning systems to learn continually is hindered by catastrophic forgetting, the tendency of neural networks to overwrite existing knowledge when learning a new task. Existing continual learning methods alleviate this problem through regularisation, parameter isolation, or rehearsal, and are typically evaluated on benchmarks consisting of a handful of tasks. We propose a novel conceptual approach to continual classification that aims to disentangle class-specific information that needs to be memorised from the class-agnostic knowledge that encapsulates generalization. We store the former in a buffer that can be easily pruned or updated when new categories arrive, while the latter is represented with a neural network that generalizes across tasks. We show that the class-agnostic network does not suffer from catastrophic forgetting and by leveraging it to perform classification, we improve accuracy on past tasks over time. In addition, our approach supports open-set classification and one-shot generalization. To test our conceptual framework, we introduce Infinite dSprites, a tool for creating continual classification and disentanglement benchmarks of arbitrary length with full control over generative factors. We show that over a sufficiently long time horizon all major types of continual learning methods break down, while our approach enables continual learning over hundreds of tasks with explicit control over memorization and forgetting.
翻訳日:2023-12-29 18:00:22 公開日:2023-12-27