このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231204となっている論文です。

PDF登録状況(公開日: 20231204)

TitleAuthorsAbstract論文公表日・翻訳日
# ローカルプライバシの真のコストを明らかにする - 監査の視点から

Revealing the True Cost of Local Privacy: An Auditing Perspective ( http://arxiv.org/abs/2309.01597v2 )

ライセンス: Link先を確認
Héber H. Arcolezi, Sébastien Gambs, (参考訳) 従来のDP監査は,集中型モデル(例えば,DP-SGDアルゴリズムの監査)に主眼を置いているが,我々は,この手法をローカルDP(LDP)監査に拡張することを提唱している。 そこで我々は,ローカルな差分的メカニズムのプライバシ損失を実証的に推定する LDP-Auditor フレームワークを提案する。 このアプローチは、LDP周波数推定プロトコルに対するプライバシー攻撃の設計における最近の進歩を活用する。 より正確には、最先端の8つのLPPプロトコルの分析を通じて、異なるエンコーディングや摂動関数の影響など、プライバシー監査に影響を与える要因を広範囲に調査する。 さらに、ドメインサイズと理論的プライバシ損失パラメータ$\epsilon$が局所的なプライバシ推定に与える影響について検討する。 また, 長期研究用LDPプロトコルに対する識別可能性攻撃や多次元データなど, LDP監査の具体的な側面を明らかにするために, 詳細なケーススタディも実施されている。 最後に,現在最先端の LDP Python パッケージにバグが発見されている LDP-Auditor フレームワークの顕著な成果を示す。 LDPプロトコルにおけるランダム性や情報損失の源泉について,我々のLDP-Auditorフレームワークおよび本研究は,総合的に貴重な知見を提供する。 これらのコントリビューションは、局所的なプライバシ損失の現実的な理解を提供するもので、実践者がそれぞれの要求に最も適した LDP メカニズムとプライバシパラメータを選択するのに役立ちます。

While the existing literature on Differential Privacy (DP) auditing predominantly focuses on the centralized model (e.g., in auditing the DP-SGD algorithm), we advocate for extending this approach to audit Local DP (LDP). To achieve this, we introduce the LDP-Auditor framework for empirically estimating the privacy loss of locally differentially-private mechanisms. This approach leverages recent advances in designing privacy attacks against LDP frequency estimation protocols. More precisely, through the analysis of eight state-of-the-art LDP protocols we extensively explore the factors influencing the privacy audit, such as the impact of different encoding and perturbation functions. Additionally, we investigate the influence of the domain size and the theoretical privacy loss parameter $\epsilon$ on local privacy estimation. In-depth case studies are also conducted to explore specific aspects of LDP auditing, including distinguishability attacks on LDP protocols for longitudinal studies and multidimensional data. Finally, we present a notable achievement of our LDP-Auditor framework, which is the discovery of a bug in a state-of-the-art LDP Python package. Overall, our LDP-Auditor framework as well as our study offer valuable insights into the sources of randomness and information loss in LDP protocols. These contributions collectively provide a realistic understanding of the local privacy loss, which can help practitioners in selecting the LDP mechanism and privacy parameters that best align with their specific requirements.
翻訳日:2024-03-25 23:19:21 公開日:2023-12-04
# 自律システム設計におけるセキュリティ問題

Security Challenges in Autonomous Systems Design ( http://arxiv.org/abs/2312.00018v2 )

ライセンス: Link先を確認
Mohammad Hamad, Sebastian Steinhorst, (参考訳) 自律システムは、多くのアプリケーションドメインで登場しています。 人工知能と機械学習、センサー技術、知覚アルゴリズム、ロボット工学の最近の進歩により、これまで強い人間の関与を必要とするシナリオは自律システムによって処理できる。 人間の制御から独立すると、望ましくない行動が起こらない場合に人間の介入が起こらないため、そのようなシステムのサイバーセキュリティはますます重要になる。 本稿では,自律的なインシデント応答,リスク評価,データ可用性,システムインタラクション,信頼性,高可用性,アクセス制御,マシンラーニング手法の信頼性と説明可能性など,多くの領域で発生する自律システム設計におけるセキュリティ上の課題について論じる。 これらすべての分野において、本稿は最先端技術について徹底的に議論し、新たなセキュリティ課題を特定し、セキュアな自律システムを開発する上でのこれらの課題に対処するための研究指針を提案する。

Autonomous systems are emerging in many application domains. With the recent advancements in artificial intelligence and machine learning, sensor technology, perception algorithms and robotics, scenarios previously requiring strong human involvement can be handled by autonomous systems. With the independence from human control, cybersecurity of such systems becomes even more critical as no human intervention in case of undesired behavior is possible. In this context, this paper discusses emerging security challenges in autonomous systems design which arise in many domains such as autonomous incident response, risk assessment, data availability, systems interaction, trustworthiness, updatability, access control, as well as the reliability and explainability of machine learning methods. In all these areas, this paper thoroughly discusses the state of the art, identifies emerging security challenges and proposes research directions to address these challenges for developing secure autonomous systems.
翻訳日:2024-03-25 13:06:53 公開日:2023-12-04
# 検証可能なプライバシ保護コンピューティング

Verifiable Privacy-Preserving Computing ( http://arxiv.org/abs/2309.08248v2 )

ライセンス: Link先を確認
Tariq Bontekoe, Dimka Karastoyanova, Fatih Turkmen, (参考訳) セキュアなマルチパーティ計算(MPC)やホモモルフィック暗号(HE)といったプライバシ保護計算(PPC)手法は、プライベートな分散データ上の計算におけるデータの機密性を保証するために、ますます頻繁に展開される。 同様に、局所的に実行される計算の(公的な)検証性を保証するため、ゼロ知識証明(ZKP)の採用が急激な増加を観察する。 我々は、データ集約的で強力なプライバシー保証を必要とするアプリケーションは、特にアウトソース時に、正確性を保証する必要があると予測している。 検証可能性とプライバシ保護の方法の組み合わせには明確なメリットがあるが、いくつかの課題は広く実用化される前に解決される。 本研究では,分散データ上での検証可能性とプライバシ保護計算を組み合わせた既存のソリューションを解析し,機密性を保護し,同時に正当性を保証するために,ソリューションアプローチ,セキュリティ,効率,実用性に関する32の異なるスキームを分類・比較する。 最後に、この点に関して最も有望なソリューションについて論じ、今後の研究に様々な課題と方向性を提示する。

Privacy-preserving computation (PPC) methods, such as secure multiparty computation (MPC) and homomorphic encryption (HE), are deployed increasingly often to guarantee data confidentiality in computations over private, distributed data. Similarly, we observe a steep increase in the adoption of zero-knowledge proofs (ZKPs) to guarantee (public) verifiability of locally executed computations. We project that applications that are data intensive and require strong privacy guarantees, are also likely to require correctness guarantees, especially when outsourced. While the combination of methods for verifiability and privacy protection has clear benefits, certain challenges stand before their widespread practical adoption. In this work, we analyze existing solutions that combine verifiability with privacy-preserving computations over distributed data, in order to preserve confidentiality and guarantee correctness at the same time.We classify and compare 32 different schemes, regarding solution approach, security, efficiency, and practicality. Lastly, we discuss some of the most promising solutions in this regard, and present various open challenges and directions for future research.
翻訳日:2024-03-19 04:41:11 公開日:2023-12-04
# データセキュリティに関する調査:サイバーセキュリティの実践と機械学習の課題

A Survey of Data Security: Practices from Cybersecurity and Challenges of Machine Learning ( http://arxiv.org/abs/2310.04513v3 )

ライセンス: Link先を確認
Padmaksha Roy, Jaganmohan Chandrasekaran, Erin Lanus, Laura Freeman, Jeremy Werner, (参考訳) 機械学習(ML)は、ますます重要なシステムにデプロイされている。 MLのデータ依存により、ML対応システムのトレーニングとテストに使用されるセキュアなデータが最重要となる。 サイバーセキュリティの分野では情報保護の慣行が確立しているが、ML対応システムは新たな攻撃ベクトルを作成する。 さらに、データサイエンスとサイバーセキュリティのドメインは、独自のスキルと用語のセットに準拠している。 この調査は、暗号化、アクセス制御、ゼロ信頼アーキテクチャ、同型暗号化、機械学習のための差分プライバシー、共有基盤を確立するためのフェデレーション学習といったトピックにおいて、両ドメインの専門家のバックグラウンド情報を提示し、データセキュリティの進歩を促進することを目的としている。

Machine learning (ML) is increasingly being deployed in critical systems. The data dependence of ML makes securing data used to train and test ML-enabled systems of utmost importance. While the field of cybersecurity has well-established practices for securing information, ML-enabled systems create new attack vectors. Furthermore, data science and cybersecurity domains adhere to their own set of skills and terminologies. This survey aims to present background information for experts in both domains in topics such as cryptography, access control, zero trust architectures, homomorphic encryption, differential privacy for machine learning, and federated learning to establish shared foundations and promote advancements in data security.
翻訳日:2024-03-19 03:02:24 公開日:2023-12-04
# ネットワークスライシングによる5Gコアの悪性側方移動とその検出

Malicious Lateral Movement in 5G Core With Network Slicing And Its Detection ( http://arxiv.org/abs/2312.01681v1 )

ライセンス: Link先を確認
Ayush Kumar, Vrizlynn L. L. Thing, (参考訳) 5Gネットワークは、3GPP標準仕様の実装問題や脆弱性などの理由でサイバー攻撃を受けやすい。 本研究では,ネットワークスライシングを可能とした5Gコア(5GC)における側方移動戦略を提案する。 さらに、このような悪意ある横動きを検出するシステムである5GLatteを提案する。 5GLatteは5GCから収集されたホスト/NFコンテナログを使用して構築されたホストコンテナアクセスグラフで動作する。 アクセスグラフから推定された経路は、選択されたフィルタリング基準に基づいてスコアされ、その後、しきい値に基づく異常検出アルゴリズムへの入力として提示され、悪意のある横移動経路が明らかにされる。 我々は、5Gテスト環境で開始された攻撃キャンペーン(MITRE ATT&CKおよびFiGHTフレームワークに基づく)を含むデータセット上で5GLatteを評価する。

5G networks are susceptible to cyber attacks due to reasons such as implementation issues and vulnerabilities in 3GPP standard specifications. In this work, we propose lateral movement strategies in a 5G Core (5GC) with network slicing enabled, as part of a larger attack campaign by well-resourced adversaries such as APT groups. Further, we present 5GLatte, a system to detect such malicious lateral movement. 5GLatte operates on a host-container access graph built using host/NF container logs collected from the 5GC. Paths inferred from the access graph are scored based on selected filtering criteria and subsequently presented as input to a threshold-based anomaly detection algorithm to reveal malicious lateral movement paths. We evaluate 5GLatte on a dataset containing attack campaigns (based on MITRE ATT&CK and FiGHT frameworks) launched in a 5G test environment which shows that compared to other lateral movement detectors based on state-of-the-art, it can achieve higher true positive rates with similar false positive rates.
翻訳日:2024-03-18 13:15:35 公開日:2023-12-04
# RPKIバリデーションにおける脆弱性対策

The CURE To Vulnerabilities in RPKI Validation ( http://arxiv.org/abs/2312.01872v1 )

ライセンス: Link先を確認
Donika Mirdita, Haya Schulmann, Niklas Vogel, Michael Waidner, (参考訳) 近年、RPKI(Resource Public Key Infrastructure)が採用され、BGPルートをフィルタリングする主要なネットワークの37.8%が採用されている。 RPKI over Relying Party (RP)実装はRPKIオブジェクトをフェッチし、BGPルータに検証済みプレフィックスオーナシップデータを提供する。 その結果、RPソフトウェア内の脆弱性や欠陥は、インターネットルーティングの安定性とセキュリティを著しく脅かす可能性がある。 人気のあるRP実装の深刻な欠陥を発見し、パストラバース攻撃、リモートでクラッシュをトリガーし、固有の不整合を発生させ、RPKI標準に違反している。 境界ルータのRPKI検証をダウングレードするために利用される18の脆弱性を報告し、さらに悪いことに、悪意のあるプレフィックスが不正に検証され、正当なRPKIカバーされたプレフィックスが検証に失敗する結果となった。 さらに、我々の研究は検証プロセスの不整合を明らかにしており、2つの一般的な実装は8149の接頭辞をハイジャックから保護せずに残しており、そのうち6405はアマゾンに属する。 これは、自動テスト生成を通じてRP実装におけるバグ、脆弱性、RFCコンプライアンス問題を系統的に検出する第一種システムです。 CUREは強力なRPKIパブリッシュポイントエミュレータであり、複雑なRP検証パイプラインの容易かつ効率的なファズリングを可能にする。 微分ファジィとステートフルファジィングを利用して、一連の新しい技術で設計されている。 6億以上のテストケースを生成し、人気のあるRPをすべてテストしました。 開示後、ベンダーはすでに見つけた脆弱性にCVEを割り当てています。

Over recent years, the Resource Public Key Infrastructure (RPKI) has seen increasing adoption, with now 37.8% of the major networks filtering bogus BGP routes. Systems interact with the RPKI over Relying Party (RP) implementations that fetch RPKI objects and feed BGP routers with the validated prefix-ownership data. Consequently, any vulnerabilities or flaws within the RP software can substantially threaten the stability and security of Internet routing. We uncover severe flaws in all popular RP implementations, making them susceptible to path traversal attacks, remotely triggered crashes, and inherent inconsistencies, violating RPKI standards. We report a total of 18 vulnerabilities that canbe exploited to downgrade RPKI validation in border routers or, worse, enable poisoning of the validation process, resulting in malicious prefixes being wrongfully validated and legitimate RPKI-covered prefixes failing validation. Furthermore, our research discloses inconsistencies in the validation process, with two popular implementations leaving 8149 prefixes unprotected from hijacks, 6405 of which belong to Amazon. While these findings are significant in their own right, our principal contribution lies in developing CURE, the first-of-its-kind system to systematically detect bugs, vulnerabilities, and RFC compliance issues in RP implementations via automated test generation. CURE is a powerful RPKI publication point emulator that enables easy and efficient fuzzing of complex RP validation pipelines. It is designed with a set of novel techniques, utilizing differential and stateful fuzzing. We generated over 600 million test cases and tested all popular RPs on them. Following our disclosure, the vendors already assigned CVEs to the vulnerabilities we found.
翻訳日:2024-03-18 13:15:34 公開日:2023-12-04
# ブロックチェーンのためのDFTWS:決定論的、公正で透明な勝者選択

DFTWS for blockchain: Deterministic, Fair and Transparent Winner Selection ( http://arxiv.org/abs/2312.01951v1 )

ライセンス: Link先を確認
Felix Hoffmann, Udo Kebschull, (参考訳) この出版物は、著者たちが現在取り組んでいる新しいProof-of-Useful-Work blockchain for High Energy Physicsで使用されるブロック勝者の選択プロセスについて説明している。 採掘ブロックへのハッシュ操作をスパムする代わりに、採掘者はモンテカルロシミュレーションを実行し、有用なデータを使って現実世界のHEP実験をサポートする。 ブロック問題は、CBMのようなHEP実験で表されるルートオーソリティによって定義される。 このパブリッシングの焦点は、ブロック問題を解決したノードのリストから、ルートオーソリティが勝者を選択するメカニズムである。 このメカニズムは、勝者の選択が決定論的で公平で透明であるように設計されている。 このメカニズムにより、すべてのノードが、勝利率を改善するツールをノードに与えることなく、勝者選択プロセスの公正性を検証することができる。

This publication describes the block winner selection process that will be used in a novel Proof-of-Useful-Work blockchain for High Energy Physics that the authors are currently working on. Instead of spamming hashing operations to mine blocks, miners will be running Monte Carlo simulations to support a real-world HEP experiment with useful data. The block problems will be defined by a Root Authority which is represented by a HEP experiment like CBM. The focus in this publication is a mechanism that allows the Root Authority to select a winner from a list of nodes that solved a block problem. The mechanism is designed so that winner selection is deterministic, fair and transparent. This mechanism allows every node to verify the fairness of the winner selection process without giving the nodes a tool to be able to improve their own winning chances.
翻訳日:2024-03-18 13:15:34 公開日:2023-12-04
# 実現可能な集合プライバシーによる分散最適化

Distributed Optimization with Feasible Set Privacy ( http://arxiv.org/abs/2312.02112v1 )

ライセンス: Link先を確認
Shreya Meel, Sennur Ulukus, (参考訳) 制約付き最適化問題を2つのエージェント$E_1$と$E_2$で設定し、それらの実現可能な集合$\mathcal{P}_1$と$\mathcal{P}_2$を互いにプライベートに保ちながら最適な解集合を学習したいと考える。 目的関数 $f$ はグローバルに知られており、各実現可能な集合はグローバルアルファベットからの点の集合である。 エージェントの1つ(例えば$E_1$)が$\mathcal{P}_2$、$\mathcal{P}_1$のみに制限された問題の候補解の存在をプライベートにチェックし、$\mathcal{P}_2$についてそれ以上の情報を学習しないシーケンシャル対称プライベート情報検索(SPIR)フレームワークを採用する。 さらに,提案手法から理論的にプライベートなしきい値PSI(ThPSI)プロトコルを抽出し,そのダウンロードコストを特徴付ける。 提案手法は,SPIRプロトコルを用いて実現可能な集合である$\mathcal{P}_1\cap \mathcal{P}_2$をプライベートに取得するよりも,情報漏洩が少なく,ダウンロードコストも低いため,最適であることを示す。 固定範囲の値に対して$f$の可能な全ての一様写像において、我々のスキームは、高い確率で前者より優れる。

We consider the setup of a constrained optimization problem with two agents $E_1$ and $E_2$ who jointly wish to learn the optimal solution set while keeping their feasible sets $\mathcal{P}_1$ and $\mathcal{P}_2$ private from each other. The objective function $f$ is globally known and each feasible set is a collection of points from a global alphabet. We adopt a sequential symmetric private information retrieval (SPIR) framework where one of the agents (say $E_1$) privately checks in $\mathcal{P}_2$, the presence of candidate solutions of the problem constrained to $\mathcal{P}_1$ only, while learning no further information on $\mathcal{P}_2$ than the solution alone. Further, we extract an information theoretically private threshold PSI (ThPSI) protocol from our scheme and characterize its download cost. We show that, compared to privately acquiring the feasible set $\mathcal{P}_1\cap \mathcal{P}_2$ using an SPIR-based private set intersection (PSI) protocol, and finding the optimum, our scheme is better as it incurs less information leakage and less download cost than the former. Over all possible uniform mappings of $f$ to a fixed range of values, our scheme outperforms the former with a high probability.
翻訳日:2024-03-18 13:15:34 公開日:2023-12-04
# UCCA:資源制約デバイスにおける信頼できないコードセクションの比較化のための検証済みアーキテクチャ

UCCA: A Verified Architecture for Compartmentalization of Untrusted Code Sections in Resource-Constrained Devices ( http://arxiv.org/abs/2312.02348v1 )

ライセンス: Link先を確認
Liam Tyler, Ivan De Oliveira Nunes, (参考訳) マイクロコントローラユニット(MCU)は物理世界とデジタル世界のデファクトインタフェースを実装している。 結果として、スマートなパーソナルスペースから複雑な産業制御システム、安全クリティカルな医療機器に至るまで、様々なセンサー/アクチュエーターの応用に現れる。 これらのデバイスの多くは、安全性と時間的クリティカルなタスクを実行するが、システム機能全体に対する重要性と互換性のあるセキュリティ機能のサポートが欠如していることが多い。 このアーキテクチャサポートの欠如は、意図した振る舞いをリモートで変更できる実行時の攻撃に脆弱なままにして、破滅的な結果をもたらす可能性がある。 特に、MCUソフトウェアには信頼できないサードパーティ製ライブラリ(一部はクローズドソース)が含まれており、他のシステムから適切に隔離されることなく、MCUプログラム内で盲目的に使用されている。 逆に、ひとつの脆弱性(あるいは意図的なバックドア)が、MCUソフトウェア全体の状態に悪影響を及ぼすことがしばしばある。 本稿では,UCCA(Untrusted Code Compartment Architecture:信頼できないコード比較アーキテクチャ)の実装を提案し,セキュリティを実証し,正式に検証することで,この問題に対処する。 UCCAは、リソース制約と時間クリティカルなMCUにおいて、信頼できないコードセクション(サードパーティソフトウェアモジュールなど)を柔軟にハードウェアで強化した隔離を提供する。 UCCAの実用性を実証するため、実資源制約のMCU(よく知られたTI MSP430)上で設計のオープンソース版を実装した。 評価の結果,UCCA のオーバーヘッドは少なく,最低限の MCU に対しても安価であり,従来の作業よりもオーバーヘッドや仮定がはるかに少ないことが示唆された。

Micro-controller units (MCUs) implement the de facto interface between the physical and digital worlds. As a consequence, they appear in a variety of sensing/actuation applications, from smart personal spaces to complex industrial control systems and safety-critical medical equipment. While many of these devices perform safety- and time-critical tasks, they often lack support for security features compatible with their importance to overall system functions. This lack of architectural support leaves them vulnerable to run-time attacks that can remotely alter their intended behavior, with potentially catastrophic consequences. In particular, we note that MCU software often includes untrusted third-party libraries (some of them closed-source) that are blindly used within MCU programs, without proper isolation from the rest of the system. In turn, a single vulnerability (or intentional backdoor) in one such third-party software can often compromise the entire MCU software state. In this paper, we tackle this problem by proposing, demonstrating security, and formally verifying the implementation of UCCA: an Untrusted Code Compartment Architecture. UCCA provides flexible hardware-enforced isolation of untrusted code sections (e.g., third-party software modules) in resource-constrained and time-critical MCUs. To demonstrate UCCA's practicality, we implement an open-source version of the design on a real resource-constrained MCU: the well-known TI MSP430. Our evaluation shows that UCCA incurs little overhead and is affordable even to lowest-end MCUs, requiring significantly less overhead and assumptions than prior related work.
翻訳日:2024-03-18 13:15:34 公開日:2023-12-04
# SMTを用いたSELinux RBACポリシーの自動検証

Automated SELinux RBAC Policy Verification Using SMT ( http://arxiv.org/abs/2312.04586v1 )

ライセンス: Link先を確認
Divyam Pahuja, Alvin Tang, Klim Tsoutsman, (参考訳) Security-Enhanced Linux (SELinux) は、ロールベースのアクセス制御(RBAC)機構を可能にするLinuxカーネルモジュールである。 システム管理者がシステムとアプリケーションレベルでセキュリティポリシーを定義することができる、きめ細かいセキュリティフレームワークを提供する。 SELinuxは、カスタマイズ可能で強力なRBACモデルを通じて堅牢なセキュリティ機能を提供するが、手動のポリシー管理はエラーを起こしやすく、システムが偶発的な設定ミスや抜け穴に弱いままである。 本稿では,SELinuxポリシをSMT(Scisfiability modulo Theory)に変換するツールを提案する。 我々のツールは、提供されたRBACポリシーとユーザがSMTで意図した仕様との整合性を主張することで、共通ポリシーの誤設定を通知することができる。 RBACポリシーは、完全に検証するために本質的に複雑である。 ここで提示される自動化ツールはさらに拡張され、システム管理者に対する複雑なポリシー管理の負担を軽減し、より広い範囲のポリシーの誤設定を特定することができると期待している。

Security-Enhanced Linux (SELinux) is a Linux kernel module that allows for a role-based access control (RBAC) mechanism. It provides a fine-grained security framework enabling system administrators to define security policies at the system and application level. Whilst SELinux offers robust security features through a customisable, powerful RBAC model, its manual policy management is prone to error, leaving the system vulnerable to accidental misconfigurations or loopholes. We present a tool to automate the conversion of SELinux policies into satisfiability modulo theories (SMT), enabling the verification of the intended security configurations using automated theorem proving. Our tool is capable of flagging common policy misconfigurations by asserting consistency between supplied RBAC policies and the intended specification by the user in SMT. RBAC policies are inherently complicated to verify entirely. We envision that the automated tool presented here can be further extended to identify an even broader range of policy misconfigurations, relieving the burden of managing convoluted policies on system administrators.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-04
# 雑音耐性拡散スペクトルエントロピーを用いたトレーニング中のニューラルネットワーク表現の評価

Assessing Neural Network Representations During Training Using Noise-Resilient Diffusion Spectral Entropy ( http://arxiv.org/abs/2312.04823v1 )

ライセンス: Link先を確認
Danqi Liao, Chen Liu, Benjamin W. Christensen, Alexander Tong, Guillaume Huguet, Guy Wolf, Maximilian Nickel, Ian Adelstein, Smita Krishnaswamy(参考訳) ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供するが、高い次元で確実に計算することが困難であることが証明されている。 実際、ノイズや高次元のデータでは、環境次元における従来の推定値は固定エントロピーに近づき、計算が困難である。 これらの問題に対処するために、データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論の測度を確実に計算する。 具体的には、データセットの神経表現における拡散スペクトルエントロピー(DSE)と、データを表す変数間の拡散スペクトル相互情報(DSMI)を定義する。 まず,従来のシャノンエントロピー,非パラメトリック推定,相互情報ニューラル推定(MINE)より優れる高次元シミュレーションデータにおいて,固有次元と関係強度の耐雑音性の測定を行った。 次に、教師付き学習、自己監督、過剰適合を伴う分類ネットワークにおける表現の進化を研究する。 1) 訓練中は, 神経表現のdseが増加する, (2) 一般学習中はクラスラベル付きdsmiが増加するが, オーバーフィッティング中は停滞する, (3) 入力信号付きdsmiは異なる傾向を示す: mnistでは, cifar-10 と stl-10 では減少する。 最後に、DSEを用いてより優れたネットワーク初期化を導出し、画像ネット上の962モデルにわたる下流分類精度をDSMIで予測できることを示す。 公式実装はhttps://github.com/chenliu-1996/diffusionspectralentropyで利用可能である。

Entropy and mutual information in neural networks provide rich information on the learning process, but they have proven difficult to compute reliably in high dimensions. Indeed, in noisy and high-dimensional data, traditional estimates in ambient dimensions approach a fixed entropy and are prohibitively hard to compute. To address these issues, we leverage data geometry to access the underlying manifold and reliably compute these information-theoretic measures. Specifically, we define diffusion spectral entropy (DSE) in neural representations of a dataset as well as diffusion spectral mutual information (DSMI) between different variables representing data. First, we show that they form noise-resistant measures of intrinsic dimensionality and relationship strength in high-dimensional simulated data that outperform classic Shannon entropy, nonparametric estimation, and mutual information neural estimation (MINE). We then study the evolution of representations in classification networks with supervised learning, self-supervision, or overfitting. We observe that (1) DSE of neural representations increases during training; (2) DSMI with the class label increases during generalizable learning but stays stagnant during overfitting; (3) DSMI with the input signal shows differing trends: on MNIST it increases, while on CIFAR-10 and STL-10 it decreases. Finally, we show that DSE can be used to guide better network initialization and that DSMI can be used to predict downstream classification accuracy across 962 models on ImageNet. The official implementation is available at https://github.com/ChenLiu-1996/DiffusionSpectralEntropy.
翻訳日:2024-01-15 14:59:56 公開日:2023-12-04
# fedbayes: 反抗的な攻撃から守るための、ゼロトラストのフェデレート学習集約

FedBayes: A Zero-Trust Federated Learning Aggregation to Defend Against Adversarial Attacks ( http://arxiv.org/abs/2312.04587v1 )

ライセンス: Link先を確認
Marc Vucovich, Devin Quinn, Kevin Choi, Christopher Redino, Abdul Rahman, Edward Bowen(参考訳) フェデレートラーニング(Federated Learning)は、クライアントデータに直接アクセスすることなく、マシンラーニングモデルをトレーニングする分散メソッドを開発した。 フェデレートされた学習アーキテクチャの主目的は、グローバルモデルのトレーニングに引き続き貢献しながら、各クライアントのプライバシを保護することである。 しかし、フェデレーション学習におけるプライバシーの主な利点は、利用しやすい側面である。 クライアントのデータを見ることができないため、データの品質を決定するのは難しい。 バックドアやラベルフリッピング攻撃などのデータ中毒手法を利用するか、あるいはデータ操作された情報をサーバに送信することで、悪意のあるクライアントはグローバルモデルを破壊し、フェデレーション内のすべてのクライアントのパフォーマンスを低下させることができる。 提案手法であるfeedbayesは,前モデルの重み付けに対するクライアントのモデル重みの確率をベイズ統計を用いて計算することにより,悪意のあるクライアントの効果を緩和する。 提案手法は,悪意のあるクライアントの効果を否定し,全体のフェデレーションを保護する。

Federated learning has created a decentralized method to train a machine learning model without needing direct access to client data. The main goal of a federated learning architecture is to protect the privacy of each client while still contributing to the training of the global model. However, the main advantage of privacy in federated learning is also the easiest aspect to exploit. Without being able to see the clients' data, it is difficult to determine the quality of the data. By utilizing data poisoning methods, such as backdoor or label-flipping attacks, or by sending manipulated information about their data back to the server, malicious clients are able to corrupt the global model and degrade performance across all clients within a federation. Our novel aggregation method, FedBayes, mitigates the effect of a malicious client by calculating the probabilities of a client's model weights given to the prior model's weights using Bayesian statistics. Our results show that this approach negates the effects of malicious clients and protects the overall federation.
翻訳日:2024-01-15 14:58:27 公開日:2023-12-04
# LLMに基づくプロセス自動化によるインテリジェント仮想アシスタント

Intelligent Virtual Assistants with LLM-based Process Automation ( http://arxiv.org/abs/2312.06677v1 )

ライセンス: Link先を確認
Yanchu Guan, Dong Wang, Zhixuan Chu, Shiyu Wang, Feiyue Ni, Ruihua Song, Longfei Li, Jinjie Gu, Chenyi Zhuang(参考訳) Siri、Alexa、Google Assistantといったインテリジェントなバーチャルアシスタントは現代では至るところで普及しているが、多段階の指示に従い、自然言語で書かれた複雑な目標を達成する能力には限界がある。 しかし、最近の大規模言語モデル(LLM)のブレークスルーは、自然言語処理と推論能力を強化することで、既存の障壁を克服することを約束している。 有望だが、より高度な仮想アシスタントを作成するためにllmを適用すると、実世界のユーザーコマンドにおける堅牢なパフォーマンスと可変性を確保するといった課題に直面する。 本稿では,高レベルのユーザ要求に基づいてモバイルアプリ内でマルチステップ操作を自動実行可能な,新しいllmベースの仮想アシスタントを提案する。 このシステムは、指示を解析し、目標を推論し、行動を実行するエンドツーエンドのソリューションを提供することによって、アシスタントの進歩を表す。 LLMベースのプロセス自動化(LLMPA)には、命令の分解、記述の生成、インターフェース要素の検出、次のアクションの予測、エラーチェックのためのモジュールがある。 実験は自然言語命令に基づくalipayの複雑な移動操作タスクを完了させる。 これは、大規模な言語モデルが自動化アシスタントが現実世界のタスクをどのように達成できるかを示す。 主な貢献は、アプリケーションプロセス自動化に最適化された新しいLLMPAアーキテクチャ、モバイルアプリにLLMを適用する方法論、実環境におけるマルチステップタスク補完の実証である。 注目すべきなのは、この作業は、数十億という巨大なユーザベース数を持つ、広く使用されているモバイルアプリケーションにおいて、大規模な言語モデルベースの仮想アシスタントの、初めての実世界の展開と広範な評価である。

While intelligent virtual assistants like Siri, Alexa, and Google Assistant have become ubiquitous in modern life, they still face limitations in their ability to follow multi-step instructions and accomplish complex goals articulated in natural language. However, recent breakthroughs in large language models (LLMs) show promise for overcoming existing barriers by enhancing natural language processing and reasoning capabilities. Though promising, applying LLMs to create more advanced virtual assistants still faces challenges like ensuring robust performance and handling variability in real-world user commands. This paper proposes a novel LLM-based virtual assistant that can automatically perform multi-step operations within mobile apps based on high-level user requests. The system represents an advance in assistants by providing an end-to-end solution for parsing instructions, reasoning about goals, and executing actions. LLM-based Process Automation (LLMPA) has modules for decomposing instructions, generating descriptions, detecting interface elements, predicting next actions, and error checking. Experiments demonstrate the system completing complex mobile operation tasks in Alipay based on natural language instructions. This showcases how large language models can enable automated assistants to accomplish real-world tasks. The main contributions are the novel LLMPA architecture optimized for app process automation, the methodology for applying LLMs to mobile apps, and demonstrations of multi-step task completion in a real-world environment. Notably, this work represents the first real-world deployment and extensive evaluation of a large language model-based virtual assistant in a widely used mobile application with an enormous user base numbering in the hundreds of millions.
翻訳日:2024-01-15 14:52:11 公開日:2023-12-04
# Kunyu: 回帰損失を超えた高性能なグローバル気象モデル

Kunyu: A High-Performing Global Weather Model Beyond Regression Losses ( http://arxiv.org/abs/2312.08264v1 )

ライセンス: Link先を確認
Zekun Ni(参考訳) 過去1年間で、従来の数値天気予報に代わる新しい代替手段として、データ駆動のグローバル気象予報が登場した。 この革新的なアプローチは、計算コストのほんのわずかで同等の精度の予測をもたらす。 私の知る限りでは、既存のモデルは回帰損失にのみ依存しており、かなりぼやけた予測を生み出している。 このような曖昧さは実用性を損なうが、評価基準において不公平な利点を享受する。 本稿では,0.35{\deg}分解能で大気変数の包括的配列を正確に予測する,グローバルなデータ駆動型天気予報モデルKunyuを提案する。 トレーニングフレームワークにレグレッションと敵の損失が組み込まれ、クンユは明快さとリアリズムを増した予測を生成する。 性能はECMWF HRESよりも、異常極値の推定などいくつかの面で優れているが、RMSEやACCなどの評価指標ではECMWF HRESと競合している。 Kunyuは、数値とデータ駆動の天気予報の実用的ギャップを埋める重要な一歩だ。

Over the past year, data-driven global weather forecasting has emerged as a new alternative to traditional numerical weather prediction. This innovative approach yields forecasts of comparable accuracy at a tiny fraction of computational costs. Regrettably, as far as I know, existing models exclusively rely on regression losses, producing forecasts with substantial blurring. Such blurring, although compromises practicality, enjoys an unfair advantage on evaluation metrics. In this paper, I present Kunyu, a global data-driven weather forecasting model which delivers accurate predictions across a comprehensive array of atmospheric variables at 0.35{\deg} resolution. With both regression and adversarial losses integrated in its training framework, Kunyu generates forecasts with enhanced clarity and realism. Its performance outpaces even ECMWF HRES in some aspects such as the estimation of anomaly extremes, while remaining competitive with ECMWF HRES on evaluation metrics such as RMSE and ACC. Kunyu is an important step forward in closing the utility gap between numerical and data-driven weather prediction.
翻訳日:2024-01-15 14:37:27 公開日:2023-12-04
# 行列型およびテンソル型レコメンダシステムのための動的協調フィルタリング

Dynamic Collaborative Filtering for Matrix- and Tensor-based Recommender Systems ( http://arxiv.org/abs/2312.10064v1 )

ライセンス: Link先を確認
Albert Saiapin, Ivan Oseledets, Evgeny Frolov(参考訳) レコメンダシステムの実運用アプリケーションでは,モデル更新に連続的なデータフローが使用される。 多くのレコメンダモデルは、新しいデータに適応するために完全なリトレーニングを必要とする。 本研究では,Tucker Integrator Recommender-TIRecAと呼ばれる逐次問題に対する新しい協調フィルタリングモデルを提案する。 tirecaは新しいデータセグメントのみを使用してパラメータを効率的に更新し、新しいユーザとアイテムをレコメンダシステムにインクリメンタルに追加する。 提案モデルの有効性を実証するため,MovieLens 20M,Amazon Beauty,Amazon Toys and Games,Steamの4つの公開データセットで実験を行った。 一般行列とテンソルベースラインとの比較から,TIRecAはトレーニング時間において10~20倍高速でありながら,ベースライン法に匹敵する品質を実現していることがわかった。

In production applications of recommender systems, a continuous data flow is employed to update models in real-time. Many recommender models often require complete retraining to adapt to new data. In this work, we introduce a novel collaborative filtering model for sequential problems known as Tucker Integrator Recommender - TIRecA. TIRecA efficiently updates its parameters using only the new data segment, allowing incremental addition of new users and items to the recommender system. To demonstrate the effectiveness of the proposed model, we conducted experiments on four publicly available datasets: MovieLens 20M, Amazon Beauty, Amazon Toys and Games, and Steam. Our comparison with general matrix and tensor-based baselines in terms of prediction quality and computational time reveals that TIRecA achieves comparable quality to the baseline methods, while being 10-20 times faster in training time.
翻訳日:2024-01-15 14:02:28 公開日:2023-12-04
# 大規模言語モデルの指導と評価のための原則集

A collection of principles for guiding and evaluating large language models ( http://arxiv.org/abs/2312.10059v1 )

ライセンス: Link先を確認
Konstantin Hebenstreit, Robert Praas, Matthias Samwald(参考訳) 大きな言語モデル(LLM)は優れた能力を示すが、その透明性、堅牢性、真実性、倫理的整合性に加えて、複雑な推論タスクを解く能力に関する課題は残る。 本稿では, LLMにおける構造化推論, 自己評価・自己回帰, 説明可能性, AIシステム安全性・セキュリティ, 人間の批判的思考のガイドライン, 倫理的・規制的なAIガイドラインなど, 関連分野の文献をキュレートすることにより, LLMの判断と評価のための基本原則をまとめた。 文献から220の原則のリストを特定してキュレートし、仮定と視点、推論、情報とエビデンス、堅牢性とセキュリティ、倫理、ユーティリティ、含意の7つのカテゴリに分けられた37のコア原則のセットを導出します。 われわれは、主観的な重要度の専門家に異なる原則を課し、予備的な結果を超えて将来の研究の道筋を定める、小規模の専門家調査を実施している。 我々は,モデルの共有モデルの開発は,推論時のモデル監視とステアリング,トレーニング中のモデル行動の改善,モデル推論の人的評価の導出など,複数の目的を達成することができると考えている。

Large language models (LLMs) demonstrate outstanding capabilities, but challenges remain regarding their ability to solve complex reasoning tasks, as well as their transparency, robustness, truthfulness, and ethical alignment. In this preliminary study, we compile a set of core principles for steering and evaluating the reasoning of LLMs by curating literature from several relevant strands of work: structured reasoning in LLMs, self-evaluation/self-reflection, explainability, AI system safety/security, guidelines for human critical thinking, and ethical/regulatory guidelines for AI. We identify and curate a list of 220 principles from literature, and derive a set of 37 core principles organized into seven categories: assumptions and perspectives, reasoning, information and evidence, robustness and security, ethics, utility, and implications. We conduct a small-scale expert survey, eliciting the subjective importance experts assign to different principles and lay out avenues for future work beyond our preliminary results. We envision that the development of a shared model of principles can serve multiple purposes: monitoring and steering models at inference time, improving model behavior during training, and guiding human evaluation of model reasoning.
翻訳日:2024-01-15 14:02:13 公開日:2023-12-04
# 論文執筆におけるジェネレーティブAI: 学術研究における新しいタイプのアルゴリズムバイアスと不確実性

Generative AI in Writing Research Papers: A New Type of Algorithmic Bias and Uncertainty in Scholarly Work ( http://arxiv.org/abs/2312.10057v1 )

ライセンス: Link先を確認
Rishab Jain and Aditya Jain(参考訳) あらゆる分野の研究における人工知能(AI)の利用は、ユビキタスになりつつある。 しかし、このユビキティは、よく定義されたデータ密度のタスクを達成するために科学研究中に開発された超特殊AIモデルによって主に駆動される。 これらのaiモデルは、有限の特定のデータセットとパラメータでトレーニングされるため、明白で認識可能なバイアスを導入する。 However, the efficacy of using large language models (LLMs) -- and LLM-powered generative AI tools, such as ChatGPT -- to assist the research process is currently indeterminate. These generative AI tools, trained on general and imperceptibly large datasets along with human feedback, present challenges in identifying and addressing biases. Furthermore, these models are susceptible to goal misgeneralization, hallucinations, and adversarial attacks such as red teaming prompts -- which can be unintentionally performed by human researchers, resulting in harmful outputs. これらの成果は研究で強化されており、多くの個人が原稿作成に生成AIを使い始めています。 aiの解釈可能性への取り組みは開発に遅れ、チャットボットにコンテキストを起動し提供する際に生じる暗黙の変動は不確実性と不再現性をもたらす。 そこで,研究写本の執筆過程に生成AIを組み込むことで,新たなタイプの文脈依存型アルゴリズムバイアスを導入し,学術,知識生産,コミュニケーション研究に大きく寄与する意図しない副作用があることが判明した。

The use of artificial intelligence (AI) in research across all disciplines is becoming ubiquitous. However, this ubiquity is largely driven by hyperspecific AI models developed during scientific studies for accomplishing a well-defined, data-dense task. These AI models introduce apparent, human-recognizable biases because they are trained with finite, specific data sets and parameters. However, the efficacy of using large language models (LLMs) -- and LLM-powered generative AI tools, such as ChatGPT -- to assist the research process is currently indeterminate. These generative AI tools, trained on general and imperceptibly large datasets along with human feedback, present challenges in identifying and addressing biases. Furthermore, these models are susceptible to goal misgeneralization, hallucinations, and adversarial attacks such as red teaming prompts -- which can be unintentionally performed by human researchers, resulting in harmful outputs. These outputs are reinforced in research -- where an increasing number of individuals have begun to use generative AI to compose manuscripts. Efforts into AI interpretability lag behind development, and the implicit variations that occur when prompting and providing context to a chatbot introduce uncertainty and irreproducibility. We thereby find that incorporating generative AI in the process of writing research manuscripts introduces a new type of context-induced algorithmic bias and has unintended side effects that are largely detrimental to academia, knowledge production, and communicating research.
翻訳日:2024-01-15 14:01:47 公開日:2023-12-04
# 液体中の長波振動相互作用と量子拡散の促進

Enhancement of long-wave vibronic interaction and quantum diffusion in liquids ( http://arxiv.org/abs/2312.14938v1 )

ライセンス: Link先を確認
Vladimir Hizhnyakov and Aleksander Shelkan(参考訳) 固体相および液体相における欠陥のゼロフォノン型希望運動が量子拡散を引き起こしていると考えられる。 従来発見されていた長波音響フォノンとのビブロン相互作用の著しい強化により、液体中のこの動きは、近接温度における同じ物質の固相と比較して著しく増幅できることが判明した。 超流動4Heでは量子拡散が特に重要である。 これは空洞波(空洞ゼロ)の形で移動できる空洞に対して特に当てはまる。

The zero-phonon type hoping motion of defects in the solid and liquid phases, causing quantum diffusion, is considered. It was found that due to the previously discovered significant enhancement of vibronic interaction with long-wave acoustic phonons, this motion in liquids can be significantly amplified compared to the solid phase of the same substance at a close temperature. Quantum diffusion may be particularly important in superfluid 4He. This is especially true for vacancies that can move here in the form of vacancy waves (zero vacancies).
翻訳日:2024-01-15 13:16:57 公開日:2023-12-04
# トランスフォーマーを用いたダイナミック脳コネクトームの大規模グラフ表現学習

Large-scale Graph Representation Learning of Dynamic Brain Connectome with Transformers ( http://arxiv.org/abs/2312.14939v1 )

ライセンス: Link先を確認
Byung-Hoon Kim, Jungwon Choi, EungGu Yun, Kyungsang Kim, Xiang Li, Juho Lee(参考訳) グラフトランスフォーマーは最近、さまざまなグラフ表現学習タスクで成功しており、メッセージパッシンググラフニューラルネットワークよりも多くの利点を提供している。 グラフ変換を用いて脳機能接続ネットワークの表現を学習することも注目されている。 しかし、これまでの研究は、時間とともに変動する機能的接続の時間的ダイナミクスを見落としてきた。 本稿では,グラフ変換器を用いた動的関数接続の表現を学習する手法を提案する。 具体的には,機能的接続グラフの位置,構造,時間情報を保持するコネクトーム埋め込みを定義し,トランスフォーマを用いて時間にわたってその表現を学習する。 3つのデータセットから得られた5万以上の静止状態fMRIサンプルを用いて実験を行った。 実験の結果,本手法はfmriデータから抽出した機能的接続性に基づく性別分類や年齢回帰課題において,他の競合ベースラインよりも優れていた。

Graph Transformers have recently been successful in various graph representation learning tasks, providing a number of advantages over message-passing Graph Neural Networks. Utilizing Graph Transformers for learning the representation of the brain functional connectivity network is also gaining interest. However, studies to date have underlooked the temporal dynamics of functional connectivity, which fluctuates over time. Here, we propose a method for learning the representation of dynamic functional connectivity with Graph Transformers. Specifically, we define the connectome embedding, which holds the position, structure, and time information of the functional connectivity graph, and use Transformers to learn its representation across time. We perform experiments with over 50,000 resting-state fMRI samples obtained from three datasets, which is the largest number of fMRI data used in studies by far. The experimental results show that our proposed method outperforms other competitive baselines in gender classification and age regression tasks based on the functional connectivity extracted from the fMRI data.
翻訳日:2024-01-15 13:00:13 公開日:2023-12-04
# ダイヤモンドオンチップ赤外吸収磁界カメラ

Diamond-on-chip infrared absorption magnetic field camera ( http://arxiv.org/abs/2401.00854v1 )

ライセンス: Link先を確認
Julian M. Bopp, Hauke Conradi, Felipe Perona, Anil Palaci, Jonas Wollenberg, Thomas Flisgen, Armin Liero, Heike Christopher, Norbert Keil, Wolfgang Knolle, Andrea Knigge, Wolfgang Heinrich, Moritz Kleinert, Tim Schr\"oder(参考訳) 生命科学の応用において神経に沿って伝播する電気パルスを感知するのに十分な感度を持ち、その伝播方向を解決できる空間分解能を持つ集積・ファイバ充填磁場センサは、医療診断だけでなく、神経プロセスを理解する上でも大きな一歩を踏み出します。 ダイヤモンドの窒素空洞センターは、環境条件下でこのようなセンシングタスクのための主要なプラットフォームである。 優れた感度と高空間分解能の一体化に関する現在の研究は、走査法や撮像法により容易である。 しかし、これらの技術は可動部やかさばる顕微鏡装置を用いる。 開発が進んでいるにもかかわらず、どちらのアプローチも統合できず、ファイバパックで堅牢で調整不要なハンドヘルドデバイスを作ることはできない。 本研究では,空間分解磁界センサと2次元グラディオメトリーを統合磁界カメラで実現するための新しい概念を紹介する。 赤外線光検出磁気共鳴(IRA-ODMR)に基づいて、赤外線とポンプレーザを垂直に交差させて画素マトリックスを形成する。 宇宙における電磁石の位置を再構成する3-by-3ピクセルセンサの能力を示す。 さらに,複雑なセンサ応用に必要な磁場カメラの感度と空間分解能を高めるための経路を同定する。

Integrated and fiber-packaged magnetic field sensors with a sensitivity sufficient to sense electric pulses propagating along nerves in life science applications and with a spatial resolution fine enough to resolve their propagation directions will trigger a tremendous step ahead not only in medical diagnostics, but in understanding neural processes. Nitrogen-vacancy centers in diamond represent the leading platform for such sensing tasks under ambient conditions. Current research on uniting a good sensitivity and a high spatial resolution is facilitated by scanning or imaging techniques. However, these techniques employ moving parts or bulky microscope setups. Despite being far developed, both approaches cannot be integrated and fiber-packaged to build a robust, adjustment-free hand-held device. In this work, we introduce novel concepts for spatially resolved magnetic field sensing and 2-D gradiometry with an integrated magnetic field camera. The camera is based on infrared absorption optically detected magnetic resonance (IRA-ODMR) mediated by perpendicularly intersecting infrared and pump laser beams forming a pixel matrix. We demonstrate our 3-by-3 pixel sensor's capability to reconstruct the position of an electromagnet in space. Furthermore, we identify routes to enhance the magnetic field camera's sensitivity and spatial resolution as required for complex sensing applications.
翻訳日:2024-01-15 12:28:45 公開日:2023-12-04
# Qubits から Opinions へ:超越ゲート上の量子誘発社会シミュレーションにおける演算子とエラーシンドロームの測定

From Qubits to Opinions: Operator and Error Syndrome Measurement in Quantum-Inspired Social Simulations on Transversal Gates ( http://arxiv.org/abs/2401.01902v1 )

ライセンス: Link先を確認
Yasuko Kawahata(参考訳) 本稿では, 量子論の歴史と統合を, 意見力学, 決定論, ゲーム理論などの分野に展開し, 社会シミュレーションのための新しい枠組みを提供する。 社会システムにおける情報伝達と意思決定の複雑さを分析するための量子論的視点を導入し,誤り識別のための toric code-based method を用いた。本研究の中心は,元々は量子誤り訂正のための toric codes を用いて,意見形成や意思決定プロセスにおける不確実性を表現する社会シミュレーションにおける誤りの検出と修正を行う。 量子計算に不可欠な演算子とエラーシンドロームの測定は、社会シミュレーションにおけるエラーと不確実性を特定し分析するのに役立つ。 また,量子計算中にエラーから保護するトランスバーサルゲートを用いたフォールトトレラント計算についても述べる。 社会シミュレーションでは、トランスバーサルゲートモデルが外部干渉や誤った情報から保護し、意思決定と戦略形成プロセスの忠実性を高める。

This paper delves into the history and integration of quantum theory into areas such as opinion dynamics, decision theory, and game theory, offering a novel framework for social simulations. It introduces a quantum perspective for analyzing information transfer and decision-making complexity within social systems, employing a toric code-based method for error discrimination.Central to this research is the use of toric codes, originally for quantum error correction, to detect and correct errors in social simulations, representing uncertainty in opinion formation and decision-making processes. Operator and error syndrome measurement, vital in quantum computation, help identify and analyze errors and uncertainty in social simulations. The paper also discusses fault-tolerant computation employing transversal gates, which protect against errors during quantum computation. In social simulations, transversal gates model protection from external interference and misinformation, enhancing the fidelity of decision-making and strategy formation processes.
翻訳日:2024-01-15 09:56:34 公開日:2023-12-04
# RNA二次構造問題における性能対策の再考

Rethinking Performance Measures of RNA Secondary Structure Problems ( http://arxiv.org/abs/2401.05351v1 )

ライセンス: Link先を確認
Frederic Runge, J\"org K. H. Franke, Daniel Fertmann, Frank Hutter(参考訳) 正確なRNA二次構造予測は、細胞制御と疾患機構を理解するのに不可欠である。 深層学習(DL)法は、擬似ノットや多相互作用ベースペアのような複雑な特徴を予測することによって、従来のアルゴリズムを超越した。 しかし、従来の距離測度はこのような第三次相互作用にほとんど対応できず、現在使われている評価測度(F1スコア、MCC)には限界がある。 代替計量としてWeisfeiler-Lehmanグラフカーネル(WL)を提案する。 WLのようなグラフベースのメトリクスを採用することで、RNA構造予測アルゴリズムの公平かつ正確な評価が可能になる。 さらに、WLはRNA設計実験で実証された情報的ガイダンスを提供する。

Accurate RNA secondary structure prediction is vital for understanding cellular regulation and disease mechanisms. Deep learning (DL) methods have surpassed traditional algorithms by predicting complex features like pseudoknots and multi-interacting base pairs. However, traditional distance measures can hardly deal with such tertiary interactions and the currently used evaluation measures (F1 score, MCC) have limitations. We propose the Weisfeiler-Lehman graph kernel (WL) as an alternative metric. Embracing graph-based metrics like WL enables fair and accurate evaluation of RNA structure prediction algorithms. Further, WL provides informative guidance, as demonstrated in an RNA design experiment.
翻訳日:2024-01-15 09:11:27 公開日:2023-12-04
# 一般化経験を利用した適応演算子選択

Adaptive operator selection utilising generalised experience ( http://arxiv.org/abs/2401.05350v1 )

ライセンス: Link先を確認
Mehmet Emin Aydin, Rafet Durgut and Abdur Rakib(参考訳) 最適化問題、特に組合せ最適化問題は、その複雑さと難しさのために解決が難しい。 このような問題は進化的および群知能アルゴリズム、特にバイナリ形式によってうまく解決された。 しかしながら、この近似は探索と搾取活動(eve)のバランスの問題により、この文脈では依然として大きな課題となっている。 適応演算子選択スキームによるeve管理では,複数演算子の補完的利用が普及しているが,研究において,個別適応選択方式が重要なトピックである。 強化学習(rl)は、高度に効果的な適応選択システムをカスタマイズし形成する方法として最近提案されている。 しかし、スケーラビリティという点では、この問題を扱うことは依然として困難である。 本稿では,RLをベースとした新たなアプローチを提案し,今後の利用経験の獲得,処理,活用のための汎用フレームワークの開発を支援する。 実験結果は,提案手法を一定の成功度で支持する。

Optimisation problems, particularly combinatorial optimisation problems, are difficult to solve due to their complexity and hardness. Such problems have been successfully solved by evolutionary and swarm intelligence algorithms, especially in binary format. However, the approximation may suffer due to the the issues in balance between exploration and exploitation activities (EvE), which remain as the major challenge in this context. Although the complementary usage of multiple operators is becoming more popular for managing EvE with adaptive operator selection schemes, a bespoke adaptive selection system is still an important topic in research. Reinforcement Learning (RL) has recently been proposed as a way to customise and shape up a highly effective adaptive selection system. However, it is still challenging to handle the problem in terms of scalability. This paper proposes and assesses a RL-based novel approach to help develop a generalised framework for gaining, processing, and utilising the experiences for both the immediate and future use. The experimental results support the proposed approach with a certain level of success.
翻訳日:2024-01-15 09:11:17 公開日:2023-12-04
# 表面欠陥検出のための資源制約エッジAIモデルの開発

Developing a Resource-Constraint EdgeAI model for Surface Defect Detection ( http://arxiv.org/abs/2401.05355v1 )

ライセンス: Link先を確認
Atah Nuh Mih, Hung Cao, Asfia Kawnine, Monica Wachowicz(参考訳) リソース制約により、いくつかのEdgeAIアプリケーションが機械学習推論アプローチに制限され、モデルがクラウド上でトレーニングされ、エッジデバイスにデプロイされる。 これは、帯域幅、レイテンシ、モデル構築のオフサイトデータの保存に関連するプライバシといった課題を引き起こす。 エッジデバイスでのトレーニングは、ストレージとモデル開発のためにデータを別のデバイスに転送する必要をなくすことで、これらの課題を克服することができる。 オンデバイストレーニングは、新たに取得したデータ上でモデルを再トレーニングしてパフォーマンスを向上させるため、データのバリエーションに対する堅牢性も提供する。 そこで我々は,リソースに制約のあるエッジ環境でのオンデバイストレーニングのために,xceptionから修正した軽量なedgeaiアーキテクチャを提案する。 我々は,PCB欠陥検出タスクにおける本モデルの評価を行い,既存の軽量モデルであるMobileNetV2,EfficientNetV2B0,MobileViT-XXSと比較した。 実験の結果,テスト精度は73.45%で,事前学習は行わずに優れた性能を示した。 これはプレトレーニングされていないmobilevit-xxs(75.40%)のテスト精度に匹敵し、他のプレトレーニングモデル(mobilenetv2 - 50.05%, efficientnetv2b0 - 54.30%)よりもはるかに優れている。 事前トレーニングなしのモデルの精度は、事前トレーニング済みのMobileNetV2モデル(75.45%)に匹敵する。 メモリ効率に関しては,EfficientNetV2B0 や MobileViT-XXS よりも優れている。 機械学習モデルの資源効率は,パラメータの数だけでなく,アーキテクチャ的考察にも依存していることがわかった。 本手法は他のリソース制約アプリケーションにも適用できるが,性能は高い。

Resource constraints have restricted several EdgeAI applications to machine learning inference approaches, where models are trained on the cloud and deployed to the edge device. This poses challenges such as bandwidth, latency, and privacy associated with storing data off-site for model building. Training on the edge device can overcome these challenges by eliminating the need to transfer data to another device for storage and model development. On-device training also provides robustness to data variations as models can be retrained on newly acquired data to improve performance. We, therefore, propose a lightweight EdgeAI architecture modified from Xception, for on-device training in a resource-constraint edge environment. We evaluate our model on a PCB defect detection task and compare its performance against existing lightweight models - MobileNetV2, EfficientNetV2B0, and MobileViT-XXS. The results of our experiment show that our model has a remarkable performance with a test accuracy of 73.45% without pre-training. This is comparable to the test accuracy of non-pre-trained MobileViT-XXS (75.40%) and much better than other non-pre-trained models (MobileNetV2 - 50.05%, EfficientNetV2B0 - 54.30%). The test accuracy of our model without pre-training is comparable to pre-trained MobileNetV2 model - 75.45% and better than pre-trained EfficientNetV2B0 model - 58.10%. In terms of memory efficiency, our model performs better than EfficientNetV2B0 and MobileViT-XXS. We find that the resource efficiency of machine learning models does not solely depend on the number of parameters but also depends on architectural considerations. Our method can be applied to other resource-constraint applications while maintaining significant performance.
翻訳日:2024-01-15 08:55:31 公開日:2023-12-04
# ImbaGCD: 一般カテゴリー発見の不均衡

ImbaGCD: Imbalanced Generalized Category Discovery ( http://arxiv.org/abs/2401.05353v1 )

ライセンス: Link先を確認
Ziyun Li, Ben Dai, Furkan Simsek, Christoph Meinel, Haojin Yang(参考訳) 一般化クラス発見(GCD)は、既知のクラスからなるラベル付き集合の事前知識を活用するラベル付きデータセットにおいて、未知のカテゴリを推論することを目的としている。 既存の研究では、各カテゴリの出現頻度は、既知のか未知かに関わらず、ラベルなしのデータでほぼ同じであると仮定している。 しかし、自然界では、視覚クラスの長い特性によれば、未知のクラスや非一般的なクラスよりも、既知のクラスや共通クラスに遭遇する可能性が高い。 そこで本研究では,非ラベルデータの分布が不均衡であり,既知のクラスが未知のクラスよりも頻繁である不均衡一般化カテゴリー発見(ImbaGCD)という課題を提起する。 この問題に対処するため,我々は,限界クラス事前分布を整合させることで一般化されたカテゴリ発見を実現する,新しい最適トランスポートベース期待最大化フレームワーク imbagcd を提案する。 ImbaGCDはまた、GCDセットアップの下で不均衡なクラス事前分布を推定するための体系的なメカニズムも組み込んでいる。 総合実験の結果,imbagcdはcifar-100で約24%,imagenet-100で15~19%の改善を達成し,従来のgcd法を上回っていることが明らかとなった。

Generalized class discovery (GCD) aims to infer known and unknown categories in an unlabeled dataset leveraging prior knowledge of a labeled set comprising known classes. Existing research implicitly/explicitly assumes that the frequency of occurrence for each category, whether known or unknown, is approximately the same in the unlabeled data. However, in nature, we are more likely to encounter known/common classes than unknown/uncommon ones, according to the long-tailed property of visual classes. Therefore, we present a challenging and practical problem, Imbalanced Generalized Category Discovery (ImbaGCD), where the distribution of unlabeled data is imbalanced, with known classes being more frequent than unknown ones. To address these issues, we propose ImbaGCD, A novel optimal transport-based expectation maximization framework that accomplishes generalized category discovery by aligning the marginal class prior distribution. ImbaGCD also incorporates a systematic mechanism for estimating the imbalanced class prior distribution under the GCD setup. Our comprehensive experiments reveal that ImbaGCD surpasses previous state-of-the-art GCD methods by achieving an improvement of approximately 2 - 4% on CIFAR-100 and 15 - 19% on ImageNet-100, indicating its superior effectiveness in solving the Imbalanced GCD problem.
翻訳日:2024-01-15 08:55:01 公開日:2023-12-04
# 長期認識のための一般化カテゴリ発見

Generalized Categories Discovery for Long-tailed Recognition ( http://arxiv.org/abs/2401.05352v1 )

ライセンス: Link先を確認
Ziyun Li, Christoph Meinel, Haojin Yang(参考訳) 一般化クラス発見(GCD)は、認識されたクラスからなるラベル付き集合から得られた洞察を活用することにより、未知のデータセットから既知のカテゴリと未知のカテゴリの両方を識別する上で重要な役割を果たす。 一般的なGCD法における重要な制限は、ラベルなしデータにおける等分散なカテゴリ発生の仮定である。 この仮定に反して、自然環境における視覚クラスは一般的に長い尾を持つ分布を示し、既知のカテゴリや一般的なカテゴリは珍しいものよりも頻繁に表される。 我々の研究は、長い尾を持つ一般カテゴリー発見(Long-tailed GCD)パラダイムに焦点をあてて、この断線を埋めようとしている。 ロングテールgcdが抱える独特な課題に対して,我々は2つの戦略的規則化に根ざしたロバストな方法論を提案する。 一 表現の少ない末尾のカテゴリーの卓越を助長する重み付け機構、及び (ii)期待されるクラス分布に合致するクラス先行制約。 総合実験により,提案手法はImageNet100の約6~9%の改善とCIFAR100の競合性能を達成し,従来のGCD法を上回る結果を得た。

Generalized Class Discovery (GCD) plays a pivotal role in discerning both known and unknown categories from unlabeled datasets by harnessing the insights derived from a labeled set comprising recognized classes. A significant limitation in prevailing GCD methods is their presumption of an equitably distributed category occurrence in unlabeled data. Contrary to this assumption, visual classes in natural environments typically exhibit a long-tailed distribution, with known or prevalent categories surfacing more frequently than their rarer counterparts. Our research endeavors to bridge this disconnect by focusing on the long-tailed Generalized Category Discovery (Long-tailed GCD) paradigm, which echoes the innate imbalances of real-world unlabeled datasets. In response to the unique challenges posed by Long-tailed GCD, we present a robust methodology anchored in two strategic regularizations: (i) a reweighting mechanism that bolsters the prominence of less-represented, tail-end categories, and (ii) a class prior constraint that aligns with the anticipated class distribution. Comprehensive experiments reveal that our proposed method surpasses previous state-of-the-art GCD methods by achieving an improvement of approximately 6 - 9% on ImageNet100 and competitive performance on CIFAR100.
翻訳日:2024-01-15 08:54:29 公開日:2023-12-04
# つぶやき・マクロ経済要因・歴史的価格からの株価変動とボラティリティ予測

Stock Movement and Volatility Prediction from Tweets, Macroeconomic Factors and Historical Prices ( http://arxiv.org/abs/2312.03758v1 )

ライセンス: Link先を確認
Shengkun Wang, YangXiao Bai, Taoran Ji, Kaiqun Fu, Linhan Wang, Chang-Tien Lu(参考訳) 株式市場の予測は投資家や政策立案者にとって不可欠であり、経済健全性のバロメーターとして機能する。 我々は、公共感情の強力な源であるソーシャルメディアデータを、政府の集計統計としてマクロ経済指標と連動させ、株式市場の予測を洗練させる。 しかし、株式市場予測にツイートデータを用いた以前の調査は3つの課題に直面している。 まず、ツイートの質は様々である。 多くはノイズと無関係な詳細で満たされているが、実際の市場シナリオを真に反映するものはごくわずかである。 第二に、そのセクターを考慮せずに、特定の株式の履歴データのみに焦点を当てることが、監視につながる可能性がある。 同じ業界内の株価は、しばしば価格行動の相関を示す。 最後に、単に価格変動の方向を評価せずに予測するだけでは、上昇または下落の程度が真に利益性を決定するため、その価値は限られている。 本稿では,従来の手法から分岐してECONを開拓する。 まず、ECONは、大量のツイートデータを効率的に抽出しデコードするアデプトツイートフィルタを持っています。 第2に、ECONは、セマンティック空間における自己認識機構を通じて、ストック、セクター、マクロ経済要因間のマルチレベル関係を識別する。 第3に、ECONは株価の動きに乗じて実質的な株価変動を予測するための精度の向上を提供する。 株式市場の動きやボラティリティを予測するために,我々が特にキュレートしたデータセットを用いて,提案モデルの最先端のパフォーマンスを示す。

Predicting stock market is vital for investors and policymakers, acting as a barometer of the economic health. We leverage social media data, a potent source of public sentiment, in tandem with macroeconomic indicators as government-compiled statistics, to refine stock market predictions. However, prior research using tweet data for stock market prediction faces three challenges. First, the quality of tweets varies widely. While many are filled with noise and irrelevant details, only a few genuinely mirror the actual market scenario. Second, solely focusing on the historical data of a particular stock without considering its sector can lead to oversight. Stocks within the same industry often exhibit correlated price behaviors. Lastly, simply forecasting the direction of price movement without assessing its magnitude is of limited value, as the extent of the rise or fall truly determines profitability. In this paper, diverging from the conventional methods, we pioneer an ECON. The framework has following advantages: First, ECON has an adept tweets filter that efficiently extracts and decodes the vast array of tweet data. Second, ECON discerns multi-level relationships among stocks, sectors, and macroeconomic factors through a self-aware mechanism in semantic space. Third, ECON offers enhanced accuracy in predicting substantial stock price fluctuations by capitalizing on stock price movement. We showcase the state-of-the-art performance of our proposed model using a dataset, specifically curated by us, for predicting stock market movements and volatility.
翻訳日:2023-12-08 17:51:27 公開日:2023-12-04
# LineConGraphs:グラフニューラルネットワークを用いた効果的な感情認識のためのライン会話グラフ

LineConGraphs: Line Conversation Graphs for Effective Emotion Recognition using Graph Neural Networks ( http://arxiv.org/abs/2312.03756v1 )

ライセンス: Link先を確認
Gokul S Krishnan, Sarala Padi, Craig S. Greenberg, Balaraman Ravindran, Dinesh Manoch and Ram D.Sriram(参考訳) 会話における感情認識(erc)は、感情コンピューティングの重要な側面であり、医療、教育、チャットボット、ソーシャルメディアプラットフォームに多くの実用的な応用がある。 ERC分析の以前のアプローチには、グラフニューラルネットワークアーキテクチャを使用した話者情報と長期コンテキスト情報のモデリングが含まれていた。 しかし、現実のアプリケーションに話者に依存しないモデルをデプロイすることは理想的である。 さらに、長いコンテキストウィンドウは会話中の発話の感情を認識するときに混乱を引き起こす可能性がある。 これらの制約を克服するために,erc分析のための新しいline conversation graph convolutional network(linecongcn)とgraph attention(linecongat)モデルを提案する。 これらのモデルは話者に依存しず、会話のためのグラフ構築戦略(LineConGraphs)を使って構築されている。 linecongraphsの会話コンテキストは短期的であり、前の発話と将来の発話に限定され、話者情報はグラフの一部ではない。 我々は,IEMOCAPとMELDという2つのベンチマークデータセット上で提案したモデルの性能を評価し,F1スコア64.58%,76.50%で,LineConGATモデルが最先端の手法より優れていることを示す。 さらに,感情変化情報をライン会話グラフに埋め込むことにより,GCNモデルにおけるERC性能をさらに向上させることを示す。

Emotion Recognition in Conversations (ERC) is a critical aspect of affective computing, and it has many practical applications in healthcare, education, chatbots, and social media platforms. Earlier approaches for ERC analysis involved modeling both speaker and long-term contextual information using graph neural network architectures. However, it is ideal to deploy speaker-independent models for real-world applications. Additionally, long context windows can potentially create confusion in recognizing the emotion of an utterance in a conversation. To overcome these limitations, we propose novel line conversation graph convolutional network (LineConGCN) and graph attention (LineConGAT) models for ERC analysis. These models are speaker-independent and built using a graph construction strategy for conversations -- line conversation graphs (LineConGraphs). The conversational context in LineConGraphs is short-term -- limited to one previous and future utterance, and speaker information is not part of the graph. We evaluate the performance of our proposed models on two benchmark datasets, IEMOCAP and MELD, and show that our LineConGAT model outperforms the state-of-the-art methods with an F1-score of 64.58% and 76.50%. Moreover, we demonstrate that embedding sentiment shift information into line conversation graphs further enhances the ERC performance in the case of GCN models.
翻訳日:2023-12-08 17:51:04 公開日:2023-12-04
# クラウドソーシングデータと大規模言語モデルを用いたリアルタイム地震震度推定

Near-real-time Earthquake-induced Fatality Estimation using Crowdsourced Data and Large-Language Models ( http://arxiv.org/abs/2312.03755v1 )

ライセンス: Link先を確認
Chenguang Wang, Davis Engler, Xuechun Li, James Hou, David J. Wald, Kishor Jaiswal, Susu Xu(参考訳) 被害を受けた地震が発生した場合、緊急対応と援助機関による時間に敏感な意思決定には、犠牲者に関する即時情報が必要である。 米国地質調査所(USGS)によるPAGER(Prompt Assessment of Global Earthquakes for Response)のようなシステムは、世界中の重要な地震の約30分以内に予測を提供するために開発された。 災害時の人的損失を推定する従来のシステムは、グローバルメディアが手作業で収集した早期犠牲者の報告に依存していることが多い。 近年,ソーシャルメディアから関連情報を抽出するためにキーワードマッチングとトピックモデリングを採用しているシステムもある。 しかし、これらの手法は多言語テキストの複雑な意味論に苦しめられ、ソーシャルメディアプラットフォーム上の様々な検証されていない情報源から、しばしば相反する死と負傷の報告を絶えず解釈することの難しさに苦しむ。 本研究では,多言語でクラウドソースされたソーシャルメディアを用いて,世界地震による人的損失予測のタイムラインと精度を大幅に改善するためのエンドツーエンドフレームワークを提案する。 提案手法は,(1)大規模言語モデル,プロンプトデザイン,マイトショット学習を基盤とした階層的カジュアルティ抽出モデルと,(2)大規模雑音と潜在的に相反する人的損失から真の人的損失を発見する物理制約認識・動的真実発見モデル,(3)発見された真理を用いて最終損失推定を動的に更新するベイズ更新損失予測モデルを組み合わせたものである。 我々は,2021年と2022年に発生した世界規模の地震について,このフレームワークをリアルタイムにテストし,usgsの手動手法に匹敵する速度と精度を実現した。

When a damaging earthquake occurs, immediate information about casualties is critical for time-sensitive decision-making by emergency response and aid agencies in the first hours and days. Systems such as Prompt Assessment of Global Earthquakes for Response (PAGER) by the U.S. Geological Survey (USGS) were developed to provide a forecast within about 30 minutes of any significant earthquake globally. Traditional systems for estimating human loss in disasters often depend on manually collected early casualty reports from global media, a process that's labor-intensive and slow with notable time delays. Recently, some systems have employed keyword matching and topic modeling to extract relevant information from social media. However, these methods struggle with the complex semantics in multilingual texts and the challenge of interpreting ever-changing, often conflicting reports of death and injury numbers from various unverified sources on social media platforms. In this work, we introduce an end-to-end framework to significantly improve the timeliness and accuracy of global earthquake-induced human loss forecasting using multi-lingual, crowdsourced social media. Our framework integrates (1) a hierarchical casualty extraction model built upon large language models, prompt design, and few-shot learning to retrieve quantitative human loss claims from social media, (2) a physical constraint-aware, dynamic-truth discovery model that discovers the truthful human loss from massive noisy and potentially conflicting human loss claims, and (3) a Bayesian updating loss projection model that dynamically updates the final loss estimation using discovered truths. We test the framework in real-time on a series of global earthquake events in 2021 and 2022 and show that our framework streamlines casualty data retrieval, achieving speed and accuracy comparable to manual methods by USGS.
翻訳日:2023-12-08 17:50:38 公開日:2023-12-04
# 一般化ホップフィールドネットワークにおけるプロトタイプ学習のためのワディントンランドスケープ

A Waddington landscape for prototype learning in generalized Hopfield networks ( http://arxiv.org/abs/2312.03012v1 )

ライセンス: Link先を確認
Nacer Eddine Boukacem, Allen Leary, Robin Th\'eriault, Felix Gottlieb, Madhav Mani, Paul Fran\c{c}ois(参考訳) 機械学習のネットワークは、生体システムを想起させる複雑な高次元力学システムの例を提供する。 本稿では,内部記憶の可視化を可能にする一般化ホップフィールドネットワークの学習ダイナミクスについて検討する。 これらのネットワークは、ネットワークの非線形性の強さが増大するにつれて、内部記憶状態が混合状態から純粋状態へ遷移する「機能-プロトタイプ」遷移を進行することが示されている。 内的記憶のプロトタイプの学習ダイナミクスに注目して,ワッディトニアの風景の中で分化する細胞を細分化した,あるいは低次元の細胞によく似ていることを観察した。 動的に、一般化ホップフィールドネットワークにおける学習は、メモリ空間における逐次的な「スプリット」を通して進行することを示す。 また、分割の順序は解釈可能で再現可能である。 分割間のダイナミクスは、Waddingtonの意味で運河化されます -- システムの詳細な側面のバリエーションに対して堅牢です。 アナロジーを厳密な同値性にしようとして、フルシステムに類似した性質を示すより小さなサブシステムについて研究する。 解析計算と数値シミュレーションを組み合わせることで,特徴-原型遷移の動的出現と,学習中に訪れたランドスケープ,サドルポイント,スプリットの挙動を考察する。 我々は、サドルノードの分岐を通じてサドルが出現し消滅し、非線形性の強さが変化するにつれて学習記憶の分布を定性的に変化させることで、ワッディングトン力学の出現を裏付けるメカニズムを体系的に研究できるレジームを提示する。 したがって、記憶は予測的かつ制御的な方法で区別することができ、実験生物学、力学系理論、機械学習の新たな橋渡しを明らかにする。

Networks in machine learning offer examples of complex high-dimensional dynamical systems reminiscent of biological systems. Here, we study the learning dynamics of Generalized Hopfield networks, which permit a visualization of internal memories. These networks have been shown to proceed through a 'feature-to-prototype' transition, as the strength of network nonlinearity is increased, wherein the learned, or terminal, states of internal memories transition from mixed to pure states. Focusing on the prototype learning dynamics of the internal memories we observe a strong resemblance to the canalized, or low-dimensional, dynamics of cells as they differentiate within a Waddingtonian landscape. Dynamically, we demonstrate that learning in a Generalized Hopfield Network proceeds through sequential 'splits' in memory space. Furthermore, order of splitting is interpretable and reproducible. The dynamics between the splits are canalized in the Waddington sense -- robust to variations in detailed aspects of the system. In attempting to make the analogy a rigorous equivalence, we study smaller subsystems that exhibit similar properties to the full system. We combine analytical calculations with numerical simulations to study the dynamical emergence of the feature-to-prototype transition, and the behaviour of splits in the landscape, saddles points, visited during learning. We exhibit regimes where saddles appear and disappear through saddle-node bifurcations, qualitatively changing the distribution of learned memories as the strength of the nonlinearity is varied -- allowing us to systematically investigate the mechanisms that underlie the emergence of Waddingtonian dynamics. Memories can thus differentiate in a predictive and controlled way, revealing new bridges between experimental biology, dynamical systems theory, and machine learning.
翻訳日:2023-12-07 17:41:25 公開日:2023-12-04
# instructbooth: パーソナライズされたテキストからイメージへの生成

InstructBooth: Instruction-following Personalized Text-to-Image Generation ( http://arxiv.org/abs/2312.03011v1 )

ライセンス: Link先を確認
Daewon Chae, Nokyung Park, Jinkyu Kim, Kimin Lee(参考訳) 特定の対象に対して限定された画像セットを使用してテキストから画像へのモデルをパーソナライズすることは、主題特異的画像生成において研究されている。 しかし、既存の手法は、限られた訓練画像に過度に適合するため、テキストプロンプトと整合する際の課題にしばしば遭遇する。 本稿では,パーソナライズされたテキストから画像へのアライメントを強化するために設計された新しい手法であるinstructboothを提案する。 提案手法は,テキストから画像へのパーソナライズを,一意な識別子を用いて,少数の被写体固有の画像を用いて行う。 パーソナライズ後、強化学習を用いてパーソナライズされたテキスト対画像モデルを微調整し、画像とテキストのアライメントを定量化する報酬を最大化する。 さらに,この2つのプロセス間の相乗効果を高めるための補完手法を提案する。 本手法は,パーソナライズ能力を維持しながら,ベースラインよりも優れた画像テキストアライメントを示す。 人間の評価では、InstructBoothはすべての包括的な要因を考慮するとDreamBoothよりも優れています。

Personalizing text-to-image models using a limited set of images for a specific object has been explored in subject-specific image generation. However, existing methods often encounter challenges in aligning with text prompts due to overfitting to the limited training images. In this work, we introduce InstructBooth, a novel method designed to enhance image-text alignment in personalized text-to-image models. Our approach first personalizes text-to-image models with a small number of subject-specific images using a unique identifier. After personalization, we fine-tune personalized text-to-image models using reinforcement learning to maximize a reward that quantifies image-text alignment. Additionally, we propose complementary techniques to increase the synergy between these two processes. Our method demonstrates superior image-text alignment compared to baselines while maintaining personalization ability. In human evaluations, InstructBooth outperforms DreamBooth when considering all comprehensive factors.
翻訳日:2023-12-07 17:40:19 公開日:2023-12-04
# I-PHYRE:インタラクティブ物理推論

I-PHYRE: Interactive Physical Reasoning ( http://arxiv.org/abs/2312.03009v1 )

ライセンス: Link先を確認
Shiqian Li, Kewen Wu, Chi Zhang, Yixin Zhu(参考訳) 現在の評価プロトコルは静的なシーンにおける物理的推論を主に評価しており、動的事象と相互作用するエージェントの能力評価のギャップを生んでいる。 現代の手法では、エージェントは初期シーンの設定を変更して結果を見ることができるが、リアルタイムでイベントと対話する能力は欠如している。 そこで本研究では,エージェントが直感的な理屈,多段階計画,その場介入を同時に提示するフレームワークであるi-phyreを紹介する。 ここでは、直感的な物理的推論は、複雑な問題に対処する物理の素早い近似的な理解を意味し、多段階は、I-PHYREにおける広範囲なシーケンス計画の必要性を示し、それぞれの介入がその後の選択を著しく変更可能であること、その場では、微妙なタイミング偏差がタスクの失敗をもたらすシーン内での時間的オブジェクト操作の必要性を示唆している。 4つのゲーム分割を定式化し、エージェントの学習を精査し、対話的物理的推論の基本原則を一般化し、代表的なシナリオとの相互作用を通じて学習を育む。 本研究は,I-PHYREにおける監視・強化エージェントのゼロショット一般化能力について,3つの計画戦略について検討する。 その結果、既存の学習アルゴリズムと人間のパフォーマンスの顕著なギャップが浮き彫りになり、対話的な物理的推論能力を持つエージェントの強化に関するさらなる研究の要点が強調された。 環境とベースラインは公開される予定だ。

Current evaluation protocols predominantly assess physical reasoning in stationary scenes, creating a gap in evaluating agents' abilities to interact with dynamic events. While contemporary methods allow agents to modify initial scene configurations and observe consequences, they lack the capability to interact with events in real time. To address this, we introduce I-PHYRE, a framework that challenges agents to simultaneously exhibit intuitive physical reasoning, multi-step planning, and in-situ intervention. Here, intuitive physical reasoning refers to a quick, approximate understanding of physics to address complex problems; multi-step denotes the need for extensive sequence planning in I-PHYRE, considering each intervention can significantly alter subsequent choices; and in-situ implies the necessity for timely object manipulation within a scene, where minor timing deviations can result in task failure. We formulate four game splits to scrutinize agents' learning and generalization of essential principles of interactive physical reasoning, fostering learning through interaction with representative scenarios. Our exploration involves three planning strategies and examines several supervised and reinforcement agents' zero-shot generalization proficiency on I-PHYRE. The outcomes highlight a notable gap between existing learning algorithms and human performance, emphasizing the imperative for more research in enhancing agents with interactive physical reasoning capabilities. The environment and baselines will be made publicly available.
翻訳日:2023-12-07 17:40:01 公開日:2023-12-04
# 負荷・太陽光発電・エネルギー価格の不確実性を考慮した地域電池スケジューリングのための深層強化学習

Deep Reinforcement Learning for Community Battery Scheduling under Uncertainties of Load, PV Generation, and Energy Prices ( http://arxiv.org/abs/2312.03008v1 )

ライセンス: Link先を確認
Jiarong Fan, Hao Wang(参考訳) 分散型エネルギー資源(ders)の普及に伴い、再生可能エネルギーの統合、ピーク負荷の削減、グリッドの信頼性向上のための有望なソリューションとしてコミュニティバッテリーが登場した。 本稿では,太陽太陽光発電(pv)生成や地域需要,リアルタイムエネルギー価格といった不確実性が存在する場合に,コミュニティバッテリーシステムをスケジュールするソフトアクタ-クリティック(sac)アルゴリズムを中心に,深層強化学習(rl)戦略を提案する。 我々は,ローカルなpvエネルギーの統合,ピーク負荷の低減,調停のためのエネルギー価格変動を利用したシステムコストの最小化など,コミュニティバッテリーを多用途に位置づける。 rlトレーニング中の探索と収束を改善するために,ノイズネットワーク技術を利用する。 本稿では,地域バッテリースケジューリング問題における有効性を評価するために,近位政策最適化 (ppo) やddpg (deep deterministic policy gradient) アルゴリズムなど,様々なrlアルゴリズムの比較研究を行う。 その結果,コミュニティのバッテリスケジューリング問題に対するrlの可能性を実証し,sacアルゴリズムがrlや最適化ベンチマークと比較して最高の性能を達成できることを示した。

In response to the growing uptake of distributed energy resources (DERs), community batteries have emerged as a promising solution to support renewable energy integration, reduce peak load, and enhance grid reliability. This paper presents a deep reinforcement learning (RL) strategy, centered around the soft actor-critic (SAC) algorithm, to schedule a community battery system in the presence of uncertainties, such as solar photovoltaic (PV) generation, local demand, and real-time energy prices. We position the community battery to play a versatile role, in integrating local PV energy, reducing peak load, and exploiting energy price fluctuations for arbitrage, thereby minimizing the system cost. To improve exploration and convergence during RL training, we utilize the noisy network technique. This paper conducts a comparative study of different RL algorithms, including proximal policy optimization (PPO) and deep deterministic policy gradient (DDPG) algorithms, to evaluate their effectiveness in the community battery scheduling problem. The results demonstrate the potential of RL in addressing community battery scheduling challenges and show that the SAC algorithm achieves the best performance compared to RL and optimization benchmarks.
翻訳日:2023-12-07 17:39:32 公開日:2023-12-04
# マルチクリトリア意思決定のためのコーンランキング

Cone Ranking for Multi-Criteria Decision Making ( http://arxiv.org/abs/2312.03006v1 )

ライセンス: Link先を確認
Andreas H Hamel and Daniel Kostner(参考訳) 近年,統計学から導入されたコーン分布関数を多基準意思決定(MCDM)ツールに変換する。 重み付き和スカラー化を事前に固定するのではなく、重み付き和スカラー化全体のコレクションを一度に吸収するため、この手順は重み付き和スカラー化のアップグレードと考えることができる。 また、異なる種類の階級逆転が発生する状況が特徴であり、なぜこれが格付け手順を分析するのに役立つのかが説明される。 いくつかの例を議論し、機械学習の潜在的な応用について概説する。

Recently introduced cone distribution functions from statistics are turned into multi-criteria decision making (MCDM) tools. It is demonstrated that this procedure can be considered as an upgrade of the weighted sum scalarization insofar as it absorbs a whole collection of weighted sum scalarizations at once instead of fixing a particular one in advance. Moreover, situations are characterized in which different types of rank reversal occur, and it is explained why this might even be useful for analyzing the ranking procedure. A few examples will be discussed and a potential application in machine learning is outlined.
翻訳日:2023-12-07 17:39:11 公開日:2023-12-04
# ロバスト特徴表現に対する対向損失を用いたFew-Shot異常検出

Few-Shot Anomaly Detection with Adversarial Loss for Robust Feature Representations ( http://arxiv.org/abs/2312.03005v1 )

ライセンス: Link先を確認
Jae Young Lee, Wonjun Lee, Jaehyun Choi, Yongkwi Lee, Young Seog Yoon(参考訳) 異常検出は、データセット内の通常のパターンや分布から逸脱したデータポイントを特定することを目的とした、重要で困難なタスクである。 1-class-one-modelアプローチを用いて様々な手法が提案されているが、これらの手法はメモリの非効率やトレーニングに十分なデータを必要とするといった実用的な問題に直面することが多い。 特に、数発の異常検出は、大量生産前に限られたサンプルが利用できる産業用途において大きな課題となる。 本稿では,よりロバストで一般化された特徴表現を得るために,逆訓練損失を統合した数発異常検出手法を提案する。 我々は,これまでドメイン適応に用いられてきた逆方向の損失を利用して,ソース領域とターゲット領域間の特徴分布を整列させ,特徴の堅牢性や一般化を向上する。 我々は、シームズネットワークの並列ブランチの同一層や、再構成方式の入出力ペアなど、類似した特徴を持つ機能に適用した場合、対向損失が有効であると仮定する。 実験結果から, 提案手法は, 対向損失を利用した場合, 性能が向上することが示された。

Anomaly detection is a critical and challenging task that aims to identify data points deviating from normal patterns and distributions within a dataset. Various methods have been proposed using a one-class-one-model approach, but these techniques often face practical problems such as memory inefficiency and the requirement of sufficient data for training. In particular, few-shot anomaly detection presents significant challenges in industrial applications, where limited samples are available before mass production. In this paper, we propose a few-shot anomaly detection method that integrates adversarial training loss to obtain more robust and generalized feature representations. We utilize the adversarial loss previously employed in domain adaptation to align feature distributions between source and target domains, to enhance feature robustness and generalization in few-shot anomaly detection tasks. We hypothesize that adversarial loss is effective when applied to features that should have similar characteristics, such as those from the same layer in a Siamese network's parallel branches or input-output pairs of reconstruction-based methods. Experimental results demonstrate that the proposed method generally achieves better performance when utilizing the adversarial loss.
翻訳日:2023-12-07 17:39:01 公開日:2023-12-04
# 時間知識グラフ推論のためのマルチグラフ構造学習

Learning Multi-graph Structure for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2312.03004v1 )

ライセンス: Link先を確認
Jinchuan Zhang, Bei Hui, Chong Mu, Ling Tian(参考訳) 時系列知識グラフ(TKG)は、タイムスタンプ上に分散した過去のスナップショットに基づいて将来の出来事を予測することを外挿と表現し、注目されている。 空間的および時間的相関の極端に多様性と変動のため、TKG推論は困難な課題を示し、同時構造と事実間の進化的相互作用の効率的な捕捉を要求する。 既存の手法はこの方向に進んでいるが、tkgの様々な形態の固有表現論的意味論を利用するには至らず、複数のタイムスタンプと時間情報の周期性にまたがるエンティティ相関を包含している。 この制限は、過去の依存関係と将来のトレンドを徹底的に反映する能力を制限する。 このような欠点に対して,本稿では,LMS(Learning Multi-graph Structure)に着目した革新的な推論手法を提案する。 具体的には、TKG内のグラフ構造知識の複数の側面に焦点を当てた3つのモジュールで構成され、タイムスタンプに沿った並行パターンと進化パターン、タイムスタンプ間のクエリ固有の相関、TKGの特徴を様々な視点から捉えたタイムスタンプの意味的依存関係を含む。 加えて、LMSはタイムスタンプを効果的に横断するエンティティ表現をマージするための適応ゲートを組み込んでいる。 さらに、タイムスタンプセマンティクスをグラフ注意計算や時間認識デコーダに統合することで、イベントに時間的制約を課し、予測範囲を歴史的な統計で狭める。 5つのイベントベースベンチマークデータセットの大規模な実験結果から、LMSは最先端の補間モデルよりも優れており、TKG推論のためのマルチグラフ視点のモデリングの優位性を示している。

Temporal Knowledge Graph (TKG) reasoning that forecasts future events based on historical snapshots distributed over timestamps is denoted as extrapolation and has gained significant attention. Owing to its extreme versatility and variation in spatial and temporal correlations, TKG reasoning presents a challenging task, demanding efficient capture of concurrent structures and evolutional interactions among facts. While existing methods have made strides in this direction, they still fall short of harnessing the diverse forms of intrinsic expressive semantics of TKGs, which encompass entity correlations across multiple timestamps and periodicity of temporal information. This limitation constrains their ability to thoroughly reflect historical dependencies and future trends. In response to these drawbacks, this paper proposes an innovative reasoning approach that focuses on Learning Multi-graph Structure (LMS). Concretely, it comprises three distinct modules concentrating on multiple aspects of graph structure knowledge within TKGs, including concurrent and evolutional patterns along timestamps, query-specific correlations across timestamps, and semantic dependencies of timestamps, which capture TKG features from various perspectives. Besides, LMS incorporates an adaptive gate for merging entity representations both along and across timestamps effectively. Moreover, it integrates timestamp semantics into graph attention calculations and time-aware decoders, in order to impose temporal constraints on events and narrow down prediction scopes with historical statistics. Extensive experimental results on five event-based benchmark datasets demonstrate that LMS outperforms state-of-the-art extrapolation models, indicating the superiority of modeling a multi-graph perspective for TKG reasoning.
翻訳日:2023-12-07 17:38:40 公開日:2023-12-04
# Explore, Select, Derive, and Recall: モバイルタスク自動化のためのヒューマンライクなメモリによるLLMの拡張

Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation ( http://arxiv.org/abs/2312.03003v1 )

ライセンス: Link先を確認
Sunjae Lee, Junyoung Choi, Jungjae Lee, Hojun Choi, Steven Y. Ko, Sangeun Oh, Insik Shin(参考訳) 大規模言語モデル(LLM)の出現により、モバイルタスク自動化の分野で新たな機会が開かれた。 その優れた言語理解と推論能力により、ユーザーは複雑で反復的なタスクを自動化できる。 しかし, LLMの信頼性が低く, 運用コストも高いため, 実用性は非常に限られている。 これらの問題に対処するために,独特なアプリメモリを備えた,革新的なLCMベースのモバイルタスクオートマトンであるMemoDroidを紹介する。 memodroidは、モバイルアプリと対話する人の認知プロセス -- 探索、選択、導出、リコール -- をエミュレートする。 このアプローチは、再使用、再配置、さまざまな目的に適応可能な、より小さくモジュール化されたコンポーネントに分割することで、タスクの手順をより正確で効率的な学習を可能にする。 我々は,オンラインLLMサービス(GPT-3.5およびGPT-4)を用いてMemoDroidを実装し,広く使用されている5つのモバイルアプリで50種類のモバイルタスクのパフォーマンスを評価する。 その結果、MemoDroidは学習したタスクを100%精度で様々な状況に適応させ、GPT-4ベースのベースラインと比較してレイテンシとコストを69.22%、77.36%削減できることがわかった。

The advent of large language models (LLMs) has opened up new opportunities in the field of mobile task automation. Their superior language understanding and reasoning capabilities allow users to automate complex and repetitive tasks. However, due to the inherent unreliability and high operational cost of LLMs, their practical applicability is quite limited. To address these issues, this paper introduces MemoDroid, an innovative LLM-based mobile task automator enhanced with a unique app memory. MemoDroid emulates the cognitive process of humans interacting with a mobile app -- explore, select, derive, and recall. This approach allows for a more precise and efficient learning of a task's procedure by breaking it down into smaller, modular components that can be re-used, re-arranged, and adapted for various objectives. We implement MemoDroid using online LLMs services (GPT-3.5 and GPT-4) and evaluate its performance on 50 unique mobile tasks across 5 widely used mobile apps. The results indicate that MemoDroid can adapt learned tasks to varying contexts with 100% accuracy and reduces their latency and cost by 69.22% and 77.36% compared to a GPT-4 powered baseline.
翻訳日:2023-12-07 17:38:08 公開日:2023-12-04
# 機械学習アルゴリズムによる低炭素・省エネルギー観光データ特性の解析とマイニング

Analysis and mining of low-carbon and energy-saving tourism data characteristics based on machine learning algorithm ( http://arxiv.org/abs/2312.03037v1 )

ライセンス: Link先を確認
Lukasz Wierzbinski(参考訳) 住民の低炭素意識の形成メカニズムを解明し、交通管理者が低炭素移動モードを選択するよう都市住民に誘導するための重要な基盤を提供するために、機械学習アルゴリズムに基づく低炭素エネルギー移動データの特徴分析とマイニングを提案する。 本稿では,データマイニング技術を用いて低炭素旅行アンケートのデータを解析し,住民の低炭素旅行意欲を特徴付ける内因変数として計画行動理論の枠組みに基づく15次元問題を検討する。 筆者は,k-meansクラスタリングアルゴリズムを用いて住民の低炭素移動意欲の強度を分類し,その結果をランダム森林モデルに説明変数として適用し,低炭素移動意欲に対する住民の社会的特性特性,旅行特性等について検討した。 実験の結果, シルエット指数とt-SNE次元の減少から, 住民の低炭素移動意欲は, 強く, 中立で, 強くない3つのカテゴリーに分けられ, 重要度に基づいて, 住民の職業, 居住地, 家族構成, 通勤時間の4つの重要な要因が示された。 結論: この手法は, 都市交通の低炭素化を多面的に検討する上での政策勧告を提供する。

In order to study the formation mechanism of residents' low-carbon awareness and provide an important basis for traffic managers to guide urban residents to choose low-carbon travel mode, this paper proposes a low-carbon energy-saving travel data feature analysis and mining based on machine learning algorithm. This paper uses data mining technology to analyze the data of low-carbon travel questionnaire, and regards the 15-dimensional problem under the framework of planned behavior theory as the internal cause variable that characterizes residents' low-carbon travel willingness. The author uses K-means clustering algorithm to classify the intensity of residents' low-carbon travel willingness, and applies the results as the explanatory variables to the random forest model to explore the mechanism of residents' social attribute characteristics, travel characteristics, etc. on their low-carbon travel willingness. The experimental results show that based on the Silhouette index test and t-SNE dimensionality reduction, residents' low-carbon travel willingness can be divided into three categories: strong, neutral, and not strong; Based on the importance index, the four most significant factors are the occupation, residence, family composition and commuting time of residents. Conclusion: This method provides policy recommendations for the development and management of urban traffic low-carbon from multiple perspectives.
翻訳日:2023-12-07 17:14:34 公開日:2023-12-04
# ソースフリーの教師なしグラフドメイン適応

Source Free Unsupervised Graph Domain Adaptation ( http://arxiv.org/abs/2112.00955v4 )

ライセンス: Link先を確認
Haitao Mao, Lun Du, Yujia Zheng, Qiang Fu, Zelin Li, Xu Chen, Shi Han, Dongmei Zhang(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類が不可欠であるグラフ構造データを用いたさまざまなタスクにおいて,大きな成功を収めている。 Unsupervised Graph Domain Adaptation (UGDA) はノード分類のラベル付けコストを削減するための実用的価値を示している。 ラベル付きグラフ(すなわち、ソースドメイン)からの知識を活用して、ラベルなしグラフ(すなわち、ターゲットドメイン)上の同じタスクに取り組む。 既存のUGDAメソッドの多くは、ソースドメインのラベル付きグラフに大きく依存している。 これらはソースドメインのラベルを監督信号として使用し、ソースグラフとターゲットグラフの両方で共同でトレーニングされる。 しかし、現実のシナリオでは、プライバシーの問題のためにソースグラフにアクセスできない場合がある。 そこで我々は,Source Free Unsupervised Graph Domain Adaptation (SFUGDA) という新しいシナリオを提案する。 このシナリオでは、ソースドメインから活用できる唯一の情報は、ソースグラフとそのラベルに触れることなく、十分に訓練されたソースモデルです。 その結果、既存のUGDAメソッドはもはや実現不可能となった。 この実践シナリオにおける非自明な適応問題に対処するために、ターゲットグラフ上の構造的近接性の一貫性を維持しつつ、ソースモデルの識別能力を完全に活用する、SOGAと呼ばれるモデル非依存アルゴリズムを提案する。 提案手法の有効性を理論的および実証的に証明する。 4つのクロスドメインタスクの実験結果は、マクロF1スコアとマクロAUCの一貫性のある改善を示している。

Graph Neural Networks (GNNs) have achieved great success on a variety of tasks with graph-structural data, among which node classification is an essential one. Unsupervised Graph Domain Adaptation (UGDA) shows its practical value of reducing the labeling cost for node classification. It leverages knowledge from a labeled graph (i.e., source domain) to tackle the same task on another unlabeled graph (i.e., target domain). Most existing UGDA methods heavily rely on the labeled graph in the source domain. They utilize labels from the source domain as the supervision signal and are jointly trained on both the source graph and the target graph. However, in some real-world scenarios, the source graph is inaccessible because of privacy issues. Therefore, we propose a novel scenario named Source Free Unsupervised Graph Domain Adaptation (SFUGDA). In this scenario, the only information we can leverage from the source domain is the well-trained source model, without any exposure to the source graph and its labels. As a result, existing UGDA methods are not feasible anymore. To address the non-trivial adaptation challenges in this practical scenario, we propose a model-agnostic algorithm called SOGA for domain adaptation to fully exploit the discriminative ability of the source model while preserving the consistency of structural proximity on the target graph. We prove the effectiveness of the proposed algorithm both theoretically and empirically. The experimental results on four cross-domain tasks show consistent improvements in the Macro-F1 score and Macro-AUC.
翻訳日:2023-12-06 20:49:13 公開日:2023-12-04
# 安定形状生成のためのグラスマン多様体流れ

Grassmann Manifold Flows for Stable Shape Generation ( http://arxiv.org/abs/2211.02900v3 )

ライセンス: Link先を確認
Ryoma Yataka and Kazuki Hirashima and Masashi Shiraishi(参考訳) 近年、機械学習の研究は、特定の多様体における対称性を帰納バイアスとして用いた手法に焦点を当てている。 グラスマン多様体は、形状空間として表される基本的な形状を扱う能力を提供し、安定な形状解析を可能にする。 本稿では,連続正規化フローを通じてグラスマン多様体上の分布を学習するための理論的基礎を定式化し,安定な形状を生成することを目的とした新しい手法を提案する。 本手法は,物体の本質的な形状情報に対応するように設計されたグラスマン多様体内での学習と生成を通じて,回転や逆変換などの外部変換の影響を効果的に排除し,より堅牢な生成を促進する。 実験の結果,提案手法はデータ構造をキャプチャすることで高品質なサンプルを生成できることがわかった。 さらに, 提案手法は, ログやエビデンスにおいて, 最先端の手法よりも有意に優れていた。 得られた結果は、この分野のさらなる研究を刺激し、安定した形状の生成と解析の進歩をもたらすことが期待されている。

Recently, studies on machine learning have focused on methods that use symmetry implicit in a specific manifold as an inductive bias. Grassmann manifolds provide the ability to handle fundamental shapes represented as shape spaces, enabling stable shape analysis. In this paper, we present a novel approach in which we establish the theoretical foundations for learning distributions on the Grassmann manifold via continuous normalization flows, with the explicit goal of generating stable shapes. Our approach facilitates more robust generation by effectively eliminating the influence of extraneous transformations, such as rotations and inversions, through learning and generating within a Grassmann manifold designed to accommodate the essential shape information of the object. The experimental results indicated that the proposed method could generate high-quality samples by capturing the data structure. Furthermore, the proposed method significantly outperformed state-of-the-art methods in terms of the log-likelihood or evidence lower bound. The results obtained are expected to stimulate further research in this field, leading to advances for stable shape generation and analysis.
翻訳日:2023-12-06 20:43:51 公開日:2023-12-04
# マニフォールド仮説の統計的探索

Statistical exploration of the Manifold Hypothesis ( http://arxiv.org/abs/2208.11665v3 )

ライセンス: Link先を確認
Nick Whiteley, Annie Gray, Patrick Rubin-Delanchy(参考訳) 多様体仮説は機械学習において広く受け入れられている理論であり、名目上高次元データは実際には高次元空間に埋め込まれた低次元多様体の近くに集中していると主張する。 この現象は多くの現実世界の状況で実証的に観察され、ここ数十年で幅広い統計手法が開発され、現代のAI技術の成功の重要な要因として示唆されている。 データのリッチかつ複雑な多様体構造は、潜在変数、相関、定常性といった基本的な概念によって、総称的かつ驚くほど単純な統計モデル(潜在計量モデル)から生じうることを示す。 このことは、なぜマニフォールド仮説がこれほど多くの状況で成り立つのかという一般的な統計的説明を確立している。 潜在計量モデルによってインフォームドされ、高次元データの幾何学を発見し解釈し、データ生成機構に関する仮説を探求する手順を導出する。 これらの手順は最小限の仮定の下で動作し、よく知られたスケール可能なグラフ解析アルゴリズムを利用する。

The Manifold Hypothesis is a widely accepted tenet of Machine Learning which asserts that nominally high-dimensional data are in fact concentrated near a low-dimensional manifold, embedded in high-dimensional space. This phenomenon is observed empirically in many real world situations, has led to development of a wide range of statistical methods in the last few decades, and has been suggested as a key factor in the success of modern AI technologies. We show that rich and sometimes intricate manifold structure in data can emerge from a generic and remarkably simple statistical model -- the Latent Metric Model -- via elementary concepts such as latent variables, correlation and stationarity. This establishes a general statistical explanation for why the Manifold Hypothesis seems to hold in so many situations. Informed by the Latent Metric Model we derive procedures to discover and interpret the geometry of high-dimensional data, and explore hypotheses about the data generating mechanism. These procedures operate under minimal assumptions and make use of well known, scaleable graph-analytic algorithms.
翻訳日:2023-12-06 20:42:23 公開日:2023-12-04
# bayesian soft actor-critic: 間接的非循環戦略グラフに基づく深層強化学習

Bayesian Soft Actor-Critic: A Directed Acyclic Strategy Graph Based Deep Reinforcement Learning ( http://arxiv.org/abs/2208.06033v2 )

ライセンス: Link先を確認
Qin Yang, Ramviyas Parasuraman(参考訳) 合理的な戦略を採用することは難しいが、システムの有用性を改善し、全体のコストを削減し、ミッション成功確率を高めるために、危険で非構造化、動的環境で働く限られたリソースを持つインテリジェントエージェントにとって不可欠である。 本稿では,ベイジアン連鎖に基づく非循環的戦略グラフ分解手法を提案し,複雑な政策をいくつかの単純なサブ政治に分割し,それらの関係をベイジアン戦略ネットワーク(BSN)として整理する。 このアプローチを最先端のdrl手法 -- soft actor-critic (sac) に統合し,複数のサブポリティシーを統合ポリシーとして整理し,対応するbayesian soft actor-critic (bsac)モデルを構築した。 我々は,OpenAI Gym環境における標準連続制御ベンチマークにおいて,最先端の深層強化学習アルゴリズムと比較した。 その結果,BSAC法の有望なポテンシャルはトレーニング効率を著しく向上させることがわかった。

Adopting reasonable strategies is challenging but crucial for an intelligent agent with limited resources working in hazardous, unstructured, and dynamic environments to improve the system's utility, decrease the overall cost, and increase mission success probability. This paper proposes a novel directed acyclic strategy graph decomposition approach based on Bayesian chaining to separate an intricate policy into several simple sub-policies and organize their relationships as Bayesian strategy networks (BSN). We integrate this approach into the state-of-the-art DRL method -- soft actor-critic (SAC), and build the corresponding Bayesian soft actor-critic (BSAC) model by organizing several sub-policies as a joint policy. We compare our method against the state-of-the-art deep reinforcement learning algorithms on the standard continuous control benchmarks in the OpenAI Gym environment. The results demonstrate that the promising potential of the BSAC method significantly improves training efficiency.
翻訳日:2023-12-06 20:41:20 公開日:2023-12-04
# 認知エージェントを用いた動的環境ストレスにおける人間の論理的推論過程のモデル化

Modelling human logical reasoning process in dynamic environmental stress with cognitive agents ( http://arxiv.org/abs/2301.06216v3 )

ライセンス: Link先を確認
Songlin Xu and Xinyu Zhang(参考訳) 人間の認知のモデリングは、変化する状況下での行動のダイナミクスに関する重要な洞察を提供する。 これにより、合成データ生成が可能となり、認知的調節のための適応的介入を導く。 環境が非常にダイナミックで、刺激と行動の関係が曖昧であるときに、課題が生じる。 本研究では,ドリフト拡散と深層強化学習を統合した認知エージェントを提案する。 21,157個の論理応答の大規模なデータセットを活用することで、動的ストレスのパフォーマンスへの影響を調査する。 この事前知識はモデルの設計と評価を知らせた。 定量的に、このフレームワークは、主観的および刺激特異的な行動差を捉えることにより認知モデルを改善する。 定性的には、ストレス下の人間の論理推論の一般的な傾向を捉えている。 我々のアプローチは、認知と行動に対する多様な環境影響を調べるために拡張可能である。 全体として、この研究は、動的文脈における人間の論理的推論プロセスの相違をシミュレートし、理解するための、強力でデータ駆動の方法論を示している。

Modelling human cognition can provide key insights into behavioral dynamics under changing conditions. This enables synthetic data generation and guides adaptive interventions for cognitive regulation. Challenges arise when environments are highly dynamic, obscuring stimulus-behavior relationships. We propose a cognitive agent integrating drift-diffusion with deep reinforcement learning to simulate granular stress effects on logical reasoning process. Leveraging a large dataset of 21,157 logical responses, we investigate performance impacts of dynamic stress. This prior knowledge informed model design and evaluation. Quantitatively, the framework improves cognition modelling by capturing both subject-specific and stimuli-specific behavioural differences. Qualitatively, it captures general trends in human logical reasoning under stress. Our approach is extensible to examining diverse environmental influences on cognition and behavior. Overall, this work demonstrates a powerful, data-driven methodology to simulate and understand the vagaries of human logical reasoning process in dynamic contexts.
翻訳日:2023-12-06 20:32:27 公開日:2023-12-04
# SPT状態と量子セルオートマトン構築のための非局所有限深度回路

Non-local finite-depth circuits for constructing SPT states and quantum cellular automata ( http://arxiv.org/abs/2212.06844v3 )

ライセンス: Link先を確認
David T. Stephen, Arpit Dua, Ali Lavasani, Rahul Nandkishore(参考訳) 与えられた対象状態が単純な積状態から始めて有限深さ量子回路で振る舞うことによって作成できるかどうかは、凝縮物物理学や量子情報科学において重要な問題である。 トポロジカルな位相の分類とトポロジカルな量子コードの理解を基礎としており、デバイス実装に明らかな関連性を持っている。 伝統的に、この問題は量子回路が幾何学的に局所的なユニタリゲートからなると仮定する。 ノイズの多い中間スケールの量子デバイスが出現したことに触発されて、我々はこの問題をk$ローカルゲート、すなわち1k$以上の自由度で作用するが幾何学的に局所的ではないゲートで再検討する。 まず、初期積状態から対称性保護位相状態(SPT)を生成する対称$k$-ローカルゲートの明示的な有限深度回路を構築する。 我々の構成は、大域対称性とサブシステム対称性によって保護されるSPT状態の両方に適用されるが、高形式対称性を持つものには適用されない。 次に、任意の次元に任意の変換不変な量子セルオートマトン(qca)を$k$局所ゲートの有限深さ回路を用いて実装する方法を示す。 これらの結果は、SPT相とQCAのトポロジカルな分類はどちらも、$k$-局所相互作用の存在下で単一の自明な位相に崩壊することを示している。 さらに、SPT相は一般的な$k$-局所対称摂動に脆弱であると主張する。 フラクトン相などの他の相への含意を議論し、今後の方向性を調査することで結論付ける。 本研究は, 位相の安定性と状態生成の可能性について, 幾何学的局所性の仮定を伴わずに検討する。

Whether a given target state can be prepared by starting with a simple product state and acting with a finite-depth quantum circuit is a key question in condensed matter physics and quantum information science. It underpins classifications of topological phases, as well as the understanding of topological quantum codes, and has obvious relevance for device implementations. Traditionally, this question assumes that the quantum circuit is made up of unitary gates that are geometrically local. Inspired by the advent of noisy intermediate-scale quantum devices, we reconsider this question with $k$-local gates, i.e. gates that act on no more than $k$ degrees of freedom, but are not restricted to be geometrically local. First, we construct explicit finite-depth circuits of symmetric $k$-local gates which create symmetry-protected topological (SPT) states from an initial a product state. Our construction applies both to SPT states protected by global symmetries and subsystem symmetries, but not to those with higher-form symmetries, which we conjecture remain nontrivial. Next, we show how to implement arbitrary translationally invariant quantum cellular automata (QCA) in any dimension using finite-depth circuits of $k$-local gates. These results imply that the topological classifications of SPT phases and QCA both collapse to a single trivial phase in the presence of $k$-local interactions. We furthermore argue that SPT phases are fragile to generic $k$-local symmetric perturbations. We conclude by discussing the implications for other phases, such as fracton phases, and surveying future directions. Our analysis opens a new experimentally motivated conceptual direction examining the stability of phases and the feasibility of state preparation without the assumption of geometric locality.
翻訳日:2023-12-06 20:30:33 公開日:2023-12-04
# ベル非局所性と文脈性シナリオ間の可逆写像

An invertible map between Bell non-local and contextuality scenarios ( http://arxiv.org/abs/2211.12550v4 )

ライセンス: Link先を確認
Victoria J Wright and M\'at\'e Farkas(参考訳) 両部構成のベルシナリオにおける相関関係と文脈性シナリオ群における振る舞いの非可逆写像を提示する。 マップは、局所的、量子的、非符号的相関を、それぞれ非文脈的、量子的、文脈的、それぞれに受け取ります。 その結果、量子的文脈的振る舞いの集合のメンバーシップ問題は決定不能であり、集合は有限次元量子系によって完全には実現できず、閉でないことがわかった。 最後に、この集合も閉包も、結果 MIP*=RE のため、計算可能なスーパー集合の列の極限ではないことを示す。

We present an invertible map between correlations in any bipartite Bell scenario and behaviours in a family of contextuality scenarios. The map takes local, quantum and non-signalling correlations to non-contextual, quantum and contextual behaviours, respectively. Consequently, we find that the membership problem of the set of quantum contextual behaviours is undecidable, the set cannot be fully realised via finite dimensional quantum systems and is not closed. Finally, we show that neither this set nor its closure is the limit of a sequence of computable supersets, due to the result MIP*=RE.
翻訳日:2023-12-06 20:28:29 公開日:2023-12-04
# fMRIにおける言語符号化モデルのスケーリング法則

Scaling laws for language encoding models in fMRI ( http://arxiv.org/abs/2305.11863v3 )

ライセンス: Link先を確認
Richard Antonello, Aditya Vaidya, and Alexander G. Huth(参考訳) トランスフォーマーに基づく一方向言語モデルからの表現は、自然言語に対する脳の反応を予測するのに有効であることが知られている。 しかし、言語モデルと脳を比較するほとんどの研究は、GPT-2または同様の大きさの言語モデルを用いている。 ここでは、OPTやLLaMAファミリーのような大規模なオープンソースモデルが、fMRIを用いて記録された脳反応を予測するのに優れているかどうかを検証した。 その結果、脳の予測性能は125Mから30Bのパラメータモデルと対数的にスケールし、約15%のエンコーディング性能が3つの被験者で設定されたホールドアウトテストと相関して測定された。 同様の対数行動は、fMRIトレーニングセットのサイズを拡大する際に観察された。 また,hubert,wavlm,whisperを用いた音響符号化モデルのスケーリングを特徴とし,モデルサイズと同等の性能改善を見出した。 これらの大規模で高性能な符号化モデルのノイズ天井解析により、前神経や高次聴覚野などの脳領域の理論的最大値に近い性能を示した。 これらの結果は、モデルとデータの両方におけるスケールの増加が、脳における言語処理の信じられないほど効果的なモデルをもたらすことを示唆している。

Representations from transformer-based unidirectional language models are known to be effective at predicting brain responses to natural language. However, most studies comparing language models to brains have used GPT-2 or similarly sized language models. Here we tested whether larger open-source models such as those from the OPT and LLaMA families are better at predicting brain responses recorded using fMRI. Mirroring scaling results from other contexts, we found that brain prediction performance scales logarithmically with model size from 125M to 30B parameter models, with ~15% increased encoding performance as measured by correlation with a held-out test set across 3 subjects. Similar logarithmic behavior was observed when scaling the size of the fMRI training set. We also characterized scaling for acoustic encoding models that use HuBERT, WavLM, and Whisper, and we found comparable improvements with model size. A noise ceiling analysis of these large, high-performance encoding models showed that performance is nearing the theoretical maximum for brain areas such as the precuneus and higher auditory cortex. These results suggest that increasing scale in both models and data will yield incredibly effective models of language processing in the brain, enabling better scientific understanding as well as applications such as decoding.
翻訳日:2023-12-06 20:22:25 公開日:2023-12-04
# 核規範正規化による領域一般化

Domain Generalization via Nuclear Norm Regularization ( http://arxiv.org/abs/2303.07527v2 )

ライセンス: Link先を確認
Zhenmei Shi, Yifei Ming, Ying Fan, Frederic Sala, Yingyu Liang(参考訳) 未認識のドメインに一般化する能力は、現実世界にデプロイされるマシンラーニングシステムにとって、特に限られたトレーニングドメインのデータしか持たない場合には、非常に重要です。 本稿では,領域一般化のための学習特徴の核ノルムに基づく,単純かつ効果的な正規化手法を提案する。 直観的には、提案する正規化器は環境特性の影響を緩和し、ドメイン不変特徴の学習を促進する。 理論的には、ermやオルタナティブ正規化法に比べて核規範正規化がなぜ効果的かという知見を提供する。 実験では,合成データと実データの両方について広範な実験を行う。 核ノルム正規化は,幅広い領域の一般化タスクにおいて,ベースラインに比べて高い性能を示す。 さらに、この正規化器はermやswadといった様々な方法で広く適用でき、ドメインベッドベンチマークでそれぞれ1.7%と0.9%のテスト精度が向上した。

The ability to generalize to unseen domains is crucial for machine learning systems deployed in the real world, especially when we only have data from limited training domains. In this paper, we propose a simple and effective regularization method based on the nuclear norm of the learned features for domain generalization. Intuitively, the proposed regularizer mitigates the impacts of environmental features and encourages learning domain-invariant features. Theoretically, we provide insights into why nuclear norm regularization is more effective compared to ERM and alternative regularization methods. Empirically, we conduct extensive experiments on both synthetic and real datasets. We show nuclear norm regularization achieves strong performance compared to baselines in a wide range of domain generalization tasks. Moreover, our regularizer is broadly applicable with various methods such as ERM and SWAD with consistently improved performance, e.g., 1.7% and 0.9% test accuracy improvements respectively on the DomainBed benchmark.
翻訳日:2023-12-06 20:17:48 公開日:2023-12-04
# リモートセンシング画像分類のための一次属性記述可能な人工知能手法の定量的解析

Quantitative Analysis of Primary Attribution Explainable Artificial Intelligence Methods for Remote Sensing Image Classification ( http://arxiv.org/abs/2306.04037v2 )

ライセンス: Link先を確認
Akshatha Mohan and Joshua Peeples(参考訳) 本稿では,遠隔センシング画像分類のための説明可能な人工知能(xai)手法を定量的に評価する包括的解析を行う。 本手法は最先端機械学習手法を活用し,複数のモードにわたるリモートセンシング画像分類を行う。 モデルの結果をxai法を用いて定性的に検討する。 また,XAI法を所望特性の様々なカテゴリで定量的に比較する。 分析を通じて、モデルの意思決定プロセスをより深く理解するために、最も適切なXAI手法を選択するための洞察と勧告を提供する。 この作業のコードは公開されている。

We present a comprehensive analysis of quantitatively evaluating explainable artificial intelligence (XAI) techniques for remote sensing image classification. Our approach leverages state-of-the-art machine learning approaches to perform remote sensing image classification across multiple modalities. We investigate the results of the models qualitatively through XAI methods. Additionally, we compare the XAI methods quantitatively through various categories of desired properties. Through our analysis, we offer insights and recommendations for selecting the most appropriate XAI method(s) to gain a deeper understanding of the models' decision-making processes. The code for this work is publicly available.
翻訳日:2023-12-06 20:10:42 公開日:2023-12-04
# 実験ガウスボソンサンプリングをシミュレートする古典的アルゴリズム

Classical algorithm for simulating experimental Gaussian boson sampling ( http://arxiv.org/abs/2306.03709v2 )

ライセンス: Link先を確認
Changhun Oh, Minzhao Liu, Yuri Alexeev, Bill Fefferman, Liang Jiang(参考訳) ガウスボソンサンプリングは実験的量子優位性を示す有望な候補である。 無ノイズガウスボソンサンプリングは古典的コンピュータで効率的にシミュレーションすることは困難であるが、現在のガウスボソンサンプリング実験は必然的に損失やその他のノイズモデルに苦しんでいる。 高い光子損失率とノイズの存在にもかかわらず、現在では最もよく知られた古典的アルゴリズムで古典的にシミュレートするのが難しいとされている。 本研究では,ガウスボソンサンプリングをシミュレートする古典的なテンソルネットワークアルゴリズムを提案する。 既存の熱状態近似アルゴリズムである損失ガウスボソンサンプリングを一般化することにより,提案アルゴリズムは,熱状態からサンプルを採取するアルゴリズムとは対照的に,アルゴリズムの実行時間が大きくなるにつれて精度が向上する。 この一般化により、これらの実験の出力状態が熱状態に近いとは考えられなくても、比較的控えめな計算資源を用いて、これまでで最大規模のガウスボソンサンプリング実験をシミュレートすることができる。 新しい古典的アルゴリズムは、量子優位性の証拠として使われるベンチマークの大規模な実験よりも優れていることを示すことによって、古典的サンプリング器が実験よりも地上構造分布をシミュレートできることを示す。

Gaussian boson sampling is a promising candidate for showing experimental quantum advantage. While there is evidence that noiseless Gaussian boson sampling is hard to efficiently simulate using a classical computer, the current Gaussian boson sampling experiments inevitably suffer from loss and other noise models. Despite a high photon loss rate and the presence of noise, they are currently claimed to be hard to classically simulate with the best-known classical algorithm. In this work, we present a classical tensor-network algorithm that simulates Gaussian boson sampling and whose complexity can be significantly reduced when the photon loss rate is high. By generalizing the existing thermal-state approximation algorithm of lossy Gaussian boson sampling, the proposed algorithm allows us to achieve increased accuracy as the running time of the algorithm scales, as opposed to the algorithm that samples from the thermal state, which can give only a fixed accuracy. This generalization enables us to simulate the largest scale Gaussian boson sampling experiment so far using relatively modest computational resources, even though the output state of these experiments is not believed to be close to a thermal state. By demonstrating that our new classical algorithm outperforms the large-scale experiments on the benchmarks used as evidence for quantum advantage, we exhibit evidence that our classical sampler can simulate the ground-truth distribution better than the experiment can, which disputes the experimental quantum advantage claims.
翻訳日:2023-12-06 20:10:17 公開日:2023-12-04
# 周波数分割多重制御による室温$^{87}$rb蒸気中のマイクロ波-光変換

Microwave-to-optical conversion in a room-temperature $^{87}$Rb vapor with frequency-division multiplexing control ( http://arxiv.org/abs/2305.19221v2 )

ライセンス: Link先を確認
Benjamin D. Smith, Bahar Babaei, Andal Narayanan, Lindsay J. LeBlanc(参考訳) コヒーレントマイクロ波-光変換は、マイクロ波領域で発生した量子情報を光周波数に転送するために重要である。 コヒーレントなマイクロ波-光変換を実現する様々な物理プラットフォームのうち、原子をトランスデューサとして使用するプラットフォームは近年急速に進歩している。 本稿では、室温$^{87}$rb原子を用いてマイクロ波信号を波長可変の大きい550(30)mhzの範囲の光周波数にマッピングするコヒーレントなマイクロ波から光への変換の実験的な実証を行う。 不均質な原子蒸気のドップラー拡大は、ドップラー幅内の任意の光周波数チャネルへの入力マイクロ波チャネルの調整性と、対応する光チャネルへのマルチチャネル入力マイクロ波フィールドの同時変換を有利にサポートする。 さらに,選択チャネルの位相相関振幅制御を実証し,チャネルの1つを完全に消滅させ,周波数領域ビームスプリッタのアナログを5桁の周波数で提供する。 周波数分割多重化機能、マルチチャネル変換、周波数チャネルの振幅制御により、中性原子系は周波数ビン量子ビットで符号化された量子情報に有効な量子プロセッサとなる。

Coherent microwave-to-optical conversion is crucial for transferring quantum information generated in the microwave domain to optical frequencies, where propagation losses can be minimised. Among the various physical platforms that have realized coherent microwave-to-optical transduction, those that use atoms as transducers have shown rapid progress in recent years. In this paper we report an experimental demonstration of coherent microwave-to-optical conversion that maps a microwave signal to a large, tunable 550(30) MHz range of optical frequencies using room-temperature $^{87}$Rb atoms. The inhomogeneous Doppler broadening of the atomic vapor advantageously supports the tunability of an input microwave channel to any optical frequency channel within the Doppler width, along with simultaneous conversion of a multi-channel input microwave field to corresponding optical channels. In addition, we demonstrate phase-correlated amplitude control of select channels, resulting in complete extinction of one of the channels, providing an analog to a frequency domain beam splitter across five orders of magnitude in frequency. With frequency-division multiplexing capability, multi-channel conversion, and amplitude control of frequency channels, neutral atomic systems may be effective quantum processors for quantum information encoded in frequency-bin qubits.
翻訳日:2023-12-06 20:08:37 公開日:2023-12-04
# U-TILISE:光衛星時系列における雲除去系列モデル

U-TILISE: A Sequence-to-sequence Model for Cloud Removal in Optical Satellite Time Series ( http://arxiv.org/abs/2305.13277v3 )

ライセンス: Link先を確認
Corinne Stucker, Vivien Sainte Fare Garnot, Konrad Schindler(参考訳) 光学スペクトルと赤外線スペクトルの衛星画像時系列は、雲のカバー、雲の影、一時的なセンサーの停止などにより、頻繁なデータギャップに苦しむ。 リモートセンシング研究の長年の課題であり、欠落したピクセル値を最もよく再構成し、完全な雲のない画像シーケンスを得る方法である。 表現学習の観点からこの問題にアプローチし,スペクトル強度の時空間的パターンを暗黙的に捉えることができ,クラウドマストされた入力シーケンスをクラウドフリーな出力シーケンスにマップするように訓練できる効率的な神経モデル u-tilise を開発した。 このモデルは、入力シーケンスの各フレームを潜在エンコーディングにマッピングする畳み込み空間エンコーダと、これらのフレーム単位のエンコード間の依存関係をキャプチャし、時間次元に沿って情報を交換するアテンションベースの時間エンコーダと、潜在埋め込みをマルチスペクトル画像に復号する畳み込み空間デコーダからなる。 本研究では,ヨーロッパ全域で取得したセンチネル-2時系列のデータセットである earthnet2021 について,提案モデルの有効性を実験的に評価した。 通常の補間ベースラインと比較して、PSNRは以前見られた場所で1.8dB、見えない場所では1.3dB増加する。

Satellite image time series in the optical and infrared spectrum suffer from frequent data gaps due to cloud cover, cloud shadows, and temporary sensor outages. It has been a long-standing problem of remote sensing research how to best reconstruct the missing pixel values and obtain complete, cloud-free image sequences. We approach that problem from the perspective of representation learning and develop U-TILISE, an efficient neural model that is able to implicitly capture spatio-temporal patterns of the spectral intensities, and that can therefore be trained to map a cloud-masked input sequence to a cloud-free output sequence. The model consists of a convolutional spatial encoder that maps each individual frame of the input sequence to a latent encoding; an attention-based temporal encoder that captures dependencies between those per-frame encodings and lets them exchange information along the time dimension; and a convolutional spatial decoder that decodes the latent embeddings back into multi-spectral images. We experimentally evaluate the proposed model on EarthNet2021, a dataset of Sentinel-2 time series acquired all over Europe, and demonstrate its superior ability to reconstruct the missing pixels. Compared to a standard interpolation baseline, it increases the PSNR by 1.8 dB at previously seen locations and by 1.3 dB at unseen locations.
翻訳日:2023-12-06 20:05:34 公開日:2023-12-04
# 新しい関係型とノードを用いたリンク予測のためのマルチタスク視点

A Multi-Task Perspective for Link Prediction with New Relation Types and Nodes ( http://arxiv.org/abs/2307.06046v2 )

ライセンス: Link先を確認
Jincheng Zhou, Beatrice Bevilacqua, Bruno Ribeiro(参考訳) 多重グラフの帰納的リンク予測のタスクは、新しいテストマルチグラフにおけるノード間の帰納的リンク(関係)の欠如を推論する。 従来のリレーショナル学習手法は、訓練で見られない新しいノードと新しい関係型の両方を含む多重グラフをテストするための限定的な一般化の課題に直面している。 近年、全ての関係型が同じ構造的予測パターン(単一タスク)を共有しているという前提の下で、Gaoら (2023) はグラフニューラルネットワーク(GNN)の設計に使用される(単一)同値(ノードと関係型)とは対照的に、二重同値(ノードと関係型)の理論的概念を用いたリンク予測手法を提案した。 そこでは、異なる関係型(複数のタスク)のセットに対して、識別され、潜在的に矛盾する予測パターンを持つ、帰結された多重グラフにおけるリンク予測を定義する。 実世界のデータセットに対する実験結果から,新たな情報にアクセスせずにマルチタスク構造を持つグラフを効果的に一般化できることを示す。

The task of inductive link prediction in (discrete) attributed multigraphs infers missing attributed links (relations) between nodes in new test multigraphs. Traditional relational learning methods face the challenge of limited generalization to test multigraphs containing both novel nodes and novel relation types not seen in training. Recently, under the only assumption that all relation types share the same structural predictive patterns (single task), Gao et al. (2023) proposed a link prediction method using the theoretical concept of double equivariance (equivariance for nodes & relation types), in contrast to the (single) equivariance (only for nodes) used to design Graph Neural Networks (GNNs). In this work we further extend the double equivariance concept to multi-task double equivariance, where we define link prediction in attributed multigraphs that can have distinct and potentially conflicting predictive patterns for different sets of relation types (multiple tasks). Our empirical results on real-world datasets demonstrate that our approach can effectively generalize to test graphs with multi-task structures without access to additional information.
翻訳日:2023-12-06 19:59:22 公開日:2023-12-04
# Statler: 身体的推論のための状態維持型言語モデル

Statler: State-Maintaining Language Models for Embodied Reasoning ( http://arxiv.org/abs/2306.17840v3 )

ライセンス: Link先を確認
Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter(参考訳) 知的ロボットを複雑な推論で強化するために、大きな言語モデルを使うことに大きな研究関心が寄せられている。 既存の研究は、彼らの行動と観察の歴史を解明するために彼らの能力を活用することに焦点を当てている。 本稿では,ロボット工学の計画において,大規模言語モデルが有用となる新しい次元について検討する。 特に,大規模な言語モデルに対して,しばしば観測不可能な世界状態の推定を指示し,その遷移を新たな行動として追跡するフレームワークであるStatlerを提案する。 次に、我々のフレームワークは、現在の世界状態の推定に対して各アクションを規定する。 概念的には単純であるにもかかわらず、我々のStatlerフレームワークはいくつかのロボット計画タスクにおいて強力な競合する手法(Code-as-Policiesなど)を著しく上回っている。 さらに、より困難な長期計画タスクにスケールアップする潜在的なメリットもある。 コードをhttps://github.com/ripl/statlerでリリースします。

There has been a significant research interest in employing large language models to empower intelligent robots with complex reasoning. Existing work focuses on harnessing their abilities to reason about the histories of their actions and observations. In this paper, we explore a new dimension in which large language models may benefit robotics planning. In particular, we propose Statler, a framework in which large language models are prompted to maintain an estimate of the world state, which are often unobservable, and track its transition as new actions are taken. Our framework then conditions each action on the estimate of the current world state. Despite being conceptually simple, our Statler framework significantly outperforms strong competing methods (e.g., Code-as-Policies) on several robot planning tasks. Additionally, it has the potential advantage of scaling up to more challenging long-horizon planning tasks. We release our code at https://github.com/ripl/statler
翻訳日:2023-12-06 19:57:23 公開日:2023-12-04
# 言語モデルを用いた言語モデルにおける社会的推論の理解

Understanding Social Reasoning in Language Models with Language Models ( http://arxiv.org/abs/2306.15448v2 )

ライセンス: Link先を確認
Kanishk Gandhi, Jan-Philipp Fr\"anken, Tobias Gerstenberg, Noah D. Goodman(参考訳) 大きな言語モデル(LLM)が私たちの日常生活にますます統合されるにつれて、人間の精神状態を理解する能力を理解することが、効果的な相互作用の確保に不可欠になる。 しかし、最近のLSMの理論的推論能力の評価の試みにもかかわらず、これらのモデルが人間のToMと整合できる程度は、いまだに調査の対象となっている。 これは,(1)先行評価の矛盾した結果の存在,(2)既存の評価手法の有効性に関する懸念,の2つの異なる課題が主な原因である。 これらの課題に対処するため,我々は,因果テンプレートを投入することで,llmによる評価を手続き的に生成する新しいフレームワークを提案する。 このフレームワークを用いて、25の制御と5000のモデル記述評価からなるLLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成する。 人間の参加者は、以前のクラウドソースによる評価よりもベンチマークの品質を高く評価し、専門家による評価と同等であることが分かりました。 BigToM を用いて,様々な LLM の社会的推論能力を評価し,モデル性能と人的性能を比較した。 以上の結果から,GPT4には人間の推論パターンを反映するToM機能があるが,信頼性は低い。

As Large Language Models (LLMs) become increasingly integrated into our everyday lives, understanding their ability to comprehend human mental states becomes critical for ensuring effective interactions. However, despite the recent attempts to assess the Theory-of-Mind (ToM) reasoning capabilities of LLMs, the degree to which these models can align with human ToM remains a nuanced topic of exploration. This is primarily due to two distinct challenges: (1) the presence of inconsistent results from previous evaluations, and (2) concerns surrounding the validity of existing evaluation methodologies. To address these challenges, we present a novel framework for procedurally generating evaluations with LLMs by populating causal templates. Using our framework, we create a new social reasoning benchmark (BigToM) for LLMs which consists of 25 controls and 5,000 model-written evaluations. We find that human participants rate the quality of our benchmark higher than previous crowd-sourced evaluations and comparable to expert-written evaluations. Using BigToM, we evaluate the social reasoning capabilities of a variety of LLMs and compare model performances with human performance. Our results suggest that GPT4 has ToM capabilities that mirror human inference patterns, though less reliable, while other LLMs struggle.
翻訳日:2023-12-06 19:56:01 公開日:2023-12-04
# fedstellar: 分散連合学習のためのプラットフォーム

Fedstellar: A Platform for Decentralized Federated Learning ( http://arxiv.org/abs/2306.09750v3 )

ライセンス: Link先を確認
Enrique Tom\'as Mart\'inez Beltr\'an and \'Angel Luis Perales G\'omez and Chao Feng and Pedro Miguel S\'anchez S\'anchez and Sergio L\'opez Bernal and G\'er\^ome Bovet and Manuel Gil P\'erez and Gregorio Mart\'inez P\'erez and Alberto Huertas Celdr\'an(参考訳) 2016年、Googleはフェデレート・ラーニング(FL)を、データプライバシを保持しながらフェデレーションの参加者間で機械学習(ML)モデルをトレーニングするための新しいパラダイムとして提案した。 誕生以来、集中型fl (cfl) は最もよく用いられるアプローチであり、中央のエンティティが参加者のモデルを集約してグローバルに構築する。 しかし、CFLは通信ボトルネック、単一障害点、中央サーバへの依存といった制限を提示している。 分散連合学習(dfl)は、分散モデル集約を可能にし、中央のエンティティへの依存性を最小限にすることで、これらの問題を解決する。 これらの進歩にもかかわらず、dflモデルをトレーニングする現在のプラットフォームは、ヘテロジニアスフェデレーションネットワークトポロジの管理のような重要な問題に苦しむ。 このような課題を克服するため,本稿では,分散化,半分散化,集中型のflモデルを,物理デバイスや仮想化デバイスのさまざまなフェデレーションでトレーニングするための,新たなプラットフォームであるfeedstellarを提案する。 Fedstellarの実装には、インタラクティブなグラフィカルインターフェースを備えたWebアプリケーション、物理または仮想デバイスを使用してノードのフェデレーションをデプロイするコントローラ、ネットワーク内のトレーニング、集約、通信に必要なロジックを提供する各デバイスにデプロイされるコアが含まれている。 プラットフォームの有効性は、サイバー攻撃を検出するraspberry piのようなシングルボードデバイスを含む物理的デプロイメントと、mnistとcifar-10データセットを使用して制御された環境での様々なflアプローチを比較する仮想化デプロイメントの2つのシナリオで実証されている。 どちらのシナリオでもフェデラーは一貫した性能と適応性を示し、91%、98%、91.2%のdflでサイバー攻撃の検出とmnistとcifar-10の分類を行い、集中型アプローチと比較してトレーニング時間を32%削減した。

In 2016, Google proposed Federated Learning (FL) as a novel paradigm to train Machine Learning (ML) models across the participants of a federation while preserving data privacy. Since its birth, Centralized FL (CFL) has been the most used approach, where a central entity aggregates participants' models to create a global one. However, CFL presents limitations such as communication bottlenecks, single point of failure, and reliance on a central server. Decentralized Federated Learning (DFL) addresses these issues by enabling decentralized model aggregation and minimizing dependency on a central entity. Despite these advances, current platforms training DFL models struggle with key issues such as managing heterogeneous federation network topologies. To overcome these challenges, this paper presents Fedstellar, a novel platform designed to train FL models in a decentralized, semi-decentralized, and centralized fashion across diverse federations of physical or virtualized devices. The Fedstellar implementation encompasses a web application with an interactive graphical interface, a controller for deploying federations of nodes using physical or virtual devices, and a core deployed on each device which provides the logic needed to train, aggregate, and communicate in the network. The effectiveness of the platform has been demonstrated in two scenarios: a physical deployment involving single-board devices such as Raspberry Pis for detecting cyberattacks, and a virtualized deployment comparing various FL approaches in a controlled environment using MNIST and CIFAR-10 datasets. In both scenarios, Fedstellar demonstrated consistent performance and adaptability, achieving F1 scores of 91%, 98%, and 91.2% using DFL for detecting cyberattacks and classifying MNIST and CIFAR-10, respectively, reducing training time by 32% compared to centralized approaches.
翻訳日:2023-12-06 19:54:39 公開日:2023-12-04
# ウィグナーの友人ジレンマを超えて:新しい不決定性に基づく量子理論

Beyond the Wigner's friend dilemma: A new indeterminacy-based quantum theory ( http://arxiv.org/abs/2310.04002v2 )

ライセンス: Link先を確認
Francisco Pipa(参考訳) 本稿では,環境決定性に基づく,あるいはEnD量子理論(EnDQT)と呼ぶ新しい量子理論を提案する。 量子論のよく知られた解釈とは対照的に、EnDQTは方程式を変更したり、隠れた変数を追加したりせず、相対性理論と緊張せず、視点や世界によって異なる測定結果を持たないベル型相関の局所因果的説明を提供する。 崩壊理論とは異なり、原理的には任意の系を任意の時間だけ重ね合わせに配置することができ、量子論の方程式の修正は不要である。 さらに、量子論の他の解釈と区別できるような、一連の新しい経験的ポジットを提供する。 EnDQTによると、一部のシステムはある時点で決定値を取得し、相互作用によって決定値をもたらす能力は、局所的な相互作用を介して時空の他のシステムに伝播する。 このプロセスは特定のネットワークで表現できる。 これらのネットワークに属する他のシステム、例えば拡張されたウィグナーの友人シナリオにおける友人の隔離された実験室の内部から隔離された場合、非相対的に不確定な値が内部に生じる。

I propose a novel (interpretation of) quantum theory, which I will call Environmental Determinacy-based or EnD Quantum Theory (EnDQT). In contrast to the well-known interpretations of quantum theory, EnDQT doesn't modify its equations or add hidden variables, is not in tension with relativity, and provides a local causal explanation of Bell-type correlations without measurement outcomes varying according to perspectives or worlds. Unlike collapse theories, in principle, arbitrary systems can be placed in a superposition for an arbitrary amount of time, and no modifications of the equations of quantum theory are required. Furthermore, it provides a series of novel empirical posits that may distinguish it from other interpretations of quantum theory. According to EnDQT, some systems acquire determinate values at some point, and the capacity to give rise to determinate values through interactions propagates to other systems in spacetime via local interactions. This process can be represented via certain networks. When there is isolation from the rest of the systems that belong to these networks, such as inside the friend's isolated lab in the extended Wigner's friend scenarios, indeterminate values non-relationally arise inside.
翻訳日:2023-12-06 19:36:48 公開日:2023-12-04
# 化学動力学特性の一般予測に向けて

Towards out-of-distribution generalizable predictions of chemical kinetics properties ( http://arxiv.org/abs/2310.03152v2 )

ライセンス: Link先を確認
Zihao Wang, Yongqiang Chen, Yang Duan, Weijiang Li, Bo Han, James Cheng, Hanghang Tong(参考訳) 機械学習(ML)技術は化学運動特性の推定に応用されている。 AI4drug discovery」によって同定された薬物分子の蓄積により、次に必須となるのは、高出力化学合成プロセスのためのAI駆動設計であり、未知の分子と未知の反応の性質を推定する。 この目的のために、運動学特性予測のための既存のMLアプローチは、out-Of-Distribution (OOD) の一般化が要求される。 本稿では,OODの運動特性予測を3つのレベル(構造,条件,機構)に分類し,その特異な側面を明らかにする。 本フレームワークでは,1)OOD設定における反応予測のための最先端MLアプローチと,2)動作特性予測問題における最先端グラフOOD手法をベンチマークするために,包括的なデータセットを作成する。 その結果,OOD特性予測の課題と可能性を示した。 私たちのデータセットとベンチマークは、この方向の研究をさらに支援できます。

Machine Learning (ML) techniques have found applications in estimating chemical kinetic properties. With the accumulated drug molecules identified through "AI4drug discovery", the next imperative lies in AI-driven design for high-throughput chemical synthesis processes, with the estimation of properties of unseen reactions with unexplored molecules. To this end, the existing ML approaches for kinetics property prediction are required to be Out-Of-Distribution (OOD) generalizable. In this paper, we categorize the OOD kinetic property prediction into three levels (structure, condition, and mechanism), revealing unique aspects of such problems. Under this framework, we create comprehensive datasets to benchmark (1) the state-of-the-art ML approaches for reaction prediction in the OOD setting and (2) the state-of-the-art graph OOD methods in kinetics property prediction problems. Our results demonstrated the challenges and opportunities in OOD kinetics property prediction. Our datasets and benchmarks can further support research in this direction.
翻訳日:2023-12-06 19:36:26 公開日:2023-12-04
# ウイルス重症度予測におけるベイズリッジ回帰aiモデルの適用

Applying Bayesian Ridge Regression AI Modeling in Virus Severity Prediction ( http://arxiv.org/abs/2310.09485v3 )

ライセンス: Link先を確認
Jai Pal, Bryan Hong(参考訳) 人工知能(AI)は医療システムを再構築するための強力なツールである。 医療分野では、AIは膨大な量のデータを管理する能力があるため、より正確で迅速な診断につながる可能性があるため、最終的には医療専門家の労働負担を軽減できる。 その結果、AIは様々な産業にまたがる強力なツールであることが証明され、複雑なタスクやパターン認識を単純化し、人間や従来のコンピュータアルゴリズムでは圧倒的なものになった。 本稿では,世界中の医療従事者を対象に,最先端ウイルス分析に使用できるAIモデルであるBayesian Ridge Regressionの長所と短所を概説する。 モデルの精度評価の結果は有望な結果を示し、改善の余地は主にデータ組織に関するものだった。 さらに、重症度指数は、患者ケアのニーズを広範囲に概観するための貴重なツールであり、医療専門家の幅広い分類に対する好みと一致している。

Artificial intelligence (AI) is a powerful tool for reshaping healthcare systems. In healthcare, AI is invaluable for its capacity to manage vast amounts of data, which can lead to more accurate and speedy diagnoses, ultimately easing the workload on healthcare professionals. As a result, AI has proven itself to be a power tool across various industries, simplifying complex tasks and pattern recognition that would otherwise be overwhelming for humans or traditional computer algorithms. In this paper, we review the strengths and weaknesses of Bayesian Ridge Regression, an AI model that can be used to bring cutting edge virus analysis to healthcare professionals around the world. The model's accuracy assessment revealed promising results, with room for improvement primarily related to data organization. In addition, the severity index serves as a valuable tool to gain a broad overview of patient care needs, aligning with healthcare professionals' preference for broader categorizations.
翻訳日:2023-12-06 19:21:26 公開日:2023-12-04
# 戦争:ai生成コンテンツのウォーターマーク保護を破る

Warfare:Breaking the Watermark Protection of AI-Generated Content ( http://arxiv.org/abs/2310.07726v2 )

ライセンス: Link先を確認
Guanlin Li, Yifei Chen, Jie Zhang, Jiwei Li, Shangwei Guo, Tianwei Zhang(参考訳) AI-Generated Content(AIGC)は、多くの新興の商用サービスやアプリケーションで大きな人気を集めている。 これらのサービスは、潜在拡散モデルや大規模言語モデルのような高度な生成モデルを活用して、ユーザのための創造的コンテンツ(例えば、現実的な画像や流動的な文)を生成する。 サービス提供者は、利用者が使用ポリシーに違反しないことを保証する必要がある(例えば、商業化の悪用、安全でないコンテンツの生成と配布)。 この目標を達成するための有望な解決策は透かしであり、サービス検証と属性のコンテンツにユニークで受け入れがたい透かしを追加する。 近年,多くの透かし手法が提案されている。 しかし,本稿では,敵が容易にこれらの透かし機構を破ることができることを示す。 具体的には2つの攻撃の可能性を考える。 1) 透かし除去: 敵は、生成されたコンテンツから埋め込まれた透かしを容易に消去し、サービス提供者の規制を回避して使用することができる。 2) ウォーターマーク鍛造(watermark forging): 敵が別のユーザから偽造ウォーターマークで違法なコンテンツを作成できるため、サービス提供者が間違った帰属を行う。 我々は、両攻撃を総合的に達成するための統一的な手法である戦争を提案する。 鍵となる考え方は、コンテンツ処理のための事前学習拡散モデルと、透かし除去や鍛造のための生成逆ネットワークを活用することである。 Warfareをさまざまなデータセットと埋め込み設定で評価します。 その結果,生成コンテンツの品質を維持しつつ,高い成功率を達成できることがわかった。 既存の拡散モデルに基づく攻撃と比較して、戦闘は5,050~11,000倍高速である。

AI-Generated Content (AIGC) is gaining great popularity, with many emerging commercial services and applications. These services leverage advanced generative models, such as latent diffusion models and large language models, to generate creative content (e.g., realistic images and fluent sentences) for users. The usage of such generated content needs to be highly regulated, as the service providers need to ensure the users do not violate the usage policies (e.g., abuse for commercialization, generating and distributing unsafe content). A promising solution to achieve this goal is watermarking, which adds unique and imperceptible watermarks on the content for service verification and attribution. Numerous watermarking approaches have been proposed recently. However, in this paper, we show that an adversary can easily break these watermarking mechanisms. Specifically, we consider two possible attacks. (1) Watermark removal: the adversary can easily erase the embedded watermark from the generated content and then use it freely bypassing the regulation of the service provider. (2) Watermark forging: the adversary can create illegal content with forged watermarks from another user, causing the service provider to make wrong attributions. We propose Warfare, a unified methodology to achieve both attacks in a holistic way. The key idea is to leverage a pre-trained diffusion model for content processing and a generative adversarial network for watermark removal or forging. We evaluate Warfare on different datasets and embedding setups. The results prove that it can achieve high success rates while maintaining the quality of the generated content. Compared to existing diffusion model-based attacks, Warfare is 5,050~11,000x faster.
翻訳日:2023-12-06 19:20:51 公開日:2023-12-04
# seerへの洞察

Insight Into SEER ( http://arxiv.org/abs/2311.01164v2 )

ライセンス: Link先を確認
Kasra Lekan, Nicki Choquette(参考訳) 開発者生成のオラクルは時間を要するためコストがかかるが、リグレッションや例外の形で自動oracle生成するオラクルは、基盤となるコードが正しいと仮定する。 高いオーラクルテストコストを軽減するため、SEERツールはアサーションステートメントを必要とせずにテスト結果を予測するために開発された。 SEERの作成者は、全体的な精度が93%、精度が86%、リコールが94%、F1スコアが90%のツールを導入した。 これらの結果が摂動を伴う新しいデータ、すなわちSEERが一般化可能で堅牢であれば、このモデルは自動テストの分野で大きな進歩を示すだろう。 その結果,SEERの総合的な再生を行い,新たなデータセットを用いてモデルの結果の検証を試みた。

Developing test oracles can be inefficient: developer generative oracles are time-intensive and thus costly while automatic oracle generation in the form of regression or exception oracles assumes that the underlying code is correct. To mitigate the high cost of testing oracles, the SEER tool was developed to predict test outcomes without needing assertion statements. The creators of SEER introduced the tool with an overall accuracy of 93%, precision of 86%, recall of 94%, and an F1 score of 90%. If these results are replicable on new data with perturbations, i.e. SEER is generalizable and robust, the model would represent a significant advancement in the field of automated testing. Consequently, we conducted a comprehensive reproduction of SEER and attempted to verify the model's results on a new dataset.
翻訳日:2023-12-06 19:11:04 公開日:2023-12-04
# 重み付き雑音下での非線形確率勾配の高確率収束境界

High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise ( http://arxiv.org/abs/2310.18784v3 )

ライセンス: Link先を確認
Aleksandar Armacki, Pranay Sharma, Gauri Joshi, Dragana Bajovic, Dusan Jakovetic, Soummya Kar(参考訳) 最近のいくつかの研究は、確率勾配降下 (sgd) の収束 \textit{in high probability} とそのクリップ付き変種を研究している。 バニラSGDと比較して、切断されたSGDは事実上安定しており、失敗確率に対する対数依存のさらなる理論的利点がある。 しかし、SGDの他の実用的な非線形変種、例えば符号 SGD、量子化 SGD および正規化 SGD の収束は、通信効率の向上や加速収束の達成をはるかに少なくする。 本研究では、非線形SGD法の幅広いクラスにおける収束境界 \textit{in high probability} について検討する。 リプシッツ連続勾配を持つ強凸損失関数に対して, 雑音が重み付きであっても, 故障確率に対する対数依存性が証明される。 クリッピングされたSGDの結果よりも厳密に一般的な結果として, クリッピング, 正規化, 量子化など, 有界(成分方向, 関節)の出力を持つ非線形性を示す。 さらに、重み付きノイズによる既存の結果は、$\eta$-th central moments, with $\eta \in (1,2]$である。 対照的に、洗練された分析は$\eta=1$でも機能し、文学におけるノイズモーメントの仮定を厳密に緩和する。

Several recent works have studied the convergence \textit{in high probability} of stochastic gradient descent (SGD) and its clipped variant. Compared to vanilla SGD, clipped SGD is practically more stable and has the additional theoretical benefit of logarithmic dependence on the failure probability. However, the convergence of other practical nonlinear variants of SGD, e.g., sign SGD, quantized SGD and normalized SGD, that achieve improved communication efficiency or accelerated convergence is much less understood. In this work, we study the convergence bounds \textit{in high probability} of a broad class of nonlinear SGD methods. For strongly convex loss functions with Lipschitz continuous gradients, we prove a logarithmic dependence on the failure probability, even when the noise is heavy-tailed. Strictly more general than the results for clipped SGD, our results hold for any nonlinearity with bounded (component-wise or joint) outputs, such as clipping, normalization, and quantization. Further, existing results with heavy-tailed noise assume bounded $\eta$-th central moments, with $\eta \in (1,2]$. In contrast, our refined analysis works even for $\eta=1$, strictly relaxing the noise moment assumptions in the literature.
翻訳日:2023-12-06 19:09:22 公開日:2023-12-04
# 事実を教えてくれ! 事前学習型言語モデルにおけるFactual Knowledge Probingの検討

Give Me the Facts! A Survey on Factual Knowledge Probing in Pre-trained Language Models ( http://arxiv.org/abs/2310.16570v2 )

ライセンス: Link先を確認
Paul Youssef, Osman Alperen Kora\c{s}, Meijie Li, J\"org Schl\"otterer, Christin Seifert(参考訳) 事前訓練された言語モデル(PLM)は、世界知識に富んだ膨大なラベルのないデータに基づいて訓練されている。 この事実は、下流のタスクにおけるパフォーマンスを説明し、知識ベースとしての使用を正当化するため、PLMに存在する事実知識の量を定量化するコミュニティの関心を喚起した。 本研究では,事実知識のためのplmを探索する手法とデータセットを調査した。 本研究は,(1) 事実探索手法の分類手法を提案し,その入力,出力,探索されたPLMの適応方法,(2) 事実探索に使用されるデータセットの概要,(3) 知識保持とPLMの迅速な最適化に関する知見を整理し, PLMを知識ベースとして採用するための障害を分析し,今後の作業の方向性を概説する。

Pre-trained Language Models (PLMs) are trained on vast unlabeled data, rich in world knowledge. This fact has sparked the interest of the community in quantifying the amount of factual knowledge present in PLMs, as this explains their performance on downstream tasks, and potentially justifies their use as knowledge bases. In this work, we survey methods and datasets that are used to probe PLMs for factual knowledge. Our contributions are: (1) We propose a categorization scheme for factual probing methods that is based on how their inputs, outputs and the probed PLMs are adapted; (2) We provide an overview of the datasets used for factual probing; (3) We synthesize insights about knowledge retention and prompt optimization in PLMs, analyze obstacles to adopting PLMs as knowledge bases and outline directions for future work.
翻訳日:2023-12-06 19:07:56 公開日:2023-12-04
# AnimateAnything:モーションガイド付き細粒度オープンドメイン画像アニメーション

AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance ( http://arxiv.org/abs/2311.12886v2 )

ライセンス: Link先を確認
Zuozhuo Dai and Zhenghao Zhang and Yao Yao and Bingxue Qiu and Siyu Zhu and Long Qin and Weizhi Wang(参考訳) 画像アニメーションは、静的画像から動的視覚コンテンツを生成することを目的としたコンピュータビジョンの重要なタスクである。 最近の画像アニメーション手法では、ニューラルネットワークによるレンダリング技術を用いてリアルなアニメーションを生成する。 これらの進歩にもかかわらず、細粒度で制御可能な画像アニメーションをテキストで導くことは、特に様々な実環境で撮影されたオープンドメイン画像にとって、依然として困難である。 本稿では,映像拡散モデルに先行する動きを利用したオープン領域画像アニメーション手法を提案する。 本手法では,移動領域と移動速度を正確に制御できる目標運動領域誘導と運動強度誘導を導入する。 これにより、アニメーションの視覚要素とプロンプトテキストとのアライメントが向上し、複雑なモーションシーケンスのための微粒でインタラクティブなアニメーション生成プロセスが容易になる。 提案手法の有効性を,オープンドメインデータセットを用いた厳密な実験により検証し,その優れた性能を示す。 プロジェクトページはhttps://animationai.github.io/animateanythingにある。

Image animation is a key task in computer vision which aims to generate dynamic visual content from static image. Recent image animation methods employ neural based rendering technique to generate realistic animations. Despite these advancements, achieving fine-grained and controllable image animation guided by text remains challenging, particularly for open-domain images captured in diverse real environments. In this paper, we introduce an open domain image animation method that leverages the motion prior of video diffusion model. Our approach introduces targeted motion area guidance and motion strength guidance, enabling precise control the movable area and its motion speed. This results in enhanced alignment between the animated visual elements and the prompting text, thereby facilitating a fine-grained and interactive animation generation process for intricate motion sequences. We validate the effectiveness of our method through rigorous experiments on an open-domain dataset, with the results showcasing its superior performance. Project page can be found at https://animationai.github.io/AnimateAnything.
翻訳日:2023-12-06 19:00:51 公開日:2023-12-04
# ChatGPTとポストテスト確率

ChatGPT and post-test probability ( http://arxiv.org/abs/2311.12188v3 )

ライセンス: Link先を確認
Samuel J. Weisenthal(参考訳) ChatGPTのような強化学習に基づく大規模言語モデルは、医療を含む多くの分野の人間専門家を支援する可能性があると考えられている。 しかし、chatgptの医療における重要なタスクを実行する能力には、形式的で確率的な医療診断推論という、ほとんど作業がない。 このタイプの推論は、例えば、テスト前確率をテスト後確率に更新するために使用される。 本研究では,ChatGPTのタスク実行能力について検討する。 特に、私たちはchatgptに医療診断にベイズルールを使う方法の例を示してもらいます。 私たちのプロンプトは、純粋確率(例えば、"posterior probability"の要求)から、医学診断文献から用語を使用するクエリ(例えば、"post-test probability"の要求)まで幅広い。 医療変数名の導入は、chatgptが犯すエラー数の増加にどのようにつながるかを示す。 また,この結果から,ChatGPTがエラーを部分的に回避する上で,プロンプトエンジニアリングをどのように利用できるかを示す。 我々は,最近の感度と特異性に関するコメンテータに照らして,その結果について考察する。 また,大規模言語モデルに対する新たな研究の方向性について述べる。

Reinforcement learning-based large language models, such as ChatGPT, are believed to have potential to aid human experts in many domains, including healthcare. There is, however, little work on ChatGPT's ability to perform a key task in healthcare: formal, probabilistic medical diagnostic reasoning. This type of reasoning is used, for example, to update a pre-test probability to a post-test probability. In this work, we probe ChatGPT's ability to perform this task. In particular, we ask ChatGPT to give examples of how to use Bayes rule for medical diagnosis. Our prompts range from queries that use terminology from pure probability (e.g., requests for a "posterior probability") to queries that use terminology from the medical diagnosis literature (e.g., requests for a "post-test probability"). We show how the introduction of medical variable names leads to an increase in the number of errors that ChatGPT makes. Given our results, we also show how one can use prompt engineering to facilitate ChatGPT's partial avoidance of these errors. We discuss our results in light of recent commentaries on sensitivity and specificity. We also discuss how our results might inform new research directions for large language models.
翻訳日:2023-12-06 19:00:13 公開日:2023-12-04
# 大規模基礎モデルの自律運転への適用

Applications of Large Scale Foundation Models for Autonomous Driving ( http://arxiv.org/abs/2311.12144v6 )

ライセンス: Link先を確認
Yu Huang, Yue Chen, Zhu Li(参考訳) 2004/05年のDARPA Grand Challenges、2007年のUrban Challenges以来、自動運転はAIアプリケーションの最も活発な分野となっている。 近年,大規模言語モデル (LLM) を基盤として,チャットGPT や PaLM などのチャットシステムが出現し,自然言語処理 (NLP) において人工知能 (AGI) を実現するための有望な方向となった。 自動運転の改革にこれらの能力を使うことは自然な考えだ。 llmを基礎モデルと組み合わせることで、人間の知識、常識、推論を利用して、現在のロングテールのaiジレンマから自動運転システムを再構築することができる。 本稿では、シミュレーション、世界モデル、データアノテーションと計画、E2Eソリューションなどに分類される、自動運転に応用された基礎モデルとLLMの技術について検討する。

Since DARPA Grand Challenges (rural) in 2004/05 and Urban Challenges in 2007, autonomous driving has been the most active field of AI applications. Recently powered by large language models (LLMs), chat systems, such as chatGPT and PaLM, emerge and rapidly become a promising direction to achieve artificial general intelligence (AGI) in natural language processing (NLP). There comes a natural thinking that we could employ these abilities to reformulate autonomous driving. By combining LLM with foundation models, it is possible to utilize the human knowledge, commonsense and reasoning to rebuild autonomous driving systems from the current long-tailed AI dilemma. In this paper, we investigate the techniques of foundation models and LLMs applied for autonomous driving, categorized as simulation, world model, data annotation and planning or E2E solutions etc.
翻訳日:2023-12-06 18:59:52 公開日:2023-12-04
# InfiMM-Eval:マルチモーダル大言語モデルに対する複雑なオープンエンディング推論評価

InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models ( http://arxiv.org/abs/2311.11567v3 )

ライセンス: Link先を確認
Xiaotian Han, Quanzeng You, Yongfei Liu, Wentao Chen, Huangjie Zheng, Khalil Mrini, Xudong Lin, Yiqi Wang, Bohan Zhai, Jianbo Yuan, Heng Wang, Hongxia Yang(参考訳) MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。 これらのモデルは従来の視覚言語タスクに優れるだけでなく、現代のマルチモーダルベンチマークでも顕著な性能を示している。 これらのベンチマークの多くはMLLMの全体評価を試みているが、一般的には基本的な推論タスクに集中しており、単純なye/no や multi-choice の応答しか得られない。 これらの手法は自然にMLLMの推論能力を決定するのに混乱と困難をもたらす。 この問題を軽減するため,MLLM向けに設計されたベンチマークデータセットを手作業でキュレートし,複雑な推論タスクに着目した。 我々のベンチマークは3つの主要な推論カテゴリで構成されている。 我々のデータセットのクエリは、MLLMの推論能力に対処するために意図的に構築されています。 各種MLLMを公平に比較するため,評価基準に中間的推論ステップを組み込んだ。 MLLMが決定的な答えを生成できない場合、その推論能力は中間的推論ステップを要求することによって評価される。 これらのステップが手動アノテーションと一致すれば、適切なスコアが割り当てられます。 この評価スキームは、試験や課題など人間の評価によく用いられる手法に似ており、既存のベンチマークと比較すると、より効果的な評価手法と考えるものを表している。 我々は,この厳密に開発された多段階多段階的推論ベンチマークを用いて,代表的mllmの選択を評価し,その推論能力に挑戦し,正確に評価する。 コードとデータはhttps://infimm.github.io/InfiMM-Eval/で公開される。

Multi-modal Large Language Models (MLLMs) are increasingly prominent in the field of artificial intelligence. These models not only excel in traditional vision-language tasks but also demonstrate impressive performance in contemporary multi-modal benchmarks. Although many of these benchmarks attempt to holistically evaluate MLLMs, they typically concentrate on basic reasoning tasks, often yielding only simple yes/no or multi-choice responses. These methods naturally lead to confusion and difficulties in conclusively determining the reasoning capabilities of MLLMs. To mitigate this issue, we manually curate a benchmark dataset specifically designed for MLLMs, with a focus on complex reasoning tasks. Our benchmark comprises three key reasoning categories: deductive, abductive, and analogical reasoning. The queries in our dataset are intentionally constructed to engage the reasoning capabilities of MLLMs in the process of generating answers. For a fair comparison across various MLLMs, we incorporate intermediate reasoning steps into our evaluation criteria. In instances where an MLLM is unable to produce a definitive answer, its reasoning ability is evaluated by requesting intermediate reasoning steps. If these steps align with our manual annotations, appropriate scores are assigned. This evaluation scheme resembles methods commonly used in human assessments, such as exams or assignments, and represents what we consider a more effective assessment technique compared with existing benchmarks. We evaluate a selection of representative MLLMs using this rigorously developed open-ended multi-step elaborate reasoning benchmark, designed to challenge and accurately measure their reasoning capabilities. The code and data will be released at https://infimm.github.io/InfiMM-Eval/
翻訳日:2023-12-06 18:58:54 公開日:2023-12-04
# GS-IR:逆レンダリングのための3次元ガウススティング

GS-IR: 3D Gaussian Splatting for Inverse Rendering ( http://arxiv.org/abs/2311.16473v2 )

ライセンス: Link先を確認
Zhihao Liang, Qi Zhang, Ying Feng, Ying Shan, Kui Jia(参考訳) 本稿では,3次元ガウス散乱(GS)に基づく新しい逆レンダリング手法であるGS-IRを提案する。 暗黙的なニューラル表現とボリュームレンダリング(例えば、NeRF)を低表現力と高い計算複雑性で用いた従来の作品とは異なり、GSは、未知の照明条件下で撮影されたマルチビュー画像からシーン幾何学、表面物質、環境照明を推定するために、新しいビュー合成のための最高性能の表現である。 gsを逆レンダリングに導入する場合、主な問題は2つある。 1)GSは,本質的に可塑性な正常生産をサポートしない。 2)前方マッピング(ラスタ化やスプラッティングなど)は後方マッピング(レイトレーシングなど)のように咬合を追跡することはできない。 これらの課題に対処するため,gs-irは,通常推定のための奥行き導出に基づく正規化と,間接照明をモデル化するためのベイキングに基づくオクルージョンを組み込んだ効率的な最適化手法を提案する。 フレキシブルかつ表現力のあるGS表現は、高速かつコンパクトな幾何再構成、フォトリアリスティックな新規ビュー合成、有効物理ベースレンダリングを実現する。 本手法は,様々な挑戦シーンの質的,定量的評価を通じて,ベースライン法よりも優れていることを示す。

We propose GS-IR, a novel inverse rendering approach based on 3D Gaussian Splatting (GS) that leverages forward mapping volume rendering to achieve photorealistic novel view synthesis and relighting results. Unlike previous works that use implicit neural representations and volume rendering (e.g. NeRF), which suffer from low expressive power and high computational complexity, we extend GS, a top-performance representation for novel view synthesis, to estimate scene geometry, surface material, and environment illumination from multi-view images captured under unknown lighting conditions. There are two main problems when introducing GS to inverse rendering: 1) GS does not support producing plausible normal natively; 2) forward mapping (e.g. rasterization and splatting) cannot trace the occlusion like backward mapping (e.g. ray tracing). To address these challenges, our GS-IR proposes an efficient optimization scheme that incorporates a depth-derivation-based regularization for normal estimation and a baking-based occlusion to model indirect lighting. The flexible and expressive GS representation allows us to achieve fast and compact geometry reconstruction, photorealistic novel view synthesis, and effective physically-based rendering. We demonstrate the superiority of our method over baseline methods through qualitative and quantitative evaluations on various challenging scenes.
翻訳日:2023-12-06 18:47:05 公開日:2023-12-04
# SAMは作物を認識できますか? 精密農業のための衛星画像を用いた作物型地図作成のためのセグメンテーション基礎モデルのゼロショット性能の定量化

Can SAM recognize crops? Quantifying the zero-shot performance of a semantic segmentation foundation model on generating crop-type maps using satellite imagery for precision agriculture ( http://arxiv.org/abs/2311.15138v2 )

ライセンス: Link先を確認
Rutuja Gurav, Het Patel, Zhuocheng Shang, Ahmed Eldawy, Jia Chen, Elia Scudiero, Evangelos Papalexakis(参考訳) 気候変動は世界の農業を混乱させ、世界の食料生産の信頼性を低下させている。 地球への給餌における課題の増大に対処するため、精密農業などの最先端管理戦略は、農業の効率と持続可能性を高めるために、農家や意思決定者に豊かで実用的な情報を与える。 作物型地図は意思決定支援ツールの重要な情報であるが、作成が困難で費用がかかる。 ゼロショット画像セグメンテーションにおける最近の成功を認め, 収穫マップ予測タスクにおけるMeta AIのセグメンテーションモデル(SAM)の機能について検討する。 しかし、SAMは最大3チャンネルの入力に制限されており、ゼロショットの使用は本質的にクラスに依存しないため、作物型のマッピングに直接使用する際には固有の課題がある。 衛星画像のセグメンテーションにおけるSAMのゼロショット性能の評価と,作物型地図の作成にクラスタリングコンセンサスを用いた手法を提案する。 直接の作物型マッピングは、SAMをゼロショット設定で使用することは難しいが、実験により、SAMが衛星画像のフィールドを素早く正確にアウトライン化できる可能性を明らかにし、その後の作物分類の基礎となる。 本稿では,農業産業における作物種別マッピングと関連する特定のニーズに対するsamなどの最先端画像分割モデルのユースケースを強調し,精密農業実践のための自動的,効率的,費用効率の良いデータ製品の可能性について考察する。

Climate change is increasingly disrupting worldwide agriculture, making global food production less reliable. To tackle the growing challenges in feeding the planet, cutting-edge management strategies, such as precision agriculture, empower farmers and decision-makers with rich and actionable information to increase the efficiency and sustainability of their farming practices. Crop-type maps are key information for decision-support tools but are challenging and costly to generate. We investigate the capabilities of Meta AI's Segment Anything Model (SAM) for crop-map prediction task, acknowledging its recent successes at zero-shot image segmentation. However, SAM being limited to up-to 3 channel inputs and its zero-shot usage being class-agnostic in nature pose unique challenges in using it directly for crop-type mapping. We propose using clustering consensus metrics to assess SAM's zero-shot performance in segmenting satellite imagery and producing crop-type maps. Although direct crop-type mapping is challenging using SAM in zero-shot setting, experiments reveal SAM's potential for swiftly and accurately outlining fields in satellite images, serving as a foundation for subsequent crop classification. This paper attempts to highlight a use-case of state-of-the-art image segmentation models like SAM for crop-type mapping and related specific needs of the agriculture industry, offering a potential avenue for automatic, efficient, and cost-effective data products for precision agriculture practices.
翻訳日:2023-12-06 18:45:30 公開日:2023-12-04
# ニューラルタンジェントカーネルによる逆行訓練の再考

Rethinking Adversarial Training with Neural Tangent Kernel ( http://arxiv.org/abs/2312.02236v1 )

ライセンス: Link先を確認
Guanlin Li, Han Qiu, Shangwei Guo, Jiwei Li, Tianwei Zhang(参考訳) 敵対的訓練(AT)は、深層学習のセキュリティにおいて重要かつ魅力的なトピックであり、謎と奇妙な性質を示す。 ニューラルタンジェントカーネル(NTK)に基づくニューラルネットワークトレーニングダイナミクスの最近の研究は、ATを再認識し、その特性を深く分析することができる。 本稿では,NTKの進化など,NTKによるATプロセスと特性の詳細な調査を行う。 我々は、以前の研究で見落としていた3つの新しい発見を明らかにする。 まず,ATにおけるデータ正規化の影響とバッチ正規化層における非バイアス推定器の重要性を明らかにする。 第2に,カーネルダイナミクスを実験的に検討し,メソッドの時間節約について提案する。 第3に,破壊的オーバーフィッティング問題に対処するため,カーネル内のスペクトル特性について検討する。 我々の知る限りでは、既存のATメソッドを改善するためにカーネルダイナミクスの観察を利用する最初の研究である。

Adversarial training (AT) is an important and attractive topic in deep learning security, exhibiting mysteries and odd properties. Recent studies of neural network training dynamics based on Neural Tangent Kernel (NTK) make it possible to reacquaint AT and deeply analyze its properties. In this paper, we perform an in-depth investigation of AT process and properties with NTK, such as NTK evolution. We uncover three new findings that are missed in previous works. First, we disclose the impact of data normalization on AT and the importance of unbiased estimators in batch normalization layers. Second, we experimentally explore the kernel dynamics and propose more time-saving AT methods. Third, we study the spectrum feature inside the kernel to address the catastrophic overfitting problem. To the best of our knowledge, it is the first work leveraging the observations of kernel dynamics to improve existing AT methods.
翻訳日:2023-12-06 18:16:26 公開日:2023-12-04
# GenEM:物理インフォームド・ジェネレーション・クライオ・エレクトロン顕微鏡

GenEM: Physics-Informed Generative Cryo-Electron Microscopy ( http://arxiv.org/abs/2312.02235v1 )

ライセンス: Link先を確認
Jiakai Zhang, Qihe Chen, Yan Zeng, Wenyuan Gao, Xuming He, Zhijie Liu, Jingyi Yu(参考訳) 過去10年間で、深い条件付き生成モデルは現実的な画像の生成に革命をもたらし、エンターテイメントから科学分野への応用を拡大した。 単一粒子低温電子顕微鏡(cryo-EM)は、SARS-COV-2スパイクタンパク質のようなタンパク質の近原子分解能3D構造を解くのに重要である。 高精細化を実現するために,粒子抽出とポーズ推定のためのAIモデルが採用された。 しかし、高品質なアノテートデータセットがないため、パフォーマンスはまだ限られている。 物理インフォームドな生成型Cryo-EM顕微鏡 (GenEM) を導入し, 物理ベースのCryo-EMシミュレーションを生成不能ノイズ変換と統合し, 現実的な雑音を伴う物理的に正確な合成Cryo-EMデータセットを生成する。 GenEMは最初、仮想検体に基づいてCryo-EMイメージングプロセスをシミュレートした。 現実的な雑音を生成するために,新しいマスク誘導サンプリング方式を用いて,コントラスト学習による未ペア雑音変換を利用する。 大規模な実験により、GenEMは現実的なCryo-EM画像を生成することができることが示された。 生成されたデータセットは、さらにパーティクルピッキングとポーズ推定モデルを強化し、最終的に再構成の解像度を改善することができる。 コードと注釈付き合成データセットをリリースします。

In the past decade, deep conditional generative models have revolutionized the generation of realistic images, extending their application from entertainment to scientific domains. Single-particle cryo-electron microscopy (cryo-EM) is crucial in resolving near-atomic resolution 3D structures of proteins, such as the SARS-COV-2 spike protein. To achieve high-resolution reconstruction, AI models for particle picking and pose estimation have been adopted. However, their performance is still limited as they lack high-quality annotated datasets. To address this, we introduce physics-informed generative cryo-electron microscopy (GenEM), which for the first time integrates physical-based cryo-EM simulation with a generative unpaired noise translation to generate physically correct synthetic cryo-EM datasets with realistic noises. Initially, GenEM simulates the cryo-EM imaging process based on a virtual specimen. To generate realistic noises, we leverage an unpaired noise translation via contrastive learning with a novel mask-guided sampling scheme. Extensive experiments show that GenEM is capable of generating realistic cryo-EM images. The generated dataset can further enhance particle picking and pose estimation models, eventually improving the reconstruction resolution. We will release our code and annotated synthetic datasets.
翻訳日:2023-12-06 18:16:11 公開日:2023-12-04
# medxchat: 統一マルチモーダル大規模モデルによるcxrモダリティのブリッジ

MedXChat: Bridging CXR Modalities with a Unified Multimodal Large Model ( http://arxiv.org/abs/2312.02233v1 )

ライセンス: Link先を確認
Ling Yang, Zhanyu Wang, Luping Zhou(参考訳) 画像タスクにおけるLarge Language Models (LLMs) の成功にもかかわらず、医療領域におけるギャップは、医療画像の微妙な多様性に対処できるマルチモーダルな大モデルにおいて持続する。 そこで我々は,医療アシスタントとユーザ間のシームレスなインタラクションを目的としたマルチモーダル大モデルであるMedXChatを提案する。 MedXChatには、CXR(Chest X-ray)-to-Report Generation、CXRベースのビジュアル質問応答(VQA)、Text-to-CXR合成という3つの重要な機能が含まれている。 私たちの貢献は以下の通りです。 まず,我々は3つのタスクにまたがる適応性を示し,医療用マルチモーダルアプリケーションにおいて,模倣データセット上でのベンチマークモデルよりも優れた性能を示す。 次に,Stable Diffusion (SD) アーキテクチャ内の命令追従機能を利用する,革新的なテキストからCXR合成手法を提案する。 この技術は既存のモデルフレームワークとスムーズに統合され、余分なパラメータを必要とせず、SDの生成強度を維持しつつ、高い忠実度で微細な医用画像を描画する能力を与える。 総合的な実験は、すべてのタスクにおけるMedXChatの相乗的拡張を検証する。 我々の命令データとモデルはオープンソース化される。

Despite the success of Large Language Models (LLMs) in general image tasks, a gap persists in the medical field for a multimodal large model adept at handling the nuanced diversity of medical images. Addressing this, we propose MedXChat, a unified multimodal large model designed for seamless interactions between medical assistants and users. MedXChat encompasses three key functionalities: CXR(Chest X-ray)-to-Report generation, CXR-based visual question-answering (VQA), and Text-to-CXR synthesis. Our contributions are as follows. Firstly, our model showcases exceptional cross-task adaptability, displaying adeptness across all three defined tasks and outperforming the benchmark models on the MIMIC dataset in medical multimodal applications. Secondly, we introduce an innovative Text-to-CXR synthesis approach that utilizes instruction-following capabilities within the Stable Diffusion (SD) architecture. This technique integrates smoothly with the existing model framework, requiring no extra parameters, thereby maintaining the SD's generative strength while also bestowing upon it the capacity to render fine-grained medical images with high fidelity. Comprehensive experiments validate MedXChat's synergistic enhancement across all tasks. Our instruction data and model will be open-sourced.
翻訳日:2023-12-06 18:15:49 公開日:2023-12-04
# HumanNeRF-SE:多元性を持つ人間NeRFの簡易かつ効果的なアプローチ

HumanNeRF-SE: A Simple yet Effective Approach to Animate HumanNeRF with Diverse Poses ( http://arxiv.org/abs/2312.02232v1 )

ライセンス: Link先を確認
Caoyuan Ma, Yu-Lun Liu, Zhixiang Wang, Wu Liu, Xinchen Liu and Zheng Wang(参考訳) 簡単な入力で多様な新しいポーズ画像を合成できるHumanNeRF-SEを提案する。 以前のHumanNeRF研究は、人間の外見と事前の知識に適合するために大きなニューラルネットワークを必要とする。 その後のメソッドは、いくつかの改善とともにこのアプローチの上に構築される。 代わりに、このアプローチを再構築し、明示的および暗黙的な人間の表現と一般的なおよび特定のマッピングプロセスを組み合わせる。 私たちの重要な洞察は、明示的な形状が暗黙の表現に適合する情報をフィルタリングし、凍結された一般マッピングとポイント固有のマッピングを組み合わせることで、過剰フィッティングを効果的に回避し、ポーズの一般化性能を向上させることができるということです。 私たちの明示的で暗黙的な人間の組み合わせアーキテクチャは非常に効果的です。 これは,既存のアクセラレーションモジュールを使わずに,計算複雑性の低減により,任意のポーズで数ショットの入力で画像を合成し,画像の合成速度を15倍に向上する能力に反映される。 最先端のHumanNeRF研究と比較すると、HumanNeRF-SEは学習可能なパラメータが少なく、トレーニング時間も少ない(図1)。

We present HumanNeRF-SE, which can synthesize diverse novel pose images with simple input. Previous HumanNeRF studies require large neural networks to fit the human appearance and prior knowledge. Subsequent methods build upon this approach with some improvements. Instead, we reconstruct this approach, combining explicit and implicit human representations with both general and specific mapping processes. Our key insight is that explicit shape can filter the information used to fit implicit representation, and frozen general mapping combined with point-specific mapping can effectively avoid overfitting and improve pose generalization performance. Our explicit and implicit human represent combination architecture is extremely effective. This is reflected in our model's ability to synthesize images under arbitrary poses with few-shot input and increase the speed of synthesizing images by 15 times through a reduction in computational complexity without using any existing acceleration modules. Compared to the state-of-the-art HumanNeRF studies, HumanNeRF-SE achieves better performance with fewer learnable parameters and less training time (see Figure 1).
翻訳日:2023-12-06 18:15:23 公開日:2023-12-04
# アモルファス・フォートレス(qd-af)における品質の多様性 : 0プレイヤーゲームにおける複雑化に向けて

Quality Diversity in the Amorphous Fortress (QD-AF): Evolving for Complexity in 0-Player Games ( http://arxiv.org/abs/2312.02231v1 )

ライセンス: Link先を確認
Sam Earle, M Charity, Dipika Rajesh, Mayu Wilson, Julian Togelius(参考訳) アモルファス・フォートレス(af)シミュレーション・フレームワークを用いて多様な環境の生成を探索する。 afは'フォートレス'グリッドワールドにおけるエージェントの振る舞いを制御するために再結合できる有限状態機械(fsm)ノードとエッジを定義する。 フレームワーク内のエージェントの挙動と条件は、多エージェント人工生命と強化学習環境の共通構成要素を捉えるように設計されている。 品質多様性進化探索を用いて、多様な環境群を生成する。 これらの環境は、エージェントのFSMアーキテクチャやアクティベーション、集団行動の尺度に従って、ある種の複雑さを示す。 非晶質要塞における品質多様性 (qd-af) は, 単純生態モデルに類似した0プレイヤーゲーム群を生成し, 競争的および協調的マルチエージェントおよび多種生物生存動態の出現を明らかにした。 これらの生成した世界は、学習アルゴリズムのトレーニングとテストの基盤として機能する、と主張する。

We explore the generation of diverse environments using the Amorphous Fortress (AF) simulation framework. AF defines a set of Finite State Machine (FSM) nodes and edges that can be recombined to control the behavior of agents in the `fortress' grid-world. The behaviors and conditions of the agents within the framework are designed to capture the common building blocks of multi-agent artificial life and reinforcement learning environments. Using quality diversity evolutionary search, we generate diverse sets of environments. These environments exhibit certain types of complexity according to measures of agents' FSM architectures and activations, and collective behaviors. Our approach, Quality Diversity in Amorphous Fortress (QD-AF) generates families of 0-player games akin to simplistic ecological models, and we identify the emergence of both competitive and co-operative multi-agent and multi-species survival dynamics. We argue that these generated worlds can collectively serve as training and testing grounds for learning algorithms.
翻訳日:2023-12-06 18:15:03 公開日:2023-12-04
# グラフ生成のためのシンプルでスケーラブルな表現

A Simple and Scalable Representation for Graph Generation ( http://arxiv.org/abs/2312.02230v1 )

ライセンス: Link先を確認
Yunhui Jang, Seul Lee, Sungsoo Ahn(参考訳) 近年、分子設計やコミュニティ分析といった重要な応用における基本的な統計学習問題であるグラフ生成にニューラルネットワークを採用することへの関心が高まっている。 しかし、ほとんどのアプローチは大規模なグラフを生成する際に大きな制限を受ける。 これは、ノード数が2倍に大きくなるような完全な隣接行列を出力する必要があるためである。 この課題に対応するため,我々はギャップエンコードされたエッジリスト (geel) という,エッジ数に合致する表現サイズが小さい新しい,シンプルでスケーラブルなグラフ表現を導入する。 さらに、GEELは、ギャップエンコーディングと帯域制限スキームを組み込むことにより、語彙サイズを著しく削減する。 GEELはノード位置エンコーディングを組み込んだ自動回帰生成が可能であり、新たな文法を設計して属性グラフを扱うようにGEELをさらに拡張する。 その結果, このコンパクト表現の採用はスケーラビリティの向上だけでなく, グラフ生成プロセスの簡素化による性能向上にも寄与することがわかった。 非帰属的および2つの分子グラフ生成タスクを包括的に評価し,geelの有効性を実証した。

Recently, there has been a surge of interest in employing neural networks for graph generation, a fundamental statistical learning problem with critical applications like molecule design and community analysis. However, most approaches encounter significant limitations when generating large-scale graphs. This is due to their requirement to output the full adjacency matrices whose size grows quadratically with the number of nodes. In response to this challenge, we introduce a new, simple, and scalable graph representation named gap encoded edge list (GEEL) that has a small representation size that aligns with the number of edges. In addition, GEEL significantly reduces the vocabulary size by incorporating the gap encoding and bandwidth restriction schemes. GEEL can be autoregressively generated with the incorporation of node positional encoding, and we further extend GEEL to deal with attributed graphs by designing a new grammar. Our findings reveal that the adoption of this compact representation not only enhances scalability but also bolsters performance by simplifying the graph generation process. We conduct a comprehensive evaluation across ten non-attributed and two molecular graph generation tasks, demonstrating the effectiveness of GEEL.
翻訳日:2023-12-06 18:14:33 公開日:2023-12-04
# パーキンソン病におけるAIに基づく音声アセスメントのための合成データ生成技術(比較研究)

Synthetic Data Generation Techniques for Developing AI-based Speech Assessments for Parkinson's Disease (A Comparative Study) ( http://arxiv.org/abs/2312.02229v1 )

ライセンス: Link先を確認
Mahboobeh Parsapoor(参考訳) パーキンソン病(PD)の最初の兆候は、言語と言語の変化である。 そのため、臨床医は何年も前からPD患者を声から識別しようと試みてきた。 医師はAI(AI)の進歩のおかげで、AIベースの音声アセスメントを利用してPDを見つけることができる。 このようなAIシステムは、個人の声を使って訓練された機械学習分類器を使って開発することができる。 いくつかの研究は、そのようなAIシステムの開発において合理的な結果を示しているが、これらのシステムは有望なパフォーマンスを達成するためにより多くのデータサンプルが必要である。 本稿では,このようなシステムの中核となる機械学習分類器の精度について,深層学習に基づくデータ生成手法を用いて検討する。

Changes in speech and language are among the first signs of Parkinson's disease (PD). Thus, clinicians have tried to identify individuals with PD from their voices for years. Doctors can leverage AI-based speech assessments to spot PD thanks to advancements in artificial intelligence (AI). Such AI systems can be developed using machine learning classifiers that have been trained using individuals' voices. Although several studies have shown reasonable results in developing such AI systems, these systems would need more data samples to achieve promising performance. This paper explores using deep learning-based data generation techniques on the accuracy of machine learning classifiers that are the core of such systems.
翻訳日:2023-12-06 18:14:02 公開日:2023-12-04
# PixelLM: 大規模マルチモーダルモデルによるピクセル推論

PixelLM: Pixel Reasoning with Large Multimodal Model ( http://arxiv.org/abs/2312.02228v1 )

ライセンス: Link先を確認
Zhongwei Ren, Zhicheng Huang, Yunchao Wei, Yao Zhao, Dongmei Fu, Jiashi Feng, Xiaojie Jin(参考訳) 大規模マルチモーダルモデル(LMM)は目覚ましい進歩を遂げているが、複数のオープンワールドターゲットを含む画像推論タスクのためのピクセルレベルのマスクを生成することは依然として課題である。 このギャップを埋めるために、ピクセルレベルの推論と理解のための効率的かつ効率的なLMMであるPixelLMを導入する。 Central to PixelLMは、新しくて軽量なピクセルデコーダであり、包括的セグメンテーションコードブックである。 デコーダは、詳細なターゲット関連情報を符号化するコードブックトークンの隠れ埋め込みからマスクを効率よく生成する。 この設計により、PixelLMは一般的なLMMの構造と調和し、さらにコストのかかるセグメンテーションモデルを必要としない。 さらに,複数のターゲット間を区別するモデルの能力を向上させるため,マスク品質が大幅に向上する目標精細化損失を提案する。 そこで本研究では,高品質なマルチターゲット推論セグメンテーションベンチマークであるMUSEを構築した。 PixelLMは、さまざまなピクセルレベルの画像推論と理解タスクを網羅し、MUSEやシングル参照セグメンテーション、マルチ参照セグメンテーションなど、複数のベンチマークで確立されたメソッドよりも優れている。 包括的アブレーションは各成分の有効性を確認する。 すべてのコード、モデル、データセットが公開される予定だ。

While large multimodal models (LMMs) have achieved remarkable progress, generating pixel-level masks for image reasoning tasks involving multiple open-world targets remains a challenge. To bridge this gap, we introduce PixelLM, an effective and efficient LMM for pixel-level reasoning and understanding. Central to PixelLM is a novel, lightweight pixel decoder and a comprehensive segmentation codebook. The decoder efficiently produces masks from the hidden embeddings of the codebook tokens, which encode detailed target-relevant information. With this design, PixelLM harmonizes with the structure of popular LMMs and avoids the need for additional costly segmentation models. Furthermore, we propose a target refinement loss to enhance the model's ability to differentiate between multiple targets, leading to substantially improved mask quality. To advance research in this area, we construct MUSE, a high-quality multi-target reasoning segmentation benchmark. PixelLM excels across various pixel-level image reasoning and understanding tasks, outperforming well-established methods in multiple benchmarks, including MUSE, single- and multi-referring segmentation. Comprehensive ablations confirm the efficacy of each proposed component. All code, models, and datasets will be publicly available.
翻訳日:2023-12-06 18:13:43 公開日:2023-12-04
# マルチモーダル感性分析の改善: 強調融合表現のためのAngular Marginベースのコントラスト学習

Improving Multimodal Sentiment Analysis: Supervised Angular Margin-based Contrastive Learning for Enhanced Fusion Representation ( http://arxiv.org/abs/2312.02227v1 )

ライセンス: Link先を確認
Cong-Duy Nguyen, Thong Nguyen, Duc Anh Vu, Luu Anh Tuan(参考訳) モデルの有効性は、マルチモーダル感情分析における多重モーダルの融合表現の品質に大きく依存している。 さらに、各モダリティを生入力から抽出し、残りと統合してマルチモーダル表現を構築する。 従来の手法ではマルチモーダル表現を提案し,有望な結果を得たが,そのほとんどは正と負のペアの形成に重点を置いており,同じクラス内の感情スコアの変動を無視している。 さらに、融合ベクトルにおけるユニモーダル表現の重要性を捉えることができない。 これらの制限に対処するため、我々は Supervised Angular-based Contrastive Learning for Multimodal Sentiment Analysisというフレームワークを紹介した。 この枠組みは,マルチモーダル表現の識別と一般化性を高め,融合ベクトルのモダリティのバイアスを克服することを目的としている。 実験結果は,広く利用されている2つのデータセットの可視化とともに,本手法の有効性を実証した。

The effectiveness of a model is heavily reliant on the quality of the fusion representation of multiple modalities in multimodal sentiment analysis. Moreover, each modality is extracted from raw input and integrated with the rest to construct a multimodal representation. Although previous methods have proposed multimodal representations and achieved promising results, most of them focus on forming positive and negative pairs, neglecting the variation in sentiment scores within the same class. Additionally, they fail to capture the significance of unimodal representations in the fusion vector. To address these limitations, we introduce a framework called Supervised Angular-based Contrastive Learning for Multimodal Sentiment Analysis. This framework aims to enhance discrimination and generalizability of the multimodal representation and overcome biases in the fusion vector's modality. Our experimental results, along with visualizations on two widely used datasets, demonstrate the effectiveness of our approach.
翻訳日:2023-12-06 18:13:08 公開日:2023-12-04
# オープン語彙ビデオ行動認識のための行動条件付きプロンプトの生成

Generating Action-conditioned Prompts for Open-vocabulary Video Action Recognition ( http://arxiv.org/abs/2312.02226v1 )

ライセンス: Link先を確認
Chengyou Jia, Minnan Luo, Xiaojun Chang, Zhuohang Dang, Mingfei Han, Mengmeng Wang, Guang Dai, Sizhe Dang, Jingdong Wang(参考訳) オープン・ボキャブラリ・ビデオのアクション認識を探求することは有望なベンチャーであり、あらゆるカテゴリーでこれまで目に見えないアクションを認識することを目指している。 既存の手法では、通常、訓練済みの画像テキストモデルをビデオ領域に適応させ、一般化における固有の強みを活かす。 このような方法の一般的なスレッドは、見るアクションの認識を改善するために、時間的情報を含む視覚埋め込みの強化である。 しかし、彼らは標準的な非形式的な行動記述と妥協し、新しい行動に直面すると混乱する。 人間の認知プロセスからインスピレーションを得て、人間の事前知識にテキストを埋め込むことが、オープン語彙のビデオ行動認識の鍵となると論じる。 これを実現するために,ビデオモデルとLarge Language Models (LLMs)を併用して,アクション条件付きプロンプトを考案する。 具体的には、LLMの知識を利用して、与えられた行動を特定するための特徴を含む記述文の集合を生成する。 この基盤を基盤として,プロンプト内にカプセル化されたビデオおよびテキスト知識の概念を整列する多モーダル行動知識アライメント機構を導入する。 zero-shot, few-shot, base-to-novel の一般化設定を含む様々なビデオベンチマークに関する広範囲な実験により,本手法が新たな sota 性能を設定するだけでなく,優れた解釈性を有することを証明した。

Exploring open-vocabulary video action recognition is a promising venture, which aims to recognize previously unseen actions within any arbitrary set of categories. Existing methods typically adapt pretrained image-text models to the video domain, capitalizing on their inherent strengths in generalization. A common thread among such methods is the augmentation of visual embeddings with temporal information to improve the recognition of seen actions. Yet, they compromise with standard less-informative action descriptions, thus faltering when confronted with novel actions. Drawing inspiration from human cognitive processes, we argue that augmenting text embeddings with human prior knowledge is pivotal for open-vocabulary video action recognition. To realize this, we innovatively blend video models with Large Language Models (LLMs) to devise Action-conditioned Prompts. Specifically, we harness the knowledge in LLMs to produce a set of descriptive sentences that contain distinctive features for identifying given actions. Building upon this foundation, we further introduce a multi-modal action knowledge alignment mechanism to align concepts in video and textual knowledge encapsulated within the prompts. Extensive experiments on various video benchmarks, including zero-shot, few-shot, and base-to-novel generalization settings, demonstrate that our method not only sets new SOTA performance but also possesses excellent interpretability.
翻訳日:2023-12-06 18:12:31 公開日:2023-12-04
# グラフニューラルネットワークを用いたデジタル病理 : 臨床医のための概念と解説

Digital Histopathology with Graph Neural Networks: Concepts and Explanations for Clinicians ( http://arxiv.org/abs/2312.02225v1 )

ライセンス: Link先を確認
Alessandro Farace di Villaforesta, Lucie Charlotte Magister, Pietro Barbiero, Pietro Li\`o(参考訳) 医療環境でのディープラーニングの‘ブラックボックス’という性質の課題に対処するために、自動概念発見ソリューションであるgcexplainerと、ロジック説明ネットワークを組み合わせることで、グラフニューラルネットワークのグローバルな説明を提供する。 我々は,ホバーネットを用いた汎視分節化と,グラフ畳み込みネットワークを用いた癌予測を含む,汎用的なグラフ構築と分類パイプラインを用いてこれを実証する。 乳がんのH&Eスライドのトレーニングにより、臨床医に説明可能な信頼できるAIツールを提供することで、有望な結果を示す。

To address the challenge of the ``black-box" nature of deep learning in medical settings, we combine GCExplainer - an automated concept discovery solution - along with Logic Explained Networks to provide global explanations for Graph Neural Networks. We demonstrate this using a generally applicable graph construction and classification pipeline, involving panoptic segmentation with HoVer-Net and cancer prediction with Graph Convolution Networks. By training on H&E slides of breast cancer, we show promising results in offering explainable and trustworthy AI tools for clinicians.
翻訳日:2023-12-06 18:11:59 公開日:2023-12-04
# Re-Nerfing:新しいビュー合成によるニューラルラディアンス場の幾何学的制約の強化

Re-Nerfing: Enforcing Geometric Constraints on Neural Radiance Fields through Novel Views Synthesis ( http://arxiv.org/abs/2312.02255v1 )

ライセンス: Link先を確認
Felix Tristram, Stefano Gasperini, Federico Tombari, Nassir Navab, Benjamin Busam(参考訳) ニューラル・ラジアンス・フィールド(Neural Radiance Fields、NeRF)は、数百のビューを必要とするにもかかわらず、大規模で無境界のシーンでも目覚ましいビュー合成能力を示した。 それらの最適化は、小さな視覚的重なりしか持たない形状のあいまいさに悩まされる。 これは誤ったシーンの幾何学やアーティファクトにつながる。 本稿では,これらの制約に対処するためにNeRFのビュー合成を利用する,シンプルで汎用的なマルチステージアプローチであるRe-Nerfingを提案する。 Re-Nerfingでは、シーンのカバレッジを高め、新しいビューの幾何学的一貫性を高める。 次に、最適化されたnerfを使用して、オリジナルの隣の擬似ビューを合成し、ステレオまたはトリフォカル設定をシミュレートする。 最後に、新たに合成した画像を通して構造的、エピポーラ的な制約を課しながら、オリジナルと擬似の両方の視点で第2のNeRFを訓練する。 mip-NeRF 360データセットの大規模な実験では、より密度の高い入力シナリオとスペーサー入力シナリオをまたいだRe-Nerfingの有効性が示され、すべてのビューでトレーニングされた場合でも、最先端のZip-NeRFが改善された。

Neural Radiance Fields (NeRFs) have shown remarkable novel view synthesis capabilities even in large-scale, unbounded scenes, albeit requiring hundreds of views or introducing artifacts in sparser settings. Their optimization suffers from shape-radiance ambiguities wherever only a small visual overlap is available. This leads to erroneous scene geometry and artifacts. In this paper, we propose Re-Nerfing, a simple and general multi-stage approach that leverages NeRF's own view synthesis to address these limitations. With Re-Nerfing, we increase the scene's coverage and enhance the geometric consistency of novel views as follows: First, we train a NeRF with the available views. Then, we use the optimized NeRF to synthesize pseudo-views next to the original ones to simulate a stereo or trifocal setup. Finally, we train a second NeRF with both original and pseudo views while enforcing structural, epipolar constraints via the newly synthesized images. Extensive experiments on the mip-NeRF 360 dataset show the effectiveness of Re-Nerfing across denser and sparser input scenarios, bringing improvements to the state-of-the-art Zip-NeRF, even when trained with all views.
翻訳日:2023-12-06 18:03:44 公開日:2023-12-04
# 農業予測におけるイノベーション--多変量回帰によるグローバル作物収量予測

Innovations in Agricultural Forecasting: A Multivariate Regression Study on Global Crop Yield Prediction ( http://arxiv.org/abs/2312.02254v1 )

ライセンス: Link先を確認
Ishaan Gupta, Samyutha Ayalasomayajula, Yashas Shashidhara, Anish Kataria, Shreyas Shashidhara, Krishita Kataria, Aditya Undurti(参考訳) 国際的に収穫量の予測は農業研究の重要な目的である。 そこで本研究では,196か国で収穫量を予測するための6つの回帰モデル(Linear, Tree, Gradient Descent, Gradient Boosting, K- Nearest Neighbors, Random Forest)を実装した。 農薬 (tonnes) , 降雨 (mm), 温度 (celsius) および収量 (hg/ha) の4つの主要なトレーニングパラメータを与えられた結果, ランダム森林回帰モデルは0.94の判定係数 (r^2) を達成し, 誤差率 (me) は03。 これらのモデルは、World Bank Climate Change Data Catalogとともに、国連データの食品農業機関を使用してトレーニングされ、テストされた。 さらに,各パラメータを解析し,各要因が全体の収量に与える影響について検討した。 一般的なディープラーニング(dl)と機械学習(ml)モデルとは対照的に、非慣習モデルを使用し、最近収集したデータと組み合わせて、研究に独自のアプローチを取り入れました。 既存の奨学金は、特に国連のデータを用いて、農業研究の最も最適なモデルを理解することの恩恵を受ける。

The prediction of crop yields internationally is a crucial objective in agricultural research. Thus, this study implements 6 regression models (Linear, Tree, Gradient Descent, Gradient Boosting, K- Nearest Neighbors, and Random Forest) to predict crop yields in 196 countries. Given 4 key training parameters, pesticides (tonnes), rainfall (mm), temperature (Celsius), and yield (hg/ha), it was found that our Random Forest Regression model achieved a determination coefficient (r^2) of 0.94, with a margin of error (ME) of .03. The models were trained and tested using the Food and Agricultural Organization of the United Nations data, along with the World Bank Climate Change Data Catalog. Furthermore, each parameter was analyzed to understand how varying factors could impact overall yield. We used unconventional models, contrary to generally used Deep Learning (DL) and Machine Learning (ML) models, combined with recently collected data to implement a unique approach in our research. Existing scholarship would benefit from understanding the most optimal model for agricultural research, specifically using the United Nations data.
翻訳日:2023-12-06 18:03:19 公開日:2023-12-04
# 多様性、微妙なチューニング:合成画像による視覚認識トレーニングのスケールアップ

Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with Synthetic Images ( http://arxiv.org/abs/2312.02253v1 )

ライセンス: Link先を確認
Zhuoran Yu, Chenchen Zhu, Sean Culatana, Raghuraman Krishnamoorthi, Fanyi Xiao and Yong Jae Lee(参考訳) 生成的深層学習の最近の進歩は、テキスト・画像生成における高品質な合成画像の作成を可能にしている。 先行研究では、予め訓練された拡散モデルをimagenet上で微調整し、微調整されたモデルから合成訓練画像を生成することで、imagenet分類器の性能を向上させることができる。 しかし、合成画像が実際の画像よりも多いため、性能は低下する。 本稿では,この改良に生成ファインチューニングが不可欠か,さらに多くの合成データを用いてトレーニングを拡大することが可能かを検討する。 本稿では,人工的なトレーニング画像を生成するために,既製の生成モデルを活用して,クラス名曖昧性,素早いプロンプトの多様性の欠如,ドメインシフトといった課題に対処する新しいフレームワークを提案する。 具体的には、クラス名の曖昧さを解決するために、大きな言語モデル(LLM)とCLIPを活用します。 画像の多様化のために,LLMによっても引き起こされた,文脈的多様化(CD)とスタイル的多様化(SD)手法を提案する。 最後に、ドメインシフトを軽減するために、合成画像の補助バッチ正規化によるドメイン適応手法を利用する。 従来のイメージネットの最大6倍のサイズで認識モデルの性能を一貫して向上させ,認識モデルの改善と強力な領域外一般化のための合成データの可能性を示す。

Recent advances in generative deep learning have enabled the creation of high-quality synthetic images in text-to-image generation. Prior work shows that fine-tuning a pretrained diffusion model on ImageNet and generating synthetic training images from the finetuned model can enhance an ImageNet classifier's performance. However, performance degrades as synthetic images outnumber real ones. In this paper, we explore whether generative fine-tuning is essential for this improvement and whether it is possible to further scale up training using more synthetic data. We present a new framework leveraging off-the-shelf generative models to generate synthetic training images, addressing multiple challenges: class name ambiguity, lack of diversity in naive prompts, and domain shifts. Specifically, we leverage large language models (LLMs) and CLIP to resolve class name ambiguity. To diversify images, we propose contextualized diversification (CD) and stylized diversification (SD) methods, also prompted by LLMs. Finally, to mitigate domain shifts, we leverage domain adaptation techniques with auxiliary batch normalization for synthetic images. Our framework consistently enhances recognition model performance with more synthetic data, up to 6x of original ImageNet size showcasing the potential of synthetic data for improved recognition models and strong out-of-domain generalization.
翻訳日:2023-12-06 18:02:56 公開日:2023-12-04
# ストーリービジュアライザとしての大規模言語モデル

Large Language Models as Consistent Story Visualizers ( http://arxiv.org/abs/2312.02252v1 )

ライセンス: Link先を確認
Xiaoqian Shen and Mohamed Elhoseiny(参考訳) 最近の生成モデルは、テキストのプロンプトに基づいて、リアルで視覚的に心地よい画像を生成する素晴らしい能力を示している。 それでも、ストーリー視覚化のより複雑なタスクにこれらのモデルを適用することには、大きな課題が残っている。 フレーム記述における代名詞(he, she, they)の分解、すなわちアナフォラ分解、フレーム間の一貫性のある文字と背景合成が必要である。 しかし、新興のLarge Language Model(LLM)は曖昧な参照をナビゲートし、広範囲なシーケンスを処理する堅牢な推論能力を示している。 そこで,本研究では,潜在拡散(LDM)とLDMの利点を利用して,与えられたストーリー記述に基づいて,一貫した高品質なキャラクタを持つ画像を生成する。 まず,文字認識意味埋め込みを入力として,文字セグメンテーションマスクを用いた横断地図の監督を含む文字認識ldmを訓練し,文字生成精度と忠実性の向上を目指す。 第2段階では、LLMの出力と第1段モデルの入力空間に存在する文字拡張埋め込みとのアライメントを可能にする。 これは、曖昧な参照に対処するllmの推論能力とコンテキストを記憶する理解能力を利用する。 我々は2つのビジュアルストーリー可視化ベンチマークについて包括的な実験を行う。 本モデルでは,より優れた定量化結果が得られ,メモリ消費の少ない顕著な品質のキャラクタを一貫して生成する。 私たちのコードは公開されます。

Recent generative models have demonstrated impressive capabilities in generating realistic and visually pleasing images grounded on textual prompts. Nevertheless, a significant challenge remains in applying these models for the more intricate task of story visualization. Since it requires resolving pronouns (he, she, they) in the frame descriptions, i.e., anaphora resolution, and ensuring consistent characters and background synthesis across frames. Yet, the emerging Large Language Model (LLM) showcases robust reasoning abilities to navigate through ambiguous references and process extensive sequences. Therefore, we introduce \textbf{StoryGPT-V}, which leverages the merits of the latent diffusion (LDM) and LLM to produce images with consistent and high-quality characters grounded on given story descriptions. First, we train a character-aware LDM, which takes character-augmented semantic embedding as input and includes the supervision of the cross-attention map using character segmentation masks, aiming to enhance character generation accuracy and faithfulness. In the second stage, we enable an alignment between the output of LLM and the character-augmented embedding residing in the input space of the first-stage model. This harnesses the reasoning ability of LLM to address ambiguous references and the comprehension capability to memorize the context. We conduct comprehensive experiments on two visual story visualization benchmarks. Our model reports superior quantitative results and consistently generates accurate characters of remarkable quality with low memory consumption. Our code will be made publicly available.
翻訳日:2023-12-06 18:02:34 公開日:2023-12-04
# 文脈特化SQLクエリ生成のための微調整言語モデル

Fine-Tuning Language Models for Context-Specific SQL Query Generation ( http://arxiv.org/abs/2312.02251v1 )

ライセンス: Link先を確認
Amine Rebei(参考訳) 自然言語からsqlクエリを生成する能力は、非専門家がデータにアクセスできるようにする上で大きな意味を持つ。 本稿では,自然言語を小売ドメイン内のSQLクエリに変換するタスクに対して,オープンソースの大規模言語モデル(LLM)を微調整する新しいアプローチを提案する。 我々は、snowflake sqlとgooglesql方言に合わせた合成データセットでトレーニングされたsqlクエリの生成に特化したモデルを紹介する。 提案手法では,GPT-4を用いてコンテキスト固有のデータセットを生成し,リソース制約を最適化するためにLoRa技術を用いて3つのオープンソースLCM(Starcoder Plus,Code-Llama,Mistral)を微調整する。 微調整されたモデルは、ベースラインのgpt-4と比較してゼロショット設定で優れたパフォーマンスを示し、code-llamaはsnowflake sqlでは81.58%、googlesqlでは82.66%という高い精度を達成した。 これらの結果は、ドメイン固有のタスクに対する微調整LDMの有効性を強調し、自然言語インタフェースによる関係データベースのアクセシビリティ向上に向けた有望な方向性を示唆している。

The ability to generate SQL queries from natural language has significant implications for making data accessible to non-specialists. This paper presents a novel approach to fine-tuning open-source large language models (LLMs) for the task of transforming natural language into SQL queries within the retail domain. We introduce models specialized in generating SQL queries, trained on synthetic datasets tailored to the Snowflake SQL and GoogleSQL dialects. Our methodology involves generating a context-specific dataset using GPT-4, then fine-tuning three open-source LLMs(Starcoder Plus, Code-Llama, and Mistral) employing the LoRa technique to optimize for resource constraints. The fine-tuned models demonstrate superior performance in zero-shot settings compared to the baseline GPT-4, with Code-Llama achieving the highest accuracy rates, at 81.58% for Snowflake SQL and 82.66% for GoogleSQL. These results underscore the effectiveness of fine-tuning LLMs on domain-specific tasks and suggest a promising direction for enhancing the accessibility of relational databases through natural language interfaces.
翻訳日:2023-12-06 18:02:10 公開日:2023-12-04
# 再帰的ビジュアルプログラミング

Recursive Visual Programming ( http://arxiv.org/abs/2312.02249v1 )

ライセンス: Link先を確認
Jiaxin Ge, Sanjay Subramanian, Baifeng Shi, Roei Herzig, Trevor Darrell(参考訳) Visual Programming (VP)は、Visual Question Answering (VQA)の強力なフレームワークとして登場した。 質問毎に自発的なコードを生成し実行することで、これらの手法は印象的な合成と推論能力を示します。 しかし、既存のVPメソッドは単一の関数で全てのコードを生成するため、精度と解釈可能性の両方において最適でないコードになる。 人間のコーディングプラクティスに触発されて,生成ルーチンを単純化し,より効率的な問題解決を提供し,より複雑なデータ構造を管理可能な再帰的ビジュアルプログラミング(rvp)を提案する。 rvpは人間のコーディングプラクティスにインスパイアされ、反復的な再帰的なコード生成アプローチでvqaタスクにアプローチし、複雑な問題を小さな部分に分割することができる。 特に、rvpは動的型割り当て、すなわちシステムが再帰的に新しいコードを生成するので、適切な戻り型を自律的に決定し、必要なコードを作成して出力を生成することができる。 本稿では,VSR,COVR,GQA,NextQAといったベンチマークの広範な実験を通じて,VQAタスクのコーディングによる解決に人間的な再帰的,モジュールプログラミング技術を採用することの価値を論じる。

Visual Programming (VP) has emerged as a powerful framework for Visual Question Answering (VQA). By generating and executing bespoke code for each question, these methods demonstrate impressive compositional and reasoning capabilities, especially in few-shot and zero-shot scenarios. However, existing VP methods generate all code in a single function, resulting in code that is suboptimal in terms of both accuracy and interpretability. Inspired by human coding practices, we propose Recursive Visual Programming (RVP), which simplifies generated routines, provides more efficient problem solving, and can manage more complex data structures. RVP is inspired by human coding practices and approaches VQA tasks with an iterative recursive code generation approach, allowing decomposition of complicated problems into smaller parts. Notably, RVP is capable of dynamic type assignment, i.e., as the system recursively generates a new piece of code, it autonomously determines the appropriate return type and crafts the requisite code to generate that output. We show RVP's efficacy through extensive experiments on benchmarks including VSR, COVR, GQA, and NextQA, underscoring the value of adopting human-like recursive and modular programming techniques for solving VQA tasks through coding.
翻訳日:2023-12-06 18:01:52 公開日:2023-12-04
# アルツハイマー病の早期診断に向けて:免疫関連血液マーカーの進歩と計算モデリングアプローチ

Towards early diagnosis of Alzheimer's disease: Advances in immune-related blood biomarkers and computational modeling approaches ( http://arxiv.org/abs/2312.02248v1 )

ライセンス: Link先を確認
Sophia Krix, Ella Wilczynski, Neus Falg\`as, Raquel S\'anchez-Valle, Eti Yoles, Uri Nevo, Kuti Baruch, Holger Fr\"ohlich(参考訳) アルツハイマー病は世界中の人口で流行しているが、推奨バイオマーカーに基づく現在の診断法は専門病院でのみ利用可能である。 これらの状況から、アルツハイマー病は通常遅発性と診断され、早期の患者にのみ有効である現在利用可能な治療法とは対照的である。 血液ベースのバイオマーカーは、疾患の早期診断に容易にアクセス可能で低コストな方法のギャップを埋める可能性がある。 特に、末梢免疫系と最近発見された中枢神経系の免疫細胞のクロストークを考えると、免疫ベースの血液バイオマーカーは有望な選択かもしれない。 エージェントベースモデリングのような機械学習アルゴリズムと機械的なモデリングアプローチの助けを借りて、細胞動力学のシミュレーションの詳細な解析が可能であり、また経路シグナルの変化を示す高次元のオミクスリソースも可能である。 本稿では、アルツハイマー病における脳免疫系クロストークの研究の進展を背景として、血液ベースの免疫系関連バイオマーカー発見に現代オミクス技術を活用した最近の機械学習およびメカニスティックモデリングアプローチを概説する。

Alzheimer's disease has an increasing prevalence in the population world-wide, yet current diagnostic methods based on recommended biomarkers are only available in specialized clinics. Due to these circumstances, Alzheimer's disease is usually diagnosed late, which contrasts with the currently available treatment options that are only effective for patients at an early stage. Blood-based biomarkers could fill in the gap of easily accessible and low-cost methods for early diagnosis of the disease. In particular, immune-based blood-biomarkers might be a promising option, given the recently discovered cross-talk of immune cells of the central nervous system with those in the peripheral immune system. With the help of machine learning algorithms and mechanistic modeling approaches, such as agent-based modeling, an in-depth analysis of the simulation of cell dynamics is possible as well as of high-dimensional omics resources indicative of pathway signaling changes. Here, we give a background on advances in research on brain-immune system cross-talk in Alzheimer's disease and review recent machine learning and mechanistic modeling approaches which leverage modern omics technologies for blood-based immune system-related biomarker discovery.
翻訳日:2023-12-06 18:01:29 公開日:2023-12-04
# ターゲットドメインの一般化のためのフェデレーションアクティブラーニング

Federated Active Learning for Target Domain Generalisation ( http://arxiv.org/abs/2312.02247v1 )

ライセンス: Link先を確認
Razvan Caramalau, Binod Bhattarai, Danail Stoyanov(参考訳) 本稿では,2つの学習パラダイムの強みを生かして,対象領域一般化のための連合学習におけるアクティブラーニングフレームワークを提案する。 我々のフレームワークであるFEDALVは、アクティブラーニング(AL)とフェデレートドメイン一般化(FDG)で構成され、限られたソースドメインクライアントのデータから訓練された画像分類モデルの一般化を可能にする。 この目的のために、当社のFDGであるFEDAは、トレーニング中の2つの最適化アップデートで構成されています。 クライアントにとって、導入された損失は、機能複雑性と条件整合性を減らすことを目的としており、サーバでは、グローバルモデルによって得られたソースとターゲットの間の自由エネルギーバイアスを制限する。 FEDALの残りのコンポーネントは可変予算のALであり、サーバにターゲットとするクライアントの最も情報性の高いローカルデータを検索してサンプリングするよう問い合わせる。 従来のFDGベースラインとFederated Active Learningベースラインとを比較し,FDG w/とw/o ALの複数の実験を行った。 広範な定量的実験により,本手法の精度と効率が,複数の現代手法と比較して優れていることを示した。 FEDALVは、ソースクライアントのデータの5%をサンプリングしながら、完全なトレーニング対象精度の性能を得る。

In this paper, we introduce Active Learning framework in Federated Learning for Target Domain Generalisation, harnessing the strength from both learning paradigms. Our framework, FEDALV, composed of Active Learning (AL) and Federated Domain Generalisation (FDG), enables generalisation of an image classification model trained from limited source domain client's data without sharing images to an unseen target domain. To this end, our FDG, FEDA, consists of two optimisation updates during training, one at the client and another at the server level. For the client, the introduced losses aim to reduce feature complexity and condition alignment, while in the server, the regularisation limits free energy biases between source and target obtained by the global model. The remaining component of FEDAL is AL with variable budgets, which queries the server to retrieve and sample the most informative local data for the targeted client. We performed multiple experiments on FDG w/ and w/o AL and compared with both conventional FDG baselines and Federated Active Learning baselines. Our extensive quantitative experiments demonstrate the superiority of our method in accuracy and efficiency compared to the multiple contemporary methods. FEDALV manages to obtain the performance of the full training target accuracy while sampling as little as 5% of the source client's data.
翻訳日:2023-12-06 18:01:09 公開日:2023-12-04
# 条件付き変分拡散モデル

Conditional Variational Diffusion Models ( http://arxiv.org/abs/2312.02246v1 )

ライセンス: Link先を確認
Gabriel della Maggiora, Luis Alberto Croquevielle, Nikita Desphande, Harry Horsley, Thomas Heinis, Artur Yakimovich(参考訳) 逆問題とは、工学と科学における重要な課題である観測からパラメータを決定することである。 近年、生成モデル、特に拡散モデルがこの領域で、現実的な解と優れた数学的性質を生み出す能力で人気を集めている。 拡散モデルの成功にもかかわらず、拡散モデルの重要な欠点は拡散過程のダイナミクスを制御する分散スケジュールの選択に対する感度である。 このスケジュールを特定のアプリケーション向けに微調整することは重要だが、時間的コストがかかり、最適な結果が保証されない。 トレーニングプロセスの一環として,スケジュール学習のための新しい手法を提案する。 提案手法は,データに対する確率的条件付けをサポートし,高品質なソリューションを提供し,柔軟性があり,最小限のオーバーヘッドで異なるアプリケーションに適応できることを示す。 このアプローチは、超解像顕微鏡と定量的位相イメージングという2つの非関係の逆問題で検証され、従来の手法と同等あるいは優れた結果が得られる。 実験によるスケジュールの微調整は、よりよい結果をもたらす安定した方法でトレーニング中に学習できるため、避けるべきである。

Inverse problems aim to determine parameters from observations, a crucial task in engineering and science. Lately, generative models, especially diffusion models, have gained popularity in this area for their ability to produce realistic solutions and their good mathematical properties. Despite their success, an important drawback of diffusion models is their sensitivity to the choice of variance schedule, which controls the dynamics of the diffusion process. Fine-tuning this schedule for specific applications is crucial but time-costly and does not guarantee an optimal result. We propose a novel approach for learning the schedule as part of the training process. Our method supports probabilistic conditioning on data, provides high-quality solutions, and is flexible, proving able to adapt to different applications with minimum overhead. This approach is tested in two unrelated inverse problems: super-resolution microscopy and quantitative phase imaging, yielding comparable or superior results to previous methods and fine-tuned diffusion models. We conclude that fine-tuning the schedule by experimentation should be avoided because it can be learned during training in a stable way that yields better results.
翻訳日:2023-12-06 18:00:46 公開日:2023-12-04
# ゼロショット3Dポイントクラウド理解のための幾何学的集約

Geometrically-driven Aggregation for Zero-shot 3D Point Cloud Understanding ( http://arxiv.org/abs/2312.02244v1 )

ライセンス: Link先を確認
Guofeng Mei and Luigi Riz and Yiming Wang and Fabio Poiesi(参考訳) zero-shot 3d point cloud understandingは2d vision-language models (vlms)によって実現できる。 既存の戦略では、レンダリングまたはキャプチャされたビューの2dピクセルから3dポイントへのビジョン言語モデルを直接マッピングし、内在的で表現可能なポイントクラウド幾何構造を見渡す。 幾何学的に類似した領域や近接領域は、意味的な情報を共有する可能性が高く、ポイントクラウドの理解を促進するために利用される。 そこで本研究では,point cloudの3次元幾何構造を活用し,トランスファービジョン言語モデルの品質を向上させる,最初のトレーニングフリーアグリゲーション手法を提案する。 提案手法は,幾何学的および意味的点レベルの推論に基づいて,局所的・言語的集約を行う。 本手法は,合成/実世界,屋内/外の両方のシナリオを表わす様々なデータセットを用いて,分類,部分分割,意味セグメンテーションの3つの下流タスクに対してベンチマークを行う。 提案手法は,すべてのベンチマークにおいて新しい最先端結果を実現する。 ソースコードを公開します。

Zero-shot 3D point cloud understanding can be achieved via 2D Vision-Language Models (VLMs). Existing strategies directly map Vision-Language Models from 2D pixels of rendered or captured views to 3D points, overlooking the inherent and expressible point cloud geometric structure. Geometrically similar or close regions can be exploited for bolstering point cloud understanding as they are likely to share semantic information. To this end, we introduce the first training-free aggregation technique that leverages the point cloud's 3D geometric structure to improve the quality of the transferred Vision-Language Models. Our approach operates iteratively, performing local-to-global aggregation based on geometric and semantic point-level reasoning. We benchmark our approach on three downstream tasks, including classification, part segmentation, and semantic segmentation, with a variety of datasets representing both synthetic/real-world, and indoor/outdoor scenarios. Our approach achieves new state-of-the-art results in all benchmarks. We will release the source code publicly.
翻訳日:2023-12-06 18:00:29 公開日:2023-12-04
# FlowHON:高次ネットワークを用いた流れ場表現

FlowHON: Representing Flow Fields Using Higher-Order Networks ( http://arxiv.org/abs/2312.02243v1 )

ライセンス: Link先を確認
Nan Chen, Zhihong Li, Jun Tao(参考訳) フローフィールドは、ブロック的な関係に基づく超並列計算と解析のために、しばしばデータブロックに分割される。 しかし,従来の手法のほとんどはブロック間の一階依存性のみを考慮しており,複雑なフローパターンの記述には不十分である。 本研究では,フローフィールドから高次ネットワーク(HON)を構築するためのFlowHONを提案する。 FlowHONは、フローフィールドに固有の高次の依存関係をノードとしてキャプチャし、それらの間の遷移をエッジとして推定する。 我々はHON構造を3つの線形変換を用いた最適化問題として定式化する。 最初の2層はノード生成に対応し、3層はエッジ推定に対応する。 この定式化により,ノード生成とエッジ推定を統一フレームワークで解くことができる。 FlowHONでは、フローフィールドを解析するための変更なしに従来のグラフアルゴリズムのリッチなセットを適用することができ、高次情報を活用して固有の構造を理解し、効率よくフローデータを管理することができる。 本研究では,トレース中の粒子密度の推定,データ管理のためのフローフィールドの分割,ネットワークのノードリンク図表現を用いたフローフィールドの理解など,一連の下流タスクを用いてflowhonの有効性を示す。

Flow fields are often partitioned into data blocks for massively parallel computation and analysis based on blockwise relationships. However, most of the previous techniques only consider the first-order dependencies among blocks, which is insufficient in describing complex flow patterns. In this work, we present FlowHON, an approach to construct higher-order networks (HONs) from flow fields. FlowHON captures the inherent higher-order dependencies in flow fields as nodes and estimates the transitions among them as edges. We formulate the HON construction as an optimization problem with three linear transformations. The first two layers correspond to the node generation and the third one corresponds to edge estimation. Our formulation allows the node generation and edge estimation to be solved in a unified framework. With FlowHON, the rich set of traditional graph algorithms can be applied without any modification to analyze flow fields, while leveraging the higher-order information to understand the inherent structure and manage flow data for efficiency. We demonstrate the effectiveness of FlowHON using a series of downstream tasks, including estimating the density of particles during tracing, partitioning flow fields for data management, and understanding flow fields using the node-link diagram representation of networks.
翻訳日:2023-12-06 18:00:12 公開日:2023-12-04
# セマンティックセグメンテーションにおけるマルチモーダルと欠落モードシナリオに対するコントラスト学習に基づくスペクトル知識蒸留

Contrastive Learning-Based Spectral Knowledge Distillation for Multi-Modality and Missing Modality Scenarios in Semantic Segmentation ( http://arxiv.org/abs/2312.02240v1 )

ライセンス: Link先を確認
Aniruddh Sikdar, Jayant Teotia, Suresh Sundaram(参考訳) マルチスペクトル情報を用いたセマンティクスセグメンテーションモデルの性能向上は,特に低照度環境と悪条件環境において重要である。 マルチモーダル融合技術は、融合画像を生成するためにクロスモーダル特徴を学習するか、知識蒸留を行うかのどちらかを追求するが、マルチモーダルと欠如したモーダルシナリオを異なる問題として扱う。 これに対処するために,光(eo)画像と赤外線(ir)画像における意味セグメンテーションのための混合特徴交換機構と対比学習に基づくスペクトル知識蒸留技術を用いた,csk-netと呼ばれる新しいマルチモーダル融合手法を提案する。 蒸留方式は、光学画像から詳細なテクスチャを抽出し、CSK-Netの光学枝に蒸留する。 モデルエンコーダは、共有畳み込み重みと、両方のモードに対して別々のバッチノルム(BN)層から構成され、同じオブジェクトの異なるモードからマルチスペクトル情報をキャプチャする。 新たなゲートスペクトル単位 (gsu) と混合特徴交換戦略を提案し, 蒸留過程におけるモダリティ共有情報の相関性を高め, モダリティ固有情報を減少させる。 総合的な実験により、CSK-Netは3つの公開ベンチマークデータセットでの推論にIRデータのみを利用する場合、マルチモーダルタスクやモダリティの欠如において最先端モデルを上回ることが示されている。 モダリティの欠如のシナリオでは、ベースラインセグメンテーションモデルと比較して計算コストが増すことなく性能が向上する。

Improving the performance of semantic segmentation models using multispectral information is crucial, especially for environments with low-light and adverse conditions. Multi-modal fusion techniques pursue either the learning of cross-modality features to generate a fused image or engage in knowledge distillation but address multimodal and missing modality scenarios as distinct issues, which is not an optimal approach for multi-sensor models. To address this, a novel multi-modal fusion approach called CSK-Net is proposed, which uses a contrastive learning-based spectral knowledge distillation technique along with an automatic mixed feature exchange mechanism for semantic segmentation in optical (EO) and infrared (IR) images. The distillation scheme extracts detailed textures from the optical images and distills them into the optical branch of CSK-Net. The model encoder consists of shared convolution weights with separate batch norm (BN) layers for both modalities, to capture the multi-spectral information from different modalities of the same objects. A Novel Gated Spectral Unit (GSU) and mixed feature exchange strategy are proposed to increase the correlation of modality-shared information and decrease the modality-specific information during the distillation process. Comprehensive experiments show that CSK-Net surpasses state-of-the-art models in multi-modal tasks and for missing modalities when exclusively utilizing IR data for inference across three public benchmarking datasets. For missing modality scenarios, the performance increase is achieved without additional computational costs compared to the baseline segmentation models.
翻訳日:2023-12-06 17:59:53 公開日:2023-12-04
# チャネルチャートに基づくビーム予測のためのモデルベースディープラーニング

Model-based Deep Learning for Beam Prediction based on a Channel Chart ( http://arxiv.org/abs/2312.02239v1 )

ライセンス: Link先を確認
Taha Yassine (IETR, INSA Rennes), Baptiste Chatelier (IETR, MERCE-France, INSA Rennes), Vincent Corlay (MERCE-France), Matthieu Crussi\`ere (IETR, INSA Rennes), Stephane Paquelet, Olav Tirkkonen, Luc Le Magoarou (INSA Rennes, IETR)(参考訳) チャネルチャートは、教師なしの方法で無線環境の地図を構築する。 得られたチャート位置は、ビーム予測を含む様々な用途に使用できるチャネル状態情報の低次元圧縮版として見ることができる。 非独立系やセルフリー系では、特定の基地局で計算されたチャートの位置を他の複数の基地局(多分異なる周波数帯域で動作している)に送信し、どのビームを使用するかを予測することができる。 これは、チャート作成を行う基地局だけがチャネル状態情報を必要とし、他の局がチャート位置からビームを直接予測するため、チャネル推定やビーム管理によるオーバーヘッドの劇的な削減につながる可能性がある。 本稿では,チャネルチャートとビーム予測の両方に対して,高度なモデルベースニューラルネットワークアーキテクチャを提案する。 提案手法は現実的な合成チャネルを用いて評価し,有望な結果を得た。

Channel charting builds a map of the radio environment in an unsupervised way. The obtained chart locations can be seen as low-dimensional compressed versions of channel state information that can be used for a wide variety of applications, including beam prediction. In non-standalone or cell-free systems, chart locations computed at a given base station can be transmitted to several other base stations (possibly operating at different frequency bands) for them to predict which beams to use. This potentially yields a dramatic reduction of the overhead due to channel estimation or beam management, since only the base station performing charting requires channel state information, the others directly predicting the beam from the chart location. In this paper, advanced model-based neural network architectures are proposed for both channel charting and beam prediction. The proposed methods are assessed on realistic synthetic channels, yielding promising results.
翻訳日:2023-12-06 17:59:22 公開日:2023-12-04
# X-Adapter: アップグレード拡散モデルのためのプラグインのユニバーサル互換性の追加

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model ( http://arxiv.org/abs/2312.02238v1 )

ライセンス: Link先を確認
Lingmin Ran, Xiaodong Cun, JiaWei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou(参考訳) プリトレーニング済みのプラグイン・アンド・プレイモジュール(ControlNetやLoRAなど)が、拡張されたテキスト・ツー・イメージ拡散モデル(SDXLなど)と直接連携することを可能にするユニバーサル・アップグレード器であるX-Adapterを導入する。 我々は、新しいテキストイメージデータペアで凍結されたアップグレードモデルを制御するために、追加のネットワークをトレーニングすることで、この目標を達成する。 詳細は、X-Adapterが古いモデルの凍結したコピーを保持して、異なるプラグインのコネクタを保存する。 さらに、X-Adapterは、異なるバージョンのモデルからデコーダをブリッジするトレーニング可能なマッピングレイヤを追加し、機能の再マッピングを行う。 再マップされた機能は、アップグレードされたモデルのガイダンスとして使用される。 X-Adapterの誘導能力を高めるために、アップグレードされたモデルに対してnull-textトレーニング戦略を採用する。 トレーニング後,X-Adapterの初期適応とアップグレードモデルを調整するための2段階の認知戦略を導入する。 我々の戦略のおかげで、X-Adapterは様々なプラグインとの普遍的な互換性を示し、異なるバージョンのプラグインを一緒に動作させることで、拡散コミュニティの機能を拡張することができます。 提案手法の有効性を検証するため,広範な実験を行い,基礎拡散モデルにおけるx-adapterの適用性が向上する可能性が示唆された。

We introduce X-Adapter, a universal upgrader to enable the pretrained plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the upgraded text-to-image diffusion model (e.g., SDXL) without further retraining. We achieve this goal by training an additional network to control the frozen upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a frozen copy of the old model to preserve the connectors of different plugins. Additionally, X-Adapter adds trainable mapping layers that bridge the decoders from models of different versions for feature remapping. The remapped features will be used as guidance for the upgraded model. To enhance the guidance ability of X-Adapter, we employ a null-text training strategy for the upgraded model. After training, we also introduce a two-stage denoising strategy to align the initial latents of X-Adapter and the upgraded model. Thanks to our strategies, X-Adapter demonstrates universal compatibility with various plugins and also enables plugins of different versions to work together, thereby expanding the functionalities of diffusion community. To verify the effectiveness of the proposed method, we conduct extensive experiments and the results show that X-Adapter may facilitate wider application in the upgraded foundational diffusion model.
翻訳日:2023-12-06 17:59:11 公開日:2023-12-04
# 情報ボトルネックを伴う特異正則化はモデルの敵対的ロバスト性を改善する

Singular Regularization with Information Bottleneck Improves Model's Adversarial Robustness ( http://arxiv.org/abs/2312.02237v1 )

ライセンス: Link先を確認
Guanlin Li, Naishan Zheng, Man Zhou, Jie Zhang, Tianwei Zhang(参考訳) 敵対的な例は、ディープラーニングモデルに対する最も深刻な脅威の1つです。 敵対的な例を研究し、擁護するために多くの研究が提案されている。 しかし、これらの研究は、敵対的な情報や摂動の分析を欠いているため、敵対的な事例の謎を明らかにすることはできず、適切な解釈を失う。 本稿では,このギャップを,明確なパターンを持たない非構造雑音として対向的情報を研究することによって埋めることを目的とする。 具体的には、画像を複数の行列に分解し、異なる攻撃に対する敵情報を分析することによって、特異値分解を伴う実証的研究を行う。 本報告では,解析に基づいて,中間表現を理論的に制限する情報ボトルネック理論とを結合する新たなモジュールを提案する。 したがって,本手法は解釈可能である。 さらに、我々のデザインの流行は、一般的かつ統一された新しい原則である。 新しいモジュールを組み込んだ2つの主流データセット上の2つの一般的なモデル構造を,種々の逆攻撃で評価した。 その結果,ロバストな精度の向上が示唆された。 一方,本手法は,若干のパラメータを追加するだけで効率的であり,地域的忠実性分析により説明できることを示す。

Adversarial examples are one of the most severe threats to deep learning models. Numerous works have been proposed to study and defend adversarial examples. However, these works lack analysis of adversarial information or perturbation, which cannot reveal the mystery of adversarial examples and lose proper interpretation. In this paper, we aim to fill this gap by studying adversarial information as unstructured noise, which does not have a clear pattern. Specifically, we provide some empirical studies with singular value decomposition, by decomposing images into several matrices, to analyze adversarial information for different attacks. Based on the analysis, we propose a new module to regularize adversarial information and combine information bottleneck theory, which is proposed to theoretically restrict intermediate representations. Therefore, our method is interpretable. Moreover, the fashion of our design is a novel principle that is general and unified. Equipped with our new module, we evaluate two popular model structures on two mainstream datasets with various adversarial attacks. The results indicate that the improvement in robust accuracy is significant. On the other hand, we prove that our method is efficient with only a few additional parameters and able to be explained under regional faithfulness analysis.
翻訳日:2023-12-06 17:58:45 公開日:2023-12-04
# AdsorbRL:逆触媒設計のための深層多目的強化学習

AdsorbRL: Deep Multi-Objective Reinforcement Learning for Inverse Catalysts Design ( http://arxiv.org/abs/2312.02308v1 )

ライセンス: Link先を確認
Romain Lacombe, Lucas Hendren, Khalid El-Awady(参考訳) クリーンエネルギー遷移の中心的な課題は、低エミッション技術のための触媒の開発である。 量子化学のための機械学習の最近の進歩は、吸着エネルギーなどの触媒活性記述子の計算を劇的に加速する。 本稿では,多目的結合エネルギーターゲットを付与した潜在的な触媒を特定することを目的とした,深層強化学習エージェントであるAdsorbRLについて紹介する。 我々は, 化学元素55種の不定形化合物, 二元系および三元系化合物, 約160,000の空間を横切る深層qネットワーク剤を用いて実験を行い, 1吸着当たり2000~3,000個の触媒で知られている吸着エネルギーに基づいて, 極めて少ない報酬を得た。 動作空間を制約するために、Random Edge Traversalを導入し、既知の状態部分グラフ上で単目的DQNエージェントを訓練する。 このアプローチを多目的・目標条件学習に拡張し、DQNエージェントを訓練し、複数の同時ターゲット吸着体に対して最も高い(相対的に低い)吸着エネルギーを持つ物質を特定する。 我々は,多目的装置の探索を奨励する新たなトレーニング手法であるObjective Sub-Samplingを実験し,各ターゲット吸着体に対して平均0.8eVで同時吸着エネルギーの改善を実証した。 その結果, 逆触媒設計問題に適用可能な深層強化学習の可能性が示唆された。

A central challenge of the clean energy transition is the development of catalysts for low-emissions technologies. Recent advances in Machine Learning for quantum chemistry drastically accelerate the computation of catalytic activity descriptors such as adsorption energies. Here we introduce AdsorbRL, a Deep Reinforcement Learning agent aiming to identify potential catalysts given a multi-objective binding energy target, trained using offline learning on the Open Catalyst 2020 and Materials Project data sets. We experiment with Deep Q-Network agents to traverse the space of all ~160,000 possible unary, binary and ternary compounds of 55 chemical elements, with very sparse rewards based on adsorption energy known for only between 2,000 and 3,000 catalysts per adsorbate. To constrain the actions space, we introduce Random Edge Traversal and train a single-objective DQN agent on the known states subgraph, which we find strengthens target binding energy by an average of 4.1 eV. We extend this approach to multi-objective, goal-conditioned learning, and train a DQN agent to identify materials with the highest (respectively lowest) adsorption energies for multiple simultaneous target adsorbates. We experiment with Objective Sub-Sampling, a novel training scheme aimed at encouraging exploration in the multi-objective setup, and demonstrate simultaneous adsorption energy improvement across all target adsorbates, by an average of 0.8 eV. Overall, our results suggest strong potential for Deep Reinforcement Learning applied to the inverse catalysts design problem.
翻訳日:2023-12-06 17:52:14 公開日:2023-12-04
# ウェアラブルを用いた連続監視における機械学習モデル評価の再検討

Reconsideration on evaluation of machine learning models in continuous monitoring using wearables ( http://arxiv.org/abs/2312.02300v1 )

ライセンス: Link先を確認
Cheng Ding, Zhicheng Guo, Cynthia Rudin, Ran Xiao, Fadi B Nahab, Xiao Hu(参考訳) 本稿では,ウェアラブルデバイスを用いた継続的健康モニタリングのための機械学習(ml)モデルの評価における課題について検討する。 本稿では, 現実の変動性, 疾患のダイナミクス, ユーザ固有の特徴, 誤報の頻度によって生じる複雑さについて述べる。 本論文は、大規模心臓研究の知見を引用し、継続的健康モニタリングにおける堅牢なMLモデル評価のための包括的ガイドラインを提供する。

This paper explores the challenges in evaluating machine learning (ML) models for continuous health monitoring using wearable devices beyond conventional metrics. We state the complexities posed by real-world variability, disease dynamics, user-specific characteristics, and the prevalence of false notifications, necessitating novel evaluation strategies. Drawing insights from large-scale heart studies, the paper offers a comprehensive guideline for robust ML model evaluation on continuous health monitoring.
翻訳日:2023-12-06 17:51:48 公開日:2023-12-04
# ランダム林を用いた綿花収量予測

Cotton Yield Prediction Using Random Forest ( http://arxiv.org/abs/2312.02299v1 )

ライセンス: Link先を確認
Alakananda Mitra, Sahila Beegum, David Fleisher, Vangimalla R. Reddy, Wenguang Sun, Chittaranjan Ray, Dennis Timlin, Arindam Malakar(参考訳) 米国の綿産業は、土壌の健康と綿生産を改善しながら、水、土地、エネルギー消費を最小限に抑える持続可能な生産慣行を約束している。 温暖な農業技術が開発され、生産コストの削減が図られている。 一方、作物の収量予測は、品種、土壌の種類、管理、害虫と病害、気候、作物の気候パターンが複雑で非線形な影響をもたらすため困難である。 この問題を解決するために, 気候変動, 土壌多様性, 品種, 無機窒素レベルを考慮しつつ, 生産予測に機械学習(ml)を応用した。 1980年代から1990年代にかけて、フィールドデータはアメリカ合衆国南部コットンベルトに集められた。 過去6年間の気候変動の影響を捉えるため、プロセスベースの作物モデルであるGOSSYMを用いて第2のデータソースが作成された。 我々は、南部3州(テキサス州、ミシシッピ州、ジョージア州)の3つの異なる地域に集中した。 計算を単純化するため, 時系列気象データを用いて, 実験データの集合ごとに蓄積した熱ユニット(AHU)を類似体として使用した。 ランダムフォレスト回帰器は97.75%の精度で、根平均2乗誤差は55.05 kg/ha、R2は約0.98である。 これらの結果から,綿花の温暖化対策を支援するため,ML手法を信頼性と使い勝手の良いモデルとして開発・適用する方法が示唆された。

The cotton industry in the United States is committed to sustainable production practices that minimize water, land, and energy use while improving soil health and cotton output. Climate-smart agricultural technologies are being developed to boost yields while decreasing operating expenses. Crop yield prediction, on the other hand, is difficult because of the complex and nonlinear impacts of cultivar, soil type, management, pest and disease, climate, and weather patterns on crops. To solve this issue, we employ machine learning (ML) to forecast production while considering climate change, soil diversity, cultivar, and inorganic nitrogen levels. From the 1980s to the 1990s, field data were gathered across the southern cotton belt of the United States. To capture the most current effects of climate change over the previous six years, a second data source was produced using the process-based crop model, GOSSYM. We concentrated our efforts on three distinct areas inside each of the three southern states: Texas, Mississippi, and Georgia. To simplify the amount of computations, accumulated heat units (AHU) for each set of experimental data were employed as an analogy to use time-series weather data. The Random Forest Regressor yielded a 97.75% accuracy rate, with a root mean square error of 55.05 kg/ha and an R2 of around 0.98. These findings demonstrate how an ML technique may be developed and applied as a reliable and easy-to-use model to support the cotton climate-smart initiative.
翻訳日:2023-12-06 17:51:40 公開日:2023-12-04
# MoE-AMC:Mixture-of-Expertsを用いた自動変調分類性能の向上

MoE-AMC: Enhancing Automatic Modulation Classification Performance Using Mixture-of-Experts ( http://arxiv.org/abs/2312.02298v1 )

ライセンス: Link先を確認
Jiaxin Gao, Qinglong Cao, Yuntian Chen(参考訳) 自動変調分類(AMC)は、無線通信における信号分類や識別などの時系列解析において重要な役割を果たす。 ディープラーニングベースのamcモデルは、この分野で大きな可能性を示しています。 しかし、現在のAMCモデルは、低信号量比 (SNR) と高信号量比 (SNR) の条件下での信号処理の相違を不適切に考慮し、その結果、その性能が不均一となる。 本研究では,様々なSNR条件にまたがって,AMCを適切にバランスよく処理するための新しいMixture-of-Experts(MoE)モデルであるMoE-AMCを提案する。 MoEフレームワークを利用することで、低SNR信号を扱うLSRM(Transformer-based model)と高SNR信号を扱うHSRM(ResNet-based model)の長所をシームレスに結合する。 この統合により、MoE-AMCは変調分類における先進的な性能を達成することができ、様々なSNRシナリオの下で信号の特徴を捉える効果を示す。 我々はRML2018.01aデータセットを用いて実験を行い、MoE-AMCは異なるSNRレベルの平均分類精度71.76%を達成し、従来のSOTAモデルの性能を10%近く上回った。 本研究は、無線通信システムにおける信号分類精度を高めるための有望な道を提供する、AMC領域におけるMoE技術の先駆的な応用である。

Automatic Modulation Classification (AMC) plays a vital role in time series analysis, such as signal classification and identification within wireless communications. Deep learning-based AMC models have demonstrated significant potential in this domain. However, current AMC models inadequately consider the disparities in handling signals under conditions of low and high Signal-to-Noise Ratio (SNR), resulting in an unevenness in their performance. In this study, we propose MoE-AMC, a novel Mixture-of-Experts (MoE) based model specifically crafted to address AMC in a well-balanced manner across varying SNR conditions. Utilizing the MoE framework, MoE-AMC seamlessly combines the strengths of LSRM (a Transformer-based model) for handling low SNR signals and HSRM (a ResNet-based model) for high SNR signals. This integration empowers MoE-AMC to achieve leading performance in modulation classification, showcasing its efficacy in capturing distinctive signal features under diverse SNR scenarios. We conducted experiments using the RML2018.01a dataset, where MoE-AMC achieved an average classification accuracy of 71.76% across different SNR levels, surpassing the performance of previous SOTA models by nearly 10%. This study represents a pioneering application of MoE techniques in the realm of AMC, offering a promising avenue for elevating signal classification accuracy within wireless communication systems.
翻訳日:2023-12-06 17:51:14 公開日:2023-12-04
# LLMによる医療情報抽出の高速化

LLMs Accelerate Annotation for Medical Information Extraction ( http://arxiv.org/abs/2312.02296v1 )

ライセンス: Link先を確認
Akshay Goel, Almog Gueta, Omry Gilon, Chang Liu, Sofia Erell, Lan Huong Nguyen, Xiaohong Hao, Bolous Jaber, Shashir Reddy, Rupesh Kartha, Jean Steiner, Itay Laish, Amir Feder(参考訳) 電子健康記録における臨床ノートの構造化されていない性質は、しばしば重要な患者関連情報を隠蔽し、アクセスや解釈が困難になる。 この隠れた情報を明らかにするには、特殊な自然言語処理(NLP)モデルが必要である。 しかし、これらのモデルをトレーニングするには大量のラベル付きデータが必要である。 本稿では,大規模言語モデル(llm)と人間の専門知識を組み合わせることによって,医学的テキストアノテーションのための根拠真理ラベルを生成する効率的な手法を提案する。 LLMを人間のアノテーションと組み合わせることで、人間のアノテーションの負担を大幅に軽減し、ラベル付きデータセットの迅速な作成を可能にします。 我々は,医療情報抽出作業における手法を厳格に評価し,アプローチが人的介入を大幅に削減するだけでなく,高い精度を維持していることを示す。 その結果,LLMを用いて非構造的臨床データの利用を改善する可能性を強調し,医療におけるNLPソリューションの迅速な展開を可能にした。

The unstructured nature of clinical notes within electronic health records often conceals vital patient-related information, making it challenging to access or interpret. To uncover this hidden information, specialized Natural Language Processing (NLP) models are required. However, training these models necessitates large amounts of labeled data, a process that is both time-consuming and costly when relying solely on human experts for annotation. In this paper, we propose an approach that combines Large Language Models (LLMs) with human expertise to create an efficient method for generating ground truth labels for medical text annotation. By utilizing LLMs in conjunction with human annotators, we significantly reduce the human annotation burden, enabling the rapid creation of labeled datasets. We rigorously evaluate our method on a medical information extraction task, demonstrating that our approach not only substantially cuts down on human intervention but also maintains high accuracy. The results highlight the potential of using LLMs to improve the utilization of unstructured clinical data, allowing for the swift deployment of tailored NLP solutions in healthcare.
翻訳日:2023-12-06 17:50:46 公開日:2023-12-04
# 走れるが隠せない:本質的な閉塞型認識による歩行認識の改善

You Can Run but not Hide: Improving Gait Recognition with Intrinsic Occlusion Type Awareness ( http://arxiv.org/abs/2312.02290v1 )

ライセンス: Link先を確認
Ayush Gupta, Rama Chellappa(参考訳) 近年,歩行認識は多くの進歩を遂げているが,咬合問題は無視されている。 この問題は、小さな障害が認識システムに影響を及ぼす可能性があるため、制御されていない屋外シーケンスからの歩行認識において特に重要である。 現在のほとんどの方法は、歩行の特徴を抽出しながら完全な身体情報を利用できると仮定している。 身体の一部がオクルードされた場合、これらの方法は、入力に全く存在しない身体部品を探そうとするときに、腐敗した歩行のサインを幻覚して出力する。 これを解決するために,ビデオから識別機能を抽出しながら,学習した閉塞型を利用する。 そこで本研究では,本研究では,内在性隠蔽認識を潜在的に最先端の歩行認識手法にモデル化するための,隠蔽認識手法を提案する。 難易度とブライアのデータセットを用いた実験では,類似したオクルージョンを訓練したネットワークに比べて,このオクルージョン認知度で強化されたネットワークが認識タスクにおいて優れた性能を示すことが示された。

While gait recognition has seen many advances in recent years, the occlusion problem has largely been ignored. This problem is especially important for gait recognition from uncontrolled outdoor sequences at range - since any small obstruction can affect the recognition system. Most current methods assume the availability of complete body information while extracting the gait features. When parts of the body are occluded, these methods may hallucinate and output a corrupted gait signature as they try to look for body parts which are not present in the input at all. To address this, we exploit the learned occlusion type while extracting identity features from videos. Thus, in this work, we propose an occlusion aware gait recognition method which can be used to model intrinsic occlusion awareness into potentially any state-of-the-art gait recognition method. Our experiments on the challenging GREW and BRIAR datasets show that networks enhanced with this occlusion awareness perform better at recognition tasks than their counterparts trained on similar occlusions.
翻訳日:2023-12-06 17:50:29 公開日:2023-12-04
# ハイパーオン・ヌクレオンの散乱における絡み合い抑制のヒント

Hints of Entanglement Suppression in Hyperon-Nucleon Scattering ( http://arxiv.org/abs/2312.02289v1 )

ライセンス: Link先を確認
Qiaofeng Liu, Ian Low(参考訳) ハイパーロン(Y=\Sigma,\Lambda$)-核子(N=n,p$)相互作用は、2つの太陽質量よりも重い中性子星の存在を理解するために重要である。 新たな実験中、量子情報の観点から^<yn$の散乱を研究し、スピンの絡み合いが$np$の散乱で観測され、大域的対称性が強化されるs波チャンネルで抑制されるかどうかに焦点をあてた。 実験データから位相シフトのグローバルフィッティングを用いて,np$の場合と同様,奇妙度$S=-1$セクターの8つのフレーバーチャネル間の絡み合い抑制のヒントを求める。 1つの例外は$\sigma^+p$チャネルであり、矛盾するグローバル適合は決定的な結果をもたらす。 次に、異なる大域的適合を解決するために、$\Sigma^+p$散乱の「量子」可観測式を提案する。

Hyperon ($Y=\Sigma,\Lambda$)-nucleon ($N=n,p$) interactions are crucial for understanding the existence of neutron stars heavier than two solar masses. Amid renewed experimental efforts, we study $YN$ scatterings from the perspective of quantum information, focusing on whether spin entanglement is suppressed in the s-wave channel, which is observed in $np$ scattering and leads to enhanced global symmetries. Using global fits of phase shifts from experimental data, we find hints of entanglement suppression among the eight flavor channels in the strangeness $S=-1$ sector, similar to the $np$ case. One exception is the $\Sigma^+p$ channel, where conflicting global fits lead to inconclusive outcome. We then propose ''quantum'' observables in $\Sigma^+p$ scattering to help resolve the differing global fits.
翻訳日:2023-12-06 17:50:12 公開日:2023-12-04
# PatchFusion: 高分解能単分子深さ推定のためのエンドツーエンドタイルベースフレームワーク

PatchFusion: An End-to-End Tile-Based Framework for High-Resolution Monocular Metric Depth Estimation ( http://arxiv.org/abs/2312.02284v1 )

ライセンス: Link先を確認
Zhenyu Li, Shariq Farooq Bhat, Peter Wonka(参考訳) 単一画像深度推定はコンピュータビジョンと生成モデルの基本課題である。 しかし、一般的な深度推定モデルは、現在の消費者向けカメラやデバイスでよく見られる解像度の増大に対処する。 既存の高解像度戦略は有望であるが、エラーの伝播から高周波の詳細の喪失まで、しばしば制限に直面している。 We present PatchFusion, a novel tile-based framework with three key components to improve the current state of the art: (1) A patch-wise fusion network that fuses a globally-consistent coarse prediction with finer, inconsistent tiled predictions via high-level feature guidance, (2) A Global-to-Local (G2L) module that adds vital context to the fusion network, discarding the need for patch selection heuristics, and (3) A Consistency-Aware Training (CAT) and Inference (CAI) approach, emphasizing patch overlap consistency and thereby eradicating the necessity for post-processing. UnrealStereo4K、MVS-Synth、Middleburry 2014の実験は、我々のフレームワークが複雑な詳細を持つ高分解能深度マップを作成できることを示した。 patchfusionは深度推定のためのベースモデルとは独立である。 特に、SOTA ZoeDepth上に構築された我々のフレームワークは、UnrealStereo4KとMVS-Synthのルート平均二乗誤差(RMSE)の合計で17.3%と29.4%の改善をもたらしている。

Single image depth estimation is a foundational task in computer vision and generative modeling. However, prevailing depth estimation models grapple with accommodating the increasing resolutions commonplace in today's consumer cameras and devices. Existing high-resolution strategies show promise, but they often face limitations, ranging from error propagation to the loss of high-frequency details. We present PatchFusion, a novel tile-based framework with three key components to improve the current state of the art: (1) A patch-wise fusion network that fuses a globally-consistent coarse prediction with finer, inconsistent tiled predictions via high-level feature guidance, (2) A Global-to-Local (G2L) module that adds vital context to the fusion network, discarding the need for patch selection heuristics, and (3) A Consistency-Aware Training (CAT) and Inference (CAI) approach, emphasizing patch overlap consistency and thereby eradicating the necessity for post-processing. Experiments on UnrealStereo4K, MVS-Synth, and Middleburry 2014 demonstrate that our framework can generate high-resolution depth maps with intricate details. PatchFusion is independent of the base model for depth estimation. Notably, our framework built on top of SOTA ZoeDepth brings improvements for a total of 17.3% and 29.4% in terms of the root mean squared error (RMSE) on UnrealStereo4K and MVS-Synth, respectively.
翻訳日:2023-12-06 17:49:55 公開日:2023-12-04
# 量子最適化:可能性、課題、そしてこれからの道

Quantum Optimization: Potential, Challenges, and the Path Forward ( http://arxiv.org/abs/2312.02279v1 )

ライセンス: Link先を確認
Amira Abbas, Andris Ambainis, Brandon Augustino, Andreas B\"artschi, Harry Buhrman, Carleton Coffrin, Giorgio Cortiana, Vedran Dunjko, Daniel J. Egger, Bruce G. Elmegreen, Nicola Franco, Filippo Fratini, Bryce Fuller, Julien Gacon, Constantin Gonciulea, Sander Gribling, Swati Gupta, Stuart Hadfield, Raoul Heese, Gerhard Kircher, Thomas Kleinert, Thorsten Koch, Georgios Korpas, Steve Lenk, Jakub Marecek, Vanio Markov, Guglielmo Mazzola, Stefano Mensa, Naeimeh Mohseni, Giacomo Nannicini, Corey O'Meara, Elena Pe\~na Tapia, Sebastian Pokutta, Manuel Proissl, Patrick Rebentrost, Emre Sahin, Benjamin C. B. Symons, Sabine Tornow, Victor Valls, Stefan Woerner, Mira L. Wolf-Bauwens, Jon Yard, Sheir Yarkoni, Dirk Zechiel, Sergiy Zhuk, Christa Zoufal(参考訳) 量子コンピュータの最近の進歩は、ブラトフォース古典シミュレーションを超えるスケールで問題を解決する能力を示している。 このように、量子アルゴリズムに対する幅広い関心が多くの分野で発展し、最適化は最も顕著な領域の1つである。 コンピュータ科学や物理学の分野では、多くのアルゴリズム的なアプローチがあり、リンクはほとんどない。 これは、組合せ最適化、凸最適化、非凸最適化、確率的拡張といった最適化問題の主要なクラスが専門的なコミュニティを持つ数理最適化の分野の断片化された性質によってさらに複雑である。 これらの側面を念頭に置いて、この研究は量子最適化を研究する複数のアプローチを描いている。 証明可能な正確性とヒューリスティックな設定は、まず計算複雑性理論を使って説明されます。 次に、量子最適化アルゴリズムの核となる構成要素を概説し、次に顕著な問題クラスを定義し、答えればフィールドを前進させる重要なオープン質問を特定する。 ノイズ量子デバイスにおける関連する問題のスケーリングの影響は、有意義なベンチマーク問題とともに、詳細に説明されている。 従来の最適化手法と適切な比較を行うために明確なメトリクスを提案することで、ベンチマークの重要性を強調する。 最後に、ファイナンスとサステナビリティという2つのドメインを、量子最適化の潜在的な現実世界への影響をベンチマークし、最終的に検証するために使用できる最適化問題のリッチなソースとして強調します。

Recent advances in quantum computers are demonstrating the ability to solve problems at a scale beyond brute force classical simulation. As such, a widespread interest in quantum algorithms has developed in many areas, with optimization being one of the most pronounced domains. Across computer science and physics, there are a number of algorithmic approaches, often with little linkage. This is further complicated by the fragmented nature of the field of mathematical optimization, where major classes of optimization problems, such as combinatorial optimization, convex optimization, non-convex optimization, and stochastic extensions, have devoted communities. With these aspects in mind, this work draws on multiple approaches to study quantum optimization. Provably exact versus heuristic settings are first explained using computational complexity theory - highlighting where quantum advantage is possible in each context. Then, the core building blocks for quantum optimization algorithms are outlined to subsequently define prominent problem classes and identify key open questions that, if answered, will advance the field. The effects of scaling relevant problems on noisy quantum devices are also outlined in detail, alongside meaningful benchmarking problems. We underscore the importance of benchmarking by proposing clear metrics to conduct appropriate comparisons with classical optimization techniques. Lastly, we highlight two domains - finance and sustainability - as rich sources of optimization problems that could be used to benchmark, and eventually validate, the potential real-world impact of quantum optimization.
翻訳日:2023-12-06 17:49:34 公開日:2023-12-04
# ALEXR: Convex Finite-Sum結合構成確率最適化のための最適単一ループアルゴリズム

ALEXR: Optimal Single-Loop Algorithms for Convex Finite-Sum Coupled Compositional Stochastic Optimization ( http://arxiv.org/abs/2312.02277v1 )

ライセンス: Link先を確認
Bokun Wang and Tianbao Yang(参考訳) 本稿では,グループ分散ロバスト最適化 (GDRO) や強化学習,ランク付け学習など,多くのアプリケーションにおいて,凸型有限結合合成確率最適化 (cFCCO) の問題のクラスを再検討する。 これらの問題を解決するために、ALEXRと呼ばれる効率的な単ループプリマルデュアルブロック座標アルゴリズム群を導入する。 このアルゴリズムは、主変数の二重変数および確率的近位勾配降下更新に対するブロック座標確率鏡の上昇更新を利用する。 我々は, ALEXR の凸面および強凸面における収束速度を, 関連関数の滑らかさおよび非平滑性条件下で確立し, これまでの滑らかな CFCCO 問題における最良の速度を改善するだけでなく, GDRO の双対形式のようなより困難な非平滑性問題の解法として cFCCO の領域を拡大する。 最後に, cfcco問題に対する一階ブロック座標確率アルゴリズムにおいて, アレクサの収束率が最適であることを示すために, より低い複雑性境界を示す。

This paper revisits a class of convex Finite-Sum Coupled Compositional Stochastic Optimization (cFCCO) problems with many applications, including group distributionally robust optimization (GDRO), reinforcement learning, and learning to rank. To better solve these problems, we introduce a unified family of efficient single-loop primal-dual block-coordinate proximal algorithms, dubbed ALEXR. This algorithm leverages block-coordinate stochastic mirror ascent updates for the dual variable and stochastic proximal gradient descent updates for the primal variable. We establish the convergence rates of ALEXR in both convex and strongly convex cases under smoothness and non-smoothness conditions of involved functions, which not only improve the best rates in previous works on smooth cFCCO problems but also expand the realm of cFCCO for solving more challenging non-smooth problems such as the dual form of GDRO. Finally, we present lower complexity bounds to demonstrate that the convergence rates of ALEXR are optimal among first-order block-coordinate stochastic algorithms for the considered class of cFCCO problems.
翻訳日:2023-12-06 17:49:08 公開日:2023-12-04
# フェルミイオン波パケットの散乱による絡み合い生成:量子計算によるアプローチ

Entanglement production from scattering of fermionic wave packets: a quantum computing approach ( http://arxiv.org/abs/2312.02272v1 )

ライセンス: Link先を確認
Yahui Chai, Arianna Crippa, Karl Jansen, Stefan K\"uhn, Vincent R. Pascuzzi, Francesco Tacchino, Ivano Tavernelli(参考訳) フェルミオンハミルトニアンの相互作用する基底状態の上に運動量を持つガウス波パケットを作成する方法を提案する。 本稿では,デジタル量子コンピュータ上でのウェーブパケットの進化を通じて,観測対象の期待値の効率よく取得する方法を示す。 ティリングモデルのスタッガー格子定式化に適用し, 2つの波束の散乱を調べることにより, 本手法を実証する。 散乱過程中に発生する粒子密度とエントロピーをモニタリングし,その現象を特徴づけ,デジタル量子コンピュータ上でのより複雑な衝突過程を研究するための第一歩となる。 さらに,ibm の量子ハードウェア上で小規模のデモンストレーションを行い,本手法が現在および近い将来の量子デバイスに適していることを示す。

We propose a method to prepare Gaussian wave packets with momentum on top of the interacting ground state of a fermionic Hamiltonian. Using Givens rotation, we show how to efficiently obtain expectation values of observables throughout the evolution of the wave packets on digital quantum computers. We demonstrate our technique by applying it to the staggered lattice formulation of the Thirring model and studying the scattering of two wave packets. Monitoring the the particle density and the entropy produced during the scattering process, we characterize the phenomenon and provide a first step towards studying more complicated collision processes on digital quantum computers. In addition, we perform a small-scale demonstration on IBM's quantum hardware, showing that our method is suitable for current and near-term quantum devices.
翻訳日:2023-12-06 17:48:46 公開日:2023-12-04
# 相関雑音の破壊的干渉による量子情報保護

Protecting Quantum Information via Destructive Interference of Correlated Noise ( http://arxiv.org/abs/2312.02267v1 )

ライセンス: Link先を確認
Alon Salhov, Qingyun Cao, Jianming Cai, Alex Retzker, Fedor Jelezko, Genko Genov(参考訳) デコヒーレンスと不完全制御は量子技術にとって重要な課題である。 共通の保護戦略はノイズ時間的自己相関に依存しており、他の相関が存在する場合には最適ではない。 2つの音源の相互相関を利用した手法を実験的に開発・実証する。 クロス相関ノイズの破壊的干渉による10倍コヒーレンス時間延長を実現し,制御精度の向上,高周波量子センシングの最先端感度を克服し,ノイズ保護戦略の適用性を大幅に向上させた。

Decoherence and imperfect control are crucial challenges for quantum technologies. Common protection strategies rely on noise temporal autocorrelation, which is not optimal if other correlations are present. We develop and demonstrate experimentally a strategy that utilizes the cross-correlation of two noise sources. We achieve a tenfold coherence time extension by destructive interference of cross-correlated noise, improve control fidelity, and surpass the state-of-the-art sensitivity for high frequency quantum sensing, significantly expanding the applicability of noise protection strategies.
翻訳日:2023-12-06 17:48:31 公開日:2023-12-04
# 再構成可能な量子プロセッサを用いた分子・材料のプログラム可能なシミュレーション

Programmable Simulations of Molecules and Materials with Reconfigurable Quantum Processors ( http://arxiv.org/abs/2312.02265v1 )

ライセンス: Link先を確認
Nishad Maskara, Stefan Ostermann, James Shee, Marcin Kalinowski, Abigail McClain Gomez, Rodrigo Araiza Bravo, Derek S. Wang, Anna I. Krylov, Norman Y. Yao, Martin Head-Gordon, Mikhail D. Lukin, and Susanne F. Yelin(参考訳) 量子化学と量子材料のシミュレーションは量子情報処理の最も重要な応用の1つと考えられているが、そのような問題に対する実用的な量子優位性の実現は困難である。 本稿では,モデルスピンハミルトニアンとして表現できる強相関量子システムのためのシミュレーションフレームワークを提案する。 提案手法では、再構成可能な量子ビットアーキテクチャを用いてリアルタイム力学をプログラム的にシミュレートし、量子測定結果の古典的コプロセッシングにより化学的なスペクトル特性を抽出するアルゴリズムを導入する。 本稿では,複雑なスピンスピン相互作用を正確に実現するために,デジタルフロケット工学とハードウェア最適化マルチキュービット演算を用いた効率的なハミルトン時間発展のためのディジタルアナログシミュレーションツールボックスを開発し,その例として,Rydberg atom array に基づく実装提案を提案する。 そして, スナップショット計測と単一アンシラ制御により, これらのダイナミックスから詳細なスペクトル情報を抽出し, 励起エネルギーと有限温度感受性を単一データから評価できることを示す。 このアプローチを説明するために、この方法を用いて多核遷移金属触媒と2d磁性体の鍵物性を計算する方法を示す。

Simulations of quantum chemistry and quantum materials are believed to be among the most important potential applications of quantum information processors, but realizing practical quantum advantage for such problems is challenging. Here, we introduce a simulation framework for strongly correlated quantum systems that can be represented by model spin Hamiltonians. Our approach leverages reconfigurable qubit architectures to programmably simulate real-time dynamics and introduces an algorithm for extracting chemically relevant spectral properties via classical co-processing of quantum measurement results. We develop a digital-analog simulation toolbox for efficient Hamiltonian time evolution utilizing digital Floquet engineering and hardware-optimized multi-qubit operations to accurately realize complex spin-spin interactions, and as an example present an implementation proposal based on Rydberg atom arrays. Then, we show how detailed spectral information can be extracted from these dynamics through snapshot measurements and single-ancilla control, enabling the evaluation of excitation energies and finite-temperature susceptibilities from a single-dataset. To illustrate the approach, we show how this method can be used to compute key properties of a polynuclear transition-metal catalyst and 2D magnetic materials.
翻訳日:2023-12-06 17:48:19 公開日:2023-12-04
# ジェット分類におけるスケーリング法則

Scaling Laws in Jet Classification ( http://arxiv.org/abs/2312.02264v1 )

ライセンス: Link先を確認
Joshua Batson, Yonatan Kahn(参考訳) 衝突型加速器物理学におけるqcdジェット分類問題に対するベンチマークトップにおけるスケーリング則の出現を実証する。 6つの異なる物理的動機を持つ分類器は、異なるパワー法指標を持つトレーニングセットサイズの関数として二項交叉エントロピー試験損失の非合法スケーリングを示す。 この結果は、データセットのスケールアップに伴って最適な分類器が大きく変化する可能性があるため、固定トレーニングセットよりもデータセットサイズの関数として分類器を比較することの重要性を強調している。 我々は,自然言語と画像データセットで観測されるスケーリング則の先行モデルを用いて,結果の解釈について考察する。

We demonstrate the emergence of scaling laws in the benchmark top versus QCD jet classification problem in collider physics. Six distinct physically-motivated classifiers exhibit power-law scaling of the binary cross-entropy test loss as a function of training set size, with distinct power law indices. This result highlights the importance of comparing classifiers as a function of dataset size rather than for a fixed training set, as the optimal classifier may change considerably as the dataset is scaled up. We speculate on the interpretation of our results in terms of previous models of scaling laws observed in natural language and image datasets.
翻訳日:2023-12-06 17:47:46 公開日:2023-12-04
# emdm:高速かつ高品質な動き生成のための効率的な動き拡散モデル

EMDM: Efficient Motion Diffusion Model for Fast, High-Quality Motion Generation ( http://arxiv.org/abs/2312.02256v1 )

ライセンス: Link先を確認
Wenyang Zhou, Zhiyang Dou, Zeyu Cao, Zhouyingcheng Liao, Jingbo Wang, Wenjia Wang, Yuan Liu, Taku Komura, Wenping Wang, Lingjie Liu(参考訳) 高速かつ高品質な動き生成のための効率的な運動拡散モデル(emdm)を提案する。 従来の運動拡散モデルでは印象的な結果が得られたが、高品質な人間の動きを維持しながら高速な生成に苦慮している。 効率的な動き生成のための潜伏拡散法が提案されている。 しかし、潜在空間を効果的に学習することは、そのような2段階的な方法では非自明である。 一方、ステップサイズを増加させることによるモーションサンプリングの高速化、例えばddimは、ステップサイズをナイーブに増加させた場合、複雑なデータ分布の近似による動作品質の低下につながる。 本稿では,複数のサンプリングステップにおける複雑な雑音分布をモデル化することにより,高速動作生成のためのサンプルステップをはるかに少なくできるemdmを提案する。 具体的には,両制御信号,すなわちテキスト記述と復調時間ステップで条件付けられたマルチモーダルデータ分布をキャプチャする条件記述拡散GANを開発する。 複雑なデータ分布をモデル化することにより、より大きなサンプリングステップサイズと少ないステップがモーション合成中に達成され、生成プロセスが大幅に加速される。 人間のダイナミクスを効果的に捉え、望ましくないアーティファクトを減らすために、ネットワークトレーニング中に運動幾何学的損失を採用し、動作品質とトレーニング効率を向上させる。 その結果、EMDMは、忠実度と多様性の点で高品質なモーション生成を維持しつつ、生成段階で顕著なスピードアップを達成する。

We introduce Efficient Motion Diffusion Model (EMDM) for fast and high-quality human motion generation. Although previous motion diffusion models have shown impressive results, they struggle to achieve fast generation while maintaining high-quality human motions. Motion latent diffusion has been proposed for efficient motion generation. However, effectively learning a latent space can be non-trivial in such a two-stage manner. Meanwhile, accelerating motion sampling by increasing the step size, e.g., DDIM, typically leads to a decline in motion quality due to the inapproximation of complex data distributions when naively increasing the step size. In this paper, we propose EMDM that allows for much fewer sample steps for fast motion generation by modeling the complex denoising distribution during multiple sampling steps. Specifically, we develop a Conditional Denoising Diffusion GAN to capture multimodal data distributions conditioned on both control signals, i.e., textual description and denoising time step. By modeling the complex data distribution, a larger sampling step size and fewer steps are achieved during motion synthesis, significantly accelerating the generation process. To effectively capture the human dynamics and reduce undesired artifacts, we employ motion geometric loss during network training, which improves the motion quality and training efficiency. As a result, EMDM achieves a remarkable speed-up at the generation stage while maintaining high-quality motion generation in terms of fidelity and diversity.
翻訳日:2023-12-06 17:47:25 公開日:2023-12-04
# clipdrawx:テキストガイドスケッチ合成のためのプリミティブベースの説明

CLIPDrawX: Primitive-based Explanations for Text Guided Sketch Synthesis ( http://arxiv.org/abs/2312.02345v1 )

ライセンス: Link先を確認
Nityanand Mathur, Shyam Marjit, Abhra Chaudhuri, Anjan Dutta(参考訳) テキストプロンプトとCLIPが関連付ける視覚概念を理解することを目的として,CLIPの潜在空間を円や直線のような単純な幾何学的原始体上の線形変換のみで視覚化できることを示す。 既存のアプローチはスケッチ合成-スルー-最適化(英語版)によってこれを達成しているが、それらはB\'ezier曲線の空間で実現しており、それらは意味のあるスケッチを生成するのに必要ではないため、それらが進化できる構造を無駄に多く示している。 私たちはCLIPDrawXという,直線や円のような単純な原始形状のみを用いて,CLIPテキストの埋め込みをはるかによく視覚化するアルゴリズムを提案する。 これはこれらのプリミティブ上の線型変換に可能な出力の集合を制約し、本質的により単純な数学的形式を示す。 CLIPDrawXの合成プロセスはエンドツーエンドで追跡でき、各視覚概念はプリミティブの観点からのみ説明される。 実装は受け入れ次第リリースされる。 プロジェクトページ: $\href{https://clipdrawx.github.io/}{\text{https://clipdrawx.github.io/}}$

With the goal of understanding the visual concepts that CLIP associates with text prompts, we show that the latent space of CLIP can be visualized solely in terms of linear transformations on simple geometric primitives like circles and straight lines. Although existing approaches achieve this by sketch-synthesis-through-optimization, they do so on the space of B\'ezier curves, which exhibit a wastefully large set of structures that they can evolve into, as most of them are non-essential for generating meaningful sketches. We present CLIPDrawX, an algorithm that provides significantly better visualizations for CLIP text embeddings, using only simple primitive shapes like straight lines and circles. This constrains the set of possible outputs to linear transformations on these primitives, thereby exhibiting an inherently simpler mathematical form. The synthesis process of CLIPDrawX can be tracked end-to-end, with each visual concept being explained exclusively in terms of primitives. Implementation will be released upon acceptance. Project Page: $\href{https://clipdrawx.github.io/}{\text{https://clipdrawx.github.io/}}$.
翻訳日:2023-12-06 17:39:54 公開日:2023-12-04
# STEREOFOG -- 実世界のデータセット上の画像間変換による計算デフォッギング

STEREOFOG -- Computational DeFogging via Image-to-Image Translation on a real-world Dataset ( http://arxiv.org/abs/2312.02344v1 )

ライセンス: Link先を確認
Anton Pollak, Rajesh Menon(参考訳) 画像から画像への変換(I2I)は機械学習(ML)のサブタイプであり、画像の2つの領域と、霧の除去などの2つの領域間の翻訳の必要性があるアプリケーションにおいて、大きなポテンシャルを持つ。 例えば、現在霧のような悪天候に苦しむ自動運転車にとって、これは役立つだろう。 しかし、i2iタスクのデータセットは豊富ではなく、通常は取得が難しい。 ここでは,この領域におけるI2Iの可能性を探るため,カスタムデバイスを用いて撮影した10,067ドルのぼかしと鮮明な画像からなるデータセットであるSTEREOFOGを紹介する。 私たちの知る限りでは、この種の現実世界のデータセットはこれが唯一のものです。 さらに、このデータセットにpix2pix i2i mlフレームワークを適用し最適化する。 最終モデルは、平均的な複素ウェーブレット構造類似度(CW-SSIM)スコアを0.76$で達成し、この問題に対するテクニックの適合性を証明した。

Image-to-Image translation (I2I) is a subtype of Machine Learning (ML) that has tremendous potential in applications where two domains of images and the need for translation between the two exist, such as the removal of fog. For example, this could be useful for autonomous vehicles, which currently struggle with adverse weather conditions like fog. However, datasets for I2I tasks are not abundant and typically hard to acquire. Here, we introduce STEREOFOG, a dataset comprised of $10,067$ paired fogged and clear images, captured using a custom-built device, with the purpose of exploring I2I's potential in this domain. It is the only real-world dataset of this kind to the best of our knowledge. Furthermore, we apply and optimize the pix2pix I2I ML framework to this dataset. With the final model achieving an average Complex Wavelet-Structural Similarity (CW-SSIM) score of $0.76$, we prove the technique's suitability for the problem.
翻訳日:2023-12-06 17:39:31 公開日:2023-12-04
# スペクトル幾何学学習のための表現記号同変ネットワーク

Expressive Sign Equivariant Networks for Spectral Geometric Learning ( http://arxiv.org/abs/2312.02339v1 )

ライセンス: Link先を確認
Derek Lim and Joshua Robinson and Stefanie Jegelka and Haggai Maron(参考訳) 近年の研究では、固有ベクトルの構造と対称性を尊重する機械学習モデルの開発の有用性が示されている。 なぜなら、任意の固有ベクトル v に対して、否定-v もまた固有ベクトルであるからである。 しかし,直交同値モデルの構築や,グラフにおけるリンク予測のためのノード位置符号化の学習といったタスクでは,符号不変性が理論的に制限されている。 本研究では,これらのタスクに対する符号同分散の利点を実証する。 これらの利点を得るために,我々は新しい符号同変ニューラルネットワークアーキテクチャを開発した。 我々のモデルは符号同変多項式の新たな解析的特徴に基づくため、証明可能な表現性特性を継承する。 制御された合成実験は、ネットワークが理論上予測される符号同変モデルの利点を実現できることを示した。 コードはhttps://github.com/cptq/Sign-Equivariant-Netsで入手できる。

Recent work has shown the utility of developing machine learning models that respect the structure and symmetries of eigenvectors. These works promote sign invariance, since for any eigenvector v the negation -v is also an eigenvector. However, we show that sign invariance is theoretically limited for tasks such as building orthogonally equivariant models and learning node positional encodings for link prediction in graphs. In this work, we demonstrate the benefits of sign equivariance for these tasks. To obtain these benefits, we develop novel sign equivariant neural network architectures. Our models are based on a new analytic characterization of sign equivariant polynomials and thus inherit provable expressiveness properties. Controlled synthetic experiments show that our networks can achieve the theoretically predicted benefits of sign equivariant models. Code is available at https://github.com/cptq/Sign-Equivariant-Nets.
翻訳日:2023-12-06 17:39:12 公開日:2023-12-04
# テキスト・画像合成のためのコントラスト構成ベンチマーク:統一テキスト・画像の忠実度指標を用いた検討

A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A Study with Unified Text-to-Image Fidelity Metrics ( http://arxiv.org/abs/2312.02338v1 )

ライセンス: Link先を確認
Xiangru Zhu, Penglei Sun, Chengyu Wang, Jingping Liu, Zhixu Li, Yanghua Xiao, Jun Huang(参考訳) text-to-image (t2i) 合成は近年大きな進歩を遂げている。 しかし、既知のコンポーネントから新しい組み合わせを作成する能力であるモデルの構成性には課題が残っている。 我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。 このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。 これらの微妙な相違のある対照的な文対は、T2I合成モデルのきめ細かい評価を可能にする。 さらに,異なる指標間の不整合に対処するために,比較文ペアを用いて様々な指標の信頼性を評価する戦略を提案する。 我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を持つ。 最後に、これらの指標の長所と短所、および様々な複雑な構成カテゴリにわたる課題に対処する現在のT2Iモデルの能力について考察する。 私たちのベンチマークはhttps://github.com/zhuxiangru/Winoground-T2Iで公開されています。

Text-to-image (T2I) synthesis has recently achieved significant advancements. However, challenges remain in the model's compositionality, which is the ability to create new combinations from known components. We introduce Winoground-T2I, a benchmark designed to evaluate the compositionality of T2I models. This benchmark includes 11K complex, high-quality contrastive sentence pairs spanning 20 categories. These contrastive sentence pairs with subtle differences enable fine-grained evaluations of T2I synthesis models. Additionally, to address the inconsistency across different metrics, we propose a strategy that evaluates the reliability of various metrics by using comparative sentence pairs. We use Winoground-T2I with a dual objective: to evaluate the performance of T2I models and the metrics used for their evaluation. Finally, we provide insights into the strengths and weaknesses of these metrics and the capabilities of current T2I models in tackling challenges across a range of complex compositional categories. Our benchmark is publicly available at https://github.com/zhuxiangru/Winoground-T2I .
翻訳日:2023-12-06 17:38:58 公開日:2023-12-04
# テキストの分布変化の測定:言語モデルに基づく埋め込みの利点

Measuring Distributional Shifts in Text: The Advantage of Language Model-Based Embeddings ( http://arxiv.org/abs/2312.02337v1 )

ライセンス: Link先を確認
Gyandev Gupta, Bashir Rastegarpanah, Amalendu Iyer, Joshua Rubin, Krishnaram Kenthapadi(参考訳) 生産における機械学習モデル監視の重要な部分は、入力と出力データのドリフトを測定することである。 本稿では,自然言語データの分布変化を計測するシステムを提案し,この問題に大規模言語モデル(LLM)を用いることによる潜在的利点を強調・検討する。 近年のLLMの進歩と異なる分野への導入の成功は、様々な自然言語処理問題を解くための意味的関係を捉える上での有効性を示している。 LLMのパワーは、主に対応するニューラルネットワークの隠された層で生成されるエンコーディング(埋め込み)に由来する。 まず,このような組込みを活用し,テキストデータの分布変化を測定するクラスタリングに基づくアルゴリズムを提案する。 次に,llmと古典組込みアルゴリズムの両方によって生成されたテキスト組込みに適用する手法の有効性について検討する。 本実験により,LLMを用いた汎用埋め込みは,他の埋め込み手法と比較してデータドリフトに対する感度が高いことがわかった。 言語モデルを比較する際に考慮すべき重要な評価指標としてドリフト感度を提案する。 最後に、Fiddler ML Monitoringプラットフォームの一部として、フレームワークのデプロイから学んだ洞察と教訓を18ヶ月にわたって提示する。

An essential part of monitoring machine learning models in production is measuring input and output data drift. In this paper, we present a system for measuring distributional shifts in natural language data and highlight and investigate the potential advantage of using large language models (LLMs) for this problem. Recent advancements in LLMs and their successful adoption in different domains indicate their effectiveness in capturing semantic relationships for solving various natural language processing problems. The power of LLMs comes largely from the encodings (embeddings) generated in the hidden layers of the corresponding neural network. First we propose a clustering-based algorithm for measuring distributional shifts in text data by exploiting such embeddings. Then we study the effectiveness of our approach when applied to text embeddings generated by both LLMs and classical embedding algorithms. Our experiments show that general-purpose LLM-based embeddings provide a high sensitivity to data drift compared to other embedding methods. We propose drift sensitivity as an important evaluation metric to consider when comparing language models. Finally, we present insights and lessons learned from deploying our framework as part of the Fiddler ML Monitoring platform over a period of 18 months.
翻訳日:2023-12-06 17:38:43 公開日:2023-12-04
# 知識グラフにおけるニュース見出しをイベントクラスにマッピングするための評価フレームワーク

An Evaluation Framework for Mapping News Headlines to Event Classes in a Knowledge Graph ( http://arxiv.org/abs/2312.02334v1 )

ライセンス: Link先を確認
Steve Fonin Mbouadeu, Martin Lorenzo, Ken Barker, Oktie Hassanzadeh(参考訳) ニュースの見出しをリッチな知識ベースでイベント関連のクラスにマッピングすることは、知識に基づくイベント分析および予測ソリューションにおいて重要な要素となる。 本稿では,Wikidataのイベントクラスにマッピングされたニュース見出しのベンチマークデータセットを作成する手法と,そのマッピングを行う手法を評価するためのリソースを提案する。 私たちはこのデータセットを使って、このタスクの教師なしメソッドの2つのクラスを研究します。 1)古典的実体連結法の適応、及び 2)ゼロショットテキスト分類問題として問題を扱う方法。 最初のアプローチとして、既製のエンティティリンクシステムを評価する。 2つ目のアプローチとして、私たちは a) 事前訓練された自然言語推論(NLI)モデル及び b) 事前訓練された大規模な生成言語モデル 評価の結果,学習した教訓,今後の作業の方向性について報告する。 評価用のデータセットとスクリプトが公開されている。

Mapping ongoing news headlines to event-related classes in a rich knowledge base can be an important component in a knowledge-based event analysis and forecasting solution. In this paper, we present a methodology for creating a benchmark dataset of news headlines mapped to event classes in Wikidata, and resources for the evaluation of methods that perform the mapping. We use the dataset to study two classes of unsupervised methods for this task: 1) adaptations of classic entity linking methods, and 2) methods that treat the problem as a zero-shot text classification problem. For the first approach, we evaluate off-the-shelf entity linking systems. For the second approach, we explore a) pre-trained natural language inference (NLI) models, and b) pre-trained large generative language models. We present the results of our evaluation, lessons learned, and directions for future work. The dataset and scripts for evaluation are made publicly available.
翻訳日:2023-12-06 17:38:27 公開日:2023-12-04
# トピックガイド言語モデルの再検討

Revisiting Topic-Guided Language Models ( http://arxiv.org/abs/2312.02331v1 )

ライセンス: Link先を確認
Carolina Zheng, Keyon Vafa, David M. Blei(参考訳) 自然言語処理における最近の研究は、言語モデルとトピックモデルを組み合わせることを目的としている。 これらのトピック誘導型言語モデルは、言語モデルにトピックモデルを追加し、文書レベルの単語使用パターンを発見できる教師なし学習手法を提供する。 本稿では,これらの手法の有効性を標準化した環境で比較する。 4つのトピックガイド言語モデルと2つのベースラインを調査し,4つのコーパス上で各モデルの保持された予測性能を評価した。 驚いたことに、これらのメソッドは標準のLSTM言語モデルベースラインを上回っておらず、ほとんどの場合良いトピックを学習できません。 さらに、ベースラインの隠れた状態が既にトピック情報をエンコードしていることを示す、ニューラルネットワークモデルのプローブをトレーニングする。 この研究に使われたすべてのコードを公開します。

A recent line of work in natural language processing has aimed to combine language models and topic models. These topic-guided language models augment neural language models with topic models, unsupervised learning methods that can discover document-level patterns of word use. This paper compares the effectiveness of these methods in a standardized setting. We study four topic-guided language models and two baselines, evaluating the held-out predictive performance of each model on four corpora. Surprisingly, we find that none of these methods outperform a standard LSTM language model baseline, and most fail to learn good topics. Further, we train a probe of the neural language model that shows that the baseline's hidden states already encode topic information. We make public all code used for this study.
翻訳日:2023-12-06 17:38:17 公開日:2023-12-04
# flea: プライバシー保護機能強化による不足とラベル付きデータの連合学習の改善

FLea: Improving federated learning on scarce and label-skewed data via privacy-preserving feature augmentation ( http://arxiv.org/abs/2312.02327v1 )

ライセンス: Link先を確認
Tong Xia and Abhirup Ghosh and Cecilia Mascolo(参考訳) 生データを集約することなく、複数のクライアントに分散した知識を抽象化してグローバルモデルを学ぶことが、フェデレートラーニング(FL)の主な目標である。 通常、これは複数のクライアントで並列なローカルトレーニングを交互に行い、次にサーバでモデルアグリゲーションを行います。 その結果,ローカルデータセットが小さければ既存のflメソッドが過小評価され,過フィッティングや局所モデルバイアスにつながるようなラベルスキューが存在することが分かった。 これは多くの現実世界のアプリケーションにおいて現実的な設定です。 この問題に対処するために,クライアントがプライバシー保護機能を交換してローカルトレーニングを支援することで,過度な適合と局所バイアスに対処する統合フレームワークである‘textit{FLea}’を提案する。 この機能は、モデルの中間層からのアクティベーションを指し、他のクライアントと共有する前に難読化され、データ内の機密情報を保護する。 \textit{flea}は、ローカルモデル学習を強化するために、ローカル機能と共有機能を組み合わせた新しい方法を利用している。 我々の広範な実験によると、 \textit{FLea} は最先端のFLメソッドよりも優れており、モデルパラメータのみを最大17.6\%$で共有し、FLメソッドはデータ拡張を最大6.3\%で共有し、共有データ拡張に関連するプライバシの脆弱性を低減している。

Learning a global model by abstracting the knowledge, distributed across multiple clients, without aggregating the raw data is the primary goal of Federated Learning (FL). Typically, this works in rounds alternating between parallel local training at several clients, followed by model aggregation at a server. We found that existing FL methods under-perform when local datasets are small and present severe label skew as these lead to over-fitting and local model bias. This is a realistic setting in many real-world applications. To address the problem, we propose \textit{FLea}, a unified framework that tackles over-fitting and local bias by encouraging clients to exchange privacy-protected features to aid local training. The features refer to activations from an intermediate layer of the model, which are obfuscated before being shared with other clients to protect sensitive information in the data. \textit{FLea} leverages a novel way of combining local and shared features as augmentations to enhance local model learning. Our extensive experiments demonstrate that \textit{FLea} outperforms the start-of-the-art FL methods, sharing only model parameters, by up to $17.6\%$, and FL methods that share data augmentations by up to $6.3\%$, while reducing the privacy vulnerability associated with shared data augmentations.
翻訳日:2023-12-06 17:38:05 公開日:2023-12-04
# 混合量子/古典理論(MQCT)による複雑系における分子衝突のダイナミクス

Mixed Quantum/Classical Theory (MQCT) Approach to the Dynamics of Molecule-Molecule Collisions in Complex Systems ( http://arxiv.org/abs/2312.02322v1 )

ライセンス: Link先を確認
Carolin Joy, Bikramaditya Mandal, Dulat Bostan, Marie-Lise Dubernet and Dmitri Babikov(参考訳) 複雑な分子-分子衝突における衝突エネルギー移動とロ-振動エネルギー交換のダイナミクスを研究できる一般理論的アプローチとユーザ対応のコンピュータコードを開発した。 この方法は古典力学と量子力学の混合である。 衝突パートナーの内部振動運動は、状態量子化やゼロ点エネルギー、状態-状態遷移、量子対称性、干渉現象などの多くの量子現象を捉える時間依存シュロディンガー方程式を用いて量子力学的に扱われる。 ehrenfest平均場軌道アプローチを用いて、衝突パートナーの翻訳運動を古典的に記述することにより、重要な数値的な高速化が得られる。 このフレームワーク内では、衝突力学の近似手法のファミリーが開発された。 H$_2$O や ND$_3$ とHe, H$_2$ や D$_2$ と衝突した二原子および三原子分子に関するいくつかのベンチマーク研究は、MQCT の結果が幅広いエネルギー、特に完全な量子結果とほぼ同一となる高衝突エネルギーのフル量子計算とよく一致していることを示している。 この手法の数値的効率性とmqct符号の大規模並列性により、c$_6$h$_6$ + he, ch$_3$cooh + he, h$_2$o + h$_2$o などの最も複雑な衝突系を取り入れることができる。 MQCTのCH$_3$CHCH$_2$O + Heなどのキラル分子の衝突や分子表面衝突への応用も可能であり、将来追求される。

We developed a general theoretical approach and a user-ready computer code that permit to study the dynamics of collisional energy transfer and ro-vibrational energy exchange in complex molecule-molecule collisions. The method is a mixture of classical and quantum mechanics. The internal ro-vibrational motion of collision partners is treated quantum mechanically using time-dependent Schrodinger equation that captures many quantum phenomena including state quantization and zero-point energy, propensity and selection rules for state-to-state transitions, quantum symmetry and interference phenomena. A significant numerical speed up is obtained by describing the translational motion of collision partners classically, using the Ehrenfest mean-field trajectory approach. Within this framework a family of approximate methods for collision dynamics is developed. Several benchmark studies for diatomic and triatomic molecules, such as H$_2$O and ND$_3$ collided with He, H$_2$ and D$_2$, show that the results of MQCT are in good agreement with full-quantum calculations in a broad range of energies, especially at high collision energies where they become nearly identical to the full quantum results. Numerical efficiency of the method and massive parallelism of the MQCT code permit us to embrace some of the most complicated collisional systems ever studied, such as C$_6$H$_6$ + He, CH$_3$COOH + He and H$_2$O + H$_2$O. Application of MQCT to the collisions of chiral molecules such as CH$_3$CHCH$_2$O + He, and to the molecule-surface collisions is also possible and will be pursued in the future.
翻訳日:2023-12-06 17:37:37 公開日:2023-12-04
# 機械ビジョンを用いたギアアプリケーションのケーブルSlack検出

Cable Slack Detection for Arresting Gear Application using Machine Vision ( http://arxiv.org/abs/2312.02320v1 )

ライセンス: Link先を確認
Ari Goodman, Glenn Shevach, Sean Zabriskie, Dr. Chris Thajudeen(参考訳) ケーブルをベースとした逮捕システムは、航空母艦の打ち上げと回収、および遠征用陸上基地の設置に不可欠である。 これらの現代の逮捕システムは、逮捕サイクル中に航空機からエネルギーを吸収し、航空機をフルストップさせる様々なメカニズムに依存している。 このシステムの主要なコンポーネントの1つは、エンジンへのケーブル接続である。 この界面におけるケーブルのスラックの形成は効率を低下させ、継続動作前にケーブルのスラックを除去するためのメンテナンスを駆動する。 本稿では,マシンビジョンに基づくスラック検出システムについて述べる。 状況認識カメラを用いて、ケーブルインターフェース領域のビデオデータを収集し、ノイズを低減し、背景乱れを除去し、関心領域に着目し、スラック形成を表す画像変化を検出するマシンビジョンアルゴリズムを適用する。 このシステムで使用されるアルゴリズムには、両側画像フィルタ、最小二乗多項式適合、カニーエッジ検出、K平均クラスタリング、背景サブトラクションのためのガウス混合/フォアグラウンドセグメンテーション、ハフサークル変換、ハフライン変換などがある。 得られた検出はフィルタリングされハイライトされ、スラックの存在とメンテナンスアクションの必要性を船上操作者に通知する。 ユーザインタフェースは、オペレーターに興味のある領域を再定義し、メソッドを特定の場所に調整するための簡単な方法を提供するように設計された。 アルゴリズムは船載映像で検証され、slackを最小の偽陽性で正確に識別することができた。

The cable-based arrestment systems are integral to the launch and recovery of aircraft onboard carriers and on expeditionary land-based installations. These modern arrestment systems rely on various mechanisms to absorb energy from an aircraft during an arrestment cycle to bring the aircraft to a full stop. One of the primary components of this system is the cable interface to the engine. The formation of slack in the cable at this interface can result in reduced efficiency and drives maintenance efforts to remove the slack prior to continued operations. In this paper, a machine vision based slack detection system is presented. A situational awareness camera is utilized to collect video data of the cable interface region, machine vision algorithms are applied to reduce noise, remove background clutter, focus on regions of interest, and detect changes in the image representative of slack formations. Some algorithms employed in this system include bilateral image filters, least squares polynomial fit, Canny Edge Detection, K-Means clustering, Gaussian Mixture-based Background/Foreground Segmentation for background subtraction, Hough Circle Transforms, and Hough line Transforms. The resulting detections are filtered and highlighted to create an indication to the shipboard operator of the presence of slack and a need for a maintenance action. A user interface was designed to provide operators with an easy method to redefine regions of interest and adjust the methods to specific locations. The algorithms were validated on shipboard footage and were able to accurately identify slack with minimal false positives.
翻訳日:2023-12-06 17:37:03 公開日:2023-12-04
# GNN2R:知識グラフに関する質問に対する回答

GNN2R: Weakly-Supervised Rationale-Providing Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2312.02317v1 )

ライセンス: Link先を確認
Ruijie Wang, Luca Rossetto, Michael Cochez, Abraham Bernstein(参考訳) 知識グラフ (KGs) 上のマルチホップ質問応答 (QA) のほとんどの手法は、通常のユーザがレビューし理解することが難しいKGエンティティのセットなど、説明なしで最終決定的な回答しか提供しない。 この問題は現実世界のシナリオにおけるKGベースのQAの適用を厳しく制限する。 第一に、説明生成の監督として機能するマルチホップ質問の推論連鎖の注釈は、通常不足している。 第二に、説明を生成するために明示的なKGトリプルを回収する必要がある場合、高い効率を維持することは困難である。 本稿では,グラフニューラルネットワークを用いた2段階推論モデル(GNN2R)を提案する。 GNN2Rは、最終回答と推論部分グラフの両方を、質問-最終回答ペアを通して利用できる弱い監督のみを効率的に行うための根拠として提供することができる。 実験において, GNN2Rの詳細な解析を行った。 その結果、生成した説明の有効性、効率、品質の点で、GNN2Rは、この課題に適用可能な既存の最先端手法よりも優れていることが示された。 私たちのコードと事前トレーニングされたモデルは、https://github.com/ruijie-wang-uzh/gnn2rで利用可能です。

Most current methods for multi-hop question answering (QA) over knowledge graphs (KGs) only provide final conclusive answers without explanations, such as a set of KG entities that is difficult for normal users to review and comprehend. This issue severely limits the application of KG-based QA in real-world scenarios. However, it is non-trivial to solve due to two challenges: First, annotations of reasoning chains of multi-hop questions, which could serve as supervision for explanation generation, are usually lacking. Second, it is difficult to maintain high efficiency when explicit KG triples need to be retrieved to generate explanations. In this paper, we propose a novel Graph Neural Network-based Two-Step Reasoning model (GNN2R) to solve this issue. GNN2R can provide both final answers and reasoning subgraphs as a rationale behind final answers efficiently with only weak supervision that is available through question-final answer pairs. We extensively evaluated GNN2R with detailed analyses in experiments. The results demonstrate that, in terms of effectiveness, efficiency, and quality of generated explanations, GNN2R outperforms existing state-of-the-art methods that are applicable to this task. Our code and pre-trained models are available at https://github.com/ruijie-wang-uzh/GNN2R.
翻訳日:2023-12-06 17:36:36 公開日:2023-12-04
# 臨床文書解析のための微調整事前学習抽出QAモデル

Fine-tuning pre-trained extractive QA models for clinical document parsing ( http://arxiv.org/abs/2312.02314v1 )

ライセンス: Link先を確認
Ashwyn Sharma, David I. Feldman, Aneesh Jain(参考訳) 電子健康記録(EHR)は、患者の医療履歴を正確に表現できる大量の高次元マルチモーダルデータを含んでいる。 残念なことに、これらのデータのほとんどは構造化されていないか半構造化されており、リアルタイム分析や振り返り分析には適していない。 急性心不全(HF)患者に対する遠隔患者モニタリング(RPM)プログラムは、プログラムの適性や適切性を確認するために、EF(Ejection Fraction)やLVEF(Left Ventricular Ejection Fraction)のような臨床マーカーにアクセスする必要がある。 本稿では,心エコー図を解析し,EF値を検証するシステムについて述べる。 このシステムは、そのようなプログラムに登録可能なHF患者を特定するのに役立つ。 このシステムの中心は、カスタムラベルデータに基づいて微調整された事前学習された抽出QAトランスモデルである。 このようなデプロイモデルを作成するために使用される方法は、MIMIC-IV-Noteのような公開臨床データセットで実験を行うことによって説明される。 パイプラインは、低リソース環境で同様の問題に対するソリューションを一般化するために使用することができる。 このシステムは、大規模なタスクを自動化して、12ヶ月で1500時間以上、臨床医を救った。

Electronic health records (EHRs) contain a vast amount of high-dimensional multi-modal data that can accurately represent a patient's medical history. Unfortunately, most of this data is either unstructured or semi-structured, rendering it unsuitable for real-time and retrospective analyses. A remote patient monitoring (RPM) program for Heart Failure (HF) patients needs to have access to clinical markers like EF (Ejection Fraction) or LVEF (Left Ventricular Ejection Fraction) in order to ascertain eligibility and appropriateness for the program. This paper explains a system that can parse echocardiogram reports and verify EF values. This system helps identify eligible HF patients who can be enrolled in such a program. At the heart of this system is a pre-trained extractive QA transformer model that is fine-tuned on custom-labeled data. The methods used to prepare such a model for deployment are illustrated by running experiments on a public clinical dataset like MIMIC-IV-Note. The pipeline can be used to generalize solutions to similar problems in a low-resource setting. We found that the system saved over 1500 hours for our clinicians over 12 months by automating the task at scale.
翻訳日:2023-12-06 17:36:15 公開日:2023-12-04
# 現代のビデオゲームにおけるデータ効率のよい模倣学習のためのビジュアルエンコーダ

Visual Encoders for Data-Efficient Imitation Learning in Modern Video Games ( http://arxiv.org/abs/2312.02312v1 )

ライセンス: Link先を確認
Lukas Sch\"afer, Logan Jones, Anssi Kanervisto, Yuhan Cao, Tabish Rashid, Raluca Georgescu, Dave Bignell, Siddhartha Sen, Andrea Trevi\~no Gavito, Sam Devlin(参考訳) ビデオゲームは意思決定コミュニティにとって有用なベンチマークとなっているが、現代のゲームにおけるトレーニングエージェントへのAtariゲームを超えることは、研究コミュニティの大部分にとって違法に高価である。 大規模ビジョンモデルの研究・開発・公開の最近の進歩は、コミュニティ全体でこうしたコストの一部を償却する可能性がある。 しかし、どのモデルが逐次意思決定に重要な情報を保持する表現を学習しているかは、現時点では不明である。 現代ゲームにおけるゲームプレイングエージェントの研究への広範な参加の実現に向けて、Minecraft, Minecraft Dungeons, Counter-Strike: Global Offensiveの典型的なタスク固有のエンドツーエンドトレーニングアプローチと比較して、公開可能なビジュアルエンコーダを用いた模倣学習の体系的研究を提案する。

Video games have served as useful benchmarks for the decision making community, but going beyond Atari games towards training agents in modern games has been prohibitively expensive for the vast majority of the research community. Recent progress in the research, development and open release of large vision models has the potential to amortize some of these costs across the community. However, it is currently unclear which of these models have learnt representations that retain information critical for sequential decision making. Towards enabling wider participation in the research of gameplaying agents in modern games, we present a systematic study of imitation learning with publicly available visual encoders compared to the typical, task-specific, end-to-end training approach in Minecraft, Minecraft Dungeons and Counter-Strike: Global Offensive.
翻訳日:2023-12-06 17:35:53 公開日:2023-12-04
# VaQuitA:LLM支援ビデオ理解におけるアライメント向上

VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding ( http://arxiv.org/abs/2312.02310v1 )

ライセンス: Link先を確認
Yizhou Wang, Ruiyi Zhang, Haoliang Wang, Uttaran Bhattacharya, Yun Fu and Gang Wu(参考訳) 近年,Large Language Models (LLMs) の導入により,言語モデルに基づく映像理解の進歩が目覚ましいペースで進んでいる。 しかし、先行研究の焦点は、ビデオの特徴をトークンにマッピングするプロジェクション層を考案することであり、これは初歩的で非効率なアプローチである。 本研究では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。 データレベルでは、フレームを一様にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装し、与えられた質問とより整合したフレームの選択を可能にする。 機能レベルでは、トレーニング可能なVideo PerceiverとVisual-Query Transformer(VQ-Former)を統合し、入力された質問とビデオ機能の間の相互作用を強化する。 また,LLM入力に簡単なプロンプト"Please be critical"を組み込むことで,映像理解能力を大幅に向上させることができることがわかった。 実験結果から,VaQuitAはゼロショットビデオ質問応答タスクの新しいベンチマークを一貫して設定し,高品質なマルチターンビデオ対話をユーザに提供できることが示唆された。

Recent advancements in language-model-based video understanding have been progressing at a remarkable pace, spurred by the introduction of Large Language Models (LLMs). However, the focus of prior research has been predominantly on devising a projection layer that maps video features to tokens, an approach that is both rudimentary and inefficient. In our study, we introduce a cutting-edge framework, VaQuitA, designed to refine the synergy between video and textual information. At the data level, instead of sampling frames uniformly, we implement a sampling method guided by CLIP-score rankings, which enables a more aligned selection of frames with the given question. At the feature level, we integrate a trainable Video Perceiver alongside a Visual-Query Transformer (abbreviated as VQ-Former), which bolsters the interplay between the input question and the video features. We also discover that incorporating a simple prompt, "Please be critical", into the LLM input can substantially enhance its video comprehension capabilities. Our experimental results indicate that VaQuitA consistently sets a new benchmark for zero-shot video question-answering tasks and is adept at producing high-quality, multi-turn video dialogues with users.
翻訳日:2023-12-06 17:35:37 公開日:2023-12-04
# コンディショナブル・ジェネレータを用いた強化学習エージェントと人間

Training Reinforcement Learning Agents and Humans With Difficulty-Conditioned Generators ( http://arxiv.org/abs/2312.02309v1 )

ライセンス: Link先を確認
Sidney Tio, Jimmy Ho, Pradeep Varakantham(参考訳) パラメータ化環境対応モデル (PERM) は, 難易度と能力を直接モデル化することにより, パラメータ化環境における強化学習エージェントと人間の学習者を訓練する手法である。 項目応答理論(irt)に着想を得て、permは環境の難易度を個々の能力と整合させ、近位開発に基づくカリキュラムのゾーンを作成する。 特筆すべきは、PERMはリアルタイムRL更新なしで動作し、オフライントレーニングを可能にし、多様な学生間で適応性を確保することだ。 実験では,permの適応性を活かした2段階のトレーニングプロセスを提案し,rlエージェントとヒトの訓練におけるその効果を実証する。

We adapt Parameterized Environment Response Model (PERM), a method for training both Reinforcement Learning (RL) Agents and human learners in parameterized environments by directly modeling difficulty and ability. Inspired by Item Response Theory (IRT), PERM aligns environment difficulty with individual ability, creating a Zone of Proximal Development-based curriculum. Remarkably, PERM operates without real-time RL updates and allows for offline training, ensuring its adaptability across diverse students. We present a two-stage training process that capitalizes on PERM's adaptability, and demonstrate its effectiveness in training RL agents and humans in an empirical study.
翻訳日:2023-12-06 17:35:14 公開日:2023-12-04
# 医療サービスにおける医療レファレンスメカニズムの解明 : 医師のネットワークの役割

Dissecting Medical Referral Mechanisms in Health Services: Role of Physician Professional Networks ( http://arxiv.org/abs/2312.02387v1 )

ライセンス: Link先を確認
Regina de Brito Duarte, Qiwei Han, Claudia Soares(参考訳) プライマリケア医師(PC)とスペシャリストケア(SC)の医療紹介は、品質、満足度、コストに関して、患者医療に大きな影響を及ぼす。 本稿では,PC から SC への患者紹介における専門医のネットワークの影響について検討する。 ポルトガルの民間医療提供者による5年間の相談データを用いて,探索的データ分析を行い,医師間の専門家ネットワークと紹介ネットワークを構築した。 次に,グラフニューラルネットワーク(gnn)モデルを適用し,参照ネットワークの潜在表現を学習する。 我々の分析は、医師の専門的な社会的つながりが医療基準を予測し、組織内の協力を強化し、医療サービスを改善することができるという仮説を支持している。 本研究は, プライマリ・スペシャリティ・レファラルの根底にあるメカニズムの解明に寄与し, 患者ケアの強化と効果的な医療管理に有用な知見を提供する。

Medical referrals between primary care physicians (PC) and specialist care (SC) physicians profoundly impact patient care regarding quality, satisfaction, and cost. This paper investigates the influence of professional networks among medical doctors on referring patients from PC to SC. Using five-year consultation data from a Portuguese private health provider, we conducted exploratory data analysis and constructed both professional and referral networks among physicians. We then apply Graph Neural Network (GNN) models to learn latent representations of the referral network. Our analysis supports the hypothesis that doctors' professional social connections can predict medical referrals, potentially enhancing collaboration within organizations and improving healthcare services. This research contributes to dissecting the underlying mechanisms in primary-specialty referrals, thereby providing valuable insights for enhancing patient care and effective healthcare management.
翻訳日:2023-12-06 17:28:58 公開日:2023-12-04
# LLM透かしによる品質劣化の新たな評価基準

New Evaluation Metrics Capture Quality Degradation due to LLM Watermarking ( http://arxiv.org/abs/2312.02382v1 )

ライセンス: Link先を確認
Karanpartap Singh, James Zou(参考訳) ChatGPTのような大規模言語モデル(LLM)の利用の増加に伴い、ウォーターマーキングは、機械生成コンテンツをトレースするための有望なアプローチとして現れている。 しかし、LLM透かしの研究は、透かしにおける重要な制限を隠蔽しうる透かしテキストの品質を評価するための単純な難易度や多様性に基づく尺度にしばしば依存する。 ここでは,llmsの透かしアルゴリズムを評価するための2つの新しい簡易手法を提案する。 1) LLM-judger による特定ガイドラインによる評価 2) 透かしと非透かしを区別するために, テキスト埋め込みのバイナリ分類を行う。 これらの手法を現在の透かし技術の有効性を特徴づけるために応用する。 種々のデータセットを用いて実験を行った結果,従来の透かし法は単純な分類器でも検出可能であることが判明した。 また, LLM審査員を通して, 透かしがテキストの品質, 特に応答のコヒーレンスと深さの劣化に影響を及ぼすことを明らかにした。 以上の結果から,透かしの堅牢性とテキスト品質のトレードオフを浮き彫りにし,透かしの質を評価する上で,より情報的な指標を持つことの重要性を強調した。

With the increasing use of large-language models (LLMs) like ChatGPT, watermarking has emerged as a promising approach for tracing machine-generated content. However, research on LLM watermarking often relies on simple perplexity or diversity-based measures to assess the quality of watermarked text, which can mask important limitations in watermarking. Here we introduce two new easy-to-use methods for evaluating watermarking algorithms for LLMs: 1) evaluation by LLM-judger with specific guidelines; and 2) binary classification on text embeddings to distinguish between watermarked and unwatermarked text. We apply these methods to characterize the effectiveness of current watermarking techniques. Our experiments, conducted across various datasets, reveal that current watermarking methods are detectable by even simple classifiers, challenging the notion of watermarking subtlety. We also found, through the LLM judger, that watermarking impacts text quality, especially in degrading the coherence and depth of the response. Our findings underscore the trade-off between watermark robustness and text quality and highlight the importance of having more informative metrics to assess watermarking quality.
翻訳日:2023-12-06 17:28:41 公開日:2023-12-04
# FaultFormer: 変圧器による軸受断層の予測

FaultFormer: Transformer-based Prediction of Bearing Faults ( http://arxiv.org/abs/2312.02380v1 )

ライセンス: Link先を確認
Anthony Zhou and Amir Barati Farimani(参考訳) 過去10年間のディープラーニングの成長は、スマートマニュファクチャリングとマシンヘルスモニタリングに重要な応用を動機付けている。 特に、振動データは、機械の健康と予測の保守に関する有意義な洞察を提供する、リッチで信頼性の高い情報源を提供する。 本研究では,振動信号を解析し,異なる種類のベアリング障害(FaultFormer)を予測するためのトランスフォーマーベースのフレームワークを提案する。 特に,データ拡張を用いて信号データを処理し,そのフーリエモードを抽出し,トランスフォーマーエンコーダを訓練し,芸術的精度を実現する。 注意機構とモデル出力を分析し,信号中の特徴を自動的に抽出し,グローバルおよびローカルな関係を学習して分類を行うトランスフォーマーの能力を確認した。 最後に、2つの事前訓練戦略が提案され、生産フロアの新しいデータ、状況、機械に適応できる大型で一般化可能なトランスフォーマーの道を開いた。

The growth of deep learning in the past decade has motivated important applications to smart manufacturing and machine health monitoring. In particular, vibration data offers a rich and reliable source to provide meaningful insights into machine health and predictive maintenance. In this work, we present a Transformer based framework for analyzing vibration signals to predict different types of bearing faults (FaultFormer). In particular, we process signal data using data augmentations and extract their Fourier modes to train a transformer encoder to achieve state of the art accuracies. The attention mechanism as well as model outputs were analyzed to confirm the transformer's ability to automatically extract features within signals and learn both global and local relationships to make classifications. Lastly, two pretraining strategies were proposed to pave the way for large, generalizable transformers that could adapt to new data, situations, or machinery on the production floor.
翻訳日:2023-12-06 17:28:22 公開日:2023-12-04
# Clifford Manipulations of Stabilizer States: Clifford Unitaryとクラスタ状態の測定のためのグラフィカルルールブックとフォトニック量子コンピューティングへの応用

Clifford Manipulations of Stabilizer States: A graphical rule book for Clifford unitaries and measurements on cluster states, and application to photonic quantum computing ( http://arxiv.org/abs/2312.02377v1 )

ライセンス: Link先を確認
Ashlesha Patil and Saikat Guha(参考訳) 安定化器の状態とクリフォードの操作(単位変換と測定)は、古典的なコンピュータで効率的にシミュレートできるにもかかわらず、量子コンピューティング、エラー修正、ネットワークへの応用を含む量子情報処理において重要なツールである。 グラフ上で定義されるクラスタ状態は、測定ベースの量子コンピューティング、全フォトニック量子リピータ、分散量子コンピューティング、ネットワーク内の絡み合い分布の中心となる安定化状態の特殊なクラスである。 すべてのクラスター状態は局所クリフォード状態と安定化状態と等価である。 本稿では,複数の量子ビット融合などの一般的な安定化器測定を取り入れ,ブール代数のカルナウ写像を用いて,任意の安定化器ゲートを chp 形式による表計算に変換し,効率的な安定化器操作を実現する。 これらのツールを用いて,クラスタ状態の任意の安定化操作のためのグラフィカルユーザインタフェースを備えたグラフィカルなルールブックとMATLABシミュレータを開発する。 我々は,2つの融合量子ビットのうちの1つのみが破壊的に測定されるような新しい「タイプI」融合を含む)様々な回転ベル計測のために,確率的に導電された線形光学回路を用いたデュアルレールフォトニックキュービットクラスタ状態操作を含むように,グラフィカルルールブックを拡張した。 最後に,マルチキュービット核融合の安定化記述を線形光回路にマップする方法を示す。

Stabilizer states along with Clifford manipulations (unitary transformations and measurements) thereof -- despite being efficiently simulable on a classical computer -- are an important tool in quantum information processing, with applications to quantum computing, error correction and networking. Cluster states, defined on a graph, are a special class of stabilizer states that are central to measurement based quantum computing, all-photonic quantum repeaters, distributed quantum computing, and entanglement distribution in a network. All cluster states are local-Clifford equivalent to a stabilizer state. In this paper, we review the stabilizer framework, and extend it, by: incorporating general stabilizer measurements such as multi-qubit fusions, and providing an explicit procedure -- using Karnaugh maps from Boolean algebra -- for converting arbitrary stabilizer gates into tableau operations of the CHP formalism for efficient stabilizer manipulations. Using these tools, we develop a graphical rule-book and a MATLAB simulator with a graphical user interface for arbitrary stabilizer manipulations of cluster states, a user of which, e.g., for research in quantum networks, will not require any background in quantum information or the stabilizer framework. We extend our graphical rule-book to include dual-rail photonic-qubit cluster state manipulations with probabilistically-heralded linear-optical circuits for various rotated Bell measurements, i.e., fusions (including new `Type-I' fusions we propose, where only one of the two fused qubits is destructively measured), by incorporating graphical rules for their success and failure modes. Finally, we show how stabilizer descriptions of multi-qubit fusions can be mapped to linear optical circuits.
翻訳日:2023-12-06 17:28:06 公開日:2023-12-04
# CityTFT:都市ビルエネルギーモデリングのための時間核融合変換器

CityTFT: Temporal Fusion Transformer for Urban Building Energy Modeling ( http://arxiv.org/abs/2312.02375v1 )

ライセンス: Link先を確認
Ting-Yu Dai, Dev Niyogi, Zoltan Nagy(参考訳) 都市建築エネルギーモデリング(Urban Building Energy Modeling, UBEM)は、都市部におけるエネルギー需要の増加に対する都市設計とエネルギーシステムの研究手法である。 しかし、現在のUBEM法は、主に物理に基づくものであり、複数の気候変動シナリオで時間がかかる。 本研究では,都市環境におけるエネルギー需要を正確にモデル化するためのデータ駆動型UBEMフレームワークであるCityTFTを提案する。 基礎となるTFTフレームワークの強化と損失関数の強化により、CityTFTはF1のスコアが99.98 \%、RMSEの負荷が13.57 kWhの未観測の気候力学における加熱と冷却のトリガを予測することができた。

Urban Building Energy Modeling (UBEM) is an emerging method to investigate urban design and energy systems against the increasing energy demand at urban and neighborhood levels. However, current UBEM methods are mostly physic-based and time-consuming in multiple climate change scenarios. This work proposes CityTFT, a data-driven UBEM framework, to accurately model the energy demands in urban environments. With the empowerment of the underlying TFT framework and an augmented loss function, CityTFT could predict heating and cooling triggers in unseen climate dynamics with an F1 score of 99.98 \% while RMSE of loads of 13.57 kWh.
翻訳日:2023-12-06 17:27:33 公開日:2023-12-04
# グラフニューラルネットワークにおける安定性と表現能力のトレードオフについて

On the Trade-Off between Stability and Representational Capacity in Graph Neural Networks ( http://arxiv.org/abs/2312.02372v1 )

ライセンス: Link先を確認
Zhan Gao, Amanda Prorok, Elvin Isufi(参考訳) トポロジ的摂動下でのグラフニューラルネットワーク(GNN)の安定性の分析は、その伝達可能性と各アーキテクチャコンポーネントの役割を理解する上で重要である。 しかし、安定性は特定のアーキテクチャでのみ研究されており、GNNの幅広いスペクトルに当てはまるか、少数のインスタンスに限られるかが疑問視されている。 この問いに答えるために、EdgeNetの安定性について検討する。グラフ同型ネットワークやハイブリッドアーキテクチャと同様に、畳み込みと注目に基づくクラスを含む20以上のソリューションを統合する一般的なGNNフレームワークである。 EdgeNetフレームワーク内のすべてのGNNが、トポロジ的摂動に対して安定であることを示す。 異なるEdgeNetカテゴリの安定性への影響を調べた結果,パラメータ空間における自由度が低いGNNの方が,表現能力の低いGNNの方がより安定であることが判明した。 このトレードオフをもたらす重要な要因は、EdgeNetパラメータ行列とグラフシフト演算子との間の固有ベクトルの不整合である。 例えば、信号シフト毎に単一のスカラーを割り当てるグラフ畳み込みニューラルネットワーク(完全なアライメントを持つhence)は、関連するノードやエッジ変動よりも安定している。 広範な数値結果が我々の理論的知見と一致し、トレードオフにおける異なるアーキテクチャコンポーネントの役割を強調する。

Analyzing the stability of graph neural networks (GNNs) under topological perturbations is key to understanding their transferability and the role of each architecture component. However, stability has been investigated only for particular architectures, questioning whether it holds for a broader spectrum of GNNs or only for a few instances. To answer this question, we study the stability of EdgeNet: a general GNN framework that unifies more than twenty solutions including the convolutional and attention-based classes, as well as graph isomorphism networks and hybrid architectures. We prove that all GNNs within the EdgeNet framework are stable to topological perturbations. By studying the effect of different EdgeNet categories on the stability, we show that GNNs with fewer degrees of freedom in their parameter space, linked to a lower representational capacity, are more stable. The key factor yielding this trade-off is the eigenvector misalignment between the EdgeNet parameter matrices and the graph shift operator. For example, graph convolutional neural networks that assign a single scalar per signal shift (hence, with a perfect alignment) are more stable than the more involved node or edge-varying counterparts. Extensive numerical results corroborate our theoretical findings and highlight the role of different architecture components in the trade-off.
翻訳日:2023-12-06 17:27:18 公開日:2023-12-04
# RINAS:データセットシャッフルによるトレーニングは一般的で高速

RINAS: Training with Dataset Shuffling Can Be General and Fast ( http://arxiv.org/abs/2312.02368v1 )

ライセンス: Link先を確認
Tianle Zhong, Jiechen Zhao, Xindi Guo, Qiang Su, Geoffrey Fox(参考訳) ディープラーニングデータセットは前例のないペースで拡大し、モデルトレーニングパイプラインにおけるデータ処理の新たな課題を生み出している。 これらのパイプラインの重要な側面は、ランダムサンプリングの原則に固執することで、偏りのない学習と収束精度を大幅に改善するデータセットシャッフルである。 しかし、大きなデータセットにシャッフルデータをロードすると、ディープラーニングパイプラインの大幅なオーバーヘッドが発生し、エンドツーエンドのトレーニングスループットに大きな影響を与える。 これを軽減するために、現在のディープラーニングシステムは、大きなデータセットで許容可能なトレーニングスループットを維持するために、グローバルランダム性を犠牲にして、部分データセットのシャッフルに頼ることが多い。 本稿では,グローバルシャッフルデータセットのロードにおけるパフォーマンスボトルネックを体系的に解決するデータローディングフレームワークであるrinasを提案する。 私たちの重要な貢献は、データローディングの未探索並列性を解き放つ、バッチ内の未順序データフェッチアプローチを提供することです。 私たちは、一般的なデータセットライブラリhughingfaceとtorchvision用のpytorchフレームワークでrinasを実装しています。 実験の結果,RINASは汎用言語モデルトレーニングと視覚モデルトレーニングのスループットを最大59%,視力モデルトレーニングは89%向上した。

Deep learning datasets are expanding at an unprecedented pace, creating new challenges for data processing in model training pipelines. A crucial aspect of these pipelines is dataset shuffling, which significantly improves unbiased learning and convergence accuracy by adhering to the principles of random sampling. However, loading shuffled data for large datasets incurs significant overhead in the deep learning pipeline and severely impacts the end-to-end training throughput. To mitigate this, current deep learning systems often resort to partial dataset shuffling, sacrificing global randomness to maintain acceptable training throughput on large datasets, still leaving global shuffling efficiency issues not fully explored. In this work, we present RINAS, a data loading framework that systematically addresses the performance bottleneck of loading global shuffled datasets. Our key contribution is to offer an intra-batch unordered data fetching approach, which unleashes unexplored parallelism of data loading. We implement RINAS under the PyTorch framework for common dataset libraries HuggingFace and TorchVision. Our experimental results show that RINAS improves the throughput of general language model training and vision model training by up to 59% and 89%, respectively.
翻訳日:2023-12-06 17:26:57 公開日:2023-12-04
# 医用画像解析のための汎用視覚基盤モデルに向けて--ラジオロジーベンチマークによるdinov2の実験的検討

Towards General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks ( http://arxiv.org/abs/2312.02366v1 )

ライセンス: Link先を確認
Mohammed Baharoon, Waseem Qureshi, Jiahong Ouyang, Yanwu Xu, Kilian Phol, Abdulrhman Aljouie, Wei Peng(参考訳) 深層学習システムの医療分野への統合は、データアノテーションの資源集約的なプロセスと、これらのシステムが様々なデータ分布に一般化できないことによって妨げられている。 大規模なデータセットで事前トレーニングされたモデルである基盤モデルは、注釈付きデータへの依存を減らし、モデルの一般化性と堅牢性を高めるソリューションとして登場した。 オープンソースのファウンデーションモデルであるDINOv2は、1億4200万のキュレートされた自然画像に対する自己教師型学習を事前訓練した。 それでも、DINOv2の放射線画像への適応性について重要な疑問が残ることはなく、その特徴が放射線画像解析に有効であるかどうかについては、まだ明らかになっていない。 そこで本研究では,放射線学におけるDINOv2を総合的に評価し,X線,CT,MRIなど多種多様な実験を100以上行った。 課題には、DINOv2特徴埋め込みの有効性と一般化性を測定するために、2D画像と3D画像の両方の臓器の分類、kNN、少数ショット学習、線形プロービング、エンドツーエンドの微調整、パラメータ効率の良い微調整などの異なる設定で評価される。 セグメンテーションのための医用画像解析モデル、U-NetとTransUnet、セグメンテーションのためのCNNとViTモデルとの比較分析により、セグメンテーションタスクにおけるDINOv2の優れたパフォーマンスと疾患分類の競争結果が明らかとなった。 本研究は,DINOv2が自然画像解析と放射線画像解析のギャップを埋める上で果たす役割について,医療画像のトレーニング前戦略を最適化し,より広範に理解するための潜在的手段への洞察に寄与する。

The integration of deep learning systems into the medical domain has been hindered by the resource-intensive process of data annotation and the inability of these systems to generalize to different data distributions. Foundation models, which are models pre-trained on large datasets, have emerged as a solution to reduce reliance on annotated data and enhance model generalizability and robustness. DINOv2, an open-source foundation model pre-trained with self-supervised learning on 142 million curated natural images, excels in extracting general-purpose visual representations, exhibiting promising capabilities across various vision tasks. Nevertheless, a critical question remains unanswered regarding DINOv2's adaptability to radiological imaging, and the clarity on whether its features are sufficiently general to benefit radiology image analysis is yet to be established. Therefore, this study comprehensively evaluates DINOv2 for radiology, conducting over 100 experiments across diverse modalities (X-ray, CT, and MRI). Tasks include disease classification and organ segmentation on both 2D and 3D images, evaluated under different settings like kNN, few-shot learning, linear-probing, end-to-end fine-tuning, and parameter-efficient fine-tuning, to measure the effectiveness and generalizability of the DINOv2 feature embeddings. Comparative analyses with established medical image analysis models, U-Net and TransUnet for segmentation, and CNN and ViT models pre-trained via supervised, weakly supervised, and self-supervised learning for classification, reveal DINOv2's superior performance in segmentation tasks and competitive results in disease classification. The findings contribute insights to potential avenues for optimizing pre-training strategies for medical imaging and enhancing the broader understanding of DINOv2's role in bridging the gap between natural and radiological image analysis.
翻訳日:2023-12-06 17:26:36 公開日:2023-12-04
# MEDPSeg:CTにおける肺構造と病変の終末分割

MEDPSeg: End-to-end segmentation of pulmonary structures and lesions in computed tomography ( http://arxiv.org/abs/2312.02365v1 )

ライセンス: Link先を確認
Diedre S. Carmo, Jean Ribeiro, Alejandro P. Comellas, Joseph M. Reinhardt, Sarah E. Gerard, Let\'icia Rittner, Roberto A. Lotufo(参考訳) 新型コロナウイルス(covid-19)のパンデミック対応は、ctにおける正常組織と異常組織の自動分割による肺疾患の診断と予後の促進における深層学習の可能性を強調した。 このような方法は、臨床的意思決定を助けるだけでなく、新規疾患の理解にも貢献する。 大規模な胸部ctコホートに対する手作業による分節化の労働集約性に照らし合わせると,大規模な研究データベース,特に肺炎合併などのより少ない注釈付き目標において,胸部ct解剖の効率的な解析を可能にする信頼性の高い自動的アプローチが求められている。 このような手法を開発するための制限要因は、現在のほとんどのモデルがネットワーク出力毎に固定アノテーションフォーマットを最適化していることである。 この問題に対処するために、ポリモーフィックトレーニングは、複数の階層的な解剖構造を表現するために一定の数の出力チャネルを持つネットワークを最適化し、より単純なアノテーションでより複雑なラベルを間接的に最適化するために使用される。 我々は,多変型訓練と多変型学習を併用して,多変型ctスキャンを併用し,肺,気道,肺動脈,肺病変のセグメント化のためのエンド・ツー・エンド法であるmedpsegを開発した。 我々は,複数の目標において,特に接地ガラスの不透明度と統合のセグメンテーションにおいて,最先端の性能を達成する。 さらに私たちは、https://github.com/MICLab-Unicamp/medpseg.comでグラフィカルなユーザインターフェースを備えたオープンソース実装を提供しています。

The COVID-19 pandemic response highlighted the potential of deep learning methods in facilitating the diagnosis and prognosis of lung diseases through automated segmentation of normal and abnormal tissue in computed tomography (CT). Such methods not only have the potential to aid in clinical decision-making but also contribute to the comprehension of novel diseases. In light of the labor-intensive nature of manual segmentation for large chest CT cohorts, there is a pressing need for reliable automated approaches that enable efficient analysis of chest CT anatomy in vast research databases, especially in more scarcely annotated targets such as pneumonia consolidations. A limiting factor for the development of such methods is that most current models optimize a fixed annotation format per network output. To tackle this problem, polymorphic training is used to optimize a network with a fixed number of output channels to represent multiple hierarchical anatomic structures, indirectly optimizing more complex labels with simpler annotations. We combined over 6000 volumetric CT scans containing varying formats of manual and automated labels from different sources, and used polymorphic training along with multitask learning to develop MEDPSeg, an end-to-end method for the segmentation of lungs, airways, pulmonary artery, and lung lesions with separation of ground glass opacities, and parenchymal consolidations, all in a single forward prediction. We achieve state-of-the-art performance in multiple targets, particularly in the segmentation of ground glass opacities and consolidations, a challenging problem with limited manual annotation availability. In addition, we provide an open-source implementation with a graphical user interface at https://github.com/MICLab-Unicamp/medpseg.
翻訳日:2023-12-06 17:25:58 公開日:2023-12-04
# 視覚変換器のクラス識別アテンションマップ

Class-Discriminative Attention Maps for Vision Transformers ( http://arxiv.org/abs/2312.02364v1 )

ライセンス: Link先を確認
Lennart Brocki and Neo Christopher Chung(参考訳) 解釈可能性法は、深層ニューラルネットワーク(dnn)を検査し、探索する上で重要な要素であり、それに対する我々の理解と信頼を高める。 ビジョントランスフォーマー(ViT)は、自己教師付き学習(SSL)トレーニング手法で最先端のパフォーマンスをトレーニングし、組み込みの注意マップ(AM)を提供する。 AMは入力画像の高品質なセマンティックセグメンテーションを提供するが、下流の分類器からの信号は考慮しない。 対象クラスに対して高度に敏感な新しいポストホックな説明法であるクラス判別注意マップ(cdam)を提案する。 本手法は,分類器ヘッドの予測に対応するトークンがどの程度関連があるかによって,注意スコアを本質的にスケールする。 分類器出力の代わりに、CDAMはViTの潜在空間における類似度を目標にすることで、ユーザ定義の概念を説明することもできる。 これにより、ユーザがいくつかのサンプルイメージを通じて定義した任意の概念の説明が可能になる。 我々は,CDAMの動作特性を,画素閉塞法に代わるRelevance propagation (RP) やトークンアブレーションマップ (TAM) と比較した。 CDAMは類別的かつ意味論的に高い関連性を持ち、関連スコアの暗黙の正規化を提供する。 PyTorchの実装: \url{https://github.com/lenbrocki/CDAM} Web Live demo: \url{https://cdam.informatism.com/}

Interpretability methods are critical components for examining and exploring deep neural networks (DNN), as well as increasing our understanding of and trust in them. Vision transformers (ViT), which can be trained to state-of-the-art performance with a self-supervised learning (SSL) training method, provide built-in attention maps (AM). While AMs can provide high-quality semantic segmentation of input images, they do not account for any signal coming from a downstream classifier. We introduce class-discriminative attention maps (CDAM), a novel post-hoc explanation method that is highly sensitive to the target class. Our method essentially scales attention scores by how relevant the corresponding tokens are for the predictions of a classifier head. Alternative to classifier outputs, CDAM can also explain a user-defined concept by targeting similarity measures in the latent space of the ViT. This allows for explanations of arbitrary concepts, defined by the user through a few sample images. We investigate the operating characteristics of CDAM in comparison with relevance propagation (RP) and token ablation maps (TAM), an alternative to pixel occlusion methods. CDAM is highly class-discriminative and semantically relevant, while providing implicit regularization of relevance scores. PyTorch implementation: \url{https://github.com/lenbrocki/CDAM} Web live demo: \url{https://cdam.informatism.com/}
翻訳日:2023-12-06 17:25:28 公開日:2023-12-04
# PointNeRF++: マルチスケール・ポイントベースニューラルレーダランスフィールド

PointNeRF++: A multi-scale, point-based Neural Radiance Field ( http://arxiv.org/abs/2312.02362v1 )

ライセンス: Link先を確認
Weiwei Sun, Eduard Trulls, Yang-Che Tseng, Sneha Sambandam, Gopal Sharma, Andrea Tagliasacchi, Kwang Moo Yi(参考訳) ポイントクラウドは、特に少ない画像が利用可能な場合、ニューラルシーン表現で画像を補完する魅力的な情報ソースを提供する。 ポイントクラウドに基づくニューラルレンダリング手法は存在するが、ポイントクラウドの品質が低い場合(例えばスパースや不完全な場合など)はうまく機能しない。 これらの問題を、複数のスケールの点雲を異なる解像度でスパース・ボクセル・グリッドで集約する単純な表現で克服する。 ポイントクラウドのスパーシティに対処するために、私たちは複数のスケールレベルを平均しますが、有効なもの、つまりピクセルの光線に十分な近接点を持つもののみです。 点のない領域をモデル化するために、粗大スケールで大域ボクセルを追加し、「古典的」で点ベースのNeRFを統一する。 nerf合成、スキャンネット、およびkitti-360データセット上で本手法を検証し、その性能を有意差で上回った。

Point clouds offer an attractive source of information to complement images in neural scene representations, especially when few images are available. Neural rendering methods based on point clouds do exist, but they do not perform well when the point cloud quality is low -- e.g., sparse or incomplete, which is often the case with real-world data. We overcome these problems with a simple representation that aggregates point clouds at multiple scale levels with sparse voxel grids at different resolutions. To deal with point cloud sparsity, we average across multiple scale levels -- but only among those that are valid, i.e., that have enough neighboring points in proximity to the ray of a pixel. To help model areas without points, we add a global voxel at the coarsest scale, thus unifying "classical" and point-based NeRF formulations. We validate our method on the NeRF Synthetic, ScanNet, and KITTI-360 datasets, outperforming the state of the art by a significant margin.
翻訳日:2023-12-06 17:25:03 公開日:2023-12-04
# Peer attentionは学生の学習を促進する

Peer attention enhances student learning ( http://arxiv.org/abs/2312.02358v1 )

ライセンス: Link先を確認
Songlin Xu, Dongyin Hu, Ru Wang, and Xinyu Zhang(参考訳) 人間の視覚的注意は社会的影響に影響を受けやすい。 教育において、相互効果は学生の学習に影響を与えるが、注意の調整におけるその正確な役割はいまだに不明である。 実験 (N=311) では, 学生がオンライン授業ビデオを見ると, 焦点やエンゲージメントが向上することが実証された。 しかし、学生はピアアテンションの方法に従って適応性を維持する。 全体として、ガイド付きピアアテンションは学習経験と成果を改善する。 これらの知見は,学生の視線パターンをどのように形作るかを明らかにし,学習に対する相互影響の理解を深める。 また、学生の注意力と成功を最適化するためにピアアテンションモデリングを活用する適応的なオンライン学習介入の設計に関する洞察を提供する。

Human visual attention is susceptible to social influences. In education, peer effects impact student learning, but their precise role in modulating attention remains unclear. Our experiment (N=311) demonstrates that displaying peer visual attention regions when students watch online course videos enhances their focus and engagement. However, students retain adaptability in following peer attention cues. Overall, guided peer attention improves learning experiences and outcomes. These findings elucidate how peer visual attention shapes students' gaze patterns, deepening understanding of peer influence on learning. They also offer insights into designing adaptive online learning interventions leveraging peer attention modelling to optimize student attentiveness and success.
翻訳日:2023-12-06 17:24:43 公開日:2023-12-04
# オフライン政策選択はいつ強化学習に有効か?

When is Offline Policy Selection Sample Efficient for Reinforcement Learning? ( http://arxiv.org/abs/2312.02355v1 )

ライセンス: Link先を確認
Vincent Liu, Prabhat Nagarajan, Andrew Patterson, Martha White(参考訳) オフライン強化学習アルゴリズムは、しばしば注意深いハイパーパラメータチューニングを必要とする。 そのため、デプロイメントの前には、候補ポリシーのセットを選択する必要があります。 しかし、このオフラインポリシー選択(OPS)問題の基本的限界についてはほとんど理解されていない。 本研究の目的は,OPSを外部政策評価(OPE)とベルマン誤差推定(BE)に接続することで,サンプル効率のよいOPSがいつ可能かを明らかにすることである。 我々はまず,OPEからOPSへの還元を証明し,OPSがOPEと同程度の硬度であることを示す。 その結果、最悪の場合、OPS法はOPEよりもサンプリング効率が良くないことがわかった。 そこで我々は,自己のハイパーパラメータを選択する簡単な方法を持つIBES (Identible BE Selection) というOPSのためのBE法を提案する。 IBESをOPSに使用する場合、一般的にOPE法よりも多くの要件があるが、満足すればよりサンプリング効率がよい。 我々は、OPEとIBESを比較した実証的研究を行い、オフラインのAtariベンチマークデータセット上でのOPSの難しさを示す。

Offline reinforcement learning algorithms often require careful hyperparameter tuning. Consequently, before deployment, we need to select amongst a set of candidate policies. As yet, however, there is little understanding about the fundamental limits of this offline policy selection (OPS) problem. In this work we aim to provide clarity on when sample efficient OPS is possible, primarily by connecting OPS to off-policy policy evaluation (OPE) and Bellman error (BE) estimation. We first show a hardness result, that in the worst case, OPS is just as hard as OPE, by proving a reduction of OPE to OPS. As a result, no OPS method can be more sample efficient than OPE in the worst case. We then propose a BE method for OPS, called Identifiable BE Selection (IBES), that has a straightforward method for selecting its own hyperparameters. We highlight that using IBES for OPS generally has more requirements than OPE methods, but if satisfied, can be more sample efficient. We conclude with an empirical study comparing OPE and IBES, and by showing the difficulty of OPS on an offline Atari benchmark dataset.
翻訳日:2023-12-06 17:24:29 公開日:2023-12-04
# 後ろ向きに働く - 選択することによる学習

Working Backwards: Learning to Place by Picking ( http://arxiv.org/abs/2312.02352v1 )

ライセンス: Link先を確認
Oliver Limoyo, Abhisek Konar, Trevor Ablett, Jonathan Kelly, Francois R. Hogan, Gregory Dudek(参考訳) 本研究では、特定の場所にオブジェクトを操作しなければならないタスクを配置する家族に対して、自律的にデモンストレーションを収集できるLearning to Place by Picking(LPP)を提案する。 lppでは,把持過程を逆転し,選択・配置問題の固有対称性を活用し,ロボットによる物体配置方針の学習にアプローチする。 具体的には,まず,対象位置に位置する対象物の一連の把握シーケンスから,実演を行う。 本システムでは,触覚センシングと協調制御を組み合わせることで,人間の介入なしに数百のデモンストレーションを収集できる。 我々は、自律的に収集された実演を用いて、行動クローンを通して視覚観察から直接ポリシーを訓練する。 これにより、ポリシーは、特権情報(例えば、テーブルから拾ったプレートを元の配置場所ではなく、テーブルから配置する)なしで、トレーニング環境外のオブジェクト配置シナリオに一般化することができる。 食器洗い機とテーブル設定を含む家庭内ロボットシナリオに対するアプローチを検証する。 提案手法は,人的監督を必要とせず,性能とデータ効率の両面で,審美教育で訓練された方針を上回り,ロボットの配置方針を導出する。

We present Learning to Place by Picking (LPP), a method capable of autonomously collecting demonstrations for a family of placing tasks in which objects must be manipulated to specific locations. With LPP, we approach the learning of robotic object placement policies by reversing the grasping process and exploiting the inherent symmetry of the pick and place problems. Specifically, we obtain placing demonstrations from a set of grasp sequences of objects that are initially located at their target placement locations. Our system is capable of collecting hundreds of demonstrations without human intervention by using a combination of tactile sensing and compliant control for grasps. We train a policy directly from visual observations through behaviour cloning, using the autonomously-collected demonstrations. By doing so, the policy can generalize to object placement scenarios outside of the training environment without privileged information (e.g., placing a plate picked up from a table and not at the original placement location). We validate our approach on home robotic scenarios that include dishwasher loading and table setting. Our approach yields robotic placing policies that outperform policies trained with kinesthetic teaching, both in terms of performance and data efficiency, while requiring no human supervision.
翻訳日:2023-12-06 17:24:11 公開日:2023-12-04
# 神経放射領域の校正不確実性

Calibrated Uncertainties for Neural Radiance Fields ( http://arxiv.org/abs/2312.02350v1 )

ライセンス: Link先を確認
Niki Amini-Naieni, Tomas Jakab, Andrea Vedaldi, Ronald Clark(参考訳) ニューラル・ラミアンス・フィールドは、新しい視点合成において顕著な結果を得たが、その予測における不確かさの正確な測定という重要な要素を欠いている。 確率的NeRF法はこの問題に対処しようとするが、その出力確率は通常正確に調整されるわけではなく、従ってモデルの真の信頼レベルを捉えない。 キャリブレーションはスパースビュー設定において特に難しい問題であり、テスト分布に一般化するキャリブレータを適合させるために追加のホールドアウトデータが利用できない。 本稿では,nrfモデルから校正不確実性を求める最初の方法を提案する。 本手法は, 後方分布から画素ごとの不確実性を計算するための, 頑健で効率的な測定基準に基づく。 保持データの必要性をなくす2つの手法を提案する。 まず、パッチサンプリングに基づいて、各シーンに2つのNeRFモデルをトレーニングする。 2つ目は、一つのNeRFモデルのトレーニングのみを必要とする新しいメタキャリブレータである。 提案手法では,画像品質を維持しつつ,不確かさをスパースビュー設定で達成する。 さらに,ビューエンハンスメントや次善のビュー選択といったアプリケーションにおいて,提案手法の有効性を実証する。

Neural Radiance Fields have achieved remarkable results for novel view synthesis but still lack a crucial component: precise measurement of uncertainty in their predictions. Probabilistic NeRF methods have tried to address this, but their output probabilities are not typically accurately calibrated, and therefore do not capture the true confidence levels of the model. Calibration is a particularly challenging problem in the sparse-view setting, where additional held-out data is unavailable for fitting a calibrator that generalizes to the test distribution. In this paper, we introduce the first method for obtaining calibrated uncertainties from NeRF models. Our method is based on a robust and efficient metric to calculate per-pixel uncertainties from the predictive posterior distribution. We propose two techniques that eliminate the need for held-out data. The first, based on patch sampling, involves training two NeRF models for each scene. The second is a novel meta-calibrator that only requires the training of one NeRF model. Our proposed approach for obtaining calibrated uncertainties achieves state-of-the-art uncertainty in the sparse-view setting while maintaining image quality. We further demonstrate our method's effectiveness in applications such as view enhancement and next-best view selection.
翻訳日:2023-12-06 17:23:49 公開日:2023-12-04
# 3次元点雲を用いた宇宙軌道の教師なし変化検出

Unsupervised Change Detection for Space Habitats Using 3D Point Clouds ( http://arxiv.org/abs/2312.02396v1 )

ライセンス: Link先を確認
Jamie Santos, Holly Dinkel, Julia Di, Paulo V.K. Borges, Marina Moreira, Oleg Alexandrov, Brian Coltin, and Trey Smith(参考訳) 本研究は,将来の宇宙空間における自律的ロボットケアを可能にするため,ポイントクラウドからのシーン変化検出アルゴリズムを提案する。 自律型ロボットシステムは、ゲートウェイ宇宙ステーションのような将来的な深宇宙の居住環境を維持するのに役立つだろう。 国際宇宙ステーション(ISS)で使われている既存のシーン解析ソフトウェアは、手動でラベル付けされた画像を使って変化を検出する。 対照的に、本論文で提示されるアルゴリズムは、生のラベルなしの点雲を入力として使用する。 このアルゴリズムはまず、2つの入力点クラウドに改良された期待最大化ガウス混合モデル(GMM)クラスタリングを適用する。 次に、Earth Mover's Distanceを用いてGMMを比較して変更検出を行う。 このアルゴリズムは、NASA Ames Granite LabのAstrobeeロボットが収集したテストデータセットを用いて定量的に定性的に検証され、Astrobeeが直接撮影した単一のフレーム深度画像と、RGB-Dで構築され、Astrobeeからのデータを合成するフルシーン再構成マップからなる。 このアプローチのランタイムも深く分析されます。 ソースコードは、さらなる開発を促進するために公開されている。

This work presents an algorithm for scene change detection from point clouds to enable autonomous robotic caretaking in future space habitats. Autonomous robotic systems will help maintain future deep-space habitats, such as the Gateway space station, which will be uncrewed for extended periods. Existing scene analysis software used on the International Space Station (ISS) relies on manually-labeled images for detecting changes. In contrast, the algorithm presented in this work uses raw, unlabeled point clouds as inputs. The algorithm first applies modified Expectation-Maximization Gaussian Mixture Model (GMM) clustering to two input point clouds. It then performs change detection by comparing the GMMs using the Earth Mover's Distance. The algorithm is validated quantitatively and qualitatively using a test dataset collected by an Astrobee robot in the NASA Ames Granite Lab comprising single frame depth images taken directly by Astrobee and full-scene reconstructed maps built with RGB-D and pose data from Astrobee. The runtimes of the approach are also analyzed in depth. The source code is publicly released to promote further development.
翻訳日:2023-12-06 17:12:37 公開日:2023-12-04
# 検索ベースソフトウェアテストのインスタンス空間解析

Instance Space Analysis of Search-Based Software Testing ( http://arxiv.org/abs/2312.02392v1 )

ライセンス: Link先を確認
Neelofar Neelofar, Kate Smith-Miles, Mario Andres Munoz, Aldeida Aleti(参考訳) 検索ベースのソフトウェアテスト(SBST)は現在成熟した領域であり、ソフトウェアテストの課題に取り組むために多くの技術が開発されている。 SBST技術は有望な結果を示し、大規模で複雑なソフトウェアシステムのテストケースを自動的に生成するために業界で成功している。 しかし、その効果は問題に依存します。 本稿では,最近の手法の進歩を考慮したSBST手法の客観的性能評価の問題を再考し,SBST手法の強みと弱みを,一般的なベンチマークデータセットから可能な限り広い範囲の問題点(ソフトウェアクラス)を可視化し,評価することを可能にした。 SBST問題の特徴は、SBSTテクニックがなぜ難しいのかを説明し、既存のベンチマークデータセットのインスタンス空間における困難で簡単な問題の領域を明らかにし、最先端のSBSTテクニックの長所と短所を特定することである。 さらに,実験評価に用いる共通ベンチマークデータセットの多様性と品質について検討した。

Search-based software testing (SBST) is now a mature area, with numerous techniques developed to tackle the challenging task of software testing. SBST techniques have shown promising results and have been successfully applied in the industry to automatically generate test cases for large and complex software systems. Their effectiveness, however, is problem-dependent. In this paper, we revisit the problem of objective performance evaluation of SBST techniques considering recent methodological advances -- in the form of Instance Space Analysis (ISA) -- enabling the strengths and weaknesses of SBST techniques to be visualized and assessed across the broadest possible space of problem instances (software classes) from common benchmark datasets. We identify features of SBST problems that explain why a particular instance is hard for an SBST technique, reveal areas of hard and easy problems in the instance space of existing benchmark datasets, and identify the strengths and weaknesses of state-of-the-art SBST techniques. In addition, we examine the diversity and quality of common benchmark datasets used in experimental evaluations.
翻訳日:2023-12-06 17:12:17 公開日:2023-12-04
# Benchpress: 構造学習アルゴリズムのベンチマークのためのスケーラブルでVersatileなワークフロー

Benchpress: A Scalable and Versatile Workflow for Benchmarking Structure Learning Algorithms ( http://arxiv.org/abs/2107.03863v4 )

ライセンス: Link先を確認
Felix L. Rios, Giusi Moffa, Jack Kuipers(参考訳) 研究領域における変数とデータ生成機構のモデル化の関係を記述することは、多くの経験科学において基本的な問題である。 確率的グラフィカルモデルはこの問題に対処するための一般的なアプローチである。 このようなモデルのグラフィカル構造を学習することは計算的に困難であり、多くのアルゴリズムが開発されている。 確率的グラフィカルモデルのための構造学習アルゴリズムの,スケーラブルで再現性があり,プラットフォームに依存しないベンチマークを作成するための,新しいSnakemakeワークフローであるBenchpressを提案する。 benchpressはシンプルなjsonファイルでインターフェースされ、すべてのユーザがアクセスできるようにするが、コードは完全なモジュール方式で設計され、研究者は追加の方法論を貢献できる。 現在Benchpressは、BDgraph, BiDAG, bnlearn, causal-learn, gCastle, GOBNILP, pcalg, r.blip, scikit-learn, TETRAD, trilearnなどのライブラリから多くの最先端アルゴリズムのインターフェースを提供している。 ユーザ定義モデルとランダムに生成されたデータセットに加えて、このワークフローには、ベンチマーク調査に含まれる可能性のある文献からの標準データセットやグラフィカルモデルも含まれている。 ベイジアンネットワークを5つの典型的なデータシナリオで学習するためのこのワークフローの適用性を示す。 ソースコードとドキュメントはhttp://benchpressdocs.readthedocs.ioから公開されている。

Describing the relationship between the variables in a study domain and modelling the data generating mechanism is a fundamental problem in many empirical sciences. Probabilistic graphical models are one common approach to tackle the problem. Learning the graphical structure for such models is computationally challenging and a fervent area of current research with a plethora of algorithms being developed. To facilitate the benchmarking of different methods, we present a novel Snakemake workflow, called Benchpress for producing scalable, reproducible, and platform-independent benchmarks of structure learning algorithms for probabilistic graphical models. Benchpress is interfaced via a simple JSON-file, which makes it accessible for all users, while the code is designed in a fully modular fashion to enable researchers to contribute additional methodologies. Benchpress currently provides an interface to a large number of state-of-the-art algorithms from libraries such as BDgraph, BiDAG, bnlearn, causal-learn, gCastle, GOBNILP, pcalg, r.blip, scikit-learn, TETRAD, and trilearn as well as a variety of methods for data generating models and performance evaluation. Alongside user-defined models and randomly generated datasets, the workflow also includes a number of standard datasets and graphical models from the literature, which may be included in a benchmarking study. We demonstrate the applicability of this workflow for learning Bayesian networks in five typical data scenarios. The source code and documentation is publicly available from http://benchpressdocs.readthedocs.io.
翻訳日:2023-12-06 02:24:18 公開日:2023-12-04
# minegan++: 限られたデータドメインへの効率的な知識伝達のための生成モデル

MineGAN++: Mining Generative Models for Efficient Knowledge Transfer to Limited Data Domains ( http://arxiv.org/abs/2104.13742v2 )

ライセンス: Link先を確認
Yaxing Wang, Abel Gonzalez-Garcia, Chenshen Wu, Luis Herranz, Fahad Shahbaz Khan, Shangling Jui and Joost van de Weijer(参考訳) gansは生成モデルの影響を大きく増加させる。 そこで本研究では,特定の対象領域に最も有益である知識を単一または複数の事前学習ganからマイニングすることに基づく生成モデルのための新しい知識伝達法を提案する。 これは、各事前訓練されたGANの生成分布のどの部分が対象領域に最も近いサンプルを出力しているかを識別するマイカネットワークを用いて行われる。 マイニングはGANサンプリングを遅延空間の適切な領域に向けて効果的に操り、後部微細化を容易にし、モード崩壊や柔軟性の欠如など他の手法の病理を回避する。 さらに,ターゲット領域が小さすぎることを防止するため,学習可能なニューロンのセットを対象データセットに関連するものに制限する,スパースサブネットワーク選択を導入する。 我々は、様々なGANアーキテクチャ(BigGAN、Progressive GAN、StyleGAN)を用いて、いくつかの挑戦的データセットの総合的な実験を行い、提案手法であるMineGANが、ターゲット画像が少ない領域に知識を効果的に伝達し、既存の手法よりも優れていることを示す。 さらに、MineGANは複数の事前訓練されたGANから知識を伝達することに成功した。

GANs largely increases the potential impact of generative models. Therefore, we propose a novel knowledge transfer method for generative models based on mining the knowledge that is most beneficial to a specific target domain, either from a single or multiple pretrained GANs. This is done using a miner network that identifies which part of the generative distribution of each pretrained GAN outputs samples closest to the target domain. Mining effectively steers GAN sampling towards suitable regions of the latent space, which facilitates the posterior finetuning and avoids pathologies of other methods, such as mode collapse and lack of flexibility. Furthermore, to prevent overfitting on small target domains, we introduce sparse subnetwork selection, that restricts the set of trainable neurons to those that are relevant for the target dataset. We perform comprehensive experiments on several challenging datasets using various GAN architectures (BigGAN, Progressive GAN, and StyleGAN) and show that the proposed method, called MineGAN, effectively transfers knowledge to domains with few target images, outperforming existing methods. In addition, MineGAN can successfully transfer knowledge from multiple pretrained GANs.
翻訳日:2023-12-06 02:23:27 公開日:2023-12-04
# Pareto Probing: 複雑さの正確さの排除

Pareto Probing: Trading Off Accuracy for Complexity ( http://arxiv.org/abs/2010.02180v3 )

ライセンス: Link先を確認
Tiago Pimentel, Naomi Saphra, Adina Williams, Ryan Cotterell(参考訳) 言語構造のための文脈表現を原理的かつ有用な方法でどのように探索するかという問題は近年,NLP文学において注目されている。 この議論へのコントリビューションにおいて、我々は、プローブの複雑さと性能の基本的なトレードオフを反映したプローブ計量(Pareto hypervolume)を論じる。 複雑性を測定するために、パラメトリックおよび非パラメトリックメトリクスを多数提示する。 評価指標としてPareto hypervolumeを用いた実験は、プローブが期待に沿わないことが多いことを示している -- 例えば、非コンテキストのfastText表現は、コンテキストのBERT表現よりも、よりモルフォ・シンタクティック情報をエンコードすべきなのか? これらの結果から,文節ラベリングや係り受けアークラベリングなどの単純なプロビングタスクは,文脈的単語表現にエンコードされる言語構造を評価するのに不適当であることが示唆された。 これにより、探索タスクとして完全な依存性解析を提案します。 より厳密な探索作業が必要であるという我々の提案を支持するため、依存関係解析による実験により、文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかになった。

The question of how to probe contextual word representations for linguistic structure in a way that is both principled and useful has seen significant attention recently in the NLP literature. In our contribution to this discussion, we argue for a probe metric that reflects the fundamental trade-off between probe complexity and performance: the Pareto hypervolume. To measure complexity, we present a number of parametric and non-parametric metrics. Our experiments using Pareto hypervolume as an evaluation metric show that probes often do not conform to our expectations -- e.g., why should the non-contextual fastText representations encode more morpho-syntactic information than the contextual BERT representations? These results suggest that common, simplistic probing tasks, such as part-of-speech labeling and dependency arc labeling, are inadequate to evaluate the linguistic structure encoded in contextual word representations. This leads us to propose full dependency parsing as a probing task. In support of our suggestion that harder probing tasks are necessary, our experiments with dependency parsing reveal a wide gap in syntactic knowledge between contextual and non-contextual representations.
翻訳日:2023-12-06 02:21:50 公開日:2023-12-04
# 深層学習特性の特異値分解を用いた材料分類改善のためのエポキシ樹脂のX線画像における重要な特徴の可視化

Visualizing key features in X-ray images of epoxy resins for improved material classification using singular value decomposition of deep learning features ( http://arxiv.org/abs/2004.11968v3 )

ライセンス: Link先を確認
Edgar Avalos, Kazuto Akagi and Yasumasa Nishiura(参考訳) エポキシ樹脂のプロセス変数は機械的特性を変化させるが、これらの材料の試料のx線画像の特徴の視覚的同定は困難である。 同定を容易にするため, 異なる種類のエポキシ樹脂のX線画像の強度場の勾配の程度を近似し, 深層学習を用いて変換画像の最も代表的な特徴を明らかにする。 不均質材料の試料を識別するための特徴的特徴を求める逆問題の解として、畳み込みニューラルネットワークにおいて、初期層の特徴写像のすべてのチャネルの特異値分解から得られた固有ベクトルを用いる。 最も強力な活性化チャネルは特徴を視覚的に表現するが、実際的な設定では不十分であることが多い。 一方、特徴写像の行列分解の左特異ベクトルは、ネットワークの容量やネットワークアーキテクチャなどの変数が変化するときはほとんど変化しない。 本研究は,特徴量の高い分類精度とロバスト性を示す。

Although the process variables of epoxy resins alter their mechanical properties, the visual identification of the characteristic features of X-ray images of samples of these materials is challenging. To facilitate the identification, we approximate the magnitude of the gradient of the intensity field of the X-ray images of different kinds of epoxy resins and then we use deep learning to discover the most representative features of the transformed images. In this solution of the inverse problem to finding characteristic features to discriminate samples of heterogeneous materials, we use the eigenvectors obtained from the singular value decomposition of all the channels of the feature maps of the early layers in a convolutional neural network. While the strongest activated channel gives a visual representation of the characteristic features, often these are not robust enough in some practical settings. On the other hand, the left singular vectors of the matrix decomposition of the feature maps, barely change when variables such as the capacity of the network or network architecture change. High classification accuracy and robustness of characteristic features are presented in this work.
翻訳日:2023-12-06 02:21:16 公開日:2023-12-04
# 弱い重力場における光ファイバのGupta-Bleuler量子化

Gupta-Bleuler quantization of optical fibers in weak gravitational fields ( http://arxiv.org/abs/2207.13537v3 )

ライセンス: Link先を確認
Thomas Mieling(参考訳) 線形等方性誘電体におけるゲージ固定マックスウェル方程式の理論は標準の$R_\xi$ゲージ固定項の一般化を用いて展開される。 静的時空では、理論はグプタ・ブラウラー法を用いて量子化することができ、これは平坦な時空でも一定の重力ポテンシャルでも光学ファイバーに対して明示的に解くことができる。 これにより、曲った時空における場の量子論の枠組み内の単光子レベルでの重力ファイバー光学干渉法の一貫した第一原理記述が得られる。

The theory of gauge-fixed Maxwell equations in linear isotropic dielectrics is developed using a generalisation of the standard $R_\xi$ gauge-fixing term. In static space-times, the theory can be quantised using the Gupta-Bleuler method, which is worked out explicitly for optical fibres either in flat space-time or at a constant gravitational potential. This yields a consistent first-principles description of gravitational fibre-optic interferometry at the single-photon level within the framework of quantum field theory in curved space-times.
翻訳日:2023-12-06 02:14:12 公開日:2023-12-04
# ランダム重み付きエコー状態ネットワークの普遍性と近似境界

Universality and approximation bounds for echo state networks with random weights ( http://arxiv.org/abs/2206.05669v3 )

ライセンス: Link先を確認
Zhen Li, Yunfei Yang(参考訳) 内部重みをランダムに生成したエコー状態ネットワークの均一近似について検討した。 これらのモデルは、トレーニング中に読み出し重量だけを最適化するものであり、動的システムを学ぶ上で経験的な成功を収めた。 最近の結果は、reluアクティベーションを持つエコーステートネットワークが普遍的であることを示している。 本稿では、代替構成を与え、普遍性が一般活性化関数に対して成り立つことを証明する。 特に, 活性化関数のある条件下では, 内部重みに対するサンプリング手順が存在し, エコー状態ネットワークは, 任意の連続的なカジュアル時間不変作用素を高い確率で近似できることを示す。 特に、ReLUの活性化には、これらのサンプリング手順を明確に構成する。 また、構築したreluエコー状態ネットワークの十分正規な演算子に対する近似誤差を定量化する。

We study the uniform approximation of echo state networks with randomly generated internal weights. These models, in which only the readout weights are optimized during training, have made empirical success in learning dynamical systems. Recent results showed that echo state networks with ReLU activation are universal. In this paper, we give an alternative construction and prove that the universality holds for general activation functions. Specifically, our main result shows that, under certain condition on the activation function, there exists a sampling procedure for the internal weights so that the echo state network can approximate any continuous casual time-invariant operators with high probability. In particular, for ReLU activation, we give explicit construction for these sampling procedures. We also quantify the approximation error of the constructed ReLU echo state networks for sufficiently regular operators.
翻訳日:2023-12-06 02:12:34 公開日:2023-12-04
# 高速単一量子ビット位相シフトゲート生成のための量子制御の詳細な構造について

On the detailed structure of quantum control landscape for fast single qubit phase-shift gate generation ( http://arxiv.org/abs/2204.13671v2 )

ライセンス: Link先を確認
Boris Volkov and Alexander Pechen(参考訳) 本研究では,高速時間スケールでの単一量子ビット位相シフトゲート生成問題に対する量子制御ランドスケープの詳細な構造について検討する。 以前の研究では、この問題のトラップがないことが様々な時間スケールで証明された。 量子制御ランドスケープに存在することが知られている特別な臨界点は、制御系のパラメータによっては、サドルか、大域的極端かのいずれかであることが示されている。 しかし、サドルの場合、この時点でのヘッセンの負および正の固有値の数とその大きさは研究されていない。 同時に、これらの数と大きさは臨界点近傍における実用的最適化の相対的容易さや難易度を決定する。 本研究では、このサドル点におけるヘッセンの負および正の固有値の数を計算し、これらの固有値の大きさを推定する。 また、Hessian [Theorem~3 in B.O.~Volkov, O.V.~Morzhin, A.N.~Pechen, J のこのサドル点に関する定理の以前の証明を大幅に単純化する。 Phys。 〜a:数学。 Theor bf 54}, 215303 (2021)]。

In this work, we study the detailed structure of quantum control landscape for the problem of single-qubit phase shift gate generation on the fast time scale. In previous works, the absence of traps for this problem was proven on various time scales. A special critical point which was known to exist in quantum control landscapes was shown to be either a saddle or a global extremum, depending on the parameters of the control system. However, in the case of saddle the numbers of negative and positive eigenvalues of Hessian at this point and their magnitudes have not been studied. At the same time, these numbers and magnitudes determine the relative ease or difficulty for practical optimization in a vicinity of the critical point. In this work, we compute the numbers of negative and positive eigenvalues of Hessian at this saddle point and moreover, give estimates on magnitude of these eigenvalues. We also significantly simplify our previous proof of the theorem about this saddle point of the Hessian [Theorem~3 in B.O.~Volkov, O.V.~Morzhin, A.N.~Pechen, J.~Phys.~A: Math. Theor. {\bf 54}, 215303 (2021)].
翻訳日:2023-12-06 02:11:22 公開日:2023-12-04
# 学習型マッチングアルゴリズムによる3Dポイントクラウドの登録

3D Point Cloud Registration with Learning-based Matching Algorithm ( http://arxiv.org/abs/2202.02149v4 )

ライセンス: Link先を確認
Rintaro Yanagi, Atsushi Hashimoto, Shusaku Sone, Naoya Chiba, Jiaxin Ma, and Yoshitaka Ushiku(参考訳) 本稿では3次元点雲登録のための新しい差分マッチングアルゴリズムを提案する。 マッチングアルゴリズムのために特徴抽出器を最適化する代わりに,共同学習した特徴抽出器に最適化された学習ベースマッチングモジュールを提案する。 我々は、メモリ消費が多いが、GNNが抱える過度にスムースな効果を回避できるエッジワイド機能フォワードアーキテクチャに焦点を当てた。 我々は、そのメモリ効率を改善し、ポイントクラウド登録のためにスケールし、機能抽出器と接続する最善の方法を調査します。 実験結果から,複数の現代の特徴抽出器を用いた剛性/非剛性および全部分点クラウド登録データセットの性能改善に対する一致モジュールの影響が示唆された。 例えば、我々のモジュールは、現在のsotaメソッドであるroitrを+5.4%、nfmrメトリックを+7.2%、irメトリックを4dmatchと4dlomatchデータセットで+6.1%、+8.5%増やした。

We present a novel differential matching algorithm for 3D point cloud registration. Instead of only optimizing the feature extractor for a matching algorithm, we propose a learning-based matching module optimized to the jointly-trained feature extractor. We focused on edge-wise feature-forwarding architectures, which are memory-consuming but can avoid the over-smoothing effect that GNNs suffer. We improve its memory efficiency to scale it for point cloud registration while investigating the best way of connecting it to the feature extractor. Experimental results show our matching module's significant impact on performance improvement in rigid/non-rigid and whole/partial point cloud registration datasets with multiple contemporary feature extractors. For example, our module boosted the current SOTA method, RoITr, by +5.4%, and +7.2% in the NFMR metric and +6.1% and +8.5% in the IR metric on the 4DMatch and 4DLoMatch datasets, respectively.
翻訳日:2023-12-06 02:10:08 公開日:2023-12-04
# コントロール、機密性、忘れられる権利

Control, Confidentiality, and the Right to be Forgotten ( http://arxiv.org/abs/2210.07876v2 )

ライセンス: Link先を確認
Aloni Cohen, Adam Smith, Marika Swanberg, Prashant Nalini Vasudevan(参考訳) 最近のデジタル著作権フレームワークは、利用者に個人情報を保管して処理するシステム(GDPRの「忘れられる権利」など)からデータを削除する権利を与える。 多数のユーザと対話し、デリバティブ情報を格納する複雑なシステムでは、どのように削除を形式化するべきか? 我々は事前のアプローチが不足していると論じる。 機械学習の Cao と Yang [2015] の定義はスコープが狭すぎ、一般的なインタラクティブな設定には適用できない。 Deletion-as-confidentiality Garg et al. の自然なアプローチ 削除されたデータの機密性を要求することによって、社会的機能を排除する。 我々は新しい形式である削除・制御を提案する。 削除前にデータを自由に使用することができ、削除後に意味のある要件を課すことができる。 deletion-as-controlは、さまざまな設定でdeletionを実現する新しい方法を提供する。 社会機能に応用し、文献からの様々な機械学習定義の統一的なビューを提供する。 これは歴史独立性の新しい適応的一般化によって行われる。 deletion-as-controlはまた、モデルを維持しながらユーザの削除要求を尊重する、機械学習の目標に対する新しいアプローチを提供する。 連続的なリリースの下で異なるプライベートな更新モデル列が削除・削除・制御を満足することを示す。 このようなアルゴリズムの精度は、機械学習の文献とは対照的に、削除された点の数に依存しない。

Recent digital rights frameworks give users the right to delete their data from systems that store and process their personal information (e.g., the "right to be forgotten" in the GDPR). How should deletion be formalized in complex systems that interact with many users and store derivative information? We argue that prior approaches fall short. Definitions of machine unlearning Cao and Yang [2015] are too narrowly scoped and do not apply to general interactive settings. The natural approach of deletion-as-confidentiality Garg et al. [2020] is too restrictive: by requiring secrecy of deleted data, it rules out social functionalities. We propose a new formalism: deletion-as-control. It allows users' data to be freely used before deletion, while also imposing a meaningful requirement after deletion--thereby giving users more control. Deletion-as-control provides new ways of achieving deletion in diverse settings. We apply it to social functionalities, and give a new unified view of various machine unlearning definitions from the literature. This is done by way of a new adaptive generalization of history independence. Deletion-as-control also provides a new approach to the goal of machine unlearning, that is, to maintaining a model while honoring users' deletion requests. We show that publishing a sequence of updated models that are differentially private under continual release satisfies deletion-as-control. The accuracy of such an algorithm does not depend on the number of deleted points, in contrast to the machine unlearning literature.
翻訳日:2023-12-06 02:04:24 公開日:2023-12-04
# 深層最適化におけるスキップ接続と正規化層について

On skip connections and normalisation layers in deep optimisation ( http://arxiv.org/abs/2210.05371v4 )

ライセンス: Link先を確認
Lachlan Ewen MacDonald, Jack Valmadre, Hemanth Saratchandran, Simon Lucey(参考訳) 本研究では,重みの正規化,重みの正規化,スキップ接続など,ユビキタスなアーキテクチャの選択を包含する深層ニューラルネットワークの勾配最適化の研究のために設計された一般理論的枠組みを提案する。 本フレームワークは,多層損失景観の曲率および規則性特性を構成層の観点から決定し,正規化層が果たす役割を解明し,これらの特性のグローバル化における接続を省略する。 次に、このフレームワークの有用性を2つの点で示します。 まず,大域的オプティマへの勾配勾配勾配を用いた深層ニューラルネットワークの学習が無限大にしか存在しないこと,すなわちクロスエントロピーコストの場合においても可能であることを,我々が認識している唯一の証明を与える。 第2に,MNIST, CIFAR10, CIFAR100, ImageNet上のResNetsと予測的に検証する,スキップ接続を加速する新たな因果メカニズムを同定する。

We introduce a general theoretical framework, designed for the study of gradient optimisation of deep neural networks, that encompasses ubiquitous architecture choices including batch normalisation, weight normalisation and skip connections. Our framework determines the curvature and regularity properties of multilayer loss landscapes in terms of their constituent layers, thereby elucidating the roles played by normalisation layers and skip connections in globalising these properties. We then demonstrate the utility of this framework in two respects. First, we give the only proof of which we are aware that a class of deep neural networks can be trained using gradient descent to global optima even when such optima only exist at infinity, as is the case for the cross-entropy cost. Second, we identify a novel causal mechanism by which skip connections accelerate training, which we verify predictively with ResNets on MNIST, CIFAR10, CIFAR100 and ImageNet.
翻訳日:2023-12-06 02:03:21 公開日:2023-12-04
# モンテカルロからニューラルネットワークへの境界値問題の近似

From Monte Carlo to neural networks approximations of boundary value problems ( http://arxiv.org/abs/2209.01432v2 )

ライセンス: Link先を確認
Lucian Beznea, Iulian Cimpean, Oana Lupascu-Stamate, Ionel Popescu, Arghir Zarnescu(参考訳) 本稿では,h\"古いデータに従属するポアソン方程式の解の確率的およびニューラルネットワーク的近似を,$\mathbb{r}^d$ の一般有界領域で研究する。 私たちは2つの基本的な目標を目指しています。 第一、そして最も重要なことは、ポアソン方程式の解をモンテカルロ法によって超ノルムで数値的に近似することができ、加速法としてウォーク・オン・球面アルゴリズム { の修正バージョン} を用いると、これは高効率にできることを示すことである。 これにより、所定の近似誤差と、誤差の次元および逆数における多項式複雑性に対して効率的な推定値が得られる。 重要な特徴は、サンプルの全体数は近似が実行される点に依存しないということである。 第2のゴールとして,得られたモンテカルロ解法では,最大多項式長が$d$と所望の誤差に依存するポアソン問題に対して,relu deep neural network (dnn) 解を合成的にレンダリングする。 実際、ランダムDNNは、その次元における小さな近似誤差と低い多項式複雑性を高い確率で提供することを示す。

In this paper we study probabilistic and neural network approximations for solutions to Poisson equation subject to H\" older data in general bounded domains of $\mathbb{R}^d$. We aim at two fundamental goals. The first, and the most important, we show that the solution to Poisson equation can be numerically approximated in the sup-norm by Monte Carlo methods, { and that this can be done highly efficiently if we use a modified version} of the walk on spheres algorithm { as an acceleration method. This provides estimates which are efficient with respect to the prescribed approximation error and with polynomial complexity in the dimension and the reciprocal of the error.} {A crucial feature is that} the overall number of samples does not not depend on the point at which the approximation is performed. As a second goal, we show that the obtained Monte Carlo solver renders { in a constructive way} ReLU deep neural network (DNN) solutions to Poisson problem, whose sizes depend at most polynomialy in the dimension $d$ and in the desired error. In fact we show that the random DNN provides with high probability a small approximation error and low polynomial complexity in the dimension.
翻訳日:2023-12-06 02:01:04 公開日:2023-12-04
# 量子ネットワークではグラフ状態は準備できず、二成分源と古典的通信もできない

No graph state is preparable in quantum networks with bipartite sources and no classical communication ( http://arxiv.org/abs/2208.12099v2 )

ライセンス: Link先を確認
Owidiusz Makuta, Laurens T. Ligthart, Remigiusz Augusiak(参考訳) 量子ネットワークの研究において、当事者は古典的に互いに通信できるとしばしば仮定される。 しかし、古典的な通信は、特に大きな場合、ネットワークにかなりの遅延をもたらす可能性がある。 ネットワークのレイテンシが最も重要な特徴の1つであるため、パーティが古典的に通信できない量子ネットワークを考慮し、この仮定がそのようなネットワークでマルチパーティイト状態を作成する可能性にどんな制限を課すのかを問うことは興味深い。 量子情報における多くの応用で知られている任意の素局所次元のグラフ状態は、パーティションが二部分量子状態のソースを介して接続される量子ネットワークでは生成できず、古典的通信はいくつかの既共有古典的相関によって置き換えられることを示す。 次に、グラフ状態に十分近い任意の量子状態に対する結果の一般化を行う。

In research concerning quantum networks, it is often assumed that the parties can classically communicate with each other. However, classical communication might introduce a substantial delay to the network, especially if it is large. As the latency of a network is one of its most important characteristics, it is interesting to consider quantum networks in which parties cannot communicate classically and ask what limitations this assumption imposes on the possibility of preparing multipartite states in such networks. We show that graph states of an arbitrary prime local dimension known for their numerous applications in quantum information cannot be generated in a quantum network in which parties are connected via sources of bipartite quantum states and the classical communication is replaced by some pre-shared classical correlations. We then generalise our result to arbitrary quantum states that are sufficiently close to graph states.
翻訳日:2023-12-06 01:59:07 公開日:2023-12-04
# マルチホップ質問応答におけるラベル平滑化の再考

Rethinking Label Smoothing on Multi-hop Question Answering ( http://arxiv.org/abs/2212.09512v2 )

ライセンス: Link先を確認
Zhangyue Yin, Yuxin Wang, Xiannian Hu, Yiguang Wu, Hang Yan, Xinyu Zhang, Zhao Cao, Xuanjing Huang, Xipeng Qiu(参考訳) MHQA(Multi-Hop Question Answering)は、文書検索、文予測、回答スパン抽出など、複数の推論要素を必要とする質問応答において重要な領域である。 本研究では,マルチホップ推論の性能を制限する主要な要因を分析し,MHQAタスクにラベルスムーシングを導入する。 これは、MHQAシステムの一般化能力の向上と、トレーニングセットにおける回答スパンと推論パスの過剰適合の軽減を目的としている。 本研究では,学習プロセスに不確実性を取り入れた新しいラベル平滑化手法であるf1平滑化法を提案する。 カリキュラム学習の原則に着想を得て,学習過程を通じて不確実性を徐々に減少させる線形決定ラベル平滑化アルゴリズム(LDLA)を導入する。 HotpotQAデータセットを用いた実験により,マルチホップ推論における性能向上と一般化性の向上,およびリーダボード上での新たな最先端結果の達成効果が示された。

Multi-Hop Question Answering (MHQA) is a significant area in question answering, requiring multiple reasoning components, including document retrieval, supporting sentence prediction, and answer span extraction. In this work, we analyze the primary factors limiting the performance of multi-hop reasoning and introduce label smoothing into the MHQA task. This is aimed at enhancing the generalization capabilities of MHQA systems and mitigating overfitting of answer spans and reasoning paths in training set. We propose a novel label smoothing technique, F1 Smoothing, which incorporates uncertainty into the learning process and is specifically tailored for Machine Reading Comprehension (MRC) tasks. Inspired by the principles of curriculum learning, we introduce the Linear Decay Label Smoothing Algorithm (LDLA), which progressively reduces uncertainty throughout the training process. Experiment on the HotpotQA dataset demonstrates the effectiveness of our methods in enhancing performance and generalizability in multi-hop reasoning, achieving new state-of-the-art results on the leaderboard.
翻訳日:2023-12-06 01:53:30 公開日:2023-12-04
# 分類なしオブジェクト提案とインスタンスレベルのコントラスト学習を用いたオープンセットオブジェクト検出

Open-Set Object Detection Using Classification-free Object Proposal and Instance-level Contrastive Learning ( http://arxiv.org/abs/2211.11530v2 )

ライセンス: Link先を確認
Zhongxiang Zhou, Yifei Yang, Yue Wang, Rong Xiong(参考訳) 既知のオブジェクトと未知のオブジェクトの両方を検出することは、非構造化環境でのロボット操作の基本的なスキルである。 オープンセットオブジェクト検出(OSOD)は、オブジェクトと背景分離、オープンセットオブジェクト分類という2つのサブタスクからなる問題を処理するための有望な方向である。 本稿では,OSODの課題に対処するため,Openset RCNNを提案する。 第1のサブタスクで未知のオブジェクトと背景を曖昧にするために,各領域の対象性スコアを,対象の位置と形状から純粋に推定し,トレーニングカテゴリへの過度な適合を防ぐ分類フリー領域提案ネットワーク(cf-rpn)を提案する。 第2のサブタスクで未知のオブジェクトを識別するために,プロトタイプ学習ネットワーク(PLN)により達成された潜在空間における既知のカテゴリの補完領域を用いて表現することを提案する。 PLNはインスタンスレベルのコントラスト学習を行い、提案を潜在空間にエンコードし、既知のカテゴリごとにプロトタイプを中心としたコンパクトな領域を構築する。 また、一般に使用されるオブジェクト検出データセットが完全にアノテートされていない状況では、未知のオブジェクトの検出性能を偏りなく評価できないことに注意する。 これにより、完全なアノテーションを備えたロボットグリップポーズ検出データセットであるGraspNet-1billionを再編成することで、新しいベンチマークが導入された。 広範な実験が我々の方法の利点を示している。 最終的に、私たちのOpenset RCNNは、散らかった環境でロボットの並べ替えタスクをサポートするオープンセットの知覚能力でロボットを支援できることを示した。 詳細はhttps://sites.google.com/view/openset-rcnn/にある。

Detecting both known and unknown objects is a fundamental skill for robot manipulation in unstructured environments. Open-set object detection (OSOD) is a promising direction to handle the problem consisting of two subtasks: objects and background separation, and open-set object classification. In this paper, we present Openset RCNN to address the challenging OSOD. To disambiguate unknown objects and background in the first subtask, we propose to use classification-free region proposal network (CF-RPN) which estimates the objectness score of each region purely using cues from object's location and shape preventing overfitting to the training categories. To identify unknown objects in the second subtask, we propose to represent them using the complementary region of known categories in a latent space which is accomplished by a prototype learning network (PLN). PLN performs instance-level contrastive learning to encode proposals to a latent space and builds a compact region centering with a prototype for each known category. Further, we note that the detection performance of unknown objects can not be unbiasedly evaluated on the situation that commonly used object detection datasets are not fully annotated. Thus, a new benchmark is introduced by reorganizing GraspNet-1billion, a robotic grasp pose detection dataset with complete annotation. Extensive experiments demonstrate the merits of our method. We finally show that our Openset RCNN can endow the robot with an open-set perception ability to support robotic rearrangement tasks in cluttered environments. More details can be found in https://sites.google.com/view/openset-rcnn/
翻訳日:2023-12-06 01:52:29 公開日:2023-12-04
# ゼロパディングをもつ完全畳み込みニューラルネットワークの普遍近似特性

Universal Approximation Property of Fully Convolutional Neural Networks with Zero Padding ( http://arxiv.org/abs/2211.09983v3 )

ライセンス: Link先を確認
Geonho Hwang, Myungjoo Kang(参考訳) 畳み込みニューラルネットワーク(CNN)は、ディープラーニングにおいて最も顕著なニューラルネットワークアーキテクチャの1つである。 広く採用されているにもかかわらず、我々の普遍近似特性の理解は、その複雑な性質のために制限されてきた。 CNNは本質的にテンソル-テンソルマッピングとして機能し、入力データの空間構造を保存する。 しかし、完全な畳み込みニューラルネットワークの普遍的な近似特性を任意の連続テンソル-テンソル関数として研究している。 本研究では,ゼロパディングを利用する場合,入力値と出力値の両方が同じ空間形状を示す場合,cnnが任意の連続関数を近似できることを実証する。 さらに、近似に必要なニューラルネットワークの最小深さを決定し、その最適性を推定する。 また、深い狭いCNNがテンソル-テンソル関数としてUAPを持っていることを検証する。 この結果は幅広い活性化機能を含み、我々の研究は全次元のCNNをカバーしている。

The Convolutional Neural Network (CNN) is one of the most prominent neural network architectures in deep learning. Despite its widespread adoption, our understanding of its universal approximation properties has been limited due to its intricate nature. CNNs inherently function as tensor-to-tensor mappings, preserving the spatial structure of input data. However, limited research has explored the universal approximation properties of fully convolutional neural networks as arbitrary continuous tensor-to-tensor functions. In this study, we demonstrate that CNNs, when utilizing zero padding, can approximate arbitrary continuous functions in cases where both the input and output values exhibit the same spatial shape. Additionally, we determine the minimum depth of the neural network required for approximation and substantiate its optimality. We also verify that deep, narrow CNNs possess the UAP as tensor-to-tensor functions. The results encompass a wide range of activation functions, and our research covers CNNs of all dimensions.
翻訳日:2023-12-06 01:51:59 公開日:2023-12-04
# 生涯自己適応を用いた学習型自己適応システムにおける適応空間のドリフト処理

Dealing with Drift of Adaptation Spaces in Learning-based Self-Adaptive Systems using Lifelong Self-Adaptation ( http://arxiv.org/abs/2211.02658v3 )

ライセンス: Link先を確認
Omid Gheibi and Danny Weyns(参考訳) 近年、機械学習(ML)は自己適応をサポートする一般的なアプローチとなっている。 MLは、不確実性とスケーラブルな意思決定の下での最新のランタイムモデルを維持するなど、自己適応におけるいくつかの問題に対処するために使用されてきた。 しかし、MLの利用には固有の課題が伴う。 本稿では,学習型自己適応システムにおいて特に重要な課題である適応空間のドリフトに着目した。 適応空間では、適応オプションの集合を参照し、自己適応システムは、適応オプションの推定品質特性に基づいて、所定のタイミングで適応を選択することができる。 適応空間のドリフトは不確実性から始まり、適応オプションの品質特性に影響を及ぼす。 このようなドリフトは、最終的に適応オプションが適応目標の初期セットを満たすことができず、システムの品質を劣化させたり、適応オプションが出現して適応目標が拡張されることを示唆する。 MLでは、そのようなシフトは、一般的なML技術が扱う問題のあるターゲットデータにおいて、新しいクラスの出現に対応する。 この問題に対処するために,生涯ML層を用いた学習に基づく自己適応システムを強化する,新たな自己適応手法を提案する。 このアプローチを生涯の自己適応と呼んでいる。 生涯ml層は、システムとその環境を追跡し、その知識と現在のタスクを関連付け、違いに基づいて新しいタスクを特定し、それに応じて自己適応システムの学習モデルを更新する。 人間の利害関係者は学習プロセスを支援し、学習と目標モデルを調整するために関与する。 本稿では、生涯の自己適応のための一般的なアーキテクチャを提案し、自己適応の意思決定に影響を与える適応空間の漂流の場合に適用する。 DeltaIoTの例を使って,一連のシナリオに対するアプローチを検証する。

Recently, machine learning (ML) has become a popular approach to support self-adaptation. ML has been used to deal with several problems in self-adaptation, such as maintaining an up-to-date runtime model under uncertainty and scalable decision-making. Yet, exploiting ML comes with inherent challenges. In this paper, we focus on a particularly important challenge for learning-based self-adaptive systems: drift in adaptation spaces. With adaptation space we refer to the set of adaptation options a self-adaptive system can select from at a given time to adapt based on the estimated quality properties of the adaptation options. Drift of adaptation spaces originates from uncertainties, affecting the quality properties of the adaptation options. Such drift may imply that eventually no adaptation option can satisfy the initial set of the adaptation goals, deteriorating the quality of the system, or adaptation options may emerge that allow enhancing the adaptation goals. In ML, such shift corresponds to novel class appearance, a type of concept drift in target data that common ML techniques have problems dealing with. To tackle this problem, we present a novel approach to self-adaptation that enhances learning-based self-adaptive systems with a lifelong ML layer. We refer to this approach as lifelong self-adaptation. The lifelong ML layer tracks the system and its environment, associates this knowledge with the current tasks, identifies new tasks based on differences, and updates the learning models of the self-adaptive system accordingly. A human stakeholder may be involved to support the learning process and adjust the learning and goal models. We present a general architecture for lifelong self-adaptation and apply it to the case of drift of adaptation spaces that affects the decision-making in self-adaptation. We validate the approach for a series of scenarios using the DeltaIoT exemplar.
翻訳日:2023-12-06 01:51:07 公開日:2023-12-04
# 雑音量子回路の資源効率シミュレーションとネットワーク対応QRAM最適化への応用

Resource-efficient simulation of noisy quantum circuits and application to network-enabled QRAM optimization ( http://arxiv.org/abs/2210.13494v2 )

ライセンス: Link先を確認
Lu\'is Bugalho, Emmanuel Zambrini Cruzeiro, Kevin C. Chen, Wenhan Dai, Dirk Englund and Yasser Omar(参考訳) Giovannetti, Lloyd, and Maccone [Phys. Rev. 100, 160501] は$O(\log(N))$量子スイッチと$O(\log(N))$アドレス量子ビットを介して$N$(量子)メモリセルの任意の重ね合わせを取得する量子ランダムアクセスメモリ (QRAM) アーキテクチャを提案した。 物理的なQRAM実装に向けて、Chenら。 [prx quantum 2, 030319] 最近、qramはo(\log(n))$のオーバーヘッドと組み込みのエラー検出を備えた光接続量子ネットワークにネイティブにマップすることを示した。 しかし、大規模ネットワーク上でのQRAMのモデリングは、古典的な計算要求が指数関数的に高まることによって妨げられている。 ここではこのボトルネックに対処する。 (i)大規模なノイズの絡み合いをシミュレートする資源効率の高い手法を導入することで、様々なノイズチャネルにおいて数百から数千キュービットの評価が可能となる。 (ii)chen等のネットワークベースのqramを、量子データセンター規模や短期量子インターネット規模での応用として分析すること。 3) 量子忠実度とアクセス率を改善するため,ネットワークベースのQRAMアーキテクチャを改良した。 ネットワークベースのQRAMは、フォトニック集積回路と原子または原子に似た量子メモリを活用する既存のまたは短期技術で構築できると結論付けている。

Giovannetti, Lloyd, and Maccone [Phys. Rev. Lett. 100, 160501] proposed a quantum random access memory (QRAM) architecture to retrieve arbitrary superpositions of $N$ (quantum) memory cells via $O(\log(N))$ quantum switches and $O(\log(N))$ address qubits. Towards physical QRAM implementations, Chen et al. [PRX Quantum 2, 030319] recently showed that QRAM maps natively onto optically connected quantum networks with $O(\log(N))$ overhead and built-in error detection. However, modeling QRAM on large networks has been stymied by exponentially rising classical compute requirements. Here, we address this bottleneck by: (i) introducing a resource-efficient method for simulating large-scale noisy entanglement, allowing us to evaluate hundreds and even thousands of qubits under various noise channels; and (ii) analyzing Chen et al.'s network-based QRAM as an application at the scale of quantum data centers or near-term quantum internet; and (iii) introducing a modified network-based QRAM architecture to improve quantum fidelity and access rate. We conclude that network-based QRAM could be built with existing or near-term technologies leveraging photonic integrated circuits and atomic or atom-like quantum memories.
翻訳日:2023-12-06 01:49:42 公開日:2023-12-04
# 局所積ゲートの距離最大値としての双対ユニタリ

Dual unitaries as maximizers of the distance to local product gates ( http://arxiv.org/abs/2210.13307v2 )

ライセンス: Link先を確認
Shrigyan Brahmachari, Rohan Narayan Rajmohan, Suhail Ahmad Rather, Arul Lakshminarayan(参考訳) T リソースフリーで最も近いローカルユニタリを任意の二部単位ゲート$U$に発見する問題は解決される。 以前は非局所性の尺度として議論されており、K_D(U)$ から最も近い積のユニタリへの距離は、回路の複雑さと関連する量に影響を及ぼす。 双対ユニタリは現在、複雑な量子多体系のモデルに非常に興味を持ち、局所ユニタリの集合から最大かつ等しく離れているため、望ましい役割を持っていることが示されている。 これは qubit の場合で証明され、一般にそれが真であることを示す強い数値的および解析的な証拠を示す。 一般的な2ビットゲートに対して、K_D(U)$の解析的評価を示す。 任意の局所次元に対して、$k_d(u)$ は双対ユニタリに対して最大であり、双対ユニタリおよびある非双対ゲートの重要な族に対する解析的評価によって証明される。 密接な提携の結果、任意の二元系ユニタリに対して、それが接続する最大に絡み合った状態の対の存在が懸念される。 このような状態を見つけ、一般に$k_d(u)$を見つけるための効率的な数値アルゴリズムを与える。

TThe problem of finding the resource free, closest local unitary, to any bipartite unitary gate $U$ is addressed. Previously discussed as a measure of nonlocality, the distance $K_D(U)$ to the nearest product unitary has implications for circuit complexity and related quantities. Dual unitaries, currently of great interest in models of complex quantum many-body systems, are shown to have a preferred role as these are maximally and equally away from the set of local unitaries. This is proved here for the case of qubits and we present strong numerical and analytical evidence that it is true in general. An analytical evaluation of $K_D(U)$ is presented for general two-qubit gates. For arbitrary local dimensions, that $K_D(U)$ is largest for dual unitaries, is substantiated by its analytical evaluations for an important family of dual-unitary and for certain non-dual gates. A closely allied result concerns, for any bipartite unitary, the existence of a pair of maximally entangled states that it connects. We give efficient numerical algorithms to find such states and to find $K_D(U)$ in general.
翻訳日:2023-12-06 01:48:38 公開日:2023-12-04
# BELIEF in Dependence:一般線形モデル再考のためのデータビットにおけるアトミックリニアリティの活用

BELIEF in Dependence: Leveraging Atomic Linearity in Data Bits for Rethinking Generalized Linear Models ( http://arxiv.org/abs/2210.10852v2 )

ライセンス: Link先を確認
Benjamin Brown, Kai Zhang, Xiao-Li Meng(参考訳) 2つの線形非相関二項変数は、非線形依存が2つの可能な状態だけでは表せないため、独立でなければならない。 この固有線型性は、いかなる複雑な関係の形式を構成する依存の原子である。 この観察に触発されて,二進展開線形効果(binary expansion linear effect, belief)と呼ばれる枠組みを開発し,二進結果との任意の関係を理解する。 BELIEFフレームワークのモデルは、線形モデルの言語におけるバイナリ変数の関連を記述し、便利な理論的洞察を与え、ガウス平行線を打つため、容易に解釈できる。 BELIEFでは、透明な線形モデルを通して一般化線形モデル(GLM)を研究することができ、リンクの選択がモデルにどう影響するかを洞察することができる。 例えば、 GLM の相互作用係数を 0 に設定することは、その線形モデルで理解されるような非相互作用モデル仮定に必ずしも結びつくとは限らない。 さらに、バイナリ応答では、データが最も識別可能な場合、GLMの最大推定は完全分離下では失敗するが、BELIEF推定は完全分離に責任があるデータの完全な予測器を自動的に明らかにする。 これらの現象を探索し、関連する理論的結果を提供する。 また,いくつかの理論結果の予備的な実証実験を行った。

Two linearly uncorrelated binary variables must be also independent because non-linear dependence cannot manifest with only two possible states. This inherent linearity is the atom of dependency constituting any complex form of relationship. Inspired by this observation, we develop a framework called binary expansion linear effect (BELIEF) for understanding arbitrary relationships with a binary outcome. Models from the BELIEF framework are easily interpretable because they describe the association of binary variables in the language of linear models, yielding convenient theoretical insight and striking Gaussian parallels. With BELIEF, one may study generalized linear models (GLM) through transparent linear models, providing insight into how the choice of link affects modeling. For example, setting a GLM interaction coefficient to zero does not necessarily lead to the kind of no-interaction model assumption as understood under their linear model counterparts. Furthermore, for a binary response, maximum likelihood estimation for GLMs paradoxically fails under complete separation, when the data are most discriminative, whereas BELIEF estimation automatically reveals the perfect predictor in the data that is responsible for complete separation. We explore these phenomena and provide related theoretical results. We also provide preliminary empirical demonstration of some theoretical results.
翻訳日:2023-12-06 01:47:50 公開日:2023-12-04
# クロスオーバーは進化的多目的最適化における指数的スピードアップを保証できる

Crossover Can Guarantee Exponential Speed-Ups in Evolutionary Multi-Objective Optimisation ( http://arxiv.org/abs/2301.13687v2 )

ライセンス: Link先を確認
Duc-Cuong Dang and Andre Opris and Dirk Sudholt(参考訳) 進化的アルゴリズムは、多目的最適化(パレート最適化とも呼ばれる)のための一般的なアルゴリズムである。 その人気にもかかわらず、多目的進化最適化(EMO)の理論基盤は、まだ初期段階にある。 クロスオーバー演算子の利点のような基本的な質問は、まだ完全には理解されていない。 我々は,よく知られたemoアルゴリズムであるgsemoとnsga-iiの理論的解析を行い,クロスオーバーの可能性を示す。 しかし、クロスオーバーを無効にする場合は、パレートフロントをカバーするために指数関数的な時間を要する。 後者は、エリート選択と偏りのない突然変異演算子を使用して、ブラックボックスアルゴリズムの大きなクラスも持つ。 さらに、単一のパレート最適探索点を作成するための期待時間さえ指数関数的である。 我々は,一点交叉に適した機能クラスと一点交叉に適した機能クラスを2種類提供し,免疫刺激による過変異は指数的最適化時間を回避できないことを示した。 本研究は,NSGA-IIアルゴリズムのクロスオーバーによる指数関数的性能ギャップの最初の例を示し,その限界と能力のより深い理解に寄与する。

Evolutionary algorithms are popular algorithms for multiobjective optimisation (also called Pareto optimisation) as they use a population to store trade-offs between different objectives. Despite their popularity, the theoretical foundation of multiobjective evolutionary optimisation (EMO) is still in its early development. Fundamental questions such as the benefits of the crossover operator are still not fully understood. We provide a theoretical analysis of the well-known EMO algorithms GSEMO and NSGA-II to showcase the possible advantages of crossover: we propose classes of "royal road" functions on which these algorithms cover the whole Pareto front in expected polynomial time if crossover is being used. But when disabling crossover, they require exponential time in expectation to cover the Pareto front. The latter even holds for a large class of black-box algorithms using any elitist selection and any unbiased mutation operator. Moreover, even the expected time to create a single Pareto-optimal search point is exponential. We provide two different function classes, one tailored for one-point crossover and another one tailored for uniform crossover, and we show that immune-inspired hypermutations cannot avoid exponential optimisation times. Our work shows the first example of an exponential performance gap through the use of crossover for the widely used NSGA-II algorithm and contributes to a deeper understanding of its limitations and capabilities.
翻訳日:2023-12-06 01:39:28 公開日:2023-12-04
# 最適化に対する非確率的制御アプローチ

A Nonstochastic Control Approach to Optimization ( http://arxiv.org/abs/2301.07902v3 )

ライセンス: Link先を確認
Xinyi Chen, Elad Hazan(参考訳) 学習率や運動量などの特定の最適化インスタンスに対して最適なハイパーパラメータを選択することは重要な問題であるが、非凸問題である。 結果として、超勾配降下のような反復最適化手法は一般に大域的最適性の保証を欠いている。 数理最適化のためのオンライン非確率制御手法を提案する。 まず,一組の手法から最適な最適化アルゴリズムを学習するオンライン学習形式であるメタ最適化の設定を形式化する。 勾配に基づく手法に対するメタ最適化問題は、学習率、運動量、プレコンディショナーを含むハイパーパラメータの選択に対するフィードバック制御問題とみなすことができる。 当初の最適制御問題は非凸であるが、対流緩和を用いたオンライン非確率制御による最近の手法が非凸性の課題を克服し、最良のオフラインソリューションに対する後悔の保証が得られることを示す。 これは、メタ最適化において、一連の最適化問題を考えると、メソッドのクラスから後ろ向きの最良の最適化手法に匹敵する収束性を得る方法を学ぶことができることを保証している。

Selecting the best hyperparameters for a particular optimization instance, such as the learning rate and momentum, is an important but nonconvex problem. As a result, iterative optimization methods such as hypergradient descent lack global optimality guarantees in general. We propose an online nonstochastic control methodology for mathematical optimization. First, we formalize the setting of meta-optimization, an online learning formulation of learning the best optimization algorithm from a class of methods. The meta-optimization problem over gradient-based methods can be framed as a feedback control problem over the choice of hyperparameters, including the learning rate, momentum, and the preconditioner. Although the original optimal control problem is nonconvex, we show how recent methods from online nonstochastic control using convex relaxations can be used to overcome the challenge of nonconvexity, and obtain regret guarantees against the best offline solution. This guarantees that in meta-optimization, given a sequence of optimization problems, we can learn a method that attains convergence comparable to that of the best optimization method in hindsight from a class of methods.
翻訳日:2023-12-06 01:38:52 公開日:2023-12-04
# 画像分割アルゴリズムの訓練のためのサンプルの異種部分集合定義のための新しいサンプリング手法

A new sampling methodology for defining heterogeneous subsets of samples for training image segmentation algorithms ( http://arxiv.org/abs/2301.04517v3 )

ライセンス: Link先を確認
Matheus Viana da Silva, Nat\'alia de Carvalho Santos, Julie Ouellette, Baptiste Lacoste, Cesar Henrique Comin(参考訳) 教師付き機械学習アルゴリズムをトレーニングするためのデータセットを作成することは、必要なタスクである。 これは医用画像のセグメンテーションには特に当てはまり、画像アノテーションには1つ以上の専門家が通常必要であり、単一の画像に対して地上の真理ラベルを作成するには数時間かかる。 さらに, 注記された試料は, 像組織に影響を及ぼす可能性のある異なる条件と, 画像取得過程の変化を良好に表現することが最重要である。 これはデータセットに典型的なサンプルだけでなく、非定型的、あるいは異常なサンプルも考慮することでのみ実現できます。 原型と非典型の両方を均等に考慮した,大規模データセットから関連画像を選択するための新しいサンプリング手法を提案する。 この手法は、サンプルを表す特徴空間から一様格子を生成することを含み、関連する画像をランダムに描画するために使用される。 選択された画像は、元のデータセットの均一な被覆を提供し、注釈付きで教師付きセグメンテーションアルゴリズムのトレーニングに使用できる異種画像の集合を定義する。 何千もの画像を含むより大きなデータセットから選択した血管顕微鏡画像の代表的なセットを含むデータセットを作成する事例例を提供する。 VessMAPと呼ばれるこのデータセットは、新しい血管セグメンテーションアルゴリズムの開発を支援するためにオンラインで公開されている。

Creating a dataset for training supervised machine learning algorithms can be a demanding task. This is especially true for medical image segmentation since one or more specialists are usually required for image annotation, and creating ground truth labels for just a single image can take up to several hours. In addition, it is paramount that the annotated samples represent well the different conditions that might affect the imaged tissues as well as possible changes in the image acquisition process. This can only be achieved by considering samples that are typical in the dataset as well as atypical, or even outlier, samples. We introduce a new sampling methodology for selecting relevant images from a large dataset in a way that evenly considers both prototypical as well as atypical samples. The methodology involves the generation of a uniform grid from a feature space representing the samples, which is then used for randomly drawing relevant images. The selected images provide a uniform covering of the original dataset, and thus define a heterogeneous set of images that can be annotated and used for training supervised segmentation algorithms. We provide a case example by creating a dataset containing a representative set of blood vessel microscopy images selected from a larger dataset containing thousands of images. The dataset, which we call VessMAP, is being made available online to aid the development of new blood vessel segmentation algorithms.
翻訳日:2023-12-06 01:37:57 公開日:2023-12-04
# 入力雑音の検出と除去による要約モデルのロバスト性向上

Improving the Robustness of Summarization Models by Detecting and Removing Input Noise ( http://arxiv.org/abs/2212.09928v2 )

ライセンス: Link先を確認
Kundan Krishna, Yao Zhao, Jie Ren, Balaji Lakshminarayanan, Jiaming Luo, Mohammad Saleh, Peter J. Liu(参考訳) 抽象要約モデルの評価は、通常、トレーニングデータとして均等に分布するテストデータを使用する。 実世界の実践では、要約されるドキュメントには、テキスト抽出アーティファクトやデータパイプラインバグによる入力ノイズが含まれている可能性がある。 このようなノイズによる分布シフト時のモデル性能のロバスト性は比較的低い。 そこで本研究では,様々な入力雑音による性能低下(最大12ルージュ-1ポイント)を,データセットやモデルサイズで定量的に定量化する実験を行った。 そこで本研究では,モデル推論中の入力中のそのようなノイズを検出し,除去する軽量な手法を提案する。 提案手法は性能低下を効果的に軽減し,性能低下の大部分を回復させる。

The evaluation of abstractive summarization models typically uses test data that is identically distributed as training data. In real-world practice, documents to be summarized may contain input noise caused by text extraction artifacts or data pipeline bugs. The robustness of model performance under distribution shift caused by such noise is relatively under-studied. We present a large empirical study quantifying the sometimes severe loss in performance (up to 12 ROUGE-1 points) from different types of input noise for a range of datasets and model sizes. We then propose a light-weight method for detecting and removing such noise in the input during model inference without requiring any extra training, auxiliary models, or even prior knowledge of the type of noise. Our proposed approach effectively mitigates the loss in performance, recovering a large fraction of the performance drop, sometimes as large as 11 ROUGE-1 points.
翻訳日:2023-12-06 01:36:15 公開日:2023-12-04
# 医用画像解析におけるラベル有効深層学習の課題と今後の方向性

Label-Efficient Deep Learning in Medical Image Analysis: Challenges and Future Directions ( http://arxiv.org/abs/2303.12484v3 )

ライセンス: Link先を確認
Cheng Jin, Zhengrui Guo, Yi Lin, Luyang Luo, Hao Chen(参考訳) ディープラーニングは近年急速に成長し、幅広いアプリケーションで最先端のパフォーマンスを達成している。 しかし、トレーニングモデルは通常、大量のラベル付きデータの高価で時間を要する。 これは医療画像解析(MIA)の分野において特に当てはまり、データに制限があり、ラベルを取得するのに費用がかかる。 これにより、ラベル付きデータとラベルなしデータと弱いラベル付きデータとを包括的に利用するためのラベル効率の高いディープラーニング手法が開発される。 本調査では,最近300以上の論文を網羅的に調査し,MIAにおけるラベル効率学習戦略の最近の進歩を概観した。 まず,ラベル効率の高い学習の背景を示し,そのアプローチを異なるスキームに分類する。 次に、各スキームを通して現在の最先端手法を詳細に検討する。 具体的には,カノニカルな半教師付き,自己教師付き,マルチインスタンスの学習スキームだけでなく,最近ではアクティブでアノテーション効率のよい学習戦略も紹介する。 さらに, この分野への総合的な貢献として, 調査手法の共通点や特徴を解明するだけでなく, 現状の課題を詳細に分析し, 今後の研究への道のりを示唆する。

Deep learning has seen rapid growth in recent years and achieved state-of-the-art performance in a wide range of applications. However, training models typically requires expensive and time-consuming collection of large quantities of labeled data. This is particularly true within the scope of medical imaging analysis (MIA), where data are limited and labels are expensive to be acquired. Thus, label-efficient deep learning methods are developed to make comprehensive use of the labeled data as well as the abundance of unlabeled and weak-labeled data. In this survey, we extensively investigated over 300 recent papers to provide a comprehensive overview of recent progress on label-efficient learning strategies in MIA. We first present the background of label-efficient learning and categorize the approaches into different schemes. Next, we examine the current state-of-the-art methods in detail through each scheme. Specifically, we provide an in-depth investigation, covering not only canonical semi-supervised, self-supervised, and multi-instance learning schemes, but also recently emerged active and annotation-efficient learning strategies. Moreover, as a comprehensive contribution to the field, this survey not only elucidates the commonalities and unique features of the surveyed methods but also presents a detailed analysis of the current challenges in the field and suggests potential avenues for future research.
翻訳日:2023-12-06 01:28:38 公開日:2023-12-04
# 変分量子スプラインによる非線形量子演算の実現

Enabling Non-Linear Quantum Operations through Variational Quantum Splines ( http://arxiv.org/abs/2303.04788v3 )

ライセンス: Link先を確認
Matteo Antonio Inajetovic, Filippo Orazi, Antonio Macaluso, Stefano Lodi, Claudio Sartori(参考訳) 量子力学の仮定は量子状態にのみユニタリ変換を課すが、これは量子機械学習アルゴリズムの厳しい制限である。 量子スプライン(qsplines)は、量子アルゴリズムに非線形性を導入するために量子活性化関数を近似するために最近提案されている。 しかし、QSplinesはHHLをサブルーチンとして使用し、フォールトトレラントな量子コンピュータを正しく実装する必要がある。 本研究は、ハイブリッド量子古典計算を用いた非線形量子活性化関数の近似法である一般化ハイブリッド量子スプライン(GHQSplines)を提案する。 GHQSplinesは、量子ハードウェアという観点でオリジナルのQSplinesの要求を克服し、短期量子コンピュータを用いて実装することができる。 さらに,提案手法は非線形近似に対する柔軟な問題表現に依存しており,既存の量子ニューラルネットワークアーキテクチャに組み込むのに適している。 さらに,Pennylane を用いた GHQSplines の実用的実装も提供し,本モデルが適合品質において元の QSplines よりも優れていることを示す。

The postulates of quantum mechanics impose only unitary transformations on quantum states, which is a severe limitation for quantum machine learning algorithms. Quantum Splines (QSplines) have recently been proposed to approximate quantum activation functions to introduce non-linearity in quantum algorithms. However, QSplines make use of the HHL as a subroutine and require a fault-tolerant quantum computer to be correctly implemented. This work proposes the Generalised Hybrid Quantum Splines (GHQSplines), a novel method for approximating non-linear quantum activation functions using hybrid quantum-classical computation. The GHQSplines overcome the highly demanding requirements of the original QSplines in terms of quantum hardware and can be implemented using near-term quantum computers. Furthermore, the proposed method relies on a flexible problem representation for non-linear approximation and it is suitable to be embedded in existing quantum neural network architectures. In addition, we provide a practical implementation of the GHQSplines using Pennylane and show that our model outperforms the original QSplines in terms of quality of fitting.
翻訳日:2023-12-06 01:26:33 公開日:2023-12-04
# 重力変調量子相関:ベル非局所性を持つ超コンパクト物体の古典的および量子モデル判別

Gravitationally modulated quantum correlations: Discriminating classical and quantum models of ultra-compact objects with Bell nonlocality ( http://arxiv.org/abs/2304.10868v2 )

ライセンス: Link先を確認
Luciano Petruzziello, Fabrizio Illuminati(参考訳) 量子非局所性と重力の関係を、古典的および量子的状態の両方において研究する。 超コンパクト物体の強い重力場を公転する粒子対を考えると、ベルの不等式を破ることで、重力源の性質に強く依存する角変調係数が得られることが分かる。 このような重力によって引き起こされる量子非局所性の変調は、ブラックホール(古典的かつ量子補正を含む)と弦ファズボール(弦理論による超コンパクト物体の真の量子記述)の間で容易に区別できることを示す。 これらの発見はベル非局所性(英語版)を古典重力と量子重力の異なるモデルを比較し、それらをテストに移すための鍵となる道具として促進する。

We investigate the relation between quantum nonlocality and gravity at the astrophysical scale, both in the classical and quantum regimes. Considering particle pairs orbiting in the strong gravitational field of ultra-compact objects, we find that the violation of Bell inequality acquires an angular modulation factor that strongly depends on the nature of the gravitational source. We show how such gravitationally-induced modulation of quantum nonlocality readily discriminates between black holes (both classical and inclusive of quantum corrections) and string fuzzballs, i.e., the true quantum description of ultra-compact objects according to string theory. These findings promote Bell nonlocality as a potentially key tool in comparing different models of classical and quantum gravity and putting them to the test.
翻訳日:2023-12-06 01:17:44 公開日:2023-12-04
# 特徴対応解析を用いた高忠実度ゼロショットテクスチャ異常定位

High-Fidelity Zero-Shot Texture Anomaly Localization Using Feature Correspondence Analysis ( http://arxiv.org/abs/2304.06433v2 )

ライセンス: Link先を確認
Andrei-Timotei Ardelean and Tim Weyrich(参考訳) テクスチャ上のゼロショット異常局所化の新しい手法を提案する。 タスクは、異質な画像内の異常領域を特定することを指す。 高忠実な局所化を得るために、1次元ワッサースタイン距離に由来する単射写像を利用する。 分布間の全体的距離を用いるのとは対照的に,提案手法では局所的文脈における画素の不整合を精度良くピンポイントできる。 近傍のパッチの誤りに対する画素の寄与を集約することにより、信頼性の高い異常スコア推定値を得る。 提案手法を複数のデータセット上で検証し,MVTec ADデータセット上での過去の技術状況に対して,ゼロショット設定で40%以上の誤差を低減した。 https://reality.tf.fau.de/pub/ardelean2024highfidelity.htmlを参照。

We propose a novel method for Zero-Shot Anomaly Localization on textures. The task refers to identifying abnormal regions in an otherwise homogeneous image. To obtain a high-fidelity localization, we leverage a bijective mapping derived from the 1-dimensional Wasserstein Distance. As opposed to using holistic distances between distributions, the proposed approach allows pinpointing the non-conformity of a pixel in a local context with increased precision. By aggregating the contribution of the pixel to the errors of all nearby patches we obtain a reliable anomaly score estimate. We validate our solution on several datasets and obtain more than a 40% reduction in error over the previous state of the art on the MVTec AD dataset in a zero-shot setting. Also see https://reality.tf.fau.de/pub/ardelean2024highfidelity.html.
翻訳日:2023-12-06 01:16:17 公開日:2023-12-04
# robopianist: 深層強化学習によるデクスタースピアノ演奏

RoboPianist: Dexterous Piano Playing with Deep Reinforcement Learning ( http://arxiv.org/abs/2304.04150v3 )

ライセンス: Link先を確認
Kevin Zakka, Philipp Wu, Laura Smith, Nimrod Gileadi, Taylor Howell, Xue Bin Peng, Sumeet Singh, Yuval Tassa, Pete Florence, Andy Zeng, Pieter Abbeel(参考訳) ロボットの手で人間のようなデクスタリティを再現することは、ロボティクスにおける最大のオープン問題の1つだ。 強化学習は、ここ数年で目覚ましい進歩を遂げた有望なアプローチであるが、一般的に対処してきた問題の種類は、人間の能力と比較して、かなり狭いデクスタリティの定義に対応している。 このギャップに対処するために,高次元制御をテストする手段として,人間の能力限界にも挑戦するピアノ演奏法と,高い空間的・時間的精度と複雑な指の協調と計画が必要となる技術について検討する。 従来のモデルに基づく最適化に苦しむ150曲のピアノ曲の広範なレパートリーをシミュレートした擬人化手が学べるシステムであるrobopianistを紹介する。 また,オープンソース環境,タスクのベンチマーク,解釈可能な評価指標,今後の研究課題についても紹介する。 ビデオ、コード、データセットを含む私たちのウェブサイトはhttps://kzakka.com/robopianist/で公開されている。

Replicating human-like dexterity in robot hands represents one of the largest open problems in robotics. Reinforcement learning is a promising approach that has achieved impressive progress in the last few years; however, the class of problems it has typically addressed corresponds to a rather narrow definition of dexterity as compared to human capabilities. To address this gap, we investigate piano-playing, a skill that challenges even the human limits of dexterity, as a means to test high-dimensional control, and which requires high spatial and temporal precision, and complex finger coordination and planning. We introduce RoboPianist, a system that enables simulated anthropomorphic hands to learn an extensive repertoire of 150 piano pieces where traditional model-based optimization struggles. We additionally introduce an open-sourced environment, benchmark of tasks, interpretable evaluation metrics, and open challenges for future study. Our website featuring videos, code, and datasets is available at https://kzakka.com/robopianist/
翻訳日:2023-12-06 01:16:04 公開日:2023-12-04
# オープンワールド・ロングホリゾンタスクのためのスキル強化学習と計画

Skill Reinforcement Learning and Planning for Open-World Long-Horizon Tasks ( http://arxiv.org/abs/2303.16563v2 )

ライセンス: Link先を確認
Haoqi Yuan, Chi Zhang, Hongcheng Wang, Feiyang Xie, Penglin Cai, Hao Dong, Zongqing Lu(参考訳) オープンワールド環境におけるマルチタスクエージェントの構築について検討する。 人間の実演がなければ、強化学習(RL)による大規模なオープンワールド環境での長期作業の学習は極めて非効率である。 この課題に対処するため、我々はマルチタスク学習問題を基礎的スキルの学習とスキルの計画に変換する。 人気のオープンワールドゲームMinecraftをテストベッドとして使用し、3種類のきめ細かい基本スキルを提案し、RLに固有の報酬を加えてスキルを習得する。 多様な項目を見つけるための探索を行う新しいファインディングスキルは、他のスキルのより優れた初期化を提供し、スキル学習のサンプル効率を改善する。 スキルプランニングでは,事前知識を大規模言語モデルで活用し,スキル間の関係を見つけ,スキルグラフを構築する。 エージェントがタスクを解くとき、スキル検索アルゴリズムはスキルグラフの上を歩き、エージェントの適切なスキルプランを生成する。 実験では,40種類のMinecraftタスクを達成し,10以上のスキルを順次実行するタスクが多数存在する。 提案手法は,マインクラフト技術ツリーのタスクを解く上で,最もサンプル効率のよいRL法である。 プロジェクトのWebサイトとコードはhttps://sites.google.com/view/plan4mc.comにある。

We study building multi-task agents in open-world environments. Without human demonstrations, learning to accomplish long-horizon tasks in a large open-world environment with reinforcement learning (RL) is extremely inefficient. To tackle this challenge, we convert the multi-task learning problem into learning basic skills and planning over the skills. Using the popular open-world game Minecraft as the testbed, we propose three types of fine-grained basic skills, and use RL with intrinsic rewards to acquire skills. A novel Finding-skill that performs exploration to find diverse items provides better initialization for other skills, improving the sample efficiency for skill learning. In skill planning, we leverage the prior knowledge in Large Language Models to find the relationships between skills and build a skill graph. When the agent is solving a task, our skill search algorithm walks on the skill graph and generates the proper skill plans for the agent. In experiments, our method accomplishes 40 diverse Minecraft tasks, where many tasks require sequentially executing for more than 10 skills. Our method outperforms baselines by a large margin and is the most sample-efficient demonstration-free RL method to solve Minecraft Tech Tree tasks. The project's website and code can be found at https://sites.google.com/view/plan4mc.
翻訳日:2023-12-06 01:13:27 公開日:2023-12-04
# usb:タスクとドメインをまたいだ統一要約ベンチマーク

USB: A Unified Summarization Benchmark Across Tasks and Domains ( http://arxiv.org/abs/2305.14296v2 )

ライセンス: Link先を確認
Kundan Krishna, Prakhar Gupta, Sanjana Ramprasad, Byron C. Wallace, Jeffrey P. Bigham, Zachary C. Lipton(参考訳) NLPコミュニティは多数の要約ベンチマークを作成しているが、制御と信頼性に関する多くの重要な問題に同時に対処するために必要なリッチなアノテーションは提供していない。 ウィキペディア由来のベンチマークは、クラウドソースアノテーションの豊富なセットで補完され、8ドルの相互関連タスクをサポートする。 (i)抽出要約 (ii)抽象要約 (iii)話題に基づく要約 (四)選択した文を一行要約に圧縮すること。 (v) 要約文の証拠を示すもの (六 要約文の事実的正確性を予測すること。) (vii)要約文で不確定なスパンを識別すること (viii)要約の事実的誤りを訂正する。 このベンチマークの様々な方法を比較し、複数のタスクにおいて、中程度の微調整されたモデルが、ずっと大きな数発の言語モデルを上回ることを発見します。 事実に関するタスクについては、既存のヒューリスティックスを評価してトレーニングデータを作成し、トレーニング結果が20ドル以上のトレーニングよりもパフォーマンスが低いことを確認します。 本誌の記事は6ドルのドメインから出ており、ドメイン横断分析が容易だ。 一部のタスクでは、トレーニングデータの量は、それが由来するドメインよりも重要である一方で、ターゲットドメインのデータに特化してトレーニングするタスクは、たとえ制限されたとしても、より有益である。

While the NLP community has produced numerous summarization benchmarks, none provide the rich annotations required to simultaneously address many important problems related to control and reliability. We introduce a Wikipedia-derived benchmark, complemented by a rich set of crowd-sourced annotations, that supports $8$ interrelated tasks: (i) extractive summarization; (ii) abstractive summarization; (iii) topic-based summarization; (iv) compressing selected sentences into a one-line summary; (v) surfacing evidence for a summary sentence; (vi) predicting the factual accuracy of a summary sentence; (vii) identifying unsubstantiated spans in a summary sentence; (viii) correcting factual errors in summaries. We compare various methods on this benchmark and discover that on multiple tasks, moderately-sized fine-tuned models consistently outperform much larger few-shot prompted language models. For factuality-related tasks, we also evaluate existing heuristics to create training data and find that training on them results in worse performance than training on $20\times$ less human-labeled data. Our articles draw from $6$ domains, facilitating cross-domain analysis. On some tasks, the amount of training data matters more than the domain where it comes from, while for other tasks training specifically on data from the target domain, even if limited, is more beneficial.
翻訳日:2023-12-05 23:32:43 公開日:2023-12-04
# SMT 2.0:階層および混合変数ガウスプロセスに焦点を当てた代理モデリングツールボックス

SMT 2.0: A Surrogate Modeling Toolbox with a focus on Hierarchical and Mixed Variables Gaussian Processes ( http://arxiv.org/abs/2305.13998v4 )

ライセンス: Link先を確認
Paul Saves and Remi Lafage and Nathalie Bartoli and Youssef Diouane and Jasper Bussemaker and Thierry Lefebvre and John T. Hwang and Joseph Morlier and Joaquim R. R. A. Martins(参考訳) Surrogate Modeling Toolbox (SMT)はオープンソースのPythonパッケージで、一連のサロゲートモデリングメソッド、サンプリング技術、サンプル問題の集合を提供する。 本稿では、ツールボックスに大幅なアップグレードと新機能を導入したSMT 2.0について述べる。 このリリースには、混合変数サロゲートモデルと階層変数を扱う機能が追加されている。 これらのタイプの変数は、いくつかの代理モデリングアプリケーションでますます重要になっている。 SMT 2.0はサンプリング方法を拡張し、新しいサロゲートモデルを追加し、分散計算とKrigingのカーネルデリバティブを演算することでSMTを改善した。 このリリースには、ノイズを処理し、マルチフィデリティデータを使用する新しい機能も含まれている。 我々の知る限り、SMT 2.0は階層的および混合的な入力に対するサロゲートモデルを提案する最初のオープンソースサロゲートライブラリである。 このオープンソースソフトウェアは、新しいbsdライセンスの下で配布される。

The Surrogate Modeling Toolbox (SMT) is an open-source Python package that offers a collection of surrogate modeling methods, sampling techniques, and a set of sample problems. This paper presents SMT 2.0, a major new release of SMT that introduces significant upgrades and new features to the toolbox. This release adds the capability to handle mixed-variable surrogate models and hierarchical variables. These types of variables are becoming increasingly important in several surrogate modeling applications. SMT 2.0 also improves SMT by extending sampling methods, adding new surrogate models, and computing variance and kernel derivatives for Kriging. This release also includes new functions to handle noisy and use multifidelity data. To the best of our knowledge, SMT 2.0 is the first open-source surrogate library to propose surrogate models for hierarchical and mixed inputs. This open-source software is distributed under the New BSD license.
翻訳日:2023-12-05 23:32:23 公開日:2023-12-04
# Chain-of-Knowledge:異種源に適応した動的知識による大規模言語モデルの構築

Chain-of-Knowledge: Grounding Large Language Models via Dynamic Knowledge Adapting over Heterogeneous Sources ( http://arxiv.org/abs/2305.13269v3 )

ライセンス: Link先を確認
Xingxuan Li, Ruochen Zhao, Yew Ken Chia, Bosheng Ding, Shafiq Joty, Soujanya Poria, Lidong Bing(参考訳) 本稿では,異種情報源からの接地情報を動的に取り込み,大規模言語モデル(llm)を強化する新しいフレームワークであるchain-of-knowledge(cok)を提案する。 結果として、より事実的合理性と、世代における幻覚を減少させる。 特に、CoKは推論準備、動的知識適応、解答統合の3段階からなる。 知識集約的な質問が与えられた後、CoKはまず、関連する知識ドメインを特定しながら、いくつかの予備的な論理と答えを準備します。 サンプルからの回答に多数意見の一致がなければ、cokは特定されたドメインからの知識を段階的に修正する。 これらの補正された合理性は、最終的な回答統合のより良い基盤となることができる。 主に非構造化データを使用する先行研究とは異なり、cokはウィキデータやテーブルのような構造化された知識ソースを活用して、より信頼性の高い事実情報を提供する。 動的知識適応段階において,構造化されていない知識ソースと構造化された知識ソースの両方にアクセスするために,sparqlやsql,自然文など,さまざまなクエリ言語に対するクエリ生成を可能にする適応型クエリ生成器を提案する。 さらに、合理的な間の誤りの伝播を最小限に抑えるため、cokは前回の補正された合理法を用いて徐々に合理性を補正し、後続の合理性を生成し補正する。 大規模な実験により、CoKは異なる領域にわたる知識集約タスクにおけるLLMの性能を一貫して改善することが示された。

We present chain-of-knowledge (CoK), a novel framework that augments large language models (LLMs) by dynamically incorporating grounding information from heterogeneous sources. It results in more factual rationales and reduced hallucination in generation. Specifically, CoK consists of three stages: reasoning preparation, dynamic knowledge adapting, and answer consolidation. Given a knowledge-intensive question, CoK first prepares several preliminary rationales and answers while identifying the relevant knowledge domains. If there is no majority consensus among the answers from samples, CoK corrects the rationales step by step by adapting knowledge from the identified domains. These corrected rationales can plausibly serve as a better foundation for the final answer consolidation. Unlike prior studies that primarily use unstructured data, CoK also leverages structured knowledge sources such as Wikidata and tables that provide more reliable factual information. To access both unstructured and structured knowledge sources in the dynamic knowledge adapting stage, we propose an adaptive query generator that allows the generation of queries for various types of query languages, including SPARQL, SQL, and natural sentences. Moreover, to minimize error propagation between rationales, CoK corrects the rationales progressively using preceding corrected rationales to generate and correct subsequent rationales. Extensive experiments show that CoK consistently improves the performance of LLMs on knowledge-intensive tasks across different domains.
翻訳日:2023-12-05 23:31:13 公開日:2023-12-04
# taskweb: マルチタスクnlpのためのより良いソースタスクの選択

TaskWeb: Selecting Better Source Tasks for Multi-task NLP ( http://arxiv.org/abs/2305.13256v2 )

ライセンス: Link先を確認
Joongwon Kim, Akari Asai, Gabriel Ilharco, Hannaneh Hajishirzi(参考訳) NLPにおける最近の研究は、より良い一般化を達成するために、大量のタスクに関するトレーニングモデルの有望な結果を示している。 しかし、タスクがどのように関連しているか、新しいタスクに対していかに役立つトレーニングタスクを選択するかはよく理解されていない。 本研究では,ペアワイズタスク転送によるタスク関係の理解が,新たな目標タスクの学習に役立つ1つ以上のソースタスクの選択を改善するか否かを検討する。 約25,000の実験にまたがる3つの異なるモデルタイプ、サイズ、適応手法を用いて、22のNLPタスクのペアワイズタスク転送の大規模ベンチマークであるTaskWebを提供する。 そこで我々は、TaskWebの分析に基づいて、新しいTaskShopを設計する。 TaskShopはTaskWebを使用して、新しいターゲットタスクの学習にソースタスクを使用する利点を見積もり、マルチタスクトレーニングに有用なトレーニングタスクのサブセットを選択する。 本手法は,全体のランキングとソースタスクのtop-k精度をそれぞれ10%,38%改善する。 また、TaskShopを使用して、11の異なるターゲットタスクにおけるゼロショットパフォーマンスを少なくとも4.3%改善する、はるかに小さなマルチタスクトレーニングセットを構築しています。

Recent work in NLP has shown promising results in training models on large amounts of tasks to achieve better generalization. However, it is not well-understood how tasks are related, and how helpful training tasks can be chosen for a new task. In this work, we investigate whether knowing task relationships via pairwise task transfer improves choosing one or more source tasks that help to learn a new target task. We provide TaskWeb, a large-scale benchmark of pairwise task transfers for 22 NLP tasks using three different model types, sizes, and adaptation methods, spanning about 25,000 experiments. Then, we design a new method TaskShop based on our analysis of TaskWeb. TaskShop uses TaskWeb to estimate the benefit of using a source task for learning a new target task, and to choose a subset of helpful training tasks for multi-task training. Our method improves overall rankings and top-k precision of source tasks by 10% and 38%, respectively. We also use TaskShop to build much smaller multi-task training sets that improve zero-shot performances across 11 different target tasks by at least 4.3%.
翻訳日:2023-12-05 23:30:49 公開日:2023-12-04
# 表現レンズを用いた多言語機械翻訳における知識伝達

Viewing Knowledge Transfer in Multilingual Machine Translation Through a Representational Lens ( http://arxiv.org/abs/2305.11550v3 )

ライセンス: Link先を確認
David Stap, Vlad Niculae, Christof Monz(参考訳) 翻訳品質だけでは多言語ニューラルマシン翻訳における知識伝達を測定するには十分ではない。 この主張を支持するために,言語間の表現的類似度を測定するRepresentational Transfer potential (RTP)を導入する。 本稿では,RTPが正と負の両方の転送(干渉)を計測できることを示し,RTPが翻訳品質の変化と強く相関していることを見出した。 さらに,転送に関連するデータや言語特性を調査し,マルチ並列重なりが重要ではあるが未検討の機能であることを見出す。 そこで我々は,複数並列データを活用することで,言語間での表現の不変性を向上する,補助的類似性損失を用いた新しい学習手法を開発した。 提案手法は,複数のデータおよびモデル設定にまたがる低級・中級言語における翻訳品質の向上を示す。

We argue that translation quality alone is not a sufficient metric for measuring knowledge transfer in multilingual neural machine translation. To support this claim, we introduce Representational Transfer Potential (RTP), which measures representational similarities between languages. We show that RTP can measure both positive and negative transfer (interference), and find that RTP is strongly correlated with changes in translation quality, indicating that transfer does occur. Furthermore, we investigate data and language characteristics that are relevant for transfer, and find that multi-parallel overlap is an important yet under-explored feature. Based on this, we develop a novel training scheme, which uses an auxiliary similarity loss that encourages representations to be more invariant across languages by taking advantage of multi-parallel data. We show that our method yields increased translation quality for low- and mid-resource languages across multiple data and model setups.
翻訳日:2023-12-05 23:30:31 公開日:2023-12-04
# 最適自然政策グラディエント:オンラインRLのためのシンプルな効率的な政策最適化フレームワーク

Optimistic Natural Policy Gradient: a Simple Efficient Policy Optimization Framework for Online RL ( http://arxiv.org/abs/2305.11032v2 )

ライセンス: Link先を確認
Qinghua Liu, Gell\'ert Weisz, Andr\'as Gy\"orgy, Chi Jin, Csaba Szepesv\'ari(参考訳) 政策最適化アルゴリズムは、近年の強化学習(RL)の実証的成功において重要な役割を担っているが、既存の理論的な政策最適化の理解は、表向きのMDPに限定されるか、探索が必要なオンラインRLにおいて非常に最適なサンプル複雑さに悩まされている。 楽観的npgは、従来の自然政策勾配 (npg) アルゴリズム [kakade, 2001] と楽観的政策評価サブルーチンの単純な組み合わせと見なすことができ、探索を促進する。 $d$次元線形 MDP に対して、Optimistic NPG は計算効率が高く、$\tilde{O}(d^2/\varepsilon^3)$サンプル内で$\varepsilon$-Optimal Policy を学ぶ。 また、政策最適化アルゴリズム[Zanette et al., 2021]の最先端の結果を$d$の係数で改善する。 線形 MDP を最良知識として仮定する一般関数近似の分野では、最適化NPG は、多項式サンプルの複雑さを最大に近いポリシーを学ぶための最初のポリシー最適化アルゴリズムである。

While policy optimization algorithms have played an important role in recent empirical success of Reinforcement Learning (RL), the existing theoretical understanding of policy optimization remains rather limited -- they are either restricted to tabular MDPs or suffer from highly suboptimal sample complexity, especial in online RL where exploration is necessary. This paper proposes a simple efficient policy optimization framework -- Optimistic NPG for online RL. Optimistic NPG can be viewed as a simple combination of the classic natural policy gradient (NPG) algorithm [Kakade, 2001] with optimistic policy evaluation subroutines to encourage exploration. For $d$-dimensional linear MDPs, Optimistic NPG is computationally efficient, and learns an $\varepsilon$-optimal policy within $\tilde{O}(d^2/\varepsilon^3)$ samples, which is the first computationally efficient algorithm whose sample complexity has the optimal dimension dependence $\tilde{\Theta}(d^2)$. It also improves over state-of-the-art results of policy optimization algorithms [Zanette et al., 2021] by a factor of $d$. In the realm of general function approximation, which subsumes linear MDPs, Optimistic NPG, to our best knowledge, stands as the first policy optimization algorithm that achieves polynomial sample complexity for learning near-optimal policies.
翻訳日:2023-12-05 23:30:17 公開日:2023-12-04
# 量子アニーリングにおける指数閉ギャップとしてのアンチクロスの発生

Anti-crossings occurrence as exponentially closing gaps in Quantum Annealing ( http://arxiv.org/abs/2304.12872v2 )

ライセンス: Link先を確認
Arthur Braida, Simon Martiel and Ioan Todinca(参考訳) 本稿では,量子アニーリングにおける回避レベル交差現象について考察する。量子コンピューティングのための将来的なフレームワークであり,特定のタスクに量子的優位性をもたらす可能性がある。 量子アニーリング(quantum annealing)は、最終状態の測定を通じて最適化問題に対する最適解を得ることを目的として、Schr\\odinger方程式に従って量子システムを進化させる。 しかしながら、量子アニーリングの連続性は解析解析を特に瞬時固有エネルギーに関して困難にする。 断熱定理は、最小スペクトルギャップの2乗に反比例する高い確率で最適解を得るのに必要なアニーリング時間の理論的結果を与える。 回避されたレベルの交差は指数関数的に閉じるギャップを生じさせ、最適化問題に対して指数関数的に長い実行時間をもたらす。 本稿では, 焼鈍過程における回避レベル交差の発生条件を導出するために, 摂動膨張を用いた。 次に、この条件を二部グラフ上のMaxCut問題に適用する。 正規二部グラフに対して指数的に小さなギャップは生じないことを示し、QAがMaxCutを効率的に解けることを示唆する。 一方,頂点度の不規則性は,回避された踏切発生条件の満足度につながる可能性が示唆された。 この理論的発展を支える数値的な証拠を提供し,指数閉ギャップの存在と量子アニーリングの失敗との関係について論じる。

This paper explores the phenomenon of avoided level crossings in quantum annealing, a promising framework for quantum computing that may provide a quantum advantage for certain tasks. Quantum annealing involves letting a quantum system evolve according to the Schr\"odinger equation, with the goal of obtaining the optimal solution to an optimization problem through measurements of the final state. However, the continuous nature of quantum annealing makes analytical analysis challenging, particularly with regard to the instantaneous eigenenergies. The adiabatic theorem provides a theoretical result for the annealing time required to obtain the optimal solution with high probability, which is inversely proportional to the square of the minimum spectral gap. Avoided level crossings can create exponentially closing gaps, which can lead to exponentially long running times for optimization problems. In this paper, we use a perturbative expansion to derive a condition for the occurrence of an avoided level crossing during the annealing process. We then apply this condition to the MaxCut problem on bipartite graphs. We show that no exponentially small gaps arise for regular bipartite graphs, implying that QA can efficiently solve MaxCut in that case. On the other hand, we show that irregularities in the vertex degrees can lead to the satisfaction of the avoided level crossing occurrence condition. We provide numerical evidence to support this theoretical development, and discuss the relation between the presence of exponentially closing gaps and the failure of quantum annealing.
翻訳日:2023-12-05 23:27:52 公開日:2023-12-04
# 責任のあるタスク自動化:責任のあるタスク自動化として大きな言語モデルを活用する

Responsible Task Automation: Empowering Large Language Models as Responsible Task Automators ( http://arxiv.org/abs/2306.01242v2 )

ライセンス: Link先を確認
Zhizheng Zhang, Xiaoyi Zhang, Wenxuan Xie, Yan Lu(参考訳) 最近のLarge Language Models(LLMs)の成功は、人工知能への印象的な一歩である。 彼らは、ユーザーの指示に従って自動的にタスクを完了し、脳のようなコーディネーターとして機能する有望な可能性を示した。 自動化された完了のために、より多くのタスクをマシンに委譲すると、関連するリスクが明らかになる。 大きな疑問が浮かび上がってくる。人間がタスクを自動化するのを助けるとき、機械はどうやって責任を持って振る舞うのか? 本稿では,実現可能性,完全性,セキュリティの観点から,この問題を深く考察する。 具体的には、llmベースのコーディネータとタスク自動化のエグゼキュータ間の責任あるコラボレーションを促進するための基本的なフレームワークとして、責任あるタスク自動化(responsibleta)を提示します。 1) 執行人に対する命令の実現可能性の予測 2 執行人の完全性を検証すること。 3) セキュリティの強化(ユーザのプライバシ保護など)。 我々はさらに,最初の2つの機能を実装するための2つのパラダイムを提案し,比較する。 ひとつはプロンプトエンジニアリングを通じてllms自体の一般的な知識を活用すること、もうひとつはドメイン固有の学習可能なモデルを採用することだ。 さらに,第3の能力を実現するためのローカルメモリ機構を導入する。 提案するuiタスクの自動化に関する責任を評価し、多様なシナリオにおいてllmがより責任を負うようになることを願っています。

The recent success of Large Language Models (LLMs) signifies an impressive stride towards artificial general intelligence. They have shown a promising prospect in automatically completing tasks upon user instructions, functioning as brain-like coordinators. The associated risks will be revealed as we delegate an increasing number of tasks to machines for automated completion. A big question emerges: how can we make machines behave responsibly when helping humans automate tasks as personal copilots? In this paper, we explore this question in depth from the perspectives of feasibility, completeness and security. In specific, we present Responsible Task Automation (ResponsibleTA) as a fundamental framework to facilitate responsible collaboration between LLM-based coordinators and executors for task automation with three empowered capabilities: 1) predicting the feasibility of the commands for executors; 2) verifying the completeness of executors; 3) enhancing the security (e.g., the protection of users' privacy). We further propose and compare two paradigms for implementing the first two capabilities. One is to leverage the generic knowledge of LLMs themselves via prompt engineering while the other is to adopt domain-specific learnable models. Moreover, we introduce a local memory mechanism for achieving the third capability. We evaluate our proposed ResponsibleTA on UI task automation and hope it could bring more attentions to ensuring LLMs more responsible in diverse scenarios.
翻訳日:2023-12-05 23:20:32 公開日:2023-12-04
# facenerf: セマンティクス駆動の顔再構成、迅速な編集、拡散モデルによるリライト

FaceDNeRF: Semantics-Driven Face Reconstruction, Prompt Editing and Relighting with Diffusion Models ( http://arxiv.org/abs/2306.00783v2 )

ライセンス: Link先を確認
Hao Zhang, Yanbo Xu, Tianyuan Dai, Yu-Wing Tai, Chi-Keung Tang(参考訳) 単一の画像から高品質な3D顔を作る能力は、ビデオ会議、AR/VR、映画産業における高度なビデオ編集の幅広い応用において、ますます重要になっている。 本稿では,単一画像から高品質な顔NeRFを再構成する新たな生成法であるFace Diffusion NeRF(FaceDNeRF)を提案する。 FaceDNeRFは高解像度の3D GANインバージョンと専門的に訓練された2D潜伏拡散モデルを使用し、明示的な3Dデータを必要としないゼロショット学習でFace NeRFを操作および構築することができる。 FaceDNeRFは、慎重にデザインされた照明とアイデンティティ保護の損失と、マルチモーダルな事前トレーニングによって、単一のビューイメージ、テキストプロンプト、明示的なターゲット照明を使用して、顔NeRFを作成および編集できる編集プロセスの制御を、ユーザに提供します。 FaceDNeRFの高度な機能は、編集可能な属性のために2Dセグメンテーションマップに依存する既存の2D編集アプローチよりも印象的な結果をもたらすように設計されている。 実験の結果,FaceDNeRFは最先端の3D顔の再構成や編集方法と比較して,極めて現実的な結果と編集の柔軟性を達成できた。 私たちのコードはhttps://github.com/billyxyb/facednerfで利用可能です。

The ability to create high-quality 3D faces from a single image has become increasingly important with wide applications in video conferencing, AR/VR, and advanced video editing in movie industries. In this paper, we propose Face Diffusion NeRF (FaceDNeRF), a new generative method to reconstruct high-quality Face NeRFs from single images, complete with semantic editing and relighting capabilities. FaceDNeRF utilizes high-resolution 3D GAN inversion and expertly trained 2D latent-diffusion model, allowing users to manipulate and construct Face NeRFs in zero-shot learning without the need for explicit 3D data. With carefully designed illumination and identity preserving loss, as well as multi-modal pre-training, FaceDNeRF offers users unparalleled control over the editing process enabling them to create and edit face NeRFs using just single-view images, text prompts, and explicit target lighting. The advanced features of FaceDNeRF have been designed to produce more impressive results than existing 2D editing approaches that rely on 2D segmentation maps for editable attributes. Experiments show that our FaceDNeRF achieves exceptionally realistic results and unprecedented flexibility in editing compared with state-of-the-art 3D face reconstruction and editing methods. Our code will be available at https://github.com/BillyXYB/FaceDNeRF.
翻訳日:2023-12-05 23:20:08 公開日:2023-12-04
# コーンヘッド:階層的意識の注意

Coneheads: Hierarchy Aware Attention ( http://arxiv.org/abs/2306.00392v2 )

ライセンス: Link先を確認
Albert Tseng, Tao Yu, Toni J.B. Liu, Christopher De Sa(参考訳) 変圧器のような注意ネットワークは多くの領域で最先端の性能を達成した。 これらのネットワークはドット積の注意演算子に大きく依存しており、2点間の類似性を計算する。 しかし、内部積は、データポイント間の階層のような実世界のデータセットの複雑な構造的性質を明示的にモデル化しない。 そこで本研究では,双曲円錐に基づくドット製品注目のためのドロップイン代替であるコーンアテンションを提案する。 コーンアテンションは双曲円錐によって定義される階層において、最も低い共通の祖先の深さによって2つの点を関連付け、2つの点の発散を直感的に測定し、階層を意識した類似度スコアを与える。 我々は,多種多様なモデルやタスクに注意を払って,ドット製品の注意点やその他の基準点よりもタスクレベルのパフォーマンスが向上し,ドット製品の注意点をパラメータの少ないものに合わせることができることを示す。 この結果から,コーンアテンションは注目度を計算する上で,階層的関係を捉える効果的な方法であることが示唆された。

Attention networks such as transformers have achieved state-of-the-art performance in many domains. These networks rely heavily on the dot product attention operator, which computes the similarity between two points by taking their inner product. However, the inner product does not explicitly model the complex structural properties of real world datasets, such as hierarchies between data points. To remedy this, we introduce cone attention, a drop-in replacement for dot product attention based on hyperbolic entailment cones. Cone attention associates two points by the depth of their lowest common ancestor in a hierarchy defined by hyperbolic cones, which intuitively measures the divergence of two points and gives a hierarchy aware similarity score. We test cone attention on a wide variety of models and tasks and show that it improves task-level performance over dot product attention and other baselines, and is able to match dot-product attention with significantly fewer parameters. Our results suggest that cone attention is an effective way to capture hierarchical relationships when calculating attention.
翻訳日:2023-12-05 23:19:42 公開日:2023-12-04
# k^2$-trees によるグラフ生成

Graph Generation with $K^2$-trees ( http://arxiv.org/abs/2305.19125v3 )

ライセンス: Link先を確認
Yunhui Jang, Dongwoo Kim, Sungsoo Ahn(参考訳) ターゲットの分布からグラフを生成することは、薬物発見やソーシャルネットワーク分析など、多くのドメインで大きな課題である。 本研究では,元来ロスレスグラフ圧縮のために設計された$k^2$-tree表現を用いた新しいグラフ生成手法を提案する。 k^2$-tree 表現は、コンパクトグラフ生成を可能にしながら固有の階層を包含する。 さらに,(1)プルーニング,平ら化,トークン化処理を組み込んだシーケンシャルな$K^2$-treerepresentationを提示し,(2)専用のツリー位置符号化機構を組み込んでシーケンスを生成するトランスフォーマーベースのアーキテクチャを導入することで,コントリビューションを行う。 最後に,本アルゴリズムを4つの一般および2つの分子グラフデータセット上で広範囲に評価し,グラフ生成の優位性を確認する。

Generating graphs from a target distribution is a significant challenge across many domains, including drug discovery and social network analysis. In this work, we introduce a novel graph generation method leveraging $K^2$-tree representation, originally designed for lossless graph compression. The $K^2$-tree representation {encompasses inherent hierarchy while enabling compact graph generation}. In addition, we make contributions by (1) presenting a sequential $K^2$-treerepresentation that incorporates pruning, flattening, and tokenization processes and (2) introducing a Transformer-based architecture designed to generate the sequence by incorporating a specialized tree positional encoding scheme. Finally, we extensively evaluate our algorithm on four general and two molecular graph datasets to confirm its superiority for graph generation.
翻訳日:2023-12-05 23:18:53 公開日:2023-12-04
# 事前学習言語モデルのためのプラグアンドプレイ知識注入

Plug-and-Play Knowledge Injection for Pre-trained Language Models ( http://arxiv.org/abs/2305.17691v2 )

ライセンス: Link先を確認
Zhengyan Zhang, Zhiyuan Zeng, Yankai Lin, Huadong Wang, Deming Ye, Chaojun Xiao, Xu Han, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou(参考訳) 外部知識を注入することで、様々な下流NLPタスクにおける事前学習言語モデル(PLM)の性能を向上させることができる。 しかし、ダウンストリームタスクに新しい知識注入メソッドや知識ベースをデプロイするには、大規模な再トレーニングが必要となる。 本研究では,既存の下流モデルの再利用により,知識注入の柔軟性と効率性を向上する方法を初めて研究する。 この目的のために,我々は知識ベースを,知識プラグインによって凍結した既存の下流モデルに注入する,新たなパラダイムのプラグイン・アンド・プレイナレッジインジェクションを探求する。 そこで本研究では,知識埋め込みのマッピングを学習し,モデルパラメータを凍らせながらモデル入力を強調する,プラグ・アンド・プレイ・インジェクション方式のmap-tuningを提案する。 3つの知識駆動型NLPタスクの実験結果から,既存のインジェクション手法は新しいパラダイムには適さないが,マップチューニングは下流モデルの性能を効果的に向上することが示された。 さらに、凍結した下流モデルは、異なるドメイン知識のマッピングネットワークを持つ異なるドメインに適用可能であることを示す。 私たちのコードとモデルはhttps://github.com/THUNLP/Knowledge-Plugin.comで公開されています。

Injecting external knowledge can improve the performance of pre-trained language models (PLMs) on various downstream NLP tasks. However, massive retraining is required to deploy new knowledge injection methods or knowledge bases for downstream tasks. In this work, we are the first to study how to improve the flexibility and efficiency of knowledge injection by reusing existing downstream models. To this end, we explore a new paradigm plug-and-play knowledge injection, where knowledge bases are injected into frozen existing downstream models by a knowledge plugin. Correspondingly, we propose a plug-and-play injection method map-tuning, which trains a mapping of knowledge embeddings to enrich model inputs with mapped embeddings while keeping model parameters frozen. Experimental results on three knowledge-driven NLP tasks show that existing injection methods are not suitable for the new paradigm, while map-tuning effectively improves the performance of downstream models. Moreover, we show that a frozen downstream model can be well adapted to different domains with different mapping networks of domain knowledge. Our code and models are available at https://github.com/THUNLP/Knowledge-Plugin.
翻訳日:2023-12-05 23:18:10 公開日:2023-12-04
# 量子ldpc符号に対するpauli演算子のデカップリング表現に基づく信念伝播復号アルゴリズムの改良

Improved belief propagation decoding algorithm based on decoupling representation of Pauli operators for quantum LDPC codes ( http://arxiv.org/abs/2305.17505v4 )

ライセンス: Link先を確認
Zhengzhong Yi, Zhipeng Liang, Kaixin Zhong, Yulin Wu, Zhou Fang, Xuan Wang(参考訳) 本稿では,パウリ演算子をベクトルとして表現するデカップリング表現(decoupling representation)という新しい手法を提案し,量子低密度パリティチェック符号に対する部分的なデカップリングされた信念伝搬と完全デカップリングされた信念伝搬復号アルゴリズムを提案する。 これら2つのアルゴリズムはシンプレクティック表現におけるベクトルの$X$部分と$Z$部分の相関を扱う能力を持ち、これはPauli $Y$エラーによって導入された。 そのため、CSSコードだけでなく、非CSSコードにも適用することができる。 Under the assumption that there is no measurement error, compared with traditional belief propagation algorithm in symplectic representation over $GF(2)$, within the same number of iterations, the decoding accuracy of partially decoupled belief propagation and fully decoupled belief propagation algorithm is significantly improved in pure $Y$ noise and depolarizing noise, which supports that decoding algorithms of quantum error correcting codes might have better performance in decoupling representation than in symplectic representation. 完全に分離された信念伝播アルゴリズムの印象的な性能は、工学における量子エラー訂正符号の実現を促進するかもしれない。

We propose a new method called decoupling representation to represent Pauli operators as vectors over $GF(2)$, based on which we propose partially decoupled belief propagation and fully decoupled belief propagation decoding algorithm for quantum low density parity-check codes. These two algorithms have the capability to deal with the correlations between the $X$ part and the $Z$ part of the vectors in symplectic representation, which are introduced by Pauli $Y$ errors. Hence, they can not only apply to CSS codes, but also to non-CSS codes. Under the assumption that there is no measurement error, compared with traditional belief propagation algorithm in symplectic representation over $GF(2)$, within the same number of iterations, the decoding accuracy of partially decoupled belief propagation and fully decoupled belief propagation algorithm is significantly improved in pure $Y$ noise and depolarizing noise, which supports that decoding algorithms of quantum error correcting codes might have better performance in decoupling representation than in symplectic representation. The impressive performance of fully decoupled belief propagation algorithm might promote the realization of quantum error correcting codes in engineering.
翻訳日:2023-12-05 23:17:49 公開日:2023-12-04
# 単一ソース領域一般化のためのCNN特徴マップの拡張

CNN Feature Map Augmentation for Single-Source Domain Generalization ( http://arxiv.org/abs/2305.16746v3 )

ライセンス: Link先を確認
Aristotelis Ballas and Christos Diou(参考訳) 堅牢で一般化可能な機械学習モデルを探す中で、ドメイン一般化(DG)はここ数年で大きな注目を集めている。 DGの目標は、トレーニング中に利用可能なものと異なるデータ分散を提示した場合、引き続き正常に機能するモデルを作成することだ。 深層畳み込みニューラルネットワーク(CNN)は、下流のコンピュータビジョンタスクで優れたパフォーマンスを達成できたが、これまで見つからなかったデータドメインの一般化に失敗することが多い。 そこで本研究では,データ分散シフト時においても頑健なモデルを作成することに注力し,単一ソースdg画像分類における畳み込みニューラルネットワークアーキテクチャのための代替正規化手法を提案する。 ソースとターゲットデータ間のドメインシフトによる問題を軽減するため、cnnの中間特徴マップの強化を提案する。 具体的には、モデルをトレーニングセットにオーバーフィットさせ、ドメイン間の一般化を改善するために、新しい拡張層を通過させます。 我々の知る限りでは、DG画像分類設定にそのような設定を提案する最初の論文である。 PACS,VLCS,Office-Home,TerraIncognitaのDGベンチマークデータセットを用いた実験により,本手法の有効性が検証された。

In search of robust and generalizable machine learning models, Domain Generalization (DG) has gained significant traction during the past few years. The goal in DG is to produce models which continue to perform well when presented with data distributions different from the ones available during training. While deep convolutional neural networks (CNN) have been able to achieve outstanding performance on downstream computer vision tasks, they still often fail to generalize on previously unseen data Domains. Therefore, in this work we focus on producing a model which is able to remain robust under data distribution shift and propose an alternative regularization technique for convolutional neural network architectures in the single-source DG image classification setting. To mitigate the problem caused by domain shift between source and target data, we propose augmenting intermediate feature maps of CNNs. Specifically, we pass them through a novel Augmentation Layer} to prevent models from overfitting on the training set and improve their cross-domain generalization. To the best of our knowledge, this is the first paper proposing such a setup for the DG image classification setting. Experiments on the DG benchmark datasets of PACS, VLCS, Office-Home and TerraIncognita validate the effectiveness of our method, in which our model surpasses state-of-the-art algorithms in most cases.
翻訳日:2023-12-05 23:17:33 公開日:2023-12-04
# 蒸留における知識拡散

Knowledge Diffusion for Distillation ( http://arxiv.org/abs/2305.15712v2 )

ライセンス: Link先を確認
Tao Huang, Yuan Zhang, Mingkai Zheng, Shan You, Fei Wang, Chen Qian, Chang Xu(参考訳) 教師と学生の表現ギャップは知識蒸留(KD)における新たな話題である。 ギャップを減らし、性能を向上させるため、現在の手法では複雑なトレーニングスキーム、損失関数、タスク固有で特徴特有な機能アライメントを利用することが多い。 本稿では,これらの手法の本質は,ノイズ情報を捨て,その特徴に価値ある情報を蒸留することであり,DiffKDと呼ばれる新しいKD手法を提案し,拡散モデルを用いて特徴を明示的に認識・一致させる。 本研究のアプローチは,学生モデルがより少ないため,学生の特徴が教師の特徴よりも多くのノイズを含んでいるという観察に基づいている。 そこで本研究では,教師の特徴を訓練した拡散モデルを用いて,生徒の特徴を解消する手法を提案する。 これにより、精製されたクリーンな特徴と教師の特徴との間により良い蒸留を行うことができる。 さらに, 線形オートエンコーダを用いた軽量拡散モデルを導入し, 計算コストを低減し, 雑音マッチングモジュールの適応化を行い, 雑音除去性能の向上を図る。 大規模な実験により、DiffKDは様々な種類の特徴に対して有効であり、画像分類、オブジェクト検出、セマンティックセグメンテーションタスクにおいて一貫して最先端のパフォーマンスを実現する。 コードはhttps://github.com/hunto/diffkdで入手できる。

The representation gap between teacher and student is an emerging topic in knowledge distillation (KD). To reduce the gap and improve the performance, current methods often resort to complicated training schemes, loss functions, and feature alignments, which are task-specific and feature-specific. In this paper, we state that the essence of these methods is to discard the noisy information and distill the valuable information in the feature, and propose a novel KD method dubbed DiffKD, to explicitly denoise and match features using diffusion models. Our approach is based on the observation that student features typically contain more noises than teacher features due to the smaller capacity of student model. To address this, we propose to denoise student features using a diffusion model trained by teacher features. This allows us to perform better distillation between the refined clean feature and teacher feature. Additionally, we introduce a light-weight diffusion model with a linear autoencoder to reduce the computation cost and an adaptive noise matching module to improve the denoising performance. Extensive experiments demonstrate that DiffKD is effective across various types of features and achieves state-of-the-art performance consistently on image classification, object detection, and semantic segmentation tasks. Code is available at https://github.com/hunto/DiffKD.
翻訳日:2023-12-05 23:16:55 公開日:2023-12-04
# SVDinsTN:正規化モデリングの観点からの効率的な構造探索のためのテンソルネットワークパラダイム

SVDinsTN: A Tensor Network Paradigm for Efficient Structure Search from Regularized Modeling Perspective ( http://arxiv.org/abs/2305.14912v4 )

ライセンス: Link先を確認
Yu-Bang Zheng, Xi-Le Zhao, Junhua Zeng, Chao Li, Qibin Zhao, Heng-Chao Li, Ting-Zhu Huang(参考訳) テンソルネットワーク(TN)表現はコンピュータビジョンと機械学習の強力な技術である。 TN構造探索(TN-SS)は、コンパクトな表現を実現するためにカスタマイズされた構造を探すことを目的としている。 近年のsampling-evaluation-based (sampling-evaluation-based) 手法では,大規模な構造コレクションのサンプリングと評価が求められている。 この問題を解決するために,SVD-インスパイアされたTN分解(SVDinsTN)と呼ばれる新しいTNパラダイムを提案する。 具体的には、完全に接続されたTNの各エッジに対角係数を挿入することにより、SVDinsTNはTNコアと対角因子を同時に計算し、コンパクトなTN構造を明らかにする。 理論的には,提案手法の収束保証を証明する。 実験結果から,提案手法は最先端のTN-SS法と比較して約100~1000倍の高速化を実現し,同等の表現能力を維持した。

Tensor network (TN) representation is a powerful technique for computer vision and machine learning. TN structure search (TN-SS) aims to search for a customized structure to achieve a compact representation, which is a challenging NP-hard problem. Recent "sampling-evaluation-based" methods require sampling an extensive collection of structures and evaluating them one by one, resulting in prohibitively high computational costs. To address this issue, we propose a novel TN paradigm, named SVD-inspired TN decomposition (SVDinsTN), which allows us to efficiently solve the TN-SS problem from a regularized modeling perspective, eliminating the repeated structure evaluations. To be specific, by inserting a diagonal factor for each edge of the fully-connected TN, SVDinsTN allows us to calculate TN cores and diagonal factors simultaneously, with the factor sparsity revealing a compact TN structure. In theory, we prove a convergence guarantee for the proposed method. Experimental results demonstrate that the proposed method achieves approximately 100 to 1000 times acceleration compared to the state-of-the-art TN-SS methods while maintaining a comparable representation ability.
翻訳日:2023-12-05 23:16:35 公開日:2023-12-04
# 公平なオンラインアロケーションを実現するためのデータ品質の取引価格

Trading-off price for data quality to achieve fair online allocation ( http://arxiv.org/abs/2306.13440v2 )

ライセンス: Link先を確認
Mathieu Molina, Nicolas Gast, Patrick Loiseau, Vianney Perchet(参考訳) オンラインアロケーションの問題は、長期的公正なペナルティの対象となる。 しかし、既存の作業とは対照的に、意思決定者が保護された属性を観察しているとは考えません。 代わりに、異なる品質のソースからデータを評価するのに役立つデータを購入することができるため、ある程度のコストでフェアネスペナルティを低減できる。 我々は、この問題を、各アームがデータソースの選択に対応し、オンラインアロケーション問題と組み合わせたマルチアームバンディット問題としてモデル化する。 両問題を共同で解くアルゴリズムを提案し,$\mathcal{o}(\sqrt{t})$ で区切られた後悔を示す。 重要な困難は、ソースを選択することで得られる報酬がフェアネスペナルティによって相関し、(確率的な設定にもかかわらず)ランダム化の必要性が生じることである。 本アルゴリズムは,ソース選択前に利用可能な文脈情報を考慮して,多種多様なフェアネス概念に適応できる。 また、いくつかの例では、使用済みの見積もりをオンザフライで学習できることも示しています。

We consider the problem of online allocation subject to a long-term fairness penalty. Contrary to existing works, however, we do not assume that the decision-maker observes the protected attributes -- which is often unrealistic in practice. Instead they can purchase data that help estimate them from sources of different quality; and hence reduce the fairness penalty at some cost. We model this problem as a multi-armed bandit problem where each arm corresponds to the choice of a data source, coupled with the online allocation problem. We propose an algorithm that jointly solves both problems and show that it has a regret bounded by $\mathcal{O}(\sqrt{T})$. A key difficulty is that the rewards received by selecting a source are correlated by the fairness penalty, which leads to a need for randomization (despite a stochastic setting). Our algorithm takes into account contextual information available before the source selection, and can adapt to many different fairness notions. We also show that in some instances, the estimates used can be learned on the fly.
翻訳日:2023-12-05 23:10:32 公開日:2023-12-04
# 変分推論を用いた積層LDMの連成プロンプト最適化

Joint Prompt Optimization of Stacked LLMs using Variational Inference ( http://arxiv.org/abs/2306.12509v2 )

ライセンス: Link先を確認
Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre C\^ot\'e, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux(参考訳) 大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。 したがって、学習可能なパラメータが各レイヤの自然言語プロンプトであるような、言語ネットワークの確率的言語層として見ることができる。 2つの層を積み重ねて1つの層の出力を次の層に供給することで、ディープ言語ネットワーク(DLN)を得る。 まず,1層言語ネットワーク(dln-1)の最適化を効果的に行う方法を示す。 次に、2層dln (dln-2) に適用する拡張を行い、2つのプロンプトを学習する。 鍵となる考え方は、第1層の出力を潜在変数として考慮し、推論を必要とし、生成分布のパラメータとして学習するよう促すことである。 まず,複数の推論および自然言語理解タスクにおけるDLN-1の有効性を検証する。 そして,DLN-2 は単一層よりも高い性能を達成でき,ネットワーク内の各 LLM が小さく,低電力でも GPT-4 に匹敵する性能に到達できることを示す。

Large language models (LLMs) can be seen as atomic units of computation mapping sequences to a distribution over sequences. Thus, they can be seen as stochastic language layers in a language network, where the learnable parameters are the natural language prompts at each layer. By stacking two such layers and feeding the output of one layer to the next, we obtain a Deep Language Network (DLN). We first show how to effectively perform prompt optimization for a 1-Layer language network (DLN-1). Then, we present an extension that applies to 2-layer DLNs (DLN-2), where two prompts must be learned. The key idea is to consider the output of the first layer as a latent variable, which requires inference, and prompts to be learned as the parameters of the generative distribution. We first test the effectiveness of DLN-1 in multiple reasoning and natural language understanding tasks. Then, we show that DLN-2 can reach higher performance than a single layer, showing promise that we might reach comparable performance to GPT-4, even when each LLM in the network is smaller and less powerful.
翻訳日:2023-12-05 23:10:15 公開日:2023-12-04
# binary radiance フィールド

Binary Radiance Fields ( http://arxiv.org/abs/2306.07581v2 )

ライセンス: Link先を確認
Seungjoo Shin, Jaesik Park(参考訳) 本稿では,$+1$ または $-1$ の形式でバイナリエンコーディングパラメータを用いて局所特徴をエンコードするバイナリ特徴エンコーディングを用いた,ストレージ効率の高いラミアンスフィールド表現である \textit{binary radiance fields} (birf) を提案する。 この双対化戦略により、高コンパクトな特徴符号化と劇的にストレージサイズを縮小した特徴グリッドを表現できる。 さらに,我々の2D-3Dハイブリッド機能グリッド設計は,2Dグリッドが細部を捉えている間に3Dグリッドが主成分を含むため,特徴符号化のコンパクト性を高める。 実験では,2値ラディアンス場表現は,記憶容量の低い高効率ラディアンス場モデル(SOTA)の再構成性能より優れていた。 特に,Synthetic-NSVFシーンのPSNRは32.03dB,Synthetic-NSVFシーンの34.48dB,TantとTemplesシーンの28.20dBは0.5MBの記憶空間しか利用せず,静的なシーン再構築において優れた結果が得られる。 提案した二元放射場表現により、記憶ボトルネックなしに放射場をよりアクセスしやすくなることを期待する。

In this paper, we propose \textit{binary radiance fields} (BiRF), a storage-efficient radiance field representation employing binary feature encoding that encodes local features using binary encoding parameters in a format of either $+1$ or $-1$. This binarization strategy lets us represent the feature grid with highly compact feature encoding and a dramatic reduction in storage size. Furthermore, our 2D-3D hybrid feature grid design enhances the compactness of feature encoding as the 3D grid includes main components while 2D grids capture details. In our experiments, binary radiance field representation successfully outperforms the reconstruction performance of state-of-the-art (SOTA) efficient radiance field models with lower storage allocation. In particular, our model achieves impressive results in static scene reconstruction, with a PSNR of 32.03 dB for Synthetic-NeRF scenes, 34.48 dB for Synthetic-NSVF scenes, 28.20 dB for Tanks and Temples scenes while only utilizing 0.5 MB of storage space, respectively. We hope the proposed binary radiance field representation will make radiance fields more accessible without a storage bottleneck.
翻訳日:2023-12-05 23:07:16 公開日:2023-12-04
# ユークリッド距離関数を用いた拡散モデルの解釈と改善

Interpreting and Improving Diffusion Models Using the Euclidean Distance Function ( http://arxiv.org/abs/2306.04848v2 )

ライセンス: Link先を確認
Frank Permenter and Chenyang Yuan(参考訳) ディノイジングは直観的に投影と関係がある。 実際、多様体仮説の下では、ランダムノイズを加えることは直交摂動とほぼ同値である。 したがって、妄想を学ぶことは、プロジェクトを学ぶことです。 本稿では,この観測をユークリッド距離関数に適用した近似勾配勾配の拡散モデルの再解釈に利用する。 そこで本研究では, DDIM サンプルの直進収束解析を, デノイザの投射誤差に関する簡単な仮定で行う。 最後に, DDIMに対する2つの簡単な修正に基づく新しいサンプリング手法を提案する。 CIFAR-10 と CelebA のモデルでは,5-10 の関数評価が達成され,遅延拡散モデルでは高品質なサンプルを生成することができる。

Denoising is intuitively related to projection. Indeed, under the manifold hypothesis, adding random noise is approximately equivalent to orthogonal perturbation. Hence, learning to denoise is approximately learning to project. In this paper, we use this observation to reinterpret denoising diffusion models as approximate gradient descent applied to the Euclidean distance function. We then provide straight-forward convergence analysis of the DDIM sampler under simple assumptions on the projection-error of the denoiser. Finally, we propose a new sampler based on two simple modifications to DDIM using insights from our theoretical results. In as few as 5-10 function evaluations, our sampler achieves state-of-the-art FID scores on pretrained CIFAR-10 and CelebA models and can generate high quality samples on latent diffusion models.
翻訳日:2023-12-05 23:06:19 公開日:2023-12-04
# contrimix: 顕微鏡画像解析における領域一般化のためのコンテンツと属性の教師なし乱れ

ContriMix: Unsupervised disentanglement of content and attribute for domain generalization in microscopy image analysis ( http://arxiv.org/abs/2306.04527v3 )

ライセンス: Link先を確認
Tan H. Nguyen, Dinkar Juyal, Jin Li, Aaditya Prakash, Shima Nofallah, Chintan Shah, Sai Chowdary Gullapally, Limin Yu, Michael Griffin, Anand Sampat, John Abel, Justin Lee, Amaro Taylor-Weiner(参考訳) ドメインの一般化は、病理組織学や蛍光イメージングを含む顕微鏡画像への機械学習の実世界応用に不可欠である。 これらのモダリティの人工物は、組織収集と実験室処理に関連する因子と、患者サンプルに固有の因子の複雑な組み合わせによって生じる。 蛍光イメージングでは、これらのアーティファクトは実験バッチ間のバリエーションに由来する。 これらのアーティファクトの複雑さと微妙さは、データ領域の列挙を難なくする。 したがって、ドメイン識別子と手動微調整を必要とする拡張型ドメイン一般化法は、この設定では不十分である。 この課題を克服するために,コントリミックス(contrimix)というドメイン一般化手法を導入する。顕微鏡画像における生体コンテンツ(コンテンツ)と技術的なバリエーション(属性)を分離・置換することで合成画像を生成する。 contrimixはドメイン識別子や手作りの補足には依存せず、画像の入力特性についての仮定もしない。 パッチ分類と全スライド画像ラベル予測タスク(Camelyon17-WILDSとRCCサブタイピング)と1つの蛍光顕微鏡データセット(RxRx1-WILDS)の2つの病理モデルにおけるContriMixの性能を評価する。 列車やテスト時にドメイン識別子にアクセスすることなく、ContriMixは、これらのデータセットすべてにおいて、現在の最先端メソッドと同じような、あるいはそれ以上の処理を行う。 contrimixのコードはhttps://gitlab.com/huutan86/contrimixにある。

Domain generalization is critical for real-world applications of machine learning to microscopy images, including histopathology and fluorescence imaging. Artifacts in these modalities arise through a complex combination of factors relating to tissue collection and laboratory processing, as well as factors intrinsic to patient samples. In fluorescence imaging, these artifacts stem from variations across experimental batches. The complexity and subtlety of these artifacts make the enumeration of data domains intractable. Therefore, augmentation-based methods of domain generalization that require domain identifiers and manual fine-tuning are inadequate in this setting. To overcome this challenge, we introduce ContriMix, a domain generalization technique that learns to generate synthetic images by disentangling and permuting the biological content ("content") and technical variations ("attributes") in microscopy images. ContriMix does not rely on domain identifiers or handcrafted augmentations and makes no assumptions about the input characteristics of images. We assess the performance of ContriMix on two pathology datasets dealing with patch classification and Whole Slide Image label prediction tasks respectively (Camelyon17-WILDS and RCC subtyping), and one fluorescence microscopy dataset (RxRx1-WILDS). Without any access to domain identifiers at train or test time, ContriMix performs similar or better than current state-of-the-art methods in all these datasets, motivating its usage for microscopy image analysis in real-world settings where domain information is hard to come by. The code for ContriMix can be found at https://gitlab.com/huutan86/contrimix
翻訳日:2023-12-05 23:05:45 公開日:2023-12-04
# 反事実境界の効率的な計算

Efficient Computation of Counterfactual Bounds ( http://arxiv.org/abs/2307.08304v3 )

ライセンス: Link先を確認
Marco Zaffalon and Alessandro Antonucci and Rafael Caba\~nas and David Huber and Dario Azzimonti(参考訳) 我々は、有向非巡回グラフ、すなわち構造因果モデルを誘導する離散変数に対する構造方程式と、その内部ノードに関するデータとを仮定する。 私たちが答えたい質問は、そのような入力から部分的に識別可能な偽のクエリの境界を計算する方法です。 まず、構造的なカジュアルモデルからクレダルネットワークへのマップを提供することから始めます。 これにより、構造因果モデルのサブクラスにおけるクレダルネットのアルゴリズムによって、正確な反ファクト境界を計算することができる。 因果推論がポリツリー上でもNPハードであることを考えると、厳密な計算は一般に非効率である。 次に、因果EMスキームを用いて近似境界を求める。 近似のクオリティについて信頼性の高い間隔を提供することで精度を評価するとともに、emスキームがかなりの数のランで正確な結果をもたらすことを合成ベンチマークで示す。 議論の過程では、反事実境界は構造方程式の知識なしに計算できるというトレンドのアイデアに対する無視された制限が指摘される。 また,我々のアルゴリズムが実用的用途にどのように利用できるかを示すために,緩和ケアに関する実際のケーススタディも提示する。

We assume to be given structural equations over discrete variables inducing a directed acyclic graph, namely, a structural causal model, together with data about its internal nodes. The question we want to answer is how we can compute bounds for partially identifiable counterfactual queries from such an input. We start by giving a map from structural casual models to credal networks. This allows us to compute exact counterfactual bounds via algorithms for credal nets on a subclass of structural causal models. Exact computation is going to be inefficient in general given that, as we show, causal inference is NP-hard even on polytrees. We target then approximate bounds via a causal EM scheme. We evaluate their accuracy by providing credible intervals on the quality of the approximation; we show through a synthetic benchmark that the EM scheme delivers accurate results in a fair number of runs. In the course of the discussion, we also point out what seems to be a neglected limitation to the trending idea that counterfactual bounds can be computed without knowledge of the structural equations. We also present a real case study on palliative care to show how our algorithms can readily be used for practical purposes.
翻訳日:2023-12-05 22:58:49 公開日:2023-12-04
# 平均KLパラメータ化による最小ランダム符号学習

Minimal Random Code Learning with Mean-KL Parameterization ( http://arxiv.org/abs/2307.07816v2 )

ライセンス: Link先を確認
Jihao Andreas Lin, Gergely Flamich, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 本稿では,変分ベイズニューラルネットワークの圧縮に用いる2種類の最小ランダム符号学習(MIRACLE)の質的挙動とロバスト性について検討する。 MIRACLEは、ウェイト後部$Q_{\mathbf{w}}$に対して強力で条件付きガウス変分近似を実装し、相対エントロピー符号化を用いてガウス符号分布$P_{\mathbf{w}}$を用いて後部から重量サンプルを圧縮する。 所望の圧縮率を達成するには、$d_{\mathrm{kl}}[q_{\mathbf{w}} \vert p_{\mathbf{w}}]$ を制約しなければならない。 代わりに、$q_{\mathbf{w}}$ を平均でパラメータ化し、kl を $p_{\mathbf{w}}$ から分岐させ、圧縮コストを構成によって所望の値に制限する。 我々は,平均-KLパラメータ化による変動学習が2倍の速度で収束し,圧縮後の予測性能を維持することを示した。 さらに, 平均-KLは, より重い尾と圧縮された重みを持つ, より有意義な変動分布をもたらすことを示した。

This paper studies the qualitative behavior and robustness of two variants of Minimal Random Code Learning (MIRACLE) used to compress variational Bayesian neural networks. MIRACLE implements a powerful, conditionally Gaussian variational approximation for the weight posterior $Q_{\mathbf{w}}$ and uses relative entropy coding to compress a weight sample from the posterior using a Gaussian coding distribution $P_{\mathbf{w}}$. To achieve the desired compression rate, $D_{\mathrm{KL}}[Q_{\mathbf{w}} \Vert P_{\mathbf{w}}]$ must be constrained, which requires a computationally expensive annealing procedure under the conventional mean-variance (Mean-Var) parameterization for $Q_{\mathbf{w}}$. Instead, we parameterize $Q_{\mathbf{w}}$ by its mean and KL divergence from $P_{\mathbf{w}}$ to constrain the compression cost to the desired value by construction. We demonstrate that variational training with Mean-KL parameterization converges twice as fast and maintains predictive performance after compression. Furthermore, we show that Mean-KL leads to more meaningful variational distributions with heavier tails and compressed weight samples which are more robust to pruning.
翻訳日:2023-12-05 22:58:17 公開日:2023-12-04
# 3次元医用画像の解釈可能な2次元視覚モデル

Interpretable 2D Vision Models for 3D Medical Images ( http://arxiv.org/abs/2307.06614v2 )

ライセンス: Link先を確認
Alexander Ziller, Ayhan Can Erdur, Marwa Trigui, Alp G\"uvenir, Tamara T. Mueller, Philip M\"uller, Friederike Jungmann, Johannes Brandt, Jan Peeken, Rickmer Braren, Daniel Rueckert, Georgios Kaissis(参考訳) 第一に、計算資源の需要は著しく高く、第二に、事前トレーニングのための大規模なデータセットの可用性は、しばしば制限され、トレーニングの成功を妨げる。 本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。 提案手法では,各スライスに重要度を割り当てることを学ぶためにアテンションプールを用いて,各2dスライスの重み付け平均値を得る。 これらの重みは、各スライスの貢献度を直接定量化し、モデル予測を検査可能にする。 我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。 さらに,私たちのアプローチが組み込まれている解釈可能性と,最先端のレトロスペクティブ解釈アプローチであるhirescamを比較した。

Training Artificial Intelligence (AI) models on 3D images presents unique challenges compared to the 2D case: Firstly, the demand for computational resources is significantly higher, and secondly, the availability of large datasets for pre-training is often limited, impeding training success. This study proposes a simple approach of adapting 2D networks with an intermediate feature representation for processing 3D images. Our method employs attention pooling to learn to assign each slice an importance weight and, by that, obtain a weighted average of all 2D slices. These weights directly quantify the contribution of each slice to the contribution and thus make the model prediction inspectable. We show on all 3D MedMNIST datasets as benchmark and two real-world datasets consisting of several hundred high-resolution CT or MRI scans that our approach performs on par with existing methods. Furthermore, we compare the in-built interpretability of our approach to HiResCam, a state-of-the-art retrospective interpretability approach.
翻訳日:2023-12-05 22:57:29 公開日:2023-12-04
# 自己吸収スペクトル形成因子におけるユニタリティの破れ

Unitarity breaking in self-averaging spectral form factors ( http://arxiv.org/abs/2307.04791v2 )

ライセンス: Link先を確認
Apollonas S. Matsoukas-Roubeas, Mathieu Beau, Lea F. Santos, Adolfo del Campo(参考訳) 量子系のエネルギースペクトルの2点相関子の複素フーリエ変換はスペクトル形成因子(SFF)として知られている。 これは物質相と量子カオスにとって不可欠な診断ツールである。 ブラックホール物理学では、ユニタリ時間発展の下での熱場二重状態の生存確率(忠実性)を記述する。 しかし、ジェネリックスペクトルを持つ孤立量子系のSFFの詳細な性質は、乱れや時間平均を最小化する大きな時間変動によって明らかになる。 この要件は、任意のシステムサイズ、すなわち、SFFは平均値ではない。 この量の忠実性に基づく解釈を活用し、sffのフィルタ、乱れ、時間平均を用いると、量子ノイズを抑制する量子チャネルによって記述されるオープン量子ダイナミクスがユニタリティの破れを伴うことが証明される。 具体的には、ハミルトンアンサンブルの平均値、平均時間、周波数フィルタを、情報損失を回復できる混合単位量子チャネルのクラスで記述することができる。 周波数フィルタはエネルギーデフォーカスを一般化する時間連続マスター方程式と関連付けられる。 また固有値フィルタの利用についても論じる。 これらは量子ジャンプのない非エルミートハミルトン進化と関連しており、その長期的挙動はハミルトニアン変形によって記述される。 周波数とエネルギーのフィルタがSFFを長時間自己劣化させることを示す。

The complex Fourier transform of the two-point correlator of the energy spectrum of a quantum system is known as the spectral form factor (SFF). It constitutes an essential diagnostic tool for phases of matter and quantum chaos. In black hole physics, it describes the survival probability (fidelity) of a thermofield double state under unitary time evolution. However, detailed properties of the SFF of isolated quantum systems with generic spectra are smeared out by large temporal fluctuations, whose minimization requires disorder or time averages. This requirement holds for any system size, that is, the SFF is non-self averaging. Exploiting the fidelity-based interpretation of this quantity, we prove that using filters, disorder and time averages of the SFF involve unitarity breaking, i.e., open quantum dynamics described by a quantum channel that suppresses quantum noise. Specifically, averaging over Hamiltonian ensembles, time averaging, and frequency filters can be described by the class of mixed-unitary quantum channels in which information loss can be recovered. Frequency filters are associated with a time-continuous master equation generalizing energy dephasing. We also discuss the use of eigenvalue filters. They are linked to non-Hermitian Hamiltonian evolution without quantum jumps, whose long-time behavior is described by a Hamiltonian deformation. We show that frequency and energy filters make the SFF self-averaging at long times.
翻訳日:2023-12-05 22:57:13 公開日:2023-12-04
# 機能近似とフィードバックを用いたCVaR強化学習の効率化

Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback ( http://arxiv.org/abs/2307.02842v3 )

ライセンス: Link先を確認
Yu Chen, Yihan Du, Pihe Hu, Siwei Wang, Desheng Wu, Longbo Huang(参考訳) リスクセンシティブ強化学習(rl)は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。 本稿では,リニア関数近似と一般関数近似の両方にCVaR(Iterated Conditional Value-at-Risk)の目的を取り入れた,リスクに敏感な新しいRLフレームワークを提案する。 これらの新しい定式化は、制御プロセス全体を通して、各意思決定ステップにおける安全性を保証する原則的な方法を提供する。 さらに、人間からのフィードバックをリスクに敏感なRLフレームワークに組み込むことで、アルゴリズム決定と人間の参加のギャップを埋めることができ、ループ内のシステムの安全性も保証できる。 本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。 さらに,線形文脈でアルゴリズムの最適性を相関付けるために,一致した下界を確立する。

Risk-sensitive reinforcement learning (RL) aims to optimize policies that balance the expected reward and risk. In this paper, we present a novel risk-sensitive RL framework that employs an Iterated Conditional Value-at-Risk (CVaR) objective under both linear and general function approximations, enriched by human feedback. These new formulations provide a principled way to guarantee safety in each decision making step throughout the control process. Moreover, integrating human feedback into risk-sensitive RL framework bridges the gap between algorithmic decision-making and human participation, allowing us to also guarantee safety for human-in-the-loop systems. We propose provably sample-efficient algorithms for this Iterated CVaR RL and provide rigorous theoretical analysis. Furthermore, we establish a matching lower bound to corroborate the optimality of our algorithms in a linear context.
翻訳日:2023-12-05 22:55:39 公開日:2023-12-04
# ニューラルネットワークが構成データをどのように学習するか:ランダム階層モデル

How Deep Neural Networks Learn Compositional Data: The Random Hierarchy Model ( http://arxiv.org/abs/2307.02129v3 )

ライセンス: Link先を確認
Francesco Cagnetta, Leonardo Petrini, Umberto M. Tomasini, Alessandro Favero, Matthieu Wyart(参考訳) ディープラーニングアルゴリズムは、限られた例から高次元のタスクを学習する驚くべき能力を示す。 これは一般にニューラルネットワークの深さによるもので、抽象的で低次元のデータ表現の階層を構築することができる。 しかし、そのような表現を学ぶのに必要なトレーニング例がいくつあるかは不明だ。 この問題を定量的に研究するために,言語と画像の階層構造に触発された合成タスク群であるランダム階層モデルを提案する。 モデルは分類タスクであり、各クラスは同じクラスに関連する複数の等価グループから選択された高レベル特徴のグループに対応する。 それぞれの特徴は、構成規則の階層に従って、いくつかの等価なものから選択されたサブ機能群に対応する。 深層ネットワークは、等価群を交換する内部表現を不変にすることでタスクを学習する。 さらに、必要なデータ数は、低レベルの特徴とクラス間の相関が検出できる点に対応する。 全体として,深層ネットワークが不変表現を構築して次元の呪いを克服する方法を示し,階層的タスクの学習に必要なデータ数を推定する。

Deep learning algorithms demonstrate a surprising ability to learn high-dimensional tasks from limited examples. This is commonly attributed to the depth of neural networks, enabling them to build a hierarchy of abstract, low-dimensional data representations. However, how many training examples are required to learn such representations remains unknown. To quantitatively study this question, we introduce the Random Hierarchy Model: a family of synthetic tasks inspired by the hierarchical structure of language and images. The model is a classification task where each class corresponds to a group of high-level features, chosen among several equivalent groups associated with the same class. In turn, each feature corresponds to a group of sub-features chosen among several equivalent ones and so on, following a hierarchy of composition rules. We find that deep networks learn the task by developing internal representations invariant to exchanging equivalent groups. Moreover, the number of data required corresponds to the point where correlations between low-level features and classes become detectable. Overall, our results indicate how deep networks overcome the curse of dimensionality by building invariant representations, and provide an estimate of the number of data required to learn a hierarchical task.
翻訳日:2023-12-05 22:54:50 公開日:2023-12-04
# RL4CO: Combinatorial Optimization Libraryのための統一強化学習

RL4CO: a Unified Reinforcement Learning for Combinatorial Optimization Library ( http://arxiv.org/abs/2306.17100v3 )

ライセンス: Link先を確認
Federico Berto, Chuanbo Hua, Junyoung Park, Minsu Kim, Hyeonah Kim, Jiwoo Son, Haeyeon Kim, Joungho Kim, Jinkyoo Park(参考訳) 深層強化学習は、従来の解法よりも組合せ問題に対処し、ドメイン固有の知識とエキスパートソリューションへの依存を減らし、計算効率を向上させる上で、顕著な利点を提供する。 最近のニューラルネットワーク最適化への関心の高まりにもかかわらず、実践者はしばしば標準化されたコードベースにアクセスできない。 さらに、異なるアルゴリズムはしばしば再現性と公正な比較を妨げる断片化実装に基づいている。 これらの課題に対処するため,コンビネーション最適化(CO)ライブラリ用の統合強化学習(RL)であるRL4COを紹介する。 私たちは最先端のソフトウェアとモジュラリティや構成管理といった実装のベストプラクティスを採用し、研究者が柔軟で簡単に修正可能で拡張可能なものにしています。 コードベースの統一化により、ゼロショット性能、一般化、多様なタスクへの適応性に関する異なる評価スキームを持つベースラインRLソルバをベンチマークする。 特に,評価設定によっては,最近の手法が先行手法に遅れる可能性がある。 私たちはrl4coが複雑な実世界のタスクに対する新しいソリューションの探求を奨励し、コミュニティがソフトウェアエンジニアリングから科学を分離する統一フレームワークを通じて既存の方法と比較できるようにすることを望んでいる。 私たちはライブラリをhttps://github.com/ai4co/rl4coでオープンソースにしました。

Deep reinforcement learning offers notable benefits in addressing combinatorial problems over traditional solvers, reducing the reliance on domain-specific knowledge and expert solutions, and improving computational efficiency. Despite the recent surge in interest in neural combinatorial optimization, practitioners often do not have access to a standardized code base. Moreover, different algorithms are frequently based on fragmentized implementations that hinder reproducibility and fair comparison. To address these challenges, we introduce RL4CO, a unified Reinforcement Learning (RL) for Combinatorial Optimization (CO) library. We employ state-of-the-art software and best practices in implementation, such as modularity and configuration management, to be flexible, easily modifiable, and extensible by researchers. Thanks to our unified codebase, we benchmark baseline RL solvers with different evaluation schemes on zero-shot performance, generalization, and adaptability on diverse tasks. Notably, we find that some recent methods may fall behind their predecessors depending on the evaluation settings. We hope RL4CO will encourage the exploration of novel solutions to complex real-world tasks, allowing the community to compare with existing methods through a unified framework that decouples the science from software engineering. We open-source our library at https://github.com/ai4co/rl4co.
翻訳日:2023-12-05 22:53:39 公開日:2023-12-04
# Bengali Fakeレビュー:ベンチマークデータセットと検出システム

Bengali Fake Reviews: A Benchmark Dataset and Detection System ( http://arxiv.org/abs/2308.01987v2 )

ライセンス: Link先を確認
G. M. Shahariar, Md. Tanvir Rouf Shawon, Faisal Muhammad Shah, Mohammad Shafiul Alam and Md. Shahriar Mahbub(参考訳) さまざまなオンラインプラットフォームにおける偽レビューの拡散は、消費者と企業双方にとって大きな懸念を巻き起こしている。 このようなレビューは顧客を欺き、製品やサービスの評判を損なう可能性があるため、顧客を特定することが不可欠である。 偽レビューの検出は英語で広く研究されているが、ベンガル語のような英語以外の言語で偽レビューを検出することは、比較的未調査の分野である。 本稿では,Bengali Fake Review Detection (BFRD)データセットを紹介する。 データセットは7710件のノンフェイクと1339件の偽の食品関連レビューで構成されている。 レビューで非ベンガル語を変換するために、英語の単語を対応するベンガル語の意味に翻訳するユニークなパイプラインが提案されている。 複数のディープラーニングと事前学習型トランスフォーマー言語モデルを用いて厳密な実験を行い、信頼性の高い検出システムを開発した。 最後に,BanglaBERT,BanglaBERT Base,BanglaBERT Large,BanglaBERT Generatorの4つの事前学習変圧器を組み合わせた重み付きアンサンブルモデルを提案する。 実験結果によると,nlpaugライブラリで生成された1339件の偽レビューと5356件の偽レビューを含む,13390件のレビューに対して,重み付けされたf1-score 0.9843が得られた。 残りの6695のレビューは7710の非fakeインスタンスからランダムに選択された。 このモデルは、偽レビューがbnaugライブラリを使用して拡張されたときに、0.9558の重み付きF1スコアを達成した。

The proliferation of fake reviews on various online platforms has created a major concern for both consumers and businesses. Such reviews can deceive customers and cause damage to the reputation of products or services, making it crucial to identify them. Although the detection of fake reviews has been extensively studied in English language, detecting fake reviews in non-English languages such as Bengali is still a relatively unexplored research area. This paper introduces the Bengali Fake Review Detection (BFRD) dataset, the first publicly available dataset for identifying fake reviews in Bengali. The dataset consists of 7710 non-fake and 1339 fake food-related reviews collected from social media posts. To convert non-Bengali words in a review, a unique pipeline has been proposed that translates English words to their corresponding Bengali meaning and also back transliterates Romanized Bengali to Bengali. We have conducted rigorous experimentation using multiple deep learning and pre-trained transformer language models to develop a reliable detection system. Finally, we propose a weighted ensemble model that combines four pre-trained transformers: BanglaBERT, BanglaBERT Base, BanglaBERT Large, and BanglaBERT Generator . According to the experiment results, the proposed ensemble model obtained a weighted F1-score of 0.9843 on 13390 reviews, including 1339 actual fake reviews and 5356 augmented fake reviews generated with the nlpaug library. The remaining 6695 reviews were randomly selected from the 7710 non-fake instances. The model achieved a 0.9558 weighted F1-score when the fake reviews were augmented using the bnaug library.
翻訳日:2023-12-05 22:44:20 公開日:2023-12-04
# 個人別ロジスティック回帰の精度向上:事前学習アプローチ

Accuracy Improvement in Differentially Private Logistic Regression: A Pre-training Approach ( http://arxiv.org/abs/2307.13771v2 )

ライセンス: Link先を確認
Mohammad Hoseinpour, Milad Hoseinpour, Ali Aghagolzadeh(参考訳) 機械学習(ML)モデルは、トレーニングデータセットを記憶することができる。 その結果、プライベートデータセットよりもMLモデルをトレーニングすることで、個人のプライバシ侵害につながる可能性がある。 differential privacy (dp)は、基礎となるトレーニングデータセットのプライバシーを保護するための厳格なプライバシー概念である。 しかし、DPフレームワークでのMLモデルのトレーニングは通常、MLモデルの精度を低下させる。 本稿では,事前学習モジュールを用いてDPロジスティック回帰(LR)の精度を高めることを目的とする。 より詳しくは、まずはLRモデルを公開トレーニングデータセットで事前トレーニングし、プライバシーに関する懸念はありません。 次に、DP-LRモデルをプライベートデータセットで微調整する。 その結果,事前学習モジュールを追加することでDP-LRモデルの精度が大幅に向上することがわかった。

Machine learning (ML) models can memorize training datasets. As a result, training ML models over private datasets can lead to the violation of individuals' privacy. Differential privacy (DP) is a rigorous privacy notion to preserve the privacy of underlying training datasets. Yet, training ML models in a DP framework usually degrades the accuracy of ML models. This paper aims to boost the accuracy of a DP logistic regression (LR) via a pre-training module. In more detail, we initially pre-train our LR model on a public training dataset that there is no privacy concern about it. Then, we fine-tune our DP-LR model with the private dataset. In the numerical results, we show that adding a pre-training module significantly improves the accuracy of the DP-LR model.
翻訳日:2023-12-05 22:42:58 公開日:2023-12-04
# pasta: 事前訓練されたアクションステートトランスフォーマーエージェント

PASTA: Pretrained Action-State Transformer Agents ( http://arxiv.org/abs/2307.10936v2 )

ライセンス: Link先を確認
Raphael Boige and Yannis Flet-Berliac and Arthur Flajolet and Guillaume Richard and Thomas Pierrot(参考訳) 自己教師型学習は、NLP、ビジョン、生物学など、さまざまなコンピューティング領域に革命的なパラダイムシフトをもたらした。 最近のアプローチでは、大量のラベルのないデータでトランスフォーマーモデルを事前トレーニングし、下流タスクを効率的に解決するための出発点となる。 強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。 この進歩により、モデルはロボティクスからレコメンデーションシステムまで、幅広いタスクに取り組むことができる。 しかし、既存の手法は主に特定の下流アプリケーションに適した複雑な事前学習の目的に依存している。 本稿では,PASTA(pre-trained action-state transformer agent)と呼ばれるモデルについて包括的に検討する。 本研究は, 統合された手法を網羅し, 行動クローン, オフラインRL, センサ故障の堅牢性, 動的変化適応など, 幅広いダウンストリームタスクを網羅する。 私たちの目標は、さまざまな設計選択を体系的に比較し、堅牢なモデルを開発する実践者を支援する貴重な洞察を提供することです。 本研究の主なハイライトは,動作や状態のコンポーネントレベルでのトークン化,次のトークン予測やマスク言語モデリングといった基本的な事前学習目標の使用,複数のドメインにわたるモデルの同時トレーニング,さまざまな微調整戦略の適用などです。 本研究では,これらのモデルを用いて実験を再現できるように,700万以上のパラメータを含むモデルを開発した。 本研究は,RL軌道を表現し,堅牢な政策学習に寄与する第一原理設計選択によるトランスフォーマーの利用に関するさらなる研究を期待する。

Self-supervised learning has brought about a revolutionary paradigm shift in various computing domains, including NLP, vision, and biology. Recent approaches involve pre-training transformer models on vast amounts of unlabeled data, serving as a starting point for efficiently solving downstream tasks. In reinforcement learning, researchers have recently adapted these approaches, developing models pre-trained on expert trajectories. This advancement enables the models to tackle a broad spectrum of tasks, ranging from robotics to recommendation systems. However, existing methods mostly rely on intricate pre-training objectives tailored to specific downstream applications. This paper conducts a comprehensive investigation of models, referred to as pre-trained action-state transformer agents (PASTA). Our study covers a unified methodology and covers an extensive set of general downstream tasks including behavioral cloning, offline RL, sensor failure robustness, and dynamics change adaptation. Our objective is to systematically compare various design choices and offer valuable insights that will aid practitioners in developing robust models. Key highlights of our study include tokenization at the component level for actions and states, the use of fundamental pre-training objectives such as next token prediction or masked language modeling, simultaneous training of models across multiple domains, and the application of various fine-tuning strategies. In this study, the developed models contain fewer than 7 million parameters allowing a broad community to use these models and reproduce our experiments. We hope that this study will encourage further research into the use of transformers with first principle design choices to represent RL trajectories and contribute to robust policy learning.
翻訳日:2023-12-05 22:42:46 公開日:2023-12-04
# データ不均衡が対人訓練に及ぼす影響について

Alleviating the Effect of Data Imbalance on Adversarial Training ( http://arxiv.org/abs/2307.10205v2 )

ライセンス: Link先を確認
Guanlin Li, Guowen Xu, Tianwei Zhang(参考訳) 本稿では,従来の研究ではほとんど研究されていない長い尾の分布に従属するデータセットに対する逆行訓練について検討する。 バランスの取れたデータセットに対する従来の敵対的トレーニングと比較すると、このプロセスは、不均一な敵対的例(aes)と不均衡な特徴埋め込み空間を生成するジレンマに陥り、結果として得られたモデルは、テールデータに対するロバスト性と精度が低くなる。 そこで本研究では,長期データセット上でモデルをトレーニングするロバストリスクの下限を理論的に解析し,上記のジレンマに対処する上での重要な課題について考察する。 そこで本研究では,Re-balancing Adversarial Training (REAT) という新たな対戦訓練フレームワークを提案する。 本フレームワークは,(1)有効数にインスパイアされた新たなトレーニング戦略により,よりバランスのとれた情報的AEを生成する,(2)満足な特徴空間を強制する,慎重に構築されたペナルティ関数である。 異なるデータセットとモデル構造の評価結果は、REATがモデルの堅牢性を効果的に強化し、モデルのクリーンな精度を維持することを証明している。 コードはhttps://github.com/GuanlinLee/REATで確認できる。

In this paper, we study adversarial training on datasets that obey the long-tailed distribution, which is practical but rarely explored in previous works. Compared with conventional adversarial training on balanced datasets, this process falls into the dilemma of generating uneven adversarial examples (AEs) and an unbalanced feature embedding space, causing the resulting model to exhibit low robustness and accuracy on tail data. To combat that, we theoretically analyze the lower bound of the robust risk to train a model on a long-tailed dataset to obtain the key challenges in addressing the aforementioned dilemmas. Based on it, we propose a new adversarial training framework -- Re-balancing Adversarial Training (REAT). This framework consists of two components: (1) a new training strategy inspired by the effective number to guide the model to generate more balanced and informative AEs; (2) a carefully constructed penalty function to force a satisfactory feature space. Evaluation results on different datasets and model structures prove that REAT can effectively enhance the model's robustness and preserve the model's clean accuracy. The code can be found in https://github.com/GuanlinLee/REAT.
翻訳日:2023-12-05 22:42:20 公開日:2023-12-04
# 野生における全能的対人訓練

Omnipotent Adversarial Training in the Wild ( http://arxiv.org/abs/2307.08596v2 )

ライセンス: Link先を確認
Guanlin Li, Kangjie Chen, Yuan Xu, Han Qiu, Tianwei Zhang(参考訳) 敵対的なトレーニングは、堅牢なディープラーニングにおいて重要なトピックであるが、コミュニティはその実践的利用に注意を払わない。 本稿では,不均衡でノイズの多いデータセット上でモデルをトレーニングし,高いクリーンな精度と対角的堅牢性を実現することを目的とした,Omnipotent Adversarial Training(OAT)戦略を提案する。 OATはトレーニングセットの不完全性に対処する2つの革新的な方法論で構成されている。 まず、モデルが正しいデータラベル条件分布を学習するのを助けるために、逆行訓練プロセスにオラクルを導入する。 この慎重に設計されたoracleは、敵のトレーニングに正しいラベルアノテーションを提供できます。 さらに,モデルのベイズ最適分布学習を支援するデータ不均衡問題を克服するために,対数調整逆学習を提案する。 以上の結果から,OATはデータ不均衡とラベルノイズの複雑な組み合わせにより,20%以上のクリーンな精度向上と10%以上の堅牢な精度向上を達成できた。 コードはhttps://github.com/GuanlinLee/OATで確認できる。

Adversarial training is an important topic in robust deep learning, but the community lacks attention to its practical usage. In this paper, we aim to resolve a real-world challenge, i.e., training a model on an imbalanced and noisy dataset to achieve high clean accuracy and adversarial robustness, with our proposed Omnipotent Adversarial Training (OAT) strategy. OAT consists of two innovative methodologies to address the imperfection in the training set. We first introduce an oracle into the adversarial training process to help the model learn a correct data-label conditional distribution. This carefully-designed oracle can provide correct label annotations for adversarial training. We further propose logits adjustment adversarial training to overcome the data imbalance issue, which can help the model learn a Bayes-optimal distribution. Our comprehensive evaluation results show that OAT outperforms other baselines by more than 20% clean accuracy improvement and 10% robust accuracy improvement under complex combinations of data imbalance and label noise scenarios. The code can be found in https://github.com/GuanlinLee/OAT.
翻訳日:2023-12-05 22:41:43 公開日:2023-12-04
# BioCoder: 文脈論的知識を用いたバイオインフォマティクスコード生成ベンチマーク

BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual Pragmatic Knowledge ( http://arxiv.org/abs/2308.16458v4 )

ライセンス: Link先を確認
Xiangru Tang, Bill Qian, Rick Gao, Jiakang Chen, Xinyun Chen, Mark Gerstein(参考訳) 事前訓練された大きな言語モデルはコード生成を大幅に改善した。 これらのモデルが拡大するにつれて、アウトプットがより複雑なタスクを処理し、特定のドメインに適切に特化する必要がある。 ここでは、この専門分野に必要な専門知識、アルゴリズム、データ操作の量により、バイオインフォマティクスを対象とする。 バイオインフォマティクス固有のコードを生成する際に,大規模言語モデル(LLM)を評価するために開発されたベンチマークであるBioCoderを提案する。 biocoderはフィールドの幅広いスペクトルにまたがり、クロスファイルの依存関係、クラス宣言、グローバル変数をカバーする。 その中には、GitHubから抽出された1026のPython関数と1243のJavaメソッドと、バイオインフォマティクスに関連するRosalindプロジェクトから253のサンプルが含まれている。 トピックモデリングを用いて、包含されたコード全体のカバレッジは、バイオインフォマティクス計算の完全なスペクトルを表していることを示す。 BioCoderは、評価のためのファズテストフレームワークを組み込んでいる。 InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+, GPT-3.5, GPT-4 など,多くのモデルの評価に採用しました。 さらに、StarCoderを微調整し、私たちのデータセットがベンチマーク上でLLMのパフォーマンスを効果的に向上する方法を実証しました(特定のプロンプト構成ではPass@Kで15%、常に3%)。 1) 成功したモデルは、機能的な依存関係のために、完全なコンテキストを持つ長いプロンプト(> ~2600トークン)を許容します。 2) バイオインフォマティクスの特定のドメイン知識は, 一般のコーディング知識以外にも含んでいる。 これはgpt-3.5/4がベンチマークのより小さいモデルと比較した場合(50%対25%)から明らかである。 テストに必要なデータセット、ベンチマーク、dockerイメージ、スクリプトはすべて、https://github.com/gersteinlab/biocoderで利用可能です。

Pre-trained large language models have significantly improved code generation. As these models scale up, there is an increasing need for the output to handle more intricate tasks and to be appropriately specialized to particular domains. Here, we target bioinformatics due to the amount of specialized domain knowledge, algorithms, and data operations this discipline requires. We present BioCoder, a benchmark developed to evaluate large language models (LLMs) in generating bioinformatics-specific code. BioCoder spans a broad spectrum of the field and covers cross-file dependencies, class declarations, and global variables. It incorporates 1026 Python functions and 1243 Java methods extracted from GitHub, along with 253 examples from the Rosalind Project, all pertaining to bioinformatics. Using topic modeling we show that overall coverage of the included code is representative of the full spectrum of bioinformatics calculations. BioCoder incorporates a fuzz-testing framework for evaluation. We have applied it to evaluate many models including InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+, GPT-3.5, and GPT-4. Furthermore, we finetuned StarCoder, demonstrating how our dataset can effectively enhance the performance of LLMs on our benchmark (by >15% in terms of Pass@K in certain prompt configurations and always >3%). The results highlight two key aspects of successful models: (1) Successful models accommodate a long prompt (> ~2600 tokens) with full context, for functional dependencies. (2) They contain specific domain knowledge of bioinformatics, beyond just general coding knowledge. This is evident from the performance gain of GPT-3.5/4 compared to the smaller models on the benchmark (50% vs up to ~25%). Our dataset, benchmark, Docker images, and scripts required for testing are all available at https://github.com/gersteinlab/biocoder.
翻訳日:2023-12-05 22:34:54 公開日:2023-12-04
# グラフ注意ネットワークによる動きからの学習

Learning Structure-from-Motion with Graph Attention Networks ( http://arxiv.org/abs/2308.15984v2 )

ライセンス: Link先を確認
Lucas Brynte and Jos\'e Pedro Iglesias and Carl Olsson and Fredrik Kahl(参考訳) 本稿では,グラフアテンションネットワークを用いてSfM(Structure-from-Motion)を学習する問題に取り組む。 sfmは古典的なコンピュータビジョンの問題であり、良い初期化から始まったバンドル調整(ba)と呼ばれる再プロジェクションエラーの反復的最小化によって解決される。 BAに対する十分な初期化を得るためには、従来の手法は、BAを用いて洗練できる初期解を提供する一連のサブプロブレム(ペアのポーズ推定、ポーズ平均化、三角形化など)に依存している。 本研究では,複数のビューで検出された2次元キーポイントを入力として学習し,対応するカメラポーズと3次元キーポイント座標を出力する。 本モデルでは、グラフニューラルネットワークを利用してsfm特有のプリミティブを学習し、新たな未知のシーケンスの復元を高速に行うことができることを示す。 実験の結果,提案モデルが競合する学習ベース手法よりも優れており,実行時間の低いcolmapに挑戦することが示された。

In this paper we tackle the problem of learning Structure-from-Motion (SfM) through the use of graph attention networks. SfM is a classic computer vision problem that is solved though iterative minimization of reprojection errors, referred to as Bundle Adjustment (BA), starting from a good initialization. In order to obtain a good enough initialization to BA, conventional methods rely on a sequence of sub-problems (such as pairwise pose estimation, pose averaging or triangulation) which provides an initial solution that can then be refined using BA. In this work we replace these sub-problems by learning a model that takes as input the 2D keypoints detected across multiple views, and outputs the corresponding camera poses and 3D keypoint coordinates. Our model takes advantage of graph neural networks to learn SfM-specific primitives, and we show that it can be used for fast inference of the reconstruction for new and unseen sequences. The experimental results show that the proposed model outperforms competing learning-based methods, and challenges COLMAP while having lower runtime.
翻訳日:2023-12-05 22:33:30 公開日:2023-12-04
# プログラム・オブ・思考は推論のためにいつ働くのか?

When Do Program-of-Thoughts Work for Reasoning? ( http://arxiv.org/abs/2308.15452v5 )

ライセンス: Link先を確認
Zhen Bi, Ningyu Zhang, Yinuo Jiang, Shumin Deng, Guozhou Zheng, Huajun Chen(参考訳) 具体化された人工知能の領域では、大規模言語モデル(llm)の推論能力が重要な役割を果たす。 複雑な推論タスクに対処するためにプログラミング言語を使用するLLMのプログラム・オブ・シンクレット・プロンプトのような効果的な方法があるが、コードデータの推論能力改善に対する影響は未定のままである。 このギャップに対処するために、構造的属性と論理的属性を組み合わせた複雑性影響推論スコア(CIRS)を提案し、コードと推論能力の相関を測定する。 具体的には、抽象構文木を用いて構造情報をエンコードし、難易度と循環的複雑度を考慮して論理複雑性を計算する。 経験的分析により、複雑さのコードデータがLLMによって学習または理解されるわけではないことがわかった。 プログラム支援プロンプトによる推論能力の向上には最適な複雑性レベルが不可欠である。 次に,自動合成・階層化アルゴリズムを設計し,数学的推論のための命令生成とコード生成タスクのためのコードデータフィルタリングに適用する。 その結果,提案手法の有効性が示された。 コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。

In the realm of embodied artificial intelligence, the reasoning capabilities of Large Language Models (LLMs) play a pivotal role. Although there are effective methods like program-of-thought prompting for LLMs which uses programming language to tackle complex reasoning tasks, the specific impact of code data on the improvement of reasoning capabilities remains under-explored. To address this gap, we propose complexity-impacted reasoning score (CIRS), which combines structural and logical attributes, to measure the correlation between code and reasoning abilities. Specifically, we use the abstract syntax tree to encode the structural information and calculate logical complexity by considering the difficulty and the cyclomatic complexity. Through an empirical analysis, we find not all code data of complexity can be learned or understood by LLMs. Optimal level of complexity is critical to the improvement of reasoning abilities by program-aided prompting. Then we design an auto-synthesizing and stratifying algorithm, and apply it to instruction generation for mathematical reasoning and code data filtering for code generation tasks. Extensive results demonstrates the effectiveness of our proposed approach. Code will be integrated into the EasyInstruct framework at https://github.com/zjunlp/EasyInstruct.
翻訳日:2023-12-05 22:33:11 公開日:2023-12-04
# ダイナミックスパーストレーニングによる連続学習:効果的なモデル更新のための探索アルゴリズム

Continual Learning with Dynamic Sparse Training: Exploring Algorithms for Effective Model Updates ( http://arxiv.org/abs/2308.14831v2 )

ライセンス: Link先を確認
Murat Onur Yildirim, Elif Ceren Gok Yildirim, Ghada Sokar, Decebal Constantin Mocanu, Joaquin Vanschoren(参考訳) 連続学習(continual learning, cl)とは、インテリジェントなシステムが、計算オーバーヘッドの少ないデータストリームから知識をシーケンシャルに取得し、保持する能力を指す。 この目的のために、正規化、リプレイ、アーキテクチャ、パラメータ分離アプローチが文献に紹介された。 スパースネットワークを使用してパラメータを分離することで、ニューラルネットワークの異なる部分を異なるタスクに割り当てると同時に、類似点がある場合のタスク間のパラメータの共有も可能になる。 ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、これらのスパースネットワークを見つけ、タスクごとに分離する方法である。 本論文は,CLパラダイムの下で異なるDST成分が重要な研究ギャップを埋める上で,CLに対するDSTの最適構成に光が及ぼす影響について,最初の実証的研究である。 そこで,我々はマスク選択のプロセスではなく,様々なdst基準の性能評価を主な目的とし,タスクインクリメンタルなcl設定において,cifar100やminiimagenetベンチマークにおいてタスク毎の最適なトポロジーを求めるため,様々なdstコンポーネントを調査した。 低空間レベルでは、Erdos-R\enyi Kernel(ERK)初期化は、バックボーンをより効率的に利用し、タスクの増分を効果的に学習できるようにする。 高疎度レベルでは、極端にない限り、均一な初期化はより信頼性が高く堅牢な性能を示す。 成長戦略の観点では、パフォーマンスは定義された初期化戦略と空間範囲に依存する。 最後に、DSTコンポーネント内の適応性は、継続的な学習者にとって有望な方法である。

Continual learning (CL) refers to the ability of an intelligent system to sequentially acquire and retain knowledge from a stream of data with as little computational overhead as possible. To this end; regularization, replay, architecture, and parameter isolation approaches were introduced to the literature. Parameter isolation using a sparse network which enables to allocate distinct parts of the neural network to different tasks and also allows to share of parameters between tasks if they are similar. Dynamic Sparse Training (DST) is a prominent way to find these sparse networks and isolate them for each task. This paper is the first empirical study investigating the effect of different DST components under the CL paradigm to fill a critical research gap and shed light on the optimal configuration of DST for CL if it exists. Therefore, we perform a comprehensive study in which we investigate various DST components to find the best topology per task on well-known CIFAR100 and miniImageNet benchmarks in a task-incremental CL setup since our primary focus is to evaluate the performance of various DST criteria, rather than the process of mask selection. We found that, at a low sparsity level, Erdos-R\'enyi Kernel (ERK) initialization utilizes the backbone more efficiently and allows to effectively learn increments of tasks. At a high sparsity level, unless it is extreme, uniform initialization demonstrates a more reliable and robust performance. In terms of growth strategy; performance is dependent on the defined initialization strategy and the extent of sparsity. Finally, adaptivity within DST components is a promising way for better continual learners.
翻訳日:2023-12-05 22:32:50 公開日:2023-12-04
# 絡み合いに基づく離散・連続可変量子鍵分布のチャネル雑音に対するロバスト性

Robustness of entanglement-based discrete- and continuous-variable quantum key distribution against channel noise ( http://arxiv.org/abs/2308.07007v2 )

ライセンス: Link先を確認
Mikolaj Lasota, Olena Kovalenko, Vladyslav C. Usenko(参考訳) 離散可変(DV)および連続可変(CV)スキームは量子鍵分布(QKD)プロトコルの2つの主要なファミリーを構成する。 残念なことに、これらのスキームで要求される設定要素はかなり異なり、特定のアプリケーションにおける潜在的な性能を公平に比較することは、しばしば厄介であり、実験者が最適なソリューションを選択する能力を制限する。 本研究は, チャネルノイズに対する耐性の観点から, DV と CV QKD プロトコルの一般比較を行い, DV ファミリーの明確な優位性を示す。 CVQKDプロトコルにおける許容チャネルノイズと減衰の基本的境界を解析的に導出する。 また, dv qkd 設定の不完全性が得られた結果に与える影響について検討し, 現実光子源と検出器のパラメータのベンチマークを決定することにより, 理想的 cv qkd アナログよりも現実的な dv プロトコルが優れていることを示す。 以上の結果から,DVエンタングルメント方式の現実的な優位性を示すとともに,この優位性を最大化するための実践的取り組みが示唆された。

Discrete-variable (DV) and continuous-variable (CV) schemes constitute the two major families of quantum key distribution (QKD) protocols. Unfortunately, since the setup elements required by these schemes are quite different, making a fair comparison of their potential performance in particular applications is often troublesome, limiting the experimenters' capability to choose an optimal solution. In this work we perform a general comparison of the major entanglement-based DV and CV QKD protocols in terms of their resistance to the channel noise, with the otherwise perfect setup, showing the definite superiority of the DV family. We analytically derive fundamental bounds on the tolerable channel noise and attenuation for entanglement-based CV QKD protocols. We also investigate the influence of DV QKD setup imperfections on the obtained results in order to determine benchmarks for the parameters of realistic photon sources and detectors, allowing the realistic DV protocols to outperform even the ideal CV QKD analogs. Our results indicate the realistic advantage of DV entanglement-based schemes over their CV counterparts and suggests the practical efforts for maximizing this advantage.
翻訳日:2023-12-05 22:30:23 公開日:2023-12-04
# 高品位等方性量の指導による厚スライス胎児脳mrスキャンの組織分割

Tissue Segmentation of Thick-Slice Fetal Brain MR Scans with Guidance from High-Quality Isotropic Volumes ( http://arxiv.org/abs/2308.06762v2 )

ライセンス: Link先を確認
Shijie Huang, Xukun Zhang, Zhiming Cui, He Zhang, Geng Chen, Dinggang Shen(参考訳) 厚スライス脳磁気共鳴(MR)スキャンの正確な組織分割は、等方性脳MRIボリュームの再構築と胎児脳の発生の定量化の両方に不可欠である。 しかし、この課題は、臨床的に獲得した胎児脳データに厚いスライススキャンを使用することによって困難である。 この問題に対処するため,我々は,高品位等方性胎児脳mrボリューム(およびそれに対応するアノテーション)を,厚いスライススキャンのセグメンテーションのためのガイダンスとして利用する。 高品質等方性ボリューム(すなわちソースデータ)と厚いスライススキャン(すなわちターゲットデータ)との間に大きな領域ギャップが存在するため、関連する知識伝達を達成するためにドメイン適応技術(高品質<ソース>ボリュームから厚いスライス<ターゲット>スキャン)を用いる。 具体的には, 生後数週間にまたがる高品位等方性胎児脳mrボリュームを登録し, 縦断的に完全なソースデータを構築した。 ドメイン不変情報をキャプチャするために、フーリエ分解を行い、画像の内容とスタイルコードを抽出する。 最後に,高品位等方性体積から得られた知識を効率的に伝達し,厚いスライススキャンの組織分割を精度良く行う新しいサイクル一貫性ドメイン適応ネットワーク(c2da-net)を提案する。 我々のC2DA-Netは、注釈のない厚いスライススキャンで組織分画をガイドするために、注釈付き等方性ボリュームの小さなセットを十分に利用できる。 C2DA-Net は, 372 個の臨床的に取得した高密度MR スキャンの大規模データセットに対する大規模な実験により, 最先端法よりも定量的に, 定性的に, はるかに優れた性能を示した。

Accurate tissue segmentation of thick-slice fetal brain magnetic resonance (MR) scans is crucial for both reconstruction of isotropic brain MR volumes and the quantification of fetal brain development. However, this task is challenging due to the use of thick-slice scans in clinically-acquired fetal brain data. To address this issue, we propose to leverage high-quality isotropic fetal brain MR volumes (and also their corresponding annotations) as guidance for segmentation of thick-slice scans. Due to existence of significant domain gap between high-quality isotropic volume (i.e., source data) and thick-slice scans (i.e., target data), we employ a domain adaptation technique to achieve the associated knowledge transfer (from high-quality <source> volumes to thick-slice <target> scans). Specifically, we first register the available high-quality isotropic fetal brain MR volumes across different gestational weeks to construct longitudinally-complete source data. To capture domain-invariant information, we then perform Fourier decomposition to extract image content and style codes. Finally, we propose a novel Cycle-Consistent Domain Adaptation Network (C2DA-Net) to efficiently transfer the knowledge learned from high-quality isotropic volumes for accurate tissue segmentation of thick-slice scans. Our C2DA-Net can fully utilize a small set of annotated isotropic volumes to guide tissue segmentation on unannotated thick-slice scans. Extensive experiments on a large-scale dataset of 372 clinically acquired thick-slice MR scans demonstrate that our C2DA-Net achieves much better performance than cutting-edge methods quantitatively and qualitatively.
翻訳日:2023-12-05 22:30:00 公開日:2023-12-04
# 時間依存性縦方向場存在下におけるシェリントン・カークパトリックスピングラスの量子アニール

Quantum Annealing in Sherrington-Kirkpatrick Spin Glass in Presence of Time-Dependent Longitudinal Field ( http://arxiv.org/abs/2309.11822v3 )

ライセンス: Link先を確認
Atanu Rajak and Bikas K Chakrabarti(参考訳) 量子アニール技術を用いた最近の量子技術の発展と、シェリントン・カークパトリック(SK)スピンガラスモデルの静的特性に関する最近の研究により、スピンガラスモデルの量子アニールを横方向および縦方向の両方のフィールドをチューニングすることによって研究した。 両場が時間依存となり、同時に消滅するときに、ハミルトニアン全体の時間依存schr\"odinger方程式を数値的に解く。 我々は、古典的なスピングラスの2つの退化基底状態のうちの1つで系を見つける確率の時間進化を計算した。 アニーリングの終わりには、構成平均確率を用いて、量子アニーリングのプロセスを通して一定に保つのではなく、縦方向のフィールドがアニーリングされるという明確な利点を示しました。 さらに,小長手場の存在下でのskスピンガラスの次数定数分布についても検討し,システムサイズが小さい場合には,古典的アルメイダ・トゥーレス相境界の消失による量子トンネル効果の証拠を見いだし,レプリカ対称性の破れ(正弦)とレプリカ対称(エルゴード)スピンガラス相(既に2022$で報告されている)を分離した。 この長手場が量子skモデルのエルゴディキシーを、観測された量子アニーリングの強化に寄与させると信じている(2014$でより小さな系について報告されている)。

Motivated by the recent development of quantum technology using quantum annealing technique and the recent works on the static properties of the Sherrington-Kirkpatrick (SK) spin glass model, we study quantum annealing of the spin glass model by tuning both transverse and longitudinal fields. We numerically solve the time-dependent Schr\"odinger equation of the total Hamiltonian when both the fields are made time-dependent and eventually vanish at the same time. We have computed the time-evolution of the probability of finding the system in one of two degenerate ground states of the classical spin glass. At the end of annealing, using the configuration averaged probability, we have shown a clear advantage while the longitudinal field is annealed rather than keeping it constant throughout the process of quantum annealing. We further investigate the order parameter distribution of a quantum SK spin glass in presence of a small longitudinal field and find, from our exact diaginalization results for small system sizes, evidence for quantum tunneling induced disappearance of the classical Almeida-Thouless phase boundary separating the replica symmetry broken (nonergodic) and replica symmetric (ergodic) spin glass phase (reported already in $2022$). We believe that this longitudinal field induced ergodicity in quantum SK model to be responsible for the observed enhancement of quantum annealing (reported earlier for smaller systems by us in $2014$).
翻訳日:2023-12-05 22:23:04 公開日:2023-12-04
# ChatGPTは、プログラミングにおける計算生物学者に役立つだろうか?

How much can ChatGPT really help Computational Biologists in Programming? ( http://arxiv.org/abs/2309.09126v2 )

ライセンス: Link先を確認
Chowdhury Rafeed Rahman, Limsoon Wong(参考訳) OpenAIが最近開発したChatGPTは、多目的自然言語ベースのチャットボットとして成功を収めている。 本稿では,計算生物学の分野におけるその可能性を分析することに興味がある。 最近の計算生物学者による研究の大部分は、バイオインフォマティクスアルゴリズムのコーディング、データ分析、パイプラインスクリプトの作成、さらには機械学習モデリングや特徴抽出などだ。 本稿では,ChatGPTの有意な影響(肯定的および否定的)を,異なる視点から説明的な例を用いて論じる。 コンピュータ科学の他の分野と比較すると、計算生物学は、(1)コーディング資源の削減、(2)感度とバイアスの問題(医療データの問題)、(3)コーディング支援の必要性の増大(多様なバックグラウンドを持つ人々がこの分野に来る)である。 このような問題を念頭に置いて,本論文では,chatgptを用いたコード記述,レビュー,デバッグ,変換,リファクタリング,パイプライン化といったユースケースについて,計算生物学者の視点から紹介する。

ChatGPT, a recently developed product by openAI, is successfully leaving its mark as a multi-purpose natural language based chatbot. In this paper, we are more interested in analyzing its potential in the field of computational biology. A major share of work done by computational biologists these days involve coding up bioinformatics algorithms, analyzing data, creating pipelining scripts and even machine learning modeling and feature extraction. This paper focuses on the potential influence (both positive and negative) of ChatGPT in the mentioned aspects with illustrative examples from different perspectives. Compared to other fields of computer science, computational biology has - (1) less coding resources, (2) more sensitivity and bias issues (deals with medical data) and (3) more necessity of coding assistance (people from diverse background come to this field). Keeping such issues in mind, we cover use cases such as code writing, reviewing, debugging, converting, refactoring and pipelining using ChatGPT from the perspective of computational biologists in this paper.
翻訳日:2023-12-05 22:22:35 公開日:2023-12-04
# 最適制御理論を用いた量子ゲートの制御雑音低減

Mitigating controller noise in quantum gates using optimal control theory ( http://arxiv.org/abs/2309.07659v2 )

ライセンス: Link先を確認
Aviv Aroch, Ronnie Kosloff and Shimshon Kallush(参考訳) すべての量子系は環境や外部からの制御からノイズを受ける。 このノイズは量子技術の実現にとって大きな障害である。 例えば、ノイズは量子ゲートの忠実性を制限する。 最適制御理論を用いて、量子単一および2量子ビットゲートの生成を研究する。 具体的には、位相および振幅雑音のマルコフモデルについて検討し、ゲートの忠実度を劣化させる。 このようなノイズモデルによる最適制御は,ゲート忠実度損失を軽減する制御解を生成する。 この問題は、非常に正確な数値解法と最適制御方程式を解くクロトフアルゴリズムを用いて、リウヴィル空間で定式化されている。

All quantum systems are subject to noise from the environment or external controls. This noise is a major obstacle to the realization of quantum technology. For example, noise limits the fidelity of quantum gates. Employing optimal control theory, we study the generation of quantum single and two-qubit gates. Specifically, we explore a Markovian model of phase and amplitude noise, leading to the degradation of the gate fidelity. We show that optimal control with such noise models generates control solutions to mitigate the loss of gate fidelity. The problem is formulated in Liouville space employing an extremely accurate numerical solver and the Krotov algorithm for solving the optimal control equations.
翻訳日:2023-12-05 22:21:41 公開日:2023-12-04
# ChemSpaceal:タンパク質特異的分子生成に適用した効率的な能動的学習手法

ChemSpaceAL: An Efficient Active Learning Methodology Applied to Protein-Specific Molecular Generation ( http://arxiv.org/abs/2309.05853v2 )

ライセンス: Link先を確認
Gregory W. Kyro, Anton Morgunov, Rafael I. Brent, Victor S. Batista(参考訳) 生成する人工知能モデルの驚くべき能力は、必然的に薬物発見の分野への応用に繋がった。 この領域内では、化学空間の広さは、望ましい特性を示す分子を持つ領域を同定するより効率的な方法の開発を動機付けている。 本研究では,生成したデータのサブセットのみを構築サンプル空間で評価し,特定目的に対して生成モデルに適合させる計算効率の高いアクティブラーニング手法を提案する。 FDAが承認した小分子インヒビターc-Ablキナーゼを用いたタンパク質に対するGPT分子ジェネレータの微調整による標的分子生成への本手法の適用性を実証した。 興味深いことに、このモデルは、その存在を事前に知ることなく、インヒビターに似た分子を生成することを学び、2つを正確に再現する。 また, CRISPR関連蛋白9(Cas9)酵素のHNHドメインである小分子インヒビターを市販しないタンパク質に対して有効であることを示した。 この方法の本質的な一般性は、シリカ分子生成のエキサイティングな分野が進化するにつれて適用され続けると信じている。 実装と再現性を容易にするため、私たちはChemSpaceAL Pythonパッケージを通じてすべてのソフトウェアを利用可能にしました。

The incredible capabilities of generative artificial intelligence models have inevitably led to their application in the domain of drug discovery. Within this domain, the vastness of chemical space motivates the development of more efficient methods for identifying regions with molecules that exhibit desired characteristics. In this work, we present a computationally efficient active learning methodology that requires evaluation of only a subset of the generated data in the constructed sample space to successfully align a generative model with respect to a specified objective. We demonstrate the applicability of this methodology to targeted molecular generation by fine-tuning a GPT-based molecular generator toward a protein with FDA-approved small-molecule inhibitors, c-Abl kinase. Remarkably, the model learns to generate molecules similar to the inhibitors without prior knowledge of their existence, and even reproduces two of them exactly. We also show that the methodology is effective for a protein without any commercially available small-molecule inhibitors, the HNH domain of the CRISPR-associated protein 9 (Cas9) enzyme. We believe that the inherent generality of this method ensures that it will remain applicable as the exciting field of in silico molecular generation evolves. To facilitate implementation and reproducibility, we have made all of our software available through the open-source ChemSpaceAL Python package.
翻訳日:2023-12-05 22:20:24 公開日:2023-12-04
# 原子干渉法による垂直暗黒物質検出器の最適ベースライン利用

Optimal baseline exploitation in vertical dark-matter detectors based on atom interferometry ( http://arxiv.org/abs/2309.04207v2 )

ライセンス: Link先を確認
Fabio Di Pumpo, Alexander Friedrich, Enno Giese(参考訳) 長距離原子干渉計に基づく重力波やダークマターの地球外検出器は、現在、最終計画段階か既に建設中である。 これらの垂直センサーは本質的に重力の影響を受けるため、大きな運動量移動のために単光子遷移を用いるグラディメータやマルチグラディメータの構成が特徴である。 これらの実験を有害なノイズ源に対して最適化したり、彼らのプロジェクテッドサイトへのデプロイには大きな進展がありますが、利用可能なリソースを最大限に活用するための最適な構成を見つけることは、まだ未解決の問題です。 さらには、デバイスの感度の基本的な限界がまだ欠落している。 ここでこのギャップを埋めてみましょう (a)マルチダイアモンド噴水放射計に基づく共鳴モード検出器は、その高さが利用可能なベースラインの20%を構成する場合に最適なショットノイズ制限を実現できる。 (b)この限界はダークマッター発振周波数とは無関係である。 (c)基準線を2倍にすると、最終的な測定の不確かさが約65%減少する。 さらに,先行する重力位相寄与が抑制されるミラーパルスの少ないマルチダイアモンドスキームを提案し,確立されたジオメトリと比較し,両配置が同じ基本限界を飽和させることを示す。

Several terrestrial detectors for gravitational waves and dark matter based on long-baseline atom interferometry are currently in the final planning stages or already under construction. These upcoming vertical sensors are inherently subject to gravity and thus feature gradiometer or multi-gradiometer configurations using single-photon transitions for large momentum transfer. While there has been significant progress on optimizing these experiments against detrimental noise sources and for deployment at their projected sites, finding optimal configurations that make the best use of the available resources are still an open issue. Even more, the fundamental limit of the device's sensitivity is still missing. Here we fill this gap and show that (a) resonant-mode detectors based on multi-diamond fountain gradiometers achieve the optimal, shot-noise limited, sensitivity if their height constitutes 20% of the available baseline; (b) this limit is independent of the dark-matter oscillation frequency; and (c) doubling the baseline decreases the ultimate measurement uncertainty by approximately 65%. Moreover, we propose a multi-diamond scheme with less mirror pulses where the leading-order gravitational phase contribution is suppressed, compare it to established geometries, and demonstrate that both configurations saturate the same fundamental limit.
翻訳日:2023-12-05 22:19:00 公開日:2023-12-04
# 準円、回転、不要な二元ブラックホール融合の高次重力波モードの信号検出のためのAIアンサンブル

AI ensemble for signal detection of higher order gravitational wave modes of quasi-circular, spinning, non-precessing binary black hole mergers ( http://arxiv.org/abs/2310.00052v2 )

ライセンス: Link先を確認
Minyang Tian, E. A. Huerta, Huihuo Zheng(参考訳) 本稿では,2つのligo検出器とadvanced virgo検出器からのデータを同時処理する時空間グラフモデルを提案する。 これらのai分類器を、準円周、スピン、非予備の2値ブラックホール融合を記述する2.4m imrphenomxphm波形と成分質量の$m_{\{1,2\}}\in[3m_\odot, 50m_\odot]$と個別スピンの$s^z_{\{1,2\}}\in[-0.9, 0.9]$で訓練し、$(\ell, |m|) = \{(2, 2), (2, 1), (3, 3), (3, 2), (4, 4)\}$モードと$\ell = 3, |m| = 2$高調波のモード混合効果を含むように訓練した。 Summitスーパーコンピュータで96個のNVIDIA V100 GPUを分散トレーニングして、これらのAI分類器を22時間以内にトレーニングしました。 次に、トランスファーラーニングを使用して、アンサンブル内のすべてのAI分類器によって特定される潜在的な二元ブラックホールの総質量を推定するAI予測器を作成しました。 我々はこのアンサンブルと信号検出のための3つの分類器と2つの総質量予測器を使用して、30万の信号を注入する1年間の試験セットを処理した。 この1年にわたるテストセットは、Polarisスーパーコンピュータ(AI推論用)の1024 NVIDIA A100 GPUと、ThetaKNLスーパーコンピュータ(ノイズトリガーの処理後処理用)の128のCPUノードを使用して、5.19分以内に処理された。 これらの研究は、我々のAIアンサンブルが最先端の信号検出精度を提供し、検索データの年間2つの誤分類を報告していることを示している。 これは、高次の重力波モード信号を探し、見つけるために設計された最初のAIアンサンブルである。

We introduce spatiotemporal-graph models that concurrently process data from the twin advanced LIGO detectors and the advanced Virgo detector. We trained these AI classifiers with 2.4 million IMRPhenomXPHM waveforms that describe quasi-circular, spinning, non-precessing binary black hole mergers with component masses $m_{\{1,2\}}\in[3M_\odot, 50 M_\odot]$, and individual spins $s^z_{\{1,2\}}\in[-0.9, 0.9]$; and which include the $(\ell, |m|) = \{(2, 2), (2, 1), (3, 3), (3, 2), (4, 4)\}$ modes, and mode mixing effects in the $\ell = 3, |m| = 2$ harmonics. We trained these AI classifiers within 22 hours using distributed training over 96 NVIDIA V100 GPUs in the Summit supercomputer. We then used transfer learning to create AI predictors that estimate the total mass of potential binary black holes identified by all AI classifiers in the ensemble. We used this ensemble, 3 classifiers for signal detection and 2 total mass predictors, to process a year-long test set in which we injected 300,000 signals. This year-long test set was processed within 5.19 minutes using 1024 NVIDIA A100 GPUs in the Polaris supercomputer (for AI inference) and 128 CPU nodes in the ThetaKNL supercomputer (for post-processing of noise triggers), housed at the Argonne Leadership Computing Facility. These studies indicate that our AI ensemble provides state-of-the-art signal detection accuracy, and reports 2 misclassifications for every year of searched data. This is the first AI ensemble designed to search for and find higher order gravitational wave mode signals.
翻訳日:2023-12-05 22:12:04 公開日:2023-12-04
# 移動非局所探索による時空注意

Space-Time Attention with Shifted Non-Local Search ( http://arxiv.org/abs/2309.16849v2 )

ライセンス: Link先を確認
Kent Gauen and Stanley Chan(参考訳) ビデオのアテンションマップの効率的な計算は、フレーム間の物体の動きによって困難である。 標準の非ローカル検索は、各クエリポイントを囲むウィンドウでは高品質であるが、ウィンドウの小さなサイズは動きを許容できない。 長距離動作の手法は、各クエリ位置からオフセットとして最もよく似たキー座標を予測する補助ネットワークを使用する。 しかし、大規模ネットワークにおいても、オフセットのフローフィールドを正確に予測することは困難である。 小さい空間的不正確さはアテンションモジュールの品質に大きく影響する。 本稿では,非局所探索の品質と予測オフセットの範囲を組み合わせた探索戦略を提案する。 この手法はShifted Non-Local Searchと呼ばれ、予測オフセットを囲む小さなグリッドサーチを実行し、小さな空間誤差を補正する。 本手法のインプレース計算では,メモリ消費が10倍少なく,従来よりも3倍以上高速である。 実験では, 空間誤差の補正により, 3dBPSNR以上の映像フレームアライメントの品質が向上する。 我々の検索では、既存の時空アテンションモジュールをアップグレードし、ビデオのデノベーション結果を0.30dBPSNRで改善し、全体の実行時間が7.5%増加した。 時空アテンションモジュールをUNetのようなアーキテクチャに統合し,映像デノーミングにおける最先端の成果を実現する。

Efficiently computing attention maps for videos is challenging due to the motion of objects between frames. While a standard non-local search is high-quality for a window surrounding each query point, the window's small size cannot accommodate motion. Methods for long-range motion use an auxiliary network to predict the most similar key coordinates as offsets from each query location. However, accurately predicting this flow field of offsets remains challenging, even for large-scale networks. Small spatial inaccuracies significantly impact the attention module's quality. This paper proposes a search strategy that combines the quality of a non-local search with the range of predicted offsets. The method, named Shifted Non-Local Search, executes a small grid search surrounding the predicted offsets to correct small spatial errors. Our method's in-place computation consumes 10 times less memory and is over 3 times faster than previous work. Experimentally, correcting the small spatial errors improves the video frame alignment quality by over 3 dB PSNR. Our search upgrades existing space-time attention modules, which improves video denoising results by 0.30 dB PSNR for a 7.5% increase in overall runtime. We integrate our space-time attention module into a UNet-like architecture to achieve state-of-the-art results on video denoising.
翻訳日:2023-12-05 22:11:17 公開日:2023-12-04
# 監視映像・言語理解に向けて:新しいデータセット,ベースライン,課題

Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and Challenges ( http://arxiv.org/abs/2309.13925v2 )

ライセンス: Link先を確認
Tongtong Yuan, Xuange Zhang, Kun Liu, Bo Liu, Chen Chen, Jian Jin, Zhenzhen Jiao(参考訳) 監視ビデオは日常生活の重要な要素であり、特に公共の安全において様々な重要な応用がなされている。 しかしながら、現在の監視ビデオタスクは、主に異常事象の分類とローカライズに焦点を当てている。 既存の手法は、十分な性能を得たにもかかわらず、不満足な意味理解を伴う事前定義されたイベントの検出と分類に限られている。 この問題に対処するために,監視映像と言語理解の新しい研究方向を提案し,最初のマルチモーダル監視映像データセットを構築する。 実世界の監視データセットであるUCF-Crimeに,詳細なイベント内容とタイミングを手作業でアノテートする。 新しい注釈付きデータセットUCA(UCF-Crime Annotation)は23,542文を含み、平均20語であり、その注釈付きビデオは110.7時間である。 さらに、新たに作成されたデータセットに基づいて、4つのマルチモーダルタスクのためのSOTAモデルをベンチマークする。 実験の結果,従来公開されていたデータセットで使用されていた主流モデルでは,監視ビデオではパフォーマンスが悪く,監視ビデオと言語理解における新たな課題が示された。 UCAの有効性を検証するため,マルチモーダル異常検出実験を行った。 その結果,マルチモーダル監視学習は,従来の異常検出タスクの性能を向上させることができた。 すべての実験は、監視AIを前進させるためにこのデータセットを構築する必要性を強調している。 データセットへのリンクは以下の通りである。

Surveillance videos are an essential component of daily life with various critical applications, particularly in public security. However, current surveillance video tasks mainly focus on classifying and localizing anomalous events. Existing methods are limited to detecting and classifying the predefined events with unsatisfactory semantic understanding, although they have obtained considerable performance. To address this issue, we propose a new research direction of surveillance video-and-language understanding, and construct the first multimodal surveillance video dataset. We manually annotate the real-world surveillance dataset UCF-Crime with fine-grained event content and timing. Our newly annotated dataset, UCA (UCF-Crime Annotation), contains 23,542 sentences, with an average length of 20 words, and its annotated videos are as long as 110.7 hours. Furthermore, we benchmark SOTA models for four multimodal tasks on this newly created dataset, which serve as new baselines for surveillance video-and-language understanding. Through our experiments, we find that mainstream models used in previously publicly available datasets perform poorly on surveillance video, which demonstrates the new challenges in surveillance video-and-language understanding. To validate the effectiveness of our UCA, we conducted experiments on multimodal anomaly detection. The results demonstrate that our multimodal surveillance learning can improve the performance of conventional anomaly detection tasks. All the experiments highlight the necessity of constructing this dataset to advance surveillance AI. The link to our dataset is provided at: https://xuange923.github.io/Surveillance-Video-Understanding.
翻訳日:2023-12-05 22:08:40 公開日:2023-12-04
# I-AI:正確なCXR診断のための放射線科医のインセンスフォーカスを復号するための制御可能・解釈可能なAIシステム

I-AI: A Controllable & Interpretable AI System for Decoding Radiologists' Intense Focus for Accurate CXR Diagnoses ( http://arxiv.org/abs/2309.13550v3 )

ライセンス: Link先を確認
Trong Thang Pham, Jacob Brecheisen, Anh Nguyen, Hien Nguyen, Ngan Le(参考訳) 胸部X線診断(CXR)の分野では、既存の研究は、放射線技師がどこに見えるか、通常、検出、セグメンテーション、分類などのタスクによって決定することのみに焦点を当てることが多い。 しかしながら、これらのアプローチはしばしばブラックボックスモデルとして設計され、解釈性に欠ける。 本稿では,cxr診断における放射線科医の集中力をデコードするための新しい統一的な制御可能なパイプラインであるi-aiを提案する。 我々のI-AIは、放射線科医がどこに見えるか、特定の領域にどのくらい焦点を合わせるか、どの所見を診断するか、という3つの重要な疑問に対処しています。 放射線科医の視線の強さを捉えることで、放射線学的な解釈の基礎となる認知過程についての洞察を提供する統一的なソリューションを提供する。 診断処理中に入力画像全体から誤情報を抽出する傾向にあるブラックボックス機械学習モデルに依存する現在の手法とは異なり、無関係な情報を効果的にマスキングすることでこの問題に対処する。 提案するi-aiは視覚言語モデルを利用して解釈過程を正確に制御し,無関係な特徴を排除できる。 I-AIモデルをトレーニングするために、眼球データセットを用いて解剖学的視線情報を抽出し、地上の真理熱マップを生成する。 実験により,本手法の有効性を実証した。 放射線学者の焦点を真似た注意熱マップが十分な情報をエンコードし,CXRの一部のみを用いて正確な分類作業を可能にすることを示す。

In the field of chest X-ray (CXR) diagnosis, existing works often focus solely on determining where a radiologist looks, typically through tasks such as detection, segmentation, or classification. However, these approaches are often designed as black-box models, lacking interpretability. In this paper, we introduce Interpretable Artificial Intelligence (I-AI) a novel and unified controllable interpretable pipeline for decoding the intense focus of radiologists in CXR diagnosis. Our I-AI addresses three key questions: where a radiologist looks, how long they focus on specific areas, and what findings they diagnose. By capturing the intensity of the radiologist's gaze, we provide a unified solution that offers insights into the cognitive process underlying radiological interpretation. Unlike current methods that rely on black-box machine learning models, which can be prone to extracting erroneous information from the entire input image during the diagnosis process, we tackle this issue by effectively masking out irrelevant information. Our proposed I-AI leverages a vision-language model, allowing for precise control over the interpretation process while ensuring the exclusion of irrelevant features. To train our I-AI model, we utilize an eye gaze dataset to extract anatomical gaze information and generate ground truth heatmaps. Through extensive experimentation, we demonstrate the efficacy of our method. We showcase that the attention heatmaps, designed to mimic radiologists' focus, encode sufficient and relevant information, enabling accurate classification tasks using only a portion of CXR.
翻訳日:2023-12-05 22:08:18 公開日:2023-12-04
# UDAにおけるUを作る: 教師なしドメイン適応のための不変一貫性学習

Make the U in UDA Matter: Invariant Consistency Learning for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2309.12742v2 )

ライセンス: Link先を確認
Zhongqi Yue, Hanwang Zhang, Qianru Sun(参考訳) ドメイン適応(da)は常に、対象ドメインに一般化しないドメイン不変特徴(例えば、クラスid)とドメイン固有特徴(例えば、環境)との散発的な相関によって挑戦される。 残念ながら、教師なしのターゲットドメインが加わったとしても、既存の教師なしDA(Unsupervised DA)メソッドはそれに苦しむ。 これは、ソースドメインの監督がターゲットドメインのサンプルを補助データ(例:擬似ラベル付け)としてのみ考慮しているが、ターゲットドメインの固有の分布 -- 重要なデコリレーションの手がかりが隠されている -- は無視されているためである。 2つのドメインに等しい地位を与えることで、UDAにおけるUの実現を提案する。 具体的には、ソースドメイン内のラベルとターゲットドメイン内のクラスタとの同時一致を予測した不変な分類器を学習し、ターゲットドメイン内の急激な相関を除去する。 不変一貫性学習(invariant consistency learning, icon)と呼ぶ。 大規模な実験により、ICON は古典的な UDA ベンチマークである Office-Home と VisDA-2017 で最先端のパフォーマンスを達成し、挑戦的な WILDS 2.0 ベンチマークで従来の手法を上回ります。 コードはhttps://github.com/yue-zhongqi/ICON。

Domain Adaptation (DA) is always challenged by the spurious correlation between domain-invariant features (e.g., class identity) and domain-specific features (e.g., environment) that does not generalize to the target domain. Unfortunately, even enriched with additional unsupervised target domains, existing Unsupervised DA (UDA) methods still suffer from it. This is because the source domain supervision only considers the target domain samples as auxiliary data (e.g., by pseudo-labeling), yet the inherent distribution in the target domain -- where the valuable de-correlation clues hide -- is disregarded. We propose to make the U in UDA matter by giving equal status to the two domains. Specifically, we learn an invariant classifier whose prediction is simultaneously consistent with the labels in the source domain and clusters in the target domain, hence the spurious correlation inconsistent in the target domain is removed. We dub our approach "Invariant CONsistency learning" (ICON). Extensive experiments show that ICON achieves the state-of-the-art performance on the classic UDA benchmarks: Office-Home and VisDA-2017, and outperforms all the conventional methods on the challenging WILDS 2.0 benchmark. Codes are in https://github.com/yue-zhongqi/ICON.
翻訳日:2023-12-05 22:06:56 公開日:2023-12-04
# GPT-4V(ision)は医療応用に有効か? マルチモーダル医療診断のためのgpt-4vのケーススタディ

Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for Multimodal Medical Diagnosis ( http://arxiv.org/abs/2310.09909v3 )

ライセンス: Link先を確認
Chaoyi Wu, Jiayu Lei, Qiaoyu Zheng, Weike Zhao, Weixiong Lin, Xiaoman Zhang, Xiao Zhou, Ziheng Zhao, Ya Zhang, Yanfeng Wang and Weidi Xie(参考訳) 大規模なファンデーションモデルによって主導された人工知能の開発は、最近大きな進歩を目の当たりにしており、一般大衆の関心が高まっている。 本研究では,openaiの最新モデルであるgpt-4v(ision)の性能をマルチモーダル医療診断の分野で評価することを目的とした。 Our evaluation encompasses 17 human body systems, including Central Nervous System, Head and Neck, Cardiac, Chest, Hematology, Hepatobiliary, Gastrointestinal, Urogenital, Gynecology, Obstetrics, Breast, Musculoskeletal, Spine, Vascular, Oncology, Trauma, Pediatrics, with images taken from 8 modalities used in daily clinic routine, e.g., X-ray, Computed Tomography (CT), Magnetic Resonance Imaging (MRI), Positron Emission Tomography (PET), Digital Subtraction Angiography (DSA), Mammography, Ultrasound, and Pathology. 画像診断,解剖学的認識,疾患診断,レポート生成,疾患局所化など,特許歴の有無に関わらず,複数の臨床課題においてgpt-4vの能力を調べる。 以上の結果から,GPT-4Vは医用画像モダリティと解剖学を区別する能力を示したが,疾患の診断や包括的報告の獲得には大きな課題があった。 これらの結果は、大規模なマルチモーダルモデルがコンピュータビジョンと自然言語処理に大きな進歩を遂げた一方で、現実の医療応用や臨床的意思決定を効果的にサポートするには程遠いことを示している。 このレポートで使用されるすべての画像はhttps://github.com/chaoyi-wu/GPT-4V_Medical_Evaluationで見ることができる。

Driven by the large foundation models, the development of artificial intelligence has witnessed tremendous progress lately, leading to a surge of general interest from the public. In this study, we aim to assess the performance of OpenAI's newest model, GPT-4V(ision), specifically in the realm of multimodal medical diagnosis. Our evaluation encompasses 17 human body systems, including Central Nervous System, Head and Neck, Cardiac, Chest, Hematology, Hepatobiliary, Gastrointestinal, Urogenital, Gynecology, Obstetrics, Breast, Musculoskeletal, Spine, Vascular, Oncology, Trauma, Pediatrics, with images taken from 8 modalities used in daily clinic routine, e.g., X-ray, Computed Tomography (CT), Magnetic Resonance Imaging (MRI), Positron Emission Tomography (PET), Digital Subtraction Angiography (DSA), Mammography, Ultrasound, and Pathology. We probe the GPT-4V's ability on multiple clinical tasks with or without patent history provided, including imaging modality and anatomy recognition, disease diagnosis, report generation, disease localisation. Our observation shows that, while GPT-4V demonstrates proficiency in distinguishing between medical image modalities and anatomy, it faces significant challenges in disease diagnosis and generating comprehensive reports. These findings underscore that while large multimodal models have made significant advancements in computer vision and natural language processing, it remains far from being used to effectively support real-world medical applications and clinical decision-making. All images used in this report can be found in https://github.com/chaoyi-wu/GPT-4V_Medical_Evaluation.
翻訳日:2023-12-05 22:01:09 公開日:2023-12-04
# 効率的な多視点サブスペースクラスタリング

Efficient and Effective Deep Multi-view Subspace Clustering ( http://arxiv.org/abs/2310.09718v2 )

ライセンス: Link先を確認
Yuxiu Lin, Hui Liu, Ren Wang, Qiang Guo, and Caiming Zhang(参考訳) 近年のマルチビューサブスペースクラスタリングは、自己表現的相関が完全に連結された(FC)層によってモデル化されるディープネットワークを利用した印象的な結果が得られる。 しかし、まだ2つの制限がある。 i) fc層のパラメータスケールはサンプル数に二乗的であり、大規模データセットにおいてその実現可能性を大幅に低下させる高時間およびメモリコストをもたらす。 二 最小限の十分性及び判別性を同時に満足する統一表現を抽出すること。 そこで我々は,E$^2$MVSC(Efficient and Effective Deep Multi-View Subspace Clustering)と呼ばれる新しいディープフレームワークを提案する。 パラメータ化されたFC層の代わりに、より計算効率のよいサンプル数からネットワークパラメータスケールを分離するRelation-Metric Netを設計する。 提案手法は,ソフトクラスタリング代入類似度制約によって制御される,一貫性,相補性,過剰な情報を各ビューから明示的に分離するマルチタイプオートエンコーダを考案する。 情報ボトルネック理論と最大符号化レート低減原理に従えば、クラスタ内集約とクラスタ間分離性を追求するだけでなく、十分な最小の統一表現を得ることができる。 大規模な実験により、E$^2$MVSCは既存の手法に匹敵する結果をもたらし、様々な種類のマルチビューデータセットで最先端のパフォーマンスを達成することが示された。

Recent multi-view subspace clustering achieves impressive results utilizing deep networks, where the self-expressive correlation is typically modeled by a fully connected (FC) layer. However, they still suffer from two limitations. i) The parameter scale of the FC layer is quadratic to sample numbers, resulting in high time and memory costs that significantly degrade their feasibility in large-scale datasets. ii) It is under-explored to extract a unified representation that simultaneously satisfies minimal sufficiency and discriminability. To this end, we propose a novel deep framework, termed Efficient and Effective deep Multi-View Subspace Clustering (E$^2$MVSC). Instead of a parameterized FC layer, we design a Relation-Metric Net that decouples network parameter scale from sample numbers for greater computational efficiency. Most importantly, the proposed method devises a multi-type auto-encoder to explicitly decouple consistent, complementary, and superfluous information from every view, which is supervised by a soft clustering assignment similarity constraint. Following information bottleneck theory and the maximal coding rate reduction principle, a sufficient yet minimal unified representation can be obtained, as well as pursuing intra-cluster aggregation and inter-cluster separability within it. Extensive experiments show that E$^2$MVSC yields comparable results to existing methods and achieves state-of-the-art performance in various types of multi-view datasets.
翻訳日:2023-12-05 22:00:41 公開日:2023-12-04
# 二次元フェルミオン線における位相的に保護された準拡散輸送

Topologically protected subdiffusive transport in two-dimensional fermionic wires ( http://arxiv.org/abs/2310.08474v2 )

ライセンス: Link先を確認
Junaid Majeed Bhat(参考訳) 1次元フェルミオン線のバンドエッジのコンダクタンスは、n$サイトを持つが、1/n^2)$のサブディファクティブな挙動を持つことが示されている。 N_x\times N_y$長方形格子上のホッピングモデルにより記述された2次元フェルミオンワイヤのこの問題を,H_0$とH_1$で与えられるチェーン内鎖とチェーン間ホッピング行列を用いて検討した。 非平衡グリーン関数形式を用いて粒子輸送の研究を行い、フェルミレベル $\omega$ におけるコンダクタンスの漸近的挙動である $t(\omega)$ は次元のない行列 $a(\omega)=(-\omega+h_0)h_1^{-1}$ のスペクトルによって制御されることを示した。 これにより、弾道的、劣微分的、指数的に崩壊する$t(\omega)$のスペクトルの3つの単純な条件が、$n_x$に対して与えられる。 a(\omega)$ の特定の固有値がコンダクタンスにおける劣微分的寄与を生じさせ、孤立したワイヤのバンドエッジに対応することを示す。 a(\omega)$ が非自明な位相を持つ場合、劣微分的挙動を観察する条件が満たされることを示す。 この場合、ホッピングパラメータがトポロジカルな状態の中で調整されるため、導体の弾道的挙動から発散的挙動への遷移が観察される。 遷移点において、コンダクタンスの異なる挙動は、$A(\omega)$の自明なバルクバンドが部分微分的に寄与するものとして生じる。 n_x$ のコンダクタンスの変動を数値計算し,簡単なモデルを用いて実験を行った。 その結果,遷移点におけるコンダクタンスの異なる拡散挙動(1/n_x^3$)を示す。 この数値結果は理論的な予測とよく一致している。

The conductance at the band edges of one-dimensional fermionic wires, with $N$ sites, has been shown to have subdiffusive $(1/N^2)$ behavior. We investigate this issue in two-dimensional fermionic wires described by a hopping model on an $N_x\times N_y$ rectangular lattice comprised of vertical chains with a Hermitian intra-chain and inter-chain hopping matrices given by $H_0$ and $H_1$, respectively. We study particle transport using the non-equilibrium Green's function formalism, and show that the asymptotic behavior of the conductance, $T(\omega)$, at the Fermi level $\omega$, is controlled by the spectrum of a dimensionless matrix $A(\omega)=(-\omega+H_0)H_1^{-1}$. This gives three simple conditions on the spectrum of $A(\omega)$ for observing ballistic, subdiffusive, and exponentially decaying $T(\omega)$ with respect to $N_x$. We show that certain eigenvalues of $A(\omega)$ give rise to subdiffusive contributions in the conductance, and correspond to the band edges of the isolated wire. We demonstrate that the condition for observing the subdiffusive behavior can be satisfied if $A(\omega)$ has nontrivial topology. In that case, a transition from ballistic behavior to subdiffusive behavior of the conductance is observed as the hopping parameters are tuned within the topological regime. We argue that at the transition point, different behaviors of the conductance can arise as the trivial bulk bands of $A(\omega)$ also contribute subdiffusively. We illustrate our findings in a simple model by numerically computing the variation of the conductance with $N_x$. Our numerical results indicate a different subdiffusive behavior ($1/N_x^3$) of the conductance at the transition point. We find the numerical results in good agreement with the theoretical predictions.
翻訳日:2023-12-05 21:59:48 公開日:2023-12-04
# AutoRepo: マルチモーダルLCMに基づく自動構築レポートのための汎用フレームワーク

AutoRepo: A general framework for multi-modal LLM-based automated construction reporting ( http://arxiv.org/abs/2310.07944v2 )

ライセンス: Link先を確認
Hongxu Pu, Xincong Yang, Jing Li, Runhao Guo, Heng Li(参考訳) 建設プロジェクトの安全性、品質、タイムリーな完成を確保することが重要であり、これらの目標に向けて建設検査が重要な手段となっている。 それにもかかわらず、現在の検査における手動のアプローチは、しばしば非効率性や不十分な情報管理をもたらす。 このような方法は、総体的かつ徹底的な評価を提供するには足りず、結果として規制の監督と潜在的な安全性の危険が増す。 そこで本稿では,建設検査レポートの自動生成のためのautorepoという新しいフレームワークを提案する。 無人車両は効率的に工事検査を行い、現場情報を収集し、マルチモーダル大言語モデル(LLM)を利用して検査報告を自動生成する。 このフレームワークは実世界の建設現場で適用され、検査プロセスを迅速化し、リソース割り当てを大幅に削減し、高品質で規制に準拠した標準準拠の検査レポートを作成する可能性を実証した。 本研究は, より効率的で安全な建設管理パラダイムに向けて, 建設検査の実践を革新させる上で, マルチモーダルな大規模言語モデルの潜在可能性を示すものである。

Ensuring the safety, quality, and timely completion of construction projects is paramount, with construction inspections serving as a vital instrument towards these goals. Nevertheless, the predominantly manual approach of present-day inspections frequently results in inefficiencies and inadequate information management. Such methods often fall short of providing holistic, exhaustive assessments, consequently engendering regulatory oversights and potential safety hazards. To address this issue, this paper presents a novel framework named AutoRepo for automated generation of construction inspection reports. The unmanned vehicles efficiently perform construction inspections and collect scene information, while the multimodal large language models (LLMs) are leveraged to automatically generate the inspection reports. The framework was applied and tested on a real-world construction site, demonstrating its potential to expedite the inspection process, significantly reduce resource allocation, and produce high-quality, regulatory standard-compliant inspection reports. This research thus underscores the immense potential of multimodal large language models in revolutionizing construction inspection practices, signaling a significant leap forward towards a more efficient and safer construction management paradigm.
翻訳日:2023-12-05 21:59:13 公開日:2023-12-04
# スクラッチから遠ざかる - データ駆動プライオリティを必要とするロングシーケンスモデルの比較

Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors ( http://arxiv.org/abs/2310.02980v2 )

ライセンス: Link先を確認
Ido Amos, Jonathan Berant, Ankit Gupta(参考訳) シーケンス間の長距離依存性のモデリングは機械学習の長年の目標であり、長いシーケンスでトランスフォーマーを劇的に上回る状態空間モデルのようなアーキテクチャへと導かれる。 しかし、これらの印象的な経験的利益は、モデルがランダムに初期化され、入力シーケンスからターゲットラベルを予測するために訓練されたベンチマーク(例えば、ロングレンジアリーナ)で大きく実証されてきた。 そこで本研究では,ランダム初期化は,$\textit{only the lower task data}$ を用いて,アーキテクチャ間の差異と標準的デノイジング目的の事前学習を大々的に過大評価し,複数のアーキテクチャにまたがる劇的な向上と,トランスフォーマと状態空間モデル(ssm)の間のギャップを極小にすることを示す。 従来の作業とは対照的に,Long Range ArenaにおけるS4の性能に適合するバニラトランスフォーマーが発見され,PathX-256タスクにおけるSSMの最高の報告結果を20絶対点改善する。 次に, 事前学習により得られたデータ駆動初期化の存在下で, 従来提案されていたSSMのパラメータ化の有用性を分析した。 本研究は,教師付きタスクで異なるアーキテクチャを評価する場合,事前学習によるデータ駆動前処理の導入が信頼性の高い性能推定に不可欠であり,効率的に実施可能であることを示す。

Modeling long-range dependencies across sequences is a longstanding goal in machine learning and has led to architectures, such as state space models, that dramatically outperform Transformers on long sequences. However, these impressive empirical gains have been by and large demonstrated on benchmarks (e.g. Long Range Arena), where models are randomly initialized and trained to predict a target label from an input sequence. In this work, we show that random initialization leads to gross overestimation of the differences between architectures and that pretraining with standard denoising objectives, using $\textit{only the downstream task data}$, leads to dramatic gains across multiple architectures and to very small gaps between Transformers and state space models (SSMs). In stark contrast to prior works, we find vanilla Transformers to match the performance of S4 on Long Range Arena when properly pretrained, and we improve the best reported results of SSMs on the PathX-256 task by 20 absolute points. Subsequently, we analyze the utility of previously-proposed structured parameterizations for SSMs and show they become mostly redundant in the presence of data-driven initialization obtained through pretraining. Our work shows that, when evaluating different architectures on supervised tasks, incorporation of data-driven priors via pretraining is essential for reliable performance estimation, and can be done efficiently.
翻訳日:2023-12-05 21:57:47 公開日:2023-12-04
# 適応型オンライン非確率制御

Adaptive Online Non-stochastic Control ( http://arxiv.org/abs/2310.02261v2 )

ライセンス: Link先を確認
Naram Mhaisen, George Iosifidis(参考訳) 我々は,制御環境の難易度に比例した政策後悔のアルゴリズムを得る目的で,非確率制御(NSC)の問題に取り組む。 すなわち、実際に目撃されたコストに比例した正規化子を使用することで、FTRL(Follow The Regularized Leader)フレームワークを動的システムに調整します。 主な課題は、オンライン決定の効果を結合し、後悔を束縛するための新しいツールを必要とする、状態または同等のメモリの存在下で提案された適応正規化子を使用することである。 NSCとFTRLの統合のための新しい解析手法により、最悪の場合であっても、コストの軌道が勾配が小さい場合に縮小するサブ線形データ適応ポリシーリフレクションバウンドを持つ新しい外乱動作制御器(DAC)を得る。

We tackle the problem of Non-stochastic Control (NSC) with the aim of obtaining algorithms whose policy regret is proportional to the difficulty of the controlled environment. Namely, we tailor the Follow The Regularized Leader (FTRL) framework to dynamical systems by using regularizers that are proportional to the actual witnessed costs. The main challenge arises from using the proposed adaptive regularizers in the presence of a state, or equivalently, a memory, which couples the effect of the online decisions and requires new tools for bounding the regret. Via new analysis techniques for NSC and FTRL integration, we obtain novel disturbance action controllers (DAC) with sub-linear data adaptive policy regret bounds that shrink when the trajectory of costs has small gradients, while staying sub-linear even in the worst case.
翻訳日:2023-12-05 21:57:19 公開日:2023-12-04
# ジョイントトランスを用いたデ・ノボ薬物設計

De Novo Drug Design with Joint Transformers ( http://arxiv.org/abs/2310.02066v3 )

ライセンス: Link先を確認
Adam Izdebski and Ewelina Weglarz-Tomczak and Ewa Szczurek and Jakub M. Tomczak(参考訳) de novo drug designでは、トレーニングデータ以外の新しい分子を同時生成し、そのターゲット特性を予測する必要があるため、生成モデルでは難しい作業となる。 そこで本研究では,共同生成モデルにおけるトランスフォーマーデコーダ,トランスフォーマーエンコーダ,および予測器を組み合わせたジョイントトランスフォーマを提案する。 目的特性を改良した新規分子を生成するためにJoint Transformerを用いた確率的ブラックボックス最適化アルゴリズムを定式化し、デノボ薬物設計において他のSMILESベースの最適化手法より優れる。

De novo drug design requires simultaneously generating novel molecules outside of training data and predicting their target properties, making it a hard task for generative models. To address this, we propose Joint Transformer that combines a Transformer decoder, Transformer encoder, and a predictor in a joint generative model with shared weights. We formulate a probabilistic black-box optimization algorithm that employs Joint Transformer to generate novel molecules with improved target properties and outperforms other SMILES-based optimization methods in de novo drug design.
翻訳日:2023-12-05 21:57:01 公開日:2023-12-04
# タンジェントバンドルの感度に基づくReLUネットワークの最適化依存一般化

Optimization dependent generalization bound for ReLU networks based on sensitivity in the tangent bundle ( http://arxiv.org/abs/2310.17378v2 )

ライセンス: Link先を確認
D\'aniel R\'acz, Mih\'aly Petreczky, Andr\'as Csert\'an, B\'alint Dar\'oczy(参考訳) 近年のディープラーニングの進歩は、ディープニューラルネットワークの一般化能力に非常に有望な結果をもたらしたが、なぜ過度にパラメータ化されたモデルがトレーニングデータに適合しながら一般化できるのかを説明する包括的な理論はいまだに欠けている。 本稿では,初期パラメータベクトルから勾配降下によって得られるネットワークの集合のラデマシェ複雑性を推定することにより,feedforward reluネットワークの一般化誤差にバインドしたpac型を提案する。 鍵となるアイデアは、ネットワークの勾配の感度を最適化軌道に沿って入力データの摂動に制限することである。 得られた境界はネットワークの深さに明示的に依存しない。 MNISTおよびCIFAR-10データセットを用いて実験を行った。

Recent advances in deep learning have given us some very promising results on the generalization ability of deep neural networks, however literature still lacks a comprehensive theory explaining why heavily over-parametrized models are able to generalize well while fitting the training data. In this paper we propose a PAC type bound on the generalization error of feedforward ReLU networks via estimating the Rademacher complexity of the set of networks available from an initial parameter vector via gradient descent. The key idea is to bound the sensitivity of the network's gradient to perturbation of the input data along the optimization trajectory. The obtained bound does not explicitly depend on the depth of the network. Our results are experimentally verified on the MNIST and CIFAR-10 datasets.
翻訳日:2023-12-05 21:49:58 公開日:2023-12-04
# 時空間ネットワークとマルチモデル融合による学生教室の行動検出

Student Classroom Behavior Detection based on Spatio-Temporal Network and Multi-Model Fusion ( http://arxiv.org/abs/2310.16267v3 )

ライセンス: Link先を確認
Fan Yang and Xiaofei Wang(参考訳) 生徒の授業行動を自動的に検出する深層学習手法は,授業成績の分析と授業効果の向上に有望なアプローチである。 しかし、学生の行動に関する一般公開された時空間データセットの欠如や、このようなデータセットを手動でラベル付けするコストの高騰は、この分野の研究者にとって大きな課題となっている。 そこで,本稿では,学生教室シナリオ(scb-st-dataset4)における時空間行動データセットの拡張手法を提案する。 SCB-ST-Dataset4は757265枚の画像と25810個のラベルで構成され、手作り、読み書きの3つの行動に焦点を当てている。 提案手法は,手動ラベリングを必要とせず,時空間の行動データセットを高速に生成できる。 さらに,行動の類似性を検討するために行動類似度指標(bsi)を提案した。 YOLOv5, YOLOv7, YOLOv8, SlowFastアルゴリズムを用いて, 平均精度(マップ)を82.3%まで向上させた。 最後に,様々な視点から学生行動関連データを生成するために,複数のモデルを融合した。 この実験は,さらに本手法の有効性を示す。 そして、SCB-ST-Dataset4は、将来の学生の行動検出研究のための堅牢な基盤を提供し、この分野の進歩に寄与する可能性がある。 SCB-ST-Dataset4 は https://github.com/Whiffe/SCB-dataset でダウンロードできる。

Using deep learning methods to detect students' classroom behavior automatically is a promising approach for analyzing their class performance and improving teaching effectiveness. However, the lack of publicly available spatio-temporal datasets on student behavior, as well as the high cost of manually labeling such datasets, pose significant challenges for researchers in this field. To address this issue, we proposed a method for extending the spatio-temporal behavior dataset in Student Classroom Scenarios (SCB-ST-Dataset4) through image dataset. Our SCB-ST-Dataset4 comprises 757265 images with 25810 labels, focusing on 3 behaviors: hand-raising, reading, writing. Our proposed method can rapidly generate spatio-temporal behavior datasets without requiring extra manual labeling. Furthermore, we proposed a Behavior Similarity Index (BSI) to explore the similarity of behaviors. We evaluated the dataset using the YOLOv5, YOLOv7, YOLOv8, and SlowFast algorithms, achieving a mean average precision (map) of up to 82.3%. Last, we fused multiple models to generate student behavior-related data from various perspectives. The experiment further demonstrates the effectiveness of our method. And SCB-ST-Dataset4 provides a robust foundation for future research in student behavior detection, potentially contributing to advancements in this field. The SCB-ST-Dataset4 is available for download at: https://github.com/Whiffe/SCB-dataset.
翻訳日:2023-12-05 21:49:30 公開日:2023-12-04
# BianQue:ChatGPTによるマルチターンヘルス会話による健康LLMの質問と提案能力のバランス

BianQue: Balancing the Questioning and Suggestion Ability of Health LLMs with Multi-turn Health Conversations Polished by ChatGPT ( http://arxiv.org/abs/2310.15896v2 )

ライセンス: Link先を確認
Yirong Chen, Zhenyu Wang, Xiaofen Xing, huimin zheng, Zhipei Xu, Kai Fang, Junhong Wang, Sihang Li, Jieling Wu, Qi Liu, Xiangmin Xu(参考訳) 大規模言語モデル(llm)は、chatgpt、chatglm、chatdoctor、doctorglmなどのシステムによって例示される、シングルターン会話における一般的な、広範な健康提案を提供することでうまく機能している。 しかし, シングルターン中に提供された限られた情報により, 生成した提案のパーソナライズやターゲティングが不十分になり, ユーザが単独で有用な部分を選択する必要がある。 主にマルチターン質問を行う能力の欠如によって引き起こされる。 現実の医療相談では、医師は通常、患者の状態を徹底的に理解するために一連の反復的な問合せを使用し、その後、効果的でパーソナライズされた提案を提供し、LLMに対する質問の連鎖(CoQ)と定義できる。 llmsのcoqを改善するために,自己構築型健康会話データセットbianquecorpusを微調整したchatglmベースのllmであるbianqueを提案する。 実験の結果,提案するビアンクは,質問と健康提案の双方の能力のバランスをとることができ,活動的健康分野におけるllmの研究と応用を促進する。

Large language models (LLMs) have performed well in providing general and extensive health suggestions in single-turn conversations, exemplified by systems such as ChatGPT, ChatGLM, ChatDoctor, DoctorGLM, and etc. However, the limited information provided by users during single turn results in inadequate personalization and targeting of the generated suggestions, which requires users to independently select the useful part. It is mainly caused by the missing ability to engage in multi-turn questioning. In real-world medical consultations, doctors usually employ a series of iterative inquiries to comprehend the patient's condition thoroughly, enabling them to provide effective and personalized suggestions subsequently, which can be defined as chain of questioning (CoQ) for LLMs. To improve the CoQ of LLMs, we propose BianQue, a ChatGLM-based LLM finetuned with the self-constructed health conversation dataset BianQueCorpus that is consist of multiple turns of questioning and health suggestions polished by ChatGPT. Experimental results demonstrate that the proposed BianQue can simultaneously balance the capabilities of both questioning and health suggestions, which will help promote the research and application of LLMs in the field of proactive health.
翻訳日:2023-12-05 21:49:07 公開日:2023-12-04
# 一般化の鍵となる不変性:ビジュアルナビゲーションにおける表現の役割の検討

Invariance is Key to Generalization: Examining the Role of Representation in Sim-to-Real Transfer for Visual Navigation ( http://arxiv.org/abs/2310.15020v2 )

ライセンス: Link先を確認
Bo Ai, Zhanxin Wu, David Hsu(参考訳) ロボット制御に対するデータ駆動アプローチは急速にペースを上げているが、未認識のタスク領域への一般化は依然として重要な課題である。 一般化の鍵は表現であると主張する。 (i)すべてのタスク関連情報を把握できるほど豊かで (ii) 訓練領域と試験領域の間の超流動変動に不変。 視覚ナビゲーションのための深度情報と意味情報の両方を含むこのような表現を実験的に検討し、室内のシミュレートされたシーンで完全に訓練された制御ポリシーが屋内と屋外の両方の多様な現実世界環境に一般化できることを示す。 さらに,本表現はトレーニング領域とテスト領域の間のa距離を減少させ,その結果,一般化誤差を改善できることを示す。 学習したポリシは継続的に改善され、事前トレーニング中により多様なデータを吸収する基礎モデルが採用されます。

The data-driven approach to robot control has been gathering pace rapidly, yet generalization to unseen task domains remains a critical challenge. We argue that the key to generalization is representations that are (i) rich enough to capture all task-relevant information and (ii) invariant to superfluous variability between the training and the test domains. We experimentally study such a representation -- containing both depth and semantic information -- for visual navigation and show that it enables a control policy trained entirely in simulated indoor scenes to generalize to diverse real-world environments, both indoors and outdoors. Further, we show that our representation reduces the A-distance between the training and test domains, improving the generalization error bound as a result. Our proposed approach is scalable: the learned policy improves continuously, as the foundation models that it exploits absorb more diverse data during pre-training.
翻訳日:2023-12-05 21:48:43 公開日:2023-12-04
# BatteryML:バッテリ劣化による機械学習のためのオープンソースプラットフォーム

BatteryML:An Open-source platform for Machine Learning on Battery Degradation ( http://arxiv.org/abs/2310.14714v3 )

ライセンス: Link先を確認
Han Zhang, Xiaofan Gui, Shun Zheng, Ziheng Lu, Yuqi Li, Jiang Bian(参考訳) バッテリーの劣化は、エネルギーストレージ領域における重要な関心事であり、機械学習が先進的な洞察とソリューションを促進する強力なツールとして台頭している。 しかし、この電気化学科学と機械学習の交わりは複雑な問題を引き起こす。 機械学習の専門家はバッテリー科学の複雑さに苦しむことが多いが、バッテリー研究者は特定のデータセットに合わせた複雑なモデルに適応するハードルに直面している。 これに加えて、データフォーマットと評価ベンチマークを包含する、バッテリー劣化モデリングの凝集度基準が目立って欠如している。 このような障害を認識したbatterymlは,データの前処理,機能抽出,従来型モデルと最先端モデルの両方の実装を統一した,ワンステップの,オールエンコンパスなオープンソースプラットフォームです。 この合理化されたアプローチは、研究アプリケーションの実用性と効率を高めることを約束する。 BatteryMLはこの空白を埋めようとしている。さまざまな専門分野の専門家が協力して貢献できる環境を育み、バッテリリサーチの全体的な理解と進歩を高める。プロジェクトのコードはGitHubでhttps://github.com/microsoft/BatteryMLで公開されている。

Battery degradation remains a pivotal concern in the energy storage domain, with machine learning emerging as a potent tool to drive forward insights and solutions. However, this intersection of electrochemical science and machine learning poses complex challenges. Machine learning experts often grapple with the intricacies of battery science, while battery researchers face hurdles in adapting intricate models tailored to specific datasets. Beyond this, a cohesive standard for battery degradation modeling, inclusive of data formats and evaluative benchmarks, is conspicuously absent. Recognizing these impediments, we present BatteryML - a one-step, all-encompass, and open-source platform designed to unify data preprocessing, feature extraction, and the implementation of both traditional and state-of-the-art models. This streamlined approach promises to enhance the practicality and efficiency of research applications. BatteryML seeks to fill this void, fostering an environment where experts from diverse specializations can collaboratively contribute, thus elevating the collective understanding and advancement of battery research.The code for our project is publicly available on GitHub at https://github.com/microsoft/BatteryML.
翻訳日:2023-12-05 21:48:03 公開日:2023-12-04
# キャリブレーション蒸留による要約モデルの抽象性向上

Enhancing Abstractiveness of Summarization Models through Calibrated Distillation ( http://arxiv.org/abs/2310.13760v2 )

ライセンス: Link先を確認
Hwanjun Song, Igor Shalyminov, Hang Su, Siffi Singh, Kaisheng Yao, Saab Mansour(参考訳) シーケンスレベルの知識蒸留は、より効率的な抽象要約のためにseq2seqモデルのサイズを減らす。 しかし、しばしば要約において抽象性が失われる。 本稿では,生成した要約のインフォメーション性(ルージュによる測定)を犠牲にすることなく,抽象性(n-gram重なりによる測定)のレベルを高めるために,discalという新しい手法を提案する。 DisCalは学生モデルに2つの監督を持つ多様な擬似要約を公開する。 第一に、最良の擬似要約は、抽象性と情報性の観点から識別され、シーケンスレベルの蒸留に用いられる。 第二に、それらのランクは、生徒モデルがより高いランクの要約に高い予測スコアを割り当てることを保証するために使用される。 実験の結果,DisCalは従来の抽象的要約蒸留法よりも優れており,抽象的かつ情報的な要約が得られていることがわかった。

Sequence-level knowledge distillation reduces the size of Seq2Seq models for more efficient abstractive summarization. However, it often leads to a loss of abstractiveness in summarization. In this paper, we propose a novel approach named DisCal to enhance the level of abstractiveness (measured by n-gram overlap) without sacrificing the informativeness (measured by ROUGE) of generated summaries. DisCal exposes diverse pseudo summaries with two supervision to the student model. Firstly, the best pseudo summary is identified in terms of abstractiveness and informativeness and used for sequence-level distillation. Secondly, their ranks are used to ensure the student model to assign higher prediction scores to summaries with higher ranks. Our experiments show that DisCal outperforms prior methods in abstractive summarization distillation, producing highly abstractive and informative summaries.
翻訳日:2023-12-05 21:47:40 公開日:2023-12-04
# ChatGPTを用いた感情認識におけるバイアス

Bias in Emotion Recognition with ChatGPT ( http://arxiv.org/abs/2310.11753v2 )

ライセンス: Link先を確認
Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi(参考訳) このテクニカルレポートは、対話型チャットボット、データアノテーション、メンタルヘルス分析といったさまざまなアプリケーションの基礎となるテキストからの感情認識におけるchatgptの能力について検討している。 以前の研究では、感情分析におけるchatgptの基本能力が示されているが、よりニュアンス的な感情認識におけるその性能はまだ検討されていない。 本研究では,異なるデータセットと感情ラベルを用いた感情認識の性能評価実験を行った。 以上の結果から,再現性は良好であり,微調整による改善がみられた。 しかし、パフォーマンスは異なる感情ラベルとデータセットによって異なり、固有の不安定性とバイアスが強調される。 データセットと感情ラベルの選択は、ChatGPTの感情認識性能に大きな影響を及ぼす。 本稿では、データセットとラベルの選択の重要性と、ChatGPTの感情認識能力を高めるための微調整の可能性に注目し、ChatGPTを用いたアプリケーションにおける感情分析のより良い統合のための基盤を提供する。

This technical report explores the ability of ChatGPT in recognizing emotions from text, which can be the basis of various applications like interactive chatbots, data annotation, and mental health analysis. While prior research has shown ChatGPT's basic ability in sentiment analysis, its performance in more nuanced emotion recognition is not yet explored. Here, we conducted experiments to evaluate its performance of emotion recognition across different datasets and emotion labels. Our findings indicate a reasonable level of reproducibility in its performance, with noticeable improvement through fine-tuning. However, the performance varies with different emotion labels and datasets, highlighting an inherent instability and possible bias. The choice of dataset and emotion labels significantly impacts ChatGPT's emotion recognition performance. This paper sheds light on the importance of dataset and label selection, and the potential of fine-tuning in enhancing ChatGPT's emotion recognition capabilities, providing a groundwork for better integration of emotion analysis in applications using ChatGPT.
翻訳日:2023-12-05 21:46:14 公開日:2023-12-04
# AMAGO: 適応エージェントのためのスケーラブルなインコンテキスト強化学習

AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents ( http://arxiv.org/abs/2310.09971v3 )

ライセンス: Link先を確認
Jake Grigsby, Linxi Fan, Yuke Zhu(参考訳) 汎用化,長期記憶,メタラーニングといった課題に取り組むために,シーケンスモデルを用いたインコンテキスト強化学習(rl)エージェントであるamagoを紹介する。 近年の研究では、非政治的な学習によって、反復的なポリシーでコンテキスト内RLが実現可能であることが示されている。 それでもこれらのアプローチは、エージェントのメモリ容量、計画的地平線、モデルサイズに重要なボトルネックを生じさせることによって、広範なチューニングとスケーラビリティの制限を必要とする。 AMAGOは、エンド・ツー・エンドのRLと並行して、ロングシーケンス・トランスフォーマーをロールアウト全体にわたってトレーニングする、オフ・ポリシー・イン・コンテクストのアプローチを再検討し、再設計する。 私たちのエージェントはユニークにスケーラブルで、幅広い問題に適用できます。 メタRLと長期記憶領域において,その性能を実証的に示す。 AMAGOはスパース報酬や政治外のデータに重点を置いているため、コンテキスト内学習は探索に挑戦しながらゴール条件付き問題にまで拡張することができる。 アマゴは、新しい後見リラベリングスキームと組み合わせることで、従来困難だったオープンワールドドメインのカテゴリを解決し、エージェントは手続き的に生成された環境で多くの可能な命令を完了できる。 我々は,3つの目標条件ドメインについてエージェントを評価し,その個々の改善がいかにコネクトしてジェネラリスト政策を創りだすかを検討する。

We introduce AMAGO, an in-context Reinforcement Learning (RL) agent that uses sequence models to tackle the challenges of generalization, long-term memory, and meta-learning. Recent works have shown that off-policy learning can make in-context RL with recurrent policies viable. Nonetheless, these approaches require extensive tuning and limit scalability by creating key bottlenecks in agents' memory capacity, planning horizon, and model size. AMAGO revisits and redesigns the off-policy in-context approach to successfully train long-sequence Transformers over entire rollouts in parallel with end-to-end RL. Our agent is uniquely scalable and applicable to a wide range of problems. We demonstrate its strong performance empirically in meta-RL and long-term memory domains. AMAGO's focus on sparse rewards and off-policy data also allows in-context learning to extend to goal-conditioned problems with challenging exploration. When combined with a novel hindsight relabeling scheme, AMAGO can solve a previously difficult category of open-world domains, where agents complete many possible instructions in procedurally generated environments. We evaluate our agent on three goal-conditioned domains and study how its individual improvements connect to create a generalist policy.
翻訳日:2023-12-05 21:44:17 公開日:2023-12-04
# InsPLAD:UAV画像における電力線アセット検査のためのデータセットとベンチマーク

InsPLAD: A Dataset and Benchmark for Power Line Asset Inspection in UAV Images ( http://arxiv.org/abs/2311.01619v2 )

ライセンス: Link先を確認
Andr\'e Luiz Buarque Vieira e Silva, Heitor de Castro Felix, Franscisco Paulo Magalh\~aes Sim\~oes, Veronica Teichrieb, Michel Mozinho dos Santos, Hemir Santiago, Virginia Sgotti and Henrique Lott Neto(参考訳) 電力系統の維持と検査は、電力供給の中断を避けるために不可欠であり、その社会的・経済的影響は年々減少している。 電力線ビジュアルインスペクションの自動化は、電力線コンポーネントのパブリックな現実世界データセットの欠如と、新しい研究を育むための様々な欠陥により、業界にとって重要なオープンな問題である。 本稿では,10,607台の高分解能無人航空機カラー画像を含む電力線資産検査データセットinspladとベンチマークを紹介する。 このデータセットには、17のユニークな電力線資産が含まれている。 さらに5つの資産には6つの欠陥があり、4つは腐食、1つは壊れた部品、1つは鳥の巣の存在である。 すべての資産は、正常または欠陥名のいずれかの条件に従ってラベル付けされた。 我々は、InsPLADがカバーする3つの画像レベルのコンピュータビジョンタスクに対して、APメトリックによるオブジェクト検出、バランス精度による欠陥分類、AUROCメトリックによる異常検出の3つについて、最先端および一般的な手法を徹底的に評価した。 InsPLADは、マルチスケールオブジェクト、マルチサイズクラスインスタンス、画像ごとの複数のオブジェクト、クラス内の変動、散らかった背景、視点歪み、閉塞、様々な照明条件など、制御されていない環境から様々な視覚課題を提供する。 我々の知る限り、InsPLADは、複数のコンポーネントと様々なコンピュータビジョンタスクの欠陥による電力線資産検査のための最初の大規模な実世界のデータセットとベンチマークであり、この分野における最先端の手法を改善するための潜在的影響がある。 完全性はリポジトリ上で公開され、詳細な説明が提供される。 https://github.com/andreluizbvs/InsPLADで見ることができる。

Power line maintenance and inspection are essential to avoid power supply interruptions, reducing its high social and financial impacts yearly. Automating power line visual inspections remains a relevant open problem for the industry due to the lack of public real-world datasets of power line components and their various defects to foster new research. This paper introduces InsPLAD, a Power Line Asset Inspection Dataset and Benchmark containing 10,607 high-resolution Unmanned Aerial Vehicles colour images. The dataset contains seventeen unique power line assets captured from real-world operating power lines. Additionally, five of those assets present six defects: four of which are corrosion, one is a broken component, and one is a bird's nest presence. All assets were labelled according to their condition, whether normal or the defect name found on an image level. We thoroughly evaluate state-of-the-art and popular methods for three image-level computer vision tasks covered by InsPLAD: object detection, through the AP metric; defect classification, through Balanced Accuracy; and anomaly detection, through the AUROC metric. InsPLAD offers various vision challenges from uncontrolled environments, such as multi-scale objects, multi-size class instances, multiple objects per image, intra-class variation, cluttered background, distinct point-of-views, perspective distortion, occlusion, and varied lighting conditions. To the best of our knowledge, InsPLAD is the first large real-world dataset and benchmark for power line asset inspection with multiple components and defects for various computer vision tasks, with a potential impact to improve state-of-the-art methods in the field. It will be publicly available in its integrity on a repository with a thorough description. It can be found at https://github.com/andreluizbvs/InsPLAD.
翻訳日:2023-12-05 21:37:55 公開日:2023-12-04
# ビジュアル分析の過程におけるユーザ行動の違いは何か?

What User Behaviors Make the Differences During the Process of Visual Analytics? ( http://arxiv.org/abs/2311.00690v3 )

ライセンス: Link先を確認
Zekun Wu, Shahin Doroudian, Aidong Lu(参考訳) ビジュアル分析プロセスの理解は、ビジュアルデザインの改善や高度なインタラクション機能の開発など、さまざまな側面から可視化研究者に利益をもたらす。 しかし、ユーザ行動のログファイルは、センスメイキングの複雑さと、関連するユーザ行動に関する知識の欠如のため、依然として分析が難しい。 本研究では,ユーザ行動の包括的データ収集と時系列分類手法を用いた分析手法を提案する。 従来の可視化アプリケーションであるcovid-19 data analysisを選択し,地理空間,時系列,複数属性を対象とした共通分析タスクを行った。 ユーザ調査は,デスクトップと没入型ビジュアライゼーションの2つのシステムを用いて,多様なビジュアライゼーションタスクでユーザ動作を収集する。 3つの時系列機械学習アルゴリズムを2つのスケールで分類し,行動特徴の影響について検討する。 この結果から,視覚分析の過程でユーザ行動の区別が可能であり,ユーザの身体行動と視覚的タスクの関連性が強い可能性が示唆された。 また,ビジュアルアナリティクスのオープンセッションを解釈することにより,手作業の面倒なアノテーションを使わずにセンスメイキングを自動学習する手法を提案する。

The understanding of visual analytics process can benefit visualization researchers from multiple aspects, including improving visual designs and developing advanced interaction functions. However, the log files of user behaviors are still hard to analyze due to the complexity of sensemaking and our lack of knowledge on the related user behaviors. This work presents a study on a comprehensive data collection of user behaviors, and our analysis approach with time-series classification methods. We have chosen a classical visualization application, Covid-19 data analysis, with common analysis tasks covering geo-spatial, time-series and multi-attributes. Our user study collects user behaviors on a diverse set of visualization tasks with two comparable systems, desktop and immersive visualizations. We summarize the classification results with three time-series machine learning algorithms at two scales, and explore the influences of behavior features. Our results reveal that user behaviors can be distinguished during the process of visual analytics and there is a potentially strong association between the physical behaviors of users and the visualization tasks they perform. We also demonstrate the usage of our models by interpreting open sessions of visual analytics, which provides an automatic way to study sensemaking without tedious manual annotations.
翻訳日:2023-12-05 21:37:23 公開日:2023-12-04
# ウェアウルフゲームにおける戦略的遊びのための強化学習型言語エージェント

Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game ( http://arxiv.org/abs/2310.18940v2 )

ライセンス: Link先を確認
Zelai Xu, Chao Yu, Fei Fang, Yu Wang, Yi Wu(参考訳) 大規模言語モデル(LLM)で構築されたエージェントは、最近大きな進歩を遂げた。 しかし、ほとんどの取り組みはシングルエージェントまたは協調環境にフォーカスしており、より一般的なマルチエージェント環境は過小評価されている。 本研究では,戦略的思考能力を有するllmベースのエージェントを,人気のある言語ゲームであるwarwolf向けに,強化学習(rl)を活用した新しいフレームワークを提案する。 ウェアウルフ(Werewolf)は、協調と競争の両方にかかわる隠れた役割を持つ社会的推論ゲームである。 我々のエージェントはこのゲームに、まずLSMを用いて、潜在的な騙しを推論し、戦略的に多様なアクションのセットを生成する。 そして、候補者から行動を選択するrlポリシーを、エージェントの意思決定能力を高めるために人口ベースのトレーニングによって学習する。 LLMとRLポリシーを組み合わせることで、我々のエージェントは様々な創発的戦略を生み出し、他のLSMベースのエージェントに対して最も高い勝利率を達成し、Werewolfゲームにおける敵の人間プレイヤーに対して頑健である。

Agents built with large language models (LLMs) have recently achieved great advancements. However, most of the efforts focus on single-agent or cooperative settings, leaving more general multi-agent environments underexplored. We propose a new framework powered by reinforcement learning (RL) to develop strategic language agents, i.e., LLM-based agents with strategic thinking ability, for a popular language game, Werewolf. Werewolf is a social deduction game with hidden roles that involves both cooperation and competition and emphasizes deceptive communication and diverse gameplay. Our agent tackles this game by first using LLMs to reason about potential deceptions and generate a set of strategically diverse actions. Then an RL policy, which selects an action from the candidates, is learned by population-based training to enhance the agents' decision-making ability. By combining LLMs with the RL policy, our agent produces a variety of emergent strategies, achieves the highest win rate against other LLM-based agents, and stays robust against adversarial human players in the Werewolf game.
翻訳日:2023-12-05 21:34:00 公開日:2023-12-04
# マルチタイムスケール世界モデル

Multi Time Scale World Models ( http://arxiv.org/abs/2310.18534v3 )

ライセンス: Link先を確認
Vaisakh Shaj, Saleh Gholam Zadeh, Ozan Demir, Luiz Ricardo Douat, Gerhard Neumann(参考訳) インテリジェントエージェントは、内部世界モデルを使用して、さまざまな行動コースを多くのスケールで推論し、予測する。 複雑な不確実性予測を処理しながら、複数のレベルの時間的抽象化で動作する世界モデルを学ぶことができる学習パラダイムとアーキテクチャの開発は、大きな技術的ハードルである。 本研究では,多時間スケール状態空間(mts3)モデルと呼ぶ多時間スケール世界モデルを学ぶための確率論的形式を提案する。 本モデルでは,複数時間スケールでの計算効率のよい推論手法を用いて,高精度な長距離予測と数秒間の不確実性推定を行う。 MTS3は, 複雑なシミュレーションや実世界の力学系を含むいくつかのシステム識別ベンチマークにおいて, 最近の手法よりも優れていることを示す。 コードは、このリポジトリで入手できる。

Intelligent agents use internal world models to reason and make predictions about different courses of their actions at many scales. Devising learning paradigms and architectures that allow machines to learn world models that operate at multiple levels of temporal abstractions while dealing with complex uncertainty predictions is a major technical hurdle. In this work, we propose a probabilistic formalism to learn multi-time scale world models which we call the Multi Time Scale State Space (MTS3) model. Our model uses a computationally efficient inference scheme on multiple time scales for highly accurate long-horizon predictions and uncertainty estimates over several seconds into the future. Our experiments, which focus on action conditional long horizon future predictions, show that MTS3 outperforms recent methods on several system identification benchmarks including complex simulated and real-world dynamical systems. Code is available at this repository: https://github.com/ALRhub/MTS3.
翻訳日:2023-12-05 21:33:40 公開日:2023-12-04
# 定常目標作成による内在的探索の改善

Improving Intrinsic Exploration by Creating Stationary Objectives ( http://arxiv.org/abs/2310.18144v3 )

ライセンス: Link先を確認
Roger Creus Castanyer, Joshua Romoff, Glen Berseth(参考訳) 特注的目標の定義による強化学習ガイドの長期探索における探索ボーナス カウントベースのボーナス、擬似カウント、状態エントロピーの最大化といった探索目的は非定常であるため、エージェントの最適化は困難である。 この問題は一般に知られているが、通常は省略され、解決策は未検討のままである。 我々の研究の重要な貢献は、拡張状態表現を通じて、元の非定常報酬を定常報酬に変換することである。 そこで本研究では,SOFE(Stationary Objectives For Exploration)フレームワークについて紹介する。 SOFEは、異なる探索ボーナスに対する十分な統計を識別し、深層ネットワークへの入力として使用するためにこれらの統計の効率的な符号化を見つける必要がある。 SOFEは状態空間を拡大するが、エージェントの目的の最適化を単純化するという約束を守る状態拡張の提案に基づいている。 また,SOFEは,カウントベースのボーナス,擬似カウント,状態エントロピーの最大化など,いくつかの探索目標の性能を改善した。 さらに、SOFEは本質的な目的の最適化を安定化しようとする先行手法よりも優れている。 本研究では,sparse-rewardタスク,ピクセルベースの観測,3dナビゲーション,手続き的生成環境など,難解な探索問題に対するsofの有効性を示す。

Exploration bonuses in reinforcement learning guide long-horizon exploration by defining custom intrinsic objectives. Several exploration objectives like count-based bonuses, pseudo-counts, and state-entropy maximization are non-stationary and hence are difficult to optimize for the agent. While this issue is generally known, it is usually omitted and solutions remain under-explored. The key contribution of our work lies in transforming the original non-stationary rewards into stationary rewards through an augmented state representation. For this purpose, we introduce the Stationary Objectives For Exploration (SOFE) framework. SOFE requires identifying sufficient statistics for different exploration bonuses and finding an efficient encoding of these statistics to use as input to a deep network. SOFE is based on proposing state augmentations that expand the state space but hold the promise of simplifying the optimization of the agent's objective. We show that SOFE improves the performance of several exploration objectives, including count-based bonuses, pseudo-counts, and state-entropy maximization. Moreover, SOFE outperforms prior methods that attempt to stabilize the optimization of intrinsic objectives. We demonstrate the efficacy of SOFE in hard-exploration problems, including sparse-reward tasks, pixel-based observations, 3D navigation, and procedurally generated environments.
翻訳日:2023-12-05 21:33:27 公開日:2023-12-04
# 直接非教師なしDenoising

Direct Unsupervised Denoising ( http://arxiv.org/abs/2310.18116v2 )

ライセンス: Link先を確認
Benjamin Salmon and Alexander Krull(参考訳) 従来の教師付きデノイザーは、ノイズの多い入力とクリーンなターゲットイメージのペアを使って訓練される。 彼らは、可能なクリーンイメージよりも後方分布の中央傾向を予測することを学ぶ。 例えば、人気のある二次損失関数で訓練された場合、ネットワークの出力は最小平均二乗誤差(MMSE)推定に対応する。 変分オートエンコーダ(VAEs)に基づく教師なしノイズキャンセラーは、トレーニング入力として、未ペアノイズデータのみを必要としながら、最先端の結果を達成することに成功した。 従来の教師なしのアプローチとは対照的に、教師なしのデノイザーはmmse推定のような単一の予測を直接生成するのではなく、ノイズの多い入力に対応するクリーンな解の後方分布からサンプルを描くことができる。 推論中のMMSE推定を近似するためには、教師なしの手法は多数のサンプル(計算コストの高いプロセス)を作成し、描画する必要がある。 本稿では,vaeと並行して決定論的ネットワークを訓練し,中心傾向を直接予測する手法を提案する。 本手法は,教師なし手法により得られた結果を計算コストのごく一部で上回る結果を得る。

Traditional supervised denoisers are trained using pairs of noisy input and clean target images. They learn to predict a central tendency of the posterior distribution over possible clean images. When, e.g., trained with the popular quadratic loss function, the network's output will correspond to the minimum mean square error (MMSE) estimate. Unsupervised denoisers based on Variational AutoEncoders (VAEs) have succeeded in achieving state-of-the-art results while requiring only unpaired noisy data as training input. In contrast to the traditional supervised approach, unsupervised denoisers do not directly produce a single prediction, such as the MMSE estimate, but allow us to draw samples from the posterior distribution of clean solutions corresponding to the noisy input. To approximate the MMSE estimate during inference, unsupervised methods have to create and draw a large number of samples - a computationally expensive process - rendering the approach inapplicable in many situations. Here, we present an alternative approach that trains a deterministic network alongside the VAE to directly predict a central tendency. Our method achieves results that surpass the results achieved by the unsupervised method at a fraction of the computational cost.
翻訳日:2023-12-05 21:33:08 公開日:2023-12-04
# 過剰量子ビット操作によるプログラム可能な多目的フォトニック量子メモリの実現

Realization of a programmable multi-purpose photonic quantum memory with over-thousand qubit manipulations ( http://arxiv.org/abs/2311.10292v2 )

ライセンス: Link先を確認
Sheng Zhang, Jixuan Shi, Zhaibin Cui, Ye Wang, Yukai Wu, Luming Duan, Yunfei Pu(参考訳) 量子ネットワークは、分散量子コンピューティング、長距離量子通信、前例のない性能を持つネットワークベースの量子センシングなどの様々なアプリケーションを可能にする。 量子ネットワークにおける最も重要なビルディングブロックの1つは、通信チャネルと局所関数ユニットの間のインターフェースとして機能するフォトニック量子メモリである。 空飛ぶ量子ビットの大規模なストリームを処理し、量子ネットワーク内の複数のコア関数の要求を満たすプログラム可能な量子メモリは、まだ実現されていない。 本稿では,144個のアトミックアンサンブルを空間的に分離した72個の光量子ビットを同時に記憶し,1000回の連続書き込みや読み出し操作をランダムアクセス方式でサポートできる高性能量子メモリについて述べる。 組み込みのプログラム性のため、この量子メモリは複数の関数にオンデマンドで適用することができる。 例えば、量子キュー、スタック、バッファは、古典的情報処理の対応するデバイスによく似ている。 さらに,量子リピータの実現と量子ネットワークの効率的なルーティングのための必須要件である,確率的到達時間と任意の解放順序を持つ4組のフォトニックパルスの同期と再シャッフルの実証を行った。 この多目的プログラマブル量子メモリの実現は、将来の大規模完全機能量子ネットワークの構成要素となる。

Quantum networks can enable various applications such as distributed quantum computing, long-distance quantum communication, and network-based quantum sensing with unprecedented performances. One of the most important building blocks for a quantum network is a photonic quantum memory which serves as the interface between the communication channel and the local functional unit. A programmable quantum memory which can process a large stream of flying qubits and fulfill the requirements of multiple core functions in a quantum network is still to-be-realized. Here we report a high-performance quantum memory which can simultaneously store 72 optical qubits carried by 144 spatially separated atomic ensembles and support up to a thousand consecutive write or read operations in a random access way, two orders of magnitude larger than the previous record. Due to the built-in programmability, this quantum memory can be adapted on-demand for several functions. As example applications, we realize quantum queue, stack, and buffer which closely resemble the counterpart devices for classical information processing. We further demonstrate the synchronization and reshuffle of 4 entangled pairs of photonic pulses with probabilistic arrival time and arbitrary release order via the memory, which is an essential requirement for the realization of quantum repeaters and efficient routing in quantum networks. Realization of this multi-purpose programmable quantum memory thus constitutes a key enabling building block for future large-scale fully-functional quantum networks.
翻訳日:2023-12-05 21:25:04 公開日:2023-12-04
# 分布的ロバストな強化学習の基礎について

On the Foundation of Distributionally Robust Reinforcement Learning ( http://arxiv.org/abs/2311.09018v2 )

ライセンス: Link先を確認
Shengbo Wang, Nian Si, Jose Blanchet, Zhengyuan Zhou(参考訳) トレーニングと展開の環境変化に直面した堅牢な政策の必要性から,我々は,分散的堅牢な強化学習(DRRL)の理論的基盤に寄与する。 これは、分布的に堅牢なマルコフ決定プロセス(DRMDP)を中心とした包括的なモデリングフレームワークによって達成される。 この枠組みは、意思決定者に対して、相手が編成した最悪の分散シフトの下で最適な政策を選択することを義務付ける。 既存の定式化を統一・拡張することにより、意思決定者および敵双方に様々なモデリング属性を取り入れたDRMDPを厳格に構築する。 これらの特性には、適応性粒度、歴史に依存した探索、マルコフ、マルコフ時間均質な意思決定者、敵対的ダイナミクスが含まれる。 さらに, 逆転によって引き起こされる変化の柔軟性を探索し, SAとSの正方性を検討した。 このDRMDPフレームワーク内では、動的プログラミング原理(DPP)の存在の有無を調査する。 アルゴリズムの観点からは、既存のデータの大半と計算効率のRLアルゴリズムがDPPに依存しているため、DPPの存在は重大な意味を持つ。 本研究は, コントローラと逆属性の組み合わせを包括的に検討し, 統一手法に基づく合理化証明を提供する。 また、完全な汎用性を持つdppが存在しない設定の逆例も提供します。

Motivated by the need for a robust policy in the face of environment shifts between training and the deployment, we contribute to the theoretical foundation of distributionally robust reinforcement learning (DRRL). This is accomplished through a comprehensive modeling framework centered around distributionally robust Markov decision processes (DRMDPs). This framework obliges the decision maker to choose an optimal policy under the worst-case distributional shift orchestrated by an adversary. By unifying and extending existing formulations, we rigorously construct DRMDPs that embraces various modeling attributes for both the decision maker and the adversary. These attributes include adaptability granularity, exploring history-dependent, Markov, and Markov time-homogeneous decision maker and adversary dynamics. Additionally, we delve into the flexibility of shifts induced by the adversary, examining SA and S-rectangularity. Within this DRMDP framework, we investigate conditions for the existence or absence of the dynamic programming principle (DPP). From an algorithmic standpoint, the existence of DPP holds significant implications, as the vast majority of existing data and computationally efficiency RL algorithms are reliant on the DPP. To study its existence, we comprehensively examine combinations of controller and adversary attributes, providing streamlined proofs grounded in a unified methodology. We also offer counterexamples for settings in which a DPP with full generality is absent.
翻訳日:2023-12-05 21:24:41 公開日:2023-12-04
# ハイパーネットワークを用いた医用画像登録のための学習物理学に基づく正規化

Learning Physics-Inspired Regularization for Medical Image Registration with Hypernetworks ( http://arxiv.org/abs/2311.08239v2 )

ライセンス: Link先を確認
Anna Reithmeir, Julia A. Schnabel, Veronika A. Zimmer(参考訳) 医用画像登録は、同じ解剖学的領域の画像間の空間的変形を識別することを目的としており、画像に基づく診断と治療の基盤となっている。 これまで、深層学習に基づく登録には、グローバル空間の滑らかさを強制する正規化器(例えば拡散正規化器)が採用されている。 しかし、そのような正規化子はデータに合わせたものではなく、複雑な基底変形を反映することができないかもしれない。 対照的に、物理学に触発された正則化器は物理的に妥当な変形を促進する。 そのような正則化器の1つは、弾性材料の変形をモデル化する線形弾性正則化器である。 これらの正規化器は材料の物性を定義するパラメータによって駆動される。 生体組織では、このようなパラメータの幅広い推定が文献に残されており、登録の成功に適したパラメータ値を特定することは依然として難しい課題である。 この問題を克服し,物理特性を学習ベース登録に組み込むために,物理に着想を得た正規化器の物理パラメータが空間変形場に与える影響を学習するハイパーネットワークを提案する。 特に, 超モルフィックフレームワークを適用し, 線形弾性正規化器の2つの弾性パラメータの効果を学習する。 この手法により、テスト時に適切なデータ固有の物理パラメータを効率的に発見できる。

Medical image registration aims at identifying the spatial deformation between images of the same anatomical region and is fundamental to image-based diagnostics and therapy. To date, the majority of the deep learning-based registration methods employ regularizers that enforce global spatial smoothness, e.g., the diffusion regularizer. However, such regularizers are not tailored to the data and might not be capable of reflecting the complex underlying deformation. In contrast, physics-inspired regularizers promote physically plausible deformations. One such regularizer is the linear elastic regularizer which models the deformation of elastic material. These regularizers are driven by parameters that define the material's physical properties. For biological tissue, a wide range of estimations of such parameters can be found in the literature and it remains an open challenge to identify suitable parameter values for successful registration. To overcome this problem and to incorporate physical properties into learning-based registration, we propose to use a hypernetwork that learns the effect of the physical parameters of a physics-inspired regularizer on the resulting spatial deformation field. In particular, we adapt the HyperMorph framework to learn the effect of the two elasticity parameters of the linear elastic regularizer. Our approach enables the efficient discovery of suitable, data-specific physical parameters at test time.
翻訳日:2023-12-05 21:23:56 公開日:2023-12-04
# 商空間量子符号

Quotient Space Quantum Codes ( http://arxiv.org/abs/2311.07265v3 )

ライセンス: Link先を確認
Jing-Lei Xia(参考訳) 量子誤り訂正符号は、量子コンピューティングと通信に不可欠である。 現在、これらの符号は、主に加法、非加法、表面符号に分類されている。 加法符号および非加法符号は、安定化器Gの1つ以上の不変部分空間を利用して量子符号を構成する。 したがって、これらの不変部分空間の選択は重要な問題である。 本稿では,商空間符号と商空間量子符号の構成法を導入することにより,この問題に対する解法を提案する。 この新しいフレームワークは、加法と非加法量子符号を統一する。 このフレームワークの特別なケースとして,コードワード安定化符号を実証し,誤り訂正距離を補う。 さらに、この量子符号に対するシングルトン境界の簡単な証明として、商空間符号の符号境界を確立し、純粋かつ不純な符号の符号境界について議論する。 商空間アプローチは量子コードの研究に簡潔で明確な数学的形式を提供する。

Quantum error-correcting codes are crucial for quantum computing and communication. Currently, these codes are mainly categorized into additive, non-additive, and surface codes. Additive and non-additive codes utilize one or more invariant subspaces of the stabilizer G to construct quantum codes. Therefore, the selection of these invariant subspaces is a key issue. In this paper, we propose a solution to this problem by introducing quotient space codes and a construction method for quotient space quantum codes. This new framework unifies additive and non-additive quantum codes. We demonstrate the codeword stabilizer codes as a special case within this framework and supplement its error-correction distance. Furthermore, we provide a simple proof of the Singleton bound for this quantum code by establishing the code bound of quotient space codes and discuss the code bounds for pure and impure codes. The quotient space approach offers a concise and clear mathematical form for the study of quantum codes.
翻訳日:2023-12-05 21:23:14 公開日:2023-12-04
# ヘイトスピーチ検出のためのテキストの自動正規化

Automatic Textual Normalization for Hate Speech Detection ( http://arxiv.org/abs/2311.06851v3 )

ライセンス: Link先を確認
Anh Thi-Hoang Nguyen, Dung Ha Nguyen, Nguyet Thi Nguyen, Khanh Thanh-Duy Ho, Kiet Van Nguyen(参考訳) ソーシャルメディアデータは研究にとって貴重な資源であるが、幅広い非標準語(NSW)を含んでいる。 これらの不規則さはNLPツールの効果的な操作を妨げる。 ベトナム語における現在の最先端の手法は、この問題を語彙正規化の問題として扱い、手動ルールの作成や、複雑なルールを構築するための広範囲な努力を必要とする多段階のディープラーニングフレームワークの実装を含む。 対照的に、我々のアプローチは単純であり、Seq2Seq(Seq2Seq)モデルのみを用いる。 本研究では,2,181人の注釈付きコメントと0.9014のアノテーション間合意からなるテキスト正規化のためのデータセットを提供する。 テキスト正規化にseq2seqモデルを用いることで,精度が70%弱であることが判明した。 それでもテキスト正規化は、Hate Speech Detection (HSD)タスクの精度を約2%向上させ、複雑なNLPタスクのパフォーマンスを向上させる可能性を示している。 私たちのデータセットは研究目的で利用できます。

Social media data is a valuable resource for research, yet it contains a wide range of non-standard words (NSW). These irregularities hinder the effective operation of NLP tools. Current state-of-the-art methods for the Vietnamese language address this issue as a problem of lexical normalization, involving the creation of manual rules or the implementation of multi-staged deep learning frameworks, which necessitate extensive efforts to craft intricate rules. In contrast, our approach is straightforward, employing solely a sequence-to-sequence (Seq2Seq) model. In this research, we provide a dataset for textual normalization, comprising 2,181 human-annotated comments with an inter-annotator agreement of 0.9014. By leveraging the Seq2Seq model for textual normalization, our results reveal that the accuracy achieved falls slightly short of 70%. Nevertheless, textual normalization enhances the accuracy of the Hate Speech Detection (HSD) task by approximately 2%, demonstrating its potential to improve the performance of complex NLP tasks. Our dataset is accessible for research purposes.
翻訳日:2023-12-05 21:23:00 公開日:2023-12-04
# 分岐ネットワークにおけるヒューリスティック最適輸送

Heuristic Optimal Transport in Branching Networks ( http://arxiv.org/abs/2311.06650v2 )

ライセンス: Link先を確認
M. Andrecut(参考訳) 最適輸送は、通常距離の関数として定義されるコストを最小限にして、ソースをターゲットにマッピングすることを目的としている。 この問題の解決策は、ソースをターゲットに最適に接続する直線セグメントで構成されており、分岐は示さない。 これらの最適解は、分岐構造が一般的である自然および人工の輸送ネットワークと対照的である。 本稿では,ネットワークにおける最適輸送のための高速ヒューリスティック分岐法について論じる。

Optimal transport aims to learn a mapping of sources to targets by minimizing the cost, which is typically defined as a function of distance. The solution to this problem consists of straight line segments optimally connecting sources to targets, and it does not exhibit branching. These optimal solutions are in stark contrast with both natural, and man-made transportation networks, where branching structures are prevalent. Here we discuss a fast heuristic branching method for optimal transport in networks, and we provide several applications.
翻訳日:2023-12-05 21:22:42 公開日:2023-12-04
# ファウショット画像における3次元ガウス平滑化の深さ正規化最適化

Depth-Regularized Optimization for 3D Gaussian Splatting in Few-Shot Images ( http://arxiv.org/abs/2311.13398v2 )

ライセンス: Link先を確認
Jaeyoung Chung, Jeongtaek Oh, and Kyoung Mu Lee(参考訳) 本稿では,過剰適合を回避しつつ,限られた画像数でガウススプラッティングを最適化する方法を提案する。 多数のガウススプラットを組み合わせることで3Dシーンを表現することで、目立った視覚的品質が得られる。 しかし、少数の画像しか利用できない場合、トレーニングビューは過度に適合する傾向にある。 この問題に対処するため,オーバーフィッティングを緩和するための幾何ガイドとして深度マップを導入する。 事前学習した単眼深度推定モデルを用いて深度マップを求め,スパースコルマップ特徴点を用いたスケールとオフセットの調整を行った。 調整された深度は、3Dガウススプラッティングのカラーベース最適化、浮動小道具の緩和、幾何学的制約の遵守を保証する。 提案手法は,NeRF-LLFFデータセット上で,少ない画像数で検証する。 本手法は,画像のみに依存する元の手法と比較してロバストな形状を示す。 プロジェクトページ: Robot0321.github.io/DepthRegGS

In this paper, we present a method to optimize Gaussian splatting with a limited number of images while avoiding overfitting. Representing a 3D scene by combining numerous Gaussian splats has yielded outstanding visual quality. However, it tends to overfit the training views when only a small number of images are available. To address this issue, we introduce a dense depth map as a geometry guide to mitigate overfitting. We obtained the depth map using a pre-trained monocular depth estimation model and aligning the scale and offset using sparse COLMAP feature points. The adjusted depth aids in the color-based optimization of 3D Gaussian splatting, mitigating floating artifacts, and ensuring adherence to geometric constraints. We verify the proposed method on the NeRF-LLFF dataset with varying numbers of few images. Our approach demonstrates robust geometry compared to the original method that relies solely on images. Project page: robot0321.github.io/DepthRegGS
翻訳日:2023-12-05 21:13:19 公開日:2023-12-04
# 後方-前方ホログラフブラックホールマップにおけるバルク再構成と非等方性

Bulk reconstruction and non-isometry in the backwards-forwards holographic black hole map ( http://arxiv.org/abs/2311.12921v2 )

ライセンス: Link先を確認
Oliver DeWolfe and Kenneth Higginbotham(参考訳) akers、engelhardt、harlow、penington、vardhanのブラックホール内部における非等尺ホログラフィックマップの一般化として導入された後方フォワードマップは、効果的記述に非自明なダイナミクスを含むために導入された。 これらの2つの形式は、動的に生成された状態の集合、すなわち、入射物質の明確に定義された初期構成に作用する単位時間進化から形成される状態に等価であるが、入射オブザーバの見かけ上の世界を記述するのに必要な状態の一般的な集合によって異なる。 両バージョンともページカーブを再現することに成功したが,bfp (backwards-forwards-post-selection) マップと呼ばれる最終段階として選択後のバージョンは,非等尺的かつ平均的に等尺的であること,バルク操作者の状態依存的再構築を提供するという望ましい特性を持っている。 したがって、BFPマップは、内部相互作用を含むブラックホールの内部を記述するのに適した非等尺符号である。

The backwards-forwards map, introduced as a generalization of the non-isometric holographic maps of the black hole interior of Akers, Engelhardt, Harlow, Penington, and Vardhan to include non-trivial dynamics in the effective description, has two possible formulations differing in when the post-selection is performed. While these two forms are equivalent on the set of dynamically generated states -- states formed from unitary time evolution acting on well-defined initial configurations of infalling matter -- they differ on the generic set of states necessary to describe the apparent world of the infalling observer. We show that while both versions successfully reproduce the Page curve, the version involving post-selection as the final step, dubbed the backwards-forwards-post-selection (BFP) map, has the desirable properties of being non-isometric but isometric on average and providing state-dependent reconstruction of bulk operators, while the other version does not. Thus the BFP map is a suitable non-isometric code describing the black hole interior including interior interactions.
翻訳日:2023-12-05 21:13:04 公開日:2023-12-04
# 物理学におけるAlpha Zero:Alpha Zeroを用いたシンボリック回帰の物理解析への応用

Alpha Zero for Physics: Application of Symbolic Regression with Alpha Zero to find the analytical methods in physics ( http://arxiv.org/abs/2311.12713v2 )

ライセンス: Link先を確認
Yoshihiro Michishita(参考訳) ニューラルネットワークによる機械学習は、自然言語処理、画像認識、ゲーム勝利、さらには物理学の問題など、さまざまなタスクのための、ますます強力なツールになりつつある。 機械学習を数値計算や実験の支援に応用する研究は数多く存在するが、解析方法を見つけるために機械学習を適用する方法はあまり研究されていない。 本稿では、アルファゼロアルゴリズム(α zero for physics (azfp))を用いた記号回帰を用いて、物理学における解析手法を開発する枠組みを提案する。 実演として、AZfPはFloquetシステムの高周波展開を導出できることを示す。 AZfPは物理学の新しい理論フレームワークを開発する可能性がある。

Machine learning with neural networks is now becoming a more and more powerful tool for various tasks, such as natural language processing, image recognition, winning the game, and even for the issues of physics. Although there are many studies on the application of machine learning to numerical calculation and assistance of experiments, the methods of applying machine learning to find the analytical method are poorly studied. In this paper, we propose the frameworks of developing analytical methods in physics by using the symbolic regression with the Alpha Zero algorithm, that is Alpha Zero for physics (AZfP). As a demonstration, we show that AZfP can derive the high-frequency expansion in the Floquet systems. AZfP may have the possibility of developing a new theoretical framework in physics.
翻訳日:2023-12-05 21:11:31 公開日:2023-12-04
# HoVer-UNet:知識蒸留によるUNetベースの多クラス核セグメンテーションによるHoVerNetの高速化

HoVer-UNet: Accelerating HoVerNet with UNet-based multi-class nuclei segmentation via knowledge distillation ( http://arxiv.org/abs/2311.12553v3 )

ライセンス: Link先を確認
Cristian Tommasino, Cristiano Russo, Antonio Maria Rinaldi, Francesco Ciompi(参考訳) 本稿では,核のインスタンス分割と組織学的分類のためのマルチブランチHoVerNetフレームワークの知識を抽出するためのHoVer-UNetを提案する。 我々は,Mix Vision Transformerのバックボーンを備えたコンパクトで合理化された単一UNetネットワークを提案し,HoVerNetの蒸留知識を最適に符号化し,性能を損なうことなく計算要求を減らした。 提案モデルは,公開PanNukeデータセットとConsepデータセットでHoVerNetに匹敵する結果を達成し,推論時間を3倍に短縮したことを示す。 モデルのコードはhttps://github.com/DIAGNijmegen/HoVer-UNet.comで公開しています。

We present HoVer-UNet, an approach to distill the knowledge of the multi-branch HoVerNet framework for nuclei instance segmentation and classification in histopathology. We propose a compact, streamlined single UNet network with a Mix Vision Transformer backbone, and equip it with a custom loss function to optimally encode the distilled knowledge of HoVerNet, reducing computational requirements without compromising performances. We show that our model achieved results comparable to HoVerNet on the public PanNuke and Consep datasets with a three-fold reduction in inference time. We make the code of our model publicly available at https://github.com/DIAGNijmegen/HoVer-UNet.
翻訳日:2023-12-05 21:10:53 公開日:2023-12-04
# 拡散モデルを用いた網膜眼底およびoct画像の現実的な偽物生成

Generating Realistic Counterfactuals for Retinal Fundus and OCT Images using Diffusion Models ( http://arxiv.org/abs/2311.11629v2 )

ライセンス: Link先を確認
Indu Ilanchezian, Valentyn Boreiko, Laura K\"uhlewein, Ziwei Huang, Murat Se\c{c}kin Ayhan, Matthias Hein, Lisa Koch, Philipp Berens(参考訳) 反事実推論は、意思決定の説明や代替案の重み付けにしばしば用いられる。 したがって、眼科などの画像に基づく専門分野において、被験者が糖尿病網膜症を患っていた場合、眼底像はどのように見えるか」といった疑問に対して、反現実的なイメージを作成できることは有益である。 そこで本研究では,網膜疾患分類タスクで訓練された逆向き頑健な分類器を併用した拡散モデルを用いることで,網膜基底画像と光コヒーレンストモグラフィー(OCT)Bスキャンの高現実的対物生成が可能となることを示す。 カウンターファクトリーの現実主義の鍵となるのは、これらの分類器が各病型に有意な特徴を表わし、拡散モデルを用いて病気の兆候を描写したり、疾患関連病変を現実的に除去することができることである。 ユーザスタディにおいて、ドメインの専門家は、我々の手法を用いて生成された偽物は、以前の方法から生成された偽物よりもはるかに現実的であり、実際の画像と区別できないものさえ見出した。

Counterfactual reasoning is often used in clinical settings to explain decisions or weigh alternatives. Therefore, for imaging based specialties such as ophthalmology, it would be beneficial to be able to create counterfactual images, illustrating answers to questions like "If the subject had had diabetic retinopathy, how would the fundus image have looked?". Here, we demonstrate that using a diffusion model in combination with an adversarially robust classifier trained on retinal disease classification tasks enables the generation of highly realistic counterfactuals of retinal fundus images and optical coherence tomography (OCT) B-scans. The key to the realism of counterfactuals is that these classifiers encode salient features indicative for each disease class and can steer the diffusion model to depict disease signs or remove disease-related lesions in a realistic way. In a user study, domain experts also found the counterfactuals generated using our method significantly more realistic than counterfactuals generated from a previous method, and even indistinguishable from real images.
翻訳日:2023-12-05 21:09:53 公開日:2023-12-04
# 高マッハ数流体問題に対するデータ効率演算子学習

Data-efficient operator learning for solving high Mach number fluid flow problems ( http://arxiv.org/abs/2311.16860v2 )

ライセンス: Link先を確認
Noah Ford, Victor J. Leon, Honest Mrema, Jeffrey Gilbert, Alexander New(参考訳) 本研究では,SciMLを用いて不規則な地形上のマッハ流体の解を予測する。 この設定では、データは制限されているため、モデルが低データ設定でうまく機能することが望ましい。 データから行動モードの基底を学習し,この基底を用いて予測を行うニューラル基底関数(NBF)は,ベースを意識しないベースラインモデルよりも効果的であることを示す。 さらに,このような問題に対する解決策の予測という分野における継続的な課題を明らかにする。

We consider the problem of using SciML to predict solutions of high Mach fluid flows over irregular geometries. In this setting, data is limited, and so it is desirable for models to perform well in the low-data setting. We show that Neural Basis Functions (NBF), which learns a basis of behavior modes from the data and then uses this basis to make predictions, is more effective than a basis-unaware baseline model. In addition, we identify continuing challenges in the space of predicting solutions for this type of problem.
翻訳日:2023-12-05 21:03:32 公開日:2023-12-04
# 視覚トランスフォーマによる台風強度予測

Typhoon Intensity Prediction with Vision Transformer ( http://arxiv.org/abs/2311.16450v2 )

ライセンス: Link先を確認
Huanxin Chen, Pengshuai Yin, Huichou Huang, Qingyao Wu, Ruirui Liu and Xiatian Zhu(参考訳) 時空間をまたいで台風の強度を正確に予測することは,災害警報の発行や緊急対応の容易化に不可欠である。 これは、生命の損失や財産の損傷を最小化し、経済や環境への影響を低減させる大きな可能性を持っている。 シナリオ分析に衛星画像を活用することは有効であるが、クラウド間の複雑な関係と高度にダイナミックなコンテキストによって、追加の課題も生じている。 この領域の既存のディープラーニング手法は畳み込みニューラルネットワーク(CNN)に依存している。 この制限は、推論中に長距離依存関係とグローバルコンテキスト知識をキャプチャする能力を妨げます。 そこで,我々は,層ごとに大域的な受容場を有する自己着脱機構を利用する新しい手法である「チフロン強度トランスフォーマー(tint)」を提案する。 Tintはシーケンス間特徴表現学習の観点を採用する。 まず、与えられた衛星画像を一連のパッチに切り分け、再帰的に自己注意操作を使用して、すべてのパッチペア間の局所的およびグローバルなコンテキスト関係を同時に抽出し、パッチごとの特徴表現学習を強化する。 タイフーンベンチマークの広範な実験は、tintの有効性を最先端のディープラーニングと従来の気象手法の両方と比較している。 私たちのコードはhttps://github.com/chen-huanxin/tint.comで利用可能です。

Predicting typhoon intensity accurately across space and time is crucial for issuing timely disaster warnings and facilitating emergency response. This has vast potential for minimizing life losses and property damages as well as reducing economic and environmental impacts. Leveraging satellite imagery for scenario analysis is effective but also introduces additional challenges due to the complex relations among clouds and the highly dynamic context. Existing deep learning methods in this domain rely on convolutional neural networks (CNNs), which suffer from limited per-layer receptive fields. This limitation hinders their ability to capture long-range dependencies and global contextual knowledge during inference. In response, we introduce a novel approach, namely "Typhoon Intensity Transformer" (Tint), which leverages self-attention mechanisms with global receptive fields per layer. Tint adopts a sequence-to-sequence feature representation learning perspective. It begins by cutting a given satellite image into a sequence of patches and recursively employs self-attention operations to extract both local and global contextual relations between all patch pairs simultaneously, thereby enhancing per-patch feature representation learning. Extensive experiments on a publicly available typhoon benchmark validate the efficacy of Tint in comparison with both state-of-the-art deep learning and conventional meteorological methods. Our code is available at https://github.com/chen-huanxin/Tint.
翻訳日:2023-12-05 21:02:24 公開日:2023-12-04
# 任意の階数 1 の単純リー代数の一般化コヒーレント状態の間の重なりの公式

A formula for the overlap between Generalized Coherent States of any rank one simple Lie algebra ( http://arxiv.org/abs/2311.16385v2 )

ライセンス: Link先を確認
Nicola Pranzini(参考訳) 任意のランク1の単純リー代数の2つの一般化コヒーレント状態間の重なりを計算する公式を提供する。 そして、この式をスピンコヒーレント状態(例えば、$\mathfrak{su}(2)$環)、擬スピンコヒーレント状態(すなわち、$\mathfrak{su}(1,1)$環)、および$\mathfrak{sl}(2,\mathbb{R})$ビラソーロの部分代数に適用する。 これらすべての例において、コヒーレント状態の集合から半古典的挙動の出現を示し、代数とその表現に依存するパラメータが大きくなると、それが常に起こることを検証する。

We provide a formula for computing the overlap between two Generalized Coherent States of any rank one simple Lie algebra. Then, we apply our formula to spin coherent states (i.e. $\mathfrak{su}(2)$ algebra), pseudo-spin coherent states (i.e. $\mathfrak{su}(1,1)$ algebra), and the $\mathfrak{sl}(2,\mathbb{R})$ subalgebras of Virasoro. In all these examples, we show the emergence of a semi-classical behaviour from the set of coherent states and verify that it always happens when some parameter, depending on the algebra and its representation, becomes large.
翻訳日:2023-12-05 21:02:01 公開日:2023-12-04
# システム環境エンタングルメント相転移

System-Environment Entanglement Phase Transitions ( http://arxiv.org/abs/2311.16343v2 )

ライセンス: Link先を確認
Yuto Ashida, Shunsuke Furukawa, Masaki Oshikawa(参考訳) 量子多体系の絡み合いは、長距離特性によって支配される普遍現象を示すことができる。 本研究では,多体系の開放に固有の絡み合いの普遍性と相転移,すなわち関心の系と環境との絡み合いについて検討する。 具体的には,局所的な測定条件下での友長・ラッティンガー液体(TLL)を考察し,その非一様進化を解析し,測定結果を平均化する。 測定後の密度行列の r\'enyi エントロピーによってシステム環境の絡み合いを定量化し、その大きさに依存しない項は普遍的な低エネルギー物理学をコードする。 境界共形場理論(CFT)における普遍項と$g$関数を関連付ける場理論記述を開発し、その値を決定するために再正規化群(RG)法と境界CFT法を用いる。 普遍的な寄与はTLLパラメータ$K$で決定され、絡み合い相転移を示す特異性を示すことができる。 驚くべきことに、いくつかのケースでは、サイズ非依存の貢献は、$g$-理論から期待されているものとは対照的に、測定強度の関数として増加する。 この非慣習的な行動は、抵抗的に回避されたジョセフソン接合の研究で発見された危険なほど無関係な用語に起因していると論じている。 また, これらの結果を, サイト分解測定対象のスピン=$\frac{1}{2}$ XXZ鎖の数値計算により検証した。 ポストセレクションを必要としない超低温気体の実験的実現の可能性について論じる。

Entanglement in quantum many-body systems can exhibit universal phenomena governed by long-distance properties. We study universality and phase transitions of the entanglement inherent to open many-body systems, namely, the entanglement between a system of interest and its environment. Specifically, we consider the Tomonaga-Luttinger liquid (TLL) under a local measurement and analyze its unconditioned nonunitary evolution, where the measurement outcomes are averaged over. We quantify the system-environment entanglement by the R\'enyi entropy of the post-measurement density matrix, whose size-independent term encodes the universal low-energy physics. We develop a field-theoretical description to relate the universal term to the $g$ function in a boundary conformal field theory (CFT), and use the renormalization group (RG) method and the boundary CFT techniques to determine its value. We show that the universal contribution is determined by the TLL parameter $K$ and can exhibit singularity signifying an entanglement phase transition. Surprisingly, in certain cases the size-independent contribution can increase as a function of the measurement strength in contrast to what is na\"ively expected from the $g$-theorem. We argue that this unconventional behavior could be attributed to the dangerously irrelevant term which has been found in studies of the resistively shunted Josephson junction. We also check these results by numerical calculations in the spin-$\frac{1}{2}$ XXZ chain subject to a site-resolved measurement. Possible experimental realization in ultracold gases, which requires no postselections, is discussed.
翻訳日:2023-12-05 21:01:43 公開日:2023-12-04
# YUAN 2.0: ローカライズされたフィルタリングベースの注意を伴う大規模言語モデル

YUAN 2.0: A Large Language Model with Localized Filtering-based Attention ( http://arxiv.org/abs/2311.15786v2 )

ライセンス: Link先を確認
Shaohua Wu, Xudong Zhao, Shenling Wang, Jiangang Luo, Lingjun Li, Xi Chen, Bing Zhao, Wei Wang, Tong Yu, Rongguo Zhang, Jiahua Zhang, Chao Wang(参考訳) 本研究では,210億から1026億のパラメータを持つ,一連の大規模言語モデルである yuan 2.0 の開発とリリースを行う。 局所フィルタリングに基づく注意(LFA)は、自然言語の局所的な依存関係に関する事前の知識を注意に組み込むために導入された。 事前学習および微調整データセットを高品質で構築するために,データフィルタリングおよび生成システムを提案する。 非一様パイプライン並列,データ並列,オプティマイザ並列の分散トレーニング手法を提案し,ノード間通信の帯域幅要求を大幅に低減し,大規模分散トレーニングにおいて優れた性能を実現する。 Yuan 2.0モデルは、既存のモデルと比較して、コード生成、数学の問題解決、チャットにおいて素晴らしい能力を示している。 モデルウェイトとソースコードを含むYUAN 2.0の最新バージョンはGithubで公開されている。

In this work, we develop and release Yuan 2.0, a series of large language models with parameters ranging from 2.1 billion to 102.6 billion. The Localized Filtering-based Attention (LFA) is introduced to incorporate prior knowledge of local dependencies of natural language into Attention. A data filtering and generating system is presented to build pre-training and fine-tuning dataset in high quality. A distributed training method with non-uniform pipeline parallel, data parallel, and optimizer parallel is proposed, which greatly reduces the bandwidth requirements of intra-node communication, and achieves good performance in large-scale distributed training. Yuan 2.0 models display impressive ability in code generation, math problem-solving, and chatting compared with existing models. The latest version of YUAN 2.0, including model weights and source code, is accessible at Github.
翻訳日:2023-12-05 21:01:18 公開日:2023-12-04
# 連続測定による空洞結合原子アンサンブルのスピンスクイーズ生成の解析

Analysis of spin-squeezing generation in cavity-coupled atomic ensembles with continuous measurements ( http://arxiv.org/abs/2311.15725v2 )

ライセンス: Link先を確認
A. Caprotti, M. Barbiero, M. G. Tarallo, M. G. Genoni, G. Bertaina(参考訳) 我々は3レベル原子を光学キャビティに結合させることによりスピンスクイーズ状態の生成を分析し、原子アンサンブルの進化を監視するために連続的にキャビティ伝達を測定する。 解析処理と顕微鏡シミュレーションを用いて、最適なアプローチで提案される継続的なフィードバックを使わずに、重要なスピンスクイーズを実現できることを示す。 断熱キャビティ除去近似と大量の原子数$N$制限では、スピンスクイーズのためのスケーリング指数$N^{-2/3}と、対応するプロトコル長に対する$N^{-1/3}は、集合ブロッホ球曲率によって決定的に影響を受ける。 完全なシミュレーションにより, スピンスクイーズ生成がシステムパラメータにどのように依存するかを特徴付けるとともに, キャビティ充填のダイナミクスと徐々に混合して, メトロジー上の優位性が失われるまで, 悪いキャビティ状態から逸脱する。 最後に、このスピンスキーズプロトコルが最先端の光時計に与える影響について論じる。

We analyze the generation of spin-squeezed states by coupling three-level atoms to an optical cavity and continuously measuring the cavity transmission in order to monitor the evolution of the atomic ensemble. Using analytical treatment and microscopic simulations of the dynamics, we show that one can achieve significant spin squeezing even without the continuous feedback that is proposed in optimal approaches. In the adiabatic cavity removal approximation and large number of atoms $N$ limit, we find the scaling exponents $N^{-2/3}$ for spin squeezing and $N^{-1/3}$ for the corresponding protocol duration, which are crucially impacted by the collective Bloch sphere curvature. With full simulations, we characterize how spin-squeezing generation depends on the system parameters and departs from the bad cavity regime, by gradually mixing with cavity-filling dynamics until metrological advantage is lost. Finally, we discuss the relevance of this spin-squeezing protocol to state-of-the-art optical clocks.
翻訳日:2023-12-05 21:01:03 公開日:2023-12-04
# 関数制約プログラム合成

Function-constrained Program Synthesis ( http://arxiv.org/abs/2311.15500v2 )

ライセンス: Link先を確認
Patrick Hajali and Ignas Budvytis(参考訳) 本研究は,1)プログラムタスクを解く際に,ユーザが提供するコードを活用するための大規模言語モデル (LLM) と,2) LLMが生成した初期コードが不十分である場合に,将来のコード生成の試みを支援するモジュールサブ関数を反復的に生成する手法を紹介する。 pythonのような汎用プログラミング言語でコンピュータプログラムを生成することは、プロンプトで提供されるコードを使用するよう指示されたときにllmsにとって課題となる。 コード固有のLCM(GitHub Copilot、CodeLlama2)は、開発環境で利用可能なすべてのコードに描画することで、リアルタイムでコード補完を生成することができる。 しかしながら、コード固有のLLMをコンテキスト内でのみ使用するように制限することは簡単ではなく、モデルが明示的にユーザが提供するコードを使用するように指示されていないため、ユーザーはモデルがそのコンテキストに組み込むべきコードのスニペットを正確に強調できない。 さらに、現在のシステムには効果的なリカバリ方法が欠如しており、十分なソリューションに到達するまで、ユーザがモデルを再プロンプトを変更済みのプロンプトで繰り返し行わざるを得ない。 提案手法は,コード生成を明示的な関数集合に制約し,自動生成したサブ関数による失敗からの回復を可能にすることで,従来のLLMコード生成と異なる。 LLMが動作コードを生成することができない場合、モジュールサブ関数を生成して、機能コードを生成する。 提案手法の副産物は再利用可能なサブファンクションのライブラリであり,効率が経験とともにスケールするソフトウェアチームを模倣して,関連するタスクを解くことができる。 また,従来のゼロショット評価に比べてllmsのコーディング能力の密接な評価を行う新しい「ハーフショット」評価パラダイムを導入する。 提案手法は,モデルが構造化された形式で解を出力することを奨励し,コーディング能力の低下を誤る構文誤差を低減させる。

This work introduces (1) a technique that allows large language models (LLMs) to leverage user-provided code when solving programming tasks and (2) a method to iteratively generate modular sub-functions that can aid future code generation attempts when the initial code generated by the LLM is inadequate. Generating computer programs in general-purpose programming languages like Python poses a challenge for LLMs when instructed to use code provided in the prompt. Code-specific LLMs (e.g., GitHub Copilot, CodeLlama2) can generate code completions in real-time by drawing on all code available in a development environment. However, restricting code-specific LLMs to use only in-context code is not straightforward, as the model is not explicitly instructed to use the user-provided code and users cannot highlight precisely which snippets of code the model should incorporate into its context. Moreover, current systems lack effective recovery methods, forcing users to iteratively re-prompt the model with modified prompts until a sufficient solution is reached. Our method differs from traditional LLM-powered code-generation by constraining code-generation to an explicit function set and enabling recovery from failed attempts through automatically generated sub-functions. When the LLM cannot produce working code, we generate modular sub-functions to aid subsequent attempts at generating functional code. A by-product of our method is a library of reusable sub-functions that can solve related tasks, imitating a software team where efficiency scales with experience. We also introduce a new "half-shot" evaluation paradigm that provides tighter estimates of LLMs' coding abilities compared to traditional zero-shot evaluation. Our proposed evaluation method encourages models to output solutions in a structured format, decreasing syntax errors that can be mistaken for poor coding ability.
翻訳日:2023-12-05 21:00:33 公開日:2023-12-04
# 量子コンピュータ上のシュウィンガーモデルシミュレーションのためのエンドツーエンドの複雑さ

End-to-end complexity for simulating the Schwinger model on quantum computers ( http://arxiv.org/abs/2311.17388v2 )

ライセンス: Link先を確認
Kazuki Sakamoto, Hayata Morisaki, Junichi Haruna, Etsuko Itou, Keisuke Fujii, Kosuke Mitarai(参考訳) シュウィンガーモデルは最も単純なゲージ理論の一つである。 このモデルの位相的用語は、古典的モンテカルロ法における悪名高い符号問題につながることが知られている。 これとは対照的に、近年、ハミルトン形式論における量子コンピューティングが注目されている。 本研究では,従来のコンピュータでは計算が難しい物理量を計算するために,量子コンピュータに必要なリソースを推定する。 具体的には,シュウィンガーモデルハミルトンのブロックエンコーディングの効率的な実装を提案する。 ハミルトニアンの構造を考えると、このブロックエンコーディングは正規化係数$\mathcal{O}(N^3)$で、$\mathcal{O}(N+\log^2(N/\varepsilon))$ T ゲートで実装できる。 エンドツーエンドのアプリケーションとして、真空持続振幅を計算する。 その結果、システムサイズ $n=100$ と付加誤差 $\varepsilon=0.01$ に対し、発展時間 $t$ と格子間隔 a が $t/2a=10$ を満たす場合、真空持続振幅はおよそ 10^{13}$ t ゲートを用いて計算できることがわかった。 本研究では,FTQC と FTQC の初期における量子コンピュータの性能予測に関する知見を提供し,現実的な時間枠内で有意義な問題を解く上での課題を明らかにする。

The Schwinger model is one of the simplest gauge theories. It is known that a topological term of the model leads to the infamous sign problem in the classical Monte Carlo method. In contrast to this, recently, quantum computing in Hamiltonian formalism has gained attention. In this work, we estimate the resources needed for quantum computers to compute physical quantities that are challenging to compute on classical computers. Specifically, we propose an efficient implementation of block-encoding of the Schwinger model Hamiltonian. Considering the structure of the Hamiltonian, this block-encoding with a normalization factor of $\mathcal{O}(N^3)$ can be implemented using $\mathcal{O}(N+\log^2(N/\varepsilon))$ T gates. As an end-to-end application, we compute the vacuum persistence amplitude. As a result, we found that for a system size $N=100$ and an additive error $\varepsilon=0.01$, with an evolution time $t$ and a lattice spacing a satisfying $t/2a=10$, the vacuum persistence amplitude can be calculated using about $10^{13}$ T gates. Our results provide insights into predictions about the performance of quantum computers in the FTQC and early FTQC era, clarifying the challenges in solving meaningful problems within a realistic timeframe.
翻訳日:2023-12-05 20:50:21 公開日:2023-12-04
# lightgaussian: 15倍縮小200fpsの非有界3次元ガウス圧縮

LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS ( http://arxiv.org/abs/2311.17245v2 )

ライセンス: Link先を確認
Zhiwen Fan, Kevin Wang, Kairun Wen, Zehao Zhu, Dejia Xu, Zhangyang Wang(参考訳) ポイントベース技術を用いたリアルタイムニューラルレンダリングの最近の進歩は、3D表現の普及の道を開いた。 しかし、3D Gaussian Splattingのような基本的なアプローチは、SfMポイントを数百万に拡大し、単一の無制限シーンに対してギガバイトレベルのディスクスペースを必要とすることがあり、大きなスケーラビリティ上の課題を生じさせ、スティング効率を妨げている。 この課題に対処するために、我々は3Dガウスをより効率的でコンパクトなフォーマットに変換するために設計された新しい方法であるLightGaussianを紹介する。 ネットワークプルーニングの概念からインスピレーションを得て、lightgaussianはシーンの再構築に寄与しないガウス人を特定し、プルーニングとリカバリのプロセスを採用し、視覚効果を保ちながらガウス数における冗長性を効果的に削減した。 さらに、LightGaussianは、蒸留と擬似ビュー拡張を使用して球面調和を低い程度に蒸留し、反射性を維持しながらよりコンパクトな表現への知識伝達を可能にする。 さらに,全ての属性を量子化するハイブリッド方式であるVecTree Quantizationを提案する。 要約すると、LightGaussian は FPS を 139 から 215 に向上させ、Mip-NeRF 360, Tank と Temple のデータセット上の複雑なシーンの効率的な表現を可能にした。 プロジェクトウェブサイト: https://lightgaussian.github.io/

Recent advancements in real-time neural rendering using point-based techniques have paved the way for the widespread adoption of 3D representations. However, foundational approaches like 3D Gaussian Splatting come with a substantial storage overhead caused by growing the SfM points to millions, often demanding gigabyte-level disk space for a single unbounded scene, posing significant scalability challenges and hindering the splatting efficiency. To address this challenge, we introduce LightGaussian, a novel method designed to transform 3D Gaussians into a more efficient and compact format. Drawing inspiration from the concept of Network Pruning, LightGaussian identifies Gaussians that are insignificant in contributing to the scene reconstruction and adopts a pruning and recovery process, effectively reducing redundancy in Gaussian counts while preserving visual effects. Additionally, LightGaussian employs distillation and pseudo-view augmentation to distill spherical harmonics to a lower degree, allowing knowledge transfer to more compact representations while maintaining reflectance. Furthermore, we propose a hybrid scheme, VecTree Quantization, to quantize all attributes, resulting in lower bitwidth representations with minimal accuracy losses. In summary, LightGaussian achieves an averaged compression rate over 15x while boosting the FPS from 139 to 215, enabling an efficient representation of complex scenes on Mip-NeRF 360, Tank and Temple datasets. Project website: https://lightgaussian.github.io/
翻訳日:2023-12-05 20:49:29 公開日:2023-12-04
# エッジにおける高能率深部音声理解

Efficient Deep Speech Understanding at the Edge ( http://arxiv.org/abs/2311.17065v2 )

ライセンス: Link先を確認
Rongxiang Wang and Felix Xiaozhu Lin(参考訳) 現代音声理解(su)では、ストリーミング音声入力の取り込みを含む洗練されたパイプラインが採用されている。 パイプラインはビームサーチを繰り返し実行し、ディープニューラルネットワークを呼び出し、自己回帰的に仮出力(仮説と呼ばれる)を生成する。 定期的に、パイプラインは注意力と接続性時間分類(CTC)のスコアを評価する。 本稿では,エッジデバイスにおけるsu性能を限られた資源で向上することを目的とする。 ハイブリッド戦略を採用することで、デバイス上での実行を加速し、デバイスの能力を超える入力をオフロードすることに注力する。 1)後期文脈化:入力の取り込み中にモデルの注意エンコーダを並列実行することを含む。 2)パイロット推論:SUパイプラインの時間的負荷不均衡に対処し,効率よく軽減することを目的とする。 3)自己回帰オフランプ(autoregression offramps): オフロードに関する決定は仮説のみに基づいて行われ、新しいアプローチを示す。 これらのテクニックは、既存の音声モデル、パイプライン、フレームワークとシームレスに統合するように設計されており、独立したアプリケーションや複合アプリケーションの柔軟性を提供する。 集合的に、エッジSUのハイブリッド溶液を形成する。 XYZという名前のプロトタイプは、6から8コアのArmプラットフォーム上でテストを行い、最先端の精度を示している。 特に、エンドツーエンドのレイテンシが2倍削減され、オフロード要件が2倍削減される。

In contemporary speech understanding (SU), a sophisticated pipeline is employed, encompassing the ingestion of streaming voice input. The pipeline executes beam search iteratively, invoking a deep neural network to generate tentative outputs (referred to as hypotheses) in an autoregressive manner. Periodically, the pipeline assesses attention and Connectionist Temporal Classification (CTC) scores. This paper aims to enhance SU performance on edge devices with limited resources. Adopting a hybrid strategy, our approach focuses on accelerating on-device execution and offloading inputs surpassing the device's capacity. While this approach is established, we tackle SU's distinctive challenges through innovative techniques: (1) Late Contextualization: This involves the parallel execution of a model's attentive encoder during input ingestion. (2) Pilot Inference: Addressing temporal load imbalances in the SU pipeline, this technique aims to mitigate them effectively. (3) Autoregression Offramps: Decisions regarding offloading are made solely based on hypotheses, presenting a novel approach. These techniques are designed to seamlessly integrate with existing speech models, pipelines, and frameworks, offering flexibility for independent or combined application. Collectively, they form a hybrid solution for edge SU. Our prototype, named XYZ, has undergone testing on Arm platforms featuring 6 to 8 cores, demonstrating state-of-the-art accuracy. Notably, it achieves a 2x reduction in end-to-end latency and a corresponding 2x decrease in offloading requirements.
翻訳日:2023-12-05 20:47:57 公開日:2023-12-04
# がん検出のためのマルチモーダル医療画像の深層学習に関する調査

Survey on deep learning in multimodal medical imaging for cancer detection ( http://arxiv.org/abs/2312.01573v1 )

ライセンス: Link先を確認
Yan Tian, Zhaocheng Xu, Yujun Ma, Weiping Ding, Ruili Wang, Zhihong Gao, Guohua Cheng, Linyang He, Xuran Zhao(参考訳) マルチモーダルがん検出のタスクは、がん診断の重要な研究方法の1つである異なるイメージング技術を用いて、病変の位置と分類を決定することである。 近年, 深層学習に基づく物体検出は, 意味的特徴抽出と非線形機能適合の強さから, 顕著な発展を遂げている。 しかし, 病変の形態的差異, 患者間変異, アノテーションの難しさ, 画像所見などにより, マルチモーダル癌検出はいまだに困難である。 本研究では,近年,深層学習を用いたマルチモーダル癌検出に関する150以上の論文を主に調査し,データアノテーションやクラス間の差異,小規模病変,閉塞など,さまざまな課題に対するデータセットと解決策に焦点を当てた。 また、それぞれのアプローチの利点と欠点の概要も提供します。 最後に,現在の作業範囲について考察し,マルチモーダル癌検出の今後の発展に向けた方向性を示す。

The task of multimodal cancer detection is to determine the locations and categories of lesions by using different imaging techniques, which is one of the key research methods for cancer diagnosis. Recently, deep learning-based object detection has made significant developments due to its strength in semantic feature extraction and nonlinear function fitting. However, multimodal cancer detection remains challenging due to morphological differences in lesions, interpatient variability, difficulty in annotation, and imaging artifacts. In this survey, we mainly investigate over 150 papers in recent years with respect to multimodal cancer detection using deep learning, with a focus on datasets and solutions to various challenges such as data annotation, variance between classes, small-scale lesions, and occlusion. We also provide an overview of the advantages and drawbacks of each approach. Finally, we discuss the current scope of work and provide directions for the future development of multimodal cancer detection.
翻訳日:2023-12-05 16:49:01 公開日:2023-12-04
# 視覚的質問応答のための良質なコンテキスト内シーケンスの設定方法

How to Configure Good In-Context Sequence for Visual Question Answering ( http://arxiv.org/abs/2312.01571v1 )

ライセンス: Link先を確認
Li Li, Jiawei Peng, Huiyi Chen, Chongyang Gao, Xu Yang(参考訳) NLPにおけるIn-Context Learning (ICL)による新しいタスク処理におけるLarge Language Modelsの成功に触発されて、研究者はICL機能付きLVLM(Large Vision-Language Models)も開発した。 しかしながら、これらのLVLMを用いてICLを実装する場合、研究者は通常、ランダムサンプリングのような最も単純な方法でインコンテキストシーケンスを構成する。 本研究では,視覚質問応答(visual question answering, vqa)をケーススタディとして,多様なコンテキスト内構成を探索し,強みを見出す。 さらに,LVLMの出力の変化をコンテキスト内シーケンスを変えて観察することで,LVLMの内部特性の洞察を得て,その理解を深める。 具体的には、コンテキスト内構成を探索するために、多様な検索方法を設計し、検索されたデモを操作するために異なる戦略を用いる。 VQAv2、VizWiz、OK-VQAの3つのVQAデータセットに対する徹底的な実験により、適用されたLVLMの3つの重要な内部特性を発見し、ICL VQAのパフォーマンスを継続的に改善できる戦略を実証した。 私たちのコードは、https://github.com/GaryJiajia/OFv2_ICL_VQAで提供されます。

Inspired by the success of Large Language Models in dealing with new tasks via In-Context Learning (ICL) in NLP, researchers have also developed Large Vision-Language Models (LVLMs) with ICL capabilities. However, when implementing ICL using these LVLMs, researchers usually resort to the simplest way like random sampling to configure the in-context sequence, thus leading to sub-optimal results. To enhance the ICL performance, in this study, we use Visual Question Answering (VQA) as case study to explore diverse in-context configurations to find the powerful ones. Additionally, through observing the changes of the LVLM outputs by altering the in-context sequence, we gain insights into the inner properties of LVLMs, improving our understanding of them. Specifically, to explore in-context configurations, we design diverse retrieval methods and employ different strategies to manipulate the retrieved demonstrations. Through exhaustive experiments on three VQA datasets: VQAv2, VizWiz, and OK-VQA, we uncover three important inner properties of the applied LVLM and demonstrate which strategies can consistently improve the ICL VQA performance. Our code is provided in: https://github.com/GaryJiajia/OFv2_ICL_VQA.
翻訳日:2023-12-05 16:48:46 公開日:2023-12-04
# 決定図を用いた並列量子シミュレーション

Parallelizing quantum simulation with decision diagrams ( http://arxiv.org/abs/2312.01570v1 )

ライセンス: Link先を確認
Shaowen Li, Yusuke Kimura, Hiroyuki Sato, Junwei Yu, Masahiro Fujita(参考訳) 最近の技術進歩は、量子力学現象を計算に活用することを約束している。 これは、かつて古典的世界では難解であると考えられていた問題にかなりのスピードアップをもたらす。 しかし、量子コンピュータの物理的実現はわれわれには程遠いものであり、研究の大部分は古典的なコンピュータ上で動く量子シミュレータを用いて行われている。 古典的コンピュータは量子アルゴリズムのシミュレーションにおいて重要な障害に直面している。 量子状態はヒルベルト空間に存在し、その大きさはサブシステム、すなわち量子ビットの数に指数関数的に増加する。 その結果、ストレートな状態ベクトルアプローチは、メモリ要求の指数関数的な増加のためにスケールしない。 近年、量子状態の表現や量子シミュレーションの操作のために決定図が注目されている。 このアプローチの主な利点は冗長性を利用する能力である。 しかし、主流の量子シミュレータは状態ベクトルやテンソルネットワークに依存している。 我々は,並列化戦略の欠如による意思決定図の欠如を考える。 本研究は、特に量子シミュレーションにおいて、決定ダイアグラム演算を並列化するいくつかの戦略を探求する。 最適な並列化戦略を提案する。 実験結果に基づき,本手法は,最先端のシングルスレッドddベースのシミュレータddsimよりも,groverのアルゴリズムとランダム回路の2~3倍高速シミュレーションを実現する。

Recent technological advancements show promise in leveraging quantum mechanical phenomena for computation. This brings substantial speed-ups to problems that are once considered to be intractable in the classical world. However, the physical realization of quantum computers is still far away from us, and a majority of research work is done using quantum simulators running on classical computers. Classical computers face a critical obstacle in simulating quantum algorithms. Quantum states reside in a Hilbert space whose size grows exponentially to the number of subsystems, i.e., qubits. As a result, the straightforward statevector approach does not scale due to the exponential growth of the memory requirement. Decision diagrams have gained attention in recent years for representing quantum states and operations in quantum simulations. The main advantage of this approach is its ability to exploit redundancy. However, mainstream quantum simulators still rely on statevectors or tensor networks. We consider the absence of decision diagrams due to the lack of parallelization strategies. This work explores several strategies for parallelizing decision diagram operations, specifically for quantum simulations. We propose optimal parallelization strategies. Based on the experiment results, our parallelization strategy achieves a 2-3 times faster simulation of Grover's algorithm and random circuits than the state-of-the-art single-thread DD-based simulator DDSIM.
翻訳日:2023-12-05 16:48:21 公開日:2023-12-04
# 量子変分機械学習の自動化に向けて

Toward Automated Quantum Variational Machine Learning ( http://arxiv.org/abs/2312.01567v1 )

ライセンス: Link先を確認
Omer Subasi(参考訳) 本研究では,量子変分機械学習の自動化問題に対処する。 我々はMUSEと呼ばれる多局所並列化可能な探索アルゴリズムを開発し、量子変動回路学習の最適性能を実現するための初期点とパラメータの集合を求める。 5つの実世界の分類データセットを用いたシミュレーションでは、平均してMUSEは観測された最低スコアの2.3倍の量子変分法の検出精度を向上させる。 さらに、2つの実世界の回帰データセットに適用すると、MUSEは決定の負の係数から正の係数への予測の品質を向上させる。 さらに、MUSEで訓練された量子変分モデルの分類と回帰スコアは古典的なものと同等である。

In this work, we address the problem of automating quantum variational machine learning. We develop a multi-locality parallelizable search algorithm, called MUSE, to find the initial points and the sets of parameters that achieve the best performance for quantum variational circuit learning. Simulations with five real-world classification datasets indicate that on average, MUSE improves the detection accuracy of quantum variational classifiers 2.3 times with respect to the observed lowest scores. Moreover, when applied to two real-world regression datasets, MUSE improves the quality of the predictions from negative coefficients of determination to positive ones. Furthermore, the classification and regression scores of the quantum variational models trained with MUSE are on par with the classical counterparts.
翻訳日:2023-12-05 16:48:05 公開日:2023-12-04
# APoLLo: ビジョン言語モデルのための統一アダプタとプロンプト学習

APoLLo: Unified Adapter and Prompt Learning for Vision Language Models ( http://arxiv.org/abs/2312.01564v1 )

ライセンス: Link先を確認
Sanjoy Chowdhury, Sayan Nag, Dinesh Manocha(参考訳) 入力テキストの選択は、CLIPのようなVLP(Vision-Language Pretrained)モデルの性能において重要な役割を果たす。 視覚言語モデルのためのアダプタとプロンプト学習を組み合わせた,統合型マルチモーダルアプローチであるapolloを提案する。 本手法は,数ショットで微調整された場合のVLPモデルの一般化能力を大幅に向上する。 トレーニング可能なクロスアテンションベースのアダプタ層を視覚と言語エンコーダと組み合わせて導入し、2つのモード間のアライメントを強化する。 下流タスクの過度な適合を防止するため、各エンコーダブランチ間の整合性(追加入力の受信)を強制する。 提案手法は,新しいクラスへの一般化,クロスデータセット評価,未確認領域シフトの3つのタスクで評価される。 実際には、APoLLoは10種類の画像認識データセットのための新しいクラスにおいて、MaPLe (SOTA)よりも6.03%向上している。

The choice of input text prompt plays a critical role in the performance of Vision-Language Pretrained (VLP) models such as CLIP. We present APoLLo, a unified multi-modal approach that combines Adapter and Prompt learning for Vision-Language models. Our method is designed to substantially improve the generalization capabilities of VLP models when they are fine-tuned in a few-shot setting. We introduce trainable cross-attention-based adapter layers in conjunction with vision and language encoders to strengthen the alignment between the two modalities. We enforce consistency between the respective encoder branches (receiving augmented inputs) to prevent overfitting in downstream tasks. Our method is evaluated on three representative tasks: generalization to novel classes, cross-dataset evaluation, and unseen domain shifts. In practice, APoLLo achieves a relative gain up to 6.03% over MaPLe (SOTA) on novel classes for 10 diverse image recognition datasets.
翻訳日:2023-12-05 16:47:54 公開日:2023-12-04
# 遺伝的アルゴリズムを用いた量子サポートベクトルマシンのカーネルアライメント

Kernel Alignment for Quantum Support Vector Machines Using Genetic Algorithms ( http://arxiv.org/abs/2312.01562v1 )

ライセンス: Link先を確認
Floyd M. Creevey, Jamie A. Heredge, Martin E. Sevior, Lloyd C. L. Hollenberg(参考訳) 量子サポートベクトルマシン(QSVM)カーネルで使用されるデータ符号化回路は、その分類精度において重要な役割を果たす。 しかし、これらの回路を手動で設計することは、時間と性能の面で大きな課題となる。 そこで我々は,GASP(Genetic Algorithm for State Preparation)フレームワークを利用して,QSVMカーネル回路のゲートシーケンス選択を行う。 本稿では、カーネル損失関数が符号化回路の最適化に与える影響について検討し、バイナリおよびマルチクラスシナリオのための多様なデータセットで評価する。 古典的および量子的カーネルに対するベンチマークでは、GA生成回路が標準技術に適合または超えていることが明らかになった。 本研究では,テスト精度と量子カーネルエントロピーの関係を分析し,正の相関を示す。 我々の自動フレームワークは、試行錯誤を低減し、ファイナンス、ヘルスケア、材料科学アプリケーションのためのQSVMベースの機械学習性能を改善する。

The data encoding circuits used in quantum support vector machine (QSVM) kernels play a crucial role in their classification accuracy. However, manually designing these circuits poses significant challenges in terms of time and performance. To address this, we leverage the GASP (Genetic Algorithm for State Preparation) framework for gate sequence selection in QSVM kernel circuits. We explore supervised and unsupervised kernel loss functions' impact on encoding circuit optimisation and evaluate them on diverse datasets for binary and multiple-class scenarios. Benchmarking against classical and quantum kernels reveals GA-generated circuits matching or surpassing standard techniques. We analyse the relationship between test accuracy and quantum kernel entropy, with results indicating a positive correlation. Our automated framework reduces trial and error, and enables improved QSVM based machine learning performance for finance, healthcare, and materials science applications.
翻訳日:2023-12-05 16:47:38 公開日:2023-12-04
# 任意カメラネットワークを用いた多視点人物マッチングと3次元ポーズ推定

Multi-View Person Matching and 3D Pose Estimation with Arbitrary Uncalibrated Camera Networks ( http://arxiv.org/abs/2312.01561v1 )

ライセンス: Link先を確認
Yan Xu, Kris Kitani(参考訳) マルチカメラネットワークにおけるクロスビュー人物マッチングと3次元人物ポーズ推定は,カメラが極端に非対応である場合,特に困難である。 既存の取り組みは一般的に、ニューラルネットワークのトレーニングや既知のカメラのための大量の3Dデータを必要とする。 しかし、カメラポーズと3dデータアノテーションは通常高価であり、必ずしも利用可能ではない。 どちらの情報も必要とせずに2つの課題を解く手法であるPMEを提案する。 本研究では,クラスタセンタとして各人物を用いたクラスタリング問題としてクロスビュー人物マッチングに対処し,個人マッチングから対応文を取得し,マルチビュー三角測量とバンドル調整により3次元人間のポーズを推定する。 本稿では,カメラ数とソース制約を用いた「サイズ制約」を導入し,同じカメラビューから2人が一致しないという事実を用いて,解空間を小さな実現可能な領域に絞り込むことにより,クラスタリング問題を解決する。 クラスタリングに使用する2次元人間のポーズは,事前学習された2次元ポーズ検出器によって得られるため,新たなシーン毎に高価な3次元トレーニングデータを必要としない。 本手法は,任意に設定したカメラを用いて収集した3つのオープンデータセットと2つの屋内および屋外データセットについて広範囲に評価した。 提案手法は, カメラポーズや3次元トレーニングデータを用いずに3次元ポーズ推定におけるSOTA性能に到達し, 各種環境設定の5つのデータセット間で良好な一般化能力を示す。

Cross-view person matching and 3D human pose estimation in multi-camera networks are particularly difficult when the cameras are extrinsically uncalibrated. Existing efforts generally require large amounts of 3D data for training neural networks or known camera poses for geometric constraints to solve the problem. However, camera poses and 3D data annotation are usually expensive and not always available. We present a method, PME, that solves the two tasks without requiring either information. Our idea is to address cross-view person matching as a clustering problem using each person as a cluster center, then obtain correspondences from person matches, and estimate 3D human poses through multi-view triangulation and bundle adjustment. We solve the clustering problem by introducing a "size constraint" using the number of cameras and a "source constraint" using the fact that two people from the same camera view should not match, to narrow the solution space to a small feasible region. The 2D human poses used in clustering are obtained through a pre-trained 2D pose detector, so our method does not require expensive 3D training data for each new scene. We extensively evaluate our method on three open datasets and two indoor and outdoor datasets collected using arbitrarily set cameras. Our method outperforms other methods by a large margin on cross-view person matching, reaches SOTA performance on 3D human pose estimation without using either camera poses or 3D training data, and shows good generalization ability across five datasets of various environment settings.
翻訳日:2023-12-05 16:47:25 公開日:2023-12-04
# サンプリングと入射ニューラル表現を用いたハイパースペクトル画像圧縮

Hyperspectral Image Compression Using Sampling and Implicit Neural Representations ( http://arxiv.org/abs/2312.01558v1 )

ライセンス: Link先を確認
Shima Rezasoltani and Faisal Z. Qureshi(参考訳) ハイパースペクトル画像は、シーンの画像中のピクセルの電磁スペクトルを記録し、しばしば1ピクセルあたり数百のチャネルを格納し、同じ大きさのRBGカラー画像よりも桁違いに多くの情報を含む。 その結果、これらの画像の撮影コストの低減と相まって、ハイパースペクトル画像の保存、送信、解析のための効率的な技術を開発する必要がある。 本稿では,正弦波アクティベーション機能を有する多層パーセプトロンネットワークFが,所定のハイパースペクトル画像Iに対して画素位置を画素強度にマッピングする「学習」を行う暗黙のニューラル表現を用いたハイパースペクトル画像圧縮法を提案する。 圧縮時間を短縮するために,ウィンドウサイズとサンプリングレートの2つの要因を持つサンプリング手法を用いる。 Indian Pines, Jasper Ridge, Pavia University, Cupriteの4つのベンチマークでPSNRとSSIMを用いて評価し, 提案手法はJPEG, JPEG2000, PCA-DCTよりも低ビットレートで圧縮性が高いことを示す。 さらに,PCA+JPEG2000,FPCA+JPEG2000,3D DCT,3D DWT+SVR,WSRCなどの学習手法と比較し,この結果について「圧縮結果」セクションで示す。 また,サンプリングを伴わない手法では,サンプリングを伴わない手法よりも,高速化と性能が向上することを示した。

Hyperspectral images, which record the electromagnetic spectrum for a pixel in the image of a scene, often store hundreds of channels per pixel and contain an order of magnitude more information than a similarly-sized RBG color image. Consequently, concomitant with the decreasing cost of capturing these images, there is a need to develop efficient techniques for storing, transmitting, and analyzing hyperspectral images. This paper develops a method for hyperspectral image compression using implicit neural representations where a multilayer perceptron network F with sinusoidal activation functions "learns" to map pixel locations to pixel intensities for a given hyperspectral image I. F thus acts as a compressed encoding of this image, and the original image is reconstructed by evaluating F at each pixel location. We use a sampling method with two factors: window size and sampling rate to reduce the compression time. We have evaluated our method on four benchmarks -- Indian Pines, Jasper Ridge, Pavia University, and Cuprite using PSNR and SSIM -- and we show that the proposed method achieves better compression than JPEG, JPEG2000, and PCA-DCT at low bitrates. Besides, we compare our results with the learning-based methods like PCA+JPEG2000, FPCA+JPEG2000, 3D DCT, 3D DWT+SVR, and WSRC and show the corresponding results in the "Compression Results" section. We also show that our methods with sampling achieve better speed and performance than our method without sampling.
翻訳日:2023-12-05 16:47:01 公開日:2023-12-04
# ラグランジュ場理論における外部ポテンシャルとエーレンフェスト関係

External Potentials and Ehrenfest Relations in Lagrangian Field Theories ( http://arxiv.org/abs/2312.01557v1 )

ライセンス: Link先を確認
Rayn Samson(参考訳) 本稿では,外部の座標依存スカラーポテンシャルを適用した場合のラグランジュ場理論に対するehrenfest-likeリレーションを構成する一般的な方法を開発した。 そのため、ポテンシャルの空間微分と時間微分をそれぞれ場運動量と場エネルギーの源として解釈できる連続性方程式を導出する。 非相対論的シュリンガー場の理論では、これらの連続性方程式はエレンフェストのエネルギー、線型運動量、角運動量に関する定理をもたらす。 次に、複素クライン・ゴルドン場とポテンシャルを結合したこれらの関係に対する相対論的対応を導出する。

This paper develops a general method to construct Ehrenfest-like relations for Lagrangian field theories when an external, coordinate-dependent scalar potential is applied. To do so, we derive continuity equations in which the spatial and temporal derivatives of the potential can be interpreted as a source of field momentum and field energy, respectively. For a non-relativistic Schr\"odinger field theory, these continuity equations yield Ehrenfest's theorem for energy, linear momentum, and angular momentum. We then derive a relativistic counterpart for these relations using complex Klein-Gordon fields coupled with an electric potential.
翻訳日:2023-12-05 16:46:30 公開日:2023-12-04
# 説明可能なAIは責任を負う - 説明可能なAIが信頼できる社会的責任を持つ人工知能を生み出す方法

Explainable AI is Responsible AI: How Explainability Creates Trustworthy and Socially Responsible Artificial Intelligence ( http://arxiv.org/abs/2312.01555v1 )

ライセンス: Link先を確認
Stephanie Baker, Wei Xiang(参考訳) 人工知能(AI)は、医療から金融へ分野を変革する可能性を持つ技術として明確に確立されている。 これは責任あるAIのトピックであり、バイアスを最小限に抑え、プライバシーを保護し、セキュリティをサポートし、透明性と説明責任を高める、信頼できるAIシステムを開発する必要性を強調している。 説明可能なAI(XAI)は、責任あるAI(RAI)のためのビルディングブロックとして広く考えられており、ほとんどの文献は、透明性向上のソリューションとして、それを考慮する。 この研究は、XAIと責任あるAIがより深く絡み合っていることを示唆している。 本研究では,RAI技術とXAI技術に関する最先端の文献について考察する。 我々の知見に基づいて、XAIは、幅広い文脈で公正性、堅牢性、プライバシ、セキュリティ、透明性を確保するために利用できることを示した。 以上の結果から,XAIはRAIのすべての柱にとって不可欠な基盤であると考えられた。

Artificial intelligence (AI) has been clearly established as a technology with the potential to revolutionize fields from healthcare to finance - if developed and deployed responsibly. This is the topic of responsible AI, which emphasizes the need to develop trustworthy AI systems that minimize bias, protect privacy, support security, and enhance transparency and accountability. Explainable AI (XAI) has been broadly considered as a building block for responsible AI (RAI), with most of the literature considering it as a solution for improved transparency. This work proposes that XAI and responsible AI are significantly more deeply entwined. In this work, we explore state-of-the-art literature on RAI and XAI technologies. Based on our findings, we demonstrate that XAI can be utilized to ensure fairness, robustness, privacy, security, and transparency in a wide range of contexts. Our findings lead us to conclude that XAI is an essential foundation for every pillar of RAI.
翻訳日:2023-12-05 16:46:18 公開日:2023-12-04
# base llmsのアンロックスペル: インコンテキスト学習によるアライメント再考

The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning ( http://arxiv.org/abs/2312.01552v1 )

ライセンス: Link先を確認
Bill Yuchen Lin, Abhilasha Ravichander, Ximing Lu, Nouha Dziri, Melanie Sclar, Khyathi Chandu, Chandra Bhagavatula, Yejin Choi(参考訳) 大規模言語モデル(LLM)のアライメントチューニングプロセスは、典型的には、教師付き微調整(SFT)による指導学習と、人間からのフィードバック(RLHF)による強化学習による選好チューニングを含む。 最近の研究であるLIMA (Zhou et al. 2023) は、単に1KのサンプルをSFTに使用すれば、アライメントのパフォーマンスも向上し、アライメントチューニングの効果が「超越的」である可能性を示唆している。 これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。 基本LLMとその配位子間のトークン分布シフトを調べることでアライメントチューニングの効果を解析する。 本研究により, トークン位置の復号化において, 基本LLMとアライメント調整版がほぼ同じ性能を示した。 ほとんどの分布シフトはスタイリスティックなトークンで起こる。 これらの直接的な証拠はLIMAが提案した表面配向仮説を強く支持している。 これらの知見に基づいて,SFT や RLHF を使わずに,LLM のアライメントをいかに効果的に調整できるかという研究課題を提起することによって,LLM のアライメントを再考する。 そこで本研究では,シンプルなチューニング不要アライメント手法URIALを提案する。 URIALは、テキスト内学習(ICL)をベースLLMと組み合わせることで、効果的なアライメントを実現し、3つの定常的なスタイリスティックな例とシステムプロンプトを必要とする。 我々は,JUST-EVAL-INSTRUCTという,多種多様な例に対して,きめ細かな,解釈可能な評価を行う。 その結果, URIAL をベースとした LLM は, SFT や SFT+RLHF と整合した LLM の性能に適合したり, 上回ったりできることを示した。 我々は,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトとICLによって著しく低減できることを示す。 我々は,アライメント調整の表層的性質とURIALによる結果から,アライメントの深い解析と理論的理解が今後のLLM研究に不可欠であることが示唆された。

The alignment tuning process of large language models (LLMs) typically involves instruction learning through supervised fine-tuning (SFT) and preference tuning via reinforcement learning from human feedback (RLHF). A recent study, LIMA (Zhou et al. 2023), shows that using merely 1K examples for SFT can achieve significant alignment performance as well, suggesting that the effect of alignment tuning might be "superficial." This raises questions about how exactly the alignment tuning transforms a base LLM. We analyze the effect of alignment tuning by examining the token distribution shift between base LLMs and their aligned counterpart. Our findings reveal that base LLMs and their alignment-tuned versions perform nearly identically in decoding on the majority of token positions. Most distribution shifts occur with stylistic tokens. These direct evidence strongly supports the Superficial Alignment Hypothesis suggested by LIMA. Based on these findings, we rethink the alignment of LLMs by posing the research question: how effectively can we align base LLMs without SFT or RLHF? To address this, we introduce a simple, tuning-free alignment method, URIAL. URIAL achieves effective alignment purely through in-context learning (ICL) with base LLMs, requiring as few as three constant stylistic examples and a system prompt. We conduct a fine-grained and interpretable evaluation on a diverse set of examples, named JUST-EVAL-INSTRUCT. Results demonstrate that base LLMs with URIAL can match or even surpass the performance of LLMs aligned with SFT or SFT+RLHF. We show that the gap between tuning-free and tuning-based alignment methods can be significantly reduced through strategic prompting and ICL. Our findings on the superficial nature of alignment tuning and results with URIAL suggest that deeper analysis and theoretical understanding of alignment is crucial to future LLM research.
翻訳日:2023-12-05 16:46:03 公開日:2023-12-04
# ハマー汚染を持つガウスの近似アルゴリズム:平均推定と線形回帰

Near-Optimal Algorithms for Gaussians with Huber Contamination: Mean Estimation and Linear Regression ( http://arxiv.org/abs/2312.01547v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Ankit Pensia, Thanasis Pittas(参考訳) ガウス平均推定とガウス共変量を用いた線形回帰の基本問題について, フーバー汚染の存在下で検討した。 我々の主な貢献は、これら2つの問題に対して最適なエラー保証を備えた、ほぼ最適およびほぼ線形時間アルゴリズムの最初のサンプルの設計である。 具体的には、gaussian robust mean estimation on $\mathbb{r}^d$ with contamination parameter $\epsilon \in (0, \epsilon_0)$ for a small absolute constant $\epsilon_0$ に対して、サンプル複雑性 $n = \tilde{o}(d/\epsilon^2)$ のアルゴリズムと、$\ell_2$-error $o(\epsilon)$の目標平均を近似するほぼ線形なランタイムを与える。 これにより、多項式の準最適サンプルと時間の複雑さにより、このエラー保証を達成する事前作業が改善される。 堅牢な線形回帰のために、サンプル複雑性$n = \tilde{O}(d/\epsilon^2)$と、ターゲット回帰器を$\ell_2$-error $O(\epsilon)$で近似するほぼ線形ランタイムを持つ最初のアルゴリズムを与える。 これは、最適誤差保証を達成する最初の多項式のサンプルと時間アルゴリズムであり、文献の公開質問に答えている。 技術的レベルでは、より広範な関心を持つ多方向フィルタリングのためのほぼ直線的な時間アルゴリズムを生成する手法を開発する。

We study the fundamental problems of Gaussian mean estimation and linear regression with Gaussian covariates in the presence of Huber contamination. Our main contribution is the design of the first sample near-optimal and almost linear-time algorithms with optimal error guarantees for both of these problems. Specifically, for Gaussian robust mean estimation on $\mathbb{R}^d$ with contamination parameter $\epsilon \in (0, \epsilon_0)$ for a small absolute constant $\epsilon_0$, we give an algorithm with sample complexity $n = \tilde{O}(d/\epsilon^2)$ and almost linear runtime that approximates the target mean within $\ell_2$-error $O(\epsilon)$. This improves on prior work that achieved this error guarantee with polynomially suboptimal sample and time complexity. For robust linear regression, we give the first algorithm with sample complexity $n = \tilde{O}(d/\epsilon^2)$ and almost linear runtime that approximates the target regressor within $\ell_2$-error $O(\epsilon)$. This is the first polynomial sample and time algorithm achieving the optimal error guarantee, answering an open question in the literature. At the technical level, we develop a methodology that yields almost-linear time algorithms for multi-directional filtering that may be of broader interest.
翻訳日:2023-12-05 16:45:27 公開日:2023-12-04
# 多モード非線形連続変数における横絡み機構

Diverse Entanglement Mechanisms in Multimode Nonlinear Continuous Variables ( http://arxiv.org/abs/2312.01545v1 )

ライセンス: Link先を確認
Da Zhang, David Barral, Yanpeng Zhang, and Kamel Bencheikh(参考訳) 非ガウス的絡み合った状態は、連続変数量子情報において量子優位性を利用する上で重要な役割を果たす。 しかし、N-粒子(N > 3)の非ガウス的絡み合いを量子状態トモグラフィーなしで完全に特徴づける方法はまだ解明されていない。 本稿では,高次ハミルトニアンと逐次ビーム分割演算から生じる多モード非線形量子状態の正の偏移分離性に必要十分条件をいくつか提案する。 初期状態に適用すると、ビームスプリッタ動作は、対方向の高次絡み、集合的な高次絡み、両者の交叉を含む異なるタイプの絡み合い機構の出現を誘導する。 4モードのシナリオでは、任意の分岐に対する絡み合いの存在のしきい値は、固定された高次モーメントにおける元の状態の絡み合いを超えないことを示す。 これらの結果は、多部非線形絡み合いを理解するための新しい視点を与え、量子情報処理への応用を促進する。

Non-Gaussian entangled states play a crucial role in harnessing quantum advantage in continuous-variable quantum information. However, how to fully characterize N-partite (N > 3) non-Gaussian entanglement without quantum state tomography remains elusive, leading to a very limited understanding of the underlying entanglement mechanism. Here, we propose several necessary and sufficient conditions for the positive-partial-transposition separability of multimode nonlinear quantum states resulting from high-order Hamiltonians and successive beam splitting operations. When applied to the initial state, the beam-splitter operations induce the emergence of different types of entanglement mechanisms, including pairwise high-order entanglement, collective high-order entanglement and the crossover between the two. We show numerically that for the four-mode scenario, the threshold for the existence of entanglement for any bipartition does not exceed the entanglement of the original state at fixed high-order moments. These results provide a new perspective for understanding multipartite nonlinear entanglement and will promote their application in quantum information processing.
翻訳日:2023-12-05 16:44:49 公開日:2023-12-04
# KEEC: 等変幾何学の制御に埋め込まれる

KEEC: Embed to Control on An Equivariant Geometry ( http://arxiv.org/abs/2312.01544v1 )

ライセンス: Link先を確認
Xiaoyuan Cheng, Yiming Yang, Wei Jiang, Yukun Hu(参考訳) 本稿では, カオス系や非線形系などの未知および複素力学における表現学習の最適制御を, 事前の領域知識に頼らずに実現する方法について検討する。 中心となる考え方は、力学系によって定義される多様体に微分同型である同変幾何学を確立し、非自明なタスクであるこの幾何学の中で最適な制御を行うことである。 この課題に対処するために、モデル学習と制御のためにKoopman Embed to Equivariant Control (KEEC)が導入されている。 リー理論に着想を得たKEECは、多様体上で定義された非線形力学系を学び、軌跡をリー群に埋め込むことから始める。 その後、KEECは同変幾何学の強化学習における同変値関数方程式を定式化し、元の多様体上の値関数として不変性を保証する。 等価値関数に対する解析的形式的最適作用を導出することにより、keecは理論上、同変幾何上の微分情報を利用して最適同変値関数の二次収束を達成する。 KEECの有効性は、ロレンツ63のようなカオス的なシステムを含む挑戦的な力学系で実証されている。 特に, 等角的, 等方的損失関数, 幾何のコンパクト性, 滑らか性を保証し, それらの特性を伴わない損失関数よりも優れていた。

This paper investigates how representation learning can enable optimal control in unknown and complex dynamics, such as chaotic and non-linear systems, without relying on prior domain knowledge of the dynamics. The core idea is to establish an equivariant geometry that is diffeomorphic to the manifold defined by a dynamical system and to perform optimal control within this corresponding geometry, which is a non-trivial task. To address this challenge, Koopman Embed to Equivariant Control (KEEC) is introduced for model learning and control. Inspired by Lie theory, KEEC begins by learning a non-linear dynamical system defined on a manifold and embedding trajectories into a Lie group. Subsequently, KEEC formulates an equivariant value function equation in reinforcement learning on the equivariant geometry, ensuring an invariant effect as the value function on the original manifold. By deriving analytical-form optimal actions on the equivariant value function, KEEC theoretically achieves quadratic convergence for the optimal equivariant value function by leveraging the differential information on the equivariant geometry. The effectiveness of KEEC is demonstrated in challenging dynamical systems, including chaotic ones like Lorenz-63. Notably, our findings indicate that isometric and isomorphic loss functions, ensuring the compactness and smoothness of geometry, outperform loss functions without these properties.
翻訳日:2023-12-05 16:44:31 公開日:2023-12-04
# 量子時系列類似度尺度と量子時間カーネル

Quantum Time Series Similarity Measures and Quantum Temporal Kernels ( http://arxiv.org/abs/2312.01602v1 )

ライセンス: Link先を確認
Vanio Markov, Vladimir Rastunkov, Daniel Fry(参考訳) 本稿では,確率記号時系列の分類のための類似度尺度とカーネルの設計に対する量子コンピューティング手法を提案する。 類似性は時系列の量子生成モデルによって推定される。 各シーケンスのクラスが将来の進化に依存するような分類タスクを考える。 この場合、確率的生成モデルは、列間の同値と距離の自然な概念を提供する。 核関数は生成モデルから導出され、シーケンスの進化に関する情報を活用し、シーケンスを生成する確率過程がマルコフであり、量子隠れマルコフモデル(qhmm)によってモデル化されると仮定する。 このモデルはヒルベルト空間における混合量子状態の経路を通じて各配列の生成を定義する。 観測された記号は、各状態における測定演算子の適用によって放出される。 生成モデルはカーネルの機能空間を定義する。 カーネルは、各シーケンスを生成パスの最終状態にマップする。 この過程と量子演算が収縮的であるという事実に関するマルコフの仮定は、状態の類似性が状態によって定義される分布とそれらの状態に由来する過程の(確率的)類似性を意味することを保証している。 これは、将来の振る舞いに基づいて、シーケンスの分類のためにこのクラスのカーネルを提案するのに使用するヒューリスティックである。 提案手法は,金融業界における高周波シンボル時系列の分類に応用される。

This article presents a quantum computing approach to the design of similarity measures and kernels for classification of stochastic symbol time series. The similarity is estimated through a quantum generative model of the time series. We consider classification tasks where the class of each sequence depends on its future evolution. In this case a stochastic generative model provides natural notions of equivalence and distance between the sequences. The kernel functions are derived from the generative model, exploiting its information about the sequences evolution.We assume that the stochastic process generating the sequences is Markovian and model it by a Quantum Hidden Markov Model (QHMM). The model defines the generation of each sequence through a path of mixed quantum states in its Hilbert space. The observed symbols are emitted by application of measurement operators at each state. The generative model defines the feature space for the kernel. The kernel maps each sequence to the final state of its generation path. The Markovian assumption about the process and the fact that the quantum operations are contractive, guarantee that the similarity of the states implies (probabilistic) similarity of the distributions defined by the states and the processes originating from these states. This is the heuristic we use in order to propose this class of kernels for classification of sequences, based on their future behavior. The proposed approach is applied for classification of high frequency symbolic time series in the financial industry.
翻訳日:2023-12-05 16:37:46 公開日:2023-12-04
# 時間的知識グラフ推論のための局所的グローバル履歴認識コントラスト学習

Local-Global History-aware Contrastive Learning for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2312.01601v1 )

ライセンス: Link先を確認
Wei Chen, Huaiyu Wan, Yuting Wu, Shuyuan Zhao, Jiayaqi Cheng, Yuxin Li and Youfang Lin(参考訳) 時間的知識グラフ(TKG)は、タイムラインに沿った事実のダイナミクスを表現するための有望なアプローチとして特定されている。 TKGの外挿は、将来起こりうる未知の事実を予測し、様々な分野において重要な実践的価値を持つことである。 TKGにおけるほとんどの外挿研究は、世界的歴史的事実反復と循環的パターンのモデリング、および局所的隣接する事実進化パターンのモデル化に焦点を当てており、将来の未知の事実を予測する上で有望なパフォーマンスを示している。 Yet, existing methods still face two major challenges: (1) They usually neglect the importance of historical information in KG snapshots related to the queries when encoding the local and global historical information; (2) They exhibit weak anti-noise capabilities, which hinders their performance when the inputs are contaminated with noise.To this end, we propose a novel \blue{Lo}cal-\blue{g}lobal history-aware \blue{C}ontrastive \blue{L}earning model (\blue{LogCL}) for TKG reasoning, which adopts contrastive learning to better guide the fusion of local and global historical information and enhance the ability to resist interference. 具体的には、最初の課題としてlogclは、クエリに関連する重要な履歴情報をキャプチャするローカルおよびグローバル履歴ファクトエンコーダに適用されるエンティティ対応注意機構を提案する。 後者の場合、logclは4つの歴史的なクエリコントラストパターンを設計し、モデルのロバスト性を効果的に改善する。 4つのベンチマークデータセットの実験結果は、LogCLが最先端のベースラインよりも優れた、より堅牢なパフォーマンスを提供することを示している。

Temporal knowledge graphs (TKGs) have been identified as a promising approach to represent the dynamics of facts along the timeline. The extrapolation of TKG is to predict unknowable facts happening in the future, holding significant practical value across diverse fields. Most extrapolation studies in TKGs focus on modeling global historical fact repeating and cyclic patterns, as well as local historical adjacent fact evolution patterns, showing promising performance in predicting future unknown facts. Yet, existing methods still face two major challenges: (1) They usually neglect the importance of historical information in KG snapshots related to the queries when encoding the local and global historical information; (2) They exhibit weak anti-noise capabilities, which hinders their performance when the inputs are contaminated with noise.To this end, we propose a novel \blue{Lo}cal-\blue{g}lobal history-aware \blue{C}ontrastive \blue{L}earning model (\blue{LogCL}) for TKG reasoning, which adopts contrastive learning to better guide the fusion of local and global historical information and enhance the ability to resist interference. Specifically, for the first challenge, LogCL proposes an entity-aware attention mechanism applied to the local and global historical facts encoder, which captures the key historical information related to queries. For the latter issue, LogCL designs four historical query contrast patterns, effectively improving the robustness of the model. The experimental results on four benchmark datasets demonstrate that LogCL delivers better and more robust performance than the state-of-the-art baselines.
翻訳日:2023-12-05 16:37:27 公開日:2023-12-04
# 良い質問はゼロショット画像推論に役立つ

Good Questions Help Zero-Shot Image Reasoning ( http://arxiv.org/abs/2312.01598v1 )

ライセンス: Link先を確認
Kaiwen Yang, Tao Shen, Xinmei Tian, Xiubo Geng, Chongyang Tao, Dacheng Tao, Tianyi Zhou(参考訳) コンピュータビジョンモデルを用いた最近の大規模言語モデル(LLM)の調整は、ゼロショット画像推論タスクの道を開いた大型視覚言語モデル(LVLM)につながる。 しかしながら、LVLMは通常、画像内のスパースフォーカス領域のみを参照して、短い高レベルのキャプションで訓練される。 このような‘トンネルビジョン’は、複雑なシーンで他の関連するコンテキストを探索するLVLMを制限する。 この課題に対処するために、ゼロショット推論タスクにおけるLVLMの探索能力を高める新しいプロンプト戦略であるQVix(Q-Driven Visual Exploration)を導入する。 QVixは、入力探索的な質問を生成する前にLLMの強い言語を活用し、LVLMに視覚的コンテンツをより包括的に探索させ、微妙で周辺的な詳細を明らかにする。 QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善する。 我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,複雑な視覚データとLVLMの探索能力のギャップを埋める上でのQVixの有効性を強調した。

Aligning the recent large language models (LLMs) with computer vision models leads to large vision-language models (LVLMs), which have paved the way for zero-shot image reasoning tasks. However, LVLMs are usually trained on short high-level captions only referring to sparse focus regions in images. Such a ``tunnel vision'' limits LVLMs to exploring other relevant contexts in complex scenes. To address this challenge, we introduce Question-Driven Visual Exploration (QVix), a novel prompting strategy that enhances the exploratory capabilities of LVLMs in zero-shot reasoning tasks. QVix leverages LLMs' strong language prior to generate input-exploratory questions with more details than the original query, guiding LVLMs to explore visual content more comprehensively and uncover subtle or peripheral details. QVix enables a wider exploration of visual scenes, improving the LVLMs' reasoning accuracy and depth in tasks such as visual question answering and visual entailment. Our evaluations on various challenging zero-shot vision-language benchmarks, including ScienceQA and fine-grained visual classification, demonstrate that QVix significantly outperforms existing methods, highlighting its effectiveness in bridging the gap between complex visual data and LVLMs' exploratory abilities.
翻訳日:2023-12-05 16:36:58 公開日:2023-12-04
# SCLIP:Dense Vision-Language推論のための自己意識の再考

SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference ( http://arxiv.org/abs/2312.01597v1 )

ライセンス: Link先を確認
Feng Wang, Jieru Mei, Alan Yuille(参考訳) 近年のコントラスト言語画像事前学習(CLIP)の進歩は,画像レベルでの視覚表現とテキスト埋め込みを整列させることにより,ゼロショット分類における強力な能力を示している。 しかし、密集した予測タスクでは、CLIPは画像内の視覚的特徴のローカライズに苦慮し、正確なピクセルレベルの予測を与えることができず、一般化された視覚基盤モデルとして機能しない。 本研究では,CLIPのセマンティックセグメンテーションの可能性を高めることを目的として,事前訓練されたモデルに最小限の変更を加える。 自己注意を再考することによって、CLIPは、単に新しい相関自己意識(CSA)メカニズムを導入することで、密集した予測タスクに適応できることがわかった。 具体的には、従来のCLIPビジョンエンコーダの自己アテンションブロックをCSAモジュールで置き換え、事前訓練されたクエリ、キー、値のプロジェクション行列を再利用することで、CLIPのゼロショットセマンティックセマンティックセグメンテーションに対するトレーニング不要な適応アプローチを実現した。 この論文で強調された8つのセマンティックセグメンテーションベンチマークの38.2%の平均ゼロショットmIoUは、既存のSoTAの33.9%とバニラCLIPの14.1%を大きく上回っている。

Recent advances in contrastive language-image pretraining (CLIP) have demonstrated strong capabilities in zero-shot classification by aligning visual representations with target text embeddings in an image level. However, in dense prediction tasks, CLIP often struggles to localize visual features within an image and fails to give accurate pixel-level predictions, which prevents it from functioning as a generalized visual foundation model. In this work, we aim to enhance CLIP's potential for semantic segmentation with minimal modifications to its pretrained models. By rethinking self-attention, we surprisingly find that CLIP can adapt to dense prediction tasks by simply introducing a novel Correlative Self-Attention (CSA) mechanism. Specifically, we replace the traditional self-attention block of CLIP vision encoder's last layer by our CSA module and reuse its pretrained projection matrices of query, key, and value, leading to a training-free adaptation approach for CLIP's zero-shot semantic segmentation. Extensive experiments show the advantage of CSA: we obtain a 38.2% average zero-shot mIoU across eight semantic segmentation benchmarks highlighted in this paper, significantly outperforming the existing SoTA's 33.9% and the vanilla CLIP's 14.1%.
翻訳日:2023-12-05 16:36:34 公開日:2023-12-04
# マルチモーダル部分アライメントを用いた接地言語学習による視覚情報によるBERT表現の拡張

Expand BERT Representation with Visual Information via Grounded Language Learning with Multimodal Partial Alignment ( http://arxiv.org/abs/2312.01592v1 )

ライセンス: Link先を確認
Cong-Duy Nguyen, The-Anh Vu-Le, Thong Nguyen, Tho Quan, Luu Anh Tuan(参考訳) 言語モデルは、既存の視覚基盤言語学習の研究において、言語のみの目的と視覚の両方で監督されている。 しかし、視覚的なデータセットと言語コーパスの分布と規模の違いにより、言語モデルは、基底データで発生したトークンと、そうでないトークンのコンテキストを混合する傾向にある。 その結果、表現学習中に、視覚情報と文の文脈的意味との間にはミスマッチがある。 この制限を克服するために,視覚的基盤情報でBERT表現を強化する接地言語学習法である GroundedBERT を提案する。 GroundedBERTは2つのコンポーネントから構成される。 (i)言語コーパスから学習した単語の文脈表現をキャプチャする独自のBERT (ii)視覚接地モジュールは、視覚接地データセットから得られた視覚情報をキャプチャする。 さらに,この2つのモダリティ間の分数アライメント問題を解くために,その部分的変種である最適輸送(ot)を用いる。 提案手法は,GLUEおよびSQuADデータセットの各種言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。

Language models have been supervised with both language-only objective and visual grounding in existing studies of visual-grounded language learning. However, due to differences in the distribution and scale of visual-grounded datasets and language corpora, the language model tends to mix up the context of the tokens that occurred in the grounded data with those that do not. As a result, during representation learning, there is a mismatch between the visual information and the contextual meaning of the sentence. To overcome this limitation, we propose GroundedBERT - a grounded language learning method that enhances the BERT representation with visually grounded information. GroundedBERT comprises two components: (i) the original BERT which captures the contextual representation of words learned from the language corpora, and (ii) a visual grounding module which captures visual information learned from visual-grounded datasets. Moreover, we employ Optimal Transport (OT), specifically its partial variant, to solve the fractional alignment problem between the two modalities. Our proposed method significantly outperforms the baseline language models on various language tasks of the GLUE and SQuAD datasets.
翻訳日:2023-12-05 16:36:07 公開日:2023-12-04
# 重み付きデータベースにおけるグローバー探索の基準

Criteria for Grover Search on Weighted Databases ( http://arxiv.org/abs/2312.01590v1 )

ライセンス: Link先を確認
Yifan Sun, and Lian-Ao Wu(参考訳) グロバーアルゴリズムは非構造化探索問題に対する重要な解法であり、多くの複素アルゴリズムにおいて基本的な量子サブルーチンとなっている。 本研究では,非一様分散データベースにおけるグローバーの探索手法について考察する。 このような場合、Groverの進化は、一様データベースや'非構造データベース'と異なる振る舞いを示す。 この進化によって実現された探索は、常にスピードアップするわけではなく、そのような発生の基準を確立する。 さらに、この理論をコヒーレント状態に関連する分布を持つデータベースに適用し、グローバー進化による高速化を数値的検証によって証明する。 本研究はGroverアルゴリズムを効果的に拡張し,実装戦略を充実させ,適用範囲を広げた。

The Grover algorithm stands as a pivotal solution for unstructured search problems and has become a fundamental quantum subroutine in numerous complex algorithms. This study delves into Grover's search methodology within non-uniformly distributed databases, a scenario more commonly encountered in real-world problems. We uncover that in such cases, the Grover evolution displays distinct behavior compared to uniform or 'unstructured databases'. The search enabled by this evolution doesn't consistently yield a speed-up, and we establish criteria for such occurrences. Additionally, we apply this theory to databases whose distributions relate to coherent states, substantiating the speed-up via Grover evolution through numerical verification. Overall, our findings offer an effective extension of the original Grover algorithm, enriching implementation strategies and widening its application scope.
翻訳日:2023-12-05 16:35:49 公開日:2023-12-04
# ActiveClean: アクティブラーニングによるラインレベル脆弱性データの生成

ActiveClean: Generating Line-Level Vulnerability Data via Active Learning ( http://arxiv.org/abs/2312.01588v1 )

ライセンス: Link先を確認
Ashwin Kallingal Joshy, Mirza Sanjida Alam, Shaila Sharmin, Qi Li and Wei Le(参考訳) ディープラーニングの脆弱性検出ツールは人気が高まっており、有効であることが示されている。 これらのツールは大量の高品質なトレーニングデータに依存しており、入手は非常に困難です。 現在利用可能なデータセットのほとんどは、関数レベルのラベルを提供し、関数が脆弱かどうかを報告している。 しかし、脆弱性検出が有用であるためには、脆弱性に関連する行も知っておく必要がある。 本稿では,体系的なツール開発への取り組みと提案を行う。 ActiveCleanはコミットから大量のラインレベルの脆弱性データを生成する。 つまり、関数レベルのラベルに加えて、機能内のどのラインが脆弱性検出に責任があるかをレポートする。 過去には、ラインレベルのデータを生成するためにクリーンコミットに静的解析が適用されてきた。 使用が容易でスケーラブルな能動的学習に基づく我々のアプローチは、静的解析に補完的なアプローチを提供する。 コミットラインからセマンティクスと構文プロパティを設計し、モデルをトレーニングするためにそれらを使用しました。 我々はJavaとC両方のデータセット処理に対するアプローチを4.3Kコミットと119Kコミットラインで評価した。 AcitveCleanはF1得点を70-74で達成した。 さらに,400のトレーニングデータを用いてF1スコア70.23に達することで,アクティブな学習が効果的であることを示す。 ActiveCleanを用いて、5K関数を含むDevignデータセットのFFMpegプロジェクト全体の行レベルラベルを生成し、また、誤った関数レベルラベルを検出する。 我々は,SOTAラインレベルの脆弱性検出ツールであるLineVulを用いて,70以上の脆弱なラインと18以上の脆弱な機能を検出し,トップ10の精度を66%から73%に向上させた。

Deep learning vulnerability detection tools are increasing in popularity and have been shown to be effective. These tools rely on large volume of high quality training data, which are very hard to get. Most of the currently available datasets provide function-level labels, reporting whether a function is vulnerable or not vulnerable. However, for a vulnerability detection to be useful, we need to also know the lines that are relevant to the vulnerability. This paper makes efforts towards developing systematic tools and proposes. ActiveClean to generate the large volume of line-level vulnerability data from commits. That is, in addition to function-level labels, it also reports which lines in the function are likely responsible for vulnerability detection. In the past, static analysis has been applied to clean commits to generate line-level data. Our approach based on active learning, which is easy to use and scalable, provide a complementary approach to static analysis. We designed semantic and syntactic properties from commit lines and use them to train the model. We evaluated our approach on both Java and C datasets processing more than 4.3K commits and 119K commit lines. AcitveClean achieved an F1 score between 70-74. Further, we also show that active learning is effective by using just 400 training data to reach F1 score of 70.23. Using ActiveClean, we generate the line-level labels for the entire FFMpeg project in the Devign dataset, including 5K functions, and also detected incorrect function-level labels. We demonstrated that using our cleaned data, LineVul, a SOTA line-level vulnerability detection tool, detected 70 more vulnerable lines and 18 more vulnerable functions, and improved Top 10 accuracy from 66% to 73%.
翻訳日:2023-12-05 16:35:35 公開日:2023-12-04
# 未知の独立鎖を持つn$-player確率ゲームにおけるnash均衡政策のスケーラブルかつ独立学習

Scalable and Independent Learning of Nash Equilibrium Policies in $n$-Player Stochastic Games with Unknown Independent Chains ( http://arxiv.org/abs/2312.01587v1 )

ライセンス: Link先を確認
Tiancheng Qin and S. Rasoul Etesami(参考訳) 我々は$n$プレイヤ確率ゲームのサブクラス、すなわち独立鎖を持つ確率ゲームと未知の遷移行列を研究する。 このタイプのゲームでは、プレイヤーは他のプレイヤーの状態やアクションに依存しない独自の内部マルコフチェーンを制御する。 しかし、プレイヤーの判断は支払い機能によって結合される。 プレイヤーは他のプレイヤーの状態や行動を観察できないし、自身のマルコフ連鎖の遷移確率行列も知らないと仮定する。 占有測度に基づくゲームのコンパクトな双対定式化と、未知の遷移行列の高確率推定を維持するための信頼度設定技術に依拠して、この種類のゲームに対して$\epsilon$-neを学習するための完全分散ミラー降下アルゴリズムを提案する。 提案アルゴリズムは、独立性、拡張性、収束性の望ましい特性を有する。 具体的には,報奨関数を仮定しない場合,提案手法は多項式時間でより弱い距離(すなわち平均的な二階堂-イソダギャップ)で収束し,任意の高い確率で$\epsilon$-neのポリシーの集合に収束することを示す。 さらに,変分安定なnash平衡ポリシーの存在を仮定すると,提案手法は任意に高い確率で安定な$\epsilon$-neポリシーに漸近的に収束することを示す。 マルコフポテンシャルゲームや線形四次確率ゲームに加えて、この研究は、いくつかの穏やかな仮定の下で、定常的な$\epsilon$-neポリシーを見つける多項式時間学習アルゴリズムを認める、n$プレイヤー確率ゲームの一サブクラスを提供する。

We study a subclass of $n$-player stochastic games, namely, stochastic games with independent chains and unknown transition matrices. In this class of games, players control their own internal Markov chains whose transitions do not depend on the states/actions of other players. However, players' decisions are coupled through their payoff functions. We assume players can receive only realizations of their payoffs, and that the players can not observe the states and actions of other players, nor do they know the transition probability matrices of their own Markov chain. Relying on a compact dual formulation of the game based on occupancy measures and the technique of confidence set to maintain high-probability estimates of the unknown transition matrices, we propose a fully decentralized mirror descent algorithm to learn an $\epsilon$-NE for this class of games. The proposed algorithm has the desired properties of independence, scalability, and convergence. Specifically, under no assumptions on the reward functions, we show the proposed algorithm converges in polynomial time in a weaker distance (namely, the averaged Nikaido-Isoda gap) to the set of $\epsilon$-NE policies with arbitrarily high probability. Moreover, assuming the existence of a variationally stable Nash equilibrium policy, we show that the proposed algorithm converges asymptotically to the stable $\epsilon$-NE policy with arbitrarily high probability. In addition to Markov potential games and linear-quadratic stochastic games, this work provides another subclass of $n$-player stochastic games that, under some mild assumptions, admit polynomial-time learning algorithms for finding their stationary $\epsilon$-NE policies.
翻訳日:2023-12-05 16:35:10 公開日:2023-12-04
# OCGEC:DNNバックドア検出のための1クラスグラフ埋め込み分類

OCGEC: One-class Graph Embedding Classification for DNN Backdoor Detection ( http://arxiv.org/abs/2312.01585v1 )

ライセンス: Link先を確認
Haoyu Jiang, Haiyang Yu, Nan Li, Ping Yi(参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に対する脆弱性が発見され、ミッションクリティカルなアプリケーションへのデプロイに対するセキュリティ上の懸念が高まっている。 バックドア攻撃を検出するには様々な方法があるが、それらはすべて、対象の攻撃を検知する特定の仮定を定めており、トレーニングのためには、同じおよび膨大な数のクリーンおよびバックドアサンプルを必要とする。 本研究では,モデルレベルのバックドア検出にGNNを用いた一級グラフ埋め込み分類(OCGEC)と呼ばれる新しい一級分類フレームワークを提案する。 まず、数千の小さなモデルを、少数のクリーンデータセットから生のデータセットとしてトレーニングします。 次に,モデルの構造的詳細と重み特徴をグラフデータに変換するための巧妙なモデルからグラフへの手法を設計する。 次に、生成自己教師付きグラフオートエンコーダ(GAE)を事前訓練し、ベニグナモデルの特徴を学習し、攻撃戦略を知らずにバックドアモデルを検出する。 その後、gaeとone-class classifierの最適化目標を動的に組み合わせ、バックドアモデルを良性モデルと区別する分類境界を形成する。 我々のocgecは、グラフニューラルネットワークの強力な表現能力と、異常検出の分野での一級分類技術の有用性を組み合わせる。 他のベースラインと比較すると、AUCは多数のタスクにおいて98%以上のスコアを達成しており、多くの正と負のサンプルに依存している場合でも、既存の検出方法を超えている。 汎用バックドア検出のためのグラフィックシナリオの先駆的な応用は、他のバックドア防御タスクを改善するための新たな洞察を提供することができます。 コードはhttps://github.com/jhy549/OCGECで入手できる。

Deep neural networks (DNNs) have been found vulnerable to backdoor attacks, raising security concerns about their deployment in mission-critical applications. There are various approaches to detect backdoor attacks, however they all make certain assumptions about the target attack to be detected and require equal and huge numbers of clean and backdoor samples for training, which renders these detection methods quite limiting in real-world circumstances. This study proposes a novel one-class classification framework called One-class Graph Embedding Classification (OCGEC) that uses GNNs for model-level backdoor detection with only a little amount of clean data. First, we train thousands of tiny models as raw datasets from a small number of clean datasets. Following that, we design a ingenious model-to-graph method for converting the model's structural details and weight features into graph data. We then pre-train a generative self-supervised graph autoencoder (GAE) to better learn the features of benign models in order to detect backdoor models without knowing the attack strategy. After that, we dynamically combine the GAE and one-class classifier optimization goals to form classification boundaries that distinguish backdoor models from benign models. Our OCGEC combines the powerful representation capabilities of graph neural networks with the utility of one-class classification techniques in the field of anomaly detection. In comparison to other baselines, it achieves AUC scores of more than 98% on a number of tasks, which far exceeds existing methods for detection even when they rely on a huge number of positive and negative samples. Our pioneering application of graphic scenarios for generic backdoor detection can provide new insights that can be used to improve other backdoor defense tasks. Code is available at https://github.com/jhy549/OCGEC.
翻訳日:2023-12-05 16:34:39 公開日:2023-12-04
# コントラスト・フェーラル・ライティングによる説明:翻訳の相違を検知するための人間支援の事例研究

Explaining with Contrastive Phrasal Highlighting: A Case Study in Assisting Humans to Detect Translation Differences ( http://arxiv.org/abs/2312.01582v1 )

ライセンス: Link先を確認
Eleftheria Briakou, Navita Goyal, Marine Carpuat(参考訳) 説明可能なNLP手法は、主に「入力中のトークンがこの予測に責任があるか?」と答えることによって説明できる。我々は、2つの入力テキストを比較して予測を行うNLPモデルについて、「この予測を説明する2つの入力の違いは何か?」と答えることにより、より有用であると主張している。 本稿では,フレーズアライメント誘導消去による意味分岐モデルの予測を記述したコントラストハイライトを生成する手法を提案する。 その結果,言語間の意味的差異の人的根拠は,一般的なポストホック・サリエンシ・テクニックよりもよく一致し,人間の翻訳における微妙な意味的差異や重要な機械翻訳誤りを検出するのに有効であることが示された。

Explainable NLP techniques primarily explain by answering "Which tokens in the input are responsible for this prediction?''. We argue that for NLP models that make predictions by comparing two input texts, it is more useful to explain by answering "What differences between the two inputs explain this prediction?''. We introduce a technique to generate contrastive highlights that explain the predictions of a semantic divergence model via phrase-alignment-guided erasure. We show that the resulting highlights match human rationales of cross-lingual semantic differences better than popular post-hoc saliency techniques and that they successfully help people detect fine-grained meaning differences in human translations and critical machine translation errors.
翻訳日:2023-12-05 16:34:07 公開日:2023-12-04
# signed binarization: 反復分離トレードオフによる効率のアンロック

Signed Binarization: Unlocking Efficiency Through Repetition-Sparsity Trade-Off ( http://arxiv.org/abs/2312.01581v1 )

ライセンス: Link先を確認
Sachit Kuhar and Yash Jain and Alexey Tumanov(参考訳) 資源制約エッジデバイスに対するディープニューラルネットワーク(DNN)の効率的な推論が不可欠である。 量子化とスパーシリティ(英: Quantization and sparsity)は、ハードウェア・ソフトウェア・インタフェースにおけるテンソル内の繰り返しとスパーシティに変換する重要なアルゴリズム手法である。 本稿では,推論における計算効率の説明に役立つ繰り返しスパーシティートレードオフの概念を紹介する。 そこで我々は,ハードウェア・ソフトウェアシステム,量子化関数,表現学習技術を統合的に統合した統合共同設計フレームワークであるsigned binarizationを提案する。 以上の結果から,符号付き二項化は非零重みの2項化よりも精度が高いことが示された。 詳細な分析により、署名された二項化は、DNNブロックに対して、同じタイプの合計パラメータのより大きな分布内にネストされた効果(非ゼロ)パラメータのより小さな分布を生成する。 最後に,本手法は実ハードウェア上で26%の高速化を実現し,資源制限環境下での効率的なモデル展開のための代替ソリューションとして,ResNet 18のバイナリ手法と比較して密度を2.8倍に削減する。

Efficient inference of Deep Neural Networks (DNNs) on resource-constrained edge devices is essential. Quantization and sparsity are key algorithmic techniques that translate to repetition and sparsity within tensors at the hardware-software interface. This paper introduces the concept of repetition-sparsity trade-off that helps explain computational efficiency during inference. We propose Signed Binarization, a unified co-design framework that synergistically integrates hardware-software systems, quantization functions, and representation learning techniques to address this trade-off. Our results demonstrate that Signed Binarization is more accurate than binarization with the same number of non-zero weights. Detailed analysis indicates that signed binarization generates a smaller distribution of effectual (non-zero) parameters nested within a larger distribution of total parameters, both of the same type, for a DNN block. Finally, our approach achieves a 26% speedup on real hardware, doubles energy efficiency, and reduces density by 2.8x compared to binary methods for ResNet 18, presenting an alternative solution for deploying efficient models in resource-limited environments.
翻訳日:2023-12-05 16:33:48 公開日:2023-12-04
# クロス偏光テラヘルツパルスによる非対称トップ分子の永続配向の増強

Enhanced Persistent Orientation of Asymmetric-Top Molecules Induced by Cross-Polarized Terahertz Pulses ( http://arxiv.org/abs/2312.01579v1 )

ライセンス: Link先を確認
Long Xu, Ilia Tutunnikov, Yehiam Prior, Ilya Sh. Averbukh(参考訳) 時間遅延THzパルスにより誘導される非対称トップ分子の永続的な配向について検討する。 理論的および数値的な結果から、直交配置はコリニア構成よりも優れており、5Kで約10%、室温で約3%の持続方向がパラメータ最適化によって達成される可能性が示唆された。 温度およびフィールドパラメータの持続的配向係数の依存性を詳細に検討した。 2つの直交偏波THzパルスの応用は実用的かつ効率的である。 標準実験室条件下での適用性は、将来のTHzによる永続的な分子配向の実験的実現の基礎となる。

We investigate the persistent orientation of asymmetric-top molecules induced by time-delayed THz pulses that are either collinearly or cross polarized. Our theoretical and numerical results demonstrate that the orthogonal configuration outperforms the collinear one, and a significant degree of persistent orientation - approximately 10% at 5 K and nearly 3% at room temperature - may be achieved through parameter optimization. The dependence of the persistent orientation factor on temperature and field parameters is studied in detail. The proposed application of two orthogonally polarized THz pulses is both practical and efficient. Its applicability under standard laboratory conditions lays a solid foundation for future experimental realization of THz-induced persistent molecular orientation.
翻訳日:2023-12-05 16:33:26 公開日:2023-12-04
# rjhmc-tree によるベイズ決定木の後方探索

RJHMC-Tree for Exploration of the Bayesian Decision Tree Posterior ( http://arxiv.org/abs/2312.01577v1 )

ライセンス: Link先を確認
Jodie A. Cochrane, Adrian G. Wills, Sarah J. Johnson(参考訳) 意思決定木はその柔軟性と解釈性のため、機械学習コミュニティで広く利用されている。 本稿では,すべての木モデルにまたがるパラメータ空間が潜在的に巨大なため,ベイズ法を用いてデータから決定木を学ぶことを目的とした。 この課題に対処するためにいくつかのアプローチが提案されており、マルコフ連鎖モンテカルロ法(MCMC)がより成功した。 MCMC法の有効性と効率は,本論文の焦点であるいわゆる提案の質に大きく依存している。 特に,ハミルトン・モンテカルロ (HMC) 法を用いてベイズ決定木の後方をより効率的に探索し,地球規模の更新スキームにおける可能性の幾何を利用して検討する。 このアルゴリズムの2つの実装が開発され、機械学習とベイズ決定木文献における標準データセットに対するテストによって既存の手法と比較される。 HMCに基づく手法は, 予測テスト精度, 受入率, 樹木の複雑さに対して良好に機能する。

Decision trees have found widespread application within the machine learning community due to their flexibility and interpretability. This paper is directed towards learning decision trees from data using a Bayesian approach, which is challenging due to the potentially enormous parameter space required to span all tree models. Several approaches have been proposed to combat this challenge, with one of the more successful being Markov chain Monte Carlo (MCMC) methods. The efficacy and efficiency of MCMC methods fundamentally rely on the quality of the so-called proposals, which is the focus of this paper. In particular, this paper investigates using a Hamiltonian Monte Carlo (HMC) approach to explore the posterior of Bayesian decision trees more efficiently by exploiting the geometry of the likelihood within a global update scheme. Two implementations of the novel algorithm are developed and compared to existing methods by testing against standard datasets in the machine learning and Bayesian decision tree literature. HMC-based methods are shown to perform favourably with respect to predictive test accuracy, acceptance rate, and tree complexity.
翻訳日:2023-12-05 16:33:16 公開日:2023-12-04
# 教師なし衛星画像による建物被害検出の学習

Learning Efficient Unsupervised Satellite Image-based Building Damage Detection ( http://arxiv.org/abs/2312.01576v1 )

ライセンス: Link先を確認
Yiyun Zhang, Zijian Wang, Yadan Luo, Xin Yu, Zi Huang(参考訳) 既存のビル損傷検出(bdd)メソッドは、常に労働集約的な建物とその条件のピクセルレベルアノテーションを必要とします。 本稿では,未解決の衛星画像ペアのみを提供する,BDDの難解かつ実用的なシナリオであるUnsupervised Building damage Detection (U-BDD)について検討する。 パイロットスタディとして、私たちはまず、事前訓練されたビジョン言語基盤モデル(Grounding DINO、SAM、CLIP)を活用して、U-BDDタスクに対処する高度なU-BDDベースラインを提案しました。 しかし、衛星画像と一般画像の間の明らかな領域ギャップは、建物とその損傷を特定するのに使用される基礎モデルの信頼性を低下させる。 さらに,衛星画像に関連する領域固有の問題に対処することで,U-BDDベースラインを改善する,新たな自己教師型フレームワークU-BDD++を提案する。 さらに、U-BDD++の新しいビルディング提案生成(BPG)モジュールとCLIP対応のノイズ発生提案選択(CLIP-BPS)モジュールは、高品質なセルフトレーニングを保証する。 広範に使用される建物損傷評価ベンチマークの広範な実験により,提案手法の有効性が実証された。 提案したアノテーションのない基礎モデルに基づくパラダイムは、効率的な学習フェーズを保証する。 この研究は、現実世界のBDDの新しい方向性を開き、将来の研究の基盤となる。

Existing Building Damage Detection (BDD) methods always require labour-intensive pixel-level annotations of buildings and their conditions, hence largely limiting their applications. In this paper, we investigate a challenging yet practical scenario of BDD, Unsupervised Building Damage Detection (U-BDD), where only unlabelled pre- and post-disaster satellite image pairs are provided. As a pilot study, we have first proposed an advanced U-BDD baseline that leverages pre-trained vision-language foundation models (i.e., Grounding DINO, SAM and CLIP) to address the U-BDD task. However, the apparent domain gap between satellite and generic images causes low confidence in the foundation models used to identify buildings and their damages. In response, we further present a novel self-supervised framework, U-BDD++, which improves upon the U-BDD baseline by addressing domain-specific issues associated with satellite imagery. Furthermore, the new Building Proposal Generation (BPG) module and the CLIP-enabled noisy Building Proposal Selection (CLIP-BPS) module in U-BDD++ ensure high-quality self-training. Extensive experiments on the widely used building damage assessment benchmark demonstrate the effectiveness of the proposed method for unsupervised building damage detection. The presented annotation-free and foundation model-based paradigm ensures an efficient learning phase. This study opens a new direction for real-world BDD and sets a strong baseline for future research.
翻訳日:2023-12-05 16:32:56 公開日:2023-12-04
# マルチモーダルなビデオ概要: ビデオからキーフレーム・キャプション・ペアを同時に抽出して生成する

A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video ( http://arxiv.org/abs/2312.01575v1 )

ライセンス: Link先を確認
Keito Kudo, Haruki Nagasawa, Jun Suzuki, Nobuyuki Shimizu(参考訳) 本稿では,実用的なマルチモーダルビデオ要約タスク設定と,タスクの訓練と評価のためのデータセットを提案する。 対象のタスクは、所定の動画を予め定義された数のキーフレームとカプセルのペアに要約し、それらをリスト可能な形式で表示して、ビデオコンテンツを素早く把握することである。 本課題は,映像(キーフレーム)の形式で映像から重要なシーンを抽出し,各キーフレームの状況を説明するキャプションを生成することである。 この課題は実践的な応用として有用であり、研究に値する極めて困難な問題を提示している。 具体的には、キーフレーム選択性能とキャプション品質を同時に最適化するには、前後のキーフレームとキャプションの相互依存を慎重に考慮する必要がある。 この分野での研究を促進するために、既存のデータセットを拡張してデータセットを構築し、評価フレームワークを提案する。 さらに,2つのベースラインシステムを開発し,その性能を報告する。

This paper proposes a practical multimodal video summarization task setting and a dataset to train and evaluate the task. The target task involves summarizing a given video into a predefined number of keyframe-caption pairs and displaying them in a listable format to grasp the video content quickly. This task aims to extract crucial scenes from the video in the form of images (keyframes) and generate corresponding captions explaining each keyframe's situation. This task is useful as a practical application and presents a highly challenging problem worthy of study. Specifically, achieving simultaneous optimization of the keyframe selection performance and caption quality necessitates careful consideration of the mutual dependence on both preceding and subsequent keyframes and captions. To facilitate subsequent research in this field, we also construct a dataset by expanding upon existing datasets and propose an evaluation framework. Furthermore, we develop two baseline systems and report their respective performance.
翻訳日:2023-12-05 16:32:28 公開日:2023-12-04
# RASAを用いた自動車用音声アシスタントシステム

Voice-Based Smart Assistant System for Vehicles using RASA ( http://arxiv.org/abs/2312.01642v1 )

ライセンス: Link先を確認
Aditya Paranjape, Yash Patwardhan, Vedant Deshpande, Aniket Darp and Jayashree Jagdale(参考訳) 会話型aiまたはチャットボットは、会話する際に人間のスピーチを模倣します。 スマートアシスタントは、人間の介入を必要とするいくつかのタスクの自動化を促進する。 その正確性、人的資源への依存の欠如、時計周りのアクセシビリティから、チャットボットは車にも採用できる。 通話、音楽の再生、ナビゲーション、天気予報や最新のニュースの更新など他の活動に従事しながら、運転のタスクから注意をそらそうとする人々の傾向から、道路の安全性は低下し、結果として事故が増加している。 手動で実行するよりも、音声コマンドを使ってこれらのタスクを自動化する方が有利だ。 本稿では、RASAフレームワークに基づく車両のための音声ベースのスマートアシスタントアプリケーションの開発に焦点をあてる。 このスマートアシスタントは、ナビゲーション、通話によるコミュニケーション、天気予報の取得、最新のニュースアップデート、そして完全に音声ベースの音楽などの機能を提供する。

Conversational AIs, or chatbots, mimic human speech when conversing. Smart assistants facilitate the automation of several tasks that needed human intervention earlier. Because of their accuracy, absence of dependence on human resources, and accessibility around the clock, chatbots can be employed in vehicles too. Due to people's propensity to divert their attention away from the task of driving while engaging in other activities like calling, playing music, navigation, and getting updates on the weather forecast and latest news, road safety has declined and accidents have increased as a result. It would be advantageous to automate these tasks using voice commands rather than carrying them out manually. This paper focuses on the development of a voice-based smart assistance application for vehicles based on the RASA framework. The smart assistant provides functionalities like navigation, communication via calls, getting weather forecasts and the latest news updates, and music that are completely voice-based in nature.
翻訳日:2023-12-05 16:26:19 公開日:2023-12-04
# SequencePAR:シーケンス生成パラダイムによる歩行者属性の理解

SequencePAR: Understanding Pedestrian Attributes via A Sequence Generation Paradigm ( http://arxiv.org/abs/2312.01640v1 )

ライセンス: Link先を確認
Jiandong Jin, Xiao Wang, Chenglong Li, Lili Huang, and Jin Tang(参考訳) 特定の分類ヘッドを用いて属性を識別することを目的とした,多ラベル・マルチタスク学習フレームワークに基づいて,現在の歩行者属性認識(PAR)アルゴリズムを開発した。 しかし、これらの判別モデルは、不均衡データやノイズサンプルの影響が容易に受けられる。 生成モデルの成功に触発されて、歩行者属性認識スキームを再考し、生成モデルが人間の属性間の依存関係や複雑さのモデリングにおいてより良く機能すると信じている。 本稿では,歩行者属性認識のための新しいシーケンス生成パラダイム,SequencePARを提案する。 事前学習されたクリップモデルを使用して歩行者の特徴を抽出し、テキストプロンプトのガイダンスの下でクエリトークンにセットされた属性を埋め込む。 次に、視覚特徴と属性クエリトークンを組み込んでヒューマン属性を生成するトランスフォーマデコーダを提案する。 マスク付きマルチヘッドアテンション層がデコーダモジュールに導入され、トレーニング中に属性予測を行いながらモデルが次の属性を思い出すのを防ぐ。 複数の歩行者属性認識データセットを用いた広範囲な実験により,提案手法の有効性が検証された。 ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/OpenPAR.comでリリースされる。

Current pedestrian attribute recognition (PAR) algorithms are developed based on multi-label or multi-task learning frameworks, which aim to discriminate the attributes using specific classification heads. However, these discriminative models are easily influenced by imbalanced data or noisy samples. Inspired by the success of generative models, we rethink the pedestrian attribute recognition scheme and believe the generative models may perform better on modeling dependencies and complexity between human attributes. In this paper, we propose a novel sequence generation paradigm for pedestrian attribute recognition, termed SequencePAR. It extracts the pedestrian features using a pre-trained CLIP model and embeds the attribute set into query tokens under the guidance of text prompts. Then, a Transformer decoder is proposed to generate the human attributes by incorporating the visual features and attribute query tokens. The masked multi-head attention layer is introduced into the decoder module to prevent the model from remembering the next attribute while making attribute predictions during training. Extensive experiments on multiple widely used pedestrian attribute recognition datasets fully validated the effectiveness of our proposed SequencePAR. The source code and pre-trained models will be released at https://github.com/Event-AHU/OpenPAR.
翻訳日:2023-12-05 16:26:03 公開日:2023-12-04
# ドメイン特化コード生成における大規模言語モデルの有効性について

On the Effectiveness of Large Language Models in Domain-Specific Code Generation ( http://arxiv.org/abs/2312.01639v1 )

ライセンス: Link先を確認
Meng Chen, Hongyu Zhang, Chengcheng Wan, Zhao Wei, Yong Xu, Juhong Wang, Xiaodong Gu(参考訳) ChatGPTのような大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。 彼らの大きな成功にもかかわらず、特定のドメイン(例えば、Web開発)における効果は、さらなる評価を必要とする。 本研究では,LLMを用いたドメイン固有コード生成の実証的研究を行う。 我々は,LLMがドメイン固有ライブラリの利用能力に限界があるため,ドメイン固有コードの生成において準最適性能を示すことを示した。 さらに、API知識をプロンプトとして組み込むことで、LLMがよりプロフェッショナルなコードを生成することができることを観察する。 これらの知見に基づいて,コード生成プロセスにAPI知識を効率的に組み込む方法について検討する。 ドメイン知識、すなわち外部知識の問い合わせ、思考の連鎖、思考の連鎖という3つの戦略を実験する。 これらの戦略をdomcoderと呼ばれる新しいコード生成アプローチと呼びます。 実験の結果,DomCoderのすべての戦略が,特定の設定下でのドメイン固有コード生成の有効性の向上につながることが示された。 また,今後の作業の可能性にも基づいて,さらなる改善の余地が十分にあることも示唆した。

Large language models (LLMs) such as ChatGPT have shown remarkable capabilities in code generation. Despite their great success, their effectiveness within particular domains (e.g., web development) necessitates further evaluation. In this study, we conduct an empirical study of domain-specific code generation with LLMs. We demonstrate that LLMs exhibit sub-optimal performance in generating domain-specific code, due to their limited proficiency in utilizing domain-specific libraries. We further observe that incorporating API knowledge as prompts can empower LLMs to generate more professional code. Based on these findings, we further investigate how to efficiently incorporate API knowledge into the code generation process. We experiment with three strategies for incorporating domain knowledge, namely, external knowledge inquirer, chain-of-thought prompting, and chain-of-thought fine-tuning. We refer to these strategies as a new code generation approach called DomCoder. Experimental results show that all strategies of DomCoder lead to improvement in the effectiveness of domain-specific code generation under certain settings. The results also show that there is still ample room for further improvement, based on which we suggest possible future works.
翻訳日:2023-12-05 16:25:44 公開日:2023-12-04
# J-Net:テラヘルツ画像超解法のための改良されたU-Net

J-Net: Improved U-Net for Terahertz Image Super-Resolution ( http://arxiv.org/abs/2312.01638v1 )

ライセンス: Link先を確認
Woon-Ha Yeo, Seung-Hwan Jung, Seung Jae Oh, Inhee Maeng, Eui Su Lee, Han-Cheol Ryu(参考訳) テラヘルツ(THz)波は0.1から10Hzの周波数範囲で電磁波であり、THzイメージングは、セキュリティ検査、バイオメディカルフィールド、材料の非破壊検査など、様々な用途に利用されている。 しかし、THz画像は、THz波の長波長のため、解像度が低い。 したがって、thz画像の解像度向上は、現在のホットな研究課題の一つである。 本稿では,THz画像の超解像化を実現するために,U-Netの改良版であるJ-Netを提案する。 低分解能(LR)画像の特徴を抽出し,高分解能(HR)画像へのLR画像のマッピングを効率的に学習する,シンプルなベースラインブロックを採用している。 全トレーニングはDIV2K+Flickr2Kデータセットを用いて行い、ピーク信号対雑音比(PSNR)を定量的に比較した。 他のTHz画像超解像法と比較して、JNetは32.52dBのPSNRを達成し、他の手法を1dB以上上回った。 j-netは、他の方法と比較して実際のthz画像で優れた性能を示す。 実験により,提案したJ-Netは,他の THz 画像超解像法と比較して,PSNR と視覚的改善が優れていることが示された。

Terahertz (THz) waves are electromagnetic waves in the 0.1 to 10 THz frequency range, and THz imaging is utilized in a range of applications, including security inspections, biomedical fields, and the non-destructive examination of materials. However, THz images have low resolution due to the long wavelength of THz waves. Therefore, improving the resolution of THz images is one of the current hot research topics. We propose a novel network architecture called J-Net which is improved version of U-Net to solve the THz image super-resolution. It employs the simple baseline blocks which can extract low resolution (LR) image features and learn the mapping of LR images to highresolution (HR) images efficiently. All training was conducted using the DIV2K+Flickr2K dataset, and we employed the peak signal-to-noise ratio (PSNR) for quantitative comparison. In our comparisons with other THz image super-resolution methods, JNet achieved a PSNR of 32.52 dB, surpassing other techniques by more than 1 dB. J-Net also demonstrates superior performance on real THz images compared to other methods. Experiments show that the proposed J-Net achieves better PSNR and visual improvement compared with other THz image super-resolution methods.
翻訳日:2023-12-05 16:25:27 公開日:2023-12-04
# オンライン学習におけるロバストなストリーミング,サンプリング,そして展望

Robust Streaming, Sampling, and a Perspective on Online Learning ( http://arxiv.org/abs/2312.01634v1 )

ライセンス: Link先を確認
Evan Dogariu, Jiatong Yu(参考訳) 本稿では,統計的学習の概要を述べるとともに,ロバストなストリーミング技術と課題についての調査を行い,旅を通して動機づけ,示唆する関係性を示す厳密な結果を得た。 さらに,共有フレームワークと表記法でしばしば相反する定理を統一し,発見される深い関係を明らかにする。 これらの結果に共通の視点からアプローチし、すでに存在する技術的つながりを意識することで、両方の分野の研究を啓蒙し、おそらくは新しく、以前は考えられていなかった研究の方向性を動機付けることができることを願っている。

In this work we present an overview of statistical learning, followed by a survey of robust streaming techniques and challenges, culminating in several rigorous results proving the relationship that we motivate and hint at throughout the journey. Furthermore, we unify often disjoint theorems in a shared framework and notation to clarify the deep connections that are discovered. We hope that by approaching these results from a shared perspective, already aware of the technical connections that exist, we can enlighten the study of both fields and perhaps motivate new and previously unconsidered directions of research.
翻訳日:2023-12-05 16:25:04 公開日:2023-12-04
# gaussianhead - 動的ハイブリッドニューラルネットワークを用いた3dガウス型頭部アバター

GaussianHead: Impressive 3D Gaussian-based Head Avatars with Dynamic Hybrid Neural Field ( http://arxiv.org/abs/2312.01632v1 )

ライセンス: Link先を確認
Jie Wang, Xianyan Li, Jiucheng Xie, Feng Xu, Hao Gao(参考訳) 従来の頭部アバター法は、固定された明示的プリミティブ (mesh, point) や暗示曲面 (Sign Distance Function) や体積神経放射場 ( volumetric neural radiance field) に大きく依存しており、高い忠実性、訓練速度、資源消費のバランスをとることは困難である。 近年のハイブリッドフィールドの人気は、新しい表現をもたらしたが、固定写像によって得られるパラメータ化因子に依存して制限されている。 我々は,異方性3次元ガウスプリミティブに基づく頭部アバターアルゴリズムgaussianheadを提案する。 我々は動的シーンを表現するのに標準ガウシアンを利用する。 パラメータ化された頭部形状の効率的な容器として明示的な「動的」三平面を用い, 基本形状および三平面の因子とよく一致し, 標準ガウスの正準因子を求める。 MLPでは、因子は3次元ガウス原始体の不透明度と球面調和係数にデコードされる。 最後に,効率的な微分可能なガウスラスタライザを用いてレンダリングを行う。 提案手法は, 3次元ガウス分布に基づく新しい表現から大きく恩恵を受け, 3次元平面の基底構造と因子の適切なアライメント変換により, 固定写像によるバイアスを排除した。 最先端技術と比較して,高いレンダリング効率(フレームあたり0.12s)を維持しつつ,自己再構築,新規ビュー合成,クロスidentity再現などのタスクにおいて最適な視覚結果が得られる。 鼻の周りの毛穴さえもはっきりと見える場合もある。 コードと追加ビデオはプロジェクトのホームページで見ることができる。

Previous head avatar methods have mostly relied on fixed explicit primitives (mesh, point) or implicit surfaces (Sign Distance Function) and volumetric neural radiance field, it challenging to strike a balance among high fidelity, training speed, and resource consumption. The recent popularity of hybrid field has brought novel representation, but is limited by relying on parameterization factors obtained through fixed mappings. We propose GaussianHead: an head avatar algorithm based on anisotropic 3D gaussian primitives. We leverage canonical gaussians to represent dynamic scenes. Using explicit "dynamic" tri-plane as an efficient container for parameterized head geometry, aligned well with factors in the underlying geometry and tri-plane, we obtain aligned canonical factors for the canonical gaussians. With a tiny MLP, factors are decoded into opacity and spherical harmonic coefficients of 3D gaussian primitives. Finally, we use efficient differentiable gaussian rasterizer for rendering. Our approach benefits significantly from our novel representation based on 3D gaussians, and the proper alignment transformation of underlying geometry structures and factors in tri-plane eliminates biases introduced by fixed mappings. Compared to state-of-the-art techniques, we achieve optimal visual results in tasks such as self-reconstruction, novel view synthesis, and cross-identity reenactment while maintaining high rendering efficiency (0.12s per frame). Even the pores around the nose are clearly visible in some cases. Code and additional video can be found on the project homepage.
翻訳日:2023-12-05 16:24:53 公開日:2023-12-04
# clamp: 対照的な言語モデルプロンプトチューニング

CLAMP: Contrastive LAnguage Model Prompt-tuning ( http://arxiv.org/abs/2312.01629v1 )

ライセンス: Link先を確認
Piotr Teterwak, Ximeng Sun, Bryan A. Plummer, Kate Saenko, Ser-Nam Lim(参考訳) 大規模言語モデル(LLM)は多くの機械学習問題に対する強力な汎用インタフェースとして登場した。 最近の研究は、比較的少量のインストラクションチューニングデータを使用して、画像キャプション、視覚的質問応答、視覚チャットなどの生成視覚タスクにLLMを適用している。 本稿では,現代LLMが画像のカテゴリ分類にも適応できるかどうかを考察する。 まず、ゼロショット画像分類における生成タスクに調整されたマルチモーダルLCMを評価し、CLIPのような特殊なモデルよりも性能がはるかに低いことを示す。 次に,CLIPと同じコントラスト画像キャプチャマッチング目的を用いたLCMの光微調整手法を提案する。 以上の結果から,LLMは画像分類性能が良好であることが示唆された。 我々のアプローチは最先端のmLLMを13%上回り、LLMの生成能力を保ちながら、カスタムテキストモデルによる対照的な学習をわずかに上回ります。 llmの初期化は、視覚前トレーニングデータに表示されていない領域の分類に特に役立つ。

Large language models (LLMs) have emerged as powerful general-purpose interfaces for many machine learning problems. Recent work has adapted LLMs to generative visual tasks like image captioning, visual question answering, and visual chat, using a relatively small amount of instruction-tuning data. In this paper, we explore whether modern LLMs can also be adapted to classifying an image into a set of categories. First, we evaluate multimodal LLMs that are tuned for generative tasks on zero-shot image classification and find that their performance is far below that of specialized models like CLIP. We then propose an approach for light fine-tuning of LLMs using the same contrastive image-caption matching objective as CLIP. Our results show that LLMs can, indeed, achieve good image classification performance when adapted this way. Our approach beats state-of-the-art mLLMs by 13% and slightly outperforms contrastive learning with a custom text model, while also retaining the LLM's generative abilities. LLM initialization appears to particularly help classification in domains under-represented in the visual pre-training data.
翻訳日:2023-12-05 16:24:25 公開日:2023-12-04
# 教師の教育におけるAIに対する信頼と認識--6カ国における文化とAI自己効力感の役割

Teachers' trust and perceptions of AI in education: The role of culture and AI self-efficacy in six countries ( http://arxiv.org/abs/2312.01627v1 )

ライセンス: Link先を確認
Olga Viberg, Mutlu Cukurova, Yael Feldman-Maggor, Giora Alexandron, Shizuka Shirai, Susumu Kanemune, Barbara Wasson, Cathrine T{\o}mte, Daniel Spikol, Marcelo Milrad, Raquel Coelho, Ren\'e F. Kizilcec(参考訳) AIベースの教育技術(AI-EdTech)は、K-12教育においてますます採用されている。 教師はこの過程で重要な役割を担い、AI-EdTechを教育実践や学生の学習成果を支援する方法として活用することが期待されている。 これらの技術を日々の教育活動に有意義に統合しようとする教師の意志は、AI-EdTechに対する態度に依存する。 我々は4大陸(ブラジル、イスラエル、日本、ノルウェー、スウェーデン、アメリカ)の6カ国で508人のK-12教師を対象に、AI-EdTechの利点、懸念、信頼について調査を行った。 教師の態度に影響を与える可能性のある,人口,地文化的,専門的,心理的要因について検討する。 以上の結果から,高いai理解と自己効力を持つ教師は,より多くの利益,懸念の少ない,より強い信頼を認識できることがわかった。 また,AI-EdTechへの信頼など教師の態度の地理的・文化的差異もみられたが,年齢,性別,教育水準による人口差はみられなかった。 この結果は,教師のAI-EdTechに対する態度に影響を与える要因を包括的かつ国際的に分析するものである。 教師のAI-EdTechに対する理解を高め、その文化的価値を考慮しつつ、K-12教育への導入を支援するために努力する。

AI-based educational technology (AI-EdTech) is increasingly adopted in K-12 education. Teachers play a critical role in this process as they are expected to use AI-EdTech in ways that support their teaching practice and students' learning outcomes. Teachers' willingness to meaningfully integrate these technologies into their everyday educational activities depends on their attitudes toward AI-EdTech. We surveyed 508 K-12 teachers in six countries across four continents (Brazil, Israel, Japan, Norway, Sweden, USA) about the perceived benefits of, concerns about, and trust in AI-EdTech. We examine demographic, geo-cultural, professional, and psychological factors that might influence teachers' attitudes. Our results showed that teachers with higher AI understanding and self-efficacy perceive more benefits, fewer concerns, and stronger trust. We also found geographic and cultural differences in teachers' attitudes, including their trust in AI-EdTech, but no demographic differences emerged based on their age, gender, or level of education. The findings provide a comprehensive, international account of factors influencing teachers' attitudes toward AI-EdTech. Efforts to raise teachers' understanding of, and trust in AI-EdTech, while considering their cultural values are encouraged to support its adoption in K-12 education.
翻訳日:2023-12-05 16:24:06 公開日:2023-12-04
# GVFs in the Real World: Making Predictions Online for Water Treatments

GVFs in the Real World: Making Predictions Online for Water Treatment ( http://arxiv.org/abs/2312.01624v1 )

ライセンス: Link先を確認
Muhammad Kamran Janjua, Haseeb Shah, Martha White, Erfan Miahi, Marlos C. Machado, Adam White(参考訳) 本稿では,実際の飲料水処理プラントにおける強化学習に基づく予測手法について検討する。 このような予測システムの開発は、水処理の最適化と自動化に向けた重要なステップである。 それ以前は、データの予測可能性、適切なニューラルネットワークアーキテクチャ、部分的可観測性を克服する方法など、多くの疑問に答えるべきだった。 まず、このデータセットを説明し、季節性、非定常性、部分的可観測性、およびセンサーとプラントの動作モード間の異種性に関する課題を強調する。 次に、一般値関数(GVF)予測(観測の累積和の割引)を記述し、時系列予測に共通する古典的なnステップ予測よりも好ましい理由を強調する。 我々は、オフラインデータを使用して、これらのGVF予測を学習する時間差分学習(TD)エージェントを適切に事前トレーニングする方法について議論する。 また,TD予測エージェントは,n段階予測エージェントよりも全体の正規化平均二乗誤差を求める。 最後に,オンライン更新なしにオフラインでトレーニングされたtdエージェントと,オンライン学習を行うtdエージェントを比較して,デプロイメントにおける学習の重要性を示す。 この最終結果は、実世界の非定常高ボリュームシステムに対して、リアルタイムに予測を適用することの重要性を動機づける最初の1つである。

In this paper we investigate the use of reinforcement-learning based prediction approaches for a real drinking-water treatment plant. Developing such a prediction system is a critical step on the path to optimizing and automating water treatment. Before that, there are many questions to answer about the predictability of the data, suitable neural network architectures, how to overcome partial observability and more. We first describe this dataset, and highlight challenges with seasonality, nonstationarity, partial observability, and heterogeneity across sensors and operation modes of the plant. We then describe General Value Function (GVF) predictions -- discounted cumulative sums of observations -- and highlight why they might be preferable to classical n-step predictions common in time series prediction. We discuss how to use offline data to appropriately pre-train our temporal difference learning (TD) agents that learn these GVF predictions, including how to select hyperparameters for online fine-tuning in deployment. We find that the TD-prediction agent obtains an overall lower normalized mean-squared error than the n-step prediction agent. Finally, we show the importance of learning in deployment, by comparing a TD agent trained purely offline with no online updating to a TD agent that learns online. This final result is one of the first to motivate the importance of adapting predictions in real-time, for non-stationary high-volume systems in the real world.
翻訳日:2023-12-05 16:23:41 公開日:2023-12-04
# 言語指導による任意の粒度でのユニバーサルセグメンテーション

Universal Segmentation at Arbitrary Granularity with Language Instruction ( http://arxiv.org/abs/2312.01623v1 )

ライセンス: Link先を確認
Yong Liu, Cairong Zhang, Yitong Wang, Jiahao Wang, Yujiu Yang, Yansong Tang(参考訳) 本稿では,任意の意味レベルの普遍的なセグメンテーションを実現することを目的とする。 近年の進歩にもかかわらず、専門的なセグメンテーションアプローチは特定のタスクやデータ分散に限られている。 新しいシナリオや設定に適応するための新しいモデルをトレーニングするには、計算コストと時間コストがかかるため、さまざまな粒度に対応する汎用的で普遍的なセグメンテーションモデルの需要が高まる。 異なるセグメンテーションタスクを統一したり、様々なシナリオに一般化するための試みもあるが、パラダイムや入力出力空間の定義の制限により、任意の粒度でコンテンツの正確な理解が困難になる。 この目的のために,言語指示の指導により任意の意味レベルでセグメンテーションを行うことのできるユニバーサルセグメンテーションモデルであるunilsegを提案する。 unilsegをトレーニングするために、タスク群を元の多様なディストリビューションから統一データフォーマットに再編成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクが出力される。 多数のラベルのないデータを利用する自動アノテーションエンジンと組み合わせることで、unilsegは様々なタスクや設定で優れたパフォーマンスを実現し、専門的なセグメンテーションモデルと統一されたセグメンテーションモデルの両方を上回っている。

This paper aims to achieve universal segmentation of arbitrary semantic level. Despite significant progress in recent years, specialist segmentation approaches are limited to specific tasks and data distribution. Retraining a new model for adaptation to new scenarios or settings takes expensive computation and time cost, which raises the demand for versatile and universal segmentation model that can cater to various granularity. Although some attempts have been made for unifying different segmentation tasks or generalization to various scenarios, limitations in the definition of paradigms and input-output spaces make it difficult for them to achieve accurate understanding of content at arbitrary granularity. To this end, we present UniLSeg, a universal segmentation model that can perform segmentation at any semantic level with the guidance of language instructions. For training UniLSeg, we reorganize a group of tasks from original diverse distributions into a unified data format, where images with texts describing segmentation targets as input and corresponding masks are output. Combined with a automatic annotation engine for utilizing numerous unlabeled data, UniLSeg achieves excellent performance on various tasks and settings, surpassing both specialist and unified segmentation models.
翻訳日:2023-12-05 16:23:16 公開日:2023-12-04
# バリデーションラベルはいくつ必要ですか? ラベル効率モデルランキングの設計領域の検討

How Many Validation Labels Do You Need? Exploring the Design Space of Label-Efficient Model Ranking ( http://arxiv.org/abs/2312.01619v1 )

ライセンス: Link先を確認
Zhengyu Hu, Jieyu Zhang, Yue Yu, Yuchen Zhuang, Hui Xiong(参考訳) 本稿では,モデル選択タスクのアノテーションコストを削減するフレームワークであるlemrを紹介する。 本手法は,疑似ラベル生成にアンサンブル手法を活用し,目標獲得に不確実性サンプリングを活用し,反復委員会再選のためのz-score機構を用いてモデルランクを洗練する。 本稿では,LEMRがラベル付け予算のごく一部を持つ完全ラベル付きデータセットに匹敵する結果が得られることを示す。 この結果から,LEMRは,弱監督と半教師付き学習設定においてラベル付けの努力を損なうだけでなく,大規模言語モデルの迅速な選択を効果的に導くことが示唆された。 23のタスクにまたがる広範な実験により,モデル選択の精度を損なうことなく,ラベリングコストを劇的に削減できることを明らかにした。

The paper introduces LEMR, a framework that reduces annotation costs for model selection tasks. Our approach leverages ensemble methods to generate pseudo-labels, employs uncertainty sampling for target acquisition, and utilizes a Z-score mechanism for iterative committee reelection to refine model ranks. We present a systematic study across various selection metrics, demonstrating that LEMR achieves comparable results to fully labeled datasets with a fraction of the labeling budget. Our findings indicate that LEMR not only economizes the labeling effort in weak supervision and semi-supervised learning settings but also effectively guides prompt selection for large language models. With extensive experiments across 23 tasks, we reveal that our framework can dramatically decrease the labeling cost without compromising the accuracy of model selection, thereby offering a cost-effective alternative to traditional practices.
翻訳日:2023-12-05 16:22:54 公開日:2023-12-04
# SchurVINS: Schur補充型軽量ビジュアル慣性ナビゲーションシステム

SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System ( http://arxiv.org/abs/2312.01616v1 )

ライセンス: Link先を確認
Yunfei Fan, Tianyu Zhao, Guidong Wang(参考訳) 精度と計算効率は、視覚慣性ナビゲーションシステム(VINS)にとって最も重要な指標である。 既存のvinsアルゴリズムは精度が高いか計算の複雑さが低いが、リソース制約のあるデバイスで高精度なローカライズを提供することは困難である。 そこで本研究では, 完全残差モデルを構築し, シュル補数を用いた計算複雑性を低くすることで, 精度の高いフィルタベースのVINSフレームワークであるSchurVINSを提案する。 技術的には、グラディエント、ヘッセン、観測共分散が明示的にモデル化された完全残留モデルを最初に定式化する。 次に、全モデルをエゴ運動残差モデルとランドマーク残差モデルに分解するためにschur補足を用いる。 最後に, 拡張カルマンフィルタ (EKF) を高効率で2つのモデルに実装した。 EuRoC および TUM-VI データセットを用いた実験により,本手法は精度と計算複雑性の両方において,最先端(SOTA) 手法よりも優れていることがわかった。 コミュニティに利益をもたらすために、実験コードをオープンソースにします。

Accuracy and computational efficiency are the most important metrics to Visual Inertial Navigation System (VINS). The existing VINS algorithms with either high accuracy or low computational complexity, are difficult to provide the high precision localization in resource-constrained devices. To this end, we propose a novel filter-based VINS framework named SchurVINS, which could guarantee both high accuracy by building a complete residual model and low computational complexity with Schur complement. Technically, we first formulate the full residual model where Gradient, Hessian and observation covariance are explicitly modeled. Then Schur complement is employed to decompose the full model into ego-motion residual model and landmark residual model. Finally, Extended Kalman Filter (EKF) update is implemented in these two models with high efficiency. Experiments on EuRoC and TUM-VI datasets show that our method notably outperforms state-of-the-art (SOTA) methods in both accuracy and computational complexity. We will open source our experimental code to benefit the community.
翻訳日:2023-12-05 16:22:37 公開日:2023-12-04
# xNeuSM: グラフ学習可能なマルチホップアテンションネットワークによる説明可能なニューラルネットワークサブグラフマッチング

xNeuSM: Explainable Neural Subgraph Matching with Graph Learnable Multi-hop Attention Networks ( http://arxiv.org/abs/2312.01612v1 )

ライセンス: Link先を確認
Duc Q. Nguyen, Thanh Toan Nguyen, Tho quan(参考訳) サブグラフマッチングは、データベースシステム、生化学、認知科学における幅広い応用において難しい問題である。 特定のクエリグラフがより大きなターゲットグラフ内に存在するかどうかを判断する。 従来のグラフマッチングアルゴリズムは正確な結果を提供するが、NP完全問題による大きなグラフインスタンスの課題に直面し、実用性を制限する。 対照的に、最近のニューラルネットワークベースの近似はよりスケーラブルなソリューションを提供するが、しばしば解釈可能なノード対応がない。 グラフ学習可能なマルチホップアテンションネットワーク(glema:graph learnable multi-hop attention network)を導入し、固定ハイパーパラメータに頼るのではなく、ホップの各ノードのアテンション係数の減衰を管理するパラメータを適応的に学習します。 ホップ数の関数として,マルチホップ注意のグロマ近似の誤差境界を定式化する理論的解析を提供する。 さらに,各ノードに対する異なる注意減衰因子の学習は,マルチホップ注意の正確な近似につながることを証明した。 実世界のデータセットにおける経験的評価により、xneusmは、近似ベースラインと比較して最大34%の予測精度が大幅に向上し、特に、正確なアルゴリズムよりも7倍速いクエリ時間が得られることが示されている。 実装のソースコードはhttps://github.com/martinakaduc/xneusmで閲覧できます。

Subgraph matching is a challenging problem with a wide range of applications in database systems, biochemistry, and cognitive science. It involves determining whether a given query graph is present within a larger target graph. Traditional graph-matching algorithms provide precise results but face challenges in large graph instances due to the NP-complete problem, limiting their practical applicability. In contrast, recent neural network-based approximations offer more scalable solutions, but often lack interpretable node correspondences. To address these limitations, this article presents xNeuSM: Explainable Neural Subgraph Matching which introduces Graph Learnable Multi-hop Attention Networks (GLeMA) that adaptively learns the parameters governing the attention factor decay for each node across hops rather than relying on fixed hyperparameters. We provide a theoretical analysis establishing error bounds for GLeMA's approximation of multi-hop attention as a function of the number of hops. Additionally, we prove that learning distinct attention decay factors for each node leads to a correct approximation of multi-hop attention. Empirical evaluation on real-world datasets shows that xNeuSM achieves substantial improvements in prediction accuracy of up to 34% compared to approximate baselines and, notably, at least a seven-fold faster query time than exact algorithms. The source code of our implementation is available at https://github.com/martinakaduc/xNeuSM.
翻訳日:2023-12-05 16:22:20 公開日:2023-12-04
# 深層学習による溶接品質制御の強化:ヘアピン溶接における溶接深さと間隙体積の予測

Deep Learning-Driven Enhancement of Welding Quality Control: Predicting Welding Depth and Pore Volume in Hairpin Welding ( http://arxiv.org/abs/2312.01606v1 )

ライセンス: Link先を確認
Amena Darwish, Stefan Ericson, Rohollah Ghasemi, Tobias Andersson, Dan L\"onn, Andreas Andersson Lassila, Kent Salomonsson(参考訳) 本研究は, 溶接工程における品質保証を向上するために, 溶接深度と平均孔容積の2つの臨界溶接性能特性(KPC)の予測を可能にする頑健な深層学習モデルを提案する。 提案手法では, レーザ溶接キー入力特性 (KIC) の包括的範囲を利用して, 溶接梁ジオメトリー, 溶接供給速度, 溶接梁ジオメトリーの経路繰り返し, およびヘアピン溶接実験から得られた全経路に対する明るい光溶接率について検討した。 2つのディープラーニングネットワークには、複数の隠れた層と線形活性化機能があり、溶接KPCやKICに固有の複雑な非線形接続を捕捉するディープニューラルネットワークの機能を示す。 深層学習ネットワークを小さな数値実験ヘアピン溶接データセットに適用すると,平均細孔体積は0.0641,溶接深度は0.1079となる平均絶対誤差(MAE)値が得られるという有望な結果が得られた。 また,妥当性検証により,提案手法の信頼性が実証される。 このことは、溶接結果の制御において大きな利点を約束し、欠陥分類の監視にのみ依存する現在の傾向を越えている。

To advance quality assurance in the welding process, this study presents a robust deep learning model that enables the prediction of two critical welds Key Performance Characteristics (KPCs): welding depth and average pore volume. In the proposed approach, a comprehensive range of laser welding Key Input Characteristics (KICs) is utilized, including welding beam geometries, welding feed rates, path repetitions for weld beam geometries, and bright light weld ratios for all paths, all of which were obtained from hairpin welding experiments. Two deep learning networks are employed with multiple hidden dense layers and linear activation functions to showcase the capabilities of deep neural networks in capturing the intricate nonlinear connections inherent within welding KPCs and KICs. Applying deep learning networks to the small numerical experimental hairpin welding dataset has shown promising results, achieving Mean Absolute Error (MAE) values as low as 0.1079 for predicting welding depth and 0.0641 for average pore volume. Additionally, the validity verification demonstrates the reliability of the proposed method. This, in turn, promises significant advantages in controlling welding outcomes, moving beyond the current trend of relying merely on monitoring for defect classification.
翻訳日:2023-12-05 16:21:54 公開日:2023-12-04
# TextAug: マルチモーダルな人物再識別のためのテスト時間テキスト拡張

TextAug: Test time Text Augmentation for Multimodal Person Re-identification ( http://arxiv.org/abs/2312.01605v1 )

ライセンス: Link先を確認
Mulham Fawakherji, Eduard Vazquez, Pasquale Giampa, Binod Bhattarai(参考訳) マルチモーダル・パーソナライゼーションは, 対局的な一助的枠組みに比べて, 有効性から研究コミュニティで人気が高まっている。 しかし、マルチモーダルディープラーニングのボトルネックは、多数のマルチモーダルトレーニング例を必要とすることである。 画像領域では、クロッピング、フリップ、ローテーションなどのデータ拡張技術が、ディープラーニングモデルの一般化を改善するためによく用いられる。 テキストなどの画像以外のモダリティの強化は困難であり、重要な計算資源と外部データソースを必要とする。 本研究では,マルチモーダルな人物再識別において,カットアウトとカットミックスという2つのコンピュータビジョンデータ拡張手法の有効性を検討した。 この2つの拡張戦略をcutmixoutと呼ばれる1つの戦略にマージし、文から単語やサブフレーズをランダムに取り除き(cutout)、2つ以上の文の一部をブレンドして様々な例(cutmix)を作成し、各操作に割り当てられた確率を割り当てる。 この拡張は、事前のトレーニングなしに推論時に実施された。 提案手法は,複数のマルチモーダル人物再識別ベンチマークの性能向上に有効であることを示す。

Multimodal Person Reidentification is gaining popularity in the research community due to its effectiveness compared to counter-part unimodal frameworks. However, the bottleneck for multimodal deep learning is the need for a large volume of multimodal training examples. Data augmentation techniques such as cropping, flipping, rotation, etc. are often employed in the image domain to improve the generalization of deep learning models. Augmenting in other modalities than images, such as text, is challenging and requires significant computational resources and external data sources. In this study, we investigate the effectiveness of two computer vision data augmentation techniques: cutout and cutmix, for text augmentation in multi-modal person re-identification. Our approach merges these two augmentation strategies into one strategy called CutMixOut which involves randomly removing words or sub-phrases from a sentence (Cutout) and blending parts of two or more sentences to create diverse examples (CutMix) with a certain probability assigned to each operation. This augmentation was implemented at inference time without any prior training. Our results demonstrate that the proposed technique is simple and effective in improving the performance on multiple multimodal person re-identification benchmarks.
翻訳日:2023-12-05 16:21:29 公開日:2023-12-04
# 放射移動方程式の量子アルゴリズム

Quantum Algorithm for Radiative Transfer Equation ( http://arxiv.org/abs/2312.01664v1 )

ライセンス: Link先を確認
Asuka Igarashi, Tadashi Kadowaki, Shiro Kawabata(参考訳) 放射線伝達方程式は工学における熱伝達、医療における拡散光トモグラフィー、天体物理学における放射線流体力学などのシミュレーションに広く用いられている。 格子ボルツマン法を組み合わせることで,放射能伝達の量子アルゴリズムを提案する。 このアルゴリズムは、吸収、散乱、放出といった放射移動の重要な物理過程をすべて包含する。 量子アルゴリズムは従来のアルゴリズムと比較して放射伝達計算を指数関数的に加速する。 量子アルゴリズムを検証するため、IBM Qiskit Aer を用いて量子回路シミュレーションを行い、数値結果と正確な解との良好な一致を求める。 このアルゴリズムはプラズマ工学、電気通信、核融合技術、医療、天体物理学にフォールトトレラント量子コンピュータの新しい応用を開放する。

The radiation transfer equation is widely used for simulating such as heat transfer in engineering, diffuse optical tomography in healthcare, and radiation hydrodynamics in astrophysics. By combining the lattice Boltzmann method, we propose a quantum algorithm for radiative transfer. This algorithm encompasses all the essential physical processes of radiative transfer: absorption, scattering, and emission. Our quantum algorithm exponentially accelerates radiative transfer calculations compared to classical algorithms. In order to verify the quantum algorithm, we perform quantum circuit simulation using IBM Qiskit Aer and find good agreement between our numerical result and the exact solution. The algorithm opens new application of fault-tolerant quantum computers for plasma engineering, telecommunications, nuclear fusion technology, healthcare and astrophysics.
翻訳日:2023-12-05 16:14:39 公開日:2023-12-04
# NeRFをカスタマイズする: ローカルグローバル反復トレーニングによる適応的ソース駆動3Dシーン編集

Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training ( http://arxiv.org/abs/2312.01663v1 )

ライセンス: Link先を確認
Runze He, Shaofei Huang, Xuecheng Nie, Tianrui Hui, Luoqi Liu, Jiao Dai, Jizhong Han, Guanbin Li, Si Liu(参考訳) 本稿では,テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案することで,適応的なソース駆動3Dシーン編集タスクを目標とする。 しかし, 編集プロンプトに適合する編集結果を得るには, 前景領域のみの正確な編集や, 参照画像の複数ビューの整合性などの2つの重要な課題があるため, 容易ではない。 最初の課題に取り組むために,前景領域の編集と全像編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。 第2の課題として,生成モデル内のクラスプリエントを利用して,画像駆動編集における異なるビュー間の不整合問題を緩和するクラス誘導正規化も設計する。 我々のCustomNeRFは、テキストおよび画像駆動設定の両方において、様々な実環境下で正確な編集結果を生成する。

In this paper, we target the adaptive source driven 3D scene editing task by proposing a CustomNeRF model that unifies a text description or a reference image as the editing prompt. However, obtaining desired editing results conformed with the editing prompt is nontrivial since there exist two significant challenges, including accurate editing of only foreground regions and multi-view consistency given a single-view reference image. To tackle the first challenge, we propose a Local-Global Iterative Editing (LGIE) training scheme that alternates between foreground region editing and full-image editing, aimed at foreground-only manipulation while preserving the background. For the second challenge, we also design a class-guided regularization that exploits class priors within the generation model to alleviate the inconsistency problem among different views in image-driven editing. Extensive experiments show that our CustomNeRF produces precise editing results under various real scenes for both text- and image-driven settings.
翻訳日:2023-12-05 16:14:29 公開日:2023-12-04
# 機械学習とリアルタイムフィードバック制御による半導体基板のユニバーサル脱酸化

Universal Deoxidation of Semiconductor Substrates Assisted by Machine-Learning and Real-Time-Feedback-Control ( http://arxiv.org/abs/2312.01662v1 )

ライセンス: Link先を確認
Chao Shen, Wenkang Zhan, Jian Tang, Zhaofeng Wu, Bo Xu, Chao Zhao, and Zhanguo Wang(参考訳) 薄膜堆積は半導体プロセスにおいて必須のステップである。 調製または積み込みの間、基板は好ましくないほど空気に曝され、薄膜の堆積前に表面酸化物を除去するプロセス制御の研究の動機となった。 ランダム基板に対する分子線エピタキシー(MBE)の脱酸化過程の最適化は多次元的課題であり、時には議論の余地がある。 半導体材料や成長プロセスの変化により、基板脱酸化温度の決定は栽培者の専門性に大きく依存しており、同じ基板は異なる栽培者によって評価されると一貫性のない結果が得られる。 ここでは、機械学習(ML)ハイブリッド畳み込みとビジョントランスフォーマー(CNN-ViT)モデルを用いる。 このモデルは、反射高エネルギー電子回折(RHEED)映像を入力として、基板の脱酸化状態を出力として決定し、制御アーキテクチャ下での自動脱酸化を可能にする。 これはまた、他の基質への脱酸化プロセスの成功にまで拡張される。 さらに、1つのMBE機器のデータに基づいて訓練されたモデルが、他の機器への高精度な展開を実現する可能性を示す。 従来の手法とは対照的に、我々のアプローチは極めて実用的な価値を持っている。 様々な機器や基板材料にまたがる脱酸化温度を標準化し、半導体製造における標準化研究プロセスを進め、薄膜成長技術において重要なマイルストーンとなる。 本研究で示された概念と手法は、多種多様な材料成長プロセスに適用することにより、光エレクトロニクスおよびマイクロエレクトロニクス産業における半導体製造に革命をもたらすことが期待されている。

Thin film deposition is an essential step in the semiconductor process. During preparation or loading, the substrate is exposed to the air unavoidably, which has motivated studies of the process control to remove the surface oxide before thin film deposition. Optimizing the deoxidation process in molecular beam epitaxy (MBE) for a random substrate is a multidimensional challenge and sometimes controversial. Due to variations in semiconductor materials and growth processes, the determination of substrate deoxidation temperature is highly dependent on the grower's expertise; the same substrate may yield inconsistent results when evaluated by different growers. Here, we employ a machine learning (ML) hybrid convolution and vision transformer (CNN-ViT) model. This model utilizes reflection high-energy electron diffraction (RHEED) video as input to determine the deoxidation status of the substrate as output, enabling automated substrate deoxidation under a controlled architecture. This also extends to the successful application of deoxidation processes on other substrates. Furthermore, we showcase the potential of models trained on data from a single MBE equipment to achieve high-accuracy deployment on other equipment. In contrast to traditional methods, our approach holds exceptional practical value. It standardizes deoxidation temperatures across various equipment and substrate materials, advancing the standardization research process in semiconductor preparation, a significant milestone in thin film growth technology. The concepts and methods demonstrated in this work are anticipated to revolutionize semiconductor manufacturing in optoelectronics and microelectronics industries by applying them to diverse material growth processes.
翻訳日:2023-12-05 16:14:10 公開日:2023-12-04
# 数学質問者としてのチャットGPT 大学前数学の質問生成におけるChatGPTの評価

ChatGPT as a Math Questioner? Evaluating ChatGPT on Generating Pre-university Math Questions ( http://arxiv.org/abs/2312.01661v1 )

ライセンス: Link先を確認
Phuoc Pham Van Long, Duc Anh Vu, Nhat M. Hoang, Xuan Long Do, Anh Tuan Luu(参考訳) 数学的な質問は学生の問題解決スキルを評価するのに不可欠である。 このような質問を手動で作成するにはかなりの労力を要するため、自動メソッドが検討されている。 既存の最先端モデルは微調整戦略に依存しており、論理的および算術的推論の複数のステップを含む問題を生成するのに苦労している。 一方、ChatGPTのような大規模言語モデル(LLM)は、論理的推論や算術的推論を含む多くのNLPタスクで優れている。 それにもかかわらず、教育問題の生成におけるそれらの応用は、特に数学の分野では、未利用である。 このギャップを埋めるために、我々はChatGPTの詳細な分析を行い、大学前数学の質問を生成する。 分析は,コンテキスト認識とコンテキスト認識の2つに分類した。 文脈認識環境では,初等・中等・第三級を対象とする既存の数学質問応答ベンチマークを用いてChatGPTを評価する。 文脈を意識しない環境では、学習前の数学カリキュラムから各授業の数学質問を生成する際にChatGPTを評価する。 初等・中等・第三等から121の数学科と428の科目から収集した,大学前の数学カリキュラムの包括的かつ斬新なコレクションである topicmath をクロールした。 この分析を通じて,ChatGPTが数学質問者となる可能性について考察する。

Mathematical questioning is crucial for assessing students problem-solving skills. Since manually creating such questions requires substantial effort, automatic methods have been explored. Existing state-of-the-art models rely on fine-tuning strategies and struggle to generate questions that heavily involve multiple steps of logical and arithmetic reasoning. Meanwhile, large language models(LLMs) such as ChatGPT have excelled in many NLP tasks involving logical and arithmetic reasoning. Nonetheless, their applications in generating educational questions are underutilized, especially in the field of mathematics. To bridge this gap, we take the first step to conduct an in-depth analysis of ChatGPT in generating pre-university math questions. Our analysis is categorized into two main settings: context-aware and context-unaware. In the context-aware setting, we evaluate ChatGPT on existing math question-answering benchmarks covering elementary, secondary, and ternary classes. In the context-unaware setting, we evaluate ChatGPT in generating math questions for each lesson from pre-university math curriculums that we crawl. Our crawling results in TopicMath, a comprehensive and novel collection of pre-university math curriculums collected from 121 math topics and 428 lessons from elementary, secondary, and tertiary classes. Through this analysis, we aim to provide insight into the potential of ChatGPT as a math questioner.
翻訳日:2023-12-05 16:13:45 公開日:2023-12-04
# 絶縁性高Q磁気浮上板のフィードバック冷却

Feedback Cooling of an Insulating High-Q Diamagnetically Levitated Plate ( http://arxiv.org/abs/2312.01660v1 )

ライセンス: Link先を確認
S. Tian, K. Jadeja, D. Kim, A. Hodges, G. C. Hermosa, C. Cusicanqui, R. Lecamwasam, J. E. Downes, and J. Twamley(参考訳) 真空中の浮上系は、新しい種類の慣性および磁気センサーから量子科学の基本的な問題、巨大なシュロディンガー猫の生成、重力と量子物理学の接続に至るまで、多くの潜在的な応用がある。 本研究では,高反磁性の材料が電気絶縁体であることを保証する新しい方法を用いて作製した,センチメートル規模の大型発振器の受動的磁気浮上を実証する。 マイクログラファイトビーズの粉末をシリカで化学的にコーティングし, コーティングした粉末を高真空対応ワックスに埋め込むことで, チェッカーボード磁石アレイ上に磁気浮上するセンチメートルの薄い正方形板を形成する。 絶縁皮膜は、同じ粒径の未被覆黒鉛と比較して、渦減衰をほぼ一桁程度低減する。 これらのプレートは、等方性磁化率のため、熱分解グラファイトに対して異なる平衡配向を示す。 粒子径12ミクロンの約1cmの複合共振器に対して, 運動品質係数をQ~1.58*10^5とした。 さらに,遅延フィードバックを適用し,室温から320ミリケルビンまでの周波数~19Hzの垂直運動を冷却する。

Levitated systems in vacuum have many potential applications ranging from new types of inertial and magnetic sensors through to fundamental issues in quantum science, the generation of massive Schrodinger cats, and the connections between gravity and quantum physics. In this work, we demonstrate the passive, diamagnetic levitation of a centimeter-sized massive oscillator which is fabricated using a novel method that ensures that the material, though highly diamagnetic, is an electrical insulator. By chemically coating a powder of microscopic graphite beads with silica and embedding the coated powder in high-vacuum compatible wax, we form a centimeter-sized thin square plate which magnetically levitates over a checkerboard magnet array. The insulating coating reduces eddy damping by almost an order of magnitude compared to uncoated graphite with the same particle size. These plates exhibit a different equilibrium orientation to pyrolytic graphite due to their isotropic magnetic susceptibility. We measure the motional quality factor to be Q~1.58*10^5 for an approximately centimeter-sized composite resonator with a mean particle size of 12 microns. Further, we apply delayed feedback to cool the vertical motion of frequency ~19 Hz from room temperature to 320 millikelvin.
翻訳日:2023-12-05 16:13:23 公開日:2023-12-04
# RiskBench: リスク識別のためのシナリオベースのベンチマーク

RiskBench: A Scenario-based Benchmark for Risk Identification ( http://arxiv.org/abs/2312.01659v1 )

ライセンス: Link先を確認
Chi-Hsi Kung, Chieh-Chi Yang, Pang-Yuan Pao, Shu-Wei Lu, Pin-Lun Chen, Hsin-Cheng Lu, Yi-Ting Chen(参考訳) インテリジェント運転システムは、安全性能を高めるために学際的な努力を必要とするゼロコラボレーションモビリティエクスペリエンスの実現を目指している。 本研究は,動的トラヒック参加者と予期しないイベントに起因するリスクを識別し,分析するプロセスであるリスク識別に重点を置いている。 コミュニティでは大きな進歩がなされているが、リスク識別アルゴリズムの現在の評価では、独立したデータセットが使用されているため、直接比較が難しくなり、安全性向上に向けた集団的進歩が妨げられている。 この制限に対処するため,リスク識別のための大規模シナリオベースベンチマークである \textbf{RiskBench} を導入する。 我々は,様々なシナリオにおける根拠真理リスクの体系的収集を可能にするために,シナリオ分類と拡張パイプラインを設計する。 我々は,(1)リスクの検出と発見,(2)リスクの予測,(3)意思決定の促進を行う10のアルゴリズムの能力を評価する。 我々は,リスク同定に関する今後の研究を概説する。 我々の目的は、ゼロ衝突社会の実現に協力的な取り組みを奨励することである。 私たちは、データセットとベンチマークツールキットをプロジェクトのページに公開しました。

Intelligent driving systems aim to achieve a zero-collision mobility experience, requiring interdisciplinary efforts to enhance safety performance. This work focuses on risk identification, the process of identifying and analyzing risks stemming from dynamic traffic participants and unexpected events. While significant advances have been made in the community, the current evaluation of different risk identification algorithms uses independent datasets, leading to difficulty in direct comparison and hindering collective progress toward safety performance enhancement. To address this limitation, we introduce \textbf{RiskBench}, a large-scale scenario-based benchmark for risk identification. We design a scenario taxonomy and augmentation pipeline to enable a systematic collection of ground truth risks under diverse scenarios. We assess the ability of ten algorithms to (1) detect and locate risks, (2) anticipate risks, and (3) facilitate decision-making. We conduct extensive experiments and summarize future research on risk identification. Our aim is to encourage collaborative endeavors in achieving a society with zero collisions. We have made our dataset and benchmark toolkit publicly on the project page: https://hcis-lab.github.io/RiskBench/
翻訳日:2023-12-05 16:13:03 公開日:2023-12-04
# AGD:プレコンディショニングマトリックスの段階的勾配差を用いたオートスウィッチブル最適化

AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for Preconditioning Matrix ( http://arxiv.org/abs/2312.01658v1 )

ライセンス: Link先を確認
Yun Yue, Zhiling Ye, Jiadi Jiang, Yongchao Liu, Ke Zhang(参考訳) Adamのような適応型オプティマイザは、ディープラーニングにおいて大きな成功を収めています。 これらのオプティマイザの重要なコンポーネントは、いわゆるプレコンディショニングマトリックス(preconditioning matrix)であり、勾配情報を強化し、各勾配方向のステップサイズを調整する。 本稿では,2つの連続するステップ間の勾配差を対角要素として利用し,プリコンディショニング行列を設計する新しい手法を提案する。 これらの対角要素はヘッシアンと密接に関連しており、ヘッシアン列ベクトルと隣接するパラメータベクトルの差との間の内積の近似と見なすことができる。 さらに,事前条件付き行列をSGD(Stochastic Gradient Descent)と適応オプティマイザの間で動的に切り替えることができる自動切換機能を導入する。 これら2つの手法に基づいて,一般化性能を向上するAGDという新しい最適化器を開発した。 我々は、自然言語処理(NLP)、コンピュータビジョン(CV)、レコメンデーションシステム(RecSys)の公開データセット上でAGDを評価する。 実験の結果,AGDは最先端のSOTA(State-of-the-art)オプティマイザよりも優れた性能を示し,高い競争力や予測性能を実現している。 さらに,AGDがSGDとアダプティブオプティマイザとを自動的に切り替える方法と,その実際の影響を様々なシナリオで分析する。 コードはhttps://github.com/intelligent-machine-learning/dlrover/tree/master/atorch/atorch/optimizersで入手できる。

Adaptive optimizers, such as Adam, have achieved remarkable success in deep learning. A key component of these optimizers is the so-called preconditioning matrix, providing enhanced gradient information and regulating the step size of each gradient direction. In this paper, we propose a novel approach to designing the preconditioning matrix by utilizing the gradient difference between two successive steps as the diagonal elements. These diagonal elements are closely related to the Hessian and can be perceived as an approximation of the inner product between the Hessian row vectors and difference of the adjacent parameter vectors. Additionally, we introduce an auto-switching function that enables the preconditioning matrix to switch dynamically between Stochastic Gradient Descent (SGD) and the adaptive optimizer. Based on these two techniques, we develop a new optimizer named AGD that enhances the generalization performance. We evaluate AGD on public datasets of Natural Language Processing (NLP), Computer Vision (CV), and Recommendation Systems (RecSys). Our experimental results demonstrate that AGD outperforms the state-of-the-art (SOTA) optimizers, achieving highly competitive or significantly better predictive performance. Furthermore, we analyze how AGD is able to switch automatically between SGD and the adaptive optimizer and its actual effects on various scenarios. The code is available at https://github.com/intelligent-machine-learning/dlrover/tree/master/atorch/atorch/optimizers.
翻訳日:2023-12-05 16:12:48 公開日:2023-12-04
# 安定, 一貫性, より高速な収束のためのチューニング型ニューラルネットワークODEについて

On Tuning Neural ODE for Stability, Consistency and Faster Convergence ( http://arxiv.org/abs/2312.01657v1 )

ライセンス: Link先を確認
Sheikh Waqas Akhtar(参考訳) neural-odeは連続深度ニューラルネットワークを用いて微分方程式をパラメータ化し、数値ode積分器を用いて解く。 これらのモデルでは、層数に応じてメモリコストが線形に増大する個別の層列を持つモデルと比較して、メモリコストが一定である。 メモリ効率に加えて、ニューラルダイオードの他の利点として、入力に対する評価アプローチの適応性、数値的精度や高速トレーニングを選択する柔軟性がある。 しかし、これらすべての利点はあるものの、まだいくつかの制限がある。 ODE-インテグレータ(ODE-solver とも呼ばれる)は、安定性、一貫性、収束(CCS)の問題があり、収束が遅いか、全く収束しない可能性があるため、チェーン内の最も弱いリンクである。 我々は,vis-a-vis ccs条件を調整した一階のnesterov's accelerated gradient (nag) ベースのode-solverを提案する。 教師付き分類、密度推定、時系列モデリングを含む3つのタスクにおいて、他の固定ステップの明示的なODE-ソルバとResNetのような離散的な深度モデルを用いて、ニューラルオードに対して、より高速に、あるいは同等のパフォーマンスを達成しながら、我々のアプローチの有効性を実証的に実証した。

Neural-ODE parameterize a differential equation using continuous depth neural network and solve it using numerical ODE-integrator. These models offer a constant memory cost compared to models with discrete sequence of hidden layers in which memory cost increases linearly with the number of layers. In addition to memory efficiency, other benefits of neural-ode include adaptability of evaluation approach to input, and flexibility to choose numerical precision or fast training. However, despite having all these benefits, it still has some limitations. We identify the ODE-integrator (also called ODE-solver) as the weakest link in the chain as it may have stability, consistency and convergence (CCS) issues and may suffer from slower convergence or may not converge at all. We propose a first-order Nesterov's accelerated gradient (NAG) based ODE-solver which is proven to be tuned vis-a-vis CCS conditions. We empirically demonstrate the efficacy of our approach by training faster, while achieving better or comparable performance against neural-ode employing other fixed-step explicit ODE-solvers as well discrete depth models such as ResNet in three different tasks including supervised classification, density estimation, and time-series modelling.
翻訳日:2023-12-05 16:12:17 公開日:2023-12-04
# 画像検索の現代的技術 : 視覚言語モデルによる反復的ユーザインテント拡張

The Contemporary Art of Image Search: Iterative User Intent Expansion via Vision-Language Model ( http://arxiv.org/abs/2312.01656v1 )

ライセンス: Link先を確認
Yilin Ye, Qian Zhu, Shishi Xiao, Kang Zhang, Wei Zeng(参考訳) 画像検索は、デジタル画像の広大なギャラリーを探索するための必須かつユーザフレンドリーな方法である。 しかし,既存の画像検索手法は,タグマッチングや画像類似性などの近接測定に大きく依存しており,精度の高いユーザ入力を必要とするため,ユーザの検索意図の正確な理解を可能にする現代画像検索エンジンの需要が増大する中で,革新的なユーザ意図拡張フレームワークを導入している。 本フレームワークでは,視覚モデルを用いてマルチモーダルなユーザ入力を解析・構成し,より正確かつ満足な結果を提供する。 2段階からなる。 1) 大きな言語モデルを持つ言語解析モジュールを組み込んだ解析ステージは、テキスト入力の理解を深めるとともに、画像内の詳細な視覚要素を迅速に識別するインタラクティブセグメンテーションモジュールを統合したビジュアル解析モジュールである。 2) 複雑な検索シナリオにおいて,複数のユーザ検索意図を統一された論理式に組み合わせた論理合成ステージ。 さらに、インテント拡張フレームワークにより、ユーザは検索結果との柔軟な文脈的相互作用を実行でき、より詳細な検索インテントを反復的に指定または調整することができる。 nft(non-fungible token)検索のための画像検索システムとして実装し,ユーザビリティと新しい特性を評価するためのユーザ調査を行った。 その結果,提案フレームワークはユーザの画像検索体験を大幅に改善することがわかった。 特に、パースとコンテキスト化されたインタラクションは、ユーザーが検索意図をより正確に表現し、より楽しい反復的な検索体験に役立ちます。

Image search is an essential and user-friendly method to explore vast galleries of digital images. However, existing image search methods heavily rely on proximity measurements like tag matching or image similarity, requiring precise user inputs for satisfactory results.To meet the growing demand for a contemporary image search engine that enables accurate comprehension of users' search intentions, we introduce an innovative user intent expansion framework. Our framework leverages visual-language models to parse and compose multi-modal user inputs to provide more accurate and satisfying results. It comprises two-stage processes: 1) a parsing stage that incorporates a language parsing module with large language models to enhance the comprehension of textual inputs, along with a visual parsing module that integrates an interactive segmentation module to swiftly identify detailed visual elements within images; and 2) a logic composition stage that combines multiple user search intents into a unified logic expression for more sophisticated operations in complex searching scenarios. Moreover, the intent expansion framework enables users to perform flexible contextualized interactions with the search results to further specify or adjust their detailed search intents iteratively. We implemented the framework into an image search system for NFT (non-fungible token) search and conducted a user study to evaluate its usability and novel properties. The results indicate that the proposed framework significantly improves users' image search experience. Particularly the parsing and contextualized interactions prove useful in allowing users to express their search intents more accurately and engage in a more enjoyable iterative search experience.
翻訳日:2023-12-05 16:11:47 公開日:2023-12-04
# 量子極性計量学習: 古典的学習による量子埋め込み

Quantum Polar Metric Learning: Efficient Classically Learned Quantum Embeddings ( http://arxiv.org/abs/2312.01655v1 )

ライセンス: Link先を確認
Vinayak Sharma and Aviral Shrivastava(参考訳) deep metric learningは、最近、古典的なデータドメインで非常に有望な結果を示し、十分に分離された機能空間を作成しました。 このアイデアは量子メトリックラーニング(QMeL)を通じて量子コンピュータにも適用された。 QMeLは、2段階のプロセスと古典的なモデルで構成され、データを圧縮して限られたキュービット数に収まるようにし、パラメータ化量子回路(PQC)を訓練してヒルベルト空間での分離を改善する。 しかし、ノイズ中間スケール量子(NISQ)デバイス上では。 QMeLソリューションは高い回路幅と深さをもたらし、どちらもスケーラビリティを制限している。 量子極距離学習(QPMeL)を提案し,古典的モデルを用いて量子ビットの極形パラメータを学習する。 次に、$R_y$と$R_z$の浅いPQCを使って状態を作り、$ZZ(\theta)$-gatesのトレーニング可能なレイヤで絡み合いを学習します。 この回路は、古典的および量子的両方のコンポーネントをトレーニングするために使用される、提案したFidelity Triplet Loss関数のSWAPテストを通じて、フィデリティを計算する。 QMeLアプローチと比較して、QPMeLはゲート数と深さの1/2しか使用せず、3倍優れたマルチクラス分離を実現する。 また、QPMeLは、同様の構成の古典的ネットワークよりも優れており、量子損失関数を持つ完全古典的モデルの将来的な研究の道筋を示す。

Deep metric learning has recently shown extremely promising results in the classical data domain, creating well-separated feature spaces. This idea was also adapted to quantum computers via Quantum Metric Learning(QMeL). QMeL consists of a 2 step process with a classical model to compress the data to fit into the limited number of qubits, then train a Parameterized Quantum Circuit(PQC) to create better separation in Hilbert Space. However, on Noisy Intermediate Scale Quantum (NISQ) devices. QMeL solutions result in high circuit width and depth, both of which limit scalability. We propose Quantum Polar Metric Learning (QPMeL) that uses a classical model to learn the parameters of the polar form of a qubit. We then utilize a shallow PQC with $R_y$ and $R_z$ gates to create the state and a trainable layer of $ZZ(\theta)$-gates to learn entanglement. The circuit also computes fidelity via a SWAP Test for our proposed Fidelity Triplet Loss function, used to train both classical and quantum components. When compared to QMeL approaches, QPMeL achieves 3X better multi-class separation, while using only 1/2 the number of gates and depth. We also demonstrate that QPMeL outperforms classical networks with similar configurations, presenting a promising avenue for future research on fully classical models with quantum loss functions.
翻訳日:2023-12-05 16:11:20 公開日:2023-12-04
# sparsity enforcementを用いたエンド・ツー・エンドのネットワークプルーニングパイプライン

An End-to-End Network Pruning Pipeline with Sparsity Enforcement ( http://arxiv.org/abs/2312.01653v1 )

ライセンス: Link先を確認
Evan Dogariu(参考訳) ニューラルネットワークは、さまざまなドメインにまたがる複雑なタスクを解決する強力なツールとして登場したが、そのサイズと計算要件の増大は、リソースに制約のあるデバイスにそれらをデプロイする上で大きな課題を提起している。 ニューラルネットワークのスパーシフィケーション、特にプルーニングは、競争性能を維持しながらモデルサイズ、計算複雑性、メモリフットプリントを削減し、これらの課題を軽減する効果的な手法として登場した。 しかし、多くのプルーニングパイプラインは、たとえあるとしても、標準のトレーニングパイプラインを1つのステージにしか変更しない。 本研究では、ニューラルネットワークのプルーニングと、トレーニングのあらゆる段階におけるスパーシフィケーションに適合するエンドツーエンドのトレーニングパイプラインを開発することを検討する。 そのために,非標準モデルパラメータの初期化,事前プランニングトレーニング方法論,ポストプランニングトレーニング最適化を活用した。 我々は,これらの手法の組み合わせを利用した実験を行い,刈り込み工程で使用する様々な技術に加えて,我々の組み合わせパイプラインが,ニューラルネットワークのスパシフィケーションに対する最先端技術よりも大きな利益を得られることを発見した。

Neural networks have emerged as a powerful tool for solving complex tasks across various domains, but their increasing size and computational requirements have posed significant challenges in deploying them on resource-constrained devices. Neural network sparsification, and in particular pruning, has emerged as an effective technique to alleviate these challenges by reducing model size, computational complexity, and memory footprint while maintaining competitive performance. However, many pruning pipelines modify the standard training pipeline at only a single stage, if at all. In this work, we look to develop an end-to-end training pipeline that befits neural network pruning and sparsification at all stages of training. To do so, we make use of nonstandard model parameter initialization, pre-pruning training methodologies, and post-pruning training optimizations. We conduct experiments utilizing combinations of these methods, in addition to different techniques used in the pruning step, and find that our combined pipeline can achieve significant gains over current state of the art approaches to neural network sparsification.
翻訳日:2023-12-05 16:10:53 公開日:2023-12-04
# Genuine 3-copy Collective Measurements を用いた最適量子状態推定

Experimental Optimal Quantum State Estimation with Genuine Three-copy Collective Measurements ( http://arxiv.org/abs/2312.01651v1 )

ライセンス: Link先を確認
Kai Zhou, Changhao Yi, Wen-Zhe Yan, Zhibo Hou, Huangjun Zhu, Guo-Yong Xiang, Chuan-Feng Li and Guang-Can Guo(参考訳) 絡み合った状態と結びついた非古典現象は、多くの応用において基礎研究と強力な資源の焦点である。 対照的に、量子測定の対応するものはまだよく分かっていない。 特に、真の多元的非古典性は実験的な実現とは言わないまでもほとんど議論されない。 ここでは、単純な推定問題に基づいて、量子測定における真の三成分非古典性のパワーを実験的に示す。 この目的のために、精巧に設計された30個のコイン演算子を備えた9段階の2次元フォトニック量子ウォークによる最適な真の3コピー集団計測を実現する。 そして、最適推定プロトコルを実現し、11以上の標準偏差による制限された集団測定に基づいて全ての戦略を破ることができる、前例のない高い評価忠実度を達成する。 これらの結果は、真の集団的測定が局所的な測定や制限された集団的測定よりも多くの情報を抽出できることを明確に示している。 我々の研究は、量子情報処理における真のマルチパーティリート非古典的測定とそのパワーを探求するための扉を開く。

Nonclassical phenomena tied to entangled states are focuses of foundational studies and powerful resources in many applications. By contrast, the counterparts on quantum measurements are still poorly understood. Notably, genuine multipartite nonclassicality is barely discussed, not to say experimental realization. Here we experimentally demonstrate the power of genuine tripartite nonclassicality in quantum measurements based on a simple estimation problem. To this end we realize an optimal genuine three-copy collective measurement via a nine-step two-dimensional photonic quantum walk with 30 elaborately designed coin operators. Then we realize an optimal estimation protocol and achieve an unprecedented high estimation fidelity, which can beat all strategies based on restricted collective measurements by more than 11 standard deviations. These results clearly demonstrate that genuine collective measurements can extract more information than local measurements and restricted collective measurements. Our work opens the door for exploring genuine multipartite nonclassical measurements and their power in quantum information processing.
翻訳日:2023-12-05 16:10:34 公開日:2023-12-04
# マルチオブジェクト追跡におけるByteTrackのアダプティブ信頼閾値

Adaptive Confidence Threshold for ByteTrack in Multi-Object Tracking ( http://arxiv.org/abs/2312.01650v1 )

ライセンス: Link先を確認
Linh Van Ma, Muhammad Ishfaq Hussain, JongHyun Park, Jeongbae Kim, Moongu Jeon(参考訳) マルチオブジェクトトラッキングの領域におけるByteTrackの適用について検討する。 ByteTrackは単純なトラッキングアルゴリズムであり、信頼性の低い検出を戦略的に組み込むことで、複数のオブジェクトの同時追跡を可能にする。 従来、オブジェクトは高い信頼度しきい値検出と関連付けられる。 オブジェクトと検出の関連が曖昧になるとき、ByteTrackは信頼性の低いしきい値検出に関連を拡大する。 既存のByteTrackアプローチの顕著な欠点は、高い信頼度と低い信頼度を区別する固定しきい値に依存することだ。 この制限に対応して,新しい適応的アプローチを提案する。 提案手法は,信頼度閾値の動的調整を伴い,全体検出から得られた知見を活用できる。 実験により、ByteTrackと比較してランニング時間を維持しながら、適応信頼度閾値手法の有効性を示す。

We investigate the application of ByteTrack in the realm of multiple object tracking. ByteTrack, a simple tracking algorithm, enables the simultaneous tracking of multiple objects by strategically incorporating detections with a low confidence threshold. Conventionally, objects are initially associated with high confidence threshold detections. When the association between objects and detections becomes ambiguous, ByteTrack extends the association to lower confidence threshold detections. One notable drawback of the existing ByteTrack approach is its reliance on a fixed threshold to differentiate between high and low-confidence detections. In response to this limitation, we introduce a novel and adaptive approach. Our proposed method entails a dynamic adjustment of the confidence threshold, leveraging insights derived from overall detections. Through experimentation, we demonstrate the effectiveness of our adaptive confidence threshold technique while maintaining running time compared to ByteTrack.
翻訳日:2023-12-05 16:10:20 公開日:2023-12-04
# 大言語モデル幾何の特徴付けは毒性の検出と生成を解消する

Characterizing Large Language Model Geometry Solves Toxicity Detection and Generation ( http://arxiv.org/abs/2312.01648v1 )

ライセンス: Link先を確認
Randall Balestriero, Romain Cosentino, Sarath Shekkizhar(参考訳) 大規模言語モデル~(LLM)は、内部表現についてほとんど知られていないにもかかわらず、現在のAIのブレークスルーを駆動する。 実用的で原理的な解法として,幾何学的観点からLLMを特徴付けることを提案する。 我々は閉じた形で得られる (i)多頭注意埋め込みが存在するように制約された内在的な次元 (II) 層ごとのフィードフォワードネットワークの分割および領域ごとのアフィンマッピング。 我々の結果は情報であり、近似に頼らず、実行可能である。 まず、幾何学的解釈によって、インフォームド・プロンプト操作により、その埋め込みの内在次元を制御することで、llama$2$'s rlhfをバイパスできることを示す。 次に,任意の(事前学習した)LCM層から抽出可能な7ドルの解釈可能なスプライン特徴を導出し,その入力を抽象的に表現する。 これらの機能だけでも(224ドルのmistral-7bとllama$7b)は、毒性の検出、プロンプトの領域の推定、さまざまなプロンプトの毒性のタイプを特徴付けることを目的としたjigsaw challengeにも取り組むことができる。 本研究は, 大規模システムにおいても, 正確な理論的結果が言語モデルにおける実用的疑問にどのように答えられるかを示す。 コード: \url{https://github.com/RandallBalestriero/SplineLLM}。

Large Language Models~(LLMs) drive current AI breakthroughs despite very little being known about their internal representations, e.g., how to extract a few informative features to solve various downstream tasks. To provide a practical and principled answer, we propose to characterize LLMs from a geometric perspective. We obtain in closed form (i) the intrinsic dimension in which the Multi-Head Attention embeddings are constrained to exist and (ii) the partition and per-region affine mappings of the per-layer feedforward networks. Our results are informative, do not rely on approximations, and are actionable. First, we show that, motivated by our geometric interpretation, we can bypass Llama$2$'s RLHF by controlling its embedding's intrinsic dimension through informed prompt manipulation. Second, we derive $7$ interpretable spline features that can be extracted from any (pre-trained) LLM layer, providing a rich abstract representation of their inputs. Those features alone ($224$ for Mistral-7B and Llama$2$-7B) are sufficient to help solve toxicity detection, infer the domain of the prompt, and even tackle the Jigsaw challenge, which aims at characterizing the type of toxicity of various prompts. Our results demonstrate how, even in large-scale regimes, exact theoretical results can answer practical questions in language models. Code: \url{https://github.com/RandallBalestriero/SplineLLM}.
翻訳日:2023-12-05 16:10:10 公開日:2023-12-04
# TMSR:超高解像度のマルチパスCNN

TMSR: Tiny Multi-path CNNs for Super Resolution ( http://arxiv.org/abs/2312.01644v1 )

ライセンス: Link先を確認
Chia-Hung Liu, Tzu-Hsin Hsieh, Kuan-Yu Huang, Pei-Yin Chen(参考訳) 本稿では,TMSRと呼ばれるマルチパスCNNを用いた超解法を提案する。 主に5kパラメータのCNNベースのSR手法について言及する。 提案手法の主な貢献は,マルチパス学習と自己定義活性化機能の改善である。 実験結果から,TMSRは5kパラメータによる関連作品と比較して,競合画像の品質(PSNR,SSIM)が得られることがわかった。

In this paper, we proposed a tiny multi-path CNN-based Super-Resolution (SR) method, called TMSR. We mainly refer to some tiny CNN-based SR methods, under 5k parameters. The main contribution of the proposed method is the improved multi-path learning and self-defined activated function. The experimental results show that TMSR obtains competitive image quality (i.e. PSNR and SSIM) compared to the related works under 5k parameters.
翻訳日:2023-12-05 16:09:45 公開日:2023-12-04
# BEVNeXt:3Dオブジェクト検出のための複雑なBEVフレームワークの復活

BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection ( http://arxiv.org/abs/2312.01696v1 )

ライセンス: Link先を確認
Zhenxin Li, Shiyi Lan, Jose M. Alvarez, Zuxuan Wu(参考訳) 近年,クエリベースのトランスフォーマーデコーダが登場し,カメラベースの3Dオブジェクト検出が作り直されている。 これらのクエリベースのデコーダは、従来のBEV(Bird's Eye View)ベースの手法を超越している。 しかし,深度推定や物体位置推定に優れた能力を持つため,高密度なBEVフレームワークは依然として重要であり,正確な3次元シーンを包括的に描いている。 本稿では,オブジェクトレベルの構成を強制するcrf-modulated depth estimationモジュール,拡張受容場を有する長期時間集約モジュール,crf-modulated depth embeddedを用いた遠近法を組み合わせた2段階オブジェクトデコーダなど,既存の高密度bevベースの3dオブジェクト検出器の欠点に対処することを目的とする。 これらの拡張は、BEVNeXtと呼ばれる"近代化された"高密度なBEVフレームワークにつながった。 nuScenesベンチマークでは、BEVNeXtはさまざまな設定でBEVベースのフレームワークとクエリベースのフレームワークを上回り、nuScenesテストセット上で64.2 NDSの最先端結果を達成する。

Recently, the rise of query-based Transformer decoders is reshaping camera-based 3D object detection. These query-based decoders are surpassing the traditional dense BEV (Bird's Eye View)-based methods. However, we argue that dense BEV frameworks remain important due to their outstanding abilities in depth estimation and object localization, depicting 3D scenes accurately and comprehensively. This paper aims to address the drawbacks of the existing dense BEV-based 3D object detectors by introducing our proposed enhanced components, including a CRF-modulated depth estimation module enforcing object-level consistencies, a long-term temporal aggregation module with extended receptive fields, and a two-stage object decoder combining perspective techniques with CRF-modulated depth embedding. These enhancements lead to a "modernized" dense BEV framework dubbed BEVNeXt. On the nuScenes benchmark, BEVNeXt outperforms both BEV-based and query-based frameworks under various settings, achieving a state-of-the-art result of 64.2 NDS on the nuScenes test set.
翻訳日:2023-12-05 16:05:11 公開日:2023-12-04
# 誘導ベイズ最適化によるリスク制御モデル選択

Risk-Controlling Model Selection via Guided Bayesian Optimization ( http://arxiv.org/abs/2312.01692v1 )

ライセンス: Link先を確認
Bracha Laufer-Goldshtein, Adam Fisch, Regina Barzilay, Tommi Jaakkola(参考訳) 機械学習モデルの調整可能なハイパーパラメータは通常、正確性、公平性、堅牢性、推論コストなど、さまざまな重要なトレードオフに影響を与える。 本論文の目的は,他の競合する指標に対して有用でありながら,特定のリスクに対するユーザ指定の制限に固執する構成を見つけることである。 ベイズ最適化(BO)と厳密なリスク制御手法を組み合わせることでこの問題を解決する。 BO法では,指定された関心領域に属するパレート最適構成の集合を同定する。 結果の候補は統計的に検証され、最高のパフォーマンス構成が保証されたリスクレベルで選択される。 提案手法は,誤り率の低さ,公平な予測,散発的相関処理,生成モデルの管理率と歪み,計算コストの低減など,複数のデシデラタを持つタスクに対して有効であることを示す。

Adjustable hyperparameters of machine learning models typically impact various key trade-offs such as accuracy, fairness, robustness, or inference cost. Our goal in this paper is to find a configuration that adheres to user-specified limits on certain risks while being useful with respect to other conflicting metrics. We solve this by combining Bayesian Optimization (BO) with rigorous risk-controlling procedures, where our core idea is to steer BO towards an efficient testing strategy. Our BO method identifies a set of Pareto optimal configurations residing in a designated region of interest. The resulting candidates are statistically verified and the best-performing configuration is selected with guaranteed risk levels. We demonstrate the effectiveness of our approach on a range of tasks with multiple desiderata, including low error rates, equitable predictions, handling spurious correlations, managing rate and distortion in generative models, and reducing computational costs.
翻訳日:2023-12-05 16:04:49 公開日:2023-12-04
# 複数のディープラーニングモデルの融合によるコロナ質量放出量と運動エネルギーの推定

Estimating Coronal Mass Ejection Mass and Kinetic Energy by Fusion of Multiple Deep-learning Models ( http://arxiv.org/abs/2312.01691v1 )

ライセンス: Link先を確認
Khalid A. Alobaid, Yasser Abduallah, Jason T. L. Wang, Haimin Wang, Shen Fan, Jialiang Li, Huseyin Cavus, Vasyl Yurchyshyn(参考訳) コロナ質量放出(CME)は大規模な太陽噴火であり、地球に大きな影響を及ぼす。 本稿では,CMEの2つの特性,すなわちCME質量と運動エネルギーを推定するために,DeepCMEと呼ばれる新しい手法を提案する。 これらの特性を推定できることは、CMEのダイナミクスをよりよく理解するのに役立ちます。 本研究は,1996年以降にSolar and Heliospheric Observatory (SOHO)に搭載されたLarge Angle and Spectrometric Coronagraph (LASCO)を用いて,手動で同定されたすべてのCMEを含むコーディネート・データ・アナリティクス・ワークショップ(CDAW)データ・センターで維持されているCMEカタログに基づいている。 我々は,1996年1月から2020年12月までの期間にLASCO C2データを用いて,10倍のクロス検証によるDeepCMEのトレーニング,検証,試験を行った。 DeepCMEメソッドは、ResNet、InceptionNet、InceptionResNetを含む3つのディープラーニングモデルの融合である。 融合モデルはlasco c2画像から特徴を抽出し,3成分モデルの学習能力を効果的に組み合わせ,cmesの質量と運動エネルギーを共同で推定する。 実験の結果, 核融合モデルの平均相対誤差 (MRE) は, CME質量 (運動エネルギー) の推定において, 最適成分モデルInceptionResNet (InceptionNet) の 0.019 (0.017) の平均相対誤差 (MRE) に対してそれぞれ0.013 (0.009) となることがわかった。 我々の知る限り、深層学習がCME質量と運動エネルギー推定に使われたのはこれが初めてである。

Coronal mass ejections (CMEs) are massive solar eruptions, which have a significant impact on Earth. In this paper, we propose a new method, called DeepCME, to estimate two properties of CMEs, namely, CME mass and kinetic energy. Being able to estimate these properties helps better understand CME dynamics. Our study is based on the CME catalog maintained at the Coordinated Data Analysis Workshops (CDAW) Data Center, which contains all CMEs manually identified since 1996 using the Large Angle and Spectrometric Coronagraph (LASCO) on board the Solar and Heliospheric Observatory (SOHO). We use LASCO C2 data in the period between January 1996 and December 2020 to train, validate and test DeepCME through 10-fold cross validation. The DeepCME method is a fusion of three deep learning models, including ResNet, InceptionNet, and InceptionResNet. Our fusion model extracts features from LASCO C2 images, effectively combining the learning capabilities of the three component models to jointly estimate the mass and kinetic energy of CMEs. Experimental results show that the fusion model yields a mean relative error (MRE) of 0.013 (0.009, respectively) compared to the MRE of 0.019 (0.017, respectively) of the best component model InceptionResNet (InceptionNet, respectively) in estimating the CME mass (kinetic energy, respectively). To our knowledge, this is the first time that deep learning has been used for CME mass and kinetic energy estimations.
翻訳日:2023-12-05 16:04:34 公開日:2023-12-04
# メタ学習神経減衰場とハッシュエンコーディング正規化を用いた高速かつ高精度CBCT再構成

Fast and accurate sparse-view CBCT reconstruction using meta-learned neural attenuation field and hash-encoding regularization ( http://arxiv.org/abs/2312.01689v1 )

ライセンス: Link先を確認
Heejun Shin, Taehee Kim, Jongho Lee, Seyoung Chun, Seungryung Cho, Dongmyung Shin(参考訳) コーンビームCT(CBCT)は、患者の内部解剖学的構造を可視化する新しい医療画像技術である。 CBCTスキャンでは、異なる角度やビューの投影画像を集合的に利用してトモグラフィ画像の再構成を行う。 しかし, 再構成画像の品質を維持しつつ, CBCTスキャンにおける投影数を減らすことは, 逆問題の性質から困難である。 近年, CBCT再構成のための新しい手法としてニューラル・ラジオアンス・フィールド・アルゴリズムを採用し, 50ビューで高速かつ有望な結果を示すニューラル・減衰場(NAF)法が提案されている。 しかし, 被曝電位を減少させるには投影数の減少が望ましいが, 典型的な走査時間を考えると, より早い再構成時間が必要となる。 そこで本研究では,最小のビュー取得数(50ビュー)において,より優れたコンストラクション品質と高速な最適化速度を実現するために,高速かつ高精度なsparse-view cbct reconstruction (fact) 法を提案する。 FACT法では,数個のスキャン(=15)を用いてニューラルネットワークとハッシュエンコーダをメタトレーニングし,新しい正規化手法を用いて解剖学的構造の詳細を再構築した。 その結果,異なる体部(胸部,頭部,腹部)とctベンダー(シーメンス,フィリップス,ge)のcbctスキャンに基づく他の従来のアルゴリズムと比較して,ファクト法がより良く,より高速に再構成できることがわかった。

Cone beam computed tomography (CBCT) is an emerging medical imaging technique to visualize the internal anatomical structures of patients. During a CBCT scan, several projection images of different angles or views are collectively utilized to reconstruct a tomographic image. However, reducing the number of projections in a CBCT scan while preserving the quality of a reconstructed image is challenging due to the nature of an ill-posed inverse problem. Recently, a neural attenuation field (NAF) method was proposed by adopting a neural radiance field algorithm as a new way for CBCT reconstruction, demonstrating fast and promising results using only 50 views. However, decreasing the number of projections is still preferable to reduce potential radiation exposure, and a faster reconstruction time is required considering a typical scan time. In this work, we propose a fast and accurate sparse-view CBCT reconstruction (FACT) method to provide better reconstruction quality and faster optimization speed in the minimal number of view acquisitions ($<$ 50 views). In the FACT method, we meta-trained a neural network and a hash-encoder using a few scans (= 15), and a new regularization technique is utilized to reconstruct the details of an anatomical structure. In conclusion, we have shown that the FACT method produced better, and faster reconstruction results over the other conventional algorithms based on CBCT scans of different body parts (chest, head, and abdomen) and CT vendors (Siemens, Phillips, and GE).
翻訳日:2023-12-05 16:03:58 公開日:2023-12-04
# バス旅行の最適化:P-KMEANSとP-LDAアルゴリズムによる特徴マイニングの新しいアプローチ

Optimizing Bus Travel: A Novel Approach to Feature Mining with P-KMEANS and P-LDA Algorithms ( http://arxiv.org/abs/2312.01687v1 )

ライセンス: Link先を確認
Hongjie Liu, Haotian Shi, Sicheng Fu, Tengfei Yuan, Xinhuan Zhang, Hongzhe Xu, Bin Ran(参考訳) バス旅行のサービスをカスタマイズすることは、その魅力を高め、利用を最適化し、渋滞を緩和し、二酸化炭素排出量を減らすことができる。 このポテンシャルは、公共交通機関における機能マイニングのための通信施設、モノのインターネット、人工知能の最近の進歩を活用して実現されている。 しかし、非構造化・非構造化公共交通データの固有の複雑さは、旅行の特徴抽出に実質的な課題をもたらす。 本研究では,P-KMENASアルゴリズムとP-LDAアルゴリズムを用いて,POI(Point of Interest)データに根ざしたバス走行特徴抽出手法を提案する。 KMEANSアルゴリズムは乗客の移動経路を異なるクラスタに分割するが、その結果は初期K値の影響を受け得る。 一方、LDA(Latent Dirichlet Allocation)は特徴識別と確率論的解釈に優れるが、機能干渉とニュアンスサブ機能相互作用の困難に遭遇する。 POI次元を組み込むことで、旅行行動の理解を深め、乗客属性とより緊密に連携し、データ分析を容易にする。 POIデータを組み込むことで、P-KMENASとP-LDAアルゴリズムは旅行行動や属性に関する総合的な洞察を与え、上記の制限を効果的に緩和する。 したがって、このPOI中心のアルゴリズムは、様々なPOI属性を効果的にアマルガットし、様々な旅行コンテキストを規定し、特徴特性に確率的指標を与える。 本手法は, 年齢, 職業, 性別, スポーツ, 費用, 安全, 性格特性など, バス旅行の多様な側面を発掘することに成功した。 個々の旅行行動の関係を効果的に計算し、説明的および評価的確率をPOIラベルに割り当て、バス旅行最適化を強化する。

Customizing services for bus travel can bolster its attractiveness, optimize usage, alleviate traffic congestion, and diminish carbon emissions. This potential is realized by harnessing recent advancements in positioning communication facilities, the Internet of Things, and artificial intelligence for feature mining in public transportation. However, the inherent complexities of disorganized and unstructured public transportation data introduce substantial challenges to travel feature extraction. This study presents a bus travel feature extraction method rooted in Point of Interest (POI) data, employing enhanced P-KMENAS and P-LDA algorithms to overcome these limitations. While the KMEANS algorithm adeptly segments passenger travel paths into distinct clusters, its outcomes can be influenced by the initial K value. On the other hand, Latent Dirichlet Allocation (LDA) excels at feature identification and probabilistic interpretations yet encounters difficulties with feature intermingling and nuanced sub-feature interactions. Incorporating the POI dimension enhances our understanding of travel behavior, aligning it more closely with passenger attributes and facilitating easier data analysis. By incorporating POI data, our refined P-KMENAS and P-LDA algorithms grant a holistic insight into travel behaviors and attributes, effectively mitigating the limitations above. Consequently, this POI-centric algorithm effectively amalgamates diverse POI attributes, delineates varied travel contexts, and imparts probabilistic metrics to feature properties. Our method successfully mines the diverse aspects of bus travel, such as age, occupation, gender, sports, cost, safety, and personality traits. It effectively calculates relationships between individual travel behaviors and assigns explanatory and evaluative probabilities to POI labels, thereby enhancing bus travel optimization.
翻訳日:2023-12-05 16:03:11 公開日:2023-12-04
# 光子損失非ガウス状態を用いた軌道角運動量エンハンス位相推定

Orbital angular momentum-enhanced phase estimation using non-Gaussian state with photon loss ( http://arxiv.org/abs/2312.01684v1 )

ライセンス: Link先を確認
Yong-Jian Chen, Jin-Wei Gao, Jin-Xuan Han, Zhong-Hui Yuan, Ruo-Qi Li, Yong-Yuan Jiang, and Jie Song(参考訳) 本研究では,MZIsの位相推定における軌道角運動量 (OAM) の利用について,非ガウス状態をノイズの存在下での入力資源として用いることにより検討した。 本研究では,非ガウス状態,特にpsa状態が対称雑音の存在下では最適感度を示すことを示す。 さらに、非ガウス状態のボース作用素の高次数は対称雑音に対するより良い感度を与える。 OAMはノイズの劣化を緩和し,0。 OAMは全ての入力状態の分解能と感度を高め、光子損失による劣化を緩和する。 さらに、oamは全ての入力状態の解像度と感度を高め、大きな光子損失(例えば50%対称光子損失)下でも感度が1/n限界に近づくことができる。 これらの結果は、特に大きな光子損失の存在下で、量子力学の感度と堅牢性を高めることを約束している。

This study investigates the use of orbital angular momentum (OAM) to enhance phase estimation in Mach-Zehnder interferometers (MZIs) by employing non-Gaussian states as input resources in the presence of noise. Our research demonstrates that non-Gaussian states, particularly the photonsubtraction-then-addition (PSA) state, exhibit the best sensitivity in the presence of symmetric noise. Additionally, higher-order of Bose operator of non-Gaussian states provide better sensitivity for symmetric noise. OAM can mitigate the deterioration of noise, making it possible to estimate small phase shifts theta close to 0. OAM enhances the resolution and sensitivity of all input states and mitigating the deterioration caused by photon loss. Additionally, OAM enhances the resolution and sensitivity of all input states, enabling the sensitivity to approach the 1/N limit even under significant photon loss (e.g.,50% symmetric photon loss). These results hold promise for enhancing the sensitivity and robustness of quantum metrology, particularly in the presence of significant photon loss.
翻訳日:2023-12-05 16:02:17 公開日:2023-12-04
# resensemble-ddpm : アンサンブル学習のための拡散確率モデル

ResEnsemble-DDPM: Residual Denoising Diffusion Probabilistic Models for Ensemble Learning ( http://arxiv.org/abs/2312.01682v1 )

ライセンス: Link先を確認
Shi Zhenning, Dong Changsheng, Xie Xueshuo, Pan Bin, He Along, Li Tao(参考訳) 近年,多くの画像分割作業に拡散確率モデルが適応している。 しかし、既存のエンド・ツー・エンドモデルはすでに驚くべき性能を示している。 拡散確率モデルのみを用いるのではなく、拡散確率モデルと既存のエンドツーエンドモデルの両方の能力を統合することで、画像セグメンテーションの性能を向上させることができる。 そこで我々は,拡散過程に残留項を暗黙的に導入し,アンサンブル学習を通じて拡散モデルとエンドツーエンドモデルをシームレスに統合するResEnsemble-DDPMを提案する。 これら2つのモデルの出力分布は基底真理分布に対して厳密に対称であり、残留項を減らして2つのモデルを統合することができる。 実験の結果,resensemble-ddpmは既存モデルの能力をさらに向上できることがわかった。 さらに、そのアンサンブル学習戦略は、画像生成において他の下流タスクに一般化することができ、強い競争力を得ることができる。

Nowadays, denoising diffusion probabilistic models have been adapted for many image segmentation tasks. However, existing end-to-end models have already demonstrated remarkable capabilities. Rather than using denoising diffusion probabilistic models alone, integrating the abilities of both denoising diffusion probabilistic models and existing end-to-end models can better improve the performance of image segmentation. Based on this, we implicitly introduce residual term into the diffusion process and propose ResEnsemble-DDPM, which seamlessly integrates the diffusion model and the end-to-end model through ensemble learning. The output distributions of these two models are strictly symmetric with respect to the ground truth distribution, allowing us to integrate the two models by reducing the residual term. Experimental results demonstrate that our ResEnsemble-DDPM can further improve the capabilities of existing models. Furthermore, its ensemble learning strategy can be generalized to other downstream tasks in image generation and get strong competitiveness.
翻訳日:2023-12-05 16:01:45 公開日:2023-12-04
# 最高の開発者エンゲージメントを提供するGreat Humor

With Great Humor Comes Great Developer Engagement ( http://arxiv.org/abs/2312.01680v1 )

ライセンス: Link先を確認
Deepika Tiwari, Tim Toady, Martin Monperrus, Benoit Baudry(参考訳) ソフトウェア作成のための世界的な共同作業は技術的、社会的に要求されている。 より熱心な開発者は、彼らが作るソフトウェアにより多くの価値を与える。 マーガレット・ハミルトン・プログラムアポロ11のような熱心な開発者は、最も難しいエンジニアリングタスクに取り組むことができる。 本稿では、本来のエンゲージメント(ユーモア)のベクトルを深く掘り下げ、それが開発者のエンゲージメントにどのように影響するかを研究する。 まず,3つの重要な実世界のソフトウェアプロジェクトに含まれるユーモラスな要素に関する質的,定量的なデータを収集する。開発者がテスト内でユーモラスを導入するのに役立つフェイカー,開発者による各コントリビューションの後に写真を撮影するlolcommits,風刺のエクササイズであるVolkswagen,そして誤ってインパクトのあるソフトウェアツールの発明につながった。 第2に、開発者調査を通じて、125人の開発者からユニークな洞察を得ました。 この3つのケーススタディの分析は、ソフトウェアにおけるユーモアの流行を強調し、ソフトウェアとユーモアの両方に熱心である世界中の開発者のコミュニティを明らかにする。 私たちはまた、調査回答者が共有した貴重な洞察を通じて、ソフトウェアのユーモアの欠点について学びます。 責任を持って実践すると、ユーモアは開発者のエンゲージメントを増加させ、ハードエンジニアリングや認知的タスクに対処できるという明確な証拠を報告します。 私たちの仕事の最も効果的なハイライトは、ソフトウェアテストとドキュメントがユーモアを実践するのに最適な場所であることです。

The worldwide collaborative effort for the creation of software is technically and socially demanding. The more engaged developers are, the more value they impart to the software they create. Engaged developers, such as Margaret Hamilton programming Apollo 11, can succeed in tackling the most difficult engineering tasks. In this paper, we dive deep into an original vector of engagement - humor - and study how it fuels developer engagement. First, we collect qualitative and quantitative data about the humorous elements present within three significant, real-world software projects: faker, which helps developers introduce humor within their tests; lolcommits, which captures a photograph after each contribution made by a developer; and volkswagen, an exercise in satire, which accidentally led to the invention of an impactful software tool. Second, through a developer survey, we receive unique insights from 125 developers, who share their real-life experiences with humor in software. Our analysis of the three case studies highlights the prevalence of humor in software, and unveils the worldwide community of developers who are enthusiastic about both software and humor. We also learn about the caveats of humor in software through the valuable insights shared by our survey respondents. We report clear evidence that, when practiced responsibly, humor increases developer engagement and supports them in addressing hard engineering and cognitive tasks. The most actionable highlight of our work is that software tests and documentation are the best locations in code to practice humor.
翻訳日:2023-12-05 16:01:05 公開日:2023-12-04
# 階層的特徴を隠蔽した対人医療画像

Adversarial Medical Image with Hierarchical Feature Hiding ( http://arxiv.org/abs/2312.01679v1 )

ライセンス: Link先を確認
Qingsong Yao, Zecheng He, Yuexiang Li, Yi Lin, Kai Ma, Yefeng Zheng, and S. Kevin Zhou(参考訳) 医学画像の深層学習に基づく手法は、相手の例(AE)によって容易に妥協することができ、臨床的な意思決定において大きなセキュリティ上の欠陥を生じさせる。 分類ロジットを最適化するPGDのような従来の敵攻撃は特徴空間を識別しやすく、正確な反応性防御をもたらすことが判明した。 この現象をよりよく理解し, 医療AEに対する反応性防御の信頼性を再評価するために, 従来の医療AEの特徴を徹底的に検討した。 具体的には,従来型の敵攻撃が,一定の方向に脆弱な特徴を継続的に最適化することにより出力を変化させることにより,特徴空間の異常表現につながることを理論的に証明した。 そして、ストレステストを行い、天然画像と比較することにより、医用画像の脆弱性を明らかにする。 興味深いことに、この脆弱性は二重刃の剣であり、AEを隠すために悪用できる。 そこで我々は,従来のホワイトボックス攻撃に対する新たなアドオンである,単純なyet- Effective Hierarchical Feature constraint (HFC)を提案する。 提案手法は2次元と3次元の3つの医学的データセットに対して異なるモードで評価する。 実験結果から,hfcの優越性が示されるが,従来の適応型攻撃よりも効率的に最先端の医療用ae検出器をバイパスし,医療用リアクティブ防御の欠陥を明らかにし,今後より頑健な防御を展開できる。

Deep learning based methods for medical images can be easily compromised by adversarial examples (AEs), posing a great security flaw in clinical decision-making. It has been discovered that conventional adversarial attacks like PGD which optimize the classification logits, are easy to distinguish in the feature space, resulting in accurate reactive defenses. To better understand this phenomenon and reassess the reliability of the reactive defenses for medical AEs, we thoroughly investigate the characteristic of conventional medical AEs. Specifically, we first theoretically prove that conventional adversarial attacks change the outputs by continuously optimizing vulnerable features in a fixed direction, thereby leading to outlier representations in the feature space. Then, a stress test is conducted to reveal the vulnerability of medical images, by comparing with natural images. Interestingly, this vulnerability is a double-edged sword, which can be exploited to hide AEs. We then propose a simple-yet-effective hierarchical feature constraint (HFC), a novel add-on to conventional white-box attacks, which assists to hide the adversarial feature in the target feature distribution. The proposed method is evaluated on three medical datasets, both 2D and 3D, with different modalities. The experimental results demonstrate the superiority of HFC, \emph{i.e.,} it bypasses an array of state-of-the-art adversarial medical AE detectors more efficiently than competing adaptive attacks, which reveals the deficiencies of medical reactive defense and allows to develop more robust defenses in future.
翻訳日:2023-12-05 16:00:22 公開日:2023-12-04
# Jellyfish: データ前処理のための大規模言語モデル

Jellyfish: A Large Language Model for Data Preprocessing ( http://arxiv.org/abs/2312.01678v1 )

ライセンス: Link先を確認
Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada(参考訳) 本稿では,オープンソースのLCMであるJellyfishを,DPのためのユニバーサルタスクソルバとして紹介する。 Llama 2 13Bモデルに基づいて構築されたJellyfishは、エラー検出、データインプット、スキーママッチング、エンティティマッチングなど、典型的なDPタスクのデータセットをトレーニングし、他のタスクに一般化機能を提供する。 驚くべきことに、jellyfishは130億のパラメータで、ローカル、シングル、低価格のgpu上で動作でき、データのセキュリティを確保し、さらなるチューニングを可能にする。 自然言語を理解する能力は、DPタスクの指示を手作業で作成することができる。 事前知識に大きく依存する既存の多くのメソッドとは異なり、Jellyfishはチューニングプロセス中にドメイン知識を取得し、推論中に任意の知識注入を統合する。 Jellyfishの特徴的な特徴はインタプリタであり、出力決定を解明する。 Jellyfishを構築するために、我々は一連の事前調整およびDPチューニング技術を開発した。 jellyfishには、生データをモデルプロンプトに自動的に変換するインスタンスシリアライザと、タスクやデータセット固有の知識を任意に導入してdpパフォーマンスを向上させるナレッジインジェクタが備えられている。 実データを用いたjellyfishの評価は,最先端の手法と比較してその競合性,未認識のタスクに対する強い一般化性を示している。 JellyfishのパフォーマンスはGPTシリーズモデルに匹敵し、インタプリタはGPT-3.5に比べて推論能力が向上した。 また,jellyfishの構築における技術の有効性についても評価を行った。 私たちのモデルはHugging Faceで利用可能です。

In this paper, we present Jellyfish, an open-source LLM as a universal task solver for DP. Built on the Llama 2 13B model, Jellyfish is instruction-tuned with the datasets of several typical DP tasks including error detection, data imputation, schema matching, and entity matching, and delivers generalizability to other tasks. Remarkably, Jellyfish can operate on a local, single, and low-priced GPU with its 13 billion parameters, ensuring data security and enabling further tuning. Its proficiency in understanding natural language allows users to manually craft instructions for DP tasks. Unlike many existing methods that heavily rely on prior knowledge, Jellyfish acquires domain knowledge during its tuning process and integrates optional knowledge injection during inference. A distinctive feature of Jellyfish is its interpreter, which elucidates its output decisions. To construct Jellyfish, we develop a series of pre-tuning and DP-tuning techniques. Jellyfish is equipped with an instance serializer, which automatically translates raw data into model prompts, and a knowledge injector, which optionally introduces task- and dataset-specific knowledge to enhance DP performance. Our evaluation of Jellyfish, using a range of real datasets, shows its competitiveness compared to state-of-the-art methods and its strong generalizability to unseen tasks. Jellyfish's performance rivals that of GPT series models, and its interpreter offers enhanced reasoning capabilities compared to GPT-3.5. Furthermore, our evaluation highlights the effectiveness of the techniques employed in constructing Jellyfish. Our model is available at Hugging Face: https://huggingface.co/NECOUDBFM/Jellyfish .
翻訳日:2023-12-05 15:59:52 公開日:2023-12-04
# ロバストなDINO特徴によるマルチタスク画像復元

Multi-task Image Restoration Guided By Robust DINO Features ( http://arxiv.org/abs/2312.01677v1 )

ライセンス: Link先を確認
Xin Lin, Chao Ren, Kelvin C.K. Chan, Lu Qi, Jinshan Pan, Ming-Hsuan Yang(参考訳) マルチタスクイメージの復元は、その本質的な汎用性と効率性がシングルタスクに比べて大きな関心を集めている。 潜在的な可能性にもかかわらず、パフォーマンスの低下はタスク数の増加とともに観察され、主に各修復タスクの異なる性質によって引き起こされる。 この課題に対処するため,DINOv2 から抽出したロバストな特徴を利用した新しいマルチタスク画像復元手法である \mbox{\textbf{DINO-IR}} を導入する。 実験結果から,dinov2の浅い特徴は低レベルな画像特性をとらえるが,深い特徴は劣化に敏感なロバストな意味表現を保証し,高周波輪郭の細部を保存できることを示した。 これらの機能を基に,多層セマンティクス融合モジュール,dino-restore adaption and fusionモジュール,dino知覚コントラスト損失といった特殊コンポーネントを考案し,dinov2機能を復元パラダイムに統合する。 上記のコンポーネントを装備したdino-irは,既存のマルチタスク画像復元アプローチに対して大きなマージンで有利に動作し,マルチタスク画像復元のためのロバスト機能強化の必要性を示す。

Multi-task image restoration has gained significant interest due to its inherent versatility and efficiency compared to its single-task counterpart. Despite its potential, performance degradation is observed with an increase in the number of tasks, primarily attributed to the distinct nature of each restoration task. Addressing this challenge, we introduce \mbox{\textbf{DINO-IR}}, a novel multi-task image restoration approach leveraging robust features extracted from DINOv2. Our empirical analysis shows that while shallow features of DINOv2 capture rich low-level image characteristics, the deep features ensure a robust semantic representation insensitive to degradations while preserving high-frequency contour details. Building on these features, we devise specialized components, including multi-layer semantic fusion module, DINO-Restore adaption and fusion module, and DINO perception contrastive loss, to integrate DINOv2 features into the restoration paradigm. Equipped with the aforementioned components, our DINO-IR performs favorably against existing multi-task image restoration approaches in various tasks by a large margin, indicating the superiority and necessity of reinforcing the robust features for multi-task image restoration.
翻訳日:2023-12-05 15:59:23 公開日:2023-12-04
# EDALearn: 民主的で再現可能なEDA研究のための総合的なRTL-to-Signoff EDAベンチマーク

EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized and Reproducible ML for EDA Research ( http://arxiv.org/abs/2312.01674v1 )

ライセンス: Link先を確認
Jingyu Pan, Chen-Chia Chang, Zhiyao Xie, Yiran Chen(参考訳) 電子設計自動化(EDA)における機械学習(ML)の適用は、超大規模統合(VLSI)設計において大きな注目を集めている。 効果的なMLモデルを構築するために広範なデータセットを必要とするが、ほとんどの研究は包括的な公開リソースが欠如しているため、より小さく内部的に生成されたデータセットに限られている。 そこで我々は,EDALearnを紹介した。EDALearnは,EDAにおけるMLタスク専用のオープンソースベンチマークスイートである。 このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。 再現性を高め、さまざまな技術ノードにわたるML転送可能性の研究を促進する。 我々のベンチマークは、様々なVLSI設計事例とサイズを調整し、現代のVLSI設計の複雑さをうまく表している。 さらに、より詳細なデータ分析を提供し、効率的なMLモデルを作成する上で不可欠な、データの属性と分布を完全に理解できるようにする。 私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。

The application of Machine Learning (ML) in Electronic Design Automation (EDA) for Very Large-Scale Integration (VLSI) design has garnered significant research attention. Despite the requirement for extensive datasets to build effective ML models, most studies are limited to smaller, internally generated datasets due to the lack of comprehensive public resources. In response, we introduce EDALearn, the first holistic, open-source benchmark suite specifically for ML tasks in EDA. This benchmark suite presents an end-to-end flow from synthesis to physical implementation, enriching data collection across various stages. It fosters reproducibility and promotes research into ML transferability across different technology nodes. Accommodating a wide range of VLSI design instances and sizes, our benchmark aptly represents the complexity of contemporary VLSI designs. Additionally, we provide an in-depth data analysis, enabling users to fully comprehend the attributes and distribution of our data, which is essential for creating efficient ML models. Our contributions aim to encourage further advances in the ML-EDA domain.
翻訳日:2023-12-05 15:59:00 公開日:2023-12-04
# stadee:統計に基づくマシン生成テキストの深い検出

STADEE: STAtistics-based DEEp Detection of Machine Generated Text ( http://arxiv.org/abs/2312.01672v1 )

ライセンス: Link先を確認
Zheng Chen and Huming Liu(参考訳) そこで,本稿では,機械生成テキストを識別するための \textbf{sta}tistics ベースの \textbf{dee}p 検出法である stadee を提案する。 STADEEは、重要な統計テキスト機能と深い分類器を統合し、トークン確率や累積確率といった側面に焦点を当て、核サンプリングを扱うのに不可欠である。 さまざまなデータセットとシナリオ(ドメイン内、ドメイン外、およびファイル内)でテストされたSTADEEは、87.05%のF1スコアをドメイン内で達成し、従来の統計手法と微調整PLMの両方、特にアウト・オブ・ドメインとイン・ザ・ワイヤドの設定でパフォーマンスを向上し、その有効性と一般化性を強調している。

We present STADEE, a \textbf{STA}tistics-based \textbf{DEE}p detection method to identify machine-generated text, addressing the limitations of current methods that rely heavily on fine-tuning pre-trained language models (PLMs). STADEE integrates key statistical text features with a deep classifier, focusing on aspects like token probability and cumulative probability, crucial for handling nucleus sampling. Tested across diverse datasets and scenarios (in-domain, out-of-domain, and in-the-wild), STADEE demonstrates superior performance, achieving an 87.05% F1 score in-domain and outperforming both traditional statistical methods and fine-tuned PLMs, especially in out-of-domain and in-the-wild settings, highlighting its effectiveness and generalizability.
翻訳日:2023-12-05 15:58:44 公開日:2023-12-04
# クロスモーダルganインバージョンを用いたマルチモーダリティ誘導画像スタイル転送

Multimodality-guided Image Style Transfer using Cross-modal GAN Inversion ( http://arxiv.org/abs/2312.01671v1 )

ライセンス: Link先を確認
Hanyu Wang, Pengxiang Wu, Kevin Dela Rosa, Chen Wang, Abhinav Shrivastava(参考訳) Image Style Transfer (IST)はコンピュータビジョンとアートの学際的な話題であり、研究者の関心を継続的に惹きつける。 所望のスタイルを定義するために入力としてスタイル参照イメージを必要とする従来の画像誘導画像スタイル転送(IIST)とは異なり、最近の研究はテキスト誘導方式、すなわちテキスト誘導画像スタイル転送(TIST)でこの問題に取り組むようになった。 IISTと比較して、このようなアプローチはテキスト指定のスタイルでより柔軟性を提供しており、参照画像で定義するのが難しいシナリオで有用である。 残念なことに、多くのTISTアプローチは転送された画像に望ましくないアーティファクトを生成する。 この問題に対処するために,テキストガイダンスに基づいて,より優れたスタイル転送を実現する新しい手法を提案する。 一方、IISTやTISTよりも柔軟性が高く、複数のソースやモダリティからのスタイル入力が可能であり、MultiModality-guided Image Style Transfer (MMIST)を可能にする。 具体的には,特定のスタイルに整合したスタイル表現を生成する,新しいクロスモーダルGANインバージョン法によりMMISTを実現する。 このようなスタイル表現はスタイル転送を促進し、原則として任意のIISTメソッドをMMISTに一般化する。 大規模実験とユーザスタディにより,本手法がTISTタスクにおける最先端性能を実現することを示す。 さらに,本手法がMMISTタスクおよびクロスモーダル型補間における有効性を確認した。

Image Style Transfer (IST) is an interdisciplinary topic of computer vision and art that continuously attracts researchers' interests. Different from traditional Image-guided Image Style Transfer (IIST) methods that require a style reference image as input to define the desired style, recent works start to tackle the problem in a text-guided manner, i.e., Text-guided Image Style Transfer (TIST). Compared to IIST, such approaches provide more flexibility with text-specified styles, which are useful in scenarios where the style is hard to define with reference images. Unfortunately, many TIST approaches produce undesirable artifacts in the transferred images. To address this issue, we present a novel method to achieve much improved style transfer based on text guidance. Meanwhile, to offer more flexibility than IIST and TIST, our method allows style inputs from multiple sources and modalities, enabling MultiModality-guided Image Style Transfer (MMIST). Specifically, we realize MMIST with a novel cross-modal GAN inversion method, which generates style representations consistent with specified styles. Such style representations facilitate style transfer and in principle generalize any IIST methods to MMIST. Large-scale experiments and user studies demonstrate that our method achieves state-of-the-art performance on TIST task. Furthermore, comprehensive qualitative results confirm the effectiveness of our method on MMIST task and cross-modal style interpolation.
翻訳日:2023-12-05 15:58:24 公開日:2023-12-04
# 自律運転におけるドライバーの介入行動の分析--vrによるアプローチ

Analyze Drivers' Intervention Behavior During Autonomous Driving -- A VR-incorporated Approach ( http://arxiv.org/abs/2312.01669v1 )

ライセンス: Link先を確認
Zheng Xu(参考訳) IT技術の急速な進歩を考えると、将来のモビリティは車両の自律性を指している。 しかしながら、完全な自動化には長い道のりがあり、人間の介入が必要です。 この研究は、自動運転車(AV)の運転に関わる人間の運転者の介入行動の理解に光を当て、この知識を利用して重要な運転シナリオの認識を改善する。 バーチャルリアリティ(VR)と交通マイクロシミュレーションを統合する実験環境が実装され、典型的な多様な交通シーン下でテストが行われた。 介入の確率、事故率などのパフォーマンス指標が定義され、リスクレベルを定量化し比較するために使用される。 ドライバーの介入行動に関する新たな洞察を提供することで、同様のシナリオで自動制御の性能を向上させることができる。 さらに、自動運転研究のための統合的で没入的なツールが、人間対自動化信頼の研究に有用である。 著者たちの知る限りでは、この種のツールに力を注いでいる先駆的な作品の一つである。

Given the rapid advance in ITS technologies, future mobility is pointing to vehicular autonomy. However, there is still a long way before full automation, and human intervention is required. This work sheds light on understanding human drivers' intervention behavior involved in the operation of autonomous vehicles (AVs) and utilizes this knowledge to improve the perception of critical driving scenarios. Experiment environments were implemented where the virtual reality (VR) and traffic micro-simulation are integrated, and tests were carried out under typical and diverse traffic scenes. Performance indicators such as the probability of intervention, accident rates are defined and used to quantify and compare the risk levels. By offering novel insights into drivers' intervention behavior, this work will help improve the performances of the automated control under similar scenarios. Furthermore, such an integrated and immersive tool for autonomous driving studies will be valuable for research on human-to-automation trust. To the best knowledge of the authors, this work is among the pioneer works making efforts into such types of tools.
翻訳日:2023-12-05 15:58:00 公開日:2023-12-04
# EdgeConvFormer: 多変量時系列における動的グラフCNNとトランスフォーマーに基づく異常検出

EdgeConvFormer: Dynamic Graph CNN and Transformer based Anomaly Detection in Multivariate Time Series ( http://arxiv.org/abs/2312.01729v1 )

ライセンス: Link先を確認
Jie Liu, Qilin Li, Senjian An, Bradley Ezard, and Ling Li(参考訳) 多変量時系列における異常検出のためのトランスベースモデルは、長期依存のモデル化に有利なセルフアテンション機構の恩恵を受ける。 しかし、変圧器に基づく異常検出モデルには、トレーニングに必要な大量のデータ、多変量時系列データには標準位置符号化が適していないこと、時系列間の相互依存などといった問題がある。 これらの制約に対処するため,EdgeConvFormerという新しい異常検出手法を提案する。この手法はTime2vecの埋め込み,スタックされた動的グラフCNN,Transformerを統合し,グローバルおよびローカルな空間時間情報を抽出する。 このEdgeConvFormerの設計により、複雑な時系列の分解能力、時系列間のプログレッシブ時空間相関発見、マルチスケール特徴の表現集約が実現される。 実験により、edgeconvformerは、多変量時系列データから空間-時間相関を学習し、異なるスケールの多くの実世界のデータセットにおける最先端のアプローチよりも優れた異常検出性能を達成することが示されている。

Transformer-based models for anomaly detection in multivariate time series can benefit from the self-attention mechanism due to its advantage in modeling long-term dependencies. However, Transformer-based anomaly detection models have problems such as a large amount of data being required for training, standard positional encoding is not suitable for multivariate time series data, and the interdependence between time series is not considered. To address these limitations, we propose a novel anomaly detection method, named EdgeConvFormer, which integrates Time2vec embedding, stacked dynamic graph CNN, and Transformer to extract global and local spatial-time information. This design of EdgeConvFormer empowers it with decomposition capacities for complex time series, progressive spatiotemporal correlation discovery between time series, and representation aggregation of multi-scale features. Experiments demonstrate that EdgeConvFormer can learn the spatial-temporal correlations from multivariate time series data and achieve better anomaly detection performance than the state-of-the-art approaches on many real-world datasets of different scales.
翻訳日:2023-12-05 15:51:50 公開日:2023-12-04
# ImputeFormer: 一般化可能な時空間インプットのためのグラフ変換器

ImputeFormer: Graph Transformers for Generalizable Spatiotemporal Imputation ( http://arxiv.org/abs/2312.01728v1 )

ライセンス: Link先を確認
Tong Nie, Guoyang Qin, Yuewen Mei, and Jian Sun(参考訳) 本稿では,深層ニューラルネットワークを用いた多変量時系列計算問題に着目する。 科学と工学のタスクにおけるデータの欠落というユビキタスな問題は、効果的で一般的な計算モデルの開発を必要とする。 低ランクな計算手法から得られる知恵と専門知識を活用して、予測時間的注意、グローバル適応グラフの畳み込み、フーリエの計算損失を含む3つの重要な知識駆動の強化を行う。 これらのタスク非依存的帰納バイアスは不完全時系列の固有構造を生かし、様々な計算問題に対して我々のモデルを多用する。 交通速度,交通量,太陽エネルギー,スマートメータリング,空気品質など,異種データセットの精度,効率,柔軟性において,その優位性を示す。 包括的ケーススタディにより、解釈可能性をさらに強化する。 実証結果の証明は、低ランク性のような時系列プリミティブを組み込むことで、広範囲の時空間計算問題にアプローチする一般化可能なモデルの開発を大幅に促進できるという強い信念を与える。

This paper focuses on the multivariate time series imputation problem using deep neural architectures. The ubiquitous issue of missing data in both scientific and engineering tasks necessitates the development of an effective and general imputation model. Leveraging the wisdom and expertise garnered from low-rank imputation methods, we power the canonical Transformers with three key knowledge-driven enhancements, including projected temporal attention, global adaptive graph convolution, and Fourier imputation loss. These task-agnostic inductive biases exploit the inherent structures of incomplete time series, and thus make our model versatile for a variety of imputation problems. We demonstrate its superiority in terms of accuracy, efficiency, and flexibility on heterogeneous datasets, including traffic speed, traffic volume, solar energy, smart metering, and air quality. Comprehensive case studies are performed to further strengthen the interpretability. Promising empirical results provide strong conviction that incorporating time series primitives, such as low-rank properties, can substantially facilitate the development of a generalizable model to approach a wide range of spatiotemporal imputation problems.
翻訳日:2023-12-05 15:51:30 公開日:2023-12-04
# ハイブリッド2d-3dネットワークを用いた網膜oct画像の3次元コヒーレント層分割のための同時アライメントと表面回帰

Simultaneous Alignment and Surface Regression Using Hybrid 2D-3D Networks for 3D Coherent Layer Segmentation of Retinal OCT Images with Full and Sparse Annotations ( http://arxiv.org/abs/2312.01726v1 )

ライセンス: Link先を確認
Hong Liu, Dong Wei, Donghuan Lu, Xiaoying Tang, Liansheng Wang, Yefeng Zheng(参考訳) 層分割は網膜光コヒーレンス断層撮影(OCT)の定量的解析に重要である。 近年,このタスクを自動化し,優れた性能を得るためのディープラーニングベースの手法が開発されている。 しかし, OCTボリュームのBスキャン間の空間的ギャップが大きく, 潜在的なミスマッチのため, いずれも個々のBスキャンの2次元セグメンテーションに基づいており, 3次元空間における網膜層の連続性と診断情報が失われる可能性がある。 さらに、これらの手法の多くは、労働集約的で専門的な要求であるOCTボリュームの高密度なアノテーションを必要とした。 本研究は,ハイブリッド2D-3D畳み込みニューラルネットワーク(CNN)を基盤として,OCTボリュームから連続した3次元網膜層表面を得る新しいフレームワークを提案する。 個々のBスキャンの2次元特徴は、2次元畳み込みからなるエンコーダによって抽出される。 これらの2次元特徴は、空間トランスモジュールを介して結合された2つの3次元デコーダによるアライメント変位ベクトルと層分割を生成するために使用される。 2つの損失は、それぞれBスキャンアライメントと層セグメンテーションにスムーズな網膜層の自然特性を利用することで、スパースアノテーションを用いた半教師学習の鍵となる。 フレームワーク全体がエンドツーエンドでトレーニングされる。 我々の知る限りでは、これはCNNに基づいたボリュームOCT画像において3次元網膜層セグメンテーションを試みる最初の試みである。 人工的データセットと3つの公的な臨床データセットを用いた実験により、我々のフレームワークは、潜在的運動補正のためにBスキャンを効果的に調整でき、また、階層分割精度とクロスBスキャン3D連続性の両方の観点から、最先端の2D深層学習法に優れた性能を達成できることが示された。

Layer segmentation is important to quantitative analysis of retinal optical coherence tomography (OCT). Recently, deep learning based methods have been developed to automate this task and yield remarkable performance. However, due to the large spatial gap and potential mismatch between the B-scans of an OCT volume, all of them were based on 2D segmentation of individual B-scans, which may lose the continuity and diagnostic information of the retinal layers in 3D space. Besides, most of these methods required dense annotation of the OCT volumes, which is labor-intensive and expertise-demanding. This work presents a novel framework based on hybrid 2D-3D convolutional neural networks (CNNs) to obtain continuous 3D retinal layer surfaces from OCT volumes, which works well with both full and sparse annotations. The 2D features of individual B-scans are extracted by an encoder consisting of 2D convolutions. These 2D features are then used to produce the alignment displacement vectors and layer segmentation by two 3D decoders coupled via a spatial transformer module. Two losses are proposed to utilize the retinal layers' natural property of being smooth for B-scan alignment and layer segmentation, respectively, and are the key to the semi-supervised learning with sparse annotation. The entire framework is trained end-to-end. To the best of our knowledge, this is the first work that attempts 3D retinal layer segmentation in volumetric OCT images based on CNNs. Experiments on a synthetic dataset and three public clinical datasets show that our framework can effectively align the B-scans for potential motion correction, and achieves superior performance to state-of-the-art 2D deep learning methods in terms of both layer segmentation accuracy and cross-B-scan 3D continuity in both fully and semi-supervised settings, thus offering more clinical values than previous works.
翻訳日:2023-12-05 15:51:09 公開日:2023-12-04
# StableVITON:仮想試行のための潜在拡散モデルを用いた意味対応学習

StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On ( http://arxiv.org/abs/2312.01725v1 )

ライセンス: Link先を確認
Jeongho Kim, Gyojung Gu, Minho Park, Sunghyun Park, and Jaegul Choo(参考訳) 衣服画像と人物画像が与えられた場合、画像ベースの仮想試着は、衣服画像の特徴を自然に正確に反映したカスタマイズされた画像を生成することを目的としている。 本研究は, トレーニング済み拡散モデルの適用性を拡張し, 仮想試行作業に独立して利用できるようにすることを目標とし, トレーニング済みモデルの堅牢な生成能力を有効活用しつつ, 衣服の細部を保存することを目的とする。 これらの課題に対処するために,我々は,事前学習した拡散モデルの潜在空間内で,衣服と人体間の意味的対応をエンドツーエンドに学習するStableVITONを提案する。 提案するゼロ・クロスアテンションブロックは, 意味的対応を学習することで衣服の細部を保存できるだけでなく, ワープ過程における事前学習モデル固有の知識を利用して高忠実度画像を生成する。 提案する新しい注意総変動損失と拡張の適用により、鋭い注意マップを実現し、衣服の詳細をより正確に表現する。 stablevitonは質的かつ定量的な評価においてベースラインを上回り、任意の人物画像に有望な品質を示す。 私たちのコードはhttps://github.com/rlawjdghek/StableVITON.comで利用可能です。

Given a clothing image and a person image, an image-based virtual try-on aims to generate a customized image that appears natural and accurately reflects the characteristics of the clothing image. In this work, we aim to expand the applicability of the pre-trained diffusion model so that it can be utilized independently for the virtual try-on task.The main challenge is to preserve the clothing details while effectively utilizing the robust generative capability of the pre-trained model. In order to tackle these issues, we propose StableVITON, learning the semantic correspondence between the clothing and the human body within the latent space of the pre-trained diffusion model in an end-to-end manner. Our proposed zero cross-attention blocks not only preserve the clothing details by learning the semantic correspondence but also generate high-fidelity images by utilizing the inherent knowledge of the pre-trained model in the warping process. Through our proposed novel attention total variation loss and applying augmentation, we achieve the sharp attention map, resulting in a more precise representation of clothing details. StableVITON outperforms the baselines in qualitative and quantitative evaluation, showing promising quality in arbitrary person images. Our code is available at https://github.com/rlawjdghek/StableVITON.
翻訳日:2023-12-05 15:50:31 公開日:2023-12-04
# 自己ループパラドックス:グラフニューラルネットワークに対する自己ループの影響に関する研究

The Self-Loop Paradox: Investigating the Impact of Self-Loops on Graph Neural Networks ( http://arxiv.org/abs/2312.01721v1 )

ライセンス: Link先を確認
Moritz Lampert, Ingo Scholtes(参考訳) 多くのグラフニューラルネットワーク(GNN)はグラフに自己ループを追加し、各層にノード自体の特徴情報を含む。 しかし、GNNが複数の層から構成されている場合、この情報はグラフトポロジのサイクルを通して元の情報に戻ることができる。 直観は、この情報の"バックフロー"がグラフのないグラフに比べて自己ループを持つグラフで大きくなるべきであることを示唆している。 本研究では、この直感に逆らって、ノードが自身から得る情報も、同一のグラフを使わずに自己ループのグラフでより小さくすることができることを示す。 我々は、与えられた次数列を持つ統計的グラフアンサンブルの研究に分析的アプローチを採用し、我々が自己ループパラドックスと呼ぶこの現象が、gnn層$k$の数と、$k$が偶数か奇数かの両方に依存することを示した。 本研究は,合成ノード分類タスクにおける理論的知見を実験的に検証し,23の実世界グラフにおいてその妥当性を検証した。

Many Graph Neural Networks (GNNs) add self-loops to a graph to include feature information about a node itself at each layer. However, if the GNN consists of more than one layer, this information can return to its origin via cycles in the graph topology. Intuition suggests that this "backflow" of information should be larger in graphs with self-loops compared to graphs without. In this work, we counter this intuition and show that for certain GNN architectures, the information a node gains from itself can be smaller in graphs with self-loops compared to the same graphs without. We adopt an analytical approach for the study of statistical graph ensembles with a given degree sequence and show that this phenomenon, which we call the self-loop paradox, can depend both on the number of GNN layers $k$ and whether $k$ is even or odd. We experimentally validate our theoretical findings in a synthetic node classification task and investigate its practical relevance in 23 real-world graphs.
翻訳日:2023-12-05 15:50:09 公開日:2023-12-04
# 2次元傾斜双極子ボソンの密度波型超固体

Density-wave-type supersolid of two-dimensional tilted dipolar bosons ( http://arxiv.org/abs/2312.01716v1 )

ライセンス: Link先を確認
A.N. Aleksandrova, I.L. Kurbakov, A.K. Fedorov, Yu.E. Lozovik(参考訳) 傾斜した双極子粒子の希薄気体の密度波型超固体相を二次元(2次元)形状で予測する。 この多体相は、ボース=アインシュタイン凝縮とゼロ温度での超流動と共存するストライプパターンの形成と弾性によって現れる。 傾斜角の増大に伴い、系の2次元特性にもかかわらずガス-超固体遷移のタイプが第1次から第2次へと変化する一方、異方性と多体安定化相互作用は重要な役割を果たす。 本手法は自由エネルギー汎関数に対するシミュレートアニーリング法を用いた位相図の数値解析に基づいている。 予測された超固体効果は、ヘテロ構造の励起子から光ポテンシャルの低温原子や極性分子まで様々な実験装置で実現できる。

We predict a stable density-waves-type supersolid phase of a dilute gas of tilted dipolar bosons in a two-dimensional (2D) geometry. This many-body phase is manifested by the formation of the stripe pattern and elasticity coexisting together with the Bose-Einstein condensation and superfluidity at zero temperature. With the increasing the tilting angle the type of the gas-supersolid transition changes from the first order to the second one despite the 2D character of the system, whereas the anisotropy and many-body stabilizing interactions play crucial role. Our approach is based on the numerical analysis of the phase diagram using the simulated annealing method for a free-energy functional. The predicted supersolid effect can be realized in a variety of experimental setups ranging from excitons in heterostructures to cold atoms and polar molecules in optical potentials.
翻訳日:2023-12-05 15:49:51 公開日:2023-12-04
# 大規模言語モデルに対する検索強化マルチモーダル・チェーン推論

Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models ( http://arxiv.org/abs/2312.01714v1 )

ライセンス: Link先を確認
Bingshuai Liu, Chenyang Lyu, Zijun Min, Zhanyu Wang, Jinsong Su, Longyue Wang(参考訳) LLM(Large Language Models)の進歩は、複雑な推論を必要とするタスクにおいてLLMの能力を高める能力によって、Chain of Thought(CoT)アプローチに大きな注目を集めている。 さらに、CoTアプローチの重要性は、マルチモーダル質問応答のようなマルチモーダルタスクに対するLLMの適用にまで拡張されている。 しかし、マルチモーダル推論における最適CoT実例の選択は、マルチモーダル実例に固有の複雑さがあるため、LLMでは検討されていない。 本稿では,この課題に対処する新しい手法を提案する。探索機構を用いて,モーダル間の類似性に基づいた実演例を動的かつ自動選択する。 本手法は,マルチモーダルシナリオにおけるCOT推論プロセスを,より関連性の高い情報的例でLLMに通知することを目的としている。 さらに,実験例を分類した階層化サンプリング手法を用い,実験例の多様性を促進するために,各グループからそれぞれサンプルを抽出する。 一連の実験を通して,本手法はLLMの性能を著しく向上させ,マルチモーダル推論タスクにおける最先端の成果を達成することを実証した。 具体的には,ScienceQAデータセットに大きな進歩を示した。 本手法はChatGPTを精度82.67%でChameleon(ChatGPT)を2.74%上回るが、GPT4ベースの手法はChameleon(GPT-4)を0.89%上回って87.43%の精度で達成している。 さらに,ChatGPTモデルではChameleonが6.05%,GPT-4モデルでは4.57%向上した。

The advancement of Large Language Models(LLMs) has brought substantial attention to the Chain of Thought(CoT) approach, primarily due to its ability to enhance the capability of LLMs on tasks requiring complex reasoning. Moreover, the significance of CoT approaches extends to the application of LLMs for multi-modal tasks, such as multi-modal question answering. However, the selection of optimal CoT demonstration examples in multi-modal reasoning for LLMs remains less explored for LLMs due to the inherent complexity of multi-modal examples. In this paper, we introduce a novel approach that addresses this challenge by using retrieval mechanisms to dynamically and automatically select demonstration examples based on cross-modal similarities. This method aims to refine the CoT reasoning process in multi-modal scenarios via informing LLMs with more relevant and informative examples. Furthermore, we employ a stratified sampling method categorising demonstration examples into groups based on their types and retrieving examples from different groups respectively to promote the diversity of demonstration examples. Through a series of experiments, we demonstrate that our approach significantly improves the performance of LLMs, achieving state-of-the-art results in multi-modal reasoning tasks. Specifically, our methods demonstrate significant advancements on the ScienceQA dataset. While our method based on ChatGPT outperforms the Chameleon(ChatGPT) by 2.74% with an accuracy of 82.67%, the GPT4-based approach surpasses the Chameleon(GPT-4) by 0.89%, achieving 87.43% on accuracy under the same setting. Moreover, our best performing show a 6.05% increase over Chameleon for ChatGPT-based models and a 4.57% increase for GPT-4-based models.
翻訳日:2023-12-05 15:49:38 公開日:2023-12-04
# 一段階の人間と物体の相互作用検出のための異方性相互作用表現

Disentangled Interaction Representation for One-Stage Human-Object Interaction Detection ( http://arxiv.org/abs/2312.01713v1 )

ライセンス: Link先を確認
Xubin Zhong, Changxing Ding, Yupeng Hu, Dacheng Tao(参考訳) ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。 近年のワンステージ手法では,対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用しているが,この手法を用いて得られた対話表現は絡み合っており,解釈性に欠ける。 対照的に、従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。 本稿では,不連続な相互作用表現を抽出できることで,一段階の手法の性能を向上させる。 まず,異なるクロスアテンションヘッドを用いて人間の外観,オブジェクトの外観,グローバルコンテキストの特徴を抽出するために,Shunted Cross-Attention (SCA)を提案する。 これは異なる頭部によって生成されたクロス・アテンション・マップに異なるマスクを付けることによって達成される。 第2に,不整合デコーダを用いたインタラクション関連人間のポーズ特徴を学習するために,インタラクション対応ポス推定(IPE)タスクを導入する。 これは、現在のインタラクションカテゴリに関連する人間のキーポイントを正確にキャプチャする新しいアテンションモジュールによって達成される。 最後に,我々の手法は外観特徴とポーズ特徴を要素的付加によって融合し,相互作用表現を形成する。 実験の結果,既存の1段階のhoi検出器に容易に適用できることがわかった。 さらに, HICO-DET と V-COCO の2つのベンチマークで最先端性能を実現する。

Human-Object Interaction (HOI) detection is a core task for human-centric image understanding. Recent one-stage methods adopt a transformer decoder to collect image-wide cues that are useful for interaction prediction; however, the interaction representations obtained using this method are entangled and lack interpretability. In contrast, traditional two-stage methods benefit significantly from their ability to compose interaction features in a disentangled and explainable manner. In this paper, we improve the performance of one-stage methods by enabling them to extract disentangled interaction representations. First, we propose Shunted Cross-Attention (SCA) to extract human appearance, object appearance, and global context features using different cross-attention heads. This is achieved by imposing different masks on the cross-attention maps produced by the different heads. Second, we introduce the Interaction-aware Pose Estimation (IPE) task to learn interaction-relevant human pose features using a disentangled decoder. This is achieved with a novel attention module that accurately captures the human keypoints relevant to the current interaction category. Finally, our approach fuses the appearance feature and pose feature via element-wise addition to form the interaction representation. Experimental results show that our approach can be readily applied to existing one-stage HOI detectors. Moreover, we achieve state-of-the-art performance on two benchmarks: HICO-DET and V-COCO.
翻訳日:2023-12-05 15:49:09 公開日:2023-12-04
# 群衆カウントのためのレグレッサー・セグメンタ相互学習

Regressor-Segmenter Mutual Prompt Learning for Crowd Counting ( http://arxiv.org/abs/2312.01711v1 )

ライセンス: Link先を確認
Mingyue Guo, Li Yuan, Zhaoyi Yan, Binghui Chen, Yaowei Wang, Qixiang Ye(参考訳) 群衆のカウントは、レグレッサーを訓練してインスタンスの位置を予測することで大きな進歩を遂げた。 しかし、密集したシナリオでは、回帰器は制御不能なアノテーションのばらつきに悩まされ、密度マップバイアスや文脈情報の不正確さを引き起こす。 本研究では,前景と背景を区別しながら,アノテーションの差によるバイアスや不正確さを解消し,レグレシタとセグメンタを相互に指導する相互プロンプト学習(mPrompt)を提案する。 具体的には、mPromptはポイントアノテーションを利用してセグメンタをチューニングし、ポイントプロンプト学習の方法で擬似ヘッドマスクを予測する。 予測されたセグメンテーションマスクを空間的制約として使用し、バイアスのある点アノテーションを文脈即興学習として修正する。 mPromptは、素早い学習から相互情報の最大化を定義し、モデル精度を改善しながらアノテーションの分散の影響を緩和する。 実験によれば、mpromptは平均平均エラー(mae)を大幅に削減し、ダウンストリームビジョンタスクの汎用フレームワークとなる可能性を示している。

Crowd counting has achieved significant progress by training regressors to predict instance positions. In heavily crowded scenarios, however, regressors are challenged by uncontrollable annotation variance, which causes density map bias and context information inaccuracy. In this study, we propose mutual prompt learning (mPrompt), which leverages a regressor and a segmenter as guidance for each other, solving bias and inaccuracy caused by annotation variance while distinguishing foreground from background. In specific, mPrompt leverages point annotations to tune the segmenter and predict pseudo head masks in a way of point prompt learning. It then uses the predicted segmentation masks, which serve as spatial constraint, to rectify biased point annotations as context prompt learning. mPrompt defines a way of mutual information maximization from prompt learning, mitigating the impact of annotation variance while improving model accuracy. Experiments show that mPrompt significantly reduces the Mean Average Error (MAE), demonstrating the potential to be general framework for down-stream vision tasks.
翻訳日:2023-12-05 15:48:45 公開日:2023-12-04
# 最大$\dot{\Omega}$での効率性 外部磁場の存在下でのスピンハーフ量子熱エンジンの利点の図形

Efficiency at maximum $\dot{\Omega}$ figure of merit of a spin half quantum heat engine in the presence of external magnetic field ( http://arxiv.org/abs/2312.01710v1 )

ライセンス: Link先を確認
K. Nilavarasi and M. Ponmurugan(参考訳) スピンハーフ粒子の作用物質を持つ有限時間古典カルノー熱エンジンに類似した有限時間量子熱エンジンを考える。 我々は、スピンハーフ粒子の量子熱エンジンを外部磁場の存在下での作用物質として、最大$\dot{\Omega$の効率で研究する。 最大$\dot{\omega}$ of meritでのこのエンジンの効率は、ある粒子の個体群レベルで異常な挙動を示す。 さらに、最大$\dot{\omega}$ での効率は既知のすべての境界を超え、有限時間におけるカルノー効率に近づくことさえある。 本研究は, スピンハーフ粒子の集団は, 量子状態における集合的影響により, 高い効率で優れたエンジン性能が得られる量子熱機関において重要な役割を担っていることを示唆する。

We consider a finite time quantum heat engine analogous to finite time classical Carnot heat engine with a working substance of spin half particles. We study the efficiency at maximum $\dot{\Omega}$ figure of merit of the quantum heat engine of spin half particles as a working substance in the presence of external magnetic field. The efficiency of this engine at maximum $\dot{\Omega}$ figure of merit shows anomalous behavior in certain region of particles population levels. Further, we find that the efficiency at maximum $\dot{\Omega}$ figure exceeds all the known bounds and even approaches the Carnot efficiency at finite time. Our study indicates that the population of spin half particles plays a crucial role in quantum heat engine whose collective effect in the quantum regime can provide superior engine performance with higher efficiency.
翻訳日:2023-12-05 15:48:24 公開日:2023-12-04
# 開系におけるヤン・リー量子臨界の実験的観察

Experimental observation of the Yang-Lee quantum criticality in open systems ( http://arxiv.org/abs/2312.01706v1 )

ライセンス: Link先を確認
Huixia Gao, Kunkun Wang, Lei Xiao, Masaya Nakagawa, Norifumi Matsumoto, Dengke Qu, Haiqing Lin, Masahito Ueda, Peng Xue(参考訳) ヤン・リーエッジ特異点は当初、相転移の数学的基礎の観点から研究され、その物理的実演は理論的にも実験的にも活発に研究されてきた。 しかし、Yang-Leeエッジ特異点における想像上の磁場の存在は、この臨界現象に付随する負のスケーリング次元を持つ異常スケーリングを直接観察することを困難にしている。 量子力学系において非エルミートハミルトニアンが支配する非ユニタリ進化を通じてヤン・リーエッジ特異点を実験的に実装し、古典系を等価な正準分割関数によって量子系に写像する。 特に,本実験における分割関数の観察は,共有光子を用いて行う。 非単位量子臨界度は例外点における特異点と同一視される。 また、量子系に特有の有限温度ダイナミクスに対する非慣習的スケーリング則を示す。

The Yang-Lee edge singularity was originally studied from the standpoint of mathematical foundations of phase transitions, and its physical demonstration has been of active interest both theoretically and experimentally. However, the presence of an imaginary magnetic field in the Yang-Lee edge singularity has made it challenging to develop a direct observation of the anomalous scaling with negative scaling dimension associated with this critical phenomenon. We experimentally implement an imaginary magnetic field and demonstrate the Yang-Lee edge singularity through a nonunitary evolution governed by a non-Hermitian Hamiltonian in an open quantum system, where a classical system is mapped to a quantum system via the equivalent canonical partition function. In particular, we directly observe the partition function in our experiment using heralded single photons. The nonunitary quantum criticality is identified with the singularity at an exceptional point. We also demonstrate unconventional scaling laws for the finite-temperature dynamics unique to quantum systems.
翻訳日:2023-12-05 15:48:02 公開日:2023-12-04
# 字幕書き換えによる大型視覚言語モデルの微調整による細粒度幻覚の軽減

Mitigating Fine-Grained Hallucination by Fine-Tuning Large Vision-Language Models with Caption Rewrites ( http://arxiv.org/abs/2312.01701v1 )

ライセンス: Link先を確認
Lei Wang, Jiabang He, Shenshen Li, Ning Liu, Ee-Peng Lim(参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著な性能を示した。 画像データ上での多様なヒューマンインストラクションの理解と実行のために,命令調整型大規模視覚言語モデル (LVLM) が導入された。 しかし、LVLMは様々な種類の物体幻覚に悩まされる。 それでも、LVLMは粗い粒度の物体幻覚(すなわち、入力画像に存在しない生成物)に対してのみ評価される。 画像に存在しない微粒な物体の属性や挙動は今でも生成されるが、現在の評価法では測定されない。 本稿では,LVLMの微細な幻覚の低減に焦点をあてる。 本稿では,ChatGPT を用いた字幕の書き直しと,書き直された字幕上の命令調整 LVLM の微調整という,2つのコンポーネントからなるフレームワークである \textit{ReCaption} を提案する。 また, より微細な探索に基づく評価手法である \textit{Fine-Grained Object Hallucination Evaluation} (\textit{FGHE}) を提案する。 実験の結果,ReCaptionは様々なLVLMオプションに対して,粒度の細かいオブジェクト幻覚を効果的に低減し,テキスト生成品質を向上することを示した。 コードはhttps://github.com/anonymousanoy/foheにある。

Large language models (LLMs) have shown remarkable performance in natural language processing (NLP) tasks. To comprehend and execute diverse human instructions over image data, instruction-tuned large vision-language models (LVLMs) have been introduced. However, LVLMs may suffer from different types of object hallucinations. Nevertheless, LVLMs are evaluated for coarse-grained object hallucinations only (i.e., generated objects non-existent in the input image). The fine-grained object attributes and behaviors non-existent in the image may still be generated but not measured by the current evaluation methods. In this paper, we thus focus on reducing fine-grained hallucinations of LVLMs. We propose \textit{ReCaption}, a framework that consists of two components: rewriting captions using ChatGPT and fine-tuning the instruction-tuned LVLMs on the rewritten captions. We also propose a fine-grained probing-based evaluation method named \textit{Fine-Grained Object Hallucination Evaluation} (\textit{FGHE}). Our experiment results demonstrate that ReCaption effectively reduces fine-grained object hallucination for different LVLM options and improves their text generation quality. The code can be found at https://github.com/Anonymousanoy/FOHE.
翻訳日:2023-12-05 15:47:47 公開日:2023-12-04
# 大規模言語モデルのためのデータ管理:調査

Data Management For Large Language Models: A Survey ( http://arxiv.org/abs/2312.01700v1 )

ライセンス: Link先を確認
Zige Wang, Wanjun Zhong, Yufei Wang, Qi Zhu, Fei Mi, Baojun Wang, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) データは、LLM(Large Language Models)のトレーニングにおいて、基本的な役割を果たす。 効果的なデータ管理は、特に適切なトレーニングデータセットの定式化において、事前トレーニングおよび教師付き微調整フェーズにおけるモデル性能の向上とトレーニング効率の向上に重要である。 データ管理の重要性は大きいが、現在の研究コミュニティでは、管理戦略選択の背景にある理論的根拠や、その影響、キュレートされたデータセットの評価方法、改善された戦略の追求に関する体系的な分析が不足している。 その結果、データ管理の探究が研究コミュニティの間でますます注目を集めている。 本調査は,llmの事前学習と教師付き微調整段階におけるデータ管理の現状について,データ量,データ品質,ドメイン/タスク構成など,データ管理戦略設計のさまざまな特筆すべき側面を包括的に概観する。 将来に向けて、既存の課題を外挿し、この分野の開発に有望な方向性を概説する。 そこで本調査は,データ管理の効果的な実践を通じて,強力なLCMの構築を目指す実践者の指針となる。 最新の論文のコレクションはhttps://github.com/ZigeW/data_management_LLMで公開されている。

Data plays a fundamental role in the training of Large Language Models (LLMs). Effective data management, particularly in the formulation of a well-suited training dataset, holds significance for enhancing model performance and improving training efficiency during pretraining and supervised fine-tuning phases. Despite the considerable importance of data management, the current research community still falls short in providing a systematic analysis of the rationale behind management strategy selection, its consequential effects, methodologies for evaluating curated datasets, and the ongoing pursuit of improved strategies. Consequently, the exploration of data management has attracted more and more attention among the research community. This survey provides a comprehensive overview of current research in data management within both the pretraining and supervised fine-tuning stages of LLMs, covering various noteworthy aspects of data management strategy design: data quantity, data quality, domain/task composition, etc. Looking toward the future, we extrapolate existing challenges and outline promising directions for development in this field. Therefore, this survey serves as a guiding resource for practitioners aspiring to construct powerful LLMs through effective data management practices. The collection of the latest papers is available at https://github.com/ZigeW/data_management_LLM.
翻訳日:2023-12-05 15:47:27 公開日:2023-12-04
# 超多変量時系列予測手法による都市移動予測の再検討

Rethinking Urban Mobility Prediction: A Super-Multivariate Time Series Forecasting Approach ( http://arxiv.org/abs/2312.01699v1 )

ライセンス: Link先を確認
Jinguo Cheng, Ke Li, Yuxuan Liang, Lijun Sun, Junchi Yan, Yuankai Wu(参考訳) 長期の都市移動予測は、都市施設やサービスの効果的管理において重要な役割を担っている。 従来、都市移動データは時空間ビデオとして構成され、経度と緯度を基本ピクセルとして扱う。 その結果、この領域では、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)に依存するビデオ予測手法が有効になっている。 本研究では,都市移動予測の新しい視点を紹介する。 都市移動データを従来のビデオデータとして単純化するのではなく、複雑な多変量時系列と見なす。 この観点では、各チャネルにおける各グリッドの時間変化値を個々の時系列として扱い、時間的ダイナミクス、相互変数相関、正確で信頼性の高い予測のための周波数領域の洞察を徹底的に検討する必要がある。 この課題に対処するために,超多変量都市モビリティトランスフォーマー(sumformer)を提案する。このトランスフォーマーは,時間的および相互変数の相関を計算し,多数の時系列から発生する計算コストを削減するために,特別に設計された注意機構を利用する。 sumformerは低周波フィルタを使って長期的な予測に必要な情報を抽出する。 さらにsumformerは、テンポラリパッチマージメカニズムで構成されており、マルチスケール相関のキャプチャを可能にする階層的フレームワークを形成する。 その結果、都市移動パターンのモデリングと長期予測に優れ、3つの実世界のデータセットで現在の最先端の手法よりも優れている。

Long-term urban mobility predictions play a crucial role in the effective management of urban facilities and services. Conventionally, urban mobility data has been structured as spatiotemporal videos, treating longitude and latitude grids as fundamental pixels. Consequently, video prediction methods, relying on Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs), have been instrumental in this domain. In our research, we introduce a fresh perspective on urban mobility prediction. Instead of oversimplifying urban mobility data as traditional video data, we regard it as a complex multivariate time series. This perspective involves treating the time-varying values of each grid in each channel as individual time series, necessitating a thorough examination of temporal dynamics, cross-variable correlations, and frequency-domain insights for precise and reliable predictions. To address this challenge, we present the Super-Multivariate Urban Mobility Transformer (SUMformer), which utilizes a specially designed attention mechanism to calculate temporal and cross-variable correlations and reduce computational costs stemming from a large number of time series. SUMformer also employs low-frequency filters to extract essential information for long-term predictions. Furthermore, SUMformer is structured with a temporal patch merge mechanism, forming a hierarchical framework that enables the capture of multi-scale correlations. Consequently, it excels in urban mobility pattern modeling and long-term prediction, outperforming current state-of-the-art methods across three real-world datasets.
翻訳日:2023-12-05 15:47:06 公開日:2023-12-04
# Hulk:人間中心タスクのためのユニバーサル知識翻訳ツール

Hulk: A Universal Knowledge Translator for Human-Centric Tasks ( http://arxiv.org/abs/2312.01697v1 )

ライセンス: Link先を確認
Yizhou Wang, Yixuan Wu, Shixiang Tang, Weizhen He, Xun Guo, Feng Zhu, Lei Bai, Rui Zhao, Jian Wu, Tong He, Wanli Ouyang(参考訳) 人間中心の知覚タスク、例えば、人間のメッシュ回復、歩行者検出、骨格に基づく行動認識、ポーズ推定は、メタバースやスポーツ分析のような幅広い産業的応用を持つ。 近年、人間中心の知覚タスクに利益をもたらす人間中心の基礎モデルの開発が急増している。 多くの人間中心の基礎モデルが成功したが、その多くは2dビジョンタスクでのみ優れているか、現実のシナリオで実用的な配置のために広範囲な微調整を必要とする。 これらの制限は、様々な下流のタスクや状況におけるユーザビリティを著しく制限する。 これらの課題に対処するために,Hulkは,タスク固有の微調整を伴わずに,主要なタスクのほとんどに同時に対処可能な,最初のマルチモーダルな人間中心ジェネリストモデルである。 これを達成する鍵は、様々なタスク固有のヘッドを2つの一般的なヘッドにまとめることである。1つは離散表現、例えば言語、もう1つは連続表現、例えば位置座標である。 2つのヘッドの出力はさらに4つの異なる入力と出力のモダリティに積み重ねることができる。 この一様表現により、ハルクは人間中心のタスクをモダリティの翻訳として扱うことができ、幅広いタスクの知識を統合することができる。 提案手法の有効性を検証するため,人間中心の8つのタスクにまたがる11のベンチマークの総合的な実験を行った。 実験結果は従来の方法を大きく上回り,提案手法の優越性を示した。 コードはhttps://github.com/OpenGVLab/HumanBench.comで入手できる。

Human-centric perception tasks, e.g., human mesh recovery, pedestrian detection, skeleton-based action recognition, and pose estimation, have wide industrial applications, such as metaverse and sports analysis. There is a recent surge to develop human-centric foundation models that can benefit a broad range of human-centric perception tasks. While many human-centric foundation models have achieved success, most of them only excel in 2D vision tasks or require extensive fine-tuning for practical deployment in real-world scenarios. These limitations severely restrict their usability across various downstream tasks and situations. To tackle these problems, we present Hulk, the first multimodal human-centric generalist model, capable of addressing most of the mainstream tasks simultaneously without task-specific finetuning, covering 2D vision, 3D vision, skeleton-based, and vision-language tasks. The key to achieving this is condensing various task-specific heads into two general heads, one for discrete representations, e.g., languages, and the other for continuous representations, e.g., location coordinates. The outputs of two heads can be further stacked into four distinct input and output modalities. This uniform representation enables Hulk to treat human-centric tasks as modality translation, integrating knowledge across a wide range of tasks. To validate the effectiveness of our proposed method, we conduct comprehensive experiments on 11 benchmarks across 8 human-centric tasks. Experimental results surpass previous methods substantially, demonstrating the superiority of our proposed method. The code will be available on https://github.com/OpenGVLab/HumanBench.
翻訳日:2023-12-05 15:46:39 公開日:2023-12-04
# フレキシブルな角面に基づく制約対象空間における光場イメージング

Light Field Imaging in the Restrictive Object Space based on Flexible Angular Plane ( http://arxiv.org/abs/2312.01761v1 )

ライセンス: Link先を確認
Ping Zhou, Nuo Chen, Yuda Xu, Chengcai Xu(参考訳) いくつかの応用では、産業用や医療用内視鏡など、光磁場イメージングシステムの物体空間は制限的である。 従来の光電界イメージングシステムが制限対象空間(ros)で直接使用される場合、rosは特に考慮されていない場合、重度のマイクロレンズ画像歪みを引き起こし、光電界のデコード、キャリブレーション、および3次元再構成に影響を及ぼす。 制限対象空間における光場イメージング(ros-lf)は複雑だが重要である。 本稿では、まず、マイクロレンズ画像偏差の理由は角面の位置変化であると推定し、従来の光界では角面が主レンズ面と常に一致するのに対して、ROS-LFのフレキシブル角面を提案する。 次に、ROS-LFのマイクロレンズ画像非歪み原理を提案し、ROS-LFイメージング原理を提案する。 この差は、ROS-LFと従来の光場イメージングモデルとの開口定数項であることを示す。 最終的にros-lfシミュレーションシステムを設計・校正し,本論文で提案する原理を検証する。

In some applications, the object space of light field imaging system is restrictive, such as industrial and medical endoscopes. If the traditional light field imaging system is used in the restrictive object space (ROS) directly but without any specific considerations, the ROS will lead to severe microlens image distortions and then affects light field decoding, calibration and 3D reconstruction. The light field imaging in restrictive object space (ROS-LF) is complicated but significant. In this paper, we first deduce that the reason of the microlens image deviation is the position variation of the angular plane, then we propose the flexible angular plane for ROS-LF, while in the traditional light field the angular plane always coincides with the main lens plane. Subsequently, we propose the microlens image non-distortion principle for ROS-LF and introduce the ROS-LF imaging principle. We demonstrate that the difference is an aperture constant term between the ROS-LF and traditional light field imaging models. At last, we design a ROS-LF simulated system and calibrate it to verify principles proposed in this paper.
翻訳日:2023-12-05 15:41:00 公開日:2023-12-04
# CZL-CIAE:CLIP駆動ゼロショット学習による逆年齢推定の補正

CZL-CIAE: CLIP-driven Zero-shot Learning for Correcting Inverse Age Estimation ( http://arxiv.org/abs/2312.01758v1 )

ライセンス: Link先を確認
Yuntao Shou, Wei Ai, Tao Meng, Keqin Li(参考訳) ゼロショット年齢推定は、入力画像から年齢の特徴情報を学び、特定のサンプルデータなしでその人の画像やビデオフレームの推測を行うことを目的としている。 ゼロショット年齢推定の開発は、様々なアプリケーション(例えば、年齢検証や安全なアクセス制御など)の効率と精度を向上させるとともに、ソーシャルメディア分野におけるマルチモーダルおよびゼロショット学習の研究を促進する。 例えば、ゼロサンプル年齢推定は、特定の年齢グループに焦点を当てたソーシャルネットワークの作成に使用できる。 しかし,従来の手法では教師付き,ラベル付き年齢推定学習が中心であり,ゼロショット学習の予測効果は極めて低い。 以上の課題に対処するため,CLIPによる逆年齢推定のためのゼロショット学習(CZL-CIAE)を提案する。 具体的には,まずクリップモデルを導入し,画像特徴とテキスト意味情報をそれぞれ抽出し,高度にセマンティクス的に整列した高次元特徴空間にマップする。 次に,画像のチャネル進化と空間的相互作用を実現し,画像とテキストのセマンティクス情報を融合するために,新しいトランスフォーマーアーキテクチャ(すなわちフーリエフォーマー)を設計した。 最後に、年齢予測の誤差率を低減するためにエンドツーエンドの誤差フィードバックを用いた可逆年齢推定を導入する。 複数のデータセットに関する広範な実験を通じて、CZL-CIAEはより優れた年齢予測結果を得た。

Zero-shot age estimation aims to learn feature information about age from input images and make inferences about a given person's image or video frame without specific sample data. The development of zero-shot age estimation can improve the efficiency and accuracy of various applications (e.g., age verification and secure access control, etc.), while also promoting research on multi-modal and zero-shot learning in the social media field. For example, zero-sample age estimation can be used to create social networks focused on specific age groups. However, existing methods mainly focus on supervised, labeled age estimation learning, and the prediction effect of zero-shot learning is very poor. To tackle the above issues, we propose a novel CLIP-driven Zero-shot Learning for Correcting Inverse Age Estimation (CZL-CIAE). Specifically, we first introduce the CLIP model to extract image features and text semantic information respectively, and map them into a highly semantically aligned high-dimensional feature space. Next, we designed a new Transformer architecture (i.e., FourierFormer) to achieve channel evolution and spatial interaction of images, and to fuse image and text semantic information. Finally, we introduce reversible age estimation, which uses end-to-end error feedback to reduce the error rate of age predictions. Through extensive experiments on multiple data sets, CZL-CIAE has achieved better age prediction results.
翻訳日:2023-12-05 15:40:43 公開日:2023-12-04
# スイートオレンジリーフ病に関する総合文献レビュー

A Comprehensive Literature Review on Sweet Orange Leaf Diseases ( http://arxiv.org/abs/2312.01756v1 )

ライセンス: Link先を確認
Yousuf Rayhan Emon, Md Golam Rabbani, Dr. Md. Taimur Ahad, Faruk Ahmed(参考訳) 甘いオレンジの葉病は農業生産に重要である。 葉病はカンキツ産業の果実品質に影響を及ぼす。 機械学習の出現は、病気発見機の開発に繋がる。 葉管理には早期発見と診断が必要である。 sweet orange leaf disease-predicting automated systemsはすでに様々な画像処理技術を用いて開発されている。 本総括的文献レビューは、画像分類による損傷葉の検出に適用される葉病および機械学習手法を体系的に基礎としている。 Vision Transformer (ViT), Neural Network (CNN), CNN with SoftMax and RBF SVM, Hybrid CNN-SVM, HLB-ConvMLP, EfficientNet-b0, YOLOv5, YOLOv7, Convolutional, Deep CNNなど,さまざまな機械学習モデルのメリットと制限がある。 これらの機械学習モデルは、さまざまなデータセットでテストされ、病気を検出した。 葉病に関する包括的レビュー研究は, モデルの性能を比較したものであり, そのモデルの精度, 正確性, 想起性などについて検討した。

Sweet orange leaf diseases are significant to agricultural productivity. Leaf diseases impact fruit quality in the citrus industry. The apparition of machine learning makes the development of disease finder. Early detection and diagnosis are necessary for leaf management. Sweet orange leaf disease-predicting automated systems have already been developed using different image-processing techniques. This comprehensive literature review is systematically based on leaf disease and machine learning methodologies applied to the detection of damaged leaves via image classification. The benefits and limitations of different machine learning models, including Vision Transformer (ViT), Neural Network (CNN), CNN with SoftMax and RBF SVM, Hybrid CNN-SVM, HLB-ConvMLP, EfficientNet-b0, YOLOv5, YOLOv7, Convolutional, Deep CNN. These machine learning models tested on various datasets and detected the disease. This comprehensive review study related to leaf disease compares the performance of the models; those models' accuracy, precision, recall, etc., were used in the subsisting studies
翻訳日:2023-12-05 15:40:18 公開日:2023-12-04
# リバランスコントラスト損失を伴うロングテール学習

Long-Tail Learning with Rebalanced Contrastive Loss ( http://arxiv.org/abs/2312.01753v1 )

ライセンス: Link先を確認
Charika De Alvis, Dishanika Denipitiyage, Suranga Seneviratne(参考訳) 近年,長期学習問題への解決策として,教師付きコントラスト損失とクロスエントロピーに基づくコミュニケーションの統合が提案されている。 しかし、クラス不均衡比が高い場合には、従来のコントラスト学習がデフォルトでヘッドクラスに偏りがあるため、テールクラスをサポートするために教師付きコントラスト損失を調整する必要がある。 そこで,本研究では,長尾分類精度を向上させるための効率的な手法として,rcl(rebalanced contrastive learning)を提案する。 1. 特徴空間の均衡性 - すべてのクラスにおける特徴空間の等分割 2. クラス内コンパクト性 - クラス内埋め込み間の距離を減らす。 3. 正規化 - オーバーフィッティングを減らすためにテールクラスのマージンを大きくする。 RCLは、クラス周波数に基づくSoftMax損失分散を教師付きコントラスト学習損失に適用し、コントラスト学習損失に対応するスカラー乗算機能を活用してコンパクト性を強制する。 我々は、SOTAの性能を持つBCLフレームワーク上で、RCLを実装している。 3つのベンチマークデータセットにおける実験は、学習埋め込みの豊かさと、rclがbclフレームワークに提供するトップ1バランスの精度の向上を示しています。 さらに,独立損失としてのRCLの性能は,最先端レベルの精度も達成できることを示した。

Integrating supervised contrastive loss to cross entropy-based communication has recently been proposed as a solution to address the long-tail learning problem. However, when the class imbalance ratio is high, it requires adjusting the supervised contrastive loss to support the tail classes, as the conventional contrastive learning is biased towards head classes by default. To this end, we present Rebalanced Contrastive Learning (RCL), an efficient means to increase the long tail classification accuracy by addressing three main aspects: 1. Feature space balancedness - Equal division of the feature space among all the classes, 2. Intra-Class compactness - Reducing the distance between same-class embeddings, 3. Regularization - Enforcing larger margins for tail classes to reduce overfitting. RCL adopts class frequency-based SoftMax loss balancing to supervised contrastive learning loss and exploits scalar multiplied features fed to the contrastive learning loss to enforce compactness. We implement RCL on the Balanced Contrastive Learning (BCL) Framework, which has the SOTA performance. Our experiments on three benchmark datasets demonstrate the richness of the learnt embeddings and increased top-1 balanced accuracy RCL provides to the BCL framework. We further demonstrate that the performance of RCL as a standalone loss also achieves state-of-the-art level accuracy.
翻訳日:2023-12-05 15:39:59 公開日:2023-12-04
# FinTechにおけるサイバーセキュリティの脅威: 体系的レビュー

Cybersecurity threats in FinTech: A systematic review ( http://arxiv.org/abs/2312.01752v1 )

ライセンス: Link先を確認
Danial Javaheri, Mahdi Fahmideh, Hassan Chizari, Pooia Lalbakhsh, Junbeom Hur(参考訳) スマート全盛運動と人工知能(AI)の急速な進化は、従来の方法では対応できないような高度なサイバー脅威を引き起こしている。 サイバー脅威は金融技術(FinTech)において、24/7サービスの提供が期待されるデータ中心セクターとして極めて重要である。 本稿では,フィンテックにおけるセキュリティ脅威の新規かつ洗練された分類法を紹介し,防衛戦略の包括的体系的検討を行う。 選択された74の研究とトピックモデリングに適用したprisma手法により、43の論文を詳述した11の中央サイバー脅威を特定し、31の論文で取り上げた9つの防衛戦略を突き止めた。 この詳細な分析は、銀行や企業からグローバルな政府機関まで、利害関係者に貴重な洞察を与え、フィンテックにおける現在の課題と効果的な対策、そして今後の研究の方向性を強調する。

The rapid evolution of the Smart-everything movement and Artificial Intelligence (AI) advancements have given rise to sophisticated cyber threats that traditional methods cannot counteract. Cyber threats are extremely critical in financial technology (FinTech) as a data-centric sector expected to provide 24/7 services. This paper introduces a novel and refined taxonomy of security threats in FinTech and conducts a comprehensive systematic review of defensive strategies. Through PRISMA methodology applied to 74 selected studies and topic modeling, we identified 11 central cyber threats, with 43 papers detailing them, and pinpointed 9 corresponding defense strategies, as covered in 31 papers. This in-depth analysis offers invaluable insights for stakeholders ranging from banks and enterprises to global governmental bodies, highlighting both the current challenges in FinTech and effective countermeasures, as well as directions for future research.
翻訳日:2023-12-05 15:39:39 公開日:2023-12-04
# Open-DDVM:光フロー推定のための拡散モデルの再現と拡張

Open-DDVM: A Reproduction and Extension of Diffusion Model for Optical Flow Estimation ( http://arxiv.org/abs/2312.01746v1 )

ライセンス: Link先を確認
Qiaole Dong and Bo Zhao and Yanwei Fu(参考訳) 最近Googleは、画像から画像への変換タスクの一般的な拡散モデルがRAFTのような特定の設計を使わずに、光学フロー推定タスクで驚くほどうまく動作することを示すDDVMを提案する。 しかし、DDVMはまだクローズドソースモデルであり、高価でプライベートなPaletteスタイルの事前トレーニングがある。 本稿では,DDVMを再現した最初のオープンソースDDVMについて述べる。 いくつかの設計選択を研究し、重要なものを見つけます。 4つのGPUで40万の公開データをトレーニングすることで、我々の再生はクローズドソースDDVMに匹敵するパフォーマンスを達成する。 コードとモデルはhttps://github.com/dqiaole/flowdiffusion_pytorchでリリースされている。

Recently, Google proposes DDVM which for the first time demonstrates that a general diffusion model for image-to-image translation task works impressively well on optical flow estimation task without any specific designs like RAFT. However, DDVM is still a closed-source model with the expensive and private Palette-style pretraining. In this technical report, we present the first open-source DDVM by reproducing it. We study several design choices and find those important ones. By training on 40k public data with 4 GPUs, our reproduction achieves comparable performance to the closed-source DDVM. The code and model have been released in https://github.com/DQiaole/FlowDiffusion_pytorch.
翻訳日:2023-12-05 15:39:25 公開日:2023-12-04
# テキスト対画像検索のための相互適応型デュアルアソシエーション

Cross-Modal Adaptive Dual Association for Text-to-Image Person Retrieval ( http://arxiv.org/abs/2312.01745v1 )

ライセンス: Link先を確認
Dixuan Lin, Yixing Peng, Jingke Meng, Wei-Shi Zheng(参考訳) ReID(text-to-image person re-identification)は、所定のテキスト記述に基づいて人物の画像を取得することを目的としている。 重要な課題は、視覚とテキストのモダリティから詳細な情報の関係を学ぶことである。 既存の研究は、モダリティギャップを狭め、2つのモダリティ間の局所対応を構築するための潜在空間の学習に焦点を当てている。 しかし、これらの手法は、画像とテキストと画像の関連性はモダリティと無関係であると仮定し、最適でない関連性をもたらす。 本稿では、画像とテキストと画像の関連性の違いを示し、双方向画像の詳細な関連性を微妙に構築するCADA: Cross-Modal Adaptive Dual Associationを提案する。 本手法は,視覚とテキスト間の完全なインタラクションを可能にするデコーダに基づく適応的二重結合モジュールを特徴とする。 具体的には,画像パッチへのテキストトークンの関連付け (atp) とテキスト属性への画像領域の関連付け (ara) という双方向の関連付け機構を提案する。 誤結合に基づくクロスモーダル特徴の集約が特徴的歪みを生じさせるという事実に基づいて,atpを適応的にモデル化する。 ARAをモデル化するためには、属性は典型的に人の最初の識別方法であるため、関連する画像領域を用いてマスク付きテキストフレーズを予測することにより属性レベルの関連性を探究する。 最後に,テキストと画像の双対関係を学習し,この双対定式化が優れていることを示す実験結果を得た。 コードは公開される予定だ。

Text-to-image person re-identification (ReID) aims to retrieve images of a person based on a given textual description. The key challenge is to learn the relations between detailed information from visual and textual modalities. Existing works focus on learning a latent space to narrow the modality gap and further build local correspondences between two modalities. However, these methods assume that image-to-text and text-to-image associations are modality-agnostic, resulting in suboptimal associations. In this work, we show the discrepancy between image-to-text association and text-to-image association and propose CADA: Cross-Modal Adaptive Dual Association that finely builds bidirectional image-text detailed associations. Our approach features a decoder-based adaptive dual association module that enables full interaction between visual and textual modalities, allowing for bidirectional and adaptive cross-modal correspondence associations. Specifically, the paper proposes a bidirectional association mechanism: Association of text Tokens to image Patches (ATP) and Association of image Regions to text Attributes (ARA). We adaptively model the ATP based on the fact that aggregating cross-modal features based on mistaken associations will lead to feature distortion. For modeling the ARA, since the attributes are typically the first distinguishing cues of a person, we propose to explore the attribute-level association by predicting the masked text phrase using the related image region. Finally, we learn the dual associations between texts and images, and the experimental results demonstrate the superiority of our dual formulation. Codes will be made publicly available.
翻訳日:2023-12-05 15:39:18 公開日:2023-12-04
# 拡散インシシデントモデルによる完全スパイク

Fully Spiking Denoising Diffusion Implicit Models ( http://arxiv.org/abs/2312.01742v1 )

ライセンス: Link先を確認
Ryo Watanabe, Yusuke Mukuta and Tatsuya Harada(参考訳) スパイキングニューラルネットワーク(SNN)は、超高速でエネルギー効率の優れたニューロモルフィックデバイス上で走る能力のため、かなりの注目を集めている。 snnは、従来のニューラルネットワークベースの時間とエネルギー消費アプリケーションで使用できる。 しかし、その利点にもかかわらず、sns内の生成モデルの研究は限られている。 特に、拡散モデルは生成モデルの強力なクラスであり、その画像生成品質はgansのような他の生成モデルよりも優れている。 しかし,拡散モデルの特徴は,高い計算コストと,反復的 denoising 特徴による長推論時間である。 そこで本研究では,SNN内の拡散モデルを構築し,シナプス電流学習(SCL)によるSNNの高速・低エネルギー消費特性を活用するために,拡散暗黙モデル(FSDDIM)を完全スパイクする手法を提案する。 sclは拡散モデルがニューラルネットワークを使って事前定義された確率分布の実数値パラメータを推定するのに対し、snsは二元スパイク列を出力するというギャップを埋める。 SCLはSNNのみを用いて拡散モデルの生成過程全体を完遂することを可能にする。 提案手法が最先端の完全スパイク生成モデルよりも優れていることを示す。

Spiking neural networks (SNNs) have garnered considerable attention owing to their ability to run on neuromorphic devices with super-high speeds and remarkable energy efficiencies. SNNs can be used in conventional neural network-based time- and energy-consuming applications. However, research on generative models within SNNs remains limited, despite their advantages. In particular, diffusion models are a powerful class of generative models, whose image generation quality surpass that of the other generative models, such as GANs. However, diffusion models are characterized by high computational costs and long inference times owing to their iterative denoising feature. Therefore, we propose a novel approach fully spiking denoising diffusion implicit model (FSDDIM) to construct a diffusion model within SNNs and leverage the high speed and low energy consumption features of SNNs via synaptic current learning (SCL). SCL fills the gap in that diffusion models use a neural network to estimate real-valued parameters of a predefined probabilistic distribution, whereas SNNs output binary spike trains. The SCL enables us to complete the entire generative process of diffusion models exclusively using SNNs. We demonstrate that the proposed method outperforms the state-of-the-art fully spiking generative model.
翻訳日:2023-12-05 15:38:33 公開日:2023-12-04
# SRSNetwork:動的パラメータ畳み込みに基づくシームズ再構成・セグメンテーションネットワーク

SRSNetwork: Siamese Reconstruction-Segmentation Networks based on Dynamic-Parameter Convolution ( http://arxiv.org/abs/2312.01741v1 )

ライセンス: Link先を確認
Bingkun Nian, Fenghe Tang, Jianrui Ding, Pingping Zhang, Jie Yang, S.Kevin Zhou, Wei Liu(参考訳) 本稿では,医用画像セグメンテーションや赤外線画像セグメンテーションを含む,弱いターゲット画像セグメンテーションのための高性能ディープニューラルネットワークを提案する。 そこで本研究では,既存の動的畳み込みを分析し,動的パラメータ畳み込み(dpconv)を提案する。 さらに,dpconvの観点から再構成課題と分割課題の関係を再評価し,siamese reconstruction-segmentation network (srsnet) と呼ばれるデュアルネットワークモデルを提案する。 提案モデルは汎用ネットワークであるだけでなく,構造を変更せずにセグメント化性能を向上し,再構成作業を活用する。 さらに、再構成ネットワークのトレーニングデータの量が増加するにつれて、セグメンテーションネットワークの性能も同期的に向上する。 5つの医療データセットと2つの赤外線画像データセットを含む7つのデータセットに対して、SRSNetは、常に最良のセグメンテーション結果を達成する。 コードはhttps://github.com/fidshu/srsnetでリリースされる。

In this paper, we present a high-performance deep neural network for weak target image segmentation, including medical image segmentation and infrared image segmentation. To this end, this work analyzes the existing dynamic convolutions and proposes dynamic parameter convolution (DPConv). Furthermore, it reevaluates the relationship between reconstruction tasks and segmentation tasks from the perspective of DPConv, leading to the proposal of a dual-network model called the Siamese Reconstruction-Segmentation Network (SRSNet). The proposed model is not only a universal network but also enhances the segmentation performance without altering its structure, leveraging the reconstruction task. Additionally, as the amount of training data for the reconstruction network increases, the performance of the segmentation network also improves synchronously. On seven datasets including five medical datasets and two infrared image datasets, our SRSNet consistently achieves the best segmentation results. The code is released at https://github.com/fidshu/SRSNet.
翻訳日:2023-12-05 15:38:13 公開日:2023-12-04
# MobileUtr:効率的な医用画像分割のための軽量CNNとトランスフォーマーの関係の再検討

MobileUtr: Revisiting the relationship between light-weight CNN and Transformer for efficient medical image segmentation ( http://arxiv.org/abs/2312.01740v1 )

ライセンス: Link先を確認
Fenghe Tang, Bingkun Nian, Jianrui Ding, Quan Quan, Jie Yang, Wei Liu, S.Kevin Zhou(参考訳) 医用画像の特異な画像特性が乏しいため、効率的な医用画像分割のための軽量視覚トランスフォーマ(vits)は重要な課題であり、この問題にはまだ注目されていない。 本研究は,医療画像セグメンテーションのための軽量ユニバーサルネットワークにおけるCNNとトランスフォーマーの関係を再考し,インフラ設計レベルで両世界の利点を統合することを目的とする。 CNNに固有の帰納バイアスを活用するために、Transformerライクな軽量CNNブロック(ConvUtr)をViTのパッチ埋め込みとして抽象化し、Transformerに識別され、非冗長で高度に凝縮されたセマンティック情報を与える。 さらに,lgl(adaptive local-global-local)ブロックを導入して,transformerのグローバルコンテキスト情報抽出機能を最大化することにより,効率的な情報フロー交換を実現する。 最後に,CNN と Transformer に基づく効率的な医用画像分割モデル (MobileUtr) を構築した。 3つの異なるモードを持つ5つの公開医療画像データセットに対する大規模な実験は、より軽量で計算コストの低いMobileUtrよりも優れていることを示している。 コードはhttps://github.com/fenghetan9/mobileutrで入手できる。

Due to the scarcity and specific imaging characteristics in medical images, light-weighting Vision Transformers (ViTs) for efficient medical image segmentation is a significant challenge, and current studies have not yet paid attention to this issue. This work revisits the relationship between CNNs and Transformers in lightweight universal networks for medical image segmentation, aiming to integrate the advantages of both worlds at the infrastructure design level. In order to leverage the inductive bias inherent in CNNs, we abstract a Transformer-like lightweight CNNs block (ConvUtr) as the patch embeddings of ViTs, feeding Transformer with denoised, non-redundant and highly condensed semantic information. Moreover, an adaptive Local-Global-Local (LGL) block is introduced to facilitate efficient local-to-global information flow exchange, maximizing Transformer's global context information extraction capabilities. Finally, we build an efficient medical image segmentation model (MobileUtr) based on CNN and Transformer. Extensive experiments on five public medical image datasets with three different modalities demonstrate the superiority of MobileUtr over the state-of-the-art methods, while boasting lighter weights and lower computational cost. Code is available at https://github.com/FengheTan9/MobileUtr.
翻訳日:2023-12-05 15:37:55 公開日:2023-12-04
# 大規模動的ベイズネットワーク構造学習のための分割・分割戦略

Divide-and-Conquer Strategy for Large-Scale Dynamic Bayesian Network Structure Learning ( http://arxiv.org/abs/2312.01739v1 )

ライセンス: Link先を確認
Hui Ouyang, Cheng Chen, Ke Tang(参考訳) 動的ベイズネットワーク(DBN)は、その解釈可能性で知られており、遺伝子発現解析、医療、交通予測など、様々な領域における複雑な確率過程を表現する上で、ますます重要になっている。 データからのDBNの構造学習は特に数千の変数を持つデータセットでは難しい。 現在のDBN構造学習のアルゴリズムは、静的ベイズネットワーク(BN)で使われているものからの適応であり、通常は小規模な問題に焦点を当てている。 本稿では,既存のアルゴリズムを最大限に活用しつつ,大規模な問題を解くために,従来の静的BN用に開発された分割・分散戦略を導入し,大規模DBN構造学習に適用する。 本研究では,特にdbnsの特殊クラスである2つのタイムスライスベイズネットワーク (2-tbns) に着目した。 さらに,2-TBNの事前知識を活用し,導入戦略の性能向上を図る。 提案手法は2-TBN構造学習のスケーラビリティと精度を大幅に向上させる。 提案手法の有効性を実験的に示し,計算効率と構造学習精度の両方において既存のアルゴリズムを大きく改善した。 1000以上の変数を持つ問題インスタンスでは,2つの精度指標を平均で74.45%,110.94%改善し,ランタイムを平均93.65%削減した。

Dynamic Bayesian Networks (DBNs), renowned for their interpretability, have become increasingly vital in representing complex stochastic processes in various domains such as gene expression analysis, healthcare, and traffic prediction. Structure learning of DBNs from data is challenging, particularly for datasets with thousands of variables. Most current algorithms for DBN structure learning are adaptations from those used in static Bayesian Networks (BNs), and are typically focused on small-scale problems. In order to solve large-scale problems while taking full advantage of existing algorithms, this paper introduces a novel divide-and-conquer strategy, originally developed for static BNs, and adapts it for large-scale DBN structure learning. In this work, we specifically concentrate on 2 Time-sliced Bayesian Networks (2-TBNs), a special class of DBNs. Furthermore, we leverage the prior knowledge of 2-TBNs to enhance the performance of the strategy we introduce. Our approach significantly improves the scalability and accuracy of 2-TBN structure learning. Experimental results demonstrate the effectiveness of our method, showing substantial improvements over existing algorithms in both computational efficiency and structure learning accuracy. On problem instances with more than 1,000 variables, our approach improves two accuracy metrics by 74.45% and 110.94% on average , respectively, while reducing runtime by 93.65% on average.
翻訳日:2023-12-05 15:37:30 公開日:2023-12-04
# 政治リーン推論の多人数システムへの一般化:英国政治景観から

Generalizing Political Leaning Inference to Multi-Party Systems: Insights from the UK Political Landscape ( http://arxiv.org/abs/2312.01738v1 )

ライセンス: Link先を確認
Joseba Fernandez de Landa, Arkaitz Zubiaga and Rodrigo Agerri(参考訳) ソーシャルメディア利用者の政治的傾向を推測する能力は、世論調査の収集に役立つため、世論の理解を深めることができる。 ソーシャルメディア利用者の政治的傾倒を推し進める研究団体は存在するが、通常は二項分類問題(例えば、左か右か)として単純化され、単一の場所に限定されており、より複雑で多階級の分類と、特に複数政党のシステムにおいて、その一般化可能性に関する調査が難航している。 私たちの研究は、イギリスの3つの国(スコットランド、ウェールズ、北アイルランド)における政治的傾倒推論を研究することで、このような取り組みを初めて行ないました。 そのために、政治的傾きと対話によってラベル付けされたユーザからなるデータセットを収集し、リリースする。 筆者らは,これらのインタラクションを,訓練データが少なく,かつ政治的エンゲージメントのレベルが異なるユーザに対する適用性を評価するような難題に活用することで,ユーザの政治的傾きを予測する能力について検討した。 我々は、ユーザー間のリツイートという形でのやりとりは、政治的傾倒推論を可能にする非常に強力な機能であり、マルチパーティシステムを持つ異なる地域間で一貫性があり、堅牢な結果をもたらすことを示した。 しかし、政治に関わらないユーザの政治的傾きを予測するには改善の余地がある。

An ability to infer the political leaning of social media users can help in gathering opinion polls thereby leading to a better understanding of public opinion. While there has been a body of research attempting to infer the political leaning of social media users, this has been typically simplified as a binary classification problem (e.g. left vs right) and has been limited to a single location, leading to a dearth of investigation into more complex, multiclass classification and its generalizability to different locations, particularly those with multi-party systems. Our work performs the first such effort by studying political leaning inference in three of the UK's nations (Scotland, Wales and Northern Ireland), each of which has a different political landscape composed of multiple parties. To do so, we collect and release a dataset comprising users labelled by their political leaning as well as interactions with one another. We investigate the ability to predict the political leaning of users by leveraging these interactions in challenging scenarios such as few-shot learning, where training data is scarce, as well as assessing the applicability to users with different levels of political engagement. We show that interactions in the form of retweets between users can be a very powerful feature to enable political leaning inference, leading to consistent and robust results across different regions with multi-party systems. However, we also see that there is room for improvement in predicting the political leaning of users who are less engaged in politics.
翻訳日:2023-12-05 15:37:06 公開日:2023-12-04
# ボゴリューボフ理論による平均場ボソンの時間外相関

Out-of-time-ordered correlators of mean-field bosons via Bogoliubov theory ( http://arxiv.org/abs/2312.01736v1 )

ライセンス: Link先を確認
Marius Lemm, Simone Rademacher(参考訳) 量子多体カオス(quantum many-body chaos)は、大量の自由度の間で量子情報の衝突を懸念する。 これは、$\langle [a(t),b]^2\rangle$の時間外順序付きコリケータ(otocs)が古典的なシンプレクティックダイナミクスと接続できるという予測に基づいている。 平均場ボソンに対するこの対応原理の変種を厳密に証明する。 OTOC $\langle [A(t),B]^2\rangle$の$N\to\infty$制限は、適切なシンプレクティックなボゴリューボフ力学によって明示的に与えられることを示す。 この証明はボゴリューボフ理論を使い、異なる時間に観測可能な高階相関子に拡張する。 これらの場合、ウィック則の時間外類似物が得られる。 その結果, 量子多体カオスに対する非線形分散pdeの新しい問題が浮き彫りになった。

Quantum many-body chaos concerns the scrambling of quantum information among large numbers of degrees of freedom. It rests on the prediction that out-of-time-ordered correlators (OTOCs) of the form $\langle [A(t),B]^2\rangle$ can be connected to classical symplectic dynamics. We rigorously prove a variant of this correspondence principle for mean-field bosons. We show that the $N\to\infty$ limit of the OTOC $\langle [A(t),B]^2\rangle$ is explicitly given by a suitable symplectic Bogoliubov dynamics. The proof uses Bogoliubov theory and extends to higher-order correlators of observables at different times. For these, it yields an out-of-time-ordered analog of the Wick rule. Our result spotlights a new problem in nonlinear dispersive PDE with implications for quantum many-body chaos.
翻訳日:2023-12-05 15:36:36 公開日:2023-12-04
# 野生の顔認識のための効果的なアダプタ

Effective Adapter for Face Recognition in the Wild ( http://arxiv.org/abs/2312.01734v1 )

ライセンス: Link先を確認
Yunhao Liu, Lu Qi, Yu-Ju Tsai, Xiangtai Li, Kelvin C.K. Chan, Ming-Hsuan Yang(参考訳) 本稿では,画像が低品質で実世界の歪みをしばしば抱える野生動物における顔認識の課題に挑戦する。 従来のヒューリスティックなアプローチ-劣化した画像や顔の復元技術を使った強化された画像を直接トレーニングするモデル-は、主に顔の特徴の劣化と画像領域における不一致のため、効果が証明されていない。 これらの課題を克服するために、高品質な顔データセットで訓練された既存の顔認識モデルを強化する効果的なアダプタを提案する。 我々のアダプタの鍵は、未精製画像と拡張画像の両方を、一方が固定され他方がトレーニング可能な2つの類似した構造で処理することである。 このような設計は2つの利点を享受できる。 第一に、二重入力システムは、強調画像が復元モデルによって元の画像の複雑な非線形変換とみなすことができる顔認識モデルに対して様々な視点を提供しながら、ドメインギャップを最小化する。 第二に、両方の類似した構造は、過去の知識を落とさずに、事前訓練されたモデルによって初期化することができる。 ゼロショット設定による広範囲な実験では,3つのデータセットで約3%,4%,7%のベースラインを越え,本手法の有効性を示す。 私たちのコードはhttps://github.com/liuyunhaozz/FaceAdapter/で公開されます。

In this paper, we tackle the challenge of face recognition in the wild, where images often suffer from low quality and real-world distortions. Traditional heuristic approaches-either training models directly on these degraded images or their enhanced counterparts using face restoration techniques-have proven ineffective, primarily due to the degradation of facial features and the discrepancy in image domains. To overcome these issues, we propose an effective adapter for augmenting existing face recognition models trained on high-quality facial datasets. The key of our adapter is to process both the unrefined and the enhanced images by two similar structures where one is fixed and the other trainable. Such design can confer two benefits. First, the dual-input system minimizes the domain gap while providing varied perspectives for the face recognition model, where the enhanced image can be regarded as a complex non-linear transformation of the original one by the restoration model. Second, both two similar structures can be initialized by the pre-trained models without dropping the past knowledge. The extensive experiments in zero-shot settings show the effectiveness of our method by surpassing baselines of about 3%, 4%, and 7% in three datasets. Our code will be publicly available at https://github.com/liuyunhaozz/FaceAdapter/.
翻訳日:2023-12-05 15:36:14 公開日:2023-12-04
# 全スペクトル分布検出のための確率認識意味アライメント

Likelihood-Aware Semantic Alignment for Full-Spectrum Out-of-Distribution Detection ( http://arxiv.org/abs/2312.01732v1 )

ライセンス: Link先を確認
Fan Lu, Kai Zhu, Kecheng Zheng, Wei Zhai, Yang Cao(参考訳) full-spectrum out-of-distribution (f-ood) 検出は、意味的および共変的シフトを同時に遭遇しながら、in-distribution (id) サンプルを正確に認識することを目的としている。 しかし、既存のout-of-distribution (ood)検出器は共分散情報に過剰に適合し、内在的意味相関を無視する傾向があり、複雑な領域変換に適応するには不十分である。 この問題に対処するために,画像テキスト対応を意味的に高機能な領域に促進するためのLSA(Likelihood-Aware Semantic Alignment)フレームワークを提案する。 LSAは、クラス条件のガウス分布から意味関連視覚埋め込みを効率的にサンプリングするオフラインガウスサンプリング戦略と、識別的ID/OOD境界のためにID関連および負のコンテキストを調整する双方向プロンプトカスタマイズ機構から構成される。 広範囲な実験により,提案手法が2つのf-oodベンチマークでそれぞれ15.26\%$と18.88\%$のマージンで従来の手法を上回って,特に難解な近ood設定において,提案手法の顕著なood検出性能を示すことができた。

Full-spectrum out-of-distribution (F-OOD) detection aims to accurately recognize in-distribution (ID) samples while encountering semantic and covariate shifts simultaneously. However, existing out-of-distribution (OOD) detectors tend to overfit the covariance information and ignore intrinsic semantic correlation, inadequate for adapting to complex domain transformations. To address this issue, we propose a Likelihood-Aware Semantic Alignment (LSA) framework to promote the image-text correspondence into semantically high-likelihood regions. LSA consists of an offline Gaussian sampling strategy which efficiently samples semantic-relevant visual embeddings from the class-conditional Gaussian distribution, and a bidirectional prompt customization mechanism that adjusts both ID-related and negative context for discriminative ID/OOD boundary. Extensive experiments demonstrate the remarkable OOD detection performance of our proposed LSA especially on the intractable Near-OOD setting, surpassing existing methods by a margin of $15.26\%$ and $18.88\%$ on two F-OOD benchmarks, respectively.
翻訳日:2023-12-05 15:35:39 公開日:2023-12-04
# 経験と相互作用による機械学習のモラル学習

Learning Machine Morality through Experience and Interaction ( http://arxiv.org/abs/2312.01818v1 )

ライセンス: Link先を確認
Elizaveta Tennant, Stephen Hailes, Mirco Musolesi(参考訳) 次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。 伝統的にこれは、事前定義された倫理的ルールを通じてシステム出力をフィルタリングすることで、明示的なトップダウンルールやハード制約をシステムに課すことで行われてきた。 近年、人間の行動から暗黙の好みを学ぶためのボトムアップの手法が、トレーニングや大規模言語モデルの微調整など、一般的になってきている。 本稿では,機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。これは連続体としてモデル化され,一般的なテクニックの大部分が,完全にハードコードされているか,完全に学習されているかのいずれかであり,道徳原理の明示的な記述は不要である,と論じる。 それぞれの方法論の相対的な長所と短所を考えると、適応可能で堅牢だが制御可能で解釈可能なエージェントを作るためには、よりハイブリッドなソリューションが必要であると論じる。 特に,経験からの学習(即ち強化学習)を用いて,内在的な報酬,道徳的論理的制約,言語モデルのためのテクスト的原則など,学習エージェントに道徳的な原則を明示的に提供する最近の作品の3つのケーススタディについて述べる。 例えば、社会ジレンマゲームにおける本質的な報酬を用いて、エージェントに対する古典的な道徳的枠組みをいかに表現できるかを示す。 また、このハイブリッドアプローチの可能性に関する実証的な証拠を提供するため、この分野における既存の作業の概要を示す。 次に、道徳学習エージェントの有効性を評価するための戦略について議論する。 最後に、この枠組みから生まれたAIの安全性と倫理の将来について、オープンな研究の疑問と示唆を示す。

Increasing interest in ensuring safety of next-generation Artificial Intelligence (AI) systems calls for novel approaches to embedding morality into autonomous agents. Traditionally, this has been done by imposing explicit top-down rules or hard constraints on systems, for example by filtering system outputs through pre-defined ethical rules. Recently, instead, entirely bottom-up methods for learning implicit preferences from human behavior have become increasingly popular, such as those for training and fine-tuning Large Language Models. In this paper, we provide a systematization of existing approaches to the problem of introducing morality in machines - modeled as a continuum, and argue that the majority of popular techniques lie at the extremes - either being fully hard-coded, or entirely learned, where no explicit statement of any moral principle is required. Given the relative strengths and weaknesses of each type of methodology, we argue that more hybrid solutions are needed to create adaptable and robust, yet more controllable and interpretable agents. In particular, we present three case studies of recent works which use learning from experience (i.e., Reinforcement Learning) to explicitly provide moral principles to learning agents - either as intrinsic rewards, moral logical constraints or textual principles for language models. For example, using intrinsic rewards in Social Dilemma games, we demonstrate how it is possible to represent classical moral frameworks for agents. We also present an overview of the existing work in this area in order to provide empirical evidence for the potential of this hybrid approach. We then discuss strategies for evaluating the effectiveness of moral learning agents. Finally, we present open research questions and implications for the future of AI safety and ethics which are emerging from this framework.
翻訳日:2023-12-05 15:29:02 公開日:2023-12-04
# クラスシンボリック回帰:Gotta Fit 'Em All

Class Symbolic Regression: Gotta Fit 'Em All ( http://arxiv.org/abs/2312.01816v1 )

ライセンス: Link先を確認
Wassim Tenachi, Rodrigo Ibata, Thibaut L. Fran\c{c}ois, Foivos I. Diakogiannis(参考訳) クラスシンボリック回帰(Class Symbolic Regression)は、複数のデータセットに正確に適合する単一の分析機能フォームを自動的に見つけるための、最初のフレームワークである。 この階層的な枠組みは、単一の物理現象の全てのメンバーが共通の法則に従うという共通の制約を利用する。 提案手法は, 次元解析制約と深部強化学習を統合して, データからの記号解析関数の発見を行う, 従来の物理記号最適化(Phi$-SO)フレームワークの能力を拡張する。 この手法の有効性を,合成玩具ケースデータセットのパネルに適用することにより実証し,恒星の流れを近似する一連のシミュレーション軌道から解析銀河ポテンシャルを抽出し,天体物理学の実用性を示す。

We introduce "Class Symbolic Regression" a first framework for automatically finding a single analytical functional form that accurately fits multiple datasets - each governed by its own (possibly) unique set of fitting parameters. This hierarchical framework leverages the common constraint that all the members of a single class of physical phenomena follow a common governing law. Our approach extends the capabilities of our earlier Physical Symbolic Optimization ($\Phi$-SO) framework for Symbolic Regression, which integrates dimensional analysis constraints and deep reinforcement learning for symbolic analytical function discovery from data. We demonstrate the efficacy of this novel approach by applying it to a panel of synthetic toy case datasets and showcase its practical utility for astrophysics by successfully extracting an analytic galaxy potential from a set of simulated orbits approximating stellar streams.
翻訳日:2023-12-05 15:28:33 公開日:2023-12-04
# ジョイントモーション予測・制御のためのエネルギーベースポテンシャルゲーム

Energy-based Potential Games for Joint Motion Forecasting and Control ( http://arxiv.org/abs/2312.01811v1 )

ライセンス: Link先を確認
Christopher Diehl, Tobias Klosek, Martin Kr\"uger, Nils Murzyn, Timo Osterburg, Torsten Bertram(参考訳) 本研究は,マルチエージェント動作予測と制御における相互作用モデリングの数学的枠組みとしてゲーム理論を用いる。 その解釈性にもかかわらず、自動走行のような現実世界のロボット工学にゲーム理論を適用すると、未知のゲームパラメータなどの課題に直面する。 これらの問題に対処するため,我々は微分ゲーム,最適制御,エネルギーベースモデル間の接続を確立し,提案するエネルギーベースのポテンシャルゲーム定式化の下で既存のアプローチをどのように統一できるかを実証する。 これに基づいて,ゲームパラメータ推論のためのニューラルネットワークと,誘導バイアスとして機能するゲーム理論最適化層を組み合わせた,新たなエンドツーエンド学習アプリケーションを導入する。 この分析は、2つのシミュレーションと2つの実世界の駆動データセットを用いて、ゲーム理論層が解釈可能性を高め、様々なニューラルネットワークバックボーンの予測性能を向上させるという実証的証拠を提供する。

This work uses game theory as a mathematical framework to address interaction modeling in multi-agent motion forecasting and control. Despite its interpretability, applying game theory to real-world robotics, like automated driving, faces challenges such as unknown game parameters. To tackle these, we establish a connection between differential games, optimal control, and energy-based models, demonstrating how existing approaches can be unified under our proposed Energy-based Potential Game formulation. Building upon this, we introduce a new end-to-end learning application that combines neural networks for game-parameter inference with a differentiable game-theoretic optimization layer, acting as an inductive bias. The analysis provides empirical evidence that the game-theoretic layer adds interpretability and improves the predictive performance of various neural network backbones using two simulations and two real-world driving datasets.
翻訳日:2023-12-05 15:28:17 公開日:2023-12-04
# 検出時刻のスピン依存性と到着時刻の非測定可能性」について

Comment on "the Spin Dependence of Detection Times and the Nonmeasurability of Arrival Times" ( http://arxiv.org/abs/2312.01802v1 )

ライセンス: Link先を確認
Siddhant Das and Serj Aristarhov(参考訳) S. Goldstein, R. Tumulka, N. Zangh\`i [arXiv:2309.11835] による[S。 das と d. d\"urr, sci。 第9巻2242号(2019年)。

We respond to the recent article by S. Goldstein, R. Tumulka, and N. Zangh\`i [arXiv:2309.11835] concerning the spin-dependent arrival-time distributions reported in [S. Das and D. D\"urr, Sci. Rep. 9: 2242 (2019)].
翻訳日:2023-12-05 15:28:00 公開日:2023-12-04
# sprout: 大規模言語モデル生成プロセスのインタラクティブな可視化によるオーサリングプログラミングチュートリアル

SPROUT: Authoring Programming Tutorials with Interactive Visualization of Large Language Model Generation Process ( http://arxiv.org/abs/2312.01801v1 )

ライセンス: Link先を確認
Yihan Liu, Zhen Wen, Luoxuan Weng, Ollie Woodman, Yi Yang, and Wei Chen(参考訳) ChatGPTのような大規模言語モデル(LLM)の急速な開発は、プログラミングチュートリアルの作成効率に革命をもたらした。 LLMはテキストプロンプトを使って、コードスニペットの包括的なテキスト記述を生成することができる。 しかし、エンドツーエンド生成プロセスにおける透明性の欠如は、モデル動作の理解と、生成された結果に対するユーザ制御の制限を妨げている。 この課題に取り組むために,プログラミングチュートリアル作成タスクを実行可能なステップに分解する,新たなアプローチを導入する。 ツリー・オブ・シント法を用いることで、LLMは多様な忠実なプログラミングチュートリアルを生成する探索的なプロセスに従事する。 次に,SPROUTを提案する。SPROUTは,プログラミングチュートリアル作成プロセスのより深い制御と理解を可能にする,インタラクティブな可視化機能を備えたオーサリングツールである。 正式なユーザスタディでは,SPROUTの有効性を実証し,プログラムチュートリアル作成プロセスに積極的に参加する上で,より信頼性が高くカスタマイズ可能な結果が得られることを示した。 ユーザによるコントロールと理解を深めることで,sproutはユーザエクスペリエンスの向上と,プログラミングチュートリアルの全体的な品質向上を実現している。 この論文の無料コピーと追加資料はhttps://osf.io/uez2t/? view_only=5102e958802341daa414707646428f86。

The rapid development of large language models (LLMs), such as ChatGPT, has revolutionized the efficiency of creating programming tutorials. LLMs can be instructed with text prompts to generate comprehensive text descriptions of code snippets. However, the lack of transparency in the end-to-end generation process has hindered the understanding of model behavior and limited user control over the generated results. To tackle this challenge, we introduce a novel approach that breaks down the programming tutorial creation task into actionable steps. By employing the tree-of-thought method, LLMs engage in an exploratory process to generate diverse and faithful programming tutorials. We then present SPROUT, an authoring tool equipped with a series of interactive visualizations that empower users to have greater control and understanding of the programming tutorial creation process. A formal user study demonstrated the effectiveness of SPROUT, showing that our tool assists users to actively participate in the programming tutorial creation process, leading to more reliable and customizable results. By providing users with greater control and understanding, SPROUT enhances the user experience and improves the overall quality of programming tutorial. A free copy of this paper and all supplemental materials are available at https://osf.io/uez2t/?view_only=5102e958802341daa414707646428f86.
翻訳日:2023-12-05 15:27:50 公開日:2023-12-04
# 協調型ニューラルペイント

Collaborative Neural Painting ( http://arxiv.org/abs/2312.01800v1 )

ライセンス: Link先を確認
Nicola Dall'Asen, Willi Menapace, Elia Peruzzo, Enver Sangineto, Yiming Wang, Elisa Ricci(参考訳) 絵画の過程は創造性と合理的な計画を促進する。 しかし、既存の生成AIは主に、絵画プロセスを強調することなく、視覚的に快適なアートワークを作ることに焦点を当てている。 我々は,人間と機械の協調的な絵画作成を容易にする新しいタスク,CNP(Collaborative Neural Painting)を導入する。 ユーザ入力のブラシストロークをコンテキストとして、あるいは単に望ましいオブジェクトクラスとして考えると、CNPはコヒーレントな絵の完成をサポートする一連のストロークを生成するべきである。 重要なことに、プロセスは徐々に反復的になり、ユーザーの修正を完了まで任意の段階で行えるようになる。 さらに,パラメトリドストロークのシーケンスに基づく絵画表現を用いてこの課題を解決し,編集作業と構成作業の両方を容易に行えるようにする。 これらのパラメトリドストロークは、入力ストロークと完了ストロークの関係をモデル化する新しい注意機構を備えたトランスベースアーキテクチャによって処理される。 また, cnpの対話的性質を反映した新しいマスキング手法を提案し, 生成分野における効果と多様性に関する基礎学習プロセスとして拡散モデルを採用する。 最後に,新しい課題の手法を開発し,検証するために,CNPを定量的かつ定性的に評価するための新しい塗装対象のデータセットと評価プロトコルを導入する。 我々は,今後の研究の道筋として,我々のアプローチの有効性とCNPタスクの可能性を示す。

The process of painting fosters creativity and rational planning. However, existing generative AI mostly focuses on producing visually pleasant artworks, without emphasizing the painting process. We introduce a novel task, Collaborative Neural Painting (CNP), to facilitate collaborative art painting generation between humans and machines. Given any number of user-input brushstrokes as the context or just the desired object class, CNP should produce a sequence of strokes supporting the completion of a coherent painting. Importantly, the process can be gradual and iterative, so allowing users' modifications at any phase until the completion. Moreover, we propose to solve this task using a painting representation based on a sequence of parametrized strokes, which makes it easy both editing and composition operations. These parametrized strokes are processed by a Transformer-based architecture with a novel attention mechanism to model the relationship between the input strokes and the strokes to complete. We also propose a new masking scheme to reflect the interactive nature of CNP and adopt diffusion models as the basic learning process for its effectiveness and diversity in the generative field. Finally, to develop and validate methods on the novel task, we introduce a new dataset of painted objects and an evaluation protocol to benchmark CNP both quantitatively and qualitatively. We demonstrate the effectiveness of our approach and the potential of the CNP task as a promising avenue for future research.
翻訳日:2023-12-05 15:27:26 公開日:2023-12-04
# LLM A*:ロボットのためのA*検索を可能にするループ大言語モデルの人間

LLM A*: Human in the Loop Large Language Models Enabled A* Search for Robotics ( http://arxiv.org/abs/2312.01797v1 )

ライセンス: Link先を確認
Hengjia Xiao and Peng Wang(参考訳) 本研究では,大規模言語モデル(LLM)がロボットなどの移動体エージェントの経路計画にどのように役立つかに焦点を当てる。 LLM A* という新しいフレームワークは LLM のコモンセンスを活用することを目的としており、ユーティリティ最適化 A* は少数ショットに近い経路計画を容易にするために提案されている。 プロンプトは使用される 1)環境、コスト、ヒューリスティックス等の重要な情報を備えたLCMを提供する。 ; 2) 中間計画結果に基づいて人間のフィードバックをLLMに伝達する。 これにより、経路計画プロセス全体が‘ホワイトボックス’となり、人間フィードバックガイドllm a*は、強化学習ベースの(rl)パスプランニングのような他のデータ駆動手法と比較して素早く収束する。 さらに、コードフリーの経路計画を実践し、人工知能技術の包括性を促進する。 A* と RL との比較分析により,LLM A* は探索空間においてより効率的であり,A* のオン・ア・パーパスを実現し,RL よりも優れた経路が得られることが示された。 LLM A*のインタラクティブな性質は、協調的な人間ロボットタスクにデプロイするための有望なツールでもある。

This research focuses on how Large Language Models (LLMs) can help with path planning for mobile embodied agents such as robots, in a human-in-the-loop and interactive manner. A novel framework named LLM A*, aims to leverage the commonsense of LLMs, and the utility-optimal A* is proposed to facilitate few-shot near-optimal path planning. Prompts are used to 1) provide LLMs with essential information like environment, cost, heuristics, etc.; 2) communicate human feedback to LLMs on intermediate planning results. This makes the whole path planning process a `white box' and human feedback guides LLM A* to converge quickly compared to other data-driven methods such as reinforcement learning-based (RL) path planning. In addition, it makes code-free path planning practical, henceforth promoting the inclusiveness of artificial intelligence techniques. Comparative analysis against A* and RL shows that LLM A* is more efficient in terms of search space and achieves an on-a-par path with A* and a better path than RL. The interactive nature of LLM A* also makes it a promising tool for deployment in collaborative human-robot tasks.
翻訳日:2023-12-05 15:27:03 公開日:2023-12-04
# 高次元線形回帰におけるCoCoAを用いた分散連続学習

Distributed Continual Learning with CoCoA in High-dimensional Linear Regression ( http://arxiv.org/abs/2312.01795v1 )

ライセンス: Link先を確認
Martin Hellkvist, Ay\c{c}a \"Oz\c{c}elikkale, Anders Ahl\'en(参考訳) 興味の信号が時間とともに特性の変化を示すシナリオで推定する。 特に、異なる分布を持つデータなど、異なるタスクが順次到着する連続学習問題を考察し、前述したタスクのパフォーマンス低下を伴わずに、新たに到着したタスクをうまく実行することを目的としている。 集中型設定に着目した連続的な学習文献とは対照的に,分散推定の観点から問題を考察する。 本稿では,モデルパラメータと対応する特徴をネットワーク上で分散する,確立された分散学習アルゴリズムcocoaについて考察する。 我々は,COCOAの線形回帰の連続学習における一般化誤差について,パラメータ化が特に関心のあるシナリオにおいて,正確な解析的特徴を与える。 これらの分析結果は, 一般化誤差がネットワーク構造, タスク類似度, タスク数にどのように依存するかを特徴づけ, それらの依存関係がどのように絡み合っているかを示す。 特に,ネットワークサイズを調整することで,タスクの類似度やタスク数に依存するネットワークサイズを調整することで,一般化誤差を大幅に低減できることを示す。 本稿では,理論解析を検証し,数値分類タスクによるcocoaの連続学習性能を示す。

We consider estimation under scenarios where the signals of interest exhibit change of characteristics over time. In particular, we consider the continual learning problem where different tasks, e.g., data with different distributions, arrive sequentially and the aim is to perform well on the newly arrived task without performance degradation on the previously seen tasks. In contrast to the continual learning literature focusing on the centralized setting, we investigate the problem from a distributed estimation perspective. We consider the well-established distributed learning algorithm COCOA, which distributes the model parameters and the corresponding features over the network. We provide exact analytical characterization for the generalization error of COCOA under continual learning for linear regression in a range of scenarios, where overparameterization is of particular interest. These analytical results characterize how the generalization error depends on the network structure, the task similarity and the number of tasks, and show how these dependencies are intertwined. In particular, our results show that the generalization error can be significantly reduced by adjusting the network size, where the most favorable network size depends on task similarity and the number of tasks. We present numerical results verifying the theoretical analysis and illustrate the continual learning performance of COCOA with a digit classification task.
翻訳日:2023-12-05 15:26:37 公開日:2023-12-04
# wild-tab:表回帰におけるアウトオブディストリビューション一般化のためのベンチマーク

Wild-Tab: A Benchmark For Out-Of-Distribution Generalization In Tabular Regression ( http://arxiv.org/abs/2312.01792v1 )

ライセンス: Link先を確認
Sergey Kolesnikov(参考訳) Out-of-Distribution(OOD)の一般化は、トレーニングセットのディストリビューションからデータを分岐する処理が可能な堅牢な機械学習モデルを構築するための基盤であり、ディープラーニングにおいて進行中の課題である。 コンピュータビジョンや自然言語処理では大きな進歩が見られたが、多くの産業応用においてユビキタスな表データでの探索はいまだに始まったばかりである。 このギャップを埋めるために,表回帰タスクにおけるOOD一般化に適した大規模ベンチマークWild-Tabを提案する。 このベンチマークでは、天気予報や消費電力推定といった分野から得られた3つの産業データセットが組み込まれている。 ワイルドタブ上でのOOD一般化手法を10種類評価し,詳細な知見を得た。 これらの手法の多くは、未確認データのハイパフォーマンスレベルを維持するのに苦労することが多く、OOD性能は、分配性能と比較して顕著な低下を示している。 同時に、経験的リスク最小化(ERM: Empirical Risk Minimization)は、その単純さにもかかわらず、すべての評価において堅牢なパフォーマンスを提供し、最先端の手法の結果に匹敵する。 今後、Wild-Tabのリリースによって、OODの一般化に関するさらなる研究と、分散シフトを扱うさまざまな現実のコンテキストにおける機械学習モデルのデプロイの支援が、重要な要件になることを期待しています。

Out-of-Distribution (OOD) generalization, a cornerstone for building robust machine learning models capable of handling data diverging from the training set's distribution, is an ongoing challenge in deep learning. While significant progress has been observed in computer vision and natural language processing, its exploration in tabular data, ubiquitous in many industrial applications, remains nascent. To bridge this gap, we present Wild-Tab, a large-scale benchmark tailored for OOD generalization in tabular regression tasks. The benchmark incorporates 3 industrial datasets sourced from fields like weather prediction and power consumption estimation, providing a challenging testbed for evaluating OOD performance under real-world conditions. Our extensive experiments, evaluating 10 distinct OOD generalization methods on Wild-Tab, reveal nuanced insights. We observe that many of these methods often struggle to maintain high-performance levels on unseen data, with OOD performance showing a marked drop compared to in-distribution performance. At the same time, Empirical Risk Minimization (ERM), despite its simplicity, delivers robust performance across all evaluations, rivaling the results of state-of-the-art methods. Looking forward, we hope that the release of Wild-Tab will facilitate further research on OOD generalization and aid in the deployment of machine learning models in various real-world contexts where handling distribution shifts is a crucial requirement.
翻訳日:2023-12-05 15:26:18 公開日:2023-12-04
# 画像操作検出と局所化のためのマルチモーダル融合の探索

Exploring Multi-Modal Fusion for Image Manipulation Detection and Localization ( http://arxiv.org/abs/2312.01790v1 )

ライセンス: Link先を確認
Konstantinos Triaridis, Vasileios Mezaris(参考訳) 最近の画像操作のローカライゼーションと検出技術は、通常、SRMやBayar畳み込みのようなノイズ感受性フィルタによって生成される法医学的アーティファクトとトレースを利用する。 本稿では,このような手法で一般的に使用される異なるフィルタが,異なる種類の操作の提示に優れ,補完的な法医学的トレースを提供することを示す。 そこで我々は,そのようなフィルタの出力をマージし,画像操作のローカライゼーションと検出を行うために生成されたアーティファクトの相補的な性質を活用することを目的としている。 我々は,各法医学的フィルタから独立した特徴を生成し,それらを融合させる方法と,異なるモーダル出力を早期に混合し,早期に結合した特徴(早期融合と呼ばれる)を生成する方法の2つの方法を提案する。 両手法が画像操作のローカライゼーションと検出の両面での競合性能を実現し,複数のデータセットにおける最先端モデルよりも優れていることを示す。

Recent image manipulation localization and detection techniques usually leverage forensic artifacts and traces that are produced by a noise-sensitive filter, such as SRM and Bayar convolution. In this paper, we showcase that different filters commonly used in such approaches excel at unveiling different types of manipulations and provide complementary forensic traces. Thus, we explore ways of merging the outputs of such filters and aim to leverage the complementary nature of the artifacts produced to perform image manipulation localization and detection (IMLD). We propose two distinct methods: one that produces independent features from each forensic filter and then fuses them (this is referred to as late fusion) and one that performs early mixing of different modal outputs and produces early combined features (this is referred to as early fusion). We demonstrate that both approaches achieve competitive performance for both image manipulation localization and detection, outperforming state-of-the-art models across several datasets.
翻訳日:2023-12-05 15:25:53 公開日:2023-12-04
# 物理世界における可視赤外クロスモーダル検出器攻撃のための2段階最適化対向パッチ

Two-stage optimized unified adversarial patch for attacking visible-infrared cross-modal detectors in the physical world ( http://arxiv.org/abs/2312.01789v1 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) 現在、多くの研究は、可視および赤外線検出器に関するセキュリティ上の懸念を独立して取り上げている。 現実的なシナリオでは、タスクにクロスモーダル検出器を利用することは、単一モーダル検出器に依存するよりも信頼性が高い。 それにもかかわらず、クロスモーダル検出器に対する包括的なセキュリティ評価は欠如している。 既存の研究はクロスモーダル検出器への攻撃の可能性を模索しているが、ロバストな攻撃の実装は未解決のままである。 本研究は、現実のブラックボックス設定において、可視赤外線クロスモーダル検出器に対する攻撃を実行するために設計された2段階最適化一元対向パッチ(TOUAP)を導入する。 まず、PSOが不規則な多角形赤外線パッチを最適化して赤外線検出器を攻撃し、次に、カラーQRコードが最適化され、第1ステージからの赤外線パッチの形状情報がマスクとして使用される。 結果として生じる不規則なポリゴン可視モードパッチは、可視検出器への攻撃を実行する。 ディジタル環境と物理環境の両方で広範な実験を行い,提案手法の有効性と頑健性を検証する。 TOUAPがベースラインパフォーマンスを上回っているため、我々はその広く注目されていることを主張する。

Currently, many studies have addressed security concerns related to visible and infrared detectors independently. In practical scenarios, utilizing cross-modal detectors for tasks proves more reliable than relying on single-modal detectors. Despite this, there is a lack of comprehensive security evaluations for cross-modal detectors. While existing research has explored the feasibility of attacks against cross-modal detectors, the implementation of a robust attack remains unaddressed. This work introduces the Two-stage Optimized Unified Adversarial Patch (TOUAP) designed for performing attacks against visible-infrared cross-modal detectors in real-world, black-box settings. The TOUAP employs a two-stage optimization process: firstly, PSO optimizes an irregular polygonal infrared patch to attack the infrared detector; secondly, the color QR code is optimized, and the shape information of the infrared patch from the first stage is used as a mask. The resulting irregular polygon visible modal patch executes an attack on the visible detector. Through extensive experiments conducted in both digital and physical environments, we validate the effectiveness and robustness of the proposed method. As the TOUAP surpasses baseline performance, we advocate for its widespread attention.
翻訳日:2023-12-05 15:25:33 公開日:2023-12-04
# 攻撃的言語検出における因果的ヒトバイアス軽減のための言語パターンの開発

Developing Linguistic Patterns to Mitigate Inherent Human Bias in Offensive Language Detection ( http://arxiv.org/abs/2312.01787v1 )

ライセンス: Link先を確認
Toygar Tanyel, Besher Alkurdi, Serkan Ayvaz(参考訳) ソーシャルメディアの普及に伴い、特に脆弱なグループをターゲットにした攻撃的なコンテンツが急増し、憎しみ、人種差別、性差別などの社会問題を悪化させている。 攻撃的言語の使用の検出は、攻撃的言語がソーシャルメディアで広く共有されるのを防ぐために不可欠である。 しかし、ソーシャルメディア上での皮肉、含意、様々なヘイトスピーチの正確な検出は依然として課題である。 自然言語に基づくディープラーニングモデルは、大規模で包括的でラベル付きデータセットによる広範なトレーニングを必要とする。 残念ながら、手動でこのようなデータセットを作成するのはコストとエラーが発生しやすい。 さらに、攻撃的言語データセットにおける人間バイアスの存在は、ディープラーニングモデルにとって大きな関心事である。 本稿では,機械の力を利用してラベル付けプロセスの精度と公平性を向上させることにより,人間のバイアスの影響を軽減することを目的とした,ラベル付けプロセスにおけるバイアス低減のための言語データ拡張手法を提案する。 このアプローチは、複数の言語にまたがる攻撃的言語分類タスクを改善し、ソーシャルメディアにおける攻撃的コンテンツの普及を減少させる可能性がある。

With the proliferation of social media, there has been a sharp increase in offensive content, particularly targeting vulnerable groups, exacerbating social problems such as hatred, racism, and sexism. Detecting offensive language use is crucial to prevent offensive language from being widely shared on social media. However, the accurate detection of irony, implication, and various forms of hate speech on social media remains a challenge. Natural language-based deep learning models require extensive training with large, comprehensive, and labeled datasets. Unfortunately, manually creating such datasets is both costly and error-prone. Additionally, the presence of human-bias in offensive language datasets is a major concern for deep learning models. In this paper, we propose a linguistic data augmentation approach to reduce bias in labeling processes, which aims to mitigate the influence of human bias by leveraging the power of machines to improve the accuracy and fairness of labeling processes. This approach has the potential to improve offensive language classification tasks across multiple languages and reduce the prevalence of offensive content on social media.
翻訳日:2023-12-05 15:25:15 公開日:2023-12-04
# IMProv:コンピュータビジョンタスクのためのペイントベースのマルチモーダルプロンプト

IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks ( http://arxiv.org/abs/2312.01771v1 )

ライセンス: Link先を確認
Jiarui Xu, Yossi Gandelsman, Amir Bar, Jianwei Yang, Jianfeng Gao, Trevor Darrell, Xiaolong Wang(参考訳) インコンテキスト学習は、テスト時にタスク記述が与えられた新しいタスクにモデルを適用することを可能にする。 本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習可能な生成モデルIMProvを提案する。 視覚的タスクのテキスト記述("left: input image, right: foreground segmentation"など)や、いくつかの入出力ビジュアル例、あるいはその両方を与えられたモデルインコンテキストは、新しいテスト入力のためにそれを解くために学習する。 我々は,コンピュータビジョン論文とその関連キャプションから得られた画像の新たなデータセットと,キャプション付き大規模画像テキストデータセットにマスク付き生成変換器を訓練する。 推論時間中に、テキストおよび/または画像タスク例(s)でモデルをプロンプトし、対応する出力をモデルに入力させる。 テキストコンディショニングによるモデルのトレーニングとデータセットサイズの拡大により,前景セグメンテーションでは+10\% ap,単一オブジェクト検出では+5\%,カラー化では約20\%のlpipでコンピュータビジョンタスクの文脈内学習が向上することが示された。 実験結果から,視覚と言語プロンプトは相補的であり,文脈内学習性能の向上に有効であることが示唆された。 プロジェクトページはhttps://jerryxu.net/IMProv で公開されている。

In-context learning allows adapting a model to new tasks given a task description at test time. In this paper, we present IMProv - a generative model that is able to in-context learn visual tasks from multimodal prompts. Given a textual description of a visual task (e.g. "Left: input image, Right: foreground segmentation"), a few input-output visual examples, or both, the model in-context learns to solve it for a new test input. We train a masked generative transformer on a new dataset of figures from computer vision papers and their associated captions, together with a captioned large-scale image-text dataset. During inference time, we prompt the model with text and/or image task example(s) and have the model inpaint the corresponding output. We show that training our model with text conditioning and scaling the dataset size improves in-context learning for computer vision tasks by over +10\% AP for Foreground Segmentation, over +5\% gains in AP for Single Object Detection, and almost 20\% lower LPIPS in Colorization. Our empirical results suggest that vision and language prompts are complementary and it is advantageous to use both to achieve better in-context learning performance. Project page is available at https://jerryxu.net/IMProv .
翻訳日:2023-12-05 15:24:59 公開日:2023-12-04
# 軽度認知障害におけるサブコミュニティ検出を用いたデフォルトモードネットワークにおけるノードの局在と評価

Localizing and Assessing Node Significance in Default Mode Network using Sub-Community Detection in Mild Cognitive Impairment ( http://arxiv.org/abs/2312.01768v1 )

ライセンス: Link先を確認
Ameiy Acharya, Chakka Sai Pradeep and Neelam Sinha(参考訳) 本研究は,軽度認知障害者(mci)におけるデフォルトモードネットワーク(dmn)の影響を受ける脳領域を,新しいノード有意スコア(nss)を用いてfmriを用いて同定することを目的としている。 我々は、DMNを構成する関心領域(ROI)の部分相関を用いて、対象固有のDMNグラフを構築する。 DMNグラフの場合、ROIはノードであり、エッジは部分相関に基づいて決定される。 CPM(Clique Percolation Method)、Louvainアルゴリズム、Greedy Modularity、Leading Eigenvectorsの4つの人気コミュニティ検出アルゴリズムを適用し、最大のサブコミュニティを決定する。 NSS評価は各ノードに対して導出され、(I)クラス内の最大サブコミュニティの周波数と(II)最大サブコミュニティにおける最大サブコミュニティの発生を4つの方法すべてに基づいて考慮する。 健常者および健常者の両方で各ROIのNPSを計算した後、スコア格差を定量化し、MCIが最も影響したノードを特定する。 その結果、10 DMNノードでは20%以上、最大で PCC と Fusiform では45.69% と 43.08% の差が見られた。 これは既存の医学文献と一致し、影響を受けたROIの順序付けを可能にする定量的指標を提供する。 これらの発見は貴重な洞察を与え、影響を受けるノードを積極的にターゲットする治療戦略につながる可能性がある。

Our study aims to utilize fMRI to identify the affected brain regions within the Default Mode Network (DMN) in subjects with Mild Cognitive Impairment (MCI), using a novel Node Significance Score (NSS). We construct subject-specific DMN graphs by employing partial correlation of Regions of Interest (ROIs) that make-up the DMN. For the DMN graph, ROIs are the nodes and edges are determined based on partial correlation. Four popular community detection algorithms (Clique Percolation Method (CPM), Louvain algorithm, Greedy Modularity and Leading Eigenvectors) are applied to determine the largest sub-community. NSS ratings are derived for each node, considering (I) frequency in the largest sub-community within a class across all subjects and (II) occurrence in the largest sub-community according to all four methods. After computing the NSS of each ROI in both healthy and MCI subjects, we quantify the score disparity to identify nodes most impacted by MCI. The results reveal a disparity exceeding 20% for 10 DMN nodes, maximally for PCC and Fusiform, showing 45.69% and 43.08% disparity. This aligns with existing medical literature, additionally providing a quantitative measure that enables the ordering of the affected ROIs. These findings offer valuable insights and could lead to treatment strategies aggressively targeting the affected nodes.
翻訳日:2023-12-05 15:24:30 公開日:2023-12-04
# 弱監視ビデオ異常検出のためのマルチスケール時間特徴に基づく動的消去ネットワーク

Dynamic Erasing Network Based on Multi-Scale Temporal Features for Weakly Supervised Video Anomaly Detection ( http://arxiv.org/abs/2312.01764v1 )

ライセンス: Link先を確認
Chen Zhang, Guorong Li, Yuankai Qi, Hanhua Ye, Laiyun Qing, Ming-Hsuan Yang, Qingming Huang(参考訳) 弱教師付きビデオ異常検出の目標は,ビデオレベルのラベル付きデータのみを用いて検出モデルを学習することである。 しかしながら、従来の研究では、ビデオは異常の複雑さや期間を考慮せずに、固定長のセグメントに分割される。 さらに、これらの研究は通常最も異常な部分を検出し、異常の完全性を見落としている。 これらの制約に対処するために,マルチスケールの時間的特徴を学習する弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。 特に,異常事象の持続時間変化に対処するために,まず,異なる長さのセグメントから特徴を抽出し,異なる時間スケールにわたる局所的および大域的な視覚情報を取得するマルチスケールの時空間モデリングモジュールを提案する。 そこで我々は,検出された異常の完全性を動的に評価し,顕著な異常セグメントを消去する動的消去戦略を設計し,ビデオ中の緩やかな異常セグメントの発見を促す。 提案手法は,XD-Violence,TAD,UCF-Crimeの3つのデータセットに対する最先端手法と比較して,良好な性能が得られる。 コードはhttps://github.com/ArielZc/DE-Netで公開される。

The goal of weakly supervised video anomaly detection is to learn a detection model using only video-level labeled data. However, prior studies typically divide videos into fixed-length segments without considering the complexity or duration of anomalies. Moreover, these studies usually just detect the most abnormal segments, potentially overlooking the completeness of anomalies. To address these limitations, we propose a Dynamic Erasing Network (DE-Net) for weakly supervised video anomaly detection, which learns multi-scale temporal features. Specifically, to handle duration variations of abnormal events, we first propose a multi-scale temporal modeling module, capable of extracting features from segments of varying lengths and capturing both local and global visual information across different temporal scales. Then, we design a dynamic erasing strategy, which dynamically assesses the completeness of the detected anomalies and erases prominent abnormal segments in order to encourage the model to discover gentle abnormal segments in a video. The proposed method obtains favorable performance compared to several state-of-the-art approaches on three datasets: XD-Violence, TAD, and UCF-Crime. Code will be made available at https://github.com/ArielZc/DE-Net.
翻訳日:2023-12-05 15:24:02 公開日:2023-12-04
# 単純関数の和を用いたベイズ非線形回帰

Bayesian Nonlinear Regression using Sums of Simple Functions ( http://arxiv.org/abs/2312.01881v1 )

ライセンス: Link先を確認
Florian Huber(参考訳) 本稿では,マクロ経済で発生する大規模データセットに適用可能なベイズ型機械学習モデルを提案する。 我々のフレームワークは多くの単純な2成分の位置混合を和らげている。 コンポーネント間の遷移は、単一のしきい値変数と2つのハイパーパラメータに依存するロジスティック関数によって決定される。 これらの個々のモデルはそれぞれ、内因性変数の変動のごく一部しか説明できない。 しかし、それらの多くは任意の非線形条件平均関係を捉えることができる。 共役事前化は高速かつ効率的な推論を可能にする。 シミュレーションでは,提案手法が正確な点と密度予測を生成することを示す。 実データ実験では,マクロ経済集約を予測し,大規模非線形変数における金融ショックの非線形効果を考察する。

This paper proposes a new Bayesian machine learning model that can be applied to large datasets arising in macroeconomics. Our framework sums over many simple two-component location mixtures. The transition between components is determined by a logistic function that depends on a single threshold variable and two hyperparameters. Each of these individual models only accounts for a minor portion of the variation in the endogenous variables. But many of them are capable of capturing arbitrary nonlinear conditional mean relations. Conjugate priors enable fast and efficient inference. In simulations, we show that our approach produces accurate point and density forecasts. In a real-data exercise, we forecast US macroeconomic aggregates and consider the nonlinear effects of financial shocks in a large-scale nonlinear VAR.
翻訳日:2023-12-05 15:17:06 公開日:2023-12-04
# HGPROMPT:Few-shot Prompt Learningのための均質グラフと不均質グラフ

HGPROMPT: Bridging Homogeneous and Heterogeneous Graphs for Few-shot Prompt Learning ( http://arxiv.org/abs/2312.01878v1 )

ライセンス: Link先を確認
Xingtong Yu, Zemin Liu, Yuan Fang, Xinming Zhang(参考訳) グラフニューラルネットワーク(GNN)とヘテロジニアスグラフニューラルネットワーク(HGNN)は、同質で異質なグラフ表現学習において顕著なテクニックであるが、エンドツーエンドの監視フレームワークにおけるパフォーマンスは、タスク固有の監視の可用性に大きく依存している。 ラベル付けコストを削減するため、自己教師付きプレテキストタスクの事前学習は一般的なパラダイムとなっているが、事前訓練されたモデルと下流タスクの間には、目的の相違から生じるギャップがしばしばある。 ギャップを埋めるために、特に数ショット設定では、事前訓練されたモデルを完全に微調整することなく、迅速な学習が有望な方向として上昇している。 グラフ上でのプロンプトベースの学習に関する初期の研究はあったが、主に同質グラフを扱っており、下流のアプリケーションでよく見られる不均一グラフを無視している。 本稿では,HGPROMPTを提案する。HGPROMPTは,事前学習タスクと下流タスクだけでなく,二重テンプレート設計による均質かつ異質なグラフを統一する新しい学習促進フレームワークである。 さらに,hgpromptのデュアルプロンプトを提案することで,特徴のばらつきだけでなく,タスク間の異種性の違いによって引き起こされるギャップを橋渡しする前に,下流タスクが最も重要視されるよう支援する。 最後に,HGPROMPTを3つの公開データセットの広範な実験により徹底的に評価・解析する。

Graph neural networks (GNNs) and heterogeneous graph neural networks (HGNNs) are prominent techniques for homogeneous and heterogeneous graph representation learning, yet their performance in an end-to-end supervised framework greatly depends on the availability of task-specific supervision. To reduce the labeling cost, pre-training on self-supervised pretext tasks has become a popular paradigm,but there is often a gap between the pre-trained model and downstream tasks, stemming from the divergence in their objectives. To bridge the gap, prompt learning has risen as a promising direction especially in few-shot settings, without the need to fully fine-tune the pre-trained model. While there has been some early exploration of prompt-based learning on graphs, they primarily deal with homogeneous graphs, ignoring the heterogeneous graphs that are prevalent in downstream applications. In this paper, we propose HGPROMPT, a novel pre-training and prompting framework to unify not only pre-training and downstream tasks but also homogeneous and heterogeneous graphs via a dual-template design. Moreover, we propose dual-prompt in HGPROMPT to assist a downstream task in locating the most relevant prior to bridge the gaps caused by not only feature variations but also heterogeneity differences across tasks. Finally, we thoroughly evaluate and analyze HGPROMPT through extensive experiments on three public datasets.
翻訳日:2023-12-05 15:16:56 公開日:2023-12-04
# FeaInfNet: 特徴駆動推論と視覚説明を用いた医用画像の診断

FeaInfNet: Diagnosis in Medical Image with Feature-Driven Inference and Visual Explanations ( http://arxiv.org/abs/2312.01871v1 )

ライセンス: Link先を確認
Yitao Peng, Lianghua He, Die Hu, Yihang Liu, Longzhen Yang, Shaohua Shang(参考訳) 解釈可能なディープラーニングモデルは、画像認識の分野で広く注目を集めている。 医用画像の特異なマルチインスタンス学習と意思決定領域の同定の困難さから,これまで提案されてきた多くの解釈可能性モデルは,医用画像診断における精度と解釈性に問題がある。 これらの問題を解決するために,FeaInfNet(FeaInfNet)を提案する。 最初の重要なイノベーションは、feainfnetに適用される機能ベースのネットワーク推論構造の提案です。 この構造のネットワークは、各サブリージョンイメージパッチと、その領域に現れる可能性のある病気テンプレートと通常のテンプレートの類似性を比較し、最終的に各サブリージョンの比較を組み合わせて最終診断を行う。 医者の診断過程をシミュレートし、推論における正常な領域の関与による誤解を回避しつつ、推論過程においてモデルを解釈可能にする。 次に,これらのベクトルに対してグローバルな情報を提供するために特徴ベクトルを抽出するローカル特徴マスク(LFM)を提案し,FeaInfNetの表現能力を向上する。 最後に,適応型動的マスク(Adaptive-DM)を提案し,特徴ベクトルとプロトタイプを人間の理解可能な画像パッチに解釈し,正確な視覚的解釈を行う。 RSNA, iChallenge-PM, Covid-19, ChinaCXRSet, MontgomerySetなど複数の公開医療データセットの質的および定量的実験を行った。 以上の結果から,医用画像診断におけるベースライン法と比較して,分類精度と解釈性の観点から最先端の性能が得られた。 追加のアブレーション研究により,提案する各成分の有効性が検証された。

Interpretable deep learning models have received widespread attention in the field of image recognition. Due to the unique multi-instance learning of medical images and the difficulty in identifying decision-making regions, many interpretability models that have been proposed still have problems of insufficient accuracy and interpretability in medical image disease diagnosis. To solve these problems, we propose feature-driven inference network (FeaInfNet). Our first key innovation involves proposing a feature-based network reasoning structure, which is applied to FeaInfNet. The network of this structure compares the similarity of each sub-region image patch with the disease templates and normal templates that may appear in the region, and finally combines the comparison of each sub-region to make the final diagnosis. It simulates the diagnosis process of doctors to make the model interpretable in the reasoning process, while avoiding the misleading caused by the participation of normal areas in reasoning. Secondly, we propose local feature masks (LFM) to extract feature vectors in order to provide global information for these vectors, thus enhancing the expressive ability of the FeaInfNet. Finally, we propose adaptive dynamic masks (Adaptive-DM) to interpret feature vectors and prototypes into human-understandable image patches to provide accurate visual interpretation. We conducted qualitative and quantitative experiments on multiple publicly available medical datasets, including RSNA, iChallenge-PM, Covid-19, ChinaCXRSet, and MontgomerySet. The results of our experiments validate that our method achieves state-of-the-art performance in terms of classification accuracy and interpretability compared to baseline methods in medical image diagnosis. Additional ablation studies verify the effectiveness of each of our proposed components.
翻訳日:2023-12-05 15:16:28 公開日:2023-12-04
# SOLAによるオブジェクトの展開: 自動車用データセットのオブジェクトレベルのアノテーションフリーイメージ検索

Unveiling Objects with SOLA: An Annotation-Free Image Search on the Object Level for Automotive Data Sets ( http://arxiv.org/abs/2312.01860v1 )

ライセンス: Link先を確認
Philipp Rigoll, Jacob Langner, Eric Sax(参考訳) 巨大な画像データセットは、自動走行システムの認識の発展のための資金源である。 多様な状況に対処できる堅牢なニューラルネットワークのトレーニングには、多数の画像が必要である。 十分に大きなデータセットは、困難な状況やオブジェクトを含む。 結果の関数をテストするには、これらの状況やオブジェクトをデータセットから見つけ、抽出する必要がある。 大量のラベルのないデータを記録することは比較的容易であるが、要求の厳しい状況やオブジェクトを見つけることははるかに困難である。 しかし、知覚システムの開発では、長い時間を要するアノテーションを使わずに、困難なデータにアクセスすることが可能でなければならない。 したがって、開発者はデータセット内の特定の状況やオブジェクトを動的に検索できなければならない。 そこで我々は、画像内の特定の特性を持つ物体を探索する最先端のニューラルネットワークに基づく手法を設計した。 使いやすさのために、この検索のクエリは自然言語を使って記述される。 省時間化と性能向上を判定するため,本手法を自動車用データセットの質的,定量的に評価した。

Huge image data sets are the fundament for the development of the perception of automated driving systems. A large number of images is necessary to train robust neural networks that can cope with diverse situations. A sufficiently large data set contains challenging situations and objects. For testing the resulting functions, it is necessary that these situations and objects can be found and extracted from the data set. While it is relatively easy to record a large amount of unlabeled data, it is far more difficult to find demanding situations and objects. However, during the development of perception systems, it must be possible to access challenging data without having to perform lengthy and time-consuming annotations. A developer must therefore be able to search dynamically for specific situations and objects in a data set. Thus, we designed a method which is based on state-of-the-art neural networks to search for objects with certain properties within an image. For the ease of use, the query of this search is described using natural language. To determine the time savings and performance gains, we evaluated our method qualitatively and quantitatively on automotive data sets.
翻訳日:2023-12-05 15:16:00 公開日:2023-12-04
# 言語モデルのFact Editingにおける依存度の評価:具体性と含意意識

Evaluating Dependencies in Fact Editing for Language Models: Specificity and Implication Awareness ( http://arxiv.org/abs/2312.01858v1 )

ライセンス: Link先を確認
Zichao Li, Ines Arous, Siva Reddy, Jackie C.K. Cheung(参考訳) 大きな言語モデル (LLM) を知識ベース (KB) として使う可能性には大きな関心が寄せられている。 LLMが獲得した知識を管理するためには、学習した事実の編集が、知識の依存性として知られる内部論理的制約を尊重することを保証する必要がある。 LLMの編集作業は、ある事実の編集が関係のないものを破壊することなく、その語彙の変化に適用されるべきである場合、依存関係の問題に部分的に対処している。 しかし、事実とその論理的意味の間の依存関係を無視する。 本稿では,上記の依存概念を考慮した編集プロセスの包括的評価を行う,質問応答型データセットであるdepeditを用いた評価プロトコルを提案する。 本プロトコルでは,Fif-Thenルールに基づいて,事実を編集し,LLMへの影響を監視する制御環境を構築する。 DepEditの大規模な実験により、既存の知識編集手法は知識の表面形態に敏感であり、編集事実の影響を推測する上で、限られた性能を有することが示された。

The potential of using a large language model (LLM) as a knowledge base (KB) has sparked significant interest. To manage the knowledge acquired by LLMs, we need to ensure that the editing of learned facts respects internal logical constraints, which are known as dependency of knowledge. Existing work on editing LLMs has partially addressed the issue of dependency, when the editing of a fact should apply to its lexical variations without disrupting irrelevant ones. However, they neglect the dependency between a fact and its logical implications. We propose an evaluation protocol with an accompanying question-answering dataset, DepEdit, that provides a comprehensive assessment of the editing process considering the above notions of dependency. Our protocol involves setting up a controlled environment in which we edit facts and monitor their impact on LLMs, along with their implications based on If-Then rules. Extensive experiments on DepEdit show that existing knowledge editing methods are sensitive to the surface form of knowledge, and that they have limited performance in inferring the implications of edited facts.
翻訳日:2023-12-05 15:15:43 公開日:2023-12-04
# 海上安全航行のためのモジュラー制御アーキテクチャ : 強化学習と予測安全フィルタ

Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters ( http://arxiv.org/abs/2312.01855v1 )

ライセンス: Link先を確認
Aksel Vaaler and Svein Jostein Husa and Daniel Menges and Thomas Nakken Larsen and Adil Rasheed(参考訳) 多くの自律システムは安全上の課題に直面しており、物理的制限と安全上の制約を扱うために堅牢な閉ループ制御を必要としている。 自律船のような現実世界のシステムは、非線形ダイナミクスと環境障害に遭遇する。 強化学習は複雑なシナリオに適応するためにますます使われるようになっているが、安全性と安定性を保証する標準フレームワークは不足している。 予測安全フィルタ(PSF)は、明示的な制約処理なしで学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。 このモジュラーアプローチは、物理および安全制約を満たすために提案されたアクションを最適化する安全フィルタにより、任意の制御ポリシーを使用することができる。 この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。 rlエージェントは経路追従と衝突回避で訓練され、psfは安全のための制御アクションを監視し修正する。 その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。

Many autonomous systems face safety challenges, requiring robust closed-loop control to handle physical limitations and safety constraints. Real-world systems, like autonomous ships, encounter nonlinear dynamics and environmental disturbances. Reinforcement learning is increasingly used to adapt to complex scenarios, but standard frameworks ensuring safety and stability are lacking. Predictive Safety Filters (PSF) offer a promising solution, ensuring constraint satisfaction in learning-based control without explicit constraint handling. This modular approach allows using arbitrary control policies, with the safety filter optimizing proposed actions to meet physical and safety constraints. We apply this approach to marine navigation, combining RL with PSF on a simulated Cybership II model. The RL agent is trained on path following and collision avpodance, while the PSF monitors and modifies control actions for safety. Results demonstrate the PSF's effectiveness in maintaining safety without hindering the RL agent's learning rate and performance, evaluated against a standard RL agent without PSF.
翻訳日:2023-12-05 15:15:25 公開日:2023-12-04
# ロボット合成 : バイオオタクティルセンシングによる手作業操作

Robot Synesthesia: In-Hand Manipulation with Visuotactile Sensing ( http://arxiv.org/abs/2312.01853v1 )

ライセンス: Link先を確認
Ying Yuan, Haichuan Che, Yuzhe Qin, Binghao Huang, Zhao-Heng Yin, Kang-Won Lee, Yi Wu, Soo-Chul Lim, Xiaolong Wang(参考訳) 接触の多い操作タスクの実行は触覚と視覚フィードバックの融合を必要とする。 しかし、これらの様相の異なる性質は、重大な課題をもたらす。 本稿では,視覚と触覚の入力を活用し,手作業のデキスタラブルな操作を可能にするシステムを提案する。 具体的には,人間の触覚と視覚の合成にインスパイアされた新しい点雲に基づく触覚表現であるRobot Synesthesiaを提案する。 このアプローチは、両方の感覚入力を同時にシームレスに統合し、より豊かな空間情報を提供し、ロボットの動作に関するより良い推論を容易にする。 シミュレーション環境で訓練され、実際のロボットにデプロイされたこの方法は、様々な手持ちのオブジェクトの回転タスクに適用できる。 視覚と触覚の統合によって強化学習とSim2Realのパフォーマンスが向上する。 プロジェクトページはhttps://yingyuan0414.github.io/visuotactile/。

Executing contact-rich manipulation tasks necessitates the fusion of tactile and visual feedback. However, the distinct nature of these modalities poses significant challenges. In this paper, we introduce a system that leverages visual and tactile sensory inputs to enable dexterous in-hand manipulation. Specifically, we propose Robot Synesthesia, a novel point cloud-based tactile representation inspired by human tactile-visual synesthesia. This approach allows for the simultaneous and seamless integration of both sensory inputs, offering richer spatial information and facilitating better reasoning about robot actions. The method, trained in a simulated environment and then deployed to a real robot, is applicable to various in-hand object rotation tasks. Comprehensive ablations are performed on how the integration of vision and touch can improve reinforcement learning and Sim2Real performance. Our project page is available at https://yingyuan0414.github.io/visuotactile/ .
翻訳日:2023-12-05 15:15:04 公開日:2023-12-04
# 適応による一般化:ドメイン一般化意味セグメンテーションのための拡散ベースドメイン拡張

Generalization by Adaptation: Diffusion-Based Domain Extension for Domain-Generalized Semantic Segmentation ( http://arxiv.org/abs/2312.01850v1 )

ライセンス: Link先を確認
Joshua Niemeijer, Manuel Schwonberg, Jan-Aike Term\"ohlen, Nico M. Schmidt, Tim Fingscheidt(参考訳) 例えば、セマンティクスセグメンテーション(セマンティックセグメンテーション)のようなモデルが、トレーニングデータと大きく異なるイメージに適用されると、パフォーマンスは大幅に低下する。 ドメイン適応メソッドはこの問題を克服しようとしますが、ターゲットドメインからのサンプルが必要です。 しかし、これは必ずしも様々な理由で実現可能であるとは限らないため、ドメイン一般化メソッドはターゲットデータを必要としないため有用である。 本稿では,拡散型ドメイン拡張法(DIDEX)を提案し,拡散モデルを用いてテキストプロンプトの異なる擬似ターゲットドメインを生成する。 既存の手法とは対照的に、生成された画像のスタイルと内容の制御と、高い多様性の導入が可能になる。 2番目のステップでは、この擬標的領域に適応して一般化モデルを訓練する。 これまでのアプローチを、実際のデータを使わずに、さまざまなデータセットやアーキテクチャで大きなマージンで上回っています。 GTA5からの一般化では、平均で3.8%、SynTHIAで11.8%の改善を行い、これらのベンチマーク上での一般化性能の大きなステップとなる。 コードはhttps://github.com/JNiemeijer/DIDEXで入手できる。

When models, e.g., for semantic segmentation, are applied to images that are vastly different from training data, the performance will drop significantly. Domain adaptation methods try to overcome this issue, but need samples from the target domain. However, this might not always be feasible for various reasons and therefore domain generalization methods are useful as they do not require any target data. We present a new diffusion-based domain extension (DIDEX) method and employ a diffusion model to generate a pseudo-target domain with diverse text prompts. In contrast to existing methods, this allows to control the style and content of the generated images and to introduce a high diversity. In a second step, we train a generalizing model by adapting towards this pseudo-target domain. We outperform previous approaches by a large margin across various datasets and architectures without using any real data. For the generalization from GTA5, we improve state-of-the-art mIoU performance by 3.8% absolute on average and for SYNTHIA by 11.8% absolute, marking a big step for the generalization performance on these benchmarks. Code is available at https://github.com/JNiemeijer/DIDEX
翻訳日:2023-12-05 15:14:50 公開日:2023-12-04
# 音声対話状態追跡のための合成音声データの有効性の検討

Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue State Tracking ( http://arxiv.org/abs/2312.01842v1 )

ライセンス: Link先を確認
Jihyun Lee, Yejin Jeon, Wonjun Lee, Yunsu Kim, Gary Geunbae Lee(参考訳) 対話状態追跡はタスク指向対話システムにおける情報抽出において重要な役割を果たす。 しかし、先行研究はテキストのモダリティに限られており、主に人間の音声データセットが不足しているためである。 音声に基づくDSTのための合成音声データを調べることでこの問題に対処する。 そこで本研究では, カスカデニングモデルとエンドツーエンドモデルを開発し, 合成音声データセットを用いて学習し, 実際の音声データを用いてテストする。 音声のモーダル性に合わせた評価を容易にするために,発音類似性を捉える新しいPhonemeF1を提案する。 実験の結果,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。 人間の音声データ収集への依存をなくすことにより、これらの知見は、音声ベースのDSTにおける重要な実践的進歩の道を開く。 データとコードはhttps://github.com/JihyunLee1/E2E-DSTで入手できる。

Dialogue state tracking plays a crucial role in extracting information in task-oriented dialogue systems. However, preceding research are limited to textual modalities, primarily due to the shortage of authentic human audio datasets. We address this by investigating synthetic audio data for audio-based DST. To this end, we develop cascading and end-to-end models, train them with our synthetic audio dataset, and test them on actual human speech data. To facilitate evaluation tailored to audio modalities, we introduce a novel PhonemeF1 to capture pronunciation similarity. Experimental results showed that models trained solely on synthetic datasets can generalize their performance to human voice data. By eliminating the dependency on human speech data collection, these insights pave the way for significant practical advancements in audio-based DST. Data and code are available at https://github.com/JihyunLee1/E2E-DST.
翻訳日:2023-12-05 15:14:31 公開日:2023-12-04
# VividTalk:3Dハイブリッドによるワンショット音声駆動型トーキングヘッド

VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior ( http://arxiv.org/abs/2312.01841v1 )

ライセンス: Link先を確認
Xusen Sun, Longhao Zhang, Hao Zhu, Peng Zhang, Bang Zhang, Xinya Ji, Kangneng Zhou, Daiheng Gao, Liefeng Bo, Xun Cao(参考訳) 近年,音声駆動型音声ヘッド生成が注目され,リップシンク,表情表現,自然な頭部ポーズ生成,高画質など多くの取り組みがなされている。 しかし、音声とモーションの1対1マッピングのため、これらの指標全てを導いたり結び付けたりしたモデルはまだない。 本稿では,高画質な音声ヘッドビデオ生成を支援する2段階の汎用フレームワークであるVividTalkを提案する。 特に第1段階では、非剛性表現運動と剛性頭部運動を含む2つの動作を学習することにより、音声をメッシュにマッピングする。 表現運動では、ブレンド形状と頂点の両方を中間表現として、モデルの表現能力を最大化する。 自然な頭部運動には,二相訓練機構を備えた新しい学習可能な頭部ポーズコードブックが提案されている。 第2段階では,メッシュを高密度な動きに変換し,高品質なビデオフレームをフレーム単位で合成する,デュアルブランチモーションベとジェネレータを提案する。 広範な実験により,提案するvividtalkは,リップシンクによる高画質な対話型ヘッドビデオを生成することができ,先行研究の客観的・主観的比較よりも優れていることが示された。

Audio-driven talking head generation has drawn much attention in recent years, and many efforts have been made in lip-sync, expressive facial expressions, natural head pose generation, and high video quality. However, no model has yet led or tied on all these metrics due to the one-to-many mapping between audio and motion. In this paper, we propose VividTalk, a two-stage generic framework that supports generating high-visual quality talking head videos with all the above properties. Specifically, in the first stage, we map the audio to mesh by learning two motions, including non-rigid expression motion and rigid head motion. For expression motion, both blendshape and vertex are adopted as the intermediate representation to maximize the representation ability of the model. For natural head motion, a novel learnable head pose codebook with a two-phase training mechanism is proposed. In the second stage, we proposed a dual branch motion-vae and a generator to transform the meshes into dense motion and synthesize high-quality video frame-by-frame. Extensive experiments show that the proposed VividTalk can generate high-visual quality talking head videos with lip-sync and realistic enhanced by a large margin, and outperforms previous state-of-the-art works in objective and subjective comparisons.
翻訳日:2023-12-05 15:14:18 公開日:2023-12-04
# 事前学習型言語モデルを用いた知識グラフ補完のためのアンタングル型埋め込みの提案

Prompting Disentangled Embeddings for Knowledge Graph Completion with Pre-trained Language Model ( http://arxiv.org/abs/2312.01837v1 )

ライセンス: Link先を確認
Yuxia Geng, Jiaoyan Chen, Yuhang Zeng, Zhuo Chen, Wen Zhang, Jeff Z. Pan, Yuxiang Wang, Xiaoliang Xu(参考訳) グラフ構造とテキスト情報の両方が知識グラフ補完(KGC)において重要な役割を果たす。 BERTのようなプレトレーニング言語モデル(PLM)の成功により、KGCのテキストエンコーディングに応用されている。 しかし、現在の手法は主に微調整 PLM を好んでおり、訓練コストが大きく、より大きな PLM に対してスケーラビリティが制限されている。 対照的に,プロンプトを活用し,プロンプトのみをトレーニングして冷凍plm上でkgcを行う方法を提案する。 そこで本研究では,PDKGC と呼ばれる新しい KGC 手法を提案する。トークン予測の PLM 事前学習タスクに KGC タスクを適応させるハードタスクプロンプトと,PLM がより関連性の高い構造知識をテキスト情報と組み合わせられるように,不整合グラフ表現を学習するアンタングル構造プロンプトである。 2つのプロンプトにより、PDKGCはテキスト予測器と構造予測器をそれぞれ構築し、それらの組み合わせはより包括的なエンティティ予測をもたらす。 広く使われている2つのKGCデータセットの確固たる評価は、PDKGCが最先端を含むベースラインよりも優れており、そのコンポーネントはすべて効果的であることを示している。 私たちのコードとデータはhttps://github.com/genggengcss/pdkgcで入手できます。

Both graph structures and textual information play a critical role in Knowledge Graph Completion (KGC). With the success of Pre-trained Language Models (PLMs) such as BERT, they have been applied for text encoding for KGC. However, the current methods mostly prefer to fine-tune PLMs, leading to huge training costs and limited scalability to larger PLMs. In contrast, we propose to utilize prompts and perform KGC on a frozen PLM with only the prompts trained. Accordingly, we propose a new KGC method named PDKGC with two prompts -- a hard task prompt which is to adapt the KGC task to the PLM pre-training task of token prediction, and a disentangled structure prompt which learns disentangled graph representation so as to enable the PLM to combine more relevant structure knowledge with the text information. With the two prompts, PDKGC builds a textual predictor and a structural predictor, respectively, and their combination leads to more comprehensive entity prediction. Solid evaluation on two widely used KGC datasets has shown that PDKGC often outperforms the baselines including the state-of-the-art, and its components are all effective. Our codes and data are available at https://github.com/genggengcss/PDKGC.
翻訳日:2023-12-05 15:13:56 公開日:2023-12-04
# 強化学習による統合ドリルブームホールシーキング制御

Integrated Drill Boom Hole-Seeking Control via Reinforcement Learning ( http://arxiv.org/abs/2312.01836v1 )

ライセンス: Link先を確認
Haoqi Yan, Haoyuan Xu, Hongbo Gao, Fei Ma, Shengbo Eben Li, Jingliang Duan(参考訳) Intelligent drill boom hole-seekingは、掘削効率を高め、潜在的な安全リスクを軽減し、人間のオペレーターを救済するための有望な技術である。 既存のインテリジェントドリルブーム制御手法のほとんどは、逆キネマティックスに基づく階層的制御フレームワークに依存している。 しかし、これらの手法は逆運動学の計算の複雑さと複数の関節の逐次実行の非効率のために一般的に時間を要する。 これらの課題に対処するために,Reinforcement Learning (RL) に基づくドリルブーム制御手法を提案する。 パラメタライズドポリシーを活用し, 関節の姿勢と目標ホール情報を活用し, 全関節に対する制御入力を時間ステップ毎に直接生成する統合ドリルブーム制御フレームワークを開発した。 ホール探索タスクをマルコフ決定プロセスとして定式化することにより、現代の主流RLアルゴリズムを直接使用してホール探索ポリシーを学習し、逆運動解の必要性を排除し、協調的な多関節制御を促進することができる。 掘削過程全体を通して掘削精度を高めるため,デナヴィト・ハルテンベルク連接情報とプレビューホール探索誤差データを組み合わせた状態表現を考案した。 シミュレーションの結果,提案手法はホール探索精度と時間効率において従来の手法よりも有意に優れていた。

Intelligent drill boom hole-seeking is a promising technology for enhancing drilling efficiency, mitigating potential safety hazards, and relieving human operators. Most existing intelligent drill boom control methods rely on a hierarchical control framework based on inverse kinematics. However, these methods are generally time-consuming due to the computational complexity of inverse kinematics and the inefficiency of the sequential execution of multiple joints. To tackle these challenges, this study proposes an integrated drill boom control method based on Reinforcement Learning (RL). We develop an integrated drill boom control framework that utilizes a parameterized policy to directly generate control inputs for all joints at each time step, taking advantage of joint posture and target hole information. By formulating the hole-seeking task as a Markov decision process, contemporary mainstream RL algorithms can be directly employed to learn a hole-seeking policy, thus eliminating the need for inverse kinematics solutions and promoting cooperative multi-joint control. To enhance the drilling accuracy throughout the entire drilling process, we devise a state representation that combines Denavit-Hartenberg joint information and preview hole-seeking discrepancy data. Simulation results show that the proposed method significantly outperforms traditional methods in terms of hole-seeking accuracy and time efficiency.
翻訳日:2023-12-05 15:13:30 公開日:2023-12-04
# セマンティックセグメンテーションのためのアクティブなテスト時間適応

Few Clicks Suffice: Active Test-Time Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2312.01835v1 )

ライセンス: Link先を確認
Longhui Yuan and Shuang Li and Zhuo He and Binhui Xie(参考訳) テスト時間適応(TTA)は、未ラベルのテストデータを用いた推論中に事前訓練されたモデルに適応し、その潜在的な実用価値のために多くの研究の注目を集めている。 残念ながら、ラベルの監督がなければ、既存のTTA手法はヒューリスティックまたは経験的研究に大きく依存している。 モデルを更新する場所は常に最適以下、あるいはより多くの計算リソース消費をもたらす。 一方、TTAアプローチと教師付きアプローチの間には、依然として大きなパフォーマンスギャップがあります。 アクティブラーニングに動機づけられた本研究では,セマンティクスセグメンテーション設定のためのアクティブなテストタイム適応を提案する。 具体的には、テスト段階でのヒューマン・イン・ザ・ループパターンを導入し、少数のラベルをクエリして、オンラインでの予測とモデル更新を容易にする。 そこで我々は,モデルアダプタとラベルアノテータという2つの部分からなる,単純かつ効果的なatasegフレームワークを提案する。 広範な実験により、atasegは、ttaメソッドとその教師付きメソッド間のパフォーマンスギャップを極めて少ないアノテーションで橋渡しし、ラベル付けのためのワンクリックでさえ、accdcベンチマークにおいて、既知のsata ttaメソッドを2.6%平均して2.6%上回っている。 実証的な結果は、モデルアダプタまたはラベルアノテータの進歩がATASegフレームワークの改善をもたらし、大きな研究と現実の可能性をもたらすことを示唆している。

Test-time adaptation (TTA) adapts the pre-trained models during inference using unlabeled test data and has received a lot of research attention due to its potential practical value. Unfortunately, without any label supervision, existing TTA methods rely heavily on heuristic or empirical studies. Where to update the model always falls into suboptimal or brings more computational resource consumption. Meanwhile, there is still a significant performance gap between the TTA approaches and their supervised counterparts. Motivated by active learning, in this work, we propose the active test-time adaptation for semantic segmentation setup. Specifically, we introduce the human-in-the-loop pattern during the testing phase, which queries very few labels to facilitate predictions and model updates in an online manner. To do so, we propose a simple but effective ATASeg framework, which consists of two parts, i.e., model adapter and label annotator. Extensive experiments demonstrate that ATASeg bridges the performance gap between TTA methods and their supervised counterparts with only extremely few annotations, even one click for labeling surpasses known SOTA TTA methods by 2.6% average mIoU on ACDC benchmark. Empirical results imply that progress in either the model adapter or the label annotator will bring improvements to the ATASeg framework, giving it large research and reality potential.
翻訳日:2023-12-05 15:13:04 公開日:2023-12-04
# 等価なプラグアンドプレイ画像再構成

Equivariant plug-and-play image reconstruction ( http://arxiv.org/abs/2312.01831v1 )

ライセンス: Link先を確認
Matthieu Terris, Thomas Moreau, Nelly Pustelnik, Julian Tachella(参考訳) プラグ・アンド・プレイアルゴリズムは、デノイザーを介して画像の暗黙的な定義に依存する逆イメージング問題を解決するための一般的なフレームワークである。 これらのアルゴリズムは、強力な事前訓練されたデノイザーを活用して、幅広いイメージングタスクを解決し、タスク毎のモデルトレーニングの必要性を回避できる。 残念なことに、プラグ・アンド・プレイ法はしばしば不安定な振る舞いを示し、汎用性の約束を妨げ、再構成された画像の最適でない品質をもたらす。 本研究では,デノイザ上のある種の変換群(回転,反射,および/又は変換)に同値を課すことで,アルゴリズムの安定性が向上し,再構成品質が向上することを示す。 より優れた性能と安定性における等価性の役割を理論的に示す。 本稿では,デノイザの入力に対するランダム変換と,アルゴリズムの各繰り返しにおける出力に対する逆変換を単純に適用することで,既存のデノイザに等価性を適用する単純なアルゴリズムを提案する。 複数の画像モダリティとデノナイジングネットワークの実験により、同変プラグ・アンド・プレイアルゴリズムは再構成性能と安定性を、同変でないものと比較して改善することが示された。

Plug-and-play algorithms constitute a popular framework for solving inverse imaging problems that rely on the implicit definition of an image prior via a denoiser. These algorithms can leverage powerful pre-trained denoisers to solve a wide range of imaging tasks, circumventing the necessity to train models on a per-task basis. Unfortunately, plug-and-play methods often show unstable behaviors, hampering their promise of versatility and leading to suboptimal quality of reconstructed images. In this work, we show that enforcing equivariance to certain groups of transformations (rotations, reflections, and/or translations) on the denoiser strongly improves the stability of the algorithm as well as its reconstruction quality. We provide a theoretical analysis that illustrates the role of equivariance on better performance and stability. We present a simple algorithm that enforces equivariance on any existing denoiser by simply applying a random transformation to the input of the denoiser and the inverse transformation to the output at each iteration of the algorithm. Experiments on multiple imaging modalities and denoising networks show that the equivariant plug-and-play algorithm improves both the reconstruction performance and the stability compared to their non-equivariant counterparts.
翻訳日:2023-12-05 15:12:40 公開日:2023-12-04
# Exchange-of-Thought: クロスモデル通信による大規模言語モデルの能力向上

Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication ( http://arxiv.org/abs/2312.01823v1 )

ライセンス: Link先を確認
Zhangyue Yin, Qiushi Sun, Cheng Chang, Qipeng Guo, Junqi Dai, Xuanjing Huang, Xipeng Qiu(参考訳) 大規模言語モデル(LLM)は、最近、Chain-of-Thoughtテクニックによる複雑な推論タスクにおいて大きな進歩を遂げました。 この進歩にもかかわらず、彼らの推論は、しばしば内在的な理解によって制限され、外部の洞察を欠いている。 そこで本研究では,問題解決時のクロスモデル通信を可能にする新しいフレームワークであるExchange-of-Thought (EoT)を提案する。 ネットワークトポロジーからインスピレーションを得て、eotはメモリ、レポート、リレー、ディベートという4つのユニークなコミュニケーションパラダイムを統合している。 本稿では,各パラダイムに関連する通信力学とボリュームについて述べる。 誤った推論連鎖のリスクを相殺するために,これらの通信に頑健な信頼度評価機構を実装した。 多様な複雑な推論タスクに対する実験により、EoTは確立されたベースラインをはるかに超え、LCM性能向上における外部洞察の価値を実証した。 さらに、EoTはこれらの優れた結果をコスト効率よく達成し、効率的で協調的なAI問題解決のための有望な進歩を示す。

Large Language Models (LLMs) have recently made significant strides in complex reasoning tasks through the Chain-of-Thought technique. Despite this progress, their reasoning is often constrained by their intrinsic understanding, lacking external insights. To address this, we propose Exchange-of-Thought (EoT), a novel framework that enables cross-model communication during problem-solving. Drawing inspiration from network topology, EoT integrates four unique communication paradigms: Memory, Report, Relay, and Debate. This paper delves into the communication dynamics and volume associated with each paradigm. To counterbalance the risks of incorrect reasoning chains, we implement a robust confidence evaluation mechanism within these communications. Our experiments across diverse complex reasoning tasks demonstrate that EoT significantly surpasses established baselines, underscoring the value of external insights in enhancing LLM performance. Furthermore, we show that EoT achieves these superior results in a cost-effective manner, marking a promising advancement for efficient and collaborative AI problem-solving.
翻訳日:2023-12-05 15:12:18 公開日:2023-12-04
# ソフトウェアログにおける教師なし異常検出手法の有効性

Efficiency of Unsupervised Anomaly Detection Methods on Software Logs ( http://arxiv.org/abs/2312.01934v1 )

ライセンス: Link先を確認
Jesse Nyyss\"ol\"a, Mika M\"antyl\"a(参考訳) ソフトウェアログ分析は手間と時間がかかります。 時間とラベル付きデータは、通常工業環境では欠落している。 本稿では,異常検出のための教師なしおよび時間効率の手法について検討する。 我々は2つのカスタムモデルと2つの確立されたモデルを研究する。 カスタムモデルは、トレーニングデータに存在しないテストデータで用語をカウントするOOV(Out-Of-Vocabulary)検出器と、その頻度に基づいて単語のラリティスコアを算出するRarity Model(RM)である。 確立されたモデルはKMeansとIssage Forestである。 モデルは4つの公開データセット(BGL、Thunderbird、Hadoop、HDFS)で評価され、ログメッセージ(Words、キャラクタトリグラム、Parsedイベント)の3つの異なる表現テクニックがある。 AUC-ROC測定値を用いて評価を行った。 その結果,データセットと表現手法による差異が明らかになった。 特定の要件に基づいて異なる設定を推奨する。 高速では、単語表現を伴うOOV検出器が最適である。 正確性のために、OOV検出器とトリグラム表現を組み合わせると、最も高いAUC-ROC(0.846)が得られる。 トレーニングが正常なインスタンスと異常なインスタンスの両方を含む未フィルタリングデータを扱う場合、最も効果的な組み合わせはイベント表現の分離フォレストであり、AUC-ROCは0.829である。

Software log analysis can be laborious and time consuming. Time and labeled data are usually lacking in industrial settings. This paper studies unsupervised and time efficient methods for anomaly detection. We study two custom and two established models. The custom models are: an OOV (Out-Of-Vocabulary) detector, which counts the terms in the test data that are not present in the training data, and the Rarity Model (RM), which calculates a rarity score for terms based on their infrequency. The established models are KMeans and Isolation Forest. The models are evaluated on four public datasets (BGL, Thunderbird, Hadoop, HDFS) with three different representation techniques for the log messages (Words, character Trigrams, Parsed events). We used the AUC-ROC metric for the evaluation. The results reveal discrepancies based on the dataset and representation technique. Different configurations are advised based on specific requirements. For speed, the OOV detector with word representation is optimal. For accuracy, the OOV detector combined with trigram representation yields the highest AUC-ROC (0.846). When dealing with unfiltered data where training includes both normal and anomalous instances, the most effective combination is the Isolation Forest with event representation, achieving an AUC-ROC of 0.829.
翻訳日:2023-12-05 15:05:49 公開日:2023-12-04
# 偏極型埋め込みフレームワークにおける変分量子固有ソルバ自己整合場法

The variational quantum eigensolver self-consistent field method within a polarizable embedded framework ( http://arxiv.org/abs/2312.01926v1 )

ライセンス: Link先を確認
Erik Rosendahl Kjellgren, Peter Reinholdt, Aaron Fitzpatrick, Walter N. Talarico, Phillip W. K. Jensen, Stephan P. A. Sauer, Sonia Coriani, Stefan Knecht, and Jacob Kongsted(参考訳) 本稿では,偏光埋め込み(PE)と組み合わせた変分量子解法自己一貫性場(VQE-SCF)アルゴリズムの定式化と実装を行い,PEを量子コンピューティングの体系に拡張する。 我々は,量子シミュレータ上で得られたPE-VQE-SCFを検証し,通常のVQE-SCFと比較して,量子デバイス上の計算応力がわずかに増加することを示した。 一方,ショットノイズの増加は認められなかった。 本稿では, PE-VQE-SCFが実際の化学系のモデル化にどのように貢献するかを, フルンとエチレン間のディールス・アルダー反応の反応障壁のシミュレーションを用いて示す。

We formulate and implement the Variational Quantum Eigensolver Self Consistent Field (VQE-SCF) algorithm in combination with polarizable embedding (PE), thereby extending PE to the regime of quantum computing. We test the resulting algorithm, PE-VQE-SCF, on quantum simulators and demonstrate that the computational stress on the quantum device is only slightly increased in terms of gate counts compared to regular VQE-SCF. On the other hand, no increase in shot noise was observed. We illustrate how PE-VQE-SCF may lead to the modeling of real chemical systems using a simulation of the reaction barrier of the Diels-Alder reaction between furan and ethene as an example.
翻訳日:2023-12-05 15:05:29 公開日:2023-12-04
# 多変量機能回帰における係数形状アライメント

Coefficient Shape Alignment in Multivariate Functional Regression ( http://arxiv.org/abs/2312.01925v1 )

ライセンス: Link先を確認
Shuhao Jiao and Ngai-Hang Chan(参考訳) 多変量関数データ解析では、異なる機能的共変量はある意味で均質である。 隠された均質構造は、異なる共変体の接続や関連について情報を与える。 顕著な均一性を持つ共変量は同じ群で一緒に解析することができ、これは多変量関数データをパロニカルにモデル化する方法をもたらす。 本稿では「係数形状アライメント」と呼ばれる新しい正規化手法による多変量関数回帰手法を開発し、異なる機能共変量のポテンシャル均質性に取り組む。 モデリング手順には2つの主なステップがある: まず、未知のグルーピング構造を新しい正規化アプローチで検出し、共変数を逆群に集約し、検出されたグルーピング構造に基づいてグループ化された多変量関数回帰モデルを確立する。 この新しい群モデルでは、同じ等質群における共変量の係数関数は、スケーリングに不変な形状を持つ。 新しい正規化アプローチは係数形状の相違を罰することに基づいている。 検出されたグループ構造の一貫性を徹底的に検討し、基礎となる真のグループ構造を明らかにする条件を開発する。 モデル推定の漸近特性も開発されている。 本手法の有限サンプル特性を調べるために, 詳細なシミュレーションを行った。 提案手法の実用性について,糖質評価に関する分析を行った。 本研究は,機能的共変量の根底相同性を解析し,多変量関数データのための並列モデル構造を開発するための新しい手段を提供する。

In multivariate functional data analysis, different functional covariates can be homogeneous in some sense. The hidden homogeneity structure is informative about the connectivity or association of different covariates. The covariates with pronounced homogeneity can be analyzed jointly in the same group and this gives rise to a way of parsimoniously modeling multivariate functional data. In this paper, we develop a multivariate functional regression technique by a new regularization approach termed "coefficient shape alignment" to tackle the potential homogeneity of different functional covariates. The modeling procedure includes two main steps: first the unknown grouping structure is detected with a new regularization approach to aggregate covariates into disjoint groups; and then a grouped multivariate functional regression model is established based on the detected grouping structure. In this new grouped model, the coefficient functions of covariates in the same homogeneous group share the same shape invariant to scaling. The new regularization approach builds on penalizing the discrepancy of coefficient shape. The consistency property of the detected grouping structure is thoroughly investigated, and the conditions that guarantee uncovering the underlying true grouping structure are developed. The asymptotic properties of the model estimates are also developed. Extensive simulation studies are conducted to investigate the finite-sample properties of the developed methods. The practical utility of the proposed methods is illustrated in an analysis on sugar quality evaluation. This work provides a novel means for analyzing the underlying homogeneity of functional covariates and developing parsimonious model structures for multivariate functional data.
翻訳日:2023-12-05 15:05:16 公開日:2023-12-04
# SKILLコード自動補完に向けた機械学習アプローチ

A Machine Learning Approach Towards SKILL Code Autocompletion ( http://arxiv.org/abs/2312.01921v1 )

ライセンス: Link先を確認
Enrique Dehaerne, Bappaditya Dey, Wannes Meert(参考訳) ムーアの法則は電子システムの複雑さを増し続けており、Electronic Design Automation(EDA)は世界的な需要を満たすために前進しなければならない。 EDA技術の重要な例は、EDAソフトウェアのカスタマイズと拡張に使用されるスクリプト言語であるSKILLである。 最近のtransformerアーキテクチャを用いたコード生成モデルは、学術的な環境で素晴らしい結果をもたらし、開発者生産性を向上させるために商用開発ツールにも使われています。 我々の知る限りでは、ハードウェア設計技術者の生産性向上にトランスフォーマーをSKILLコードオートコンプリートに適用するのは、この研究が初めてである。 本研究では,新しいデータ効率の高いスキルコード生成手法を提案し,実験的に検証した。 具体的には,新しい方法論を提案する。 i)ラベル付きデータとラベル付きデータの両方で高品質なSKILLデータセットを作成する。 (II)教師なしおよび教師なし学習を用いて、我々のカスタムSKILLデータセット上で、汎用プログラミング言語コード上で事前訓練されたT5モデルを微調整する訓練戦略。 (iii)合成SKILL符号の評価。 提案手法を用いて学習したモデルは,人間の判断スコアとブレウスコアの点でベースラインを上回っている。 直面した大きな課題は、SKILLコードを生成するためにトランスフォーマーモデルをトレーニングするために使用できる非常に少ないSKILLコードデータであった。 私たちの検証した改善にもかかわらず、利用可能な非常に小さなデータセットは、確実に自動補完スキルコードをトレーニングするには不十分でした。 これらの制限に対処できる将来的な作業だけでなく、これや他の制限についても議論する。

As Moore's Law continues to increase the complexity of electronic systems, Electronic Design Automation (EDA) must advance to meet global demand. An important example of an EDA technology is SKILL, a scripting language used to customize and extend EDA software. Recently, code generation models using the transformer architecture have achieved impressive results in academic settings and have even been used in commercial developer tools to improve developer productivity. To the best of our knowledge, this study is the first to apply transformers to SKILL code autocompletion towards improving the productivity of hardware design engineers. In this study, a novel, data-efficient methodology for generating SKILL code is proposed and experimentally validated. More specifically, we propose a novel methodology for (i) creating a high-quality SKILL dataset with both unlabeled and labeled data, (ii) a training strategy where T5 models pre-trained on general programming language code are fine-tuned on our custom SKILL dataset using unsupervised and supervised learning, and (iii) evaluating synthesized SKILL code. We show that models trained using the proposed methodology outperform baselines in terms of human-judgment score and BLEU score. A major challenge faced was the extremely small amount of available SKILL code data that can be used to train a transformer model to generate SKILL code. Despite our validated improvements, the extremely small dataset available to us was still not enough to train a model that can reliably autocomplete SKILL code. We discuss this and other limitations as well as future work that could address these limitations.
翻訳日:2023-12-05 15:04:53 公開日:2023-12-04
# COTR:視力に基づく3次元作業予測のための小型作業TRansformer

COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction ( http://arxiv.org/abs/2312.01919v1 )

ライセンス: Link先を確認
Qihang Ma, Xin Tan, Yanyun Qu, Lizhuang Ma, Zhizhong Zhang, Yuan Xie(参考訳) 自律運転コミュニティは、例外的な幾何学的知覚と一般的な物体認識能力によって引き起こされる3D占有率予測に大きな関心を示している。 これを達成するために、現在の研究は、鳥眼視知覚から伸びるトリパースペクティブビュー(tpv)またはoccupancy(occ)表現を構築しようとしている。 しかし、tpv表現のような圧縮されたビューは3dジオメトリ情報を失うが、生でスパースなocc表現は重いが計算コストがかかる。 そこで本稿では,3次元occ表現を再構成するために,形状認識型占有エンコーダと意味認識型グループデコーダを備えたコンパクト占有トランスフォーマ(cotr)を提案する。 占有エンコーダは、まず、効率的な明示的なビュー変換により、コンパクトな幾何学的OCC特徴を生成する。 そして、占有デコーダは、粗大なセマンティックグルーピング戦略により、コンパクトなOCC表現のセマンティック識別性をさらに向上する。 実験により,COTR は比較的8%~15% 向上し,複数のベースラインに対して明らかな性能向上が認められた。

The autonomous driving community has shown significant interest in 3D occupancy prediction, driven by its exceptional geometric perception and general object recognition capabilities. To achieve this, current works try to construct a Tri-Perspective View (TPV) or Occupancy (OCC) representation extending from the Bird-Eye-View perception. However, compressed views like TPV representation lose 3D geometry information while raw and sparse OCC representation requires heavy but reducant computational costs. To address the above limitations, we propose Compact Occupancy TRansformer (COTR), with a geometry-aware occupancy encoder and a semantic-aware group decoder to reconstruct a compact 3D OCC representation. The occupancy encoder first generates a compact geometrical OCC feature through efficient explicit-implicit view transformation. Then, the occupancy decoder further enhances the semantic discriminability of the compact OCC representation by a coarse-to-fine semantic grouping strategy. Empirical experiments show that there are evident performance gains across multiple baselines, e.g., COTR outperforms baselines with a relative improvement of 8%-15%, demonstrating the superiority of our method.
翻訳日:2023-12-05 15:04:31 公開日:2023-12-04
# 視覚強化学習一般化のための双方向遷移モデルを用いた信頼表現

A Reliable Representation with Bidirectional Transition Model for Visual Reinforcement Learning Generalization ( http://arxiv.org/abs/2312.01915v1 )

ライセンス: Link先を確認
Xiaobo Hu, Youfang Lin, Yue Liu, Jinwen Wang, Shuo Wang, Hehe Fan and Kai Lv(参考訳) 視覚強化学習は高次元観察による制御課題の解決に有効であることが証明されている。 しかし、視覚に基づく観察から信頼できる一般化された表現を抽出することは依然として大きな課題である。 人間の思考プロセスにインスパイアされた観察から抽出された表現が未来とトレース履歴を予測できる場合、その表現は環境の理解において信頼性と正確である。 この概念に基づいて, 環境遷移を前方と後方の両方で双方向に予測し, 信頼性のある表現を抽出する二方向性遷移(BiT)モデルを導入する。 本モデルでは,DeepMind Controlスイートの2つの設定に対して,競合一般化性能とサンプル効率を示す。 さらに,ロボット操作とCARLAシミュレータを用いて,本手法の適用性を実証した。

Visual reinforcement learning has proven effective in solving control tasks with high-dimensional observations. However, extracting reliable and generalizable representations from vision-based observations remains a central challenge. Inspired by the human thought process, when the representation extracted from the observation can predict the future and trace history, the representation is reliable and accurate in comprehending the environment. Based on this concept, we introduce a Bidirectional Transition (BiT) model, which leverages the ability to bidirectionally predict environmental transitions both forward and backward to extract reliable representations. Our model demonstrates competitive generalization performance and sample efficiency on two settings of the DeepMind Control suite. Additionally, we utilize robotic manipulation and CARLA simulators to demonstrate the wide applicability of our method.
翻訳日:2023-12-05 15:04:10 公開日:2023-12-04
# 六方晶窒化ホウ素のバンドギャップにおける可変励起子偏光子

Tunable exciton polaritons in band-gap engineered hexagonal boron nitride ( http://arxiv.org/abs/2312.01913v1 )

ライセンス: Link先を確認
Pedro Ninhos, Christos Tserkezis, N. Asger Mortensen, Nuno M. R. Peres(参考訳) 二次元絶縁体である六方晶窒化ホウ素 (hbn) は, 外部超格子ポテンシャルを受けると, 近紫外帯および中紫外帯における静電可変励起子の新たなパラダイムを形成する。 課せられる可能性には3つの結果があります (i)有効質量テンソルを再正規化し、異方的有効質量に導く。 (ii)バンドギャップを再正常化し、最終的には減少する。 (iii)エキシトン結合エネルギーを低減させる。 これらの結果はすべて、その周期で外部ポテンシャルの強度の積を含む単一の次元のないパラメータに依存する。 励起エネルギーレベルに加えて、2つの直交方向に沿って光伝導率を計算し、そこから吸収スペクトルを計算する。 後者の結果から,本システムは格子偏光器を模倣できることがわかった。 これらの特徴により、一次元hbn超格子は可視スペクトル範囲まで紫外域で微調整された偏光子のための実用的で未探索のプラットフォームとなる。

We show that hexagonal boron nitride (hBN), a two-dimensional insulator, when subjected to an external superlattice potential forms a new paradigm for electrostatically tunable excitons in the near- and mid-ultraviolet (UV). The imposed potential has three consequences: (i) it renormalizes the effective mass tensor, leading to anisotropic effective masses; (ii) it renormalizes the band gap, eventually reducing it; (iii) it reduces the exciton binding energies. All these consequences depend on a single dimensionless parameter, which includes the product of strength of the external potential with its period. In addition to the excitonic energy levels, we compute the optical conductivity along two orthogonal directions, and from it the absorption spectrum. The results for the latter show that our system is able to mimic a grid polarizer. These characteristics make one-dimensional hBN superlattices a viable and unexplored platform for fine-tuned polaritonics in the UV to visible spectral range.
翻訳日:2023-12-05 15:03:58 公開日:2023-12-04
# Aggregated Normative Diffusion を用いた教師なし異常検出

Unsupervised Anomaly Detection using Aggregated Normative Diffusion ( http://arxiv.org/abs/2312.01904v1 )

ライセンス: Link先を確認
Alexander Frotscher, Jaivardhan Kapoor, Thomas Wolfers, Christian F. Baumgartner(参考訳) 脳MRIなどの医学画像における異常の早期検出は多くの疾患の診断と治療に極めて重要である。 監視された機械学習手法は、ラベル付きデータの可用性がよい少数の病理に限られる。 対照的に、教師なし異常検出 (unsupervised anomaly detection, uad) は、通常のパターンからのずれを検出することによって、より広いスペクトルの異常を識別できる可能性がある。 我々の研究は、既存の最先端のUDAアプローチが、現実的なマルチモーダルMRデータにおける様々な種類の異常にうまく当てはまらないことを示す。 これを解決するために、Aggregated Normative Diffusion (ANDi) と呼ばれる新しいUAD手法を導入する。 直交拡散確率モデル (DDPMs) では, 予測された擬似化ステップと逆向きの真理遷移の差を集約し, ピラミッド型ガウス雑音を学習した。 我々は、最近の3つのUADベースライン、および3つの多様な脳MRIデータセットに対してANDiを検証する。 andiがこれらのベースラインを大きく上回る場合があり、様々なタイプの異常に対して強固性が増すことが示されている。 特に多発性硬化症 (ms) 病変の検出では, auprcで178%の改善が得られた。

Early detection of anomalies in medical images such as brain MRI is highly relevant for diagnosis and treatment of many conditions. Supervised machine learning methods are limited to a small number of pathologies where there is good availability of labeled data. In contrast, unsupervised anomaly detection (UAD) has the potential to identify a broader spectrum of anomalies by spotting deviations from normal patterns. Our research demonstrates that existing state-of-the-art UAD approaches do not generalise well to diverse types of anomalies in realistic multi-modal MR data. To overcome this, we introduce a new UAD method named Aggregated Normative Diffusion (ANDi). ANDi operates by aggregating differences between predicted denoising steps and ground truth backwards transitions in Denoising Diffusion Probabilistic Models (DDPMs) that have been trained on pyramidal Gaussian noise. We validate ANDi against three recent UAD baselines, and across three diverse brain MRI datasets. We show that ANDi, in some cases, substantially surpasses these baselines and shows increased robustness to varying types of anomalies. Particularly in detecting multiple sclerosis (MS) lesions, ANDi achieves improvements of up to 178% in terms of AUPRC.
翻訳日:2023-12-05 15:03:42 公開日:2023-12-04
# 連続時間制御と摂動理論を用いた最適バッチサイズスケジュールの解錠

Unlocking optimal batch size schedules using continuous-time control and perturbation theory ( http://arxiv.org/abs/2312.01898v1 )

ライセンス: Link先を確認
Stefan Perko(参考訳) 確率勾配降下(sgd)とその変種は、ほぼ普遍的にニューラルネットワークを訓練し、他の様々なパラメトリックモデルに適合するために用いられる。 このコンテキストにおける重要なハイパーパラメータはバッチサイズであり、パラメータが更新される前にどれだけのサンプルが処理されているかを決定する。 これまでの研究は、可変バッチサイズを使うことの利点を実証してきた。 本研究では,SGDと類似アルゴリズムの最適バッチサイズスケジュールを,学習速度の2次誤差まで理論的に導出する。 そこで本研究では,学習率を指標とした確率微分方程式の族を用いて,パラメータ更新の離散過程を近似する。 状態依存拡散係数をよりうまく扱うために,我々はこのファミリーの解を学習率に関して系列に拡張する。 この設定を用いて,拡散係数の大きなファミリーに対して,連続時間最適バッチサイズスケジュールを導出し,その結果を線形回帰のセットに適用する。

Stochastic Gradient Descent (SGD) and its variants are almost universally used to train neural networks and to fit a variety of other parametric models. An important hyperparameter in this context is the batch size, which determines how many samples are processed before an update of the parameters occurs. Previous studies have demonstrated the benefits of using variable batch sizes. In this work, we will theoretically derive optimal batch size schedules for SGD and similar algorithms, up to an error that is quadratic in the learning rate. To achieve this, we approximate the discrete process of parameter updates using a family of stochastic differential equations indexed by the learning rate. To better handle the state-dependent diffusion coefficient, we further expand the solution of this family into a series with respect to the learning rate. Using this setup, we derive a continuous-time optimal batch size schedule for a large family of diffusion coefficients and then apply the results in the setting of linear regression.
翻訳日:2023-12-05 15:03:27 公開日:2023-12-04
# 映像における動作検出のための短期変換器の適応

Adapting Short-Term Transformers for Action Detection in Untrimmed Videos ( http://arxiv.org/abs/2312.01897v1 )

ライセンス: Link先を確認
Min Yang, Huan Gao, Ping Guo and Limin Wang(参考訳) 視覚トランスフォーマー (vit) は、柔軟な設計、適応可能なセルフアテンション機構、マスクプレトレーニングの有効性により、ビデオ認識において高い潜在性を示している。 しかし、これらの訓練済みの短期的ViTを時間的行動検出(TAD)に適応する方法は、まだ不明である。 既存の作業では、より広い時間的文脈において、異なるスニペット間のきめ細かい関係を捉えることなく、各ショートトリミングスニペットのオフザシェルフ特徴抽出器として扱う。 この問題を軽減するため,本研究では,これらのトレーニング済みVTモデルを一貫した長手ビデオトランスフォーマーとして適用し,スニペット間の関係を捉えながら,計算オーバーヘッドやメモリ消費を抑えつつ,モデリング能力を完全に解き放つ機構を設計することに焦点を当てる。 そこで我々は,2段階の異なるスニペット間で,映像情報を段階的に交換する効果的なクロススニペット伝搬モジュールを設計する。 骨内情報伝達のために,骨内におけるマルチスニペット時間的特徴相互作用を可能にするクロススニペット伝搬戦略を導入する。 背骨後情報伝達のために,クリップレベルモデリングのための時間的トランスフォーマ層を提案する。 The plain ViT-B pre-trained with VideoMAE, our end-to-end temporal action detector (ViT-TAD) is a very competitive performance to previous temporal action detectors, riching to 69.0 average mAP on THUMOS14, 37.12 average mAP on ActivityNet-1.3, 17.20 average mAP on FineAction。

Vision transformer (ViT) has shown high potential in video recognition, owing to its flexible design, adaptable self-attention mechanisms, and the efficacy of masked pre-training. Yet, it still remains unclear how to adapt these pre-trained short-term ViTs for temporal action detection (TAD) in untrimmed videos. The existing works treat them as off-the-shelf feature extractors for each short trimmed snippet without capturing the fine-grained relation among different snippets in a broader temporal context. To mitigate this issue, this paper focuses on designing a new mechanism for adapting these pre-trained ViT models as a unified long-form video transformer to fully unleash its modeling power in capturing inter-snippet relation, while still keeping low computation overhead and memory consumption for efficient TAD. To this end, we design effective cross-snippet propagation modules to gradually exchange short-term video information among different snippets from two levels. For inner-backbone information propagation, we introduce a cross-snippet propagation strategy to enable multi-snippet temporal feature interaction inside the backbone. For post-backbone information propagation, we propose temporal transformer layers for further clip-level modeling. With the plain ViT-B pre-trained with VideoMAE, our end-to-end temporal action detector (ViT-TAD) yields a very competitive performance to previous temporal action detectors, riching up to 69.0 average mAP on THUMOS14, 37.12 average mAP on ActivityNet-1.3 and 17.20 average mAP on FineAction.
翻訳日:2023-12-05 15:03:11 公開日:2023-12-04
# 量子テレポーテーションに関するクリスマスストーリー

A Christmas Story about Quantum Teleportation ( http://arxiv.org/abs/2312.01891v1 )

ライセンス: Link先を確認
Barry W. Fitzgerald, Patrick Emonts, Jordi Tura(参考訳) 量子テレポーテーション(quantum teleportation)は、量子物理学とテレポーテーションの概念を組み合わせることで、多くの人々を魅了し混乱させる概念である。 量子テレポーテーションは、いくつかの通信技術や将来量子インターネットにおいて重要な役割を果たす可能性が高いため、その概念を正確かつ効果的に伝達できる学習ツールやアプローチを作成することが不可欠である。 近年の研究では、生徒を量子物理学の話題に巻き込む教師の重要性が示されている。 したがって、高校と初期の大学の教育者は、複雑な、しかし量子テレポーテーションのような興味深いトピックを、魅力的でおそらく正当でない方法で教える必要がある。 本稿では,クリスマスギフトブリングのサンタクロースを用いて,量子テレポーテーションの概念を教えるためのパラダイムを提案する。 サンタクロースの例を用いて、量子テレポーテーションの鍵となる側面を探索するのに珍しい文脈を使い、全ては過度に抽象的ではない。 さらに、量子物理学の一般的な誤解に基づく教室環境での使用を想定したワークシートについて概説する。

Quantum teleportation is a concept that fascinates and confuses many people, in particular given that it combines quantum physics and the concept of teleportation. With quantum teleportation likely to play a key role in several communication technologies and the quantum internet in the future, it is imperative to create learning tools and approaches that can accurately and effectively communicate the concept. Recent research has indicated the importance of teachers enthusing students about the topic of quantum physics. Therefore, educators at both high school and early university level need to find engaging and perhaps unorthodox ways of teaching complex, yet interesting topics such as quantum teleportation. In this paper, we present a paradigm to teach about the concept of quantum teleportation using the Christmas gift-bringer Santa Claus. Using the example of Santa Claus, we use an unusual context to explore the key aspects of quantum teleportation, and all without being overly abstract. In addition, we outline a worksheet designed for use in the classroom setting which is based on common misconceptions from quantum physics.
翻訳日:2023-12-05 15:02:36 公開日:2023-12-04
# フィードレベルEV充電検出のための非侵入負荷モニタリング:オフラインおよびオンライン検出へのウィンドウベーススライディングアプローチ

Non-Intrusive Load Monitoring for Feeder-Level EV Charging Detection: Sliding Window-based Approaches to Offline and Online Detection ( http://arxiv.org/abs/2312.01887v1 )

ライセンス: Link先を確認
Cameron Martin, Fucai Ke, Hao Wang(参考訳) 配電網における電気自動車充電(EV)の理解は、エネルギー・輸送分野における効率的なEV充電管理と脱炭支援の鍵となる。 高度な計測インフラストラクチャにより、配電系統のオペレーターやユーティリティー企業は、彼らのネットワークから高分解能の負荷データを集めることができる。 これらの進歩により、非侵入負荷監視(NILM)技術は負荷測定データを用いてEV充電を検出することができる。 既存研究は主に家庭内におけるev帯電検出のためのnilmに着目しているが、フィーダレベルでのev帯電検出に関する研究のギャップがあり、複数の家庭からの負荷測定が組み合わさっているため、独特の課題がある。 本稿では,スライディングウインドウの特徴抽出と古典的機械学習技術,特にXGBoostやRandom Forestのようなモデルを含む,供給者レベルでのEV検出のための新規かつ効果的なアプローチを開発する。 提案手法は,迅速なトレーニングが可能な軽量かつ効率的なソリューションを提供する。 さらに,本手法は,オフラインおよびオンラインのEV充電検出をサポートする汎用的手法である。 実験では,高速ev帯電検出をフィーダレベルで行い,f-scoreを98.88%,オンライン検出を93.01%とした。

Understanding electric vehicle (EV) charging on the distribution network is key to effective EV charging management and aiding decarbonization across the energy and transport sectors. Advanced metering infrastructure has allowed distribution system operators and utility companies to collect high-resolution load data from their networks. These advancements enable the non-intrusive load monitoring (NILM) technique to detect EV charging using load measurement data. While existing studies primarily focused on NILM for EV charging detection in individual households, there is a research gap on EV charging detection at the feeder level, presenting unique challenges due to the combined load measurement from multiple households. In this paper, we develop a novel and effective approach for EV detection at the feeder level, involving sliding-window feature extraction and classical machine learning techniques, specifically models like XGBoost and Random Forest. Our developed method offers a lightweight and efficient solution, capable of quick training. Moreover, our developed method is versatile, supporting both offline and online EV charging detection. Our experimental results demonstrate high-accuracy EV charging detection at the feeder level, achieving an F-Score of 98.88% in offline detection and 93.01% in online detection.
翻訳日:2023-12-05 15:02:17 公開日:2023-12-04
# インストラクタ:大規模視覚言語モデルに対する命令調整型ターゲットアタック

InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models ( http://arxiv.org/abs/2312.01886v1 )

ライセンス: Link先を確認
Xunguang Wang, Zhenlan Ji, Pingchuan Ma, Zongjie Li, Shuai Wang(参考訳) 大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。 しかし、このリッチな視覚相互作用により、LVLMは敵の例に弱い。 本稿では,そのプロンプト(しばしばサービスプロバイダにプロプライエタリであり,一般には公開されていない)とその基盤となる大規模言語モデル(llm)を知らずに,敵が被害者のlvlmの視覚エンコーダにのみアクセス可能な,新規かつ実用的なグレイボックス攻撃シナリオを定式化する。 この実践的な設定は、攻撃者が選択したターゲットテキストにセマンティックに類似した応答を出力するためにLVLMを混乱させることを目的とした、攻撃対象の敵攻撃のクロスプロンプトおよびクロスモデル転送可能性に課題をもたらす。 そこで本研究では,LVLMに対して高転送性で目標対向攻撃を行うための命令調整型目標攻撃(InstructTA)を提案する。 当初、ターゲット画像にターゲット応答を"反転"するために、パブリックテキスト・画像生成モデルを使用し、GPT-4を用いて、ターゲット応答から適切な命令 $\boldsymbol{p}^\prime$ を推論する。 次に,同一の視覚エンコーダを被害者のLVLMと共有する局所代理モデルを構築し,対向画像例と対象画像の特徴を抽出し,両特徴間の距離を最小化し,対向画像例を最適化する。 転送性をさらに向上するために、 LLM からパラメタした命令で $\boldsymbol{p}^\prime$ を加算する。 大規模実験により,攻撃性能と伝達性において提案手法の優位性を実証した。

Large vision-language models (LVLMs) have demonstrated their incredible capability in image understanding and response generation. However, this rich visual interaction also makes LVLMs vulnerable to adversarial examples. In this paper, we formulate a novel and practical gray-box attack scenario that the adversary can only access the visual encoder of the victim LVLM, without the knowledge of its prompts (which are often proprietary for service providers and not publicly available) and its underlying large language model (LLM). This practical setting poses challenges to the cross-prompt and cross-model transferability of targeted adversarial attack, which aims to confuse the LVLM to output a response that is semantically similar to the attacker's chosen target text. To this end, we propose an instruction-tuned targeted attack (dubbed InstructTA) to deliver the targeted adversarial attack on LVLMs with high transferability. Initially, we utilize a public text-to-image generative model to "reverse" the target response into a target image, and employ GPT-4 to infer a reasonable instruction $\boldsymbol{p}^\prime$ from the target response. We then form a local surrogate model (sharing the same visual encoder with the victim LVLM) to extract instruction-aware features of an adversarial image example and the target image, and minimize the distance between these two features to optimize the adversarial example. To further improve the transferability, we augment the instruction $\boldsymbol{p}^\prime$ with instructions paraphrased from an LLM. Extensive experiments demonstrate the superiority of our proposed method in targeted attack performance and transferability.
翻訳日:2023-12-05 15:01:56 公開日:2023-12-04
# 一変量および多変量決定木の相関と意図しないバイアス

Correlation and Unintended Biases on Univariate and Multivariate Decision Trees ( http://arxiv.org/abs/2312.01884v1 )

ライセンス: Link先を確認
Mattia Setzu and Salvatore Ruggieri(参考訳) 決定木はアクセス可能で、解釈可能で、優れた分類モデルである。 表現力の増大を伴う多くの変種が過去40年間に提案されている。 我々は、軸パラレル超平面で分割関数を分割する単変数DTと、斜め超平面で分割する多変数DTの2つのファミリを対比する。 後者は前者を含むため、多変量DTは原則としてより強力である。 しかし驚くべきことに、単変量DTは文学における同等のパフォーマンスを一貫して示している。 合成および実世界のベンチマークデータセットの両方で、この背景にある理由を分析します。 本研究は,データセットの特徴間の相関を除去する前処理フェーズが単変量と多変量DTの相対的性能に与える影響を検証した。 既存のベンチマークデータセットは、単変量DTを支持する傾向にある。

Decision Trees are accessible, interpretable, and well-performing classification models. A plethora of variants with increasing expressiveness has been proposed in the last forty years. We contrast the two families of univariate DTs, whose split functions partition data through axis-parallel hyperplanes, and multivariate DTs, whose splits instead partition data through oblique hyperplanes. The latter include the former, hence multivariate DTs are in principle more powerful. Surprisingly enough, however, univariate DTs consistently show comparable performances in the literature. We analyze the reasons behind this, both with synthetic and real-world benchmark datasets. Our research questions test whether the pre-processing phase of removing correlation among features in datasets has an impact on the relative performances of univariate vs multivariate DTs. We find that existing benchmark datasets are likely biased towards favoring univariate DTs.
翻訳日:2023-12-05 15:01:22 公開日:2023-12-04
# 大規模言語モデルの可能性:洪水災害シナリオのためのゼロショットVQA

Unleashing the Potential of Large Language Model: Zero-shot VQA for Flood Disaster Scenario ( http://arxiv.org/abs/2312.01882v1 )

ライセンス: Link先を確認
Yimin Sun, Chao Wang, Yan Peng(参考訳) 視覚的質問応答(VQA)は基本的で不可欠なAIタスクであり、VQAベースの災害シナリオ理解はホットな研究トピックである。 例えば、VQAモデルによる災害画像に関する質問は可能であり、その答えは、災害の影響を受けている人物や人物の特定に役立つ。 しかし, 災害被害評価のための従来のVQAモデルには, 限定された候補回答空間, 単調な質問型, 既存モデルの限定的な回答能力などの欠点がある。 本稿では,洪水災害評価のためのゼロショットVQAモデルであるゼロショットVQAを提案する。 プレトレーニングなしでの損傷評価のためのVQAモデルである。 また,洪水災害を主な研究対象として,我々のVQAモデルを評価するために,フリースタイル洪水画像回答データセット(FFD-IQA)を構築した。 この新しいデータセットは、質問タイプをfree-form、multiple-choice、yes-noに拡張する。 同時に、前回のデータセットのサイズを拡大し、合計2,058枚のイメージと22,422個の質問・メタの根拠のペアを含む。 最も重要なことは、私たちのモデルは、大きな言語モデルの可能性を解き放つために、よく設計された思考の連鎖(CoT)デモを使用します。 実験の結果,複雑な質問に対する回答精度はCoTプロンプトにより大幅に向上した。 本研究は他の災害シナリオに対するvqa研究のための研究基盤を提供する。

Visual question answering (VQA) is a fundamental and essential AI task, and VQA-based disaster scenario understanding is a hot research topic. For instance, we can ask questions about a disaster image by the VQA model and the answer can help identify whether anyone or anything is affected by the disaster. However, previous VQA models for disaster damage assessment have some shortcomings, such as limited candidate answer space, monotonous question types, and limited answering capability of existing models. In this paper, we propose a zero-shot VQA model named Zero-shot VQA for Flood Disaster Damage Assessment (ZFDDA). It is a VQA model for damage assessment without pre-training. Also, with flood disaster as the main research object, we build a Freestyle Flood Disaster Image Question Answering dataset (FFD-IQA) to evaluate our VQA model. This new dataset expands the question types to include free-form, multiple-choice, and yes-no questions. At the same time, we expand the size of the previous dataset to contain a total of 2,058 images and 22,422 question-meta ground truth pairs. Most importantly, our model uses well-designed chain of thought (CoT) demonstrations to unlock the potential of the large language model, allowing zero-shot VQA to show better performance in disaster scenarios. The experimental results show that the accuracy in answering complex questions is greatly improved with CoT prompts. Our study provides a research basis for subsequent research of VQA for other disaster scenarios.
翻訳日:2023-12-05 15:01:10 公開日:2023-12-04
# SARA-RT: 自己適応型ロバスト注意によるロボットトランスフォーマーのスケールアップ

SARA-RT: Scaling up Robotics Transformers with Self-Adaptive Robust Attention ( http://arxiv.org/abs/2312.01990v1 )

ライセンス: Link先を確認
Isabel Leal, Krzysztof Choromanski, Deepali Jain, Avinava Dubey, Jake Varley, Michael Ryoo, Yao Lu, Frederick Liu, Vikas Sindhwani, Quan Vuong, Tamas Sarlos, Ken Oslund, Karol Hausman, Kanishka Rao(参考訳) 本稿では,ロボットトランスフォーマー(sara-rt)に対して,ロボットトランスフォーマー(rt)のスケールアップという新たな課題に取り組むための新しいパラダイムを提案する。 SARA-RTは、アップトレーニングと呼ばれる、私たちが開発したファインチューニングの新しい手法に依存しています。 トレーニング済みまたはすでに微調整済みのTransformerベースのロボットポリシー(数十億パラメータの視覚言語アクションモデル(VLA)を含む)を、高品質を維持する効率的な線形アテンションモデルに変換する。 高速化によるSARA-RTの有効性を示す。 (a)最近導入されたRT-2モデルのクラス。インターネットスケールデータで事前訓練された最初のVLAロボットポリシーである。 (b)ポイントクラウドトランスフォーマー(pct) 大きなポイントクラウドで動作するロボットポリシー。 我々は,サラ現象に対する深い洞察を与える厳密な数学的解析によって,この結果を補完する。

We present Self-Adaptive Robust Attention for Robotics Transformers (SARA-RT): a new paradigm for addressing the emerging challenge of scaling up Robotics Transformers (RT) for on-robot deployment. SARA-RT relies on the new method of fine-tuning proposed by us, called up-training. It converts pre-trained or already fine-tuned Transformer-based robotic policies of quadratic time complexity (including massive billion-parameter vision-language-action models or VLAs), into their efficient linear-attention counterparts maintaining high quality. We demonstrate the effectiveness of SARA-RT by speeding up: (a) the class of recently introduced RT-2 models, the first VLA robotic policies pre-trained on internet-scale data, as well as (b) Point Cloud Transformer (PCT) robotic policies operating on large point clouds. We complement our results with the rigorous mathematical analysis providing deeper insight into the phenomenon of SARA.
翻訳日:2023-12-05 14:54:23 公開日:2023-12-04
# Vision Foundation Modelsによるスパースフォーマーのブートストラップ

Bootstrapping SparseFormers from Vision Foundation Models ( http://arxiv.org/abs/2312.01987v1 )

ライセンス: Link先を確認
Ziteng Gao, Zhan Tong, Kevin Qinghong Lin, Joya Chen, Mike Zheng Shou(参考訳) 最近提案されたSparseFormerアーキテクチャは、RoIを調整し、計算コストを大幅に削減し、期待できる性能を保ちながら、視覚的トークンの数を大幅に減らし、視覚的理解に代替的なアプローチを提供する。 しかし、スクラッチからSparseFormerをトレーニングするのは依然として高価であり、パラメータの数をスケールアップすることは難しい。 本稿では,視覚基盤モデルからSparseFormersをシンプルかつ効率的な方法でブートストラップすることを提案する。 スパースフォーマーブロックの大部分は標準のトランスフォーマーなので、大型の事前訓練された視覚トランスフォーマーから重みを継承し、可能な限り凍結することができる。 したがって、SparseFormer固有の軽量フォーカス変換器をトレーニングしてトークンRoIを調整し、いくつかの初期トレーニング済みブロックを微調整して、最終的なトークン表現を調整するだけでよい。 このようにして、かなり少ない量のトレーニングサンプル(例えば、in-1k)を使用して、わずか数時間でラベルやキャプションなしで、さまざまな大規模事前学習モデル(例えば、in-21k事前訓練されたaugregやクリップ)からスパースフォーマーアーキテクチャをブートストラップすることができる。 結果として、ブートストラップ付きunimodal SparseFormer(AugReg-ViT-L/16-384)は49個のトークンを持つIN-1K上で84.9%の精度に達し、CLIPsのマルチモーダルSparseFormerはブートストラップ手順中にキャプションを見ることなく、計算コストを非常に削減した優れたゼロショット性能を示す。 さらに、単語を見ることなく出力空間を言語と整列させるCLIP-bootstrapped SparseFormersは、マルチモーダルな大規模言語モデルにおける効率的な視覚エンコーダとして機能する。 コードはhttps://github.com/showlab/sparseformerで公開される。

The recently proposed SparseFormer architecture provides an alternative approach to visual understanding by utilizing a significantly lower number of visual tokens via adjusting RoIs, greatly reducing computational costs while still achieving promising performance. However, training SparseFormers from scratch is still expensive, and scaling up the number of parameters can be challenging. In this paper, we propose to bootstrap SparseFormers from ViT-based vision foundation models in a simple and efficient way. Since the majority of SparseFormer blocks are the standard transformer ones, we can inherit weights from large-scale pre-trained vision transformers and freeze them as much as possible. Therefore, we only need to train the SparseFormer-specific lightweight focusing transformer to adjust token RoIs and fine-tune a few early pre-trained blocks to align the final token representation. In such a way, we can bootstrap SparseFormer architectures from various large-scale pre-trained models (e.g., IN-21K pre-trained AugRegs or CLIPs) using a rather smaller amount of training samples (e.g., IN-1K) and without labels or captions within just a few hours. As a result, the bootstrapped unimodal SparseFormer (from AugReg-ViT-L/16-384) can reach 84.9% accuracy on IN-1K with only 49 tokens, and the multimodal SparseFormer from CLIPs also demonstrates notable zero-shot performance with highly reduced computational cost without seeing any caption during the bootstrapping procedure. In addition, CLIP-bootstrapped SparseFormers, which align the output space with language without seeing a word, can serve as efficient vision encoders in multimodal large language models. Code will be publicly available at https://github.com/showlab/sparseformer
翻訳日:2023-12-05 14:54:07 公開日:2023-12-04
# UniGS:イメージ生成とセグメンテーションのための統一表現

UniGS: Unified Representation for Image Generation and Segmentation ( http://arxiv.org/abs/2312.01985v1 )

ライセンス: Link先を確認
Lu Qi, Lehan Yang, Weidong Guo, Yu Xu, Bo Du, Varun Jampani, Ming-Hsuan Yang(参考訳) 本稿では,画像生成とセグメンテーションのための拡散モデルの統一表現を提案する。 具体的には、カラーマップを使用してエンティティレベルのマスクを表現し、画像RGBドメインと密に表現を調整しながら、さまざまなエンティティ番号の課題に対処する。 マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールを提案する。 一方、位置認識パレットは、エンティティのロケーションに対する色の一貫性を保証する。 一方、プログレッシブ二分法モジュールは、クラスタ番号を知らずに、ディープファーストバイナリサーチにおいて、合成したカラーマップを高品質なエンティティレベルマスクに効率的に復号することができる。 大規模セグメンテーショントレーニングデータの欠如に対処するため,インペインティングパイプラインを用い,インペインティング,画像合成,参照セグメンテーション,エンティティセグメンテーションなど,様々なタスクにおける拡散モデルの柔軟性を向上させる。 総合的な実験により、我々のアプローチの効率を検証し、複数のタスクに対する最先端および適応性に匹敵するセグメンテーションマスクの品質を示す。 コードは \href{https://github.com/qqlu/Entity}{https://github.com/qqlu/Entity} でリリースされる。

This paper introduces a novel unified representation of diffusion models for image generation and segmentation. Specifically, we use a colormap to represent entity-level masks, addressing the challenge of varying entity numbers while aligning the representation closely with the image RGB domain. Two novel modules, including the location-aware color palette and progressive dichotomy module, are proposed to support our mask representation. On the one hand, a location-aware palette guarantees the colors' consistency to entities' locations. On the other hand, the progressive dichotomy module can efficiently decode the synthesized colormap to high-quality entity-level masks in a depth-first binary search without knowing the cluster numbers. To tackle the issue of lacking large-scale segmentation training data, we employ an inpainting pipeline and then improve the flexibility of diffusion models across various tasks, including inpainting, image synthesis, referring segmentation, and entity segmentation. Comprehensive experiments validate the efficiency of our approach, demonstrating comparable segmentation mask quality to state-of-the-art and adaptability to multiple tasks. The code will be released at \href{https://github.com/qqlu/Entity}{https://github.com/qqlu/Entity}.
翻訳日:2023-12-05 14:53:27 公開日:2023-12-04
# ユーザレビューによるモバイルアプリ市場競争のダイナミクスの解明

Unveiling Competition Dynamics in Mobile App Markets through User Reviews ( http://arxiv.org/abs/2312.01981v1 )

ライセンス: Link先を確認
Quim Motger, Xavier Franch, Vincenzo Gervasi and Jordi Marco(参考訳) モバイルアプリリポジトリに公開されたユーザレビューは、特定の市場セグメントにおけるユーザの満足度とエンゲージメントを理解するために不可欠である。 これらのレビューを手動で分析することは、利用可能な大量のデータのために現実的ではなく、自動分析は、データ合成や効果的なレポートなど、いくつかの課題を提起する。 これらの課題は、特に競合アプリの影響を評価する際に、隠れたパターンやアプリ受け入れに関連する重要なイベントを特定することにおける、アプリプロバイダのタスクを複雑にしている。 さらに、レビューベースの分析は、潜在的市場と競争分析を除いて、ほとんどが単一のアプリまたは単一のアプリプロバイダに限定されている。 マイクロブロッギングアプリ市場におけるケーススタディ研究の手法に倣って,新たに公開されたユーザレビューに基づく定量的メトリクスとイベント検出技術を用いて,モバイルアプリ市場分析プロセスを支援する,新たな手法を提案する。 モバイルアプリのライフサイクルにおける過去のベースライン指標と比較することにより、重要なイベントが積極的に特定され、要約される。 本研究の結果から,ソフトウェアやリリースベースのイベント,コンテキストイベント,新たな競争相手の出現など,選択された市場セグメント内の関連事象の検出に関する実証的証拠が得られた。

User reviews published in mobile app repositories are essential for understanding user satisfaction and engagement within a specific market segment. Manual analysis of these reviews is impractical due to the large volume of available data, while automatic analysis poses several challenges, including data synthesis and effective reporting. These challenges complicate the task for app providers in identifying hidden patterns and significant events related to app acceptance, especially in assessing the influence of competitor apps. Furthermore, review-based analysis is mostly limited to a single app or a single app provider, excluding potential market and competition analysis. Following a case-study research method in the microblogging app market, we introduce an automatic, novel approach to support mobile app market analysis processes through quantitative metrics and event detection techniques based on newly published user reviews. Significant events are proactively identified and summarized by comparing metric deviations with historical baseline indicators within the lifecycle of a mobile app. Results from our case study show empirical evidence of the detection of relevant events within the selected market segment, including software- or release-based events, contextual events and the emergence of new competitors.
翻訳日:2023-12-05 14:53:07 公開日:2023-12-04
# Rydberg原子を用いた偏光無感波マイクロ波電気測定

Polarization-insensitive microwave electrometry using Rydberg atoms ( http://arxiv.org/abs/2312.01974v1 )

ライセンス: Link先を確認
M. Cloutman, M. Chilcott, A. Elliott, J.S. Otto, A.B. Deb, N. Kj{\ae}rgaard(参考訳) 線形偏光マイクロ波放射, 一般の$S_{1/2}\leftrightarrow{P}_{1/2}$および$S_{1/2}\leftrightarrow{P}_{3/2}$遷移に共振したリドバーグ原子のオートラー・タウンズ分割について検討した。 このスプリッティングは、電磁誘導透過測定によりレーザー光を用いてプローブされ、プローブレーザー光の透過は2ピークパターンを明らかにする。 特に、このパターンはマイクロ波電界偏光の回転の下で不変である。 その結果,最近の研究結果とは対照的に,偏光無感電測定に理想的に適する$S \leftrightarrow P$ Rydberg転移が得られた。 Chopinaud and J.D. Pritchard, Phys Rev. Appl。 $\mathbf{16}$, 024008 (2021)]

We investigate the Autler-Townes splitting for Rydberg atoms dressed with linearly polarized microwave radiation, resonant with generic $S_{1/2}\leftrightarrow{P}_{1/2}$ and $S_{1/2}\leftrightarrow{P}_{3/2}$ transitions. The splitting is probed using laser light via electromagnetically-induced transparency measurements, where transmission of probe laser light reveals a two-peak pattern. In particular, this pattern is invariant under rotation of the microwave field polarization. In consequence, we establish $S \leftrightarrow P$ Rydberg transitions as ideally suited for polarization-insensitive electrometry, contrary to recent findings [A. Chopinaud and J.D. Pritchard, Phys. Rev. Appl. $\mathbf{16}$, 024008 (2021)].
翻訳日:2023-12-05 14:52:46 公開日:2023-12-04
# フォトニック結晶スラブにおける指向性自発発光

Directional spontaneous emission in photonic crystal slabs ( http://arxiv.org/abs/2312.01971v1 )

ライセンス: Link先を確認
Erik Petrovish Navarro-Bar\'on, Herbert Vinck-Posada and Alejandro Gonz\'alez-Tudela(参考訳) 自然放出は、励起量子エミッタが量子ゆらぎによって基底状態に緩和する最も基本的な平衡過程の1つである。 このプロセスでは、光子を放出し、他の近傍の放射体と相互作用し、スーパーやサブ放射効果を通じてそれらの間の量子相関を確立する。 これらの光子を介する相互作用を修正する方法の1つは、エミッターの双極子放射パターンを変更することである。 最近の例の1つは、線状等周波輪郭とサドル点を特徴とするバンド構造を持つフォトニック結晶を用いて、2次元における超及び準放射効果を高めるための強い指向性発光パターンの生成である。 しかしながら、これらの研究は主に単純化された玩具モデルを使用し、幾何学的依存関係、エミッタ位置、偏光といった側面を含む実際の材料における電磁場の複雑さを見渡す。 本研究は、これらの方向放出パターンと上記の変数の相互作用を考察し、量子光学現象を微調整する未解決のポテンシャルを明らかにする。

Spontaneous emission is one of the most fundamental out-of-equilibrium processes in which an excited quantum emitter relaxes to the ground state due to quantum fluctuations. In this process, a photon is emitted that can interact with other nearby emitters and establish quantum correlations between them, e.g., via super and subradiance effects. One way to modify these photon-mediated interactions is to alter the dipole radiation patterns of the emitter, e.g., by placing photonic crystals near them. One recent example is the generation of strong directional emission patterns-key to enhancing super and subradiance effects-in two dimensions by employing photonic crystals with band structures characterized by linear isofrequency contours and saddle-points. However, these studies have predominantly used oversimplified toy models, overlooking the electromagnetic field's intricacies in actual materials, including aspects like geometrical dependencies, emitter positions, and polarization. Our study delves into the interaction between these directional emission patterns and the aforementioned variables, revealing the untapped potential to fine-tune collective quantum optical phenomena.
翻訳日:2023-12-05 14:52:28 公開日:2023-12-04
# 有限次元フォック空間における最適位相推定

Optimal Phase Estimation in Finite-dimensional Fock Space ( http://arxiv.org/abs/2312.01965v1 )

ライセンス: Link先を確認
Jin-Feng Qin and Yuqian Xu and Jing Liu(参考訳) 位相推定は量子計測の主要なミッションである。 有限次元フォック空間において、NOON状態が最適となるのは、粒子数が空間次元のマイナス 1 に等しくないときであり、この場合の真の最適状態がまだ発見されていないときである。 ここでは、この疑問に答える3つの定理を示し、実際における究極の精度限界を実現するための完全な最適スキームを提供する。 これらの最適状態は、空間次元が計量的資源として扱うことができる重要な事実を示し、与えられたスキームは、弱い光や限られた粒子数が要求されるシナリオにおいて特に有用である。

Phase estimation is a major mission in quantum metrology. In the finite-dimensional Fock space the NOON state ceases to be optimal when the particle number is fixed yet not equal to the space dimension minus one, and what is the true optimal state in this case is still undiscovered. Hereby we present three theorems to answer this question and provide a complete optimal scheme to realize the ultimate precision limit in practice. These optimal states reveal an important fact that the space dimension could be treated as a metrological resource, and the given scheme is particularly useful in scenarios where weak light or limited particle number is demanded.
翻訳日:2023-12-05 14:52:09 公開日:2023-12-04
# 視覚言語モデルを用いたセマンティックス対応運動認識

Semantics-aware Motion Retargeting with Vision-Language Models ( http://arxiv.org/abs/2312.01964v1 )

ライセンス: Link先を確認
Haodong Zhang, ZhiKe Chen, Haocheng Xu, Lei Hao, Xiaofei Wu, Songcen Xu, Zhensong Zhang, Yue Wang, Rong Xiong(参考訳) アニメーションキャラクタ間の動き再ターゲティングには,モーションセマンティクスのキャプチャと保存が不可欠である。 しかし、以前の作品の多くは、意味的な情報を無視したり、人間によって設計されたジョイントレベル表現に依存している。 本稿では,視覚言語モデルを利用して意味のある動作意味論を抽出・維持する新しい意味論認識モーションリターゲティング(smt)手法を提案する。 微分可能なモジュールを用いて3Dモーションを描画する。 次に、視覚言語モデルにレンダリング画像を与え、抽出したセマンティック埋め込みを整合させることにより、高レベルな動きセマンティクスをモーションリターゲティングプロセスに組み込む。 細粒度動作の詳細と高レベルセマンティクスの保持を確保するため,スケルトン対応事前学習と,セマンティクスと幾何学制約による微調整からなる2段階パイプラインを採用する。 提案手法は,高精度な動作セマンティクスを維持しつつ,高品質な動き再ターゲティング結果を生成するのに有効であることを示す。 プロジェクトページはhttps://sites.google.com/view/smtnetにある。

Capturing and preserving motion semantics is essential to motion retargeting between animation characters. However, most of the previous works neglect the semantic information or rely on human-designed joint-level representations. Here, we present a novel Semantics-aware Motion reTargeting (SMT) method with the advantage of vision-language models to extract and maintain meaningful motion semantics. We utilize a differentiable module to render 3D motions. Then the high-level motion semantics are incorporated into the motion retargeting process by feeding the vision-language model with the rendered images and aligning the extracted semantic embeddings. To ensure the preservation of fine-grained motion details and high-level semantics, we adopt a two-stage pipeline consisting of skeleton-aware pre-training and fine-tuning with semantics and geometry constraints. Experimental results show the effectiveness of the proposed method in producing high-quality motion retargeting results while accurately preserving motion semantics. Project page can be found at https://sites.google.com/view/smtnet.
翻訳日:2023-12-05 14:51:57 公開日:2023-12-04
# 共形統計的保証による予測モニタリングへの学習に基づくアプローチ

Learning-Based Approaches to Predictive Monitoring with Conformal Statistical Guarantees ( http://arxiv.org/abs/2312.01959v1 )

ライセンス: Link先を確認
Francesca Cairoli, Luca Bortolussi, Nicola Paoletti(参考訳) 本チュートリアルでは,システムの現在の状態から,所定の要件の将来の実行時違反を検出する,効率的な予測監視手法(PM)に焦点を当てる。 実行時にモデルチェックを実行することはPM問題の正確な解決策となるが、一般に計算コストが高い。 このスケーラビリティ問題に対処するため、機械学習に基づくいくつかの軽量なアプローチが最近提案されている。 これらのアプローチは、高価なモデルチェッカーの近似的かつ効率的な代理(深層学習)モデルを学習することで機能する。 重要な課題は、特に安全クリティカルなアプリケーションにおいて、信頼性の高い予測を保証することだ。 我々は,時間的論理仕様のcps検証のための学習に基づく近似を提案する最初の例であり,厳密な不確実性定量化に共形予測(cp)を適用する最初の例である。 これらのcpベースの不確実性推定者は、学習モデルの一般化誤差に関する統計的保証を提供し、拒否されるべき信頼できない予測を決定するのに使うことができる。 本チュートリアルでは,システムダイナミクス(決定論的,非決定論的,確率的),状態観察可能性,要求満足度の意味論(論理的,定量的)の3つの主次元で決定されるいくつかの変種を詳細に検討し,CPSの予測監視に対するアプローチを要約した包括的・包括的枠組みを提案する。

This tutorial focuses on efficient methods to predictive monitoring (PM), the problem of detecting at runtime future violations of a given requirement from the current state of a system. While performing model checking at runtime would offer a precise solution to the PM problem, it is generally computationally expensive. To address this scalability issue, several lightweight approaches based on machine learning have recently been proposed. These approaches work by learning an approximate yet efficient surrogate (deep learning) model of the expensive model checker. A key challenge remains to ensure reliable predictions, especially in safety-critical applications. We review our recent work on predictive monitoring, one of the first to propose learning-based approximations for CPS verification of temporal logic specifications and the first in this context to apply conformal prediction (CP) for rigorous uncertainty quantification. These CP-based uncertainty estimators offer statistical guarantees regarding the generalization error of the learning model, and they can be used to determine unreliable predictions that should be rejected. In this tutorial, we present a general and comprehensive framework summarizing our approach to the predictive monitoring of CPSs, examining in detail several variants determined by three main dimensions: system dynamics (deterministic, non-deterministic, stochastic), state observability, and semantics of requirements' satisfaction (Boolean or quantitative).
翻訳日:2023-12-05 14:51:39 公開日:2023-12-04
# 合成データを用いたLLMの蒸留自己批判:ベイズ的視点

Distilled Self-Critique of LLMs with Synthetic Data: a Bayesian Perspective ( http://arxiv.org/abs/2312.01957v1 )

ライセンス: Link先を確認
Victor Gallego(参考訳) 本稿では,RLAIFを蒸留した自己臨界(dSC)を導入してベイズ推論として解釈し,後に微調整モデルに蒸留したギブスサンプリング器を用いてLCMの出力を精製する手法を提案する。 合成データのみを必要とするため、dSCは安全性、感情、プライバシコントロールに関する実験で実施されており、LCMの整列のための実用的で安価な代替手段であることを示している。 コードは \url{https://github.com/vicgalle/distilled-self-critique}。

This paper proposes an interpretation of RLAIF as Bayesian inference by introducing distilled Self-Critique (dSC), which refines the outputs of a LLM through a Gibbs sampler that is later distilled into a fine-tuned model. Only requiring synthetic data, dSC is exercised in experiments regarding safety, sentiment, and privacy control, showing it can be a viable and cheap alternative to align LLMs. Code released at \url{https://github.com/vicgalle/distilled-self-critique}.
翻訳日:2023-12-05 14:51:13 公開日:2023-12-04
# 大規模言語モデルを用いたゼロショット知識グラフトリプレット抽出

Zero- and Few-Shots Knowledge Graph Triplet Extraction with Large Language Models ( http://arxiv.org/abs/2312.01954v1 )

ライセンス: Link先を確認
Andrea Papaluca, Daniel Krefl, Sergio Mendez Rodriguez, Artem Lensky, Hanna Suominen(参考訳) 本研究では,Zero-およびFew-Shots設定において,さまざまなサイズの大規模言語モデル(LLM)のトリプルト抽出(TE)機能を検証した。 具体的には,コンテキストトリプレットと(連続,トリプレット)ペアの両方を例として,知識ベース(kb)からコンテキスト情報を動的に収集し,プロンプトを通じてllmに提供するパイプラインを提案する。 追加のコンテキストにより、LLMはBidirectional Long Short-Term Memory (BiLSTM) Networkアーキテクチャに基づいた、より古い完全に訓練されたベースラインと競合することができた。 さらに,収集したkbコンテキストの品質の詳細な分析を行い,モデルの最終的なte性能と強い相関関係があることを見出した。 対照的に、モデルのサイズはLSMのTE能力を対数的に改善しただけである。

In this work, we tested the Triplet Extraction (TE) capabilities of a variety of Large Language Models (LLMs) of different sizes in the Zero- and Few-Shots settings. In detail, we proposed a pipeline that dynamically gathers contextual information from a Knowledge Base (KB), both in the form of context triplets and of (sentence, triplets) pairs as examples, and provides it to the LLM through a prompt. The additional context allowed the LLMs to be competitive with all the older fully trained baselines based on the Bidirectional Long Short-Term Memory (BiLSTM) Network architecture. We further conducted a detailed analysis of the quality of the gathered KB context, finding it to be strongly correlated with the final TE performance of the model. In contrast, the size of the model appeared to only logarithmically improve the TE capabilities of the LLMs.
翻訳日:2023-12-05 14:51:03 公開日:2023-12-04
# ランダム回路による量子計算圧縮電力の最大化

Maximising Quantum-Computing Expressive Power through Randomised Circuits ( http://arxiv.org/abs/2312.01947v1 )

ライセンス: Link先を確認
Yingli Yang, Zongkang Zhang, Anbang Wang, Xiaosi Xu, Xiaoting Wang, Ying Li(参考訳) ノイズの多い中間スケール量子時代において、変分量子アルゴリズム(VQA)は量子優位を得るための有望な道として登場した。 しかしながら、vqasの成功は、制限ゲート数とバレン高原の存在によって制約されるパラメータ化された量子回路の表現力に依存する。 本研究では,可変波動関数を生成するためにランダム化量子回路を用いた新しいvqa手法を提案し,数値的に示す。 これらのランダム回路の分布関数をニューラルネットワークを用いてパラメータ化し,解を求めるために最適化する。 このランダム回路アプローチは、量子回路のサンプリングコストの観点から、変動波動関数の表現力と時間コストの間のトレードオフを示す。 固定ゲート数が与えられると、量子計算時間を延ばすことで、体系的に表現力を高めることができる。 十分に大きな許容時間コストで、変動波動関数は任意の精度で任意の量子状態を近似することができる。 さらに, 変動量子固有解器の表現力, 時間コスト, ゲート数との明確な関係を確立する。 これらの結果は、量子コンピューティングにおいて高い表現力を達成するためのランダム回路アプローチの有望な可能性を強調している。

In the noisy intermediate-scale quantum era, variational quantum algorithms (VQAs) have emerged as a promising avenue to obtain quantum advantage. However, the success of VQAs depends on the expressive power of parameterised quantum circuits, which is constrained by the limited gate number and the presence of barren plateaus. In this work, we propose and numerically demonstrate a novel approach for VQAs, utilizing randomised quantum circuits to generate the variational wavefunction. We parameterize the distribution function of these random circuits using artificial neural networks and optimize it to find the solution. This random-circuit approach presents a trade-off between the expressive power of the variational wavefunction and time cost, in terms of the sampling cost of quantum circuits. Given a fixed gate number, we can systematically increase the expressive power by extending the quantum-computing time. With a sufficiently large permissible time cost, the variational wavefunction can approximate any quantum state with arbitrary accuracy. Furthermore, we establish explicit relationships between expressive power, time cost, and gate number for variational quantum eigensolvers. These results highlight the promising potential of the random-circuit approach in achieving a high expressive power in quantum computing.
翻訳日:2023-12-05 14:50:50 公開日:2023-12-04
# 大規模データセットを用いたインスタンス誘導型マンガ編集

Instance-guided Cartoon Editing with a Large-scale Dataset ( http://arxiv.org/abs/2312.01943v1 )

ライセンス: Link先を確認
Jian Lin, Chengze Li, Xueting Liu and Zhongping Ge(参考訳) カートゥーンの編集は、プロのイラストレーターとホビイストの両方から評価され、幅広い創造的な自由と漫画領域におけるオリジナルの物語の開発を可能にしている。 しかし、漫画編集に関する既存の文献は複雑であり、個々の文字インスタンスの自動識別の難しさから手作業に重きを置いている。 したがって、これらの要素の自動セグメンテーションは、視覚的なスタイル編集、動きの分解、転送、立体的な奥行きの計算といった様々なマンガ編集アプリケーションを容易にするために必須となる。 残念なことに、現在のセグメンテーション手法のほとんどは自然写真のために設計されており、漫画の主題の複雑な美学から認識できず、セグメンテーションの品質が低下している。 主要な課題は、高品質のマンガ専用データセットの豪華さと、マンガの高解像度インスタンス抽出のための有能なモデルがないことだ。 そこで本稿では,100万枚以上の高精細マンガ画像と,それらのサンプルラベリングマスクの高品質データセットを紹介する。 また,画像中の文字に対する高精度なセグメンテーションマスクを生成するインスタンス認識画像セグメンテーションモデルを提案する。 提案手法は,3D Ken Burns のパララックス効果,テキスト誘導の漫画スタイルの編集,イラストやマンガからの人形アニメーションなど,セグメンテーションに依存した漫画編集の応用を可能にする。

Cartoon editing, appreciated by both professional illustrators and hobbyists, allows extensive creative freedom and the development of original narratives within the cartoon domain. However, the existing literature on cartoon editing is complex and leans heavily on manual operations, owing to the challenge of automatic identification of individual character instances. Therefore, an automated segmentation of these elements becomes imperative to facilitate a variety of cartoon editing applications such as visual style editing, motion decomposition and transfer, and the computation of stereoscopic depths for an enriched visual experience. Unfortunately, most current segmentation methods are designed for natural photographs, failing to recognize from the intricate aesthetics of cartoon subjects, thus lowering segmentation quality. The major challenge stems from two key shortcomings: the rarity of high-quality cartoon dedicated datasets and the absence of competent models for high-resolution instance extraction on cartoons. To address this, we introduce a high-quality dataset of over 100k paired high-resolution cartoon images and their instance labeling masks. We also present an instance-aware image segmentation model that can generate accurate, high-resolution segmentation masks for characters in cartoon images. We present that the proposed approach enables a range of segmentation-dependent cartoon editing applications like 3D Ken Burns parallax effects, text-guided cartoon style editing, and puppet animation from illustrations and manga.
翻訳日:2023-12-05 14:50:34 公開日:2023-12-04
# 機械学習と複数データセットを用いた侵入検知システム

Intrusion Detection System with Machine Learning and Multiple Datasets ( http://arxiv.org/abs/2312.01941v1 )

ライセンス: Link先を確認
Haiyan Xuan (1), Mohith Manohar (2) ((1) Carmel High School, (2) Columbia University)(参考訳) 人工知能(AI)技術は現代の世界で勢いを増し続けており、最終的には攻撃的手法を通じて現在のサイバーセキュリティシステムに即座に脅威をもたらす。 Prompt Engineeringは、大規模言語モデル(LLM)をハイジャックできる様々なプロンプト設計を探求する比較的新しい分野である。 非倫理的な攻撃者が使用すれば、悪意のある洞察とコードをAIシステムが提供できるようになる。 本稿では,機械学習(ml)とハイパーパラメータチューニングを用いた拡張侵入検出システム(ids)について検討し,精度と有効性の観点からモデルの性能を向上させる。 最終的には、この改良されたシステムは、非倫理的なハッカーによる攻撃と戦うために使用できる。 標準のIDSは、あらかじめ設定されたルールとパターンでのみ構成されるが、機械学習の利用により、暗黙的および異なるパターンはモデルのハイパーパラメータ設定とパラメータによって生成される。 さらに、idには複数のデータセットが備えられ、モデルの精度が向上する。 我々は,複数のmlモデルとそのハイパーパラメータ設定の性能を各種指標を用いて評価し,その結果を他のモデルと過去の研究結果と比較した。 XGBoostとランダム森林分類器とランダム化されたSearchCVハイパーパラメーター技術を搭載した場合,マルチデータセット統合方式の結果,99.9%の精度が得られた。

As Artificial Intelligence (AI) technologies continue to gain traction in the modern-day world, they ultimately pose an immediate threat to current cybersecurity systems via exploitative methods. Prompt engineering is a relatively new field that explores various prompt designs that can hijack large language models (LLMs). If used by an unethical attacker, it can enable an AI system to offer malicious insights and code to them. In this paper, an enhanced intrusion detection system (IDS) that utilizes machine learning (ML) and hyperparameter tuning is explored, which can improve a model's performance in terms of accuracy and efficacy. Ultimately, this improved system can be used to combat the attacks made by unethical hackers. A standard IDS is solely configured with pre-configured rules and patterns; however, with the utilization of machine learning, implicit and different patterns can be generated through the models' hyperparameter settings and parameters. In addition, the IDS will be equipped with multiple datasets so that the accuracy of the models improves. We evaluate the performance of multiple ML models and their respective hyperparameter settings through various metrics to compare their results to other models and past research work. The results of the proposed multi-dataset integration method yielded an accuracy score of 99.9% when equipped with the XGBoost and random forest classifiers and RandomizedSearchCV hyperparameter technique.
翻訳日:2023-12-05 14:50:07 公開日:2023-12-04
# 強化学習における移動の基礎:知識モダリティの分類

Foundations for Transfer in Reinforcement Learning: A Taxonomy of Knowledge Modalities ( http://arxiv.org/abs/2312.01939v1 )

ライセンス: Link先を確認
Markus Wulfmeier, Arunkumar Byravan, Sarah Bechtle, Karol Hausman, Nicolas Heess(参考訳) 現代の人工知能システムは、必要なリソースの成長、拡張的なデータセット、それに対応するコンピューティングインフラストラクチャへの投資に伴う、急速に成長している能力を示す。 初期の成功は主に制約のある設定に重点を置いていたが、最近の基礎研究やアプリケーションにおける進歩は、ますます一般的なシステムを作り出そうとしている。 この発展する風景は、知識の一般化と伝達を洗練する上での機会と課題の二重パノラマをもたらし、新しい問題に取り組むための包括的基盤としての既存の情報源からの抽出と適応である。 強化学習(RL)の領域内では、知識の表現は、力学や報酬モデル、値関数、ポリシー、および元のデータなど、様々なモダリティを通して表される。 この分類学は、これらの様相を体系的に標的とし、それらの固有の性質と異なる目的と伝達のメカニズムに基づく議論の枠組みとなっている。 可能ならば,環境相互作用の制限,計算効率の最大化,変化の軸をまたいだ一般化の促進といった要件に対処する,粗い指針の策定を目標とする。 最後に、これらのフロンティアを推し進める背景にある本質的なポテンシャルである、特定の転送の頻度や不足に寄与する理由を分析し、移行から学習への移行の重要性を明らかにする。

Contemporary artificial intelligence systems exhibit rapidly growing abilities accompanied by the growth of required resources, expansive datasets and corresponding investments into computing infrastructure. Although earlier successes predominantly focus on constrained settings, recent strides in fundamental research and applications aspire to create increasingly general systems. This evolving landscape presents a dual panorama of opportunities and challenges in refining the generalisation and transfer of knowledge - the extraction from existing sources and adaptation as a comprehensive foundation for tackling new problems. Within the domain of reinforcement learning (RL), the representation of knowledge manifests through various modalities, including dynamics and reward models, value functions, policies, and the original data. This taxonomy systematically targets these modalities and frames its discussion based on their inherent properties and alignment with different objectives and mechanisms for transfer. Where possible, we aim to provide coarse guidance delineating approaches which address requirements such as limiting environment interactions, maximising computational efficiency, and enhancing generalisation across varying axes of change. Finally, we analyse reasons contributing to the prevalence or scarcity of specific forms of transfer, the inherent potential behind pushing these frontiers, and underscore the significance of transitioning from designed to learned transfer.
翻訳日:2023-12-05 14:49:44 公開日:2023-12-04
# エビデンス最大化による行動推論:世界モデルによる観察からのゼロショット模倣

Action Inference by Maximising Evidence: Zero-Shot Imitation from Observation with World Models ( http://arxiv.org/abs/2312.02019v1 )

ライセンス: Link先を確認
Xingyuan Zhang, Philip Becker-Ehmck, Patrick van der Smagt, Maximilian Karl(参考訳) 新しい行動を学ぶために非現実的な環境相互作用を必要とする多くの強化学習エージェントとは異なり、人間は他人を観察し模倣するだけで素早く学習することができる。 この能力は、人間が観察された行動に繋がる最も可能性の高い行動を推測できる独自の実施形態のモデルを持っているという事実に大きく依存する。 本稿では,この行動を世界モデルを用いて再現するために,AIME(Maximising Evidence)を用いた行動推論を提案する。 AIMEは2つの異なるフェーズから構成される。 第1段階では、エージェントは過去の経験から世界モデルを学び、ELBOを最大化することで自身の身体を理解する。 第2フェーズでは、エージェントは、新しいタスクを実行する専門家の観察のみのデモンストレーションを行い、専門家の行動を模倣しようとする。 AIMEは、ポリシーを推論モデルとして定義し、ポリシーと世界モデルの下で実証の証拠を最大化する。 本手法は,実演後に世界モデルやオンライン環境とのインタラクションのさらなるトレーニングを必要としないという意味で「ゼロショット」である。 我々はdeepmindコントロールスイートのwalkerとcheetahの具体化において,提案手法のゼロショット模倣性能を実証的に検証し,その性能が最先端のベースラインよりも優れていることを発見した。 コードはhttps://github.com/argmax-ai/aimeで入手できる。

Unlike most reinforcement learning agents which require an unrealistic amount of environment interactions to learn a new behaviour, humans excel at learning quickly by merely observing and imitating others. This ability highly depends on the fact that humans have a model of their own embodiment that allows them to infer the most likely actions that led to the observed behaviour. In this paper, we propose Action Inference by Maximising Evidence (AIME) to replicate this behaviour using world models. AIME consists of two distinct phases. In the first phase, the agent learns a world model from its past experience to understand its own body by maximising the ELBO. While in the second phase, the agent is given some observation-only demonstrations of an expert performing a novel task and tries to imitate the expert's behaviour. AIME achieves this by defining a policy as an inference model and maximising the evidence of the demonstration under the policy and world model. Our method is "zero-shot" in the sense that it does not require further training for the world model or online interactions with the environment after given the demonstration. We empirically validate the zero-shot imitation performance of our method on the Walker and Cheetah embodiment of the DeepMind Control Suite and find it outperforms the state-of-the-art baselines. Code is available at: https://github.com/argmax-ai/aime.
翻訳日:2023-12-05 14:45:02 公開日:2023-12-04
# CBCTからCT合成のための多チャンネルサイクルGAN

A multi-channel cycleGAN for CBCT to CT synthesis ( http://arxiv.org/abs/2312.02017v1 )

ライセンス: Link先を確認
Chelsea A. H. Sargeant, Edward G. A. Henderson, D\'onal M. McSweeney, Aaron G. Rankin, Denis Page(参考訳) 画像合成は、画像品質を改善し、正確な線量計算を可能にし、CBCTベースの適応放射線治療ワークフローを容易にする、オントリートコーンビームCT(CBCT)から合成CT(sCT)を生成するために用いられる。 この研究領域が勢いを増しているため、sct生成法の発展は、大きな公開データセットの欠如とトレーニング手順のばらつきのため、比較が困難である。 sCT生成の最新の進歩を比較し評価するために、SynthRAD2023 Challengeは、MRとCBCTの両方のための公開データセットと評価フレームワークを提供する。 第2の課題はcbctからsctへの合成である。 画像の特徴を強調するために多チャンネル入力を利用することで, cbctイメージングに固有の課題のいくつかを効果的に解決し, 患者の解剖の正確な可視化に必要なコントラストを復元する。 さらに,生成したsCT画像の忠実度をさらに高めるために,補助核融合ネットワークを導入する。

Image synthesis is used to generate synthetic CTs (sCTs) from on-treatment cone-beam CTs (CBCTs) with a view to improving image quality and enabling accurate dose computation to facilitate a CBCT-based adaptive radiotherapy workflow. As this area of research gains momentum, developments in sCT generation methods are difficult to compare due to the lack of large public datasets and sizeable variation in training procedures. To compare and assess the latest advancements in sCT generation, the SynthRAD2023 challenge provides a public dataset and evaluation framework for both MR and CBCT to sCT synthesis. Our contribution focuses on the second task, CBCT-to-sCT synthesis. By leveraging a multi-channel input to emphasize specific image features, our approach effectively addresses some of the challenges inherent in CBCT imaging, whilst restoring the contrast necessary for accurate visualisation of patients' anatomy. Additionally, we introduce an auxiliary fusion network to further enhance the fidelity of generated sCT images.
翻訳日:2023-12-05 14:44:22 公開日:2023-12-04
# ColonNeRF:高忠実長周期大腸内視鏡手術のための神経放射場

ColonNeRF: Neural Radiance Fields for High-Fidelity Long-Sequence Colonoscopy Reconstruction ( http://arxiv.org/abs/2312.02015v1 )

ライセンス: Link先を確認
Yufei Shi, Beijia Lu, Jia-Wei Liu, Ming Li, Mike Zheng Shou(参考訳) 大腸内視鏡検査は大腸癌の診断に重要である。 しかし, 大腸内視鏡検査の精度は, (1) 蛇行と畳み込みによる大腸セグメント間の相違, (2) 単純で複雑に折り畳まれた形状構造の共存, (3) 制約付きカメラの軌跡による視点の欠如という3つの課題に直面している。 これらの課題に対処するために,神経根野(neural radiance field,nerf)に基づく新しい再構成フレームワークであるcolonnerfを導入する。 特に,大腸全体を断片的に再構築するために,我々のColonNeRFは領域分割と統合モジュールを導入し,形状の相違を効果的に低減し,各セグメントの幾何的整合性を確保する。 統一されたフレームワークで単純な幾何学と複雑な幾何学の両方を学ぶために、我々のColonNeRFは、コロニー領域を徐々にモデル化する多層融合モジュールを組み込んでいる。 さらに,sparse viewからの課題を克服するために,カメラポーズのデンシネットモジュールを,意味的一貫性の指導のもとに考案する。 人工と実世界の両方のデータセットについて広範な実験を行い、ColonNeRFを評価する。 定量的に,colonnerfは既存の手法を2つのベンチマークで4つの評価指標で上回っている。 特に、我々のLPIPS-ALEXスコアは、SimCol-to-3Dデータセットで約67%-85%増加している。 質的には,より明瞭なテクスチャとより正確な幾何学的詳細を示す。 これらは最先端のメソッドよりも優れたパフォーマンスを十分に示しています。

Colonoscopy reconstruction is pivotal for diagnosing colorectal cancer. However, accurate long-sequence colonoscopy reconstruction faces three major challenges: (1) dissimilarity among segments of the colon due to its meandering and convoluted shape; (2) co-existence of simple and intricately folded geometry structures; (3) sparse viewpoints due to constrained camera trajectories. To tackle these challenges, we introduce a new reconstruction framework based on neural radiance field (NeRF), named ColonNeRF, which leverages neural rendering for novel view synthesis of long-sequence colonoscopy. Specifically, to reconstruct the entire colon in a piecewise manner, our ColonNeRF introduces a region division and integration module, effectively reducing shape dissimilarity and ensuring geometric consistency in each segment. To learn both the simple and complex geometry in a unified framework, our ColonNeRF incorporates a multi-level fusion module that progressively models the colon regions from easy to hard. Additionally, to overcome the challenges from sparse views, we devise a DensiNet module for densifying camera poses under the guidance of semantic consistency. We conduct extensive experiments on both synthetic and real-world datasets to evaluate our ColonNeRF. Quantitatively, our ColonNeRF outperforms existing methods on two benchmarks over four evaluation metrics. Notably, our LPIPS-ALEX scores exhibit a substantial increase of about 67%-85% on the SimCol-to-3D dataset. Qualitatively, our reconstruction visualizations show much clearer textures and more accurate geometric details. These sufficiently demonstrate our superior performance over the state-of-the-art methods.
翻訳日:2023-12-05 14:43:52 公開日:2023-12-04
# ベイズ最適化を用いた多次元パラメータ空間における最適データ生成

Optimal Data Generation in Multi-Dimensional Parameter Spaces, using Bayesian Optimization ( http://arxiv.org/abs/2312.02012v1 )

ライセンス: Link先を確認
M. R. Mahani, Igor A. Nechepurenko, Yasmin Rahimof, Andreas Wicht(参考訳) 正確な機械学習(ML)モデルをトレーニングするための大量のデータポイントを取得することは、データ収集がリソース集約的な科学分野において大きな課題である。 本稿では,複雑な多次元パラメータ空間におけるmlモデルの学習のための最小かつ高情報データベースを構築するための新しい手法を提案する。 これを実現するために、ガウス過程回帰(GPR)を用いて出力パラメータと入力パラメータの関係を模倣する。 既知のデータの集合を用いて、GPRは未知のデータに対する予測手段と標準偏差を提供する。 GPRによる予測標準偏差を考慮し,ベイジアン最適化を用いてデータ点を選択し,MLモデルの学習に有効なデータベースを得る。 本手法により得られたデータベースに基づいて学習したMLモデルの性能と,従来の手法を用いたデータベースとの比較を行った。 その結果,ベイジアン最適化手法を用いて学習したデータベース上で学習したMLモデルは,他の2つのデータベースより一貫して優れており,精度は極めて低い。 本研究は,高次元複素パラメータ空間におけるデータ収集に寄与し,高精度な機械学習予測を実現する。

Acquiring a substantial number of data points for training accurate machine learning (ML) models is a big challenge in scientific fields where data collection is resource-intensive. Here, we propose a novel approach for constructing a minimal yet highly informative database for training ML models in complex multi-dimensional parameter spaces. To achieve this, we mimic the underlying relation between the output and input parameters using Gaussian process regression (GPR). Using a set of known data, GPR provides predictive means and standard deviation for the unknown data. Given the predicted standard deviation by GPR, we select data points using Bayesian optimization to obtain an efficient database for training ML models. We compare the performance of ML models trained on databases obtained through this method, with databases obtained using traditional approaches. Our results demonstrate that the ML models trained on the database obtained using Bayesian optimization approach consistently outperform the other two databases, achieving high accuracy with a significantly smaller number of data points. Our work contributes to the resource-efficient collection of data in high-dimensional complex parameter spaces, to achieve high precision machine learning predictions.
翻訳日:2023-12-05 14:43:07 公開日:2023-12-04
# 偽情報問題とは何か? 支配的パラダイムの見直しと代替社会政治観のモチベーション

What is the disinformation problem? Reviewing the dominant paradigm and motivating an alternative sociopolitical view ( http://arxiv.org/abs/2312.02011v1 )

ライセンス: Link先を確認
Nicholas Rabb(参考訳) 偽情報研究は、大きな社会現象を説明するために報告された、広く偽りの、疑わしい信念に反応して広まった。 しかし、偽情報の影響はよく知られているが、その原因についてはコンセンサスが少なく、研究はいくつかの分野にまたがっており、それぞれ異なる部分に焦点を当てている。 本稿は,米国の広く普及している偽情報談話(学術的著作,メディア,企業的,政府的物語)をレビューし,問題の内容,個人,グループ,機関的層に関する学際的談話を分析して,偽情報問題の主要な理解,パラダイムを概説することで,この成長分野に寄与する。 その結果は、主にソーシャルメディア、悪意のある個人または国家、不合理な人々を非難する個人主義的な説明である。 特に、真理と合理性に関する限定的で個人主義的な見解は、抑圧的なイデオロギーとメディアまたは国内俳優が、欠陥のある世界観を作り、偽情報を広げる上での影響を曖昧にしている。 この論文は、世界の主観的なモデルが合理性や情報処理を支配できる代替の社会政治パラダイム(主に社会的なアイデンティティとグループアイデンティティ)を定め、組織的なアクター(組織、メディア、政党、政府)が彼らの行動の正当性を維持したり、獲得したりすることで締めくくくっている。

Disinformation research has proliferated in reaction to widespread false, problematic beliefs purported to explain major social phenomena. Yet while the effects of disinformation are well-known, there is less consensus about its causes; the research spans several disciplines, each focusing on different pieces. This article contributes to this growing field by reviewing prevalent U.S. disinformation discourse (academic writing, media, and corporate and government narrative) and outlining the dominant understanding, or paradigm, of the disinformation problem by analyzing cross-disciplinary discourse about the content, individual, group, and institutional layers of the problem. The result is an individualistic explanation largely blaming social media, malicious individuals or nations, and irrational people. Yet this understanding has shortcomings: notably, that its limited, individualistic views of truth and rationality obscures the influence of oppressive ideologies and media or domestic actors in creating flawed worldviews and spreading disinformation. The article then concludes by putting forth an alternative, sociopolitical paradigm that allows subjective models of the world to govern rationality and information processing -- largely informed by social and group identity -- which are being formed and catered to by institutional actors (corporations, media, political parties, and the government) to maintain or gain legitimacy for their actions.
翻訳日:2023-12-05 14:42:22 公開日:2023-12-04
# 身体的ナビゲーションのためのジェネリストモデル学習に向けて

Towards Learning a Generalist Model for Embodied Navigation ( http://arxiv.org/abs/2312.02010v1 )

ライセンス: Link先を確認
Duo Zheng, Shijia huang, Lin Zhao, Yiwu Zhong, Liwei Wang(参考訳) 世界と対話できる汎用エージェントの構築は、AIシステムの興味深いターゲットであり、エージェントが指示に従ってナビゲートしたり、クエリに応答する必要のある、実施されたナビゲーションの研究を促進する。 達成された大きな進歩にもかかわらず、以前の作業は主にタスク固有のエージェントに焦点が当てられ、見当たらないシナリオの一般化が欠如していた。 近年、LSMは様々な分野において顕著な能力を示しており、航法を具現化するための有望な機会を提供している。 そこで本研究では,NaviLLMを具体化したナビゲーションモデルを提案する。 スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。 スキーマベースの命令は、様々なタスクを柔軟に生成問題にキャストし、幅広いタスクを統一する。 このアプローチにより、さまざまなデータセットからさまざまなデータソースをトレーニングに統合でき、具体化されたナビゲーションに必要な幅広い機能にnavillmを組み合わせることができます。 我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。 実験により, CVDN, SOON, ScanQA上での最先端性能が得られた。 具体的には、CVDNにおける目標進捗の29%のかなりのマージンで、従来の最先端の手法を上回っている。 さらに,本モデルは,質問応答や3次元キャプションなどの非認識タスクにおいて,強い一般化可能性を示し,印象的な結果を示す。

Building a generalist agent that can interact with the world is the intriguing target of AI systems, thus spurring the research for embodied navigation, where an agent is required to navigate according to instructions or respond to queries. Despite the major progress attained, previous works primarily focus on task-specific agents and lack generalizability to unseen scenarios. Recently, LLMs have presented remarkable capabilities across various fields, and provided a promising opportunity for embodied navigation. Drawing on this, we propose the first generalist model for embodied navigation, NaviLLM. It adapts LLMs to embodied navigation by introducing schema-based instruction. The schema-based instruction flexibly casts various tasks into generation problems, thereby unifying a wide range of tasks. This approach allows us to integrate diverse data sources from various datasets into the training, equipping NaviLLM with a wide range of capabilities required by embodied navigation. We conduct extensive experiments to evaluate the performance and generalizability of our model. The experimental results demonstrate that our unified model achieves state-of-the-art performance on CVDN, SOON, and ScanQA. Specifically, it surpasses the previous stats-of-the-art method by a significant margin of 29% in goal progress on CVDN. Moreover, our model also demonstrates strong generalizability and presents impressive results on unseen tasks, e.g., embodied question answering and 3D captioning.
翻訳日:2023-12-05 14:41:34 公開日:2023-12-04
# 合成ゲージ場に基づくマルチノードネットワークのキラル励起流

Chiral excitation flows of multinode network based on synthetic gauge fields ( http://arxiv.org/abs/2312.02009v1 )

ライセンス: Link先を確認
Fo-Hong Wang, Xian-Liang Lu, Jia-Jin Zou, Ze-Liang Xiang(参考訳) キラル励起流は独特の一方向性のために多くの注目を集めている。 このような流れは合成ゲージ場(SGF)を持つ3ノードネットワークで研究されているが、ノード数が増加するにつれてほとんど実現されない。 そこで本研究では,補助ノードを導入してシステムの制御を行う,$n$-nodeネットワークにおけるカイラルフローを実現する手法を提案する。 この補助ノードは全てのネットワークノードに結合され、これらのネットワーク内の干渉経路を持つサブ三角形構造を形成する。 完全カイラル流の背後にある暗黙的なカイラル対称性を発見し,従来のモデルを含む普遍的な基準を提案し,様々なネットワークにおけるカイラル伝達の実装を容易にする。 これらのモデル内の対称性を調べることで、ボソニックネットワークとスピンネットワークのカイラルフローの異なる特徴を示す。 さらに,4ノードモデルをラダーネットワークに拡張することで,複雑さの少ない実用システムにおける遠隔状態転送を実現する。 この方式は超伝導回路や磁気フォトニック格子といった最先端の実験システムで実現でき、将来の量子ネットワークに新たな可能性をもたらす。

Chiral excitation flows have drawn a lot of attention for their unique unidirectionality. Such flows have been studied in three-node networks with synthetic gauge fields (SGFs), while they are barely realized as the number of nodes increases. In this work, we propose a scheme to achieve chiral flows in $n$-node networks, where an auxiliary node is introduced to govern the system. This auxiliary node is coupled to all the network nodes, forming sub-triangle structures with interference paths in these networks. We find the implicit chiral symmetry behind the perfect chiral flow and propose the universal criteria that incorporate previous models, facilitating the implementation of chiral transmission in various networks. By investigating the symmetries within these models, we present different features of the chiral flow in bosonic and spin networks. Furthermore, we extend the four-node model into a ladder network, which is promising for remote state transfer in practical systems with less complexity. Our scheme can be realized in state-of-the-art experimental systems, such as superconducting circuits and magnetic photonic lattices, thereby opening up new possibilities for future quantum networks.
翻訳日:2023-12-05 14:41:11 公開日:2023-12-04
# ブロッホ圏内の混合量子状態の幾何学的側面

Geometric aspects of mixed quantum states inside the Bloch sphere ( http://arxiv.org/abs/2312.02004v1 )

ライセンス: Link先を確認
Paul M. Alsing, Carlo Cafaro, Domenico Felice, Orlando Luongo(参考訳) 量子状態の幾何学を研究する際、混合状態が無限に多くのメトリクスによって区別できることが認識される。 残念ながら、この自由度は、複雑性や量子状態の体積のような物理的に重要な幾何学量の計量依存的な解釈を引き起こす。 本稿では,Bloch球内におけるBulesとSj\"oqvistの測定値の違いについて,洞察に富んだ議論を行う。 まず、2つのメトリクス間の形式的な比較分析から始め、各メトリックに対する3つの代替解釈を批判的に議論する。 第二に、2つの計量多様体のそれぞれ上の測地線経路の異なる挙動を明示する。 第三に、2つの測度で計算した場合、初期状態と最終混合状態の有限距離を比較する。 興味深いことに、異なる計量函数を備えた実ユークリッド空間の位相的側面(例えば、通常のユークリッド計量とタクティカブ計量)を研究する場合の類似性として、混合量子状態間の有限距離の概念に基づく相対的ランキングは、バーとsj\"oqvist計量とで決定される距離を比較すると保存されないことが観測される。 最後に,混合量子状態の複雑性と体積の概念に対するメートル法に基づく相対的ランキングの破れの帰結に関する簡単な議論を締めくくった。

When studying the geometry of quantum states, it is acknowledged that mixed states can be distinguished by infinitely many metrics. Unfortunately, this freedom causes metric-dependent interpretations of physically significant geometric quantities such as complexity and volume of quantum states. In this paper, we present an insightful discussion on the differences between the Bures and the Sj\"oqvist metrics inside a Bloch sphere. First, we begin with a formal comparative analysis between the two metrics by critically discussing three alternative interpretations for each metric. Second, we illustrate explicitly the distinct behaviors of the geodesic paths on each one of the two metric manifolds. Third, we compare the finite distances between an initial and final mixed state when calculated with the two metrics. Interestingly, in analogy to what happens when studying topological aspects of real Euclidean spaces equipped with distinct metric functions (for instance, the usual Euclidean metric and the taxicab metric), we observe that the relative ranking based on the concept of finite distance among mixed quantum states is not preserved when comparing distances determined with the Bures and the Sj\"oqvist metrics. Finally, we conclude with a brief discussion on the consequences of this violation of a metric-based relative ranking on the concept of complexity and volume of mixed quantum states.
翻訳日:2023-12-05 14:40:54 公開日:2023-12-04
# 大規模言語モデル(llm)のセキュリティとプライバシに関する調査

A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly ( http://arxiv.org/abs/2312.02003v1 )

ライセンス: Link先を確認
Yifan Yao, Jinhao Duan, Kaidi Xu, Yuanfang Cai, Eric Sun and Yue Zhang(参考訳) gpt-3やbertといった大規模言語モデル(llm)は、自然言語理解と生成に革命をもたらした。 それらは、深い言語理解、人間に似たテキスト生成能力、文脈認識、堅牢な問題解決スキルを持ち、様々な領域(検索エンジン、カスタマーサポート、翻訳など)で有用である。 一方、LLMはセキュリティコミュニティでも注目を集めており、セキュリティ上の脆弱性を明らかにし、セキュリティ関連のタスクにおけるその可能性を示している。 本稿では,LLMとセキュリティとプライバシの交わりについて考察する。 具体的には、LSMがセキュリティとプライバシ、それらの使用に関連する潜在的なリスクと脅威、およびLSM内の固有の脆弱性にどう影響するかを検討する。 包括的な文献レビューを通じて、論文は、"the good"(有害なllmアプリケーション)、"the bad"(有害アプリケーション)、"the ugly"(脆弱性とその防御)に調査結果を分類している。 興味深い発見があります 例えば、LLMはコードとデータセキュリティを強化し、従来のメソッドよりも優れています。 しかし、人間のような推論能力により、様々な攻撃(特にユーザーレベルの攻撃)にも利用できる。 我々はさらなる研究を必要とする分野を特定した。 例えば、モデルとパラメータ抽出攻撃の研究は、LLMパラメータスケールと機密性によって制限され、しばしば理論的に妨げられる。 最近の開発であるセーフインストラクションチューニングは、さらなる探索を必要とする。 LLMがサイバーセキュリティを強化し、危険に晒す可能性に光を当てられることを願っています。

Large Language Models (LLMs), such as GPT-3 and BERT, have revolutionized natural language understanding and generation. They possess deep language comprehension, human-like text generation capabilities, contextual awareness, and robust problem-solving skills, making them invaluable in various domains (e.g., search engines, customer support, translation). In the meantime, LLMs have also gained traction in the security community, revealing security vulnerabilities and showcasing their potential in security-related tasks. This paper explores the intersection of LLMs with security and privacy. Specifically, we investigate how LLMs positively impact security and privacy, potential risks and threats associated with their use, and inherent vulnerabilities within LLMs. Through a comprehensive literature review, the paper categorizes findings into "The Good" (beneficial LLM applications), "The Bad" (offensive applications), and "The Ugly" (vulnerabilities and their defenses). We have some interesting findings. For example, LLMs have proven to enhance code and data security, outperforming traditional methods. However, they can also be harnessed for various attacks (particularly user-level attacks) due to their human-like reasoning abilities. We have identified areas that require further research efforts. For example, research on model and parameter extraction attacks is limited and often theoretical, hindered by LLM parameter scale and confidentiality. Safe instruction tuning, a recent development, requires more exploration. We hope that our work can shed light on the LLMs' potential to both bolster and jeopardize cybersecurity.
翻訳日:2023-12-05 14:40:34 公開日:2023-12-04
# 立方体サテライト量子鍵分布の終端デモ

End-to-End Demonstration for CubeSatellite Quantum Key Distribution ( http://arxiv.org/abs/2312.02002v1 )

ライセンス: Link先を確認
Peide Zhang, Jaya Sagar, Elliott Hasting, Milan Stefko, Siddarth Joshi, John Rarity(参考訳) 量子鍵分布(QKD)は、物理法則を用いてセキュリティを確保する方法を提供し、計算複雑性によって保護される暗号システムに固有のリスクを避ける。 本稿では,小型ナノサテライトを用いた衛星ベースの量子鍵交換の実現可能性について検討する。 本稿では,キューブ衛星シナリオを対象としたシステムレベルの量子鍵分布の最初のプロトタイプを示す。 送信機ペイロードと地上受信機と模擬自由空間チャネルで構成され、QKD用に設計されたタイミングと同期(T&S)スキームと、QKDとT&Sチャネルの両方の高損失耐性を検証している。 トランスミッターは、イギリスと国際的な様々なナノサテライトミッションに配備されるように設計されている。 セキュア鍵レート (SKR) と量子ビット誤りレート (QBER) に対するチャネル損失, 背景雑音, ゲート幅, 平均光子数の影響について検討した。 また,qberの源を解析し,有効信号雑音比(esnr)と雑音レベル,信号強度,ゲーティングウインドウおよびその他のパラメータの関係をskr最適化の基準として定式化する。 実験により、宇宙空間で期待される40dBの損失を地上QKDに許容でき、小さな調整デコイ状態が達成できることが示された。 この議論は、小型の低コスト衛星ベースのQKDシステムの設計と最適化だけでなく、地上または空中の他の短距離または長距離自由空間QKDに対しても貴重な洞察を与える。

Quantum key distribution (QKD) provides a method of ensuring security using the laws of physics, avoiding the risks inherent in cryptosystems protected by computational complexity. Here we investigate the feasibility of satellite-based quantum key exchange using low-cost compact nano-satellites. This paper demonstrates the first prototype of system level quantum key distribution aimed at the Cube satellite scenario. It consists of a transmitter payload, a ground receiver and simulated free space channel to verify the timing and synchronisation (T&S) scheme designed for QKD and the required high loss tolerance of both QKD and T&S channels. The transmitter is designed to be deployed on various up-coming nano-satellite missions in the UK and internationally. The effects of channel loss, background noise, gate width and mean photon number on the secure key rate (SKR) and quantum bit error rate (QBER) are discussed. We also analyse the source of QBER and establish the relationship between effective signal noise ratio (ESNR) and noise level, signal strength, gating window and other parameters as a reference for SKR optimization. The experiment shows that it can tolerate the 40 dB loss expected in space to ground QKD and with small adjustment decoy states can be achieved. The discussion offers valuable insight not only for the design and optimization of miniature low-cost satellite-based QKD systems but also any other short or long range free space QKD on the ground or in the air.
翻訳日:2023-12-05 14:40:10 公開日:2023-12-04
# SRTransGAN: Transformer を用いた生成逆数ネットワークを用いた画像超解法

SRTransGAN: Image Super-Resolution using Transformer based Generative Adversarial Network ( http://arxiv.org/abs/2312.01999v1 )

ライセンス: Link先を確認
Neeraj Baghel, Shiv Ram Dubey, Satish Kumar Singh(参考訳) 画像超解像は低解像度画像から高解像度画像を合成することを目的としている。 低解像度オブジェクト認識や医用画像強調など、いくつかのアプリケーションで解決限界を克服する活動的な領域である。 GANベースの手法は、畳み込みニューラルネットワーク(CNN)ベースのジェネレータと識別器ネットワークを利用して、画像超解像のための最先端技術である。 しかし、cnnは、自己着脱機構を活用し、ディープラーニングの最近のブレークスルーであるトランスフォーマーとは対照的に、グローバル情報を非常に効果的に活用できない。 言語および視覚応用におけるトランスフォーマーの成功から、トランスフォーマーベースGANを用いた画像超解像のためのSRTransGANを提案する。 具体的には、2x画像と4x画像を生成するジェネレータとしてトランスフォーマーベースのエンコーダデコーダネットワークを提案する。 イメージをパッチのシーケンスとして用い,合成画像と実高分解能画像の2値分類に有用な視覚トランスフォーマを用いて識別器ネットワークを設計する。 提案したSRTransGANは、PSNRとSSIMのスコアの平均で、既存の手法よりも4.38%優れていた。 また,提案手法の学習能力を理解するために,saliency mapの解析を行った。

Image super-resolution aims to synthesize high-resolution image from a low-resolution image. It is an active area to overcome the resolution limitations in several applications like low-resolution object-recognition, medical image enhancement, etc. The generative adversarial network (GAN) based methods have been the state-of-the-art for image super-resolution by utilizing the convolutional neural networks (CNNs) based generator and discriminator networks. However, the CNNs are not able to exploit the global information very effectively in contrast to the transformers, which are the recent breakthrough in deep learning by exploiting the self-attention mechanism. Motivated from the success of transformers in language and vision applications, we propose a SRTransGAN for image super-resolution using transformer based GAN. Specifically, we propose a novel transformer-based encoder-decoder network as a generator to generate 2x images and 4x images. We design the discriminator network using vision transformer which uses the image as sequence of patches and hence useful for binary classification between synthesized and real high-resolution images. The proposed SRTransGAN outperforms the existing methods by 4.38 % on an average of PSNR and SSIM scores. We also analyze the saliency map to understand the learning ability of the proposed method.
翻訳日:2023-12-05 14:39:41 公開日:2023-12-04
# ゼロショット合成画像検索における言語のみの学習

Language-only Efficient Training of Zero-shot Composed Image Retrieval ( http://arxiv.org/abs/2312.01998v1 )

ライセンス: Link先を確認
Geonmo Gu and Sanghyuk Chun and Wonjae Kim and Yoohoon Kang and Sangdoo Yun(参考訳) 合成画像検索(CIR)タスクは、画像とテキストの合成クエリーを取り、両方の条件で相対的な画像を検索する。 従来のcirアプローチでは、クエリイメージ、クエリテキスト、ターゲットイメージの三重項からなるトレーニングデータセットが必要です。 いくつかの最近の研究は、ゼロショット(ZS)のCIRパラダイムを使って、事前にコンパイルされた三つ子を使わずにこの問題に対処している。 しかし、既存のZS-CIR法では、トレーニング中に入力テキストの多様性が欠如しているため、バックボーンのスケーラビリティと一般化性が制限されている。 本稿では,学習に言語のみを用いる新しいCIRフレームワークを提案する。 我々のLinCIR(Language-only training for CIR)は、SMP(Self-Masking projection)と呼ばれる新しいセルフスーパービジョンによって、テキストデータセットでのみ訓練することができる。 我々はトークン埋め込み空間に遅延埋め込みしたテキストを投影し、元のテキストのキーワードトークンを置き換えることで新しいテキストを構築する。 次に、新しいテキストとオリジナルのテキストが同じ潜在埋め込みベクトルを持つようにします。 この単純な戦略ではLinCIRは驚くほど効率的かつ効果的で、CLIP ViT-Gバックボーンを使用したLinCIRは48分でトレーニングされ、CIRCO、GeneCIS、FashionIQ、CIRRの4つのCIRベンチマークで最高のZS-CIRパフォーマンスを示し、FashionIQの教師ありメソッドよりも優れています。 コードはhttps://github.com/navervision/lincirで入手できる。

Composed image retrieval (CIR) task takes a composed query of image and text, aiming to search relative images for both conditions. Conventional CIR approaches need a training dataset composed of triplets of query image, query text, and target image, which is very expensive to collect. Several recent works have worked on the zero-shot (ZS) CIR paradigm to tackle the issue without using pre-collected triplets. However, the existing ZS-CIR methods show limited backbone scalability and generalizability due to the lack of diversity of the input texts during training. We propose a novel CIR framework, only using language for its training. Our LinCIR (Language-only training for CIR) can be trained only with text datasets by a novel self-supervision named self-masking projection (SMP). We project the text latent embedding to the token embedding space and construct a new text by replacing the keyword tokens of the original text. Then, we let the new and original texts have the same latent embedding vector. With this simple strategy, LinCIR is surprisingly efficient and highly effective; LinCIR with CLIP ViT-G backbone is trained in 48 minutes and shows the best ZS-CIR performances on four different CIR benchmarks, CIRCO, GeneCIS, FashionIQ, and CIRR, even outperforming supervised method on FashionIQ. Code is available at https://github.com/navervision/lincir
翻訳日:2023-12-05 14:39:18 公開日:2023-12-04
# fMRIデータにおける関数接続性を用いた自己監督型フレームワーク

A Generative Self-Supervised Framework using Functional Connectivity in fMRI Data ( http://arxiv.org/abs/2312.01994v1 )

ライセンス: Link先を確認
Jungwon Choi, Seongho Keum, EungGu Yun, Byung-Hoon Kim, Juho Lee(参考訳) 機能的磁気共鳴イメージング(fMRI)データから抽出された機能的接続性(FC)ネットワークを訓練したディープニューラルネットワークは、データの利用可能性の向上とグラフニューラルネットワーク(GNN)を含むモデルアーキテクチャの進歩により人気を博している。 gnnのfcへの適用に関する最近の研究は、fcの時間変動特性を活用すれば、モデル予測の精度と解釈性が大幅に向上することを示唆している。 しかし、高品質なfMRIデータとそれに対応する表現型ラベルを取得するための高コストは、教師付き方式で"訓練されたモデルna\"が、少数のデータに対する性能の不足や一般化の欠如に悩まされるような、現実的な環境での彼らの応用にハードルをもたらす。 さらに、GNNの従来の自己監視学習(SSL)アプローチでは、グラフ構造が乱れていたり、空間的情報と時間的情報の両方を同時に利用しなかったりすると、適切な意味情報を失う傾向にある。 これらの課題を踏まえて,動的FC内の時空間情報を効果的に活用するための生成型SSL手法を提案する。 大規模な(>50,000)fMRIデータセットを用いて実験した実験結果から,提案手法が重要な表現を学習し,下流タスクの微調整を行う際に,正確かつ堅牢なモデルの構築を可能にすることを示す。

Deep neural networks trained on Functional Connectivity (FC) networks extracted from functional Magnetic Resonance Imaging (fMRI) data have gained popularity due to the increasing availability of data and advances in model architectures, including Graph Neural Network (GNN). Recent research on the application of GNN to FC suggests that exploiting the time-varying properties of the FC could significantly improve the accuracy and interpretability of the model prediction. However, the high cost of acquiring high-quality fMRI data and corresponding phenotypic labels poses a hurdle to their application in real-world settings, such that a model na\"ively trained in a supervised fashion can suffer from insufficient performance or a lack of generalization on a small number of data. In addition, most Self-Supervised Learning (SSL) approaches for GNNs to date adopt a contrastive strategy, which tends to lose appropriate semantic information when the graph structure is perturbed or does not leverage both spatial and temporal information simultaneously. In light of these challenges, we propose a generative SSL approach that is tailored to effectively harness spatio-temporal information within dynamic FC. Our empirical results, experimented with large-scale (>50,000) fMRI datasets, demonstrate that our approach learns valuable representations and enables the construction of accurate and robust models when fine-tuned for downstream tasks.
翻訳日:2023-12-05 14:38:52 公開日:2023-12-04
# 非局所性は? de broglie 二重解の時間対称バージョンを用いた de broglie bohm パイロット波理論からの距離でのスプーキーな作用の除去

Whence Nonlocality? Removing spooky action at a distance from the de Broglie Bohm pilot-wave theory using a time-symmetric version of de Broglie double solution ( http://arxiv.org/abs/2312.01992v1 )

ライセンス: Link先を確認
Aur\'elien Drezet(参考訳) 本研究では、ルイ・ド・ブロイによる量子力学を現実的に解釈するための古い試み、すなわち二重解の検証と拡張を行う。 この理論では、量子粒子は相対論的非線形場方程式の解である局所波、すなわちソリトンである。 ここでは、この古い研究の自然な拡張であり、粒子に収束する進行波と遅延波の存在を必要とする強い時間対称性に依存している。 この方法を用いることで、波動粒子双対性を正当化し、ベルの不等式違反を説明することができる。 さらに、この理論は、しばしばボーム力学として知られるde borglieとbohmのパイロット波理論の予測を復元する。 直接の結果として、パイロット波理論に現れる距離での非局所作用を再解釈する。 ここで開発された二重解では、基本的に距離での作用はないが、理論は時間対称性によって駆動される超決定論の形式を必要とする。

In this work, we review and extend a version of the old attempt made by Louis de broglie for interpreting quantum mechanics in realistic terms, namely the double solution. In this theory quantum particles are localized waves, i.e, solitons, that are solutions of relativistic nonlinear field equations. The theory that we present here is the natural extension of this old work and relies on a strong time-symmetry requiring the presence of advanced and retarded waves converging on particles. Using this method, we are able to justify wave-particle duality and to explain the violations of Bell's inequalities. Moreover, the theory recovers the predictions of the pilot-wave theory of de Borglie and Bohm, often known as Bohmian mechanics. As a direct consequence, we reinterpret the nonlocal action at a distance presents in the pilot-wave theory. In the double solution developed here there is fundamentally no action at a distance but the theory requires a form of superdeterminism driven by time-symmetry.
翻訳日:2023-12-05 14:38:24 公開日:2023-12-04
# 情報修正K-Nearest Neighbor

Information Modified K-Nearest Neighbor ( http://arxiv.org/abs/2312.01991v1 )

ライセンス: Link先を確認
Mohammad Ali Vahedifar, Azim Akhtarshenas, Mariam Sabbaghian, Mohammad Rafatpanah(参考訳) 本稿では,K-Nearest Neighbors(KNN)アルゴリズムの性能向上を目的とした新しい分類手法を提案する。 本手法では,相互情報(MI)を利用して重みの重要度を高め,協調ゲーム理論を起源とする概念であるShapley値からインスピレーションを得る。 knnの基礎となる基本的な概念は、k-ネアレスト近傍の多数派に基づくサンプルの分類である。 これらの隣人の距離とラベルはどちらも重要であるが、伝統的なKNNは、その距離とラベルに基づいて隣人の様々な重要性を考慮して、すべてのサンプルと予防に等しく重みを割り当てている。 IMKNN(Information-Modified KNN)と呼ばれる提案手法では,簡単なアルゴリズムを導入することでこの問題に対処する。 提案手法の有効性を評価するため、7種類のKNNと従来のKNNを比較した。 これらのバリエーションは、それぞれ独自の利点と限界を示している。 提案手法の精度,精度,リコールの観点から評価し,12種類の広く利用されているデータセットの実験を行った。 本研究は、IMKNNが様々な分類タスクにおいて優れた性能を示すことにより、異なるデータセットや基準をまたいだ他の手法よりも一貫して優れていることを示す。 これらの知見は、多様なアプリケーションにおけるKNNアルゴリズムの能力を向上するための貴重なツールとして、IMKNNの可能性を強調している。

In this research paper, we introduce a novel classification method aimed at improving the performance of the K-Nearest Neighbors (KNN) algorithm. Our approach leverages Mutual Information (MI) to enhance the significance of weights and draw inspiration from Shapley values, a concept originating from cooperative game theory, to refine value allocation. The fundamental concept underlying KNN is the classification of samples based on the majority thorough their k-nearest neighbors. While both the distances and labels of these neighbors are crucial, traditional KNN assigns equal weight to all samples and prevance considering the varying importance of each neighbor based on their distances and labels. In the proposed method, known as Information-Modified KNN (IMKNN), we address this issue by introducing a straightforward algorithm. To evaluate the effectiveness of our approach, it is compared with 7 contemporary variants of KNN, as well as the traditional KNN. Each of these variants exhibits its unique advantages and limitations. We conduct experiments on 12 widely-used datasets, assessing the methods' performance in terms of accuracy, precision and recall. Our study demonstrates that IMKNN consistently outperforms other methods across different datasets and criteria by highlighting its superior performance in various classification tasks. These findings underscore the potential of IMKNN as a valuable tool for enhancing the capabilities of the KNN algorithm in diverse applications.
翻訳日:2023-12-05 14:38:04 公開日:2023-12-04
# ガウスアヴァタル(gaussianavatars) - 3dガウス人の頭を持つフォトリアリスティックなアバター

GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians ( http://arxiv.org/abs/2312.02069v1 )

ライセンス: Link先を確認
Shenhan Qian, Tobias Kirschstein, Liam Schoneveld, Davide Davoli, Simon Giebenhain, Matthias Nie{\ss}ner(参考訳) 表現、ポーズ、視点の面で完全に制御可能なフォトリアリスティックな頭部アバターを作成する新しい手法であるgaussianavatarsを紹介する。 中心となる考え方は、3次元ガウススプレートに基づく動的3次元表現であり、パラメトリックな形態素面モデルに結びついている。 この組み合わせは、例えば、駆動シーケンスからの式転送や、手動で変形可能なモデルパラメータを変更することで、基礎となるパラメトリックモデルによる正確なアニメーション制御を可能にする。 三角形の局所座標フレームで各スプレートをパラメータ化し、明示的な変位オフセットを最適化し、より正確な幾何学表現を得る。 アバター再構成では, 変形可能なモデルパラメータとガウススプラットパラメータを, エンドツーエンドで共同で最適化する。 我々は,フォトリアリスティックアバターのアニメーション機能を,いくつかの困難なシナリオで実演する。 例えば、我々の手法が既存の作品よりも大きなマージンで勝る駆動ビデオからの再現例を示す。

We introduce GaussianAvatars, a new method to create photorealistic head avatars that are fully controllable in terms of expression, pose, and viewpoint. The core idea is a dynamic 3D representation based on 3D Gaussian splats that are rigged to a parametric morphable face model. This combination facilitates photorealistic rendering while allowing for precise animation control via the underlying parametric model, e.g., through expression transfer from a driving sequence or by manually changing the morphable model parameters. We parameterize each splat by a local coordinate frame of a triangle and optimize for explicit displacement offset to obtain a more accurate geometric representation. During avatar reconstruction, we jointly optimize for the morphable model parameters and Gaussian splat parameters in an end-to-end fashion. We demonstrate the animation capabilities of our photorealistic avatar in several challenging scenarios. For instance, we show reenactments from a driving video, where our method outperforms existing works by a significant margin.
翻訳日:2023-12-05 14:31:38 公開日:2023-12-04
# 局所濾過による絡み合い強化に対する主要化理論的アプローチ

Majorization theoretical approach to entanglement enhancement via local filtration ( http://arxiv.org/abs/2312.02066v1 )

ライセンス: Link先を確認
Zacharie Van Herstraeten, Nicolas J. Cerf, Saikat Guha, Christos N. Gagatsos(参考訳) 偏極化理論の観点から,局所濾過操作を用いて2モード圧縮真空(TMSV)状態の絡み合いを高める方法について検討する。 本稿では,光子付加とサブトラクションによる絡み合い向上を実現し,各モードで局所(非単体)演算子と作用する一般的な確率的手法として濾過を考える。 このことから、TMSV状態の絡み合いを高めるのに十分なフィルター作用素に関する2つの条件の集合、すなわち、作用素はフォック直交(フォック状態の直交性を保つこと)とフォック増幅(フォック状態のより大きな振幅を与えること)でなければならない。 以上の結果から, 理想光子付加, サブトラクション, およびそれらの結合は常に, 偏化理論におけるTMSV状態の絡み合いを高めることが示唆された。 さらに、実写的な光子付加(減算)の場合についても検討し、実写的な光子付加(減算)されたtmsv状態と、tmsvよりも確実に絡み合う近傍状態との間の距離を上限にすることができるので、近似大域化の概念を用いて、実用的スキームへの絡み合い強化を拡張できる。 最後に、TMSV状態に$k$-photonの加算(2つのモードのそれぞれに)によって生じる状態について考察する。 解析学的に、$k=1$に対応する状態が$2\leq k \leq 8$に対応する任意の状態を行列化し、全ての$k\geq 9$に対するステートメントの妥当性を推測する。

From the perspective of majorization theory, we study how to enhance the entanglement of a two-mode squeezed vacuum (TMSV) state by using local filtration operations. We present several schemes achieving entanglement enhancement with photon addition and subtraction, and then consider filtration as a general probabilistic procedure consisting in acting with local (non-unitary) operators on each mode. From this, we identify a sufficient set of two conditions on filtration operators for successfully enhancing the entanglement of a TMSV state, namely the operators must be Fock-orthogonal (i.e., preserving the orthogonality of Fock states) and Fock-amplifying (i.e., giving larger amplitudes to larger Fock states). Our results notably prove that ideal photon addition, subtraction, and any concatenation thereof always enhance the entanglement of a TMSV state in the sense of majorization theory. We further investigate the case of realistic photon addition (subtraction) and are able to upper bound the distance between a realistic photon-added (-subtracted) TMSV state and a nearby state that is provably more entangled than the TMSV, thus extending entanglement enhancement to practical schemes via the use of a notion of approximate majorization. Finally, we consider the state resulting from $k$-photon addition (on each of the two modes) on a TMSV state. We prove analytically that the state corresponding to $k=1$ majorizes any state corresponding to $2\leq k \leq 8$ and we conjecture the validity of the statement for all $k\geq 9$.
翻訳日:2023-12-05 14:31:21 公開日:2023-12-04
# LLMは年齢や教育レベルに適応しているか?

Know Your Audience: Do LLMs Adapt to Different Age and Education Levels? ( http://arxiv.org/abs/2312.02065v1 )

ライセンス: Link先を確認
Donya Rooein, Amanda Cercas Curry, Dirk Hovy(参考訳) 大きな言語モデル(LLM)は、テキストを異なるオーディエンスに適応させるなど、さまざまな新しい可能性を提供します。 しかし、どの程度順応するのか? 我々は,4つの最先端のLCM(商用およびオープンソース)による,異なる年齢層と教育レベルを対象にした科学質問に対する回答の可読性を評価する。 多様なオーディエンスに対するllmの適応性を評価するために,生成した応答の可読性スコアを,各年齢・教育グループの推奨理解レベルと比較した。 我々は、異なるllmによる回答の可読性に大きな変化を見出す。 以上の結果から, LLMの回答は, より理解しやすいように, 対象読者層に適応する必要があることが示唆された。 彼らは多様な年齢と教育水準に対応するために教育環境におけるllmの適応性を高めることの重要性を強調している。 全体として、現在のLLMは可読性の範囲を設定しており、刺激しても異なるオーディエンスに順応しない。 それは教育目的の可能性を制限します。

Large language models (LLMs) offer a range of new possibilities, including adapting the text to different audiences and their reading needs. But how well do they adapt? We evaluate the readability of answers generated by four state-of-the-art LLMs (commercial and open-source) to science questions when prompted to target different age groups and education levels. To assess the adaptability of LLMs to diverse audiences, we compare the readability scores of the generated responses against the recommended comprehension level of each age and education group. We find large variations in the readability of the answers by different LLMs. Our results suggest LLM answers need to be better adapted to the intended audience demographics to be more comprehensible. They underline the importance of enhancing the adaptability of LLMs in education settings to cater to diverse age and education levels. Overall, current LLMs have set readability ranges and do not adapt well to different audiences, even when prompted. That limits their potential for educational purposes.
翻訳日:2023-12-05 14:30:48 公開日:2023-12-04
# 太陽系外惑星トランジット検出のためのGPU位相フォルダリングと深層学習法

The GPU Phase Folding and Deep Learning Method for Detecting Exoplanet Transits ( http://arxiv.org/abs/2312.02063v1 )

ライセンス: Link先を確認
Kaitlyn Wang, Kevin Wang, Jian Ge, Yinan Zhao, Kevin Willis(参考訳) 本稿では,新しいグラフィック処理ユニット(gpu)位相折り畳み・畳み込みニューラルネットワーク(cnn)システムgpfcを用いて,トランジット法を用いて太陽系外惑星を検出する。 本研究では,gpu上で並列化された高速折り畳みアルゴリズムを考案し,低信号対雑音比のトランジット信号を増幅し,高精度かつ高速に探索する。 CNNは200万の合成光度曲線をトレーニングし、それぞれの周期で惑星の信号の可能性を示すスコアを報告した。 GPFCは、主要なBox-fitting Least Squares (BLS) 法よりも3桁の速度を改善する。 シミュレーションの結果,GPFCのトレーニング精度は97%であり,検出の偽陽性率が高いこと,BLSと比較した場合の再現率が高いことが判明した。 GPFCはケプラーの光度曲線で知られている超短周期惑星の100%をブラインドサーチから回収する。 これらの結果は、ケプラーやK2、TESS、将来のPLATO、Earth 2.0などの宇宙輸送ミッションで得られたデータから、新しいトランジット系外惑星を見つけるための従来のBLSアルゴリズムに代わるアプローチとしてのGPFCの可能性を強調している。

This paper presents GPFC, a novel Graphics Processing Unit (GPU) Phase Folding and Convolutional Neural Network (CNN) system to detect exoplanets using the transit method. We devise a fast folding algorithm parallelized on a GPU to amplify low signal-to-noise ratio transit signals, allowing a search at high precision and speed. A CNN trained on two million synthetic light curves reports a score indicating the likelihood of a planetary signal at each period. GPFC improves on speed by three orders of magnitude over the predominant Box-fitting Least Squares (BLS) method. Our simulation results show GPFC achieves 97% training accuracy, higher true positive rate at the same false positive rate of detection, and higher precision at the same recall rate when compared to BLS. GPFC recovers 100% of known ultra-short-period planets in Kepler light curves from a blind search. These results highlight the promise of GPFC as an alternative approach to the traditional BLS algorithm for finding new transiting exoplanets in data taken with Kepler and other space transit missions such as K2, TESS and future PLATO and Earth 2.0.
翻訳日:2023-12-05 14:30:29 公開日:2023-12-04
# DUCK:Centroid Kinematicsによる遠隔学習

DUCK: Distance-based Unlearning via Centroid Kinematics ( http://arxiv.org/abs/2312.02052v1 )

ライセンス: Link先を確認
Marco Cotogni, Jacopo Bonato, Luigi Sabetta, Francesco Pelosin and Alessandro Nicolosi(参考訳) 機械学習は新しい分野として成長しており、現代の人工知能モデルでプライバシーを確保する必要性が高まっている。 このテクニックは、トレーニング中に神経モデルによって獲得された知識から、特定のデータサブセットの残留影響を根絶することを目的としている。 本研究は, 遠心運動学 (duck) を用いた距離ベースアンラーニング ( distance-based unlearning) と呼ばれる新しいアンラーニングアルゴリズムを提案する。 アルゴリズムの性能評価は、クラス除去と均質なサンプリング除去という2つの異なるシナリオで、様々なベンチマークデータセット間で行われ、最先端のパフォーマンスが得られる。 対象データを忘れる際の未学習プロセスの有効性だけでなく,元のモデルに対する性能損失の定量化も含む,適応未学習スコア(Adaptive Unlearning Score, AUS)と呼ばれる新しいメトリクスを導入する。 さらに,従来の知識を消去するアルゴリズムの能力を評価するために,新たなメンバシップ推論攻撃を提案する。

Machine Unlearning is rising as a new field, driven by the pressing necessity of ensuring privacy in modern artificial intelligence models. This technique primarily aims to eradicate any residual influence of a specific subset of data from the knowledge acquired by a neural model during its training. This work introduces a novel unlearning algorithm, denoted as Distance-based Unlearning via Centroid Kinematics (DUCK), which employs metric learning to guide the removal of samples matching the nearest incorrect centroid in the embedding space. Evaluation of the algorithm's performance is conducted across various benchmark datasets in two distinct scenarios, class removal, and homogeneous sampling removal, obtaining state-of-the-art performance. We introduce a novel metric, called Adaptive Unlearning Score (AUS), encompassing not only the efficacy of the unlearning process in forgetting target data but also quantifying the performance loss relative to the original model. Moreover, we propose a novel membership inference attack to assess the algorithm's capacity to erase previously acquired knowledge, designed to be adaptable to future methodologies.
翻訳日:2023-12-05 14:30:04 公開日:2023-12-04
# TimeChat: 長時間ビデオ理解のための時間依存型マルチモーダル大言語モデル

TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding ( http://arxiv.org/abs/2312.02051v1 )

ライセンス: Link先を確認
Shuhuai Ren, Linli Yao, Shicheng Li, Xu Sun, Lu Hou(参考訳) この研究は、時間に敏感なマルチモーダルな大規模言語モデルであるTimeChatを提案する。 本モデルでは,(1)視覚コンテンツを各フレームのタイムスタンプにバインドするタイムスタンプ認識フレームエンコーダ,(2)様々な期間の映像に対応するために長さの異なるビデオトークン列を生成するスライディングビデオqフォーマという,2つの重要なアーキテクチャ上の貢献を取り入れている。 さらに,6つのタスクと125Kインスタンスを含む命令調整データセットを構築し,TimeChatの命令追従性能をさらに向上させる。 濃密なキャプション、時間的接地、ハイライト検出など、さまざまなビデオ理解タスクの実験結果は、TimeChatの強いゼロショット時間的ローカライゼーションと推論能力を示している。 例えば、YouCook2の +9.2 F1 スコアと +2.8 CIDEr、QVHighlightsの +5.8 HIT@1、Charades-STAの +27.5 R@1 (IoU=0.5) を、最先端のビデオ大言語モデルと比較すると達成している。

This work proposes TimeChat, a time-sensitive multimodal large language model specifically designed for long video understanding. Our model incorporates two key architectural contributions: (1) a timestamp-aware frame encoder that binds visual content with the timestamp of each frame, and (2) a sliding video Q-Former that produces a video token sequence of varying lengths to accommodate videos of various durations. Additionally, we construct an instruction-tuning dataset, encompassing 6 tasks and a total of 125K instances, to further enhance TimeChat's instruction-following performance. Experiment results across various video understanding tasks, such as dense captioning, temporal grounding, and highlight detection, demonstrate TimeChat's strong zero-shot temporal localization and reasoning capabilities. For example, it achieves +9.2 F1 score and +2.8 CIDEr on YouCook2, +5.8 HIT@1 on QVHighlights, and +27.5 R@1 (IoU=0.5) on Charades-STA, compared to state-of-the-art video large language models, holding the potential to serve as a versatile video assistant for long-form video comprehension tasks and satisfy realistic user requirements.
翻訳日:2023-12-05 14:29:45 公開日:2023-12-04
# カー・ニューマン時空における重力-電磁相

Gravitational-electromagnetic phase in the Kerr-Newman spacetime ( http://arxiv.org/abs/2312.02049v1 )

ライセンス: Link先を確認
Zhongyou Mo(参考訳) カー・ニューマン時空における荷電粒子の重力-電磁気位相を計算する。 この結果は干渉実験に適用され、位相差とフランジシフトが導出される。 粒子の電荷とブラックホールの電荷の両方が重力相の差に寄与し、定性的な説明を与える。 最後に、dyonic kerr-newmanブラックホールの時空におけるdyonic粒子の場合に結果を拡張する。

We calculate the gravitational-electromagnetic phase for a charged particle in the Kerr-Newman spacetime. The result is applied to an interference experiment, in which the phase differences and the fringe shifts are derived. We find that both the charge of the particle and the charge of the black hole contribute to the gravitational phase difference, for which we give some qualitative explanations. Finally, we extend the results to the case of dyonic particles in the spacetime of a dyonic Kerr-Newman black hole.
翻訳日:2023-12-05 14:29:16 公開日:2023-12-04
# ハイブリッド量子回路におけるエンタングルメント・マジック分離

Entanglement-magic separation in hybrid quantum circuits ( http://arxiv.org/abs/2312.02039v1 )

ライセンス: Link先を確認
Gerald E. Fux, Emanuele Tirrito, Marcello Dalmonte, Rosario Fazio(参考訳) マジックは量子状態から最も近い安定状態までの距離を記述する。 それは--- 絡み合いのように--- 古典的コンピューティングに対する潜在的な量子上の優位性に必要なリソースである。 安定器エントロピーによって定量化されたマジックを,射影計測と非クリフォード資源の注入制御を併用したハイブリッド量子回路で研究した。 そこで本研究では,(sub)-extensive と area law scaling の相転移を,測定速度によって制御する。 同じ回路はエンタングルメントの相転移を示すが、これは異なる臨界測定速度で現れる。 このメカニズムは、潜在的量子アドバンテージの観点から、ハイブリッド回路が、絡み合いだけでなく、密度行列の他の非線形特性が作用する複数の異なる遷移をホストする方法を示している。

Magic describes the distance of a quantum state to its closest stabilizer state. It is -- like entanglement -- a necessary resource for a potential quantum advantage over classical computing. We study magic, quantified by stabilizer entropy, in a hybrid quantum circuit with projective measurements and a controlled injection of non-Clifford resources. We discover a phase transition between a (sub)-extensive and area law scaling of magic controlled by the rate of measurements. The same circuit also exhibits a phase transition in entanglement that appears, however, at a different critical measurement rate. This mechanism shows how, from the viewpoint of a potential quantum advantage, hybrid circuits can host multiple distinct transitions where not only entanglement, but also other non-linear properties of the density matrix come into play.
翻訳日:2023-12-05 14:29:09 公開日:2023-12-04
# GFS:関係データベース上の予測のためのグラフベースの特徴合成

GFS: Graph-based Feature Synthesis for Prediction over Relational Databases ( http://arxiv.org/abs/2312.02037v1 )

ライセンス: Link先を確認
Han Zhang, Quan Gan, David Wipf, Weinan Zhang(参考訳) リレーショナルデータベースは、現代の様々な情報システムアプリケーションで広く使われており、常に貴重なデータパターンを持っている。 リレーショナルデータベースでは、大量のデータマイニングや機械学習タスクが行われています。 しかしながら、ほとんどのモデルが主に単一のテーブル設定用に調整されているため、リレーショナルデータベース用に特別に設計された限定された機械学習モデルがあることに注意が必要だ。 したがって、リレーショナルデータベースに格納されたデータで機械学習モデルをトレーニングするための一般的なアプローチは、複数のテーブルからデータを1つのテーブルにマージし、その後1つのテーブルモデルを適用する機能エンジニアリングを行うことである。 このアプローチは機能エンジニアリングに多大な労力を必要とするだけでなく、データに存在する固有のリレーショナル構造を破壊します。 これらの課題に対処するために,グラフベース特徴合成(GFS)と呼ばれる新しいフレームワークを提案する。 GFSは関係データベースを不均一グラフとして定式化し、データ内の関係構造を保存する。 単一テーブルモデルからの帰納バイアスを活用することで、GFSは各テーブル固有の複雑な関係を効果的にキャプチャする。 さらに、フレームワーク全体が手動の機能エンジニアリングの必要性をなくしている。 4つの実世界のマルチテーブルリレーショナルデータベースに対する広範な実験において、GFSはリレーショナルデータベース用に設計された従来の手法よりも優れており、その優れた性能を示している。

Relational databases are extensively utilized in a variety of modern information system applications, and they always carry valuable data patterns. There are a huge number of data mining or machine learning tasks conducted on relational databases. However, it is worth noting that there are limited machine learning models specifically designed for relational databases, as most models are primarily tailored for single table settings. Consequently, the prevalent approach for training machine learning models on data stored in relational databases involves performing feature engineering to merge the data from multiple tables into a single table and subsequently applying single table models. This approach not only requires significant effort in feature engineering but also destroys the inherent relational structure present in the data. To address these challenges, we propose a novel framework called Graph-based Feature Synthesis (GFS). GFS formulates the relational database as a heterogeneous graph, thereby preserving the relational structure within the data. By leveraging the inductive bias from single table models, GFS effectively captures the intricate relationships inherent in each table. Additionally, the whole framework eliminates the need for manual feature engineering. In the extensive experiment over four real-world multi-table relational databases, GFS outperforms previous methods designed for relational databases, demonstrating its superior performance.
翻訳日:2023-12-05 14:28:55 公開日:2023-12-04
# マルチパラメータ量子推定のための漁業情報感受性

Fisher information susceptibility for multiparameter quantum estimation ( http://arxiv.org/abs/2312.02035v1 )

ライセンス: Link先を確認
Marco Barbieri, Ilaria Gianani, Marco G. Genoni(参考訳) 我々は、フィッシャー情報計測ノイズの感受性の概念をマルチパラメータ量子推定シナリオに拡張する。 数学的定義を与えた後、その感受性に対する上界と下界を導出する。 これらの手法をマルチパラメータ推定の2つのパラダイム的例に適用し、位相拡散と位相拡散の合同推定と、光学的点源の不整合混合を記述した異なるパラメータの推定を行う。 本稿では,マルチパラメータ測定の堅牢性を許容または阻害する条件について,明確な指標を提供する。

We extend the notion of the Fisher information measurement noise susceptibility to the multiparameter quantum estimation scenario. After giving its mathematical definition, we derive an upper and a lower bound to the susceptibility. We then apply these techniques to two paradigmatic examples of multiparameter estimation: the joint estimation of phase and phase-diffusion and the estimation of the different parameters describing the incoherent mixture of optical point sources. Our figure provides clear indications on conditions allowing or hampering robustness of multiparameter measurements.
翻訳日:2023-12-05 14:28:36 公開日:2023-12-04
# 仮想量子マルコフ連鎖

Virtual Quantum Markov Chains ( http://arxiv.org/abs/2312.02031v1 )

ライセンス: Link先を確認
Yu-Ao Chen, Chengkai Zhu, Keming He, Mingrui Jing, Xin Wang(参考訳) 量子マルコフ連鎖は、確率変数の古典マルコフ連鎖を量子領域に一般化し、固有の性質を示し、量子情報理論において重要な特徴である。 本研究では,仮想量子マルコフ連鎖 (virtual quantum markov chains, vqmcs) の概念を提案する。 量子マルコフ連鎖の一般化として、VQMCは局所的な量子演算と測定によって任意のグローバルな影情報をサブシステムから回収できる状態を特徴づける。 仮想量子マルコフ連鎖の代数的特徴付けを行い、量子量子回復はそのサブシステム上の量子状態のブロック行列によって完全に決定されることを示す。 特に、W 状態が VQMC であり、GHZ 状態がそうでないことを示すことによって、二種類の三部交絡の区別が見つかる。 さらに,仮想量子マルコフ連鎖の最適サンプリングオーバーヘッドとロバスト性を決定するための半定プログラムを確立する。 最適サンプリングオーバヘッドは付加的であり,vqmc状態の並列呼び出しからのリカバリのサンプリングコストをさらに削減するフリーランチがないことを示す。 量子マルコフ連鎖と仮想量子マルコフ連鎖の区別を解明し、量子回復の理解を測定統計から古典的な情報を優先するシナリオにまで拡張した。

Quantum Markov chains generalize classical Markov chains for random variables to the quantum realm and exhibit unique inherent properties, making them an important feature in quantum information theory. In this work, we propose the concept of virtual quantum Markov chains (VQMCs), focusing on scenarios where subsystems retain classical information about global systems from measurement statistics. As a generalization of quantum Markov chains, VQMCs characterize states where arbitrary global shadow information can be recovered from subsystems through local quantum operations and measurements. We present an algebraic characterization for virtual quantum Markov chains and show that the virtual quantum recovery is fully determined by the block matrices of a quantum state on its subsystems. Notably, we find a distinction between two classes of tripartite entanglement by showing that the W state is a VQMC while the GHZ state is not. Furthermore, we establish semidefinite programs to determine the optimal sampling overhead and the robustness of virtual quantum Markov chains. We demonstrate the optimal sampling overhead is additive, indicating no free lunch to further reduce the sampling cost of recovery from parallel calls of the VQMC states. Our findings elucidate distinctions between quantum Markov chains and virtual quantum Markov chains, extending our understanding of quantum recovery to scenarios prioritizing classical information from measurement statistics.
翻訳日:2023-12-05 14:28:29 公開日:2023-12-04
# グローバルローカライゼーションのためのポーズからのシーン幾何の暗黙的学習

Implicit Learning of Scene Geometry from Poses for Global Localization ( http://arxiv.org/abs/2312.02029v1 )

ライセンス: Link先を確認
Mohammad Altillawi, Shile Li, Sai Manoj Prakhya, Ziyuan Liu, and Joan Serrat(参考訳) グローバル・ビジュアル・ローカライズ(global visual localization)は、カメラの絶対位置を単一の画像を用いて推定する。 単一の画像からポーズを取ることで、多くのロボティクスと拡張現実/仮想現実の応用が可能になる。 ディープラーニングの最近の進歩に触発されて、既存の多くのアプローチは入力画像から直接学習し、regress 6 dofをポーズする。 しかし,これらの手法はポーズ回帰に基礎となるシーン形状を十分に利用していない。 モノクロリローカライゼーションの課題は、イメージの対応する6つのDoFポーズである教師付きトレーニングデータの可用性が最小限であることだ。 本稿では,これらの最小限のラベル(ポーズ)を用いてシーンの3次元形状を学習し,その形状を用いて6DFカメラのポーズを推定する。 本稿では,これらのポーズラベルと厳密なアライメントを用いて,シーンの2つの3次元幾何学表現(\textit{x,y,z座標)を学習する学習手法を提案する。 単一の画像が与えられた場合、これらの2つの3dシーン表現を推定し、ポーズラベルにマッチするポーズを推定する。 この定式化により、2つの3次元シーン表現間の3次元アライメント誤差を最小限に抑えるために、追加の学習制約をアクティブに含めることができ、3次元グローバルシーン表現と2次元画像画素間の2次元再投影誤差を最小化し、ローカライゼーション精度が向上する。 推論では,カメラとグローバルフレームの3次元シーン形状を推定し,それらを厳密に整列させてリアルタイムでポーズを得る。 本研究では,3つの共通視定位データセットの作業を評価し,アブレーション研究を行い,全データセットにおける最先端回帰手法の姿勢精度を超越することを示す。

Global visual localization estimates the absolute pose of a camera using a single image, in a previously mapped area. Obtaining the pose from a single image enables many robotics and augmented/virtual reality applications. Inspired by latest advances in deep learning, many existing approaches directly learn and regress 6 DoF pose from an input image. However, these methods do not fully utilize the underlying scene geometry for pose regression. The challenge in monocular relocalization is the minimal availability of supervised training data, which is just the corresponding 6 DoF poses of the images. In this paper, we propose to utilize these minimal available labels (.i.e, poses) to learn the underlying 3D geometry of the scene and use the geometry to estimate the 6 DoF camera pose. We present a learning method that uses these pose labels and rigid alignment to learn two 3D geometric representations (\textit{X, Y, Z coordinates}) of the scene, one in camera coordinate frame and the other in global coordinate frame. Given a single image, it estimates these two 3D scene representations, which are then aligned to estimate a pose that matches the pose label. This formulation allows for the active inclusion of additional learning constraints to minimize 3D alignment errors between the two 3D scene representations, and 2D re-projection errors between the 3D global scene representation and 2D image pixels, resulting in improved localization accuracy. During inference, our model estimates the 3D scene geometry in camera and global frames and aligns them rigidly to obtain pose in real-time. We evaluate our work on three common visual localization datasets, conduct ablation studies, and show that our method exceeds state-of-the-art regression methods' pose accuracy on all datasets.
翻訳日:2023-12-05 14:28:04 公開日:2023-12-04
# 確率的最適制御マッチング

Stochastic Optimal Control Matching ( http://arxiv.org/abs/2312.02027v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Jiequn Han, Brandon Amos, Joan Bruna, Ricky T. Q. Chen(参考訳) 雑音系の振る舞いを駆動する目的を持つ確率的最適制御は、科学、工学、人工知能に広く応用されている。 本研究は,確率的最適制御のための新しい反復拡散最適化(IDO)手法である確率的最適制御マッチング(SOCM)を紹介する。 すなわち、制御は一致するベクトル場に収まるようにすることで最小二乗問題を通じて学習される。 クロスエントロピー損失と密接に結びついているトレーニング損失は、一致するベクトル場に現れる制御関数と再パラメータ化行列のファミリーの両方に対して最適化される。 再パラメータ行列に関する最適化は、一致するベクトル場の分散を最小化することを目的としている。 実験により,提案アルゴリズムは4つの異なる制御設定に対する確率的最適制御のための既存のIDO手法よりも低い誤差を実現する。 socmの基礎となる重要なアイデアはパスワイズ再パラメータ化トリック(path-wise reparameterization trick)である。

Stochastic optimal control, which has the goal of driving the behavior of noisy systems, is broadly applicable in science, engineering and artificial intelligence. Our work introduces Stochastic Optimal Control Matching (SOCM), a novel Iterative Diffusion Optimization (IDO) technique for stochastic optimal control that stems from the same philosophy as the conditional score matching loss for diffusion models. That is, the control is learned via a least squares problem by trying to fit a matching vector field. The training loss, which is closely connected to the cross-entropy loss, is optimized with respect to both the control function and a family of reparameterization matrices which appear in the matching vector field. The optimization with respect to the reparameterization matrices aims at minimizing the variance of the matching vector field. Experimentally, our algorithm achieves lower error than all the existing IDO techniques for stochastic optimal control for four different control settings. The key idea underlying SOCM is the path-wise reparameterization trick, a novel technique that is of independent interest, e.g., for generative modeling.
翻訳日:2023-12-05 14:27:29 公開日:2023-12-04
# VLTSeg:領域一般化セマンティックセマンティックセグメンテーションのためのCLIPに基づく視覚言語表現の簡易転送

VLTSeg: Simple Transfer of CLIP-Based Vision-Language Representations for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2312.02021v1 )

ライセンス: Link先を確認
Christoph H\"ummer, Manuel Schwonberg, Liangwei Zhong, Hu Cao, Alois Knoll, Hanno Gottschalk(参考訳) ドメイン一般化(DG)は、深いニューラルネットワーク(DNN)に基づく認識において重要な課題であり、照明、天気、位置情報の変更によるドメインシフトが発生する。 本稿では,vltseg を用いて意味セグメンテーションにおけるドメインの一般化について提案する。ネットワークはソースドメインでのみ訓練され,対象領域で評価される。 本手法は視覚言語モデル固有の意味的ロバスト性を利用する。 第一に、従来の視覚のみのバックボーンをCLIPとEVA-CLIPから事前学習したエンコーダに置き換えることで、DGの分野では、視覚言語による事前学習が教師付きおよび自己指導型視覚前訓練よりも大幅に優れていることが分かる。 そこで我々は,合成GTA5データセットのトレーニングにおいて,ドメイン一般化SOTAを7.6%向上させる,ドメイン一般化セグメンテーションのための新しい視覚言語アプローチを提案する。 さらに、一般的なCityscapes-to-ACDCベンチマークで76.48% mIoUに達し、筆記時のテストセットにおいて、以前のSOTAアプローチよりも6.9% mIoU向上した視覚言語セグメンテーションモデルの優れた一般化能力を示す。 さらに,提案手法は,都市景観テストセット上で86.1%miouが示す強力なドメイン内一般化能力を示し,提案時の現行のリーダボード上で,以前のsomaと1位を共有した。

Domain generalization (DG) remains a significant challenge for perception based on deep neural networks (DNN), where domain shifts occur due to lighting, weather, or geolocation changes. In this work, we propose VLTSeg to enhance domain generalization in semantic segmentation, where the network is solely trained on the source domain and evaluated on unseen target domains. Our method leverages the inherent semantic robustness of vision-language models. First, by substituting traditional vision-only backbones with pre-trained encoders from CLIP and EVA-CLIP as transfer learning setting we find that in the field of DG, vision-language pre-training significantly outperforms supervised and self-supervised vision pre-training. We thus propose a new vision-language approach for domain generalized segmentation, which improves the domain generalization SOTA by 7.6% mIoU when training on the synthetic GTA5 dataset. We further show the superior generalization capabilities of vision-language segmentation models by reaching 76.48% mIoU on the popular Cityscapes-to-ACDC benchmark, outperforming the previous SOTA approach by 6.9% mIoU on the test set at the time of writing. Additionally, our approach shows strong in-domain generalization capabilities indicated by 86.1% mIoU on the Cityscapes test set, resulting in a shared first place with the previous SOTA on the current leaderboard at the time of submission.
翻訳日:2023-12-05 14:27:12 公開日:2023-12-04
# 量子コンピュータ上のh\"uckel分子軌道理論:コンパクト符号化を用いたスケーラブルなシステム非依存変分実装

H\"uckel Molecular Orbital Theory on a Quantum Computer: A Scalable System-Agnostic Variational Implementation with Compact Encoding ( http://arxiv.org/abs/2312.02020v1 )

ライセンス: Link先を確認
Harshdeep Singh, Sonjoy Majumder, Sabyashachi Mishra(参考訳) H\'uckel molecular orbital (HMO) 理論は共役系 {\pi}-電子系における電子構造を半経験的に扱う。 量子コンピュータ上でのhmo理論のスケーラブルなシステム非依存な実行は、励起状態量子シミュレーションのための変分量子デフレ(vqd)アルゴリズムに基づいて報告される。 ここでは,N量子ビット内の最大2^N共役中心を持つ系に対するHMOモデルの量子シミュレーションを可能とし,直接写像よりも指数関数的に有利な符号化方式を提案する。 h\"uckel hamiltonian から qubit space への変換は、機械学習支援変換と frobenius-inner-based transformation の2つの異なる戦略によって達成される。 これらの方法は、一連の線形、環状、ヘテロ核共役系 {\pi}-電子系で試験される。 量子シミュレーションによる分子軌道エネルギー準位と波動関数は、正確な古典的結果とよく一致している。 しかし、大きな系の励起状態は、VQDシミュレーションにおいてエラーの蓄積に悩まされている。 これはハミルトニアンの対称性を利用するvqdの変種を定式化することによって緩和される。 この戦略は、6つの量子ビットにエンコードされた680のパウリ弦を含むC_{60}フラーレンの量子シミュレーションに成功している。 この研究で開発された手法はシステムに依存しないため、他の研究分野の複雑さの類似した問題に容易に適応できる。

H\"uckel molecular orbital (HMO) theory provides a semi-empirical treatment of the electronic structure in conjugated {\pi}-electronic systems. A scalable system-agnostic execution of HMO theory on a quantum computer is reported here based on a variational quantum deflation (VQD) algorithm for excited state quantum simulation. A compact encoding scheme is proposed here that provides an exponential advantage over direct mapping and allows quantum simulation of the HMO model for systems with up to 2^N conjugated centers in N qubits. The transformation of the H\"uckel Hamiltonian to qubit space is achieved by two different strategies: a machine-learning-assisted transformation and the Frobenius-inner-product-based transformation. These methods are tested on a series of linear, cyclic, and hetero-nuclear conjugated {\pi}-electronic systems. The molecular orbital energy levels and wavefunctions from the quantum simulation are in excellent agreement with the exact classical results. The higher excited states of large systems, however, are found to suffer from error accumulation in the VQD simulation. This is mitigated by formulating a variant of VQD that exploits the symmetry of the Hamiltonian. This strategy has been successfully demonstrated for the quantum simulation of C_{60} fullerene containing 680 Pauli strings encoded on six qubits. The methods developed in this work are system-agnostic and hence are easily adaptable to similar problems of different complexity in other fields of research.
翻訳日:2023-12-05 14:26:42 公開日:2023-12-04
# 雨が降り注ぐと、メディアの嵐とニュースのエコシステムをモデル化する

When it Rains, it Pours: Modeling Media Storms and the News Ecosystem ( http://arxiv.org/abs/2312.02118v1 )

ライセンス: Link先を確認
Benjamin Litterer, David Jurgens, Dallas Card(参考訳) 世界中のほとんどのイベントは、ニュースメディアのほとんどの短い報道を受ける。 しかし時折、メディアの嵐が引き起こされ、数日間ではなく数週間にわたって、ぼんやりとした広範にわたる報道が続く。 本研究では,地域および全国のオンラインニュースを網羅するコーパス内のストーリークラスタを識別し,約2年間にわたるメディア・ストームの包括的コーパスを作成するために,ペアワイズ・記事類似モデルを開発し,適用する。 このコーパスを用いて,メディア・ストームを新たな粒度レベルで調査し,ストームの進化と話題分布に関する主張を検証し,メディア・カバレッジやメディア・アジェンダ・セッティングに対する従来想定されていた影響パターンに対する実証的支援を提供する。

Most events in the world receive at most brief coverage by the news media. Occasionally, however, an event will trigger a media storm, with voluminous and widespread coverage lasting for weeks instead of days. In this work, we develop and apply a pairwise article similarity model, allowing us to identify story clusters in corpora covering local and national online news, and thereby create a comprehensive corpus of media storms over a nearly two year period. Using this corpus, we investigate media storms at a new level of granularity, allowing us to validate claims about storm evolution and topical distribution, and provide empirical support for previously hypothesized patterns of influence of storms on media coverage and intermedia agenda setting.
翻訳日:2023-12-05 14:21:22 公開日:2023-12-04
# GIVT: 生成無限語彙変換器

GIVT: Generative Infinite-Vocabulary Transformers ( http://arxiv.org/abs/2312.02116v1 )

ライセンス: Link先を確認
Michael Tschannen, Cian Eastwood, Fabian Mentzer(参考訳) 有限語彙からの離散トークンの代わりに、実数値エントリを持つベクトル列を生成する生成無限語彙変換器(GIVT)を導入する。 この目的のために、デコーダのみのトランスフォーマーに対する驚くほど簡単な2つの修正を提案する。 1)入力において,有限ボキャブラリールックアップテーブルを入力ベクトルの線形射影に置き換える。 2) 出力において,多変量ガウス混合モデルのパラメータにロジット予測(通常はカテゴリー分布にマッピングされる)を置き換える。 トランスフォーマーを用いてvq-vaeの離散的潜在シーケンスをモデル化するvq-ganとmaskgitの画像処理パラダイムに触発されて、givtを用いてvaeの非定量的実数値潜在シーケンスをモデル化する。 繰り返しマスクドモデリングによるクラス条件画像生成にgivtを適用すると,マスギットと競合する結果が得られ,一方,提案手法は因果モデリングにvq-ganとマスギットを上回っている。 最後に、UViMフレームワークのVAEに基づく変種を用いて、単視分割と深度推定にアプローチを適用する際に、画像生成以外の競合結果を得る。

We introduce generative infinite-vocabulary transformers (GIVT) which generate vector sequences with real-valued entries, instead of discrete tokens from a finite vocabulary. To this end, we propose two surprisingly simple modifications to decoder-only transformers: 1) at the input, we replace the finite-vocabulary lookup table with a linear projection of the input vectors; and 2) at the output, we replace the logits prediction (usually mapped to a categorical distribution) with the parameters of a multivariate Gaussian mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT, where transformers are used to model the discrete latent sequences of a VQ-VAE, we use GIVT to model the unquantized real-valued latent sequences of a VAE. When applying GIVT to class-conditional image generation with iterative masked modeling, we show competitive results with MaskGIT, while our approach outperforms both VQ-GAN and MaskGIT when using it for causal modeling. Finally, we obtain competitive results outside of image generation when applying our approach to panoptic segmentation and depth estimation with a VAE-based variant of the UViM framework.
翻訳日:2023-12-05 14:21:07 公開日:2023-12-04
# TriDeNT: 病理組織学における予備知識蒸留のための3つの深層ネットワークトレーニング

TriDeNT: Triple Deep Network Training for Privileged Knowledge Distillation in Histopathology ( http://arxiv.org/abs/2312.02111v1 )

ライセンス: Link先を確認
Lucas Farndale, Robert Insall, Ke Yuan(参考訳) 計算病理モデルは推論に利用できないデータを活用することは滅多にない。 これは、ほとんどのモデルは、追加の免疫組織化学的(IHC)染色や空間転写学のような非常に情報性の高いデータから学べないことを意味する。 提案するTriDeNTは,推論中に利用できない特権データを利用した,パフォーマンス向上のための自己教師型手法である。 本手法は,免疫組織化学,空間転写学,専門的核アノテーションなど多種多様な対データに対して有効性を示す。 あらゆる設定において、TriDeNTはダウンストリームタスクにおける他の最先端メソッドよりも優れており、最大101%の改善が観察されている。 さらに,これらのモデルから得られた特徴の質的,定量的な測定と,それらがベースラインとどのように異なるかを示す。 TriDeNTは、トレーニング中に少ないデータや高価なデータから知識を排除し、ルーチン入力のためのはるかに優れたモデルを作成する新しい方法を提供する。

Computational pathology models rarely utilise data that will not be available for inference. This means most models cannot learn from highly informative data such as additional immunohistochemical (IHC) stains and spatial transcriptomics. We present TriDeNT, a novel self-supervised method for utilising privileged data that is not available during inference to improve performance. We demonstrate the efficacy of this method for a range of different paired data including immunohistochemistry, spatial transcriptomics and expert nuclei annotations. In all settings, TriDeNT outperforms other state-of-the-art methods in downstream tasks, with observed improvements of up to 101%. Furthermore, we provide qualitative and quantitative measurements of the features learned by these models and how they differ from baselines. TriDeNT offers a novel method to distil knowledge from scarce or costly data during training, to create significantly better models for routine inputs.
翻訳日:2023-12-05 14:20:47 公開日:2023-12-04
# ArtAdapter:マルチレベルスタイルエンコーダと明示的適応を用いたテキスト-画像スタイル転送

ArtAdapter: Text-to-Image Style Transfer using Multi-Level Style Encoder and Explicit Adaptation ( http://arxiv.org/abs/2312.02109v1 )

ライセンス: Link先を確認
Dar-Yen Chen and Hamish Tennent and Ching-Wen Hsu(参考訳) 本研究は,カラー,ブラシストローク,オブジェクト形状の従来の制限を超越したトランスフォーメーションテキスト・ツー・イメージ(t2i)スタイルトランスファーフレームワークであるartadapterを紹介する。 提案する明示的な適応機構とマルチレベルエンコーダの統合により,artadapteは前例のないスタイル転送の忠実性を実現し,テキスト記述との密接な連携を実現している。 さらに、補助コンテンツアダプタ(aca)の組み込みは、コンテンツとスタイルを効果的に分離し、コンテンツの借り入れとスタイル参照を緩和する。 さらに,新しい高速微調整手法は,オーバーフィットのリスクを軽減しつつ,ゼロショット表現をさらに向上させることができる。 総合評価では、ArtAdapterが現在の最先端メソッドを超えていることが確認されている。

This work introduces ArtAdapter, a transformative text-to-image (T2I) style transfer framework that transcends traditional limitations of color, brushstrokes, and object shape, capturing high-level style elements such as composition and distinctive artistic expression. The integration of a multi-level style encoder with our proposed explicit adaptation mechanism enables ArtAdapte to achieve unprecedented fidelity in style transfer, ensuring close alignment with textual descriptions. Additionally, the incorporation of an Auxiliary Content Adapter (ACA) effectively separates content from style, alleviating the borrowing of content from style references. Moreover, our novel fast finetuning approach could further enhance zero-shot style representation while mitigating the risk of overfitting. Comprehensive evaluations confirm that ArtAdapter surpasses current state-of-the-art methods.
翻訳日:2023-12-05 14:20:32 公開日:2023-12-04
# ヒューマンAIコラボレーションによるJavaプログラミングの実践例の執筆

Authoring Worked Examples for Java Programming with Human-AI Collaboration ( http://arxiv.org/abs/2312.02105v1 )

ライセンス: Link先を確認
Mohammad Hassany and Peter Brusilovsky and Jiaze Ke and Kamil Akhuseyinoglu and Arun Balajiee Lekshmi Narayanan(参考訳) 作業例(ある言語でソースコードとして提示され、プログラミングクラスからトピックを説明するために使用される典型的なプログラミング問題の解)は、プログラミングクラスでもっとも人気のある学習コンテンツの1つです。 これらの例を学生に提示するためのアプローチやツールのほとんどは、サンプルコードの行ごとの説明に基づいている。 しかし、インストラクターは、プログラミングクラスでよく使われる多くの例に対して、ラインバイラインの説明を提供する時間はほとんどありません。 本稿では,Javaプログラミングにおける実例のオーサリングに対する人間とAIの協調アプローチについて検討し,評価する。 コード説明の開始バージョンを生成し、必要に応じてインストラクタにそれを提示して編集するjavaの作業例を作成するためのオーサリングシステムを提案する。 また,本手法を用いて作成した説明の質を評価する。

Worked examples (solutions to typical programming problems presented as a source code in a certain language and are used to explain the topics from a programming class) are among the most popular types of learning content in programming classes. Most approaches and tools for presenting these examples to students are based on line-by-line explanations of the example code. However, instructors rarely have time to provide line-by-line explanations for a large number of examples typically used in a programming class. In this paper, we explore and assess a human-AI collaboration approach to authoring worked examples for Java programming. We introduce an authoring system for creating Java worked examples that generates a starting version of code explanations and presents it to the instructor to edit if necessary. We also present a study that assesses the quality of explanations created with this approach.
翻訳日:2023-12-05 14:20:13 公開日:2023-12-04
# オープンボキャブラリー物体検出のための名詞概念を超えた擬似ラベル学習

Learning Pseudo-Labeler beyond Noun Concepts for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2312.02103v1 )

ライセンス: Link先を確認
Sunghun Kang, Junbum Cha, Jonghwan Mun, Byungseok Roh, Chang D. Yoo(参考訳) オープンボキャブラリオブジェクト検出(OVOD)は近年,人間の視覚的知性を達成するための重要なステップとして注目されている。 既存のovod法は、視覚言語事前学習モデルから検出器への任意の概念の知識を転送することで、予め定義されたカテゴリからオープンワールドへターゲット語彙を拡張する。 従来の手法は顕著な成功を収めたものの、間接的な監督や限定的な伝達可能な概念に悩まされている。 本稿では,任意の概念の領域テキストアライメントを直接学習する,シンプルで効果的な手法を提案する。 具体的には、任意の概念の擬似ラベル付けのための任意の画像からテキストへのマッピングを学習することを目的としている。 提案手法は、名詞概念の標準OVODベンチマークにおける競合性能と、任意の概念の表現理解ベンチマークに対する大幅な改善を示す。

Open-vocabulary object detection (OVOD) has recently gained significant attention as a crucial step toward achieving human-like visual intelligence. Existing OVOD methods extend target vocabulary from pre-defined categories to open-world by transferring knowledge of arbitrary concepts from vision-language pre-training models to the detectors. While previous methods have shown remarkable successes, they suffer from indirect supervision or limited transferable concepts. In this paper, we propose a simple yet effective method to directly learn region-text alignment for arbitrary concepts. Specifically, the proposed method aims to learn arbitrary image-to-text mapping for pseudo-labeling of arbitrary concepts, named Pseudo-Labeling for Arbitrary Concepts (PLAC). The proposed method shows competitive performance on the standard OVOD benchmark for noun concepts and a large improvement on referring expression comprehension benchmark for arbitrary concepts.
翻訳日:2023-12-05 14:19:58 公開日:2023-12-04
# フェデレーション学習におけるデータ注入攻撃の軽減

Mitigating Data Injection Attacks on Federated Learning ( http://arxiv.org/abs/2312.02102v1 )

ライセンス: Link先を確認
Or Shalom, Amir Leshem, Waheed U. Bajwa(参考訳) フェデレーション学習(federated learning)は、複数のエンティティがデータプライバシを損なうことなく、データを使用したモデルを協調的にトレーニングするテクニックである。 しかし、その利点にもかかわらず、連合学習は誤ったデータインジェクション攻撃の影響を受けやすい。 これらのシナリオでは、ネットワーク内の特定のエージェントを制御した悪意のあるエンティティが学習プロセスを操作でき、亜最適モデルにつながる。 その結果、これらのデータ注入攻撃に対処することは、連合学習システムにおいて重要な研究課題となる。 本稿では,フェデレーション学習システムにおけるデータインジェクション攻撃の検出と軽減を行う新しい手法を提案する。 提案手法は局所的なスキームであり,コーディネートノードによるトレーニングの単一インスタンスで実行し,アルゴリズムの収束時の緩和を可能にする。 エージェントが攻撃者であると疑われた場合、そのデータは一定期間無視される場合、この決定はしばしば再評価される。 確率 1 の場合、有限時間後に全ての攻撃者は無視されるが、信頼できるエージェントを無視する確率は 0 になる。 シミュレーションにより、コーディネートノードがすべての攻撃者を検出して分離すると、モデルは回復し、真理のあるモデルに収束する。

Federated learning is a technique that allows multiple entities to collaboratively train models using their data without compromising data privacy. However, despite its advantages, federated learning can be susceptible to false data injection attacks. In these scenarios, a malicious entity with control over specific agents in the network can manipulate the learning process, leading to a suboptimal model. Consequently, addressing these data injection attacks presents a significant research challenge in federated learning systems. In this paper, we propose a novel technique to detect and mitigate data injection attacks on federated learning systems. Our mitigation method is a local scheme, performed during a single instance of training by the coordinating node, allowing the mitigation during the convergence of the algorithm. Whenever an agent is suspected to be an attacker, its data will be ignored for a certain period, this decision will often be re-evaluated. We prove that with probability 1, after a finite time, all attackers will be ignored while the probability of ignoring a trustful agent becomes 0, provided that there is a majority of truthful agents. Simulations show that when the coordinating node detects and isolates all the attackers, the model recovers and converges to the truthful model.
翻訳日:2023-12-05 14:19:43 公開日:2023-12-04
# 正のラベルなしデータに対する単一サンプル対ケースコントロールサンプリングスキーム:2つのシナリオの物語

Single-sample versus case-control sampling scheme for Positive Unlabeled data: the story of two scenarios ( http://arxiv.org/abs/2312.02095v1 )

ライセンス: Link先を確認
Jan Mielniczuk, Adam Wawrze\'nczyk(参考訳) 本論文では,ケース制御サンプリング方式を設計した正の未ラベルデータに対する経験的リスク最小化(ERM)に基づく分類器の性能が,単一サンプルシナリオに適用した場合に著しく低下する可能性があることを論じる。 私たちは、なぜ彼らの行動がシナリオによって異なるのかを、非常に特定のケースを除いて明らかにします。 また、ケースコントロールデータ用に設計された一般的な非負リスク分類器の単一サンプルケースアナログを導入し、その性能を元の提案と比較する。 その結果, 観測結果の半分以上の正のラベルが付けられた場合, それらの間に有意な差が生じることがわかった。 ケース制御ケース用に設計されたEMM最小化器を単一サンプルデータに適用する場合も、同様の結論が導かれる。 シナリオの違いを考慮するには、経験的リスクの定義に唯一の、しかし重要な変更が必要です。

In the paper we argue that performance of the classifiers based on Empirical Risk Minimization (ERM) for positive unlabeled data, which are designed for case-control sampling scheme may significantly deteriorate when applied to a single-sample scenario. We reveal why their behavior depends, in all but very specific cases, on the scenario. Also, we introduce a single-sample case analogue of the popular non-negative risk classifier designed for case-control data and compare its performance with the original proposal. We show that the significant differences occur between them, especiall when half or more positive of observations are labeled. The opposite case when ERM minimizer designed for the case-control case is applied for single-sample data is also considered and similar conclusions are drawn. Taking into account difference of scenarios requires a sole, but crucial, change in the definition of the Empirical Risk.
翻訳日:2023-12-05 14:19:23 公開日:2023-12-04
# ドイツ、韓国、スペイン、スウェーデン、アメリカ合衆国における学習分析における学生のプライバシー問題に関する文化的差異

Cultural Differences in Students' Privacy Concerns in Learning Analytics across Germany, South Korea, Spain, Sweden, and the United States ( http://arxiv.org/abs/2312.02093v1 )

ライセンス: Link先を確認
Olga Viberg, Ren\'e F. Kizilcec, Ioana Jivet, Alejandra Mart\'inez Mon\'es, Alice Oh, Chantal Mutimukwe, Stefan Hrastinski, Maren Scheffel(参考訳) 学習分析(LA)の応用は、高等教育の文脈における生徒のプライバシーに関する懸念を引き起こす可能性がある。 効果的なプライバシー強化プラクティスの開発には、学生のプライバシーに関する懸念と、それが国や文化の面においてどのように異なるのかを体系的に理解する必要がある。 我々は,5カ国(ドイツ,韓国,スペイン,スウェーデン,米国)の大学生のプライバシ懸念と文化的価値を測定するため,確立された尺度を用いて調査を行った。 その結果,学生は,プライバシのコントロール能力に多少制限があるにもかかわらず,そのリスクが管理可能であると感じたため,一般に機関のデータを信頼し,情報を開示した。 5カ国中、ドイツとスウェーデンの学生は最も信頼され、最も関心が薄いと評価され、特に、より高いリスクとコントロールが低いと報告されたアメリカの学生と比較された。 韓国とスペインの学生も同様に5つのプライバシー次元(プライバシーリスクの認識、プライバシー制御の認識、プライバシーの懸念、信条の信頼、非開示行動)について回答した。 個々のレベルで測定された文化は、国家レベルの文化よりもプライバシーに関する関心事や結果に影響した。 プライバシリスクの認識と,電力距離によるプライバシコントロールの増加。 信頼する信念は、不確実性回避と低い男性性への欲求によって増加する。 非開示行動は、パワー距離と男性性によって増加し、より不確実な回避によって減少する。 したがって、高等教育におけるプライバシー強化の実践や政策を開発する際には、機関の信頼、社会的平等、リスクテイクに関連する文化的価値を考慮する必要がある。

Applications of learning analytics (LA) can raise concerns from students about their privacy in higher education contexts. Developing effective privacy-enhancing practices requires a systematic understanding of students' privacy concerns and how they vary across national and cultural dimensions. We conducted a survey study with established instruments to measure privacy concerns and cultural values for university students in five countries (Germany, South Korea, Spain, Sweden, and the United States; N = 762). The results show that students generally trusted institutions with their data and disclosed information as they perceived the risks to be manageable even though they felt somewhat limited in their ability to control their privacy. Across the five countries, German and Swedish students stood out as the most trusting and least concerned, especially compared to US students who reported greater perceived risk and less control. Students in South Korea and Spain responded similarly on all five privacy dimensions (perceived privacy risk, perceived privacy control, privacy concerns, trusting beliefs, and non-self-disclosure behavior), despite their significant cultural differences. Culture measured at the individual level affected the antecedents and outcomes of privacy concerns more than country-level culture. Perceived privacy risk and privacy control increase with power distance. Trusting beliefs increase with a desire for uncertainty avoidance and lower masculinity. Non-self-disclosure behaviors rise with power distance and masculinity, and decrease with more uncertainty avoidance. Thus, cultural values related to trust in institutions, social equality and risk-taking should be considered when developing privacy-enhancing practices and policies in higher education.
翻訳日:2023-12-05 14:19:07 公開日:2023-12-04
# LLMの物理シミュレーション能力

Physics simulation capabilities of LLMs ( http://arxiv.org/abs/2312.02091v1 )

ライセンス: Link先を確認
Mohamad Ali-Dib and Kristen Menou(参考訳) [Abridged abstract]Large Language Models (LLMs)は、学部レベルから大学院レベルの物理教科書の問題を解くことができ、コーディングに精通している。 この2つの機能を組み合わせることで、aiシステムが物理的世界をシミュレートし、予測できるようになる。 本稿では、PhDレベルから研究レベルの計算物理問題に対するSOTA (State-of-the-art) LLMの評価を行う。 物理・天体物理学領域における符号化能力を引き出すために, 文書化・広く利用されているパッケージを用いてLCM生成を行う。 我々は、天体力学(REBOUND)、恒星物理学(MESA)、1次元流体力学(Dedalus)、非線形力学(SciPy)において、$\sim 50$のオリジナルかつ挑戦的な問題に貢献する。 我々の問題は、ユニークな解を認めていないため、異なるタイプのエラー(コーディング、物理、必要性、十分性)を含む行数と、その問題の健全な物理成分を捉えることに焦点を当てた、より「教育的な」パス・フェイル測度を、いくつかのソフトメトリクスで評価する。 予想通り、今日のSOTA LLM(GPT4)ゼロショットは、ほとんどの問題に失敗する。 生成したコード行の約70-90 %$は必要であり、十分で正しい(コード \&物理)。 物理とコーディングの誤りが最も多く、不必要な線や不十分な線がある。 問題クラスと難易度に有意なばらつきを観察する。 我々は計算物理領域におけるGPT4のいくつかの障害モードを同定する。 我々の偵察作業は、古典物理学における現在の計算能力のスナップショットを提供し、もしAIシステムが物理学シミュレーション能力において基本的な自律性に達することがあれば、明らかな改善目標を示す。

[Abridged abstract] Large Language Models (LLMs) can solve some undergraduate-level to graduate-level physics textbook problems and are proficient at coding. Combining these two capabilities could one day enable AI systems to simulate and predict the physical world. We present an evaluation of state-of-the-art (SOTA) LLMs on PhD-level to research-level computational physics problems. We condition LLM generation on the use of well-documented and widely-used packages to elicit coding capabilities in the physics and astrophysics domains. We contribute $\sim 50$ original and challenging problems in celestial mechanics (with REBOUND), stellar physics (with MESA), 1D fluid dynamics (with Dedalus) and non-linear dynamics (with SciPy). Since our problems do not admit unique solutions, we evaluate LLM performance on several soft metrics: counts of lines that contain different types of errors (coding, physics, necessity and sufficiency) as well as a more "educational" Pass-Fail metric focused on capturing the salient physical ingredients of the problem at hand. As expected, today's SOTA LLM (GPT4) zero-shot fails most of our problems, although about 40\% of the solutions could plausibly get a passing grade. About $70-90 \%$ of the code lines produced are necessary, sufficient and correct (coding \& physics). Physics and coding errors are the most common, with some unnecessary or insufficient lines. We observe significant variations across problem class and difficulty. We identify several failure modes of GPT4 in the computational physics domain. Our reconnaissance work provides a snapshot of current computational capabilities in classical physics and points to obvious improvement targets if AI systems are ever to reach a basic level of autonomy in physics simulation capabilities.
翻訳日:2023-12-05 14:18:40 公開日:2023-12-04
# videowap:インタラクティブなセマンティックポイント対応でビデオ主題をスワップする

VideoSwap: Customized Video Subject Swapping with Interactive Semantic Point Correspondence ( http://arxiv.org/abs/2312.02087v1 )

ライセンス: Link先を確認
Yuchao Gu, Yipin Zhou, Bichen Wu, Licheng Yu, Jia-Wei Liu, Rui Zhao, Jay Zhangjie Wu, David Junhao Zhang, Mike Zheng Shou, Kevin Tang(参考訳) 現在の拡散に基づくビデオ編集は、時間的一貫性と動きのアライメントを確保するために、様々な密接な対応を利用する構造保存編集に重点を置いている。 しかし、これらのアプローチは、ターゲット編集が形状変化を伴う場合、しばしば効果がない。 形状変化を伴う映像編集を行うために,本研究では,映像の主主題を個別の同一性と潜在的に異なる形状の対象対象に置き換えることを目的とした,カスタマイズされた映像主題交換について検討する。 従来の高密度対応手法とは対照的に,本研究では,対象の運動軌跡を整列し形状を変更するために,少数の意味点しか必要としないという観察から着想を得た,意味点対応を利用した VideoSwap フレームワークを導入する。 また,様々な意味点対応に対応するために,様々なユーザ・ポイント間インタラクション(例えば,ポイントの削除,ドラッグポイント)を導入する。 広範囲な実験により、実世界の様々なビデオで最先端のビデオテーマスワップ結果が実証された。

Current diffusion-based video editing primarily focuses on structure-preserved editing by utilizing various dense correspondences to ensure temporal consistency and motion alignment. However, these approaches are often ineffective when the target edit involves a shape change. To embark on video editing with shape change, we explore customized video subject swapping in this work, where we aim to replace the main subject in a source video with a target subject having a distinct identity and potentially different shape. In contrast to previous methods that rely on dense correspondences, we introduce the VideoSwap framework that exploits semantic point correspondences, inspired by our observation that only a small number of semantic points are necessary to align the subject's motion trajectory and modify its shape. We also introduce various user-point interactions (\eg, removing points and dragging points) to address various semantic point correspondence. Extensive experiments demonstrate state-of-the-art video subject swapping results across a variety of real-world videos.
翻訳日:2023-12-05 14:17:53 公開日:2023-12-04
# 非同期バイオプロセスの時系列予測のためのDeep Set Neural Networks

Deep Set Neural Networks for forecasting asynchronous bioprocess timeseries ( http://arxiv.org/abs/2312.02079v1 )

ライセンス: Link先を確認
Maxim Borisyak, Stefan Born, Peter Neubauer and Nicol\'as Cruz-Bournazou(参考訳) 栽培実験はしばしばスパース級数と不規則級数を生成する。 機械的なモデルに基づく古典的なアプローチは、最大帰納法やモンテカルロマルコフ連鎖サンプリングのように、スパース性や時間軸の不規則性を簡単に考慮できるが、ほとんどの統計的および機械学習ツールは、箱から外れたデータを扱うために設計されていない。 一般的なアプローチには、欠落した値(計算)と補間を正規グリッド(アラインメント)に埋め込む様々なスキームがある。 しかし、そのような手法は補間モデルや命令モデルのバイアスを対象モデルに伝達する。 入力データのトリプルトエンコーディングを備えたDeep Set Neural Networksは,計算処理やアライメント処理を必要とせずに,バイオプロセスデータの処理に成功できることを示す。 この方法は時系列の特定の性質に非依存であり、オンライン監視、予測制御、実験の設計など、あらゆるタスクに適応することができる。 本研究では,予測に焦点を当てる。 このような手法は, 一般的な栽培プロセスに特に適しており, 実環境下でのマクロ運動成長モデルから生成したデータを用いて, 複数の予測タスクにおける手法の性能を実証し, インプテーションとアライメントに基づく従来の適合法や手法と比較する。

Cultivation experiments often produce sparse and irregular time series. Classical approaches based on mechanistic models, like Maximum Likelihood fitting or Monte-Carlo Markov chain sampling, can easily account for sparsity and time-grid irregularities, but most statistical and Machine Learning tools are not designed for handling sparse data out-of-the-box. Among popular approaches there are various schemes for filling missing values (imputation) and interpolation into a regular grid (alignment). However, such methods transfer the biases of the interpolation or imputation models to the target model. We show that Deep Set Neural Networks equipped with triplet encoding of the input data can successfully handle bio-process data without any need for imputation or alignment procedures. The method is agnostic to the particular nature of the time series and can be adapted for any task, for example, online monitoring, predictive control, design of experiments, etc. In this work, we focus on forecasting. We argue that such an approach is especially suitable for typical cultivation processes, demonstrate the performance of the method on several forecasting tasks using data generated from macrokinetic growth models under realistic conditions, and compare the method to a conventional fitting procedure and methods based on imputation and alignment.
翻訳日:2023-12-05 14:17:25 公開日:2023-12-04
# AIをCCTVシステムに統合する:コミュニティ空間におけるスマートビデオサーベイランスの総合評価

Integrating AI into CCTV Systems: A Comprehensive Evaluation of Smart Video Surveillance in Community Space ( http://arxiv.org/abs/2312.02078v1 )

ライセンス: Link先を確認
Shanle Yao, Babak Rahimi Ardabili, Armin Danesh Pazho, Ghazal Alinezhad Noghre, Christopher Neff, Hamed Tabkhi(参考訳) 本稿では、教育・レクリエーションエリアや中小企業など、コミュニティ空間の安全性を高めるために設計されたAI対応のスマートビデオ監視(SVS)について述べる。 提案システムは、既存のCCTVや有線カメラネットワークと革新的に統合されており、最近のAIの進歩を活用するために、様々なコミュニティケースで採用されている。 プライバシを重視したSVSシステムは,行動認識のためのピクセルデータの代わりにメタデータを使用し,倫理基準に適合する。 クラウドベースのインフラストラクチャと、コミュニティ内のリアルタイムでプライバシーを意識したアラートのためのモバイルアプリを備えている。 この記事では、AI駆動の視覚処理、統計分析、データベース管理、クラウド通信、ユーザ通知を対象とする、SVSシステムの包括的な実世界評価の先駆者となる。 また、エンド・ツー・エンドの異常検知システムの性能を初めて評価し、公衆の安全上の問題を特定するのに不可欠です。 評価のために,本システムをコミュニティ・カレッジに導入し,提案するシステムの能力を示す理想的なモデルとした。 その結果,16台のcctvカメラを効果的に管理できるスループット,レイテンシ,スケーラビリティを備えたシステムのロバスト性が示された。 このシステムは、21時間の動作で一貫した16.5フレーム/秒(FPS)を維持した。 行動異常や警告を検知する平均的なエンドツーエンドのレイテンシは26.76秒であった。

This article presents an AI-enabled Smart Video Surveillance (SVS) designed to enhance safety in community spaces such as educational and recreational areas, and small businesses. The proposed system innovatively integrates with existing CCTV and wired camera networks, simplifying its adoption across various community cases to leverage recent AI advancements. Our SVS system, focusing on privacy, uses metadata instead of pixel data for activity recognition, aligning with ethical standards. It features cloud-based infrastructure and a mobile app for real-time, privacy-conscious alerts in communities. This article notably pioneers a comprehensive real-world evaluation of the SVS system, covering AI-driven visual processing, statistical analysis, database management, cloud communication, and user notifications. It's also the first to assess an end-to-end anomaly detection system's performance, vital for identifying potential public safety incidents. For our evaluation, we implemented the system in a community college, serving as an ideal model to exemplify the proposed system's capabilities. Our findings in this setting demonstrate the system's robustness, with throughput, latency, and scalability effectively managing 16 CCTV cameras. The system maintained a consistent 16.5 frames per second (FPS) over a 21-hour operation. The average end-to-end latency for detecting behavioral anomalies and alerting users was 26.76 seconds.
翻訳日:2023-12-05 14:16:46 公開日:2023-12-04
# 非同型暗号化によるフェデレーション学習

Federated Learning is Better with Non-Homomorphic Encryption ( http://arxiv.org/abs/2312.02074v1 )

ライセンス: Link先を確認
Konstantin Burlachenko, Abdulmajeed Alrowithi, Fahad Ali Albalawi, Peter Richtarik(参考訳) 従来のAI方法論では,ネットワーク通信やデータプライバシ,ストレージ容量といった問題に直面した場合には,集中的なデータ収集が不可欠だ。 Federated Learning(FL)は、生データを収集することなく、分散AIモデルのトレーニングを促進するパラダイムを提供する。 flトレーニング中にプライバシを提供するには、さまざまな選択肢がある。 一般的な手法のひとつとして、準同型暗号化(homomorphic encryption:he)がある。 しかし、これらの手法は余分な計算とメモリフットプリントという形でコストがかかる。 これらの問題を解決するために,従来のFLの文脈では,古典暗号を用いることは不可能であったものの,置換型圧縮機と古典暗号を相乗化する革新的なフレームワークを提案する。 私たちのフレームワークは、HEをより安価な古典暗号プリミティブに置き換える手段を提供し、トレーニングプロセスのセキュリティを提供します。 非同期通信を促進し、さまざまな通信トポロジに柔軟なデプロイメントオプションを提供する。

Traditional AI methodologies necessitate centralized data collection, which becomes impractical when facing problems with network communication, data privacy, or storage capacity. Federated Learning (FL) offers a paradigm that empowers distributed AI model training without collecting raw data. There are different choices for providing privacy during FL training. One of the popular methodologies is employing Homomorphic Encryption (HE) - a breakthrough in privacy-preserving computation from Cryptography. However, these methods have a price in the form of extra computation and memory footprint. To resolve these issues, we propose an innovative framework that synergizes permutation-based compressors with Classical Cryptography, even though employing Classical Cryptography was assumed to be impossible in the past in the context of FL. Our framework offers a way to replace HE with cheaper Classical Cryptography primitives which provides security for the training process. It fosters asynchronous communication and provides flexible deployment options in various communication topologies.
翻訳日:2023-12-05 14:15:54 公開日:2023-12-04
# マトリックスの不具合? Fakepediaによる言語モデルの座位と検出

A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia ( http://arxiv.org/abs/2312.02073v1 )

ライセンス: Link先を確認
Giovanni Monea, Maxime Peyrard, Martin Josifoski, Vishrav Chaudhary, Jason Eisner, Emre K{\i}c{\i}man, Hamid Palangi, Barun Patra, Robert West(参考訳) 大規模言語モデル(LLM)は、事実知識の保存とリコールだけでなく、新しいインコンテキスト情報にも適応する能力を示した。 しかし、特に文脈内情報がパラメータに埋め込まれた事実知識と矛盾する状況において、文脈内接地機構は依然として不明である。 これは、過去のパラメトリック知識を正し得ることを期待して、最新の情報でコンテキストを豊かにする検索拡張生成手法にとって重要である。 本研究では,パラメトリック知識がコンテキスト内情報と衝突した場合の接地能力を評価するために設計された対物データセットであるFakepediaを紹介する。 Fakepedia で様々な LLM をベンチマークし,GPT-4-turbo がそのパラメトリック知識を強く好んでいることを発見した。 反対にMistral-7Bは、最も堅牢に答えを選択するモデルである。 次に、Fakepediaクエリに応答する際のLCM成分の因果媒介分析を行う。 計算グラフのみの検査は、特にトランスフォーマー内のMLPが非接地動作を予測できないため、92.8%の精度でLLM接地を予測できることを実証する。 本研究は,事実リコール機構に関する既往の知見とともに,llm内におけるグルーディングと事実リコール機構の相互作用に関するコヒーレントな物語を提供する。

Large language models (LLMs) have demonstrated impressive capabilities in storing and recalling factual knowledge, but also in adapting to novel in-context information. Yet, the mechanisms underlying their in-context grounding remain unknown, especially in situations where in-context information contradicts factual knowledge embedded in the parameters. This is critical for retrieval-augmented generation methods, which enrich the context with up-to-date information, hoping that grounding can rectify the outdated parametric knowledge. In this study, we introduce Fakepedia, a counterfactual dataset designed to evaluate grounding abilities when the parametric knowledge clashes with the in-context information. We benchmark various LLMs with Fakepedia and discover that GPT-4-turbo has a strong preference for its parametric knowledge. Mistral-7B, on the contrary, is the model that most robustly chooses the grounded answer. Then, we conduct causal mediation analysis on LLM components when answering Fakepedia queries. We demonstrate that inspection of the computational graph alone can predict LLM grounding with 92.8% accuracy, especially because few MLPs in the Transformer can predict non-grounded behavior. Our results, together with existing findings about factual recall mechanisms, provide a coherent narrative of how grounding and factual recall mechanisms interact within LLMs.
翻訳日:2023-12-05 14:15:27 公開日:2023-12-04
# imatching: 命令的対応学習

iMatching: Imperative Correspondence Learning ( http://arxiv.org/abs/2312.02141v1 )

ライセンス: Link先を確認
Zitong Zhan, Dasong Gao, Yun-Jou Lin, Youjie Xia, Chen Wang(参考訳) 学習特徴対応はコンピュータビジョンの基本課題であり、視覚計測や3次元再構成といった下流の応用において極めて重要である。 データ駆動型モデルの最近の進歩にもかかわらず、画素ごとの正確な対応ラベルがないため、特徴対応学習はまだ限られている。 この課題を克服するために,我々は特徴対応を訓練するための新しい自己教師あり学習(il)を提案する。 カメラのポーズや奥行きラベルなしで、任意の不干渉ビデオで対応学習が可能で、自己教師付き対応学習の新しい時代を告げる。 具体的には,2段階最適化として対応学習の問題を定式化し,バンドル調整から再投影誤差をモデル監視信号とする。 大きなメモリと計算のオーバーヘッドを避けるために、静止点を利用して、バンドル調整によって暗黙の勾配を効果的にバックプロパゲーションします。 広範な実験により,特徴マッチングやポーズ推定などのタスクにおいて,最先端のマッチングモデルと比較して平均30%の精度向上が得られた。

Learning feature correspondence is a foundational task in computer vision, holding immense importance for downstream applications such as visual odometry and 3D reconstruction. Despite recent progress in data-driven models, feature correspondence learning is still limited by the lack of accurate per-pixel correspondence labels. To overcome this difficulty, we introduce a new self-supervised scheme, imperative learning (IL), for training feature correspondence. It enables correspondence learning on arbitrary uninterrupted videos without any camera pose or depth labels, heralding a new era for self-supervised correspondence learning. Specifically, we formulated the problem of correspondence learning as a bilevel optimization, which takes the reprojection error from bundle adjustment as a supervisory signal for the model. To avoid large memory and computation overhead, we leverage the stationary point to effectively back-propagate the implicit gradients through bundle adjustment. Through extensive experiments, we demonstrate superior performance on tasks including feature matching and pose estimation, in which we obtained an average of 30% accuracy gain over the state-of-the-art matching models.
翻訳日:2023-12-05 14:08:56 公開日:2023-12-04
# DiffiT:画像生成のための拡散ビジョン変換器

DiffiT: Diffusion Vision Transformers for Image Generation ( http://arxiv.org/abs/2312.02139v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat(参考訳) 強力な表現力と高いサンプル品質を持つ拡散モデルは、様々な領域における多くの新しい応用とユースケースを可能にした。 サンプル生成では、これらのモデルは反復的なデノージングによって画像を生成するデノージングニューラルネットワークに依存している。 しかし、ネットワークアーキテクチャのデノベーションの役割は、畳み込み残高のU-Netに依存する多くの取り組みによってよく研究されていない。 本稿では,拡散型生成学習における視覚トランスフォーマーの有効性について検討する。 具体的には、U字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャからなるDiffiT(Diffusion Vision Transformers)と呼ばれる新しいモデルを提案する。 我々は,注目層が認知過程の異なる段階における行動に効率的に適応できる,時間依存型自己注意モジュールを新たに導入する。 また,高解像度画像生成のための自己アテンション層を用いたトランスフォーマーモデルである潜在DiffiTを導入する。 以上の結果から,DiffiTは高忠実度画像を生成するのに驚くほど有効であり,様々なクラス条件および非条件合成タスクにおいて,最先端(SOTA)ベンチマークを達成できることがわかった。 潜在領域では、DiffiTはImageNet-256データセットで1.73のSOTA FIDスコアを達成した。 Repository: https://github.com/NVlabs/DiffiT

Diffusion models with their powerful expressivity and high sample quality have enabled many new applications and use-cases in various domains. For sample generation, these models rely on a denoising neural network that generates images by iterative denoising. Yet, the role of denoising network architecture is not well-studied with most efforts relying on convolutional residual U-Nets. In this paper, we study the effectiveness of vision transformers in diffusion-based generative learning. Specifically, we propose a new model, denoted as Diffusion Vision Transformers (DiffiT), which consists of a hybrid hierarchical architecture with a U-shaped encoder and decoder. We introduce a novel time-dependent self-attention module that allows attention layers to adapt their behavior at different stages of the denoising process in an efficient manner. We also introduce latent DiffiT which consists of transformer model with the proposed self-attention layers, for high-resolution image generation. Our results show that DiffiT is surprisingly effective in generating high-fidelity images, and it achieves state-of-the-art (SOTA) benchmarks on a variety of class-conditional and unconditional synthesis tasks. In the latent space, DiffiT achieves a new SOTA FID score of 1.73 on ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT
翻訳日:2023-12-05 14:08:37 公開日:2023-12-04
# manus:articulated 3d gaussianを用いたマーカーレスハンドオブジェクト把持キャプチャ

MANUS: Markerless Hand-Object Grasp Capture using Articulated 3D Gaussians ( http://arxiv.org/abs/2312.02137v1 )

ライセンス: Link先を確認
Chandradeep Pokhariya, Ishaan N Shah, Angela Xing, Zekun Li, Kefan Chen, Avinash Sharma, Srinath Sridhar(参考訳) 私たちの手で物体を把握する方法を理解することは、ロボット工学や混合現実のような分野に重要な応用をもたらす。 しかし,この課題には手と物体の接触を正確にモデル化する必要がある。 把握を得るためには、既存の手法では骨格、メッシュ、あるいはパラメトリックモデルを使用しており、不正確な接触を引き起こす。 我々はArticulated 3D Gaussian を用いたマーカレスハンドオブジェクトグラフキャプチャー手法 MANUS を提案する。 我々は,手話の高忠実度表現のために3次元ガウススプラッティングを拡張する3次元ガウス表現を新たに構築する。 この表現はガウスプリミティブを用いるので、手と物体の接触を効率的に正確に推定することができる。 最も正確な結果を得るためには、現在のデータセットが提供していない何万ものカメラビューを必要とする。 そこで我々は,30以上のシーン,3つの被写体,7m以上のフレームにまたがる53台のカメラからのハンドオブジェクトの把握情報を含む,新しいデータセットmanus-graspsを構築した。 また, 対象物から手への塗料の転写を利用した定量的接触評価法において, 本手法が他者より優れていることを示す。

Understanding how we grasp objects with our hands has important applications in areas like robotics and mixed reality. However, this challenging problem requires accurate modeling of the contact between hands and objects. To capture grasps, existing methods use skeletons, meshes, or parametric models that can cause misalignments resulting in inaccurate contacts. We present MANUS, a method for Markerless Hand-Object Grasp Capture using Articulated 3D Gaussians. We build a novel articulated 3D Gaussians representation that extends 3D Gaussian splatting for high-fidelity representation of articulating hands. Since our representation uses Gaussian primitives, it enables us to efficiently and accurately estimate contacts between the hand and the object. For the most accurate results, our method requires tens of camera views that current datasets do not provide. We therefore build MANUS-Grasps, a new dataset that contains hand-object grasps viewed from 53 cameras across 30+ scenes, 3 subjects, and comprising over 7M frames. In addition to extensive qualitative results, we also show that our method outperforms others on a quantitative contact evaluation method that uses paint transfer from the object to the hand.
翻訳日:2023-12-05 14:08:16 公開日:2023-12-04
# BerfScene:無期限3次元シーン生成のためのベブ条件等変放射場

BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D Scene Generation ( http://arxiv.org/abs/2312.02136v1 )

ライセンス: Link先を確認
Qihang Zhang, Yinghao Xu, Yujun Shen, Bo Dai, Bolei Zhou, Ceyuan Yang(参考訳) 大規模な3Dシーンを生成する場合、3Dシーンは通常複雑な空間構成を持ち、様々なスケールで多数のオブジェクトで構成されるため、既存の3Dオブジェクト合成技術は単純に適用できない。 そこで我々は,同変放射場を鳥眼図(BEV)で表した実用的で効率的な3D表現を提案する。 具体的には、合成された3Dシーンのオブジェクトは、対応するBEVマップを操ることで容易に操作できる。 さらに、位置符号化と低パスフィルタを適切にジェネレータに組み込むことで、表現は与えられたBEVマップに同値となる。 このような均等性により、局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作成できる。 3次元シーンデータセットの大規模な実験は、我々のアプローチの有効性を実証する。 プロジェクトのWebサイトはhttps://zqh0253.github.io/BerfScene/にあります。

Generating large-scale 3D scenes cannot simply apply existing 3D object synthesis technique since 3D scenes usually hold complex spatial configurations and consist of a number of objects at varying scales. We thus propose a practical and efficient 3D representation that incorporates an equivariant radiance field with the guidance of a bird's-eye view (BEV) map. Concretely, objects of synthesized 3D scenes could be easily manipulated through steering the corresponding BEV maps. Moreover, by adequately incorporating positional encoding and low-pass filters into the generator, the representation becomes equivariant to the given BEV map. Such equivariance allows us to produce large-scale, even infinite-scale, 3D scenes via synthesizing local scenes and then stitching them with smooth consistency. Extensive experiments on 3D scene datasets demonstrate the effectiveness of our approach. Our project website is at https://zqh0253.github.io/BerfScene/.
翻訳日:2023-12-05 14:07:55 公開日:2023-12-04
# カジュアルビデオの高速ビュー合成

Fast View Synthesis of Casual Videos ( http://arxiv.org/abs/2312.02135v1 )

ライセンス: Link先を確認
Yao-Chih Lee, Zhoutong Zhang, Kevin Blackburn-Matzen, Simon Niklaus, Jianming Zhang, Jia-Bin Huang, Feng Liu(参考訳) シーンのダイナミックスやパララックスの欠如といった課題のため、Wild ビデオからの新たなビュー合成は困難である。 既存の手法では暗黙のニューラルラディアンスフィールドで有望な結果を示しているが、トレーニングとレンダリングは遅い。 本稿では,モノクロ映像から高品質な新規ビューを効率よく合成するために,明示的な映像表現を再考する。 静的および動的ビデオコンテンツを別々に扱う。 具体的には,拡張平面型シーン表現を用いたグローバル静的シーンモデルを構築し,時間的コヒーレントな新映像を合成する。 平面上のシーン表現は球面調和と変位マップで拡張され、ビュー依存効果を捉え、非平面複素曲面幾何学をモデル化する。 動的コンテントを効率よくフレーム単位のポイントクラウドとして表現することを選択します。 このような表現は矛盾しやすいが、小さな時間的不整合は運動によって知覚的に隠されている。 そこで我々は,このようなハイブリッドビデオ表現を素早く推定し,新しいビューをリアルタイムで描画する手法を開発した。 実験により,本手法は,実時間レンダリングを100倍高速化しつつ,最先端の手法に匹敵する高品質な映像から高画質のノベル・ビューをレンダリングできることを示した。

Novel view synthesis from an in-the-wild video is difficult due to challenges like scene dynamics and lack of parallax. While existing methods have shown promising results with implicit neural radiance fields, they are slow to train and render. This paper revisits explicit video representations to synthesize high-quality novel views from a monocular video efficiently. We treat static and dynamic video content separately. Specifically, we build a global static scene model using an extended plane-based scene representation to synthesize temporally coherent novel video. Our plane-based scene representation is augmented with spherical harmonics and displacement maps to capture view-dependent effects and model non-planar complex surface geometry. We opt to represent the dynamic content as per-frame point clouds for efficiency. While such representations are inconsistency-prone, minor temporal inconsistencies are perceptually masked due to motion. We develop a method to quickly estimate such a hybrid video representation and render novel views in real time. Our experiments show that our method can render high-quality novel views from an in-the-wild video with comparable quality to state-of-the-art methods while being 100x faster in training and enabling real-time rendering.
翻訳日:2023-12-05 14:07:40 公開日:2023-12-04
# Gaussian Avatar: Animatable 3D Gaussianによる単一ビデオからのリアルなヒューマンアバターモデリングを目指して

GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians ( http://arxiv.org/abs/2312.02134v1 )

ライセンス: Link先を確認
Liangxiao Hu, Hongwen Zhang, Yuxiang Zhang, Boyao Zhou, Boning Liu, Shengping Zhang, Liqiang Nie(参考訳) ビデオから動的に3dのアバターを作るための効率的なアプローチであるgaussianavatarを提案する。 まずアニマタブルな3Dガウシアンを導入し、さまざまなポーズや服装スタイルで人間を明示的に表現する。 このような明示的でアニマタブルな表現は、より効率的で一貫して2次元観測から3Dの外観を融合させることができる。 私たちの表現は、ポーズ依存の外観モデリングをサポートするために、さらに動的特性が強化され、動的外観ネットワークと最適化可能な特徴テンソルが、動きから出現へのマッピングを学習するように設計されています。 さらに, 微分可能な動作条件を利用することで, アバターモデリング時の動作と外観の同時最適化が可能となり, 単眼環境における不正確な動き推定の長期的課題に対処できる。 GaussianAvatarの有効性は、公開データセットと収集データセットの両方で検証され、外観品質とレンダリング効率の点で優れた性能を示している。

We present GaussianAvatar, an efficient approach to creating realistic human avatars with dynamic 3D appearances from a single video. We start by introducing animatable 3D Gaussians to explicitly represent humans in various poses and clothing styles. Such an explicit and animatable representation can fuse 3D appearances more efficiently and consistently from 2D observations. Our representation is further augmented with dynamic properties to support pose-dependent appearance modeling, where a dynamic appearance network along with an optimizable feature tensor is designed to learn the motion-to-appearance mapping. Moreover, by leveraging the differentiable motion condition, our method enables a joint optimization of motions and appearances during avatar modeling, which helps to tackle the long-standing issue of inaccurate motion estimation in monocular settings. The efficacy of GaussianAvatar is validated on both the public dataset and our collected dataset, demonstrating its superior performances in terms of appearance quality and rendering efficiency.
翻訳日:2023-12-05 14:07:20 公開日:2023-12-04
# 共有注意によるスタイルアライメント画像生成

Style Aligned Image Generation via Shared Attention ( http://arxiv.org/abs/2312.02133v1 )

ライセンス: Link先を確認
Amir Hertz, Andrey Voynov, Shlomi Fruchter, Daniel Cohen-Or(参考訳) 大規模テキスト・ツー・イメージ(T2I)モデルは、創造的分野全体で急速に普及し、テキスト・プロンプトから視覚的に魅力的な出力を生成する。 しかし、一貫性のあるスタイルを保証するためにこれらのモデルを制御することは依然として難しい。 本稿では,一連の生成画像間のスタイルアライメントを確立するための新しい手法であるスタイルアライメントを提案する。 拡散過程において最小限の「注意共有」を用いることで、T2Iモデル内の画像間のスタイル整合性を維持する。 このアプローチにより、簡単な反転操作を通じて、参照スタイルを使用してスタイル一貫性のある画像を作成することができる。 提案手法は,多種多様なスタイルとテキストのプロンプトにまたがって,高品質な合成と忠実さを示す。

Large-scale Text-to-Image (T2I) models have rapidly gained prominence across creative fields, generating visually compelling outputs from textual prompts. However, controlling these models to ensure consistent style remains challenging, with existing methods necessitating fine-tuning and manual intervention to disentangle content and style. In this paper, we introduce StyleAligned, a novel technique designed to establish style alignment among a series of generated images. By employing minimal `attention sharing' during the diffusion process, our method maintains style consistency across images within T2I models. This approach allows for the creation of style-consistent images using a reference style through a straightforward inversion operation. Our method's evaluation across diverse styles and text prompts demonstrates high-quality synthesis and fidelity, underscoring its efficacy in achieving consistent style across various inputs.
翻訳日:2023-12-05 14:07:02 公開日:2023-12-04
# hot pate: 多様なタスクのための分散のプライベートアグリゲーション

Hot PATE: Private Aggregation of Distributions for Diverse Task ( http://arxiv.org/abs/2312.02132v1 )

ライセンス: Link先を確認
Edith Cohen and Xin Lyu and Jelani Nelson and Tamas Sarlos and Uri Stemmer(参考訳) Private Aggregation of Teacher Ensembles (PATE) framework~\cite{PapernotAEGT:ICLR2017}は、プライバシ保護機械学習に対する汎用的なアプローチである。 pateでは、教師モデルはセンシティブなデータの異なる部分で訓練され、その予測はプライベートに集約され、生徒モデルの新しいトレーニング例にラベル付けされる。 これまで、PATEは主に分類のようなタスクで探索されてきたが、それぞれの例が基調ラベルを持ち、公開例をラベル付けすることで知識が学生に伝達される。 しかし、生成型aiモデルは、複数の有効な応答と、従来のラベル付き例と一致しないシナリオを持つオープンエンドの \emph{diverse}タスクで優れている。 さらに、モデルに関する知識は応答分布自体にカプセル化され、より流動的な方法で教師から生徒に伝達されることがある。 多様な設定に適した 'emph{hot PATE} を提案する。 ホットPATEでは、各教師モデルは応答分布を生成し、アグリゲーション法は応答のプライバシーと多様性の両方を保持する必要がある。 我々は、分析的かつ実証的に、ホットPATEは、多様な設定において、‘cold’のPATEのベースラインに匹敵するプライバシーとユーティリティのトレードオフを達成することを実証した。

The Private Aggregation of Teacher Ensembles (PATE) framework~\cite{PapernotAEGT:ICLR2017} is a versatile approach to privacy-preserving machine learning. In PATE, teacher models are trained on distinct portions of sensitive data, and their predictions are privately aggregated to label new training examples for a student model. Until now, PATE has primarily been explored with classification-like tasks, where each example possesses a ground-truth label, and knowledge is transferred to the student by labeling public examples. Generative AI models, however, excel in open ended \emph{diverse} tasks with multiple valid responses and scenarios that may not align with traditional labeled examples. Furthermore, the knowledge of models is often encapsulated in the response distribution itself and may be transferred from teachers to student in a more fluid way. We propose \emph{hot PATE}, tailored for the diverse setting. In hot PATE, each teacher model produces a response distribution and the aggregation method must preserve both privacy and diversity of responses. We demonstrate, analytically and empirically, that hot PATE achieves privacy-utility tradeoffs that are comparable to, and in diverse settings, significantly surpass, the baseline ``cold'' PATE.
翻訳日:2023-12-05 14:06:44 公開日:2023-12-04
# 私たちは本当に俳優の本当の幸せをアバターに転送できますか。 仮想的,現実的,ポーズ的,自発的顔の検討

Can we truly transfer an actor's genuine happiness to avatars? An investigation into virtual, real, posed and spontaneous faces ( http://arxiv.org/abs/2312.02128v1 )

ライセンス: Link先を確認
Vitor Miguel Xavier Peres, Greice Pinho Dal Molin and Soraia Raupp Musse(参考訳) 見た目は千語の価値がありますが、人気のあるフレーズです。 なぜ単純な表情で何かや誰かに対する私たちの感情を表現できるのでしょうか? この疑問の背後には、社会認知に関する心理学の分野と心理学者ポール・エクマンの研究の理論的基礎がある。 非言語コミュニケーションの形式としての表情は、人間間で感情を伝達する主要な手段である。 人の感情状態を観察者に伝える顔の筋肉の動きと表情は、多くの分野で研究の対象となっている。 本研究は,実際の顔,ポーズ,自発的,仮想的な顔のデータセットにおけるekmanのアクションユニットを評価することを目的としている。 また,SheHulkやGeniusといった特定の映画キャラクターを用いたケーススタディも行った。 現実とcgのデータセット,ポーズと自発的な顔の表情の違いや類似性を見いだし,映像中の俳優の性別について考察する。 この調査は、実際の人間でもバーチャル人間でも、教育、健康、エンターテイメント、ゲーム、セキュリティ、さらには法的問題でも、いくつかの分野の知識に役立つ。 以上の結果から,AU強度は,性別によらず自発性データセットよりも大きいことが示唆された。 さらに、実際の顔がcgに変換されると、au6は最大80%、au12は45%の強度が滑らかになる。

A look is worth a thousand words is a popular phrase. And why is a simple look enough to portray our feelings about something or someone? Behind this question are the theoretical foundations of the field of psychology regarding social cognition and the studies of psychologist Paul Ekman. Facial expressions, as a form of non-verbal communication, are the primary way to transmit emotions between human beings. The set of movements and expressions of facial muscles that convey some emotional state of the individual to their observers are targets of studies in many areas. Our research aims to evaluate Ekman's action units in datasets of real human faces, posed and spontaneous, and virtual human faces resulting from transferring real faces into Computer Graphics faces. In addition, we also conducted a case study with specific movie characters, such as SheHulk and Genius. We intend to find differences and similarities in facial expressions between real and CG datasets, posed and spontaneous faces, and also to consider the actors' genders in the videos. This investigation can help several areas of knowledge, whether using real or virtual human beings, in education, health, entertainment, games, security, and even legal matters. Our results indicate that AU intensities are greater for posed than spontaneous datasets, regardless of gender. Furthermore, there is a smoothing of intensity up to 80 percent for AU6 and 45 percent for AU12 when a real face is transformed into CG.
翻訳日:2023-12-05 14:06:23 公開日:2023-12-04
# SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM

SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM ( http://arxiv.org/abs/2312.02126v1 )

ライセンス: Link先を確認
Nikhil Keetha, Jay Karhade, Krishna Murthy Jatavallabhula, Gengshan Yang, Sebastian Scherer, Deva Ramanan, Jonathon Luiten(参考訳) 濃密な同時局所化とマッピング(SLAM)は、シーン理解の具体化に重要である。 近年の研究では、3Dガウシアンが複数のカメラを用いて高画質の再現とリアルタイムレンダリングを可能にすることが示されている。 この光で、3Dガウシアンによるシーンの表現は、単一の単眼のRGB-Dカメラを用いて高密度SLAMを実現することができることを示す。 提案手法であるsplatamは,高速レンダリングや最適化,領域が以前にマッピングされたかどうかの判断,ガウス関数の追加による構造化マップ拡張などを含む,事前の輝度場に基づく表現の制限に対処する。 オンライントラッキングとマッピングのパイプラインを使用し、基礎となるガウス表現と、微分レンダリングによるシルエット誘導最適化を特に使用するように調整しています。 広汎な実験により、SplaTAMは、カメラポーズ推定、マップ構築、ノベルビュー合成において最大2倍の性能を達成し、既存のアプローチよりも優位性を示しながら、高解像度の高密度3Dマップのリアルタイムレンダリングを可能にした。

Dense simultaneous localization and mapping (SLAM) is pivotal for embodied scene understanding. Recent work has shown that 3D Gaussians enable high-quality reconstruction and real-time rendering of scenes using multiple posed cameras. In this light, we show for the first time that representing a scene by 3D Gaussians can enable dense SLAM using a single unposed monocular RGB-D camera. Our method, SplaTAM, addresses the limitations of prior radiance field-based representations, including fast rendering and optimization, the ability to determine if areas have been previously mapped, and structured map expansion by adding more Gaussians. We employ an online tracking and mapping pipeline while tailoring it to specifically use an underlying Gaussian representation and silhouette-guided optimization via differentiable rendering. Extensive experiments show that SplaTAM achieves up to 2X state-of-the-art performance in camera pose estimation, map construction, and novel-view synthesis, demonstrating its superiority over existing approaches, while allowing real-time rendering of a high-resolution dense 3D map.
翻訳日:2023-12-05 14:05:58 公開日:2023-12-04
# TPPoet:極小データと高度な復号技術を用いたトランスフォーマーに基づくペルシャ歌生成

TPPoet: Transformer-Based Persian Poem Generation using Minimal Data and Advanced Decoding Techniques ( http://arxiv.org/abs/2312.02125v1 )

ライセンス: Link先を確認
Amir Panahandeh, Hanie Asemi, Esmail Nourani(参考訳) 近年の言語モデル (LM) の進歩は, 芸術や人文科学に関わる課題において顕著な効果を示した。 LMは、さまざまな自然言語処理タスクにおいて、例外的なパフォーマンスを示してきたが、小さなデータセットの利用と、より創造的な人間の能力を再現する能力にまつわる顕著な課題がある。 本研究では,ペルシャの古典詩生成モデルを,事前学習のない特別なデータセット上でトランスフォーマーアーキテクチャを用いて訓練することにより,これらの課題に対処することを目的とする。 さらに, 多様性と質のトレードオフを効果的に管理し, 生成詩の一貫性と有意義性を高める新しい復号法を提案する。 さらに,本学習手法と提案手法は,総合的な自動評価と人的評価によって評価され,他の復号法や既存のペルシャ大言語モデル(LLM)と比較して,一貫性と意味のある詩を生成する能力に優れていた。

Recent advances in language models (LMs), have demonstrated significant efficacy in tasks related to the arts and humanities. While LMs have exhibited exceptional performance across a wide range of natural language processing tasks, there are notable challenges associated with their utilization on small datasets and their ability to replicate more creative human capacities. In this study, we aim to address these challenges by training a Persian classical poetry generation model using a transformer architecture on a specialized dataset with no pretraining. Additionally, we propose a novel decoding method to enhance coherence and meaningfulness in the generated poetry, effectively managing the tradeoff between diversity and quality. Furthermore, the results of our training approach and the proposed decoding method are evaluated through comprehensive set of automatic and human evaluations and showed its superior capability to generate coherent and meaningful poetry in compare to other decoding methods and an existing Persian large language model (LLM).
翻訳日:2023-12-05 14:05:36 公開日:2023-12-04
# VerA: 臨床顔面画像のためのVersatile anonymization Fit

VerA: Versatile Anonymization Fit for Clinical Facial Images ( http://arxiv.org/abs/2312.02124v1 )

ライセンス: Link先を確認
Majed El Helou, Doruk Cetin, Petar Stamenkovic, Fabio Zund(参考訳) 顔画像の拡散におけるデータのプライバシーに対する立法的要求の増大は、画像の匿名化の重要性を暗示している。 近年のフィールドの進歩は、従来のピクセル化やぼやけの手法を超越している。 臨床画像の匿名化は、医療介入の実施に必要なもので、ほとんど修正されていない。 臨床顔画像に適合する多彩な顔画像匿名化である VerA について,(1) 医療介入の結果を示すために特定の意味領域を保存しなければならないこと,(2) 画像ペアの匿名化は,前・後の結果を示す上で重要である。 veraは、通常の画像の非識別とフォトリアリズムにおいて最先端の手法に匹敵する、あるいは同等である。 また,一対の匿名化と,一対の臨床画像と一対の臨床画像の匿名化について,定量的・質的評価を行った結果について検証した。

The escalating legislative demand for data privacy in facial image dissemination has underscored the significance of image anonymization. Recent advancements in the field surpass traditional pixelation or blur methods, yet they predominantly address regular single images. This leaves clinical image anonymization -- a necessity for illustrating medical interventions -- largely unaddressed. We present VerA, a versatile facial image anonymization that is fit for clinical facial images where: (1) certain semantic areas must be preserved to show medical intervention results, and (2) anonymizing image pairs is crucial for showing before-and-after results. VerA outperforms or is on par with state-of-the-art methods in de-identification and photorealism for regular images. In addition, we validate our results on paired anonymization, and on the anonymization of both single and paired clinical images with extensive quantitative and qualitative evaluation.
翻訳日:2023-12-05 14:05:19 公開日:2023-12-04
# the $\texttt{gsplat}$ library の数学的補足

Mathematical Supplement for the $\texttt{gsplat}$ Library ( http://arxiv.org/abs/2312.02121v1 )

ライセンス: Link先を確認
Vickie Ye and Angjoo Kanazawa(参考訳) 本稿では、Kerblらによって提案された、効率的な微分可能なガウススプラッティングのためのモジュラーツールボックスであるgsplatライブラリの数学的詳細を提供する。 これは微分可能なガウススプラッティングの前方および後方通過に関わる計算に対して自己完結した参照を提供する。 実用的な利用と開発を容易にするため、github.com/nerfstudio-project/gsplatで、前方および後方パスの各コンポーネントをラスタライズして公開する、ユーザフレンドリーなPython APIを提供する。

This report provides the mathematical details of the gsplat library, a modular toolbox for efficient differentiable Gaussian splatting, as proposed by Kerbl et al. It provides a self-contained reference for the computations involved in the forward and backward passes of differentiable Gaussian splatting. To facilitate practical usage and development, we provide a user friendly Python API that exposes each component of the forward and backward passes in rasterization at github.com/nerfstudio-project/gsplat .
翻訳日:2023-12-05 14:05:02 公開日:2023-12-04
# Magicoder: ソースコードは必要なだけ

Magicoder: Source Code Is All You Need ( http://arxiv.org/abs/2312.02120v1 )

ライセンス: Link先を確認
Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding, Lingming Zhang(参考訳) Magicoderは、コードのための、完全なオープンソース(コード、重み、データ)のシリーズで、7Bパラメータを含まないまま、トップコードモデルとのギャップを著しく埋める大規模言語モデル(LLM)を紹介します。 magicoderモデルは、オープンソースコードスニペットでllmを啓蒙し、コードのための高品質な命令データを生成する新しいアプローチであるoss-instructを使用して、75kの合成命令データに基づいてトレーニングされる。 我々の主な動機は、LLMが生み出す合成データの固有のバイアスを軽減し、より多様で現実的で制御可能なデータを生成するために、豊富なオープンソースリファレンスを彼らに与えることである。 OSS-InstructとEvol-Instructのようなデータ生成メソッドの直交性により、さらに拡張されたMagicoderSを構築することができます。 magicoderとmagicodersはどちらも、pythonのテキスト対コード生成、マルチリンガルコーディング、データサイエンスプログラムの補完など、幅広いコーディングベンチマークにおいて、同等またはそれ以上の大きさの最先端のコードモデルを大幅に上回っている。 特に、CodeLlamaをベースとしたMagicoderS-CL-7Bは、HumanEval+の著名なChatGPT(66.5 vs. 65.9 in pass@1)を超えている。 OSS-Instructは、豊富なオープンソース参照を用いた低バイアスかつ高品質な命令チューニングのための新しい方向を開く。

We introduce Magicoder, a series of fully open-source (code, weights, and data) Large Language Models (LLMs) for code that significantly closes the gap with top code models while having no more than 7B parameters. Magicoder models are trained on 75K synthetic instruction data using OSS-Instruct, a novel approach to enlightening LLMs with open-source code snippets to generate high-quality instruction data for code. Our main motivation is to mitigate the inherent bias of the synthetic data generated by LLMs by empowering them with a wealth of open-source references for the production of more diverse, realistic, and controllable data. The orthogonality of OSS-Instruct and other data generation methods like Evol-Instruct further enables us to build an enhanced MagicoderS. Both Magicoder and MagicoderS substantially outperform state-of-the-art code models with similar or even larger sizes on a wide range of coding benchmarks, including Python text-to-code generation, multilingual coding, and data-science program completion. Notably, MagicoderS-CL-7B based on CodeLlama even surpasses the prominent ChatGPT on HumanEval+ (66.5 vs. 65.9 in pass@1). Overall, OSS-Instruct opens a new direction for low-bias and high-quality instruction tuning using abundant open-source references.
翻訳日:2023-12-05 14:04:51 公開日:2023-12-04
# tree of attack: 自動ジェイルブレイクブラックボックスllm

Tree of Attacks: Jailbreaking Black-Box LLMs Automatically ( http://arxiv.org/abs/2312.02119v1 )

ライセンス: Link先を確認
Anay Mehrotra, Manolis Zampetakis, Paul Kassianik, Blaine Nelson, Hyrum Anderson, Yaron Singer, Amin Karbasi(参考訳) 大規模言語モデル(llm)は汎用的な機能を備えているが、人間設計のジェイルブレイクの普及によって示されるように、有害で偏りのある、有害なコンテンツを生み出し続けている。 本研究では,ターゲットLSMへのブラックボックスアクセスのみを必要とするジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。 TAP は LLM を用いて、候補(攻撃)を反復的に洗練させ、生成したプロンプトの1つがターゲットをジェイルブレイクするまで、ツリー・オブ・シントによる推論を使用する。 重要なことに、ターゲットにプロンプトを送る前に、TAPはそれらを評価し、脱獄の可能性が低いものをプルークする。 Tree-of-Thought推論を使用することで、TAPはプロンプトとプルーニングの大きな検索スペースをナビゲートでき、ターゲットに送信されるクエリの総数を削減できる。 経験的評価では,TAP がジェイルブレイク状態の LLM (GPT4 と GPT4-Turbo を含む) を,少数のクエリのみを用いて80%以上のプロンプトで生成する。 これは、ジェイルブレイクを生成するための以前の最先端ブラックボックスメソッドを大幅に改善する。

While Large Language Models (LLMs) display versatile functionality, they continue to generate harmful, biased, and toxic content, as demonstrated by the prevalence of human-designed jailbreaks. In this work, we present Tree of Attacks with Pruning (TAP), an automated method for generating jailbreaks that only requires black-box access to the target LLM. TAP utilizes an LLM to iteratively refine candidate (attack) prompts using tree-of-thoughts reasoning until one of the generated prompts jailbreaks the target. Crucially, before sending prompts to the target, TAP assesses them and prunes the ones unlikely to result in jailbreaks. Using tree-of-thought reasoning allows TAP to navigate a large search space of prompts and pruning reduces the total number of queries sent to the target. In empirical evaluations, we observe that TAP generates prompts that jailbreak state-of-the-art LLMs (including GPT4 and GPT4-Turbo) for more than 80% of the prompts using only a small number of queries. This significantly improves upon the previous state-of-the-art black-box method for generating jailbreaks.
翻訳日:2023-12-05 14:04:26 公開日:2023-12-04
# PaSCo:不確かさを意識した3Dパノラマシーン

PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness ( http://arxiv.org/abs/2312.02158v1 )

ライセンス: Link先を確認
Anh-Quan Cao and Angela Dai and Raoul de Charette(参考訳) 本稿では,最近普及したssc(semantic scene completion)タスクをインスタンスレベルの情報で拡張し,より詳細な3dシーン理解を実現するpanoptic scene completion(psc)タスクを提案する。 我々のPSC提案では,スパースマルチスケールコンプリートから空でないボクセルにマスクを用いたハイブリッド手法を用いる。 sscの文献では,ロボット応用に不可欠な不確実性を見落としているのに対して,psc に沿ってvoxel-wise と instance-wise の両方の不確かさを推定する効率的なセンシングを提案する。 これは、MIMO(multi-input multi-output)戦略に基づいて構築され、性能を改善し、少ない計算量に対してより良い不確実性をもたらす。 さらに,置換不変マスク予測を集約する手法を提案する。 実験により,Panoptic Scene Completionと3つの大規模自律走行データセットにおける不確実性評価の両方において,本手法が全ベースラインを超えることを示した。 コードとデータはhttps://astra-vision.github.io/pascoで入手できます。

We propose the task of Panoptic Scene Completion (PSC) which extends the recently popular Semantic Scene Completion (SSC) task with instance-level information to produce a richer understanding of the 3D scene. Our PSC proposal utilizes a hybrid mask-based technique on the non-empty voxels from sparse multi-scale completions. Whereas the SSC literature overlooks uncertainty which is critical for robotics applications, we instead propose an efficient ensembling to estimate both voxel-wise and instance-wise uncertainties along PSC. This is achieved by building on a multi-input multi-output (MIMO) strategy, while improving performance and yielding better uncertainty for little additional compute. Additionally, we introduce a technique to aggregate permutation-invariant mask predictions. Our experiments demonstrate that our method surpasses all baselines in both Panoptic Scene Completion and uncertainty estimation on three large-scale autonomous driving datasets. Our code and data are available at https://astra-vision.github.io/PaSCo .
翻訳日:2023-12-05 13:58:00 公開日:2023-12-04
# メッシュ誘導型ニューラルインシシトフィールド編集

Mesh-Guided Neural Implicit Field Editing ( http://arxiv.org/abs/2312.02157v1 )

ライセンス: Link先を確認
Can Wang and Mingming He and Menglei Chai and Dongdong Chen and Jing Liao(参考訳) neural implicit fieldは、フォトリアリスティックなビューを再構築しレンダリングするための強力な3d表現として登場したが、編集性は限られている。 逆に、多角形メッシュのような明示的な3d表現は編集が容易であるが、高品質のノベルビューのレンダリングには適さない。 両表現の強みを活用するために,ニューラルネットワークの放射フィールドの編集において,メッシュを誘導機構として用いる新しい手法を提案する。 まず,神経暗黙場からの多角メッシュ抽出のためのマーチングテトラヘドラを用いた微分可能色抽出器の設計を行い,ボリュームレンダリングから得られた色を抽出されたメッシュに割り当てる。 この微分可能な色のメッシュは、明示的なメッシュから暗黙のフィールドへの勾配バックプロパゲーションを可能にし、ユーザーは神経の暗黙のフィールドの幾何学と色を容易に操作できる。 粗粒度から細粒度レベルへのユーザ制御を強化するため,オクツリー構造を最適化に導入する。 この構造は、編集された領域と表面部を優先し、ニューラルネットワークの暗黙のフィールドに微細な編集を施し、オブジェクトの追加、コンポーネントの除去、特定の領域の変形、局所的およびグローバルな色への調整など、様々なユーザ修正に対応する。 多様なシーンや編集作業を含む広範な実験を通じて,本手法の有効性と効果を実証した。 私たちのプロジェクトページは以下のとおりです。

Neural implicit fields have emerged as a powerful 3D representation for reconstructing and rendering photo-realistic views, yet they possess limited editability. Conversely, explicit 3D representations, such as polygonal meshes, offer ease of editing but may not be as suitable for rendering high-quality novel views. To harness the strengths of both representations, we propose a new approach that employs a mesh as a guiding mechanism in editing the neural radiance field. We first introduce a differentiable method using marching tetrahedra for polygonal mesh extraction from the neural implicit field and then design a differentiable color extractor to assign colors obtained from the volume renderings to this extracted mesh. This differentiable colored mesh allows gradient back-propagation from the explicit mesh to the implicit fields, empowering users to easily manipulate the geometry and color of neural implicit fields. To enhance user control from coarse-grained to fine-grained levels, we introduce an octree-based structure into its optimization. This structure prioritizes the edited regions and the surface part, making our method achieve fine-grained edits to the neural implicit field and accommodate various user modifications, including object additions, component removals, specific area deformations, and adjustments to local and global colors. Through extensive experiments involving diverse scenes and editing operations, we have demonstrated the capabilities and effectiveness of our method. Our project page is: \url{https://cassiepython.github.io/MNeuEdit/}
翻訳日:2023-12-05 13:57:43 公開日:2023-12-04
# 影除去のための潜在特徴誘導拡散モデル

Latent Feature-Guided Diffusion Models for Shadow Removal ( http://arxiv.org/abs/2312.02156v1 )

ライセンス: Link先を確認
Kangfu Mei and Luis Figueroa and Zhe Lin and Zhihong Ding and Scott Cohen and Vishal M. Patel(参考訳) 影の下のテクスチャを復元することは、影画像から影のないシーンを推測することが困難であるため、依然として難しい問題である。 本稿では,拡散過程における影領域の細部を徐々に洗練するための有望な手法を提供するため,拡散モデルの利用を提案する。 シャドウフリー画像の特徴を継承する学習潜在特徴空間を条件付けすることにより,劣化画像のみを条件づけする従来の手法の限界を回避することにより,このプロセスを改善する。 さらに,拡散ネットワークにノイズ特徴を融合させることにより,トレーニング中の局所的最適性を軽減することを提案する。 aistdデータセット上のrmseの観点から,従来のベストメソッドを13%上回る効果を示す。 さらにインスタンスレベルのシャドウ除去についても検討し,desobaデータセット上のrmseの点で,これまでの最善のメソッドを82%上回っている。

Recovering textures under shadows has remained a challenging problem due to the difficulty of inferring shadow-free scenes from shadow images. In this paper, we propose the use of diffusion models as they offer a promising approach to gradually refine the details of shadow regions during the diffusion process. Our method improves this process by conditioning on a learned latent feature space that inherits the characteristics of shadow-free images, thus avoiding the limitation of conventional methods that condition on degraded images only. Additionally, we propose to alleviate potential local optima during training by fusing noise features with the diffusion network. We demonstrate the effectiveness of our approach which outperforms the previous best method by 13% in terms of RMSE on the AISTD dataset. Further, we explore instance-level shadow removal, where our model outperforms the previous best method by 82% in terms of RMSE on the DESOBA dataset.
翻訳日:2023-12-05 13:57:16 公開日:2023-12-04
# GPS-Gaussian:リアルタイム新規ビュー合成のための一般化可能な画素ワイド3次元ガウススプラッティング

GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis ( http://arxiv.org/abs/2312.02155v1 )

ライセンス: Link先を確認
Shunyuan Zheng, Boyao Zhou, Ruizhi Shao, Boning Liu, Shengping Zhang, Liqiang Nie, Yebin Liu(参考訳) 我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。 提案手法はスパースビューカメラ設定下で2K解像度のレンダリングを可能にする。 対象毎の最適化を必要とする元のガウス的スプラッティング法やニューラルネットワークの暗黙的レンダリング法とは異なり、ソースビュー上で定義されたガウス的パラメータマップを導入し、微調整や最適化なしに瞬時新規なビュー合成のためのガウス的スプラッティングプロパティを直接レグレッションする。 この目的のために,我々は多量の人間のスキャンデータに基づいてガウスパラメータ回帰モジュールを訓練し,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。 提案するフレームワークは完全に差別化可能であり,提案手法はレンダリング速度を超越しながら最先端の手法より優れていることを示す。

We present a new approach, termed GPS-Gaussian, for synthesizing novel views of a character in a real-time manner. The proposed method enables 2K-resolution rendering under a sparse-view camera setting. Unlike the original Gaussian Splatting or neural implicit rendering methods that necessitate per-subject optimizations, we introduce Gaussian parameter maps defined on the source views and regress directly Gaussian Splatting properties for instant novel view synthesis without any fine-tuning or optimization. To this end, we train our Gaussian parameter regression module on a large amount of human scan data, jointly with a depth estimation module to lift 2D parameter maps to 3D space. The proposed framework is fully differentiable and experiments on several datasets demonstrate that our method outperforms state-of-the-art methods while achieving an exceeding rendering speed.
翻訳日:2023-12-05 13:57:00 公開日:2023-12-04
# すべてを一度に調整して証明するユニバーサル・ビジュアル・パーセプション

Aligning and Prompting Everything All at Once for Universal Visual Perception ( http://arxiv.org/abs/2312.02153v1 )

ライセンス: Link先を確認
Yunhang Shen, Chaoyou Fu, Peixian Chen, Mengdan Zhang, Ke Li, Xing Sun, Yunsheng Wu, Shaohui Lin, Rongrong Ji(参考訳) ビジョンファウンデーションモデルは最近、汎用ビジョンシステムを構築するために研究されている。 しかし、インスタンスレベルのタスクをオブジェクトと単語のアライメントとしてキャストすることで駆動される主要なパラダイムは、オブジェクト検出と視覚的な接地を促すのに効果的ではない、重いクロスモダリティインタラクションをもたらす。 ピクセルレベルのタスクに焦点を当てた別の作業行は、しばしば物や物の大きなアノテーションギャップに遭遇し、前景オブジェクトと背景クラスセグメンテーションの相互干渉に悩まされる。 一般的な手法とは対照的に,画像中の全てのことを一斉に調整・促進する汎用視覚知覚モデルであるAPEを,インスタンスレベルの文オブジェクトマッチングパラダイムとして,検出,セグメンテーション,グラウンド化といった多様なタスクを実行する。 特に、apは言語ガイドによる接地をオープンボキャブラリー検出として再構成することで、検出と接地を収束させ、何千ものカテゴリーボキャブラリーや地域記述に促すモデルを効率的にスケールさせながら、相互モダリティ融合の有効性を維持している。 異なるピクセルレベルのタスクの粒度のギャップを埋めるために、APEはセマンティックとパノプティクスのセグメンテーションを等しくし、独立したリージョンを個別のインスタンスとして考慮することで、インスタンス学習をプロキシする。 APEは、視覚と言語表現を、タスク固有の微調整なしで、自然で困難な特徴と一致させる。 160以上のデータセットに対する広範な実験により、APEは1スーツの重みしか持たず、最先端のモデルよりも優れている(あるいは同等である)ことが示され、アライメントとプロンプトのための効果的な、そして普遍的な認識が実際に実現可能であることが証明された。 コードとトレーニングされたモデルはhttps://github.com/shenyunhang/APE.orgで公開されている。

Vision foundation models have been explored recently to build general-purpose vision systems. However, predominant paradigms, driven by casting instance-level tasks as an object-word alignment, bring heavy cross-modality interaction, which is not effective in prompting object detection and visual grounding. Another line of work that focuses on pixel-level tasks often encounters a large annotation gap of things and stuff, and suffers from mutual interference between foreground-object and background-class segmentation. In stark contrast to the prevailing methods, we present APE, a universal visual perception model for aligning and prompting everything all at once in an image to perform diverse tasks, i.e., detection, segmentation, and grounding, as an instance-level sentence-object matching paradigm. Specifically, APE advances the convergence of detection and grounding by reformulating language-guided grounding as open-vocabulary detection, which efficiently scales up model prompting to thousands of category vocabularies and region descriptions while maintaining the effectiveness of cross-modality fusion. To bridge the granularity gap of different pixel-level tasks, APE equalizes semantic and panoptic segmentation to proxy instance learning by considering any isolated regions as individual instances. APE aligns vision and language representation on broad data with natural and challenging characteristics all at once without task-specific fine-tuning. The extensive experiments on over 160 datasets demonstrate that, with only one-suit of weights, APE outperforms (or is on par with) the state-of-the-art models, proving that an effective yet universal perception for anything aligning and prompting is indeed feasible. Codes and trained models are released at https://github.com/shenyunhang/APE.
翻訳日:2023-12-05 13:56:40 公開日:2023-12-04
# Steerers: 回転同変キーポイント記述子のためのフレームワーク

Steerers: A framework for rotation equivariant keypoint descriptors ( http://arxiv.org/abs/2312.02152v1 )

ライセンス: Link先を確認
Georg B\"okman, Johan Edstedt, Michael Felsberg, Fredrik Kahl(参考訳) 画像キーポイント記述は視点の大きな変化に対して判別可能であり, 3次元再構成に不可欠である。 しかし、学習されたディスクリプタが出力する説明は、一般的にカメラの回転にロバストではない。 データ拡張などによってより堅牢にすることができるが、これはアップライトイメージのパフォーマンスを低下させる。 もう一つのアプローチはテスト時の拡張であり、実行時の大幅な増加を引き起こす。 代わりに、入力画像の回転を符号化する記述空間における線形変換を学ぶ。 この線形変換は、画像が回転しているかのように記述を変換できるので、ステアラーと呼ぶ。 表現論から、回転群に対するすべての可能なステアラーが分かる。 ステアラーは(A)固定された記述子、(B)固定された記述子、または(C)固定された記述子を最適化することができる。 これら3つの設定すべてで実験を行い、回転不変画像マッチングベンチマークであるAIMSとRoto-360の最先端結果を得た。 github.com/georg-bn/rotation-steerersでコードとモデルの重みを公開しています。

Image keypoint descriptions that are discriminative and matchable over large changes in viewpoint are vital for 3D reconstruction. However, descriptions output by learned descriptors are typically not robust to camera rotation. While they can be made more robust by, e.g., data augmentation, this degrades performance on upright images. Another approach is test-time augmentation, which incurs a significant increase in runtime. We instead learn a linear transform in description space that encodes rotations of the input image. We call this linear transform a steerer since it allows us to transform the descriptions as if the image was rotated. From representation theory we know all possible steerers for the rotation group. Steerers can be optimized (A) given a fixed descriptor, (B) jointly with a descriptor or (C) we can optimize a descriptor given a fixed steerer. We perform experiments in all of these three settings and obtain state-of-the-art results on the rotation invariant image matching benchmarks AIMS and Roto-360. We publish code and model weights at github.com/georg-bn/rotation-steerers.
翻訳日:2023-12-05 13:56:07 公開日:2023-12-04
# 混合サンプルによるオーバーフィッティングに対するバローツインのガード

Guarding Barlow Twins Against Overfitting with Mixed Samples ( http://arxiv.org/abs/2312.02151v1 )

ライセンス: Link先を確認
Wele Gedara Chaminda Bandara, Celso M. De Melo, and Vishal M. Patel(参考訳) self-supervised learning(ssl)は、ラベル付きデータに頼ることなく、下流アプリケーションの転送可能な機能表現を学ぶことを目的としている。 barlow twinsアルゴリズムは、コントラスト学習法などに比べて広く採用され、実装が容易であることで有名だが、共通の腐敗に対する不変性を最大化しながら、機能の冗長性を最小化している。 上記の目的のために最適化することで、ネットワークはノイズや定常的な特徴を回避しながら有用な表現を学習せざるを得ない。 Barlow Twins氏の事前トレーニングの有効性が証明されているにもかかわらず、SSLの目標は、対照的な学習アプローチとは異なり、サンプル間の強い相互作用が欠如していることから、必然的に機能の過剰適合を引き起こす可能性がある。 実験の結果,Barlow Twins目標の最適化は,特定の事前学習フェーズを超えて,表現品質の持続的な改善を保証するものではなく,一部のデータセットでダウンストリームパフォーマンスを低下させる可能性があることがわかった。 この課題に対処するために、線形補間サンプルによるBarlow Twinsトレーニング中のサンプルインタラクションを改善することを目的としたMixed Barlow Twinsを紹介した。 これにより、元のバーロー双生児の目的に対する追加の正規化項が生まれ、入力空間の線形補間が特徴空間の線形補間特徴に変換されると仮定される。 この正規化による事前トレーニングは、機能オーバーフィッティングを効果的に軽減し、CIFAR-10、CIFAR-100、TinyImageNet、STL-10、ImageNetデータセットのダウンストリームパフォーマンスをさらに向上させる。 コードとチェックポイントは、https://github.com/wgcban/mix-bt.gitで入手できる。

Self-supervised Learning (SSL) aims to learn transferable feature representations for downstream applications without relying on labeled data. The Barlow Twins algorithm, renowned for its widespread adoption and straightforward implementation compared to its counterparts like contrastive learning methods, minimizes feature redundancy while maximizing invariance to common corruptions. Optimizing for the above objective forces the network to learn useful representations, while avoiding noisy or constant features, resulting in improved downstream task performance with limited adaptation. Despite Barlow Twins' proven effectiveness in pre-training, the underlying SSL objective can inadvertently cause feature overfitting due to the lack of strong interaction between the samples unlike the contrastive learning approaches. From our experiments, we observe that optimizing for the Barlow Twins objective doesn't necessarily guarantee sustained improvements in representation quality beyond a certain pre-training phase, and can potentially degrade downstream performance on some datasets. To address this challenge, we introduce Mixed Barlow Twins, which aims to improve sample interaction during Barlow Twins training via linearly interpolated samples. This results in an additional regularization term to the original Barlow Twins objective, assuming linear interpolation in the input space translates to linearly interpolated features in the feature space. Pre-training with this regularization effectively mitigates feature overfitting and further enhances the downstream performance on CIFAR-10, CIFAR-100, TinyImageNet, STL-10, and ImageNet datasets. The code and checkpoints are available at: https://github.com/wgcban/mix-bt.git
翻訳日:2023-12-05 13:55:50 公開日:2023-12-04
# readout guidance: 拡散特徴からの学習制御

Readout Guidance: Learning Control from Diffusion Features ( http://arxiv.org/abs/2312.02150v1 )

ライセンス: Link先を確認
Grace Luo, Trevor Darrell, Oliver Wang, Dan B Goldman, Aleksander Holynski(参考訳) 本稿では,学習信号を用いたテキスト・画像拡散モデル制御手法であるReadout Guidanceを提案する。 Readout Guidanceはリードアウトヘッドを使用し、トレーニング済みの凍結拡散モデルの特徴から信号を取り出すために訓練された軽量ネットワークである。 これらの読み出しは、ポーズ、深さ、エッジなどの単一画像特性や、対応や外観の類似性といった複数の画像に関連する高次特性をエンコードすることができる。 さらに、ユーザ定義の目標に対して読み出し推定値を比較し、読み出しヘッドを介して勾配をバックプロパゲーションすることにより、これらの推定値を用いてサンプリングプロセスを導くことができる。 以前の条件生成方法と比較して、Readout Guidanceでは、パラメータやトレーニングサンプルが大幅に少なくなり、単一のアーキテクチャとサンプリング手順で、異なる形式の条件制御を1つのフレームワークで再現するための便利でシンプルなレシピを提供する。 これらの利点を,ドラッグベース操作,アイデンティティ一貫性生成,空間的アライメント制御といった応用例で紹介する。 プロジェクトページ: https://readout-guidance.github.io

We present Readout Guidance, a method for controlling text-to-image diffusion models with learned signals. Readout Guidance uses readout heads, lightweight networks trained to extract signals from the features of a pre-trained, frozen diffusion model at every timestep. These readouts can encode single-image properties, such as pose, depth, and edges; or higher-order properties that relate multiple images, such as correspondence and appearance similarity. Furthermore, by comparing the readout estimates to a user-defined target, and back-propagating the gradient through the readout head, these estimates can be used to guide the sampling process. Compared to prior methods for conditional generation, Readout Guidance requires significantly fewer added parameters and training samples, and offers a convenient and simple recipe for reproducing different forms of conditional control under a single framework, with a single architecture and sampling procedure. We showcase these benefits in the applications of drag-based manipulation, identity-consistent generation, and spatially aligned control. Project page: https://readout-guidance.github.io.
翻訳日:2023-12-05 13:55:21 公開日:2023-12-04
# 十の創造力

Generative Powers of Ten ( http://arxiv.org/abs/2312.02149v1 )

ライセンス: Link先を確認
Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski(参考訳) 本稿では,複数の画像スケールにまたがる一貫したコンテンツを生成するためにテキスト・ツー・イメージモデルを用いて,森林の広角な景観から,木の枝の1つに座る昆虫のマクロショットまで,シーンへの極端な意味的ズームを可能にする手法を提案する。 我々は,各サンプリングプロセスの整合性を維持しつつ,異なるスケールでの整合性を促進する共同多スケール拡散サンプリング手法によりこれを達成した。 生成した各スケールは異なるテキストプロンプトでガイドされるため、従来の超解像法よりも深いレベルのズームが可能であり、全く異なるスケールで新しいコンテキスト構造を作成するのに苦労する可能性がある。 本手法は, 画像の超解像・超解像における代替手法と定性的に比較し, 一貫性のあるマルチスケールコンテンツの生成に最も有効であることを示す。

We present a method that uses a text-to-image model to generate consistent content across multiple image scales, enabling extreme semantic zooms into a scene, e.g., ranging from a wide-angle landscape view of a forest to a macro shot of an insect sitting on one of the tree branches. We achieve this through a joint multi-scale diffusion sampling approach that encourages consistency across different scales while preserving the integrity of each individual sampling process. Since each generated scale is guided by a different text prompt, our method enables deeper levels of zoom than traditional super-resolution methods that may struggle to create new contextual structure at vastly different scales. We compare our method qualitatively with alternative techniques in image super-resolution and outpainting, and show that our method is most effective at generating consistent multi-scale content.
翻訳日:2023-12-05 13:55:03 公開日:2023-12-04
# 強い視覚表現学習者としてのイメージGPT

Rejuvenating image-GPT as Strong Visual Representation Learners ( http://arxiv.org/abs/2312.02147v1 )

ライセンス: Link先を確認
Sucheng Ren, Zeyu Wang, Hongru Zhu, Junfei Xiao, Alan Yuille, Cihang Xie(参考訳) 本稿では,視覚表現学習のための次画素予測のための自己回帰プリトレーニングを導入する先駆的研究の一つであるimage-gpt (igpt) を強化する。 単純だが重要な変更が2つある。 まず、予測対象を生のピクセルから意味トークンにシフトし、視覚コンテンツの高レベルな理解を可能にする。 次に、次のトークンだけでなく可視トークンも予測するようにモデルに指示することで、自己回帰モデリングを補完する。 このパイプラインは、クリップのような識別訓練されたモデルによって意味トークンが符号化される場合に特に有効である。 本手法をD-iGPTとして紹介する。 D-iGPTの顕著な成果は、ImageNet-1Kデータセット上での魅力的なパフォーマンスです -- D-iGPTは、公開データセットでトレーニングすることで、バニラViT-Largeモデルで89.5\%のトップ1の精度を達成します。 このモデルはまた、下流タスクの強い一般化と分散サンプルのロバスト性を示す。 コードは \href{https://github.com/oliverrensu/d-igpt}{https://github.com/oliverrensu/d-igpt} で利用可能である。

This paper enhances image-GPT (iGPT), one of the pioneering works that introduce autoregressive pretraining to predict next pixels for visual representation learning. Two simple yet essential changes are made. First, we shift the prediction target from raw pixels to semantic tokens, enabling a higher-level understanding of visual content. Second, we supplement the autoregressive modeling by instructing the model to predict not only the next tokens but also the visible tokens. This pipeline is particularly effective when semantic tokens are encoded by discriminatively trained models, such as CLIP. We introduce this novel approach as D-iGPT. Extensive experiments showcase that D-iGPT excels as a strong learner of visual representations: A notable achievement of D-iGPT is its compelling performance on the ImageNet-1K dataset -- by training on publicly available datasets, D-iGPT achieves 89.5\% top-1 accuracy with a vanilla ViT-Large model. This model also shows strong generalization on the downstream task and robustness on out-of-distribution samples. Code is avaiable at \href{https://github.com/OliverRensu/D-iGPT}{https://github.com/OliverRensu/D-iGPT}.
翻訳日:2023-12-05 13:54:47 公開日:2023-12-04
# SL(2,\mathbb{R})$ Equivariance を用いた多項式問題学習

Learning Polynomial Problems with $SL(2,\mathbb{R})$ Equivariance ( http://arxiv.org/abs/2312.02146v1 )

ライセンス: Link先を確認
Hannah Lawrence, Mitchell Tong Harris(参考訳) 多項式の正の最適化と証明は、力学系から操作研究まで、数学や工学の応用における基本的な原始である。 しかし、これらの問題を実際に解くには、次元や程度が低い大きな半定プログラムが必要である。 本研究では,ニューラルネットワークがデータ駆動方式でこの問題を効果的に解決し,精度を保ちながら10倍の高速化を実現することを初めて実証する。 さらに、これらの多項式学習問題は、領域保存線形変換からなる非コンパクト群 $SL(2,\mathbb{R})$ に同値である。 したがって、データ拡張、新しい$sl(2,\mathbb{r})$同変アーキテクチャ、そしてその最大コンパクト部分群である$so(2, \mathbb{r})$に関するアーキテクチャ等変を含む、この構造に対応するために学習パイプラインを適応させます。 驚くべきことに、実際最も成功したアプローチは群全体の同値性を強制しないが、これは特に$SL(2,\mathbb{R})$に対する特異なアーキテクチャ普遍性の欠如から生じることを証明している。 独立興味を持つこの結果の帰結は、元の函数に近似する任意の不変量によって乗算される同変多項式の列が存在しない同変函数が存在することである。 これは、データ拡張が完全同変アーキテクチャより優れ、非コンパクト対称性の他の問題に対する理論と実践の両方で興味深い教訓を提供する、対称問題の一例である。

Optimizing and certifying the positivity of polynomials are fundamental primitives across mathematics and engineering applications, from dynamical systems to operations research. However, solving these problems in practice requires large semidefinite programs, with poor scaling in dimension and degree. In this work, we demonstrate for the first time that neural networks can effectively solve such problems in a data-driven fashion, achieving tenfold speedups while retaining high accuracy. Moreover, we observe that these polynomial learning problems are equivariant to the non-compact group $SL(2,\mathbb{R})$, which consists of area-preserving linear transformations. We therefore adapt our learning pipelines to accommodate this structure, including data augmentation, a new $SL(2,\mathbb{R})$-equivariant architecture, and an architecture equivariant with respect to its maximal compact subgroup, $SO(2, \mathbb{R})$. Surprisingly, the most successful approaches in practice do not enforce equivariance to the entire group, which we prove arises from an unusual lack of architecture universality for $SL(2,\mathbb{R})$ in particular. A consequence of this result, which is of independent interest, is that there exists an equivariant function for which there is no sequence of equivariant polynomials multiplied by arbitrary invariants that approximates the original function. This is a rare example of a symmetric problem where data augmentation outperforms a fully equivariant architecture, and provides interesting lessons in both theory and practice for other problems with non-compact symmetries.
翻訳日:2023-12-05 13:54:25 公開日:2023-12-04
# 単眼深度推定のための拡散画像生成装置

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation ( http://arxiv.org/abs/2312.02145v1 )

ライセンス: Link先を確認
Bingxin Ke, Anton Obukhov, Shengyu Huang, Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler(参考訳) 単眼深度推定はコンピュータビジョンの基本課題である。 1枚の画像から3D深度を復元することは幾何学的に不適切であり、シーン理解を必要とするため、ディープラーニングの台頭が突破口となったことは驚くにあたらない。 単眼深度推定器の印象的な進歩は、比較的控えめなcnnから大規模なトランスフォーマーアーキテクチャまで、モデルの容量の増加を反映している。 それでも、単眼深度推定器は、トレーニング中に見られるデータによって視覚世界に関する知識が制限され、新しい領域へのゼロショット一般化によって挑戦されるため、不慣れな内容とレイアウトの画像を提示する際に苦労する傾向がある。 このことは、最近の生成拡散モデルで得られた広範囲の事前がより良く、より一般化可能な深さ推定を可能にするかどうかを探求する動機となる。 本稿では,安定拡散から導出され,その豊富な事前知識を保ったアフィン不変単項深さ推定法marigoldを提案する。 この推定器は、合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。 特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。 プロジェクトページ: https://marigoldmonodepth.github.io

Monocular depth estimation is a fundamental computer vision task. Recovering 3D depth from a single image is geometrically ill-posed and requires scene understanding, so it is not surprising that the rise of deep learning has led to a breakthrough. The impressive progress of monocular depth estimators has mirrored the growth in model capacity, from relatively modest CNNs to large Transformer architectures. Still, monocular depth estimators tend to struggle when presented with images with unfamiliar content and layout, since their knowledge of the visual world is restricted by the data seen during training, and challenged by zero-shot generalization to new domains. This motivates us to explore whether the extensive priors captured in recent generative diffusion models can enable better, more generalizable depth estimation. We introduce Marigold, a method for affine-invariant monocular depth estimation that is derived from Stable Diffusion and retains its rich prior knowledge. The estimator can be fine-tuned in a couple of days on a single GPU using only synthetic training data. It delivers state-of-the-art performance across a wide range of datasets, including over 20% performance gains in specific cases. Project page: https://marigoldmonodepth.github.io.
翻訳日:2023-12-05 13:53:56 公開日:2023-12-04
# 多視点歩行者検出のためのカメラ構成最適化

Optimizing Camera Configurations for Multi-View Pedestrian Detection ( http://arxiv.org/abs/2312.02144v1 )

ライセンス: Link先を確認
Yunzhong Hou, Xingjian Leng, Tom Gedeon, Liang Zheng(参考訳) 複数のカメラビュー(マルチビュー)を共同で考えることは、閉塞下の歩行者検出に非常に効果的である。 このようなマルチビューシステムでは、カメラの位置、方向、視野(FoV)など、よく設計されたカメラ構成を持つことが重要である。 通常、これらの構成は人間の経験やヒューリスティックに基づいている。 本稿では,トランスフォーマーを用いたカメラ構成生成装置を特徴とする新しいソリューションを提案する。 強化学習を用いて、このジェネレータは、アクション空間内の膨大な組み合わせを自律的に探索し、トレーニングデータセットに従って最も高い検出精度を与える構成を探索する。 ジェネレータは、カバレッジの最大化、咬合の最小化、コラボレーションの促進といった高度な技術を学ぶ。 複数のシミュレーションシナリオにおいて、トランスフォーマーベースモデルによって生成された構成は、ランダム検索、ヒューリスティックベースの手法、そして人間の専門家が設計した構成を一貫して上回り、将来のカメラレイアウトの最適化に光を当てる。

Jointly considering multiple camera views (multi-view) is very effective for pedestrian detection under occlusion. For such multi-view systems, it is critical to have well-designed camera configurations, including camera locations, directions, and fields-of-view (FoVs). Usually, these configurations are crafted based on human experience or heuristics. In this work, we present a novel solution that features a transformer-based camera configuration generator. Using reinforcement learning, this generator autonomously explores vast combinations within the action space and searches for configurations that give the highest detection accuracy according to the training dataset. The generator learns advanced techniques like maximizing coverage, minimizing occlusion, and promoting collaboration. Across multiple simulation scenarios, the configurations generated by our transformer-based model consistently outperform random search, heuristic-based methods, and configurations designed by human experts, shedding light on future camera layout optimization.
翻訳日:2023-12-05 13:53:35 公開日:2023-12-04
# LLMの効率評価における競合レベル問題

Competition-Level Problems Are Effective Evaluators of LLMs ( http://arxiv.org/abs/2312.02143v1 )

ライセンス: Link先を確認
Yiming Huang, Zhenghao Lin, Xiao Liu, Yeyun Gong, Shuai Lu, Fangyu Lei, Yaobo Liang, Yelong Shen, Chen Lin, Nan Duan, Weizhu Chen(参考訳) 大規模言語モデル(LLM)は印象的な推論能力を示しているが、これらの能力と潜在的なデータ汚染問題に関して議論が続いている。 本稿では,LLMの推論能力,特に専門的かつ独特な,深い理解と堅牢な推論能力を必要とするCodeforcesにおける近年の競合レベルのプログラミング問題を解くことを目的とした。 まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4のゼロショット性能を総合的に評価する。 驚くべきことに、gpt-4の悲惨な性能は、2021年9月以降、データ汚染の可能性を示唆するあらゆる困難と種類の問題と、未発見の複雑な推論問題を解決するための既存のllmの課題を一貫して越えるほどに低下している。 私たちはさらに、微調整、チェーン・オブ・マインド(chain-of-thought)のプロンプト、問題記述の単純化といった様々なアプローチを探求します。 我々は,LLMの真の推論能力を評価する上で,この優れたデータソースの重要性を強調し,より強力な推論能力と将来的な一般化によるLCMの開発を促進する。

Large language models (LLMs) have demonstrated impressive reasoning capabilities, yet there is ongoing debate about these abilities and the potential data contamination problem recently. This paper aims to evaluate the reasoning capacities of LLMs, specifically in solving recent competition-level programming problems in Codeforces, which are expert-crafted and unique, requiring deep understanding and robust reasoning skills. We first provide a comprehensive evaluation of GPT-4's peiceived zero-shot performance on this task, considering various aspects such as problems' release time, difficulties, and types of errors encountered. Surprisingly, the peiceived performance of GPT-4 has experienced a cliff like decline in problems after September 2021 consistently across all the difficulties and types of problems, which shows the potential data contamination, as well as the challenges for any existing LLM to solve unseen complex reasoning problems. We further explore various approaches such as fine-tuning, Chain-of-Thought prompting and problem description simplification, unfortunately none of them is able to consistently mitigate the challenges. Through our work, we emphasis the importance of this excellent data source for assessing the genuine reasoning capabilities of LLMs, and foster the development of LLMs with stronger reasoning abilities and better generalization in the future.
翻訳日:2023-12-05 13:53:19 公開日:2023-12-04
# 次のトークン予測としてのオブジェクト認識

Object Recognition as Next Token Prediction ( http://arxiv.org/abs/2312.02142v1 )

ライセンス: Link先を確認
Kaiyu Yue, Bor-Chun Chen, Jonas Geiping, Hengduo Li, Tom Goldstein, Ser-Nam Lim(参考訳) 本稿では,次のトークン予測として物体認識を行う手法を提案する。 その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。 この予測処理を自動回帰で行うために,デコーダの非因果注意マスクをカスタマイズし,異なるラベルから独立したトークンをモデリングし,画像トークンをプレフィックスとして扱うという2つの重要な特徴を取り入れた。 このマスキング機構は、推論中に複数のラベルのトークンを並列にサンプリングし、その確率によって生成されたラベルをランク付けする効率的な方法であるワンショットサンプリングを誘導する。 さらに効率を高めるために,事前学習した言語モデルの中間ブロックを単に破棄して,コンパクトデコーダを構築するための簡易な方法を提案する。 このアプローチでは、デコーダが完全なモデルのパフォーマンスにマッチし、より効率的である。 コードはhttps://github.com/kaiyuyue/nxtpで入手できる。

We present an approach to pose object recognition as next token prediction. The idea is to apply a language decoder that auto-regressively predicts the text tokens from image embeddings to form labels. To ground this prediction process in auto-regression, we customize a non-causal attention mask for the decoder, incorporating two key features: modeling tokens from different labels to be independent, and treating image tokens as a prefix. This masking mechanism inspires an efficient method - one-shot sampling - to simultaneously sample tokens of multiple labels in parallel and rank generated labels by their probabilities during inference. To further enhance the efficiency, we propose a simple strategy to construct a compact decoder by simply discarding the intermediate blocks of a pretrained language model. This approach yields a decoder that matches the full model's performance while being notably more efficient. The code is available at https://github.com/kaiyuyue/nxtp
翻訳日:2023-12-05 13:52:54 公開日:2023-12-04
# Agent Avatar:フォトリアリスティックなアバターエージェントのためのプランニング、運転、レンダリング

AgentAvatar: Disentangling Planning, Driving and Rendering for Photorealistic Avatar Agents ( http://arxiv.org/abs/2311.17465v3 )

ライセンス: Link先を確認
Duomin Wang, Bin Dai, Yu Deng, Baoyuan Wang(参考訳) 本研究の目的は,視覚的・行動的両面から自律的に顔の動きを計画し,アニメーション化できる対話型アバターエージェントを作ることである。 環境とエージェントプロファイルに関する高レベルなインプットを前提として,我々のフレームワークはLCMを用いて,アバターエージェントの顔の動きを詳細に記述する。 これらの記述はタスク非依存の駆動エンジンによってモーショントークンシーケンスに変換され、その後、スタンドアロンのニューラルベースレンダラーによってさらに消費され、最終的なフォトリアリスティックなアバターアニメーションを生成する。 これらの合理化プロセスにより、我々のフレームワークはモナディックとディアディックの両方の様々な非言語アバター相互作用に適応できる。 環境とのモナディックインタラクションが可能なエージェントと,dyadic会話用に設計されたエージェントという2つのタイプのエージェントを特徴とする,新たにコンパイルされたデータセットと既存のデータセットの両方に関する実験を含む広範な研究は,我々のアプローチの有効性と汎用性を検証するものだ。 我々は,llmとニューラルレンダリングを組み合わせることで,アバターエージェントの非言語的予測とフォトリアリスティックなレンダリングに飛躍的な一歩を踏み出した。

In this study, our goal is to create interactive avatar agents that can autonomously plan and animate nuanced facial movements realistically, from both visual and behavioral perspectives. Given high-level inputs about the environment and agent profile, our framework harnesses LLMs to produce a series of detailed text descriptions of the avatar agents' facial motions. These descriptions are then processed by our task-agnostic driving engine into motion token sequences, which are subsequently converted into continuous motion embeddings that are further consumed by our standalone neural-based renderer to generate the final photorealistic avatar animations. These streamlined processes allow our framework to adapt to a variety of non-verbal avatar interactions, both monadic and dyadic. Our extensive study, which includes experiments on both newly compiled and existing datasets featuring two types of agents -- one capable of monadic interaction with the environment, and the other designed for dyadic conversation -- validates the effectiveness and versatility of our approach. To our knowledge, we advanced a leap step by combining LLMs and neural rendering for generalized non-verbal prediction and photo-realistic rendering of avatar agents.
翻訳日:2023-12-05 12:10:15 公開日:2023-12-04
# 分布シフト下における基礎モデルの正確な解析能力のベースライン解析

A Baseline Analysis of Reward Models' Ability To Accurately Analyze Foundation Models Under Distribution Shift ( http://arxiv.org/abs/2311.14743v4 )

ライセンス: Link先を確認
Ben Pikus, Will LeVine, Tony Chen, Sean Hendryx(参考訳) 基礎モデル、特にLarge Language Models (LLM)は近年広く注目を集め、採用されている。 Reinforcement Learning with Human Feedback (RLHF) は、所望の行動を捉えるために報酬モデルを訓練し、LLMの調整に使用される。 これらの報酬モデルは、所望の行動に対するLLM応答の順守を推定するために、推論時にさらに使用される。 しかしながら、これらの報酬モデルが分散シフトに対してどれほど堅牢かを測定する作業はほとんどありません。 本研究では,精度とキャリブレーションによる報奨モデルの性能評価(すなわち,精度と信頼性の整合性)が分布変化にどのように影響するかを評価する。 我々は、OODプロンプトと応答による新しいキャリブレーションパターンと精度低下を示し、報酬モデルがプロンプトよりも応答の変化に敏感であることを示す。 さらに,報奨モデル設定に分類によく用いられるOOD検出手法を適用し,これらの分布変化をプロンプトや応答で検出する。

Foundation models, specifically Large Language Models (LLM's), have lately gained wide-spread attention and adoption. Reinforcement Learning with Human Feedback (RLHF) involves training a reward model to capture desired behaviors, which is then used to align LLM's. These reward models are additionally used at inference-time to estimate LLM responses' adherence to those desired behaviors. However, there is little work measuring how robust these reward models are to distribution shifts. In this work, we evaluate how reward model performance - measured via accuracy and calibration (i.e. alignment between accuracy and confidence) - is affected by distribution shift. We show novel calibration patterns and accuracy drops due to OOD prompts and responses, and that the reward model is more sensitive to shifts in responses than prompts. Additionally, we adapt an OOD detection technique commonly used in classification to the reward model setting to detect these distribution shifts in prompts and responses.
翻訳日:2023-12-05 12:09:18 公開日:2023-12-04
# 不確実性関係の再考

Uncertainty relations revisited ( http://arxiv.org/abs/2310.05039v3 )

ライセンス: Link先を確認
Berthold-Georg Englert(参考訳) 量子力学の入門コースは通常、不確実性関係(典型的にはロバートソンが導いた不等式)に関する講義を含む。 For the benefit of the lecturers, we present a unified approach -- well suited for undergraduate teaching -- for deriving all standard uncertainty relations: those for products of variances by Kennard, Robertson, and Schr\"odinger, as well as those for sums of variances by Maccone and Pati. We also give a brief review of the early history of this topic and try to answer why the use of variances for quantifying uncertainty is so widespread, while alternatives are available that can be more natural and more fitting. It is common to regard the states that saturate the Robertson inequality as "minimum uncertainty states" although they do not minimize the variance of one observable, given the variance of another, incompatible observable. この目的を達成する状態は異なり、体系的に見ることができる。

Introductory courses on quantum mechanics usually include lectures on uncertainty relations, typically the inequality derived by Robertson and, perhaps, other statements. For the benefit of the lecturers, we present a unified approach -- well suited for undergraduate teaching -- for deriving all standard uncertainty relations: those for products of variances by Kennard, Robertson, and Schr\"odinger, as well as those for sums of variances by Maccone and Pati. We also give a brief review of the early history of this topic and try to answer why the use of variances for quantifying uncertainty is so widespread, while alternatives are available that can be more natural and more fitting. It is common to regard the states that saturate the Robertson inequality as "minimum uncertainty states" although they do not minimize the variance of one observable, given the variance of another, incompatible observable. The states that achieve this objective are different and can be found systematically.
翻訳日:2023-12-05 12:08:59 公開日:2023-12-04
# 深層学習 - 高速かつ効率的なトレーニング不要アプローチ

Deep Unlearning: Fast and Efficient Training-free Approach to Controlled Forgetting ( http://arxiv.org/abs/2312.00761v2 )

ライセンス: Link先を確認
Sangamesh Kodge, Gobinda Saha and Kaushik Roy(参考訳) 機械学習は、業界が要求に応じてユーザーデータを削除し、プライバシーの意識を高めることに対する規制の要求が高まり、目覚ましい分野として浮上している。 既存のアプローチでは、モデルをスクラッチから再トレーニングするか、あるいは削除要求毎にいくつかの微調整ステップを使用する。 本研究では,学習モデルからクラス全体やクラス群を戦略的に排除するために設計された,新しいクラスアンラーニングアルゴリズムを提案する。 その目的のために,本アルゴリズムはまず,保持するクラスと学習しないクラスからのサンプルの特徴空間や活性化空間を表現して,保持空間とフォークスペースを推定する。 これらの空間を得るために,ネットワークを経由する数個のフォワードパスからネットワークアクティベーションを階層的に収集する必要がある新しい特異値分解に基づく手法を提案する。 そして、これらの空間間の共有情報を計算し、それを忘れる空間から取り除き、アンラーニングのためのクラス差別的特徴空間を分離します。 最後に,モデル重みをクラス判別空間の直交方向に投影し,未学習モデルを得る。 アルゴリズムの有効性をImageNet上で実証し、未学習のクラスサンプルに対して1%未満の精度を維持しながら、元のモデルと比較して精度を保ったまま、$\sim$1.5%の値のみのVision Transformerを用いて示す。 さらに,様々な画像分類データセットやネットワークアーキテクチャに対して平均7.8%の改善を示すメンバシップ推論攻撃に対して,計算効率が$\sim$6xであるのに対して,我々のアルゴリズムは一貫して性能が向上する。

Machine unlearning has emerged as a prominent and challenging area of interest, driven in large part by the rising regulatory demands for industries to delete user data upon request and the heightened awareness of privacy. Existing approaches either retrain models from scratch or use several finetuning steps for every deletion request, often constrained by computational resource limitations and restricted access to the original training data. In this work, we introduce a novel class unlearning algorithm designed to strategically eliminate an entire class or a group of classes from the learned model. To that end, our algorithm first estimates the Retain Space and the Forget Space, representing the feature or activation spaces for samples from classes to be retained and unlearned, respectively. To obtain these spaces, we propose a novel singular value decomposition-based technique that requires layer wise collection of network activations from a few forward passes through the network. We then compute the shared information between these spaces and remove it from the forget space to isolate class-discriminatory feature space for unlearning. Finally, we project the model weights in the orthogonal direction of the class-discriminatory space to obtain the unlearned model. We demonstrate our algorithm's efficacy on ImageNet using a Vision Transformer with only $\sim$1.5% drop in retain accuracy compared to the original model while maintaining under 1% accuracy on the unlearned class samples. Further, our algorithm consistently performs well when subject to Membership Inference Attacks showing 7.8% improvement on average across a variety of image classification datasets and network architectures, as compared to other baselines while being $\sim$6x more computationally efficient.
翻訳日:2023-12-05 12:05:48 公開日:2023-12-04
# 回帰タスクの簡易転送可能性推定

Simple Transferability Estimation for Regression Tasks ( http://arxiv.org/abs/2312.00656v2 )

ライセンス: Link先を確認
Cuong N. Nguyen, Phong Tran, Lam Si Tung Ho, Vu Dinh, Anh T. Tran, Tal Hassner, Cuong V. Nguyen(参考訳) トランスファー可能性の推定について検討し,ディープラーニングモデルがソースから対象タスクへどの程度よく移行するかを推定する。 本稿では, 線形回帰モデルの正則平均二乗誤差に基づいて, 伝達可能性を推定する2つの単純かつ効率的な手法を提案する。 提案手法を伝達学習過程から得られた最適対象モデルの実際の伝達可能性と結びつけた新しい理論的結果を示す。 その単純さにもかかわらず、我々のアプローチは、精度と効率の両方で既存の最先端の回帰移動率推定器よりも大幅に優れている。 2つの大規模キーポイント回帰ベンチマークでは、我々の手法は平均で12%から36%、従来の最先端手法よりも少なくとも27%高速である。

We consider transferability estimation, the problem of estimating how well deep learning models transfer from a source to a target task. We focus on regression tasks, which received little previous attention, and propose two simple and computationally efficient approaches that estimate transferability based on the negative regularized mean squared error of a linear regression model. We prove novel theoretical results connecting our approaches to the actual transferability of the optimal target models obtained from the transfer learning process. Despite their simplicity, our approaches significantly outperform existing state-of-the-art regression transferability estimators in both accuracy and efficiency. On two large-scale keypoint regression benchmarks, our approaches yield 12% to 36% better results on average while being at least 27% faster than previous state-of-the-art methods.
翻訳日:2023-12-05 12:05:18 公開日:2023-12-04
# web 検索におけるイベント駆動リアルタイム検索

Event-driven Real-time Retrieval in Web Search ( http://arxiv.org/abs/2312.00372v2 )

ライセンス: Link先を確認
Nan Yang, Shusen Zhang, Yannan Zhang, Xiaoling Bai, Hualong Deng, Tianhua Zhou and Jin Ma(参考訳) リアルタイム検索における情報検索は、古典的なウェブ検索で遭遇した情報とは異なるユニークな課題を示す。 これらの課題は、地震、選挙、戦争などの突発的なニュースイベントの発生と進化に影響されるユーザ検索意図の急激な変化によって特に顕著である。 静的セマンティック表現に主に焦点をあてた従来の密集検索手法では、即時検索インテントをキャプチャする能力が欠如しており、最新のイベント関連文書をタイムセンシティブなシナリオで検索する際の性能が劣っている。 この問題に対処するため,本稿では,リアルタイム検索意図を表すイベント情報を用いてクエリを拡張する。 イベント情報は、クロスアテンションメカニズムを通じてクエリと統合され、時間-コンテキストのクエリ表現となる。 マルチタスクトレーニングにより、イベント表現のためのモデルの能力をさらに強化する。 ms-marcoのような公開データセットはクエリ側ではイベント情報を一切含んでおらず、時間に敏感なクエリも少ないため、modelzooベースの粗いアノテーションとllm駆動の細かいアノテーションプロセスを含むこの問題に対処するための自動データ収集とアノテーションパイプラインを設計します。 また、2段階トレーニングやハードネガティブサンプリングといったトレーニング手法も共有しています。 最後に、100万規模の運用データセット上でオフライン実験を行い、我々のアプローチを評価し、実際のオンラインシステムにA/Bテストを展開し、パフォーマンスを検証する。 実験の結果,提案手法は既存の最先端のベースライン法よりも大幅に優れていた。

Information retrieval in real-time search presents unique challenges distinct from those encountered in classical web search. These challenges are particularly pronounced due to the rapid change of user search intent, which is influenced by the occurrence and evolution of breaking news events, such as earthquakes, elections, and wars. Previous dense retrieval methods, which primarily focused on static semantic representation, lack the capacity to capture immediate search intent, leading to inferior performance in retrieving the most recent event-related documents in time-sensitive scenarios. To address this issue, this paper expands the query with event information that represents real-time search intent. The Event information is then integrated with the query through a cross-attention mechanism, resulting in a time-context query representation. We further enhance the model's capacity for event representation through multi-task training. Since publicly available datasets such as MS-MARCO do not contain any event information on the query side and have few time-sensitive queries, we design an automatic data collection and annotation pipeline to address this issue, which includes ModelZoo-based Coarse Annotation and LLM-driven Fine Annotation processes. In addition, we share the training tricks such as two-stage training and hard negative sampling. Finally, we conduct a set of offline experiments on a million-scale production dataset to evaluate our approach and deploy an A/B testing in a real online system to verify the performance. Extensive experimental results demonstrate that our proposed approach significantly outperforms existing state-of-the-art baseline methods.
翻訳日:2023-12-05 12:04:39 公開日:2023-12-04
# dual-prompt learning による効率的なマルチモーダルセマンティクスセグメンテーション

Efficient Multimodal Semantic Segmentation via Dual-Prompt Learning ( http://arxiv.org/abs/2312.00360v2 )

ライセンス: Link先を確認
Shaohua Dong, Yunhe Feng, Qing Yang, Yan Huang, Dongfang Liu, Heng Fan(参考訳) マルチモーダル(例えば、RGB-Depth/RGB-Thermal)融合は複雑なシーン(例えば、屋内/低照度条件)におけるセマンティックセグメンテーションを改善する大きな可能性を示している。 既存のアプローチでは、マルチモーダルセマンティクスセグメンテーションを実現するための複雑な機能融合戦略を持つデュアルブランチエンコーダ-デコーダフレームワークを完全に微調整することが多い。 この問題に対処するために,訓練効率の高いマルチモーダル(例えばrgb-d/t)意味セグメンテーションのための,驚くほど単純で効果的なdplnetを提案する。 DPLNetの中核は、凍結した事前訓練されたRGBモデルをマルチモーダルなセマンティックセグメンテーションに直接適用し、パラメータ更新を減らすことである。 本研究では,MPG (Multimodal prompt generator) とMultimodal Feature Adapter (MFA) の2つのプロンプト学習モジュールを提案する。 MPGは、異なるモダリティをコンパクトな方法で融合させ、シャドウから深層ステージに挿入して、凍結したバックボーンに注入されるマルチレベルのマルチモーダルプロンプトを生成する。 mpgとmfaの両方が軽量であるため、マルチモーダル特徴の融合と学習のためにトレーニング可能なパラメータ(3.88m、4.4%)が導入された。 単純なデコーダ(3.27Mパラメータ)を使用することで、DPLNetは新たな最先端のパフォーマンスを達成するか、4つのRGB-D/Tセマンティックセマンティックセグメンテーションデータセットにおける他の複雑なアプローチと同等である。 さらに,dplnetは汎用的であり,salient object detectionやvideo semantic segmentationといった他のマルチモーダルタスクにも適用可能であることを示す。 特別な設計がなければ、dplnetは多くの複雑なモデルを上回る。 私たちのコードはgithub.com/ShaohuaDong2021/DPLNetで利用できます。

Multimodal (e.g., RGB-Depth/RGB-Thermal) fusion has shown great potential for improving semantic segmentation in complex scenes (e.g., indoor/low-light conditions). Existing approaches often fully fine-tune a dual-branch encoder-decoder framework with a complicated feature fusion strategy for achieving multimodal semantic segmentation, which is training-costly due to the massive parameter updates in feature extraction and fusion. To address this issue, we propose a surprisingly simple yet effective dual-prompt learning network (dubbed DPLNet) for training-efficient multimodal (e.g., RGB-D/T) semantic segmentation. The core of DPLNet is to directly adapt a frozen pre-trained RGB model to multimodal semantic segmentation, reducing parameter updates. For this purpose, we present two prompt learning modules, comprising multimodal prompt generator (MPG) and multimodal feature adapter (MFA). MPG works to fuse the features from different modalities in a compact manner and is inserted from shadow to deep stages to generate the multi-level multimodal prompts that are injected into the frozen backbone, while MPG adapts prompted multimodal features in the frozen backbone for better multimodal semantic segmentation. Since both the MPG and MFA are lightweight, only a few trainable parameters (3.88M, 4.4% of the pre-trained backbone parameters) are introduced for multimodal feature fusion and learning. Using a simple decoder (3.27M parameters), DPLNet achieves new state-of-the-art performance or is on a par with other complex approaches on four RGB-D/T semantic segmentation datasets while satisfying parameter efficiency. Moreover, we show that DPLNet is general and applicable to other multimodal tasks such as salient object detection and video semantic segmentation. Without special design, DPLNet outperforms many complicated models. Our code will be available at github.com/ShaohuaDong2021/DPLNet.
翻訳日:2023-12-05 12:03:52 公開日:2023-12-04
# 顔部セグメンテーションの幾何学的指導による3次元顔再建

3D Face Reconstruction with the Geometric Guidance of Facial Part Segmentation ( http://arxiv.org/abs/2312.00311v2 )

ライセンス: Link先を確認
Zidu Wang, Xiangyu Zhu, Tianshuo Zhang, Baiqin Wang, Zhen Lei(参考訳) 3D Morphable Models (3DMM) は様々な用途で有望な3D顔再構成を提供する。 しかし、既存の方法では、スパースや不正確なランドマークなどの監督信号の欠陥により、極端な表現で顔の再構築に苦労している。 セグメンテーション情報は、顔再構成のための効果的な幾何学的文脈を含む。 ある種の試みは、直観的に微分可能なレンダラーに依存し、レンダリングされた再構成のシルエットとセグメンテーションを比較する。 本稿では,部分再投影距離損失(PRDL)を導入し,顔部分分割形状を十分に活用する。 具体的には、PRDLは顔部分のセグメンテーションを2Dポイントに変換し、再構成を画像面に再投影する。 その後、グリッドアンカーを導入し、これらのアンカーから点集合への異なる統計距離を計算することにより、PRDLは顔再構成のための点集合の分布を最適化するための幾何学記述子を確立する。 PRDLは、レンダラー方式と比較して明確な勾配を示し、広範囲な定量的および定性的実験において最先端の再構築性能を示す。 プロジェクトは一般公開される予定だ。

3D Morphable Models (3DMMs) provide promising 3D face reconstructions in various applications. However, existing methods struggle to reconstruct faces with extreme expressions due to deficiencies in supervisory signals, such as sparse or inaccurate landmarks. Segmentation information contains effective geometric contexts for face reconstruction. Certain attempts intuitively depend on differentiable renderers to compare the rendered silhouettes of reconstruction with segmentation, which is prone to issues like local optima and gradient instability. In this paper, we fully utilize the facial part segmentation geometry by introducing Part Re-projection Distance Loss (PRDL). Specifically, PRDL transforms facial part segmentation into 2D points and re-projects the reconstruction onto the image plane. Subsequently, by introducing grid anchors and computing different statistical distances from these anchors to the point sets, PRDL establishes geometry descriptors to optimize the distribution of the point sets for face reconstruction. PRDL exhibits a clear gradient compared to the renderer-based methods and presents state-of-the-art reconstruction performance in extensive quantitative and qualitative experiments. The project will be publicly available.
翻訳日:2023-12-05 12:03:07 公開日:2023-12-04
# FedEmb: NetworkとFeature Embedding Aggregationを用いた垂直かつハイブリッドなフェデレーション学習アルゴリズム

FedEmb: A Vertical and Hybrid Federated Learning Algorithm using Network And Feature Embedding Aggregation ( http://arxiv.org/abs/2312.00102v2 )

ライセンス: Link先を確認
Fanfei Meng, Lele Zhang, Yu Chen, Yuxin Wang(参考訳) フェデレートラーニング(FL)は、中央サーバにデータを公開せずに、分散クライアント上で機械学習モデルの分散トレーニングを行うための新興パラダイムである。 学習方式は水平、垂直またはハイブリッド(垂直と水平の両方)である。 ディープニューラルネットワーク(DNN)モデリングに関する既存の研究は、水平データ分布に重点を置いているが、垂直とハイブリッドのスキームはあまり研究されていない。 本稿では,垂直およびハイブリッドDNN学習のための一般化アルゴリズムであるFedEmbを提案する。 提案アルゴリズムの考え方は,既存の作業と比較して,推論精度の向上,プライバシー保護特性の向上,クライアントサーバ通信帯域幅の低減などが特徴である。 実験の結果,feedembは分割特徴量と対象空間分散問題の両方に有効な手法であり,ローカルクライアントに格納されたデータセットのプライバシーを明かすことなく,0.3%から4.2%の推論精度の向上を示し,垂直ベースライン法よりも88.9%の時間複雑性を低減した。

Federated learning (FL) is an emerging paradigm for decentralized training of machine learning models on distributed clients, without revealing the data to the central server. The learning scheme may be horizontal, vertical or hybrid (both vertical and horizontal). Most existing research work with deep neural network (DNN) modelling is focused on horizontal data distributions, while vertical and hybrid schemes are much less studied. In this paper, we propose a generalized algorithm FedEmb, for modelling vertical and hybrid DNN-based learning. The idea of our algorithm is characterised by higher inference accuracy, stronger privacy-preserving properties, and lower client-server communication bandwidth demands as compared with existing work. The experimental results show that FedEmb is an effective method to tackle both split feature & subject space decentralized problems, shows 0.3% to 4.2% inference accuracy improvement with limited privacy revealing for datasets stored in local clients, and reduces 88.9 % time complexity over vertical baseline method.
翻訳日:2023-12-05 12:02:49 公開日:2023-12-04
# bioclip: 生命の樹のためのビジョン基盤モデル

BioCLIP: A Vision Foundation Model for the Tree of Life ( http://arxiv.org/abs/2311.18803v2 )

ライセンス: Link先を確認
Samuel Stevens, Jiaman Wu, Matthew J Thompson, Elizabeth G Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun Chao and Yu Su(参考訳) ドローンからスマートフォンまで、さまざまなカメラによって収集された自然界の画像は、生物情報の豊富な源となっている。 科学と保存のために画像から生物学的に関連のある情報を抽出するための計算方法やツール、特にコンピュータビジョンの爆発があります。 しかし、これらのほとんどは特定のタスク用に設計され、新しい質問やコンテキスト、データセットに容易に適応または拡張できない、目覚ましいアプローチである。 イメージに関する一般的な生物生物学の問題に対するビジョンモデルは、タイムリーに必要です。 そこで我々は、生物学画像の最大かつ最も多様なml対応データセットであるtreeoflife-10mをキュレートし、リリースする。 次に, 植物, 動物, 菌類の多種多様な画像と, 豊かな構造的生物学的知識の利用可能性という, treeoflife-10m が捉えた生物のユニークな特性を活用した生命の樹の基盤モデル bioclip を開発した。 多様な生物分類タスクに対する我々のアプローチを厳格にベンチマークし、BioCLIPが既存のベースライン(絶対値17%から20%)を大幅に上回っていることを発見した。 内在的評価は、BioCLIPが生命の樹の階層的な表現を学び、その強い一般化性に光を当てたことを示している。 私たちのコード、モデル、データはhttps://github.com/Imageomics/bioclip.comで公開されます。

Images of the natural world, collected by a variety of cameras, from drones to individual phones, are increasingly abundant sources of biological information. There is an explosion of computational methods and tools, particularly computer vision, for extracting biologically relevant information from images for science and conservation. Yet most of these are bespoke approaches designed for a specific task and are not easily adaptable or extendable to new questions, contexts, and datasets. A vision model for general organismal biology questions on images is of timely need. To approach this, we curate and release TreeOfLife-10M, the largest and most diverse ML-ready dataset of biology images. We then develop BioCLIP, a foundation model for the tree of life, leveraging the unique properties of biology captured by TreeOfLife-10M, namely the abundance and variety of images of plants, animals, and fungi, together with the availability of rich structured biological knowledge. We rigorously benchmark our approach on diverse fine-grained biology classification tasks, and find that BioCLIP consistently and substantially outperforms existing baselines (by 17% to 20% absolute). Intrinsic evaluation reveals that BioCLIP has learned a hierarchical representation conforming to the tree of life, shedding light on its strong generalizability. Our code, models and data will be made available at https://github.com/Imageomics/bioclip.
翻訳日:2023-12-05 12:02:07 公開日:2023-12-04
# 視覚世界における三角形分布の学習

Learning Triangular Distribution in Visual World ( http://arxiv.org/abs/2311.18605v2 )

ライセンス: Link先を確認
Ping Chen, Xingpeng Zhang, Chengtao Zhou, Dichao Fan, Peng Tu, Le Zhang, Yanlin Qian(参考訳) 畳み込みニューラルネットワークは、ラベル分布学習を含む広汎な視覚タスクで成功しており、通常は、非線形の視覚特徴から明確に定義されたラベルへの注入の形式を学ぶ。 しかし,特徴間の差異がラベルの不一致にどのようにマッピングされるか,その正確性は保証されていない。 これらの問題に対処するために,特徴とラベルの数学的関係を考察し,ラベル分布学習の汎用的・簡便な枠組みを提案する。 特徴とラベルの間に射影関数を構築するためのいわゆる三角分布変換(TDT)を提案し、対称的特徴差がラベルの違いを線形に反映することを保証する。 提案したTDTは,各種ラベル分散学習タスクに対処するために,主流のバックボーンネットワークのプラグインとして使用できる。 顔の年齢認識, 照明色度推定, 審美性評価実験は, TDTが先行技術よりも同等以上の結果が得られることを示した。

Convolution neural network is successful in pervasive vision tasks, including label distribution learning, which usually takes the form of learning an injection from the non-linear visual features to the well-defined labels. However, how the discrepancy between features is mapped to the label discrepancy is ambient, and its correctness is not guaranteed. To address these problems, we study the mathematical connection between feature and its label, presenting a general and simple framework for label distribution learning. We propose a so-called Triangular Distribution Transform (TDT) to build an injective function between feature and label, guaranteeing that any symmetric feature discrepancy linearly reflects the difference between labels. The proposed TDT can be used as a plug-in in mainstream backbone networks to address different label distribution learning tasks. Experiments on Facial Age Recognition, Illumination Chromaticity Estimation, and Aesthetics assessment show that TDT achieves on-par or better results than the prior arts.
翻訳日:2023-12-05 12:00:41 公開日:2023-12-04
# 分数勾配降下の収束解析

Convergence Analysis of Fractional Gradient Descent ( http://arxiv.org/abs/2311.18426v2 )

ライセンス: Link先を確認
Ashwani Aggarwal(参考訳) 分数微分は整数次微分のよく研究された一般化である。 当然、最適化には分数微分を用いた勾配降下の収束特性を理解することが重要である。 分数勾配降下の収束解析は現在,解析手法と解析手法の両方において限定されている。 本稿では,滑らかかつ凸,滑らかかつ強い凸,滑らかかつ非凸設定における分数勾配降下の変動を解析することにより,これらのギャップを埋めることを目的とする。 まず、新しい境界は分数と整数の微分を橋渡しする。 すると、これらの境界は上記の設定に適用され、滑らかで凸な関数に対する$O(1/T)$収束と滑らかで強凸な関数に対する線型収束を証明できる。 さらに、分数微分に対してより自然な滑らかさという拡張概念を用いて、滑らかかつ非凸函数に対する$o(1/t)$収束を証明する。 最後に、実験結果として、標準勾配降下よりも分数勾配降下のポテンシャル速度と、一般により高速になるであろう予測の課題について提示する。

Fractional derivatives are a well-studied generalization of integer order derivatives. Naturally, for optimization, it is of interest to understand the convergence properties of gradient descent using fractional derivatives. Convergence analysis of fractional gradient descent is currently limited both in the methods analyzed and the settings analyzed. This paper aims to fill in these gaps by analyzing variations of fractional gradient descent in smooth and convex, smooth and strongly convex, and smooth and non-convex settings. First, novel bounds will be established bridging fractional and integer derivatives. Then, these bounds will be applied to the aforementioned settings to prove $O(1/T)$ convergence for smooth and convex functions and linear convergence for smooth and strongly convex functions. Additionally, we prove $O(1/T)$ convergence for smooth and non-convex functions using an extended notion of smoothness that is more natural for fractional derivatives. Finally, empirical results will be presented on the potential speed up of fractional gradient descent over standard gradient descent as well as the challenges of predicting which will be faster in general.
翻訳日:2023-12-05 12:00:23 公開日:2023-12-04
# オフ・ポリティイ・アセスメントのリスク・リターントレードオフの評価とベンチマークに向けて

Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation ( http://arxiv.org/abs/2311.18207v2 )

ライセンス: Link先を確認
Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito(参考訳) Off-Policy Evaluation (OPE) は、オフラインログデータのみを使用して、カウンターファクトポリシーの有効性を評価することを目的としており、オンラインA/Bテストにデプロイする上で、最も有望なポリシを特定するためにしばしば使用される。 OPE推定器の既存の評価指標は、主にOPEの「正確性」や下流政策の選択に焦点を当て、その後のオンライン政策展開におけるリスク・リターンのトレードオフを無視している。 この問題に対処するため、我々は金融におけるポートフォリオ評価からインスピレーションを得て、さまざまなオンライン評価予算(k)の下でOPE推定器によって形成される政策ポートフォリオのリスク・リターントレードオフを測定するSharpeRatio@kという新しい指標を開発した。 提案手法を2つのシナリオで検証し,リスクの低い推定器とリスクの高い推定器を効果的に識別し,最も効率的な推定器を正確に同定する能力を示す。 この効率的な推定器は、最も有利なポリシーポートフォリオを形成し、リターンを最大化し、オンラインデプロイメント中のリスクを最小限にする能力によって特徴付けられる。 SharpeRatio@kによるOPEの迅速かつ正確かつ一貫した評価を容易にするため,この指標をオープンソースソフトウェアであるSCOPE-RLに統合した。 SharpeRatio@k と SCOPE-RL を用いて,様々な推定器と RL タスクの総合的なベンチマーク実験を行い,リスク-リターントレードオフに着目した。 これらの実験は、将来のOPE研究にいくつかの興味深い方向と提案を提供する。

Off-Policy Evaluation (OPE) aims to assess the effectiveness of counterfactual policies using only offline logged data and is often used to identify the top-k promising policies for deployment in online A/B tests. Existing evaluation metrics for OPE estimators primarily focus on the "accuracy" of OPE or that of downstream policy selection, neglecting risk-return tradeoff in the subsequent online policy deployment. To address this issue, we draw inspiration from portfolio evaluation in finance and develop a new metric, called SharpeRatio@k, which measures the risk-return tradeoff of policy portfolios formed by an OPE estimator under varying online evaluation budgets (k). We validate our metric in two example scenarios, demonstrating its ability to effectively distinguish between low-risk and high-risk estimators and to accurately identify the most efficient estimator. This efficient estimator is characterized by its capability to form the most advantageous policy portfolios, maximizing returns while minimizing risks during online deployment, a nuance that existing metrics typically overlook. To facilitate a quick, accurate, and consistent evaluation of OPE via SharpeRatio@k, we have also integrated this metric into an open-source software, SCOPE-RL. Employing SharpeRatio@k and SCOPE-RL, we conduct comprehensive benchmarking experiments on various estimators and RL tasks, focusing on their risk-return tradeoff. These experiments offer several interesting directions and suggestions for future OPE research.
翻訳日:2023-12-05 11:59:36 公開日:2023-12-04
# SCOPE-RL: オフライン強化学習とオフライン評価のためのPythonライブラリ

SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation ( http://arxiv.org/abs/2311.18206v2 )

ライセンス: Link先を確認
Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito(参考訳) 本稿では、オフライン強化学習(オフラインRL)、オフ政治評価(OPE)、選択(OPS)のために設計されたオープンソースPythonソフトウェアSCOPE-RLを紹介する。 ポリシー学習や評価にのみフォーカスする既存のライブラリとは異なり、SCOPE-RLはこれらの2つの重要な側面をシームレスに統合し、オフラインのRLプロセスとOPEプロセスの両方の柔軟で完全な実装を容易にします。 SCOPE-RLはOPEモジュールに特に重点を置いており、様々なOPE推定器と堅牢なOPEプロトコルを提供している。 このアプローチは、他のパッケージよりも奥深く、信頼性の高いOPEを可能にします。 例えば scope-rl は、単なるポイント単位での期待値ではなく、ポリシーの下での報酬分布全体を見積もることで ope を強化する。 さらに、SCOPE-RLは、OPE結果のリスク・リターントレードオフを提示し、既存のOPE文献の単なる精度評価を超えて、より徹底的なOPEの評価を提供する。 SCOPE-RLはユーザアクセシビリティを念頭に設計されている。 ユーザフレンドリなAPI、包括的なドキュメント、そしてさまざまな簡単に追跡できる例は、研究者や実践者が、特定の問題コンテキストに合わせて、さまざまなオフラインRLメソッドやOPE推定器を効率的に実装し、実験するのに役立つ。 scope-rlのドキュメントはhttps://scope-rl.readthedocs.io/en/latest/で入手できる。

This paper introduces SCOPE-RL, a comprehensive open-source Python software designed for offline reinforcement learning (offline RL), off-policy evaluation (OPE), and selection (OPS). Unlike most existing libraries that focus solely on either policy learning or evaluation, SCOPE-RL seamlessly integrates these two key aspects, facilitating flexible and complete implementations of both offline RL and OPE processes. SCOPE-RL put particular emphasis on its OPE modules, offering a range of OPE estimators and robust evaluation-of-OPE protocols. This approach enables more in-depth and reliable OPE compared to other packages. For instance, SCOPE-RL enhances OPE by estimating the entire reward distribution under a policy rather than its mere point-wise expected value. Additionally, SCOPE-RL provides a more thorough evaluation-of-OPE by presenting the risk-return tradeoff in OPE results, extending beyond mere accuracy evaluations in existing OPE literature. SCOPE-RL is designed with user accessibility in mind. Its user-friendly APIs, comprehensive documentation, and a variety of easy-to-follow examples assist researchers and practitioners in efficiently implementing and experimenting with various offline RL methods and OPE estimators, tailored to their specific problem contexts. The documentation of SCOPE-RL is available at https://scope-rl.readthedocs.io/en/latest/.
翻訳日:2023-12-05 11:59:08 公開日:2023-12-04