このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240104となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# プロトコルファズリングに関する調査
A Survey of Protocol Fuzzing ( http://arxiv.org/abs/2401.01568v2 ) ライセンス: Link先を確認 | Xiaohan Zhang, Cen Zhang, Xinghua Li, Zhengjie Du, Yuekang Li, Yaowen Zheng, Yeting Li, Bing Mao, Yang Liu, Robert H. Deng, | (参考訳) 通信プロトコルは相互接続された世界の基盤を形成していますが、その実装内の脆弱性は重大なセキュリティ上の脅威を引き起こします。
近年、プロトコル実装内でこれらの脆弱性を明らかにするためのファジングベースの研究が急増している。
しかしながら、ユニークな課題とは何か、既存の作業がそれをどのように解決するか、といったような、基本的な質問に答えるためのプロトコルファジィングの体系的な概要は、いまだに欠けている。
このギャップを埋めるため、学術・産業双方の関連研究を包括的に調査した。
本研究は,プロトコルファジィングにおける具体的な課題の詳細な概要と,既存の研究成果の体系的分類と概要を提供する。
さらに,プロトコルファジィ化における今後の研究の方向性について検討し,議論する。
この調査は、この分野の研究者や実践者の基本的なガイドラインとなっている。
Communication protocols form the bedrock of our interconnected world, yet vulnerabilities within their implementations pose significant security threats. Recent developments have seen a surge in fuzzing-based research dedicated to uncovering these vulnerabilities within protocol implementations. However, there still lacks a systematic overview of protocol fuzzing for answering the essential questions such as what the unique challenges are, how existing works solve them, etc. To bridge this gap, we conducted a comprehensive investigation of related works from both academia and industry. Our study includes a detailed summary of the specific challenges in protocol fuzzing, and provides a systematic categorization and overview of existing research efforts. Furthermore, we explore and discuss potential future research directions in protocol fuzzing. This survey serves as a foundational guideline for researchers and practitioners in the field. | 翻訳日:2024-03-25 12:57:08 公開日:2024-01-04 |
# AIによる音声攻撃による新興脅威の実態調査:商用音声制御システムはいかに脆弱性があるか?
A Practical Survey on Emerging Threats from AI-driven Voice Attacks: How Vulnerable are Commercial Voice Control Systems? ( http://arxiv.org/abs/2312.06010v2 ) ライセンス: Link先を確認 | Yuanda Wang, Qiben Yan, Nikolay Ivanov, Xun Chen, | (参考訳) 人工知能(AI)による音声攻撃の出現により、音声制御システムに新たなセキュリティ脆弱性が明らかになった。
研究者は、音声制御システム(VCS)をターゲットにした数多くの攻撃戦略を導入しているが、VCSの継続的な進歩は多くの攻撃の影響を減らした。
本研究は,このダイナミックな景観を認識し,悪意ある音声攻撃に対する商用音声制御システムのレジリエンスを包括的に評価する試みである。
広汎な実験を通じて,音声制御インタフェースとデバイス群をまたいだ6つの顕著な攻撃手法を評価する。
一般的な物語とは対照的に,商業音声制御システムでは既存の脅威に対する耐性が向上していることが示唆された。
特に、この研究はブラックボックスのシナリオにおけるホワイトボックス攻撃の非効率性を強調している。
さらに、Apple SiriやSamsung Bixbyといった商用システムとのクエリベースのインタラクション中に、正確な勾配推定を得る上で、敵は大きな障害に直面している。
一方、現在の防衛戦略は先進的な攻撃に対して完全には免疫がない。
本研究は,VCSの防御機構の強化に有用な知見である。
本調査は,VCSのセキュリティ問題に対する学術コミュニティの意識を高め,この重要な領域における継続的な研究を提唱することを目的としている。
The emergence of Artificial Intelligence (AI)-driven audio attacks has revealed new security vulnerabilities in voice control systems. While researchers have introduced a multitude of attack strategies targeting voice control systems (VCS), the continual advancements of VCS have diminished the impact of many such attacks. Recognizing this dynamic landscape, our study endeavors to comprehensively assess the resilience of commercial voice control systems against a spectrum of malicious audio attacks. Through extensive experimentation, we evaluate six prominent attack techniques across a collection of voice control interfaces and devices. Contrary to prevailing narratives, our results suggest that commercial voice control systems exhibit enhanced resistance to existing threats. Particularly, our research highlights the ineffectiveness of white-box attacks in black-box scenarios. Furthermore, the adversaries encounter substantial obstacles in obtaining precise gradient estimations during query-based interactions with commercial systems, such as Apple Siri and Samsung Bixby. Meanwhile, we find that current defense strategies are not completely immune to advanced attacks. Our findings contribute valuable insights for enhancing defense mechanisms in VCS. Through this survey, we aim to raise awareness within the academic community about the security concerns of VCS and advocate for continued research in this crucial area. | 翻訳日:2024-03-18 12:46:22 公開日:2024-01-04 |
# オンチェーンオークションにおける戦略的入札戦争
Strategic Bidding Wars in On-chain Auctions ( http://arxiv.org/abs/2312.14510v2 ) ライセンス: Link先を確認 | Fei Wu, Thomas Thiery, Stefanos Leonardos, Carmine Ventre, | (参考訳) Proposer-Builder 分離の出現以来,Ethereum ブロック構築プロセスは大きく変化している。
バリデータはマーケットプレースを通じてブロックにアクセスし、ブロック構築者はブロックを構築し、MEV-boostオークションとして知られるオンチェーンコンペティションでMEV(Maximal Extractable Value)の報酬を得る権利を入札する。
現在、ブロックの90%以上がMEV-Boost経由で構築されているが、ビルダーの戦略行動とオークションデザインのトレードオフはよく分かっていない。
本稿ではこのギャップに対処する。
本稿では,MEV-Boostオークションのゲーム理論モデルを導入し,シミュレーションを用いて,実際に観察されたビルダーの入札戦略について検討する。
各種の戦略的相互作用とオークション設定について検討し,MEVの機会へのアクセスやリレーへの接続性の向上といった重要な要素間の相互作用が,入札性能に与える影響を評価する。
提案手法は,建設業者の戦略の有効性に対する遅延の重要性と,提案者の視点からの全体的なオークション結果を示すものである。
The Ethereum block-building process has changed significantly since the emergence of Proposer-Builder Separation. Validators access blocks through a marketplace, where block builders bid for the right to construct the block and earn MEV (Maximal Extractable Value) rewards in an on-chain competition, known as the MEV-boost auction. While more than 90% of blocks are currently built via MEV-Boost, trade-offs between builders' strategic behaviors and auction design remain poorly understood. In this paper we address this gap. We introduce a game-theoretic model for MEV-Boost auctions and use simulations to study different builders' bidding strategies observed in practice. We study various strategic interactions and auction setups and evaluate how the interplay between critical elements such as access to MEV opportunities and improved connectivity to relays impact bidding performance. Our results demonstrate the importance of latency on the effectiveness of builders' strategies and the overall auction outcome from the proposer's perspective. | 翻訳日:2024-03-18 11:28:18 公開日:2024-01-04 |
# 旅行者:スケーラブルな公正注文型BFTシステム
Travelers: A scalable fair ordering BFT system ( http://arxiv.org/abs/2401.02030v1 ) ライセンス: Link先を確認 | Bowen Xue, Sreeram Kannan, | (参考訳) 多くのブロックチェーンプラットフォームは、最大値抽出(MEV)の対象であり、トランザクションの順序を操作して価値を抽出できるため、プラットフォーム上のユーザは、トランザクションを送信しながら損失を被っている。
コンセンサスプロトコルは、この問題に対処するために、公正順序付けという異なる概念で拡張されている。
すべての実用的なプロトコルの中で、最も効率的なBFTコンセンサスでは、$O(nTL + n^2T)$通信複雑性が必要であり、$n$は番号ノード、$T$はトランザクションの数、$L$は平均トランザクションサイズである。
本研究では,BFTフェアオーダプロトコルであるトラベラーを新たに提案し,通信の複雑さを大幅に低減する。
提案したプロトコル体系は、確率的公正順序付け(probabilistic fair ordering)と呼ばれる新しい公正順序付けの概念を満たす。
新しい概念は、小さなエラーの確率$\epsilon$を可能にし、敵はブロック内の任意の場所でトランザクションを挿入できるが、残りの$-\epsilon$の場合、リニアライザビリティの修正版は保持する。
当社のメカニズムは,すべてのコンセンサスノードに対して,分散ネットワークや直接送信を必要としない。
重要なイノベーションは、フレキシブルで効率的なルーティングプロトコルから生まれます。
我々は,あるシステムパラメータに対して$O(c\log({n})TL + n^2)$通信複雑性を$\epsilon = 1/n^c$で構築する。
Many blockchain platform are subject to maximal value extraction (MEV), and users on the platform are losing money while sending transactions because the transaction order can be manipulated to extract value from them. Consensus protocols have been augmented with different notion of fair ordering in order to counter the problem. Out of all practical protocols, the most efficient BFT consensus requires $O(nTL + n^2T)$ communication complexity, where $n$ is number node, $T$ is number of transactions and $L$ is average transaction size. In this work, we propose a new system of BFT fair ordering protocols, Travelers, that substantially reduce the communication complexity. The proposed system of protocols satisfy a new notion of fair ordering, called probabilistic fair ordering, which is an extension to some existing notions of fairness. The new notion allows a small probability of error $\epsilon$, that adversary can insert some transactions at any location in a block, but for the remaining $1-\epsilon$ the a modified version of ordering linearizability holds. Our mechanism neither require a dissemination network nor direct submissions to all consensus nodes. The key innovation comes from a routing protocol, that is both flexible and efficient. We construct a protocol with $O(c\log({n})TL + n^2)$ communication complexity with $\epsilon = 1/n^c$ for some system parameter $c\ge 1$. | 翻訳日:2024-03-18 10:39:12 公開日:2024-01-04 |
# 対立するエッジペアを持つ最小スパンニングツリー問題のカーネルサーチによる解法
Kernel Search approach to solve the Minimum Spanning Tree Problem with conflicting edge pairs ( http://arxiv.org/abs/2401.02222v1 ) ライセンス: Link先を確認 | Francesco Carrabs, Martina Cerulli, Domenico Serra, | (参考訳) 競合を持つ最小スパンニングツリー問題(Minimum Spanning Tree Problem with Conflicts)は、グラフの最小の競合のないスパンニングツリー、すなわち最小コストのスパンニングツリーを見つけることである。
本稿では,この問題の反復的に改善された制約を解消するカーネル探索ヒューリスティック手法を用いて,この問題を解決する。
このアプローチの主な新規性は、アルゴリズム内でコンフリクトグラフの独立したセットを使用することである。
提案手法をベンチマークインスタンス上でテストし,本論文で利用可能な他のヒューリスティックスと結果を比較した。
The Minimum Spanning Tree Problem with Conflicts consists in finding the minimum conflict-free spanning tree of a graph, i.e., the spanning tree of minimum cost, including no pairs of edges that are in conflict. In this paper, we solve this problem using a tailored Kernel Search heuristic method, which consists in solving iteratively improved restrictions of the problem. The main novelty of the approach consists in using an independent set of the conflict graph within the algorithm. We test our approach on the benchmark instances and we compare our results with the ones obtained by other heuristics available in the literature. | 翻訳日:2024-03-18 10:39:12 公開日:2024-01-04 |
# TitanCFI:Root-of-Trustにおける制御-フローの整合性向上に向けて
TitanCFI: Toward Enforcing Control-Flow Integrity in the Root-of-Trust ( http://arxiv.org/abs/2401.02567v1 ) ライセンス: Link先を確認 | Emanuele Parisi, Alberto Musa, Simone Manoni, Maicol Ciani, Davide Rossi, Francesco Barchi, Andrea Bartolini, Andrea Acquaviva, | (参考訳) 現代のRISC-Vプラットフォームは、産業用制御装置や自動運転車のようなセキュリティクリティカルなシステムを制御し、監視している。
これらのプラットフォームは、認証シークレットを格納し、セキュアなブート技術を可能にするRoT(Root-of-Trust)を備えているが、制御フロー統合(CFI)の執行に欠けることが多く、悪意のある動作をトリガーするアプリケーションの制御フローを分散させるサイバー攻撃に脆弱である。
RISC-VシステムでCFIを強制する最近の技術としては、ISA修正やカスタムハードウェアIP、アドホックなバイナリツールチェーン、ハードウェアにおけるCFIプリミティブの設計などがある。
本稿では,RoTにCFIを強制する新しいアプローチであるTitanCFIを提案する。
TitanCFIは、保護されたコアのコミットステージを変更して、制御フロー命令をRoTにストリームし、CFI執行ポリシーをRoTファームウェアに統合する。
提案手法は,System-on-Chip (SoC) に存在するハードウェアリソースの最大再利用を可能にするとともに,カスタムIPの設計やコンパイルツールチェーンの変更を回避し,RoTのタンパー保護ストレージと暗号アクセラレータを利用してCFIメタデータの保護を行う。
提案アーキテクチャを現代のRISC-V SoC上に実装し、RoTの戻りアドレス保護ポリシーとベンチマークされた領域とランタイムオーバーヘッドを実装した。
実験の結果、TitanCFIはほとんどのベンチマークでSoAハードウェアCFIソリューションに匹敵するオーバヘッドを実現し、オーバヘッドが低くなり、1%のオーバヘッドが付加された。
Modern RISC-V platforms control and monitor security-critical systems such as industrial controllers and autonomous vehicles. While these platforms feature a Root-of-Trust (RoT) to store authentication secrets and enable secure boot technologies, they often lack Control-Flow Integrity (CFI) enforcement and are vulnerable to cyber-attacks which divert the control flow of an application to trigger malicious behaviours. Recent techniques to enforce CFI in RISC-V systems include ISA modifications or custom hardware IPs, all requiring ad-hoc binary toolchains or design of CFI primitives in hardware. This paper proposes TitanCFI, a novel approach to enforce CFI in the RoT. TitanCFI modifies the commit stage of the protected core to stream control flow instructions to the RoT and it integrates the CFI enforcement policy in the RoT firmware. Our approach enables maximum reuse of the hardware resource present in the System-on-Chip (SoC), and it avoids the design of custom IPs and the modification of the compilation toolchain, while exploiting the RoT tamper-proof storage and cryptographic accelerators to secure CFI metadata. We implemented the proposed architecture on a modern RISC-V SoC along with a return address protection policy in the RoT, and benchmarked area and runtime overhead. Experimental results show that TitanCFI achieves overhead comparable to SoA hardware CFI solutions for most benchmarks, with lower area overhead, resulting in 1% of additional area occupation. | 翻訳日:2024-03-18 10:39:12 公開日:2024-01-04 |
# 持続的生成型aiシステムに向けた公共行動の提言 Recommendations for public action towards sustainable generative AI systems ( http://arxiv.org/abs/2402.01646v1 ) ライセンス: Link先を確認 | Thomas Le Goff (EDF) | (参考訳) デジタル技術の環境への影響に対する意識が高まり、持続可能なプラクティスを促進するためのいくつかの独立した取り組みが導かれた。
しかし、これらの努力にもかかわらず、生成的AIの環境フットプリント、特に温室効果ガスの排出と水消費の面では、依然としてかなりの量である。
この貢献はまず、この環境フットプリントの構成要素を示し、大規模な言語モデルの訓練に伴う大量のCO2排出量と水消費を強調し、学習と推論の方法を再考する必要性を強調している。
この論文は、環境フットプリントに影響を及ぼすモデルの要因と特性を考察し、より効率的なプロセッサの使用やデータセンターのエネルギー性能の最適化など、その低減のためのソリューションの存在を実証する。
地球とその生態系に対するAIの潜在的有害な影響は、環境保護を、国際およびヨーロッパのレベルでAI倫理の確立原則の1つにしている。
However, this recognition has not yet translated into concrete measures to address it.To address this issue, our contribution puts forward twelve pragmatic recommendations for public action to promote sustainable generative AI, in particular by building a long-term strategy to achieve carbon neutrality for AI models, encouraging international cooperation to set common standards, supporting scientific research and developing appropriate legal and regulatory frameworks.This paper seeks to inform the members of the Interministerial Committee on Generative AI about the environmental challenges of this technology by providing a brief review of the scientific literature on the subject and proposing concrete recommendations of public policy actions to reconcile technological innovation with the need to protect our environment. Growing awareness of the environmental impact of digital technologies has led to several isolated initiatives to promote sustainable practices. However, despite these efforts, the environmental footprint of generative AI, particularly in terms of greenhouse gas emissions and water consumption, remains considerable. This contribution first presents the components of this environmental footprint, highlighting the massive CO2 emissions and water consumption associated with training large language models, thus underlining the need to rethink learning and inference methods. The paper also explores the factors and characteristics of models that have an influence on their environmental footprint and demonstrates the existence of solutions to reduce it, such as using more efficient processors or optimising the energy performance of data centres. The potentially harmful effects of AI on the planet and its ecosystem have made environmental protection one of the founding principles of AI ethics at international and European levels. However, this recognition has not yet translated into concrete measures to address it.To address this issue, our contribution puts forward twelve pragmatic recommendations for public action to promote sustainable generative AI, in particular by building a long-term strategy to achieve carbon neutrality for AI models, encouraging international cooperation to set common standards, supporting scientific research and developing appropriate legal and regulatory frameworks.This paper seeks to inform the members of the Interministerial Committee on Generative AI about the environmental challenges of this technology by providing a brief review of the scientific literature on the subject and proposing concrete recommendations of public policy actions to reconcile technological innovation with the need to protect our environment. | 翻訳日:2024-02-11 17:15:57 公開日:2024-01-04 |
# 構造・インフラシステム管理のためのモニタリング対応価値生成 Monitoring-Supported Value Generation for Managing Structures and Infrastructure Systems ( http://arxiv.org/abs/2402.00021v1 ) ライセンス: Link先を確認 | Antonios Kamariotis, Eleni Chatzi, Daniel Straub, Nikolaos Dervilis, Kai Goebel, Aidan J. Hughes, Geert Lombaert, Costas Papadimitriou, Konstantinos G. Papakonstantinou, Matteo Pozzi, Michael Todd, Keith Worden | (参考訳) その価値を最大化するために、構造健康モニタリング(SHM)の設計、開発、実装は、意思決定支援の促進における役割に焦点を当てるべきである。
本稿では,SHMと意思決定の相乗効果について考察する。
本稿では,各決定コンテキストに密接な関係を持つ様々な次元に整合したscmユースケースの分類を提案する。
これらの設定内でSHMシステムによってサポートされなければならない決定のタイプについて、対応する課題とともに議論する。
我々は、構造やインフラシステムの管理、運用、保守を支援する意思決定プロセスにscmを統合するために必要な、さまざまなモデルのクラスの概要を提供する。
不確実性下でのメンテナンスと運用の意思決定を最適化するための基本的な意思決定原理と最新手法について簡単に論じる。
最後に、SHMによって生成された付加価値を定量化し、検証し、最大化するための適切な行動経路に関する視点を提供する。
この作業は、SHM(Prognostic Health Management)、PHM(Prognostic Health Management)、信頼性コミュニティのさまざまな視点を合成し、監視ベースの意思決定支援に向けたロードマップを提供する。 To maximize its value, the design, development and implementation of Structural Health Monitoring (SHM) should focus on its role in facilitating decision support. In this position paper, we offer perspectives on the synergy between SHM and decision-making. We propose a classification of SHM use cases aligning with various dimensions that are closely linked to the respective decision contexts. The types of decisions that have to be supported by the SHM system within these settings are discussed along with the corresponding challenges. We provide an overview of different classes of models that are required for integrating SHM in the decision-making process to support management and operation and maintenance of structures and infrastructure systems. Fundamental decision-theoretic principles and state-of-the-art methods for optimizing maintenance and operational decision-making under uncertainty are briefly discussed. Finally, we offer a viewpoint on the appropriate course of action for quantifying, validating and maximizing the added value generated by SHM. This work aspires to synthesize the different perspectives of the SHM, Prognostic Health Management (PHM), and reliability communities, and deliver a roadmap towards monitoring-based decision support. | 翻訳日:2024-02-04 05:21:41 公開日:2024-01-04 |
# ai研究へのアカデミアと産業の相補的貢献 The complementary contributions of academia and industry to AI research ( http://arxiv.org/abs/2401.10268v1 ) ライセンス: Link先を確認 | Lizhen Liang (Syracuse University), Han Zhuang (Northeastern University), James Zou (Stanford University), Daniel E. Acuna (University of Colorado at Boulder) | (参考訳) 人工知能(AI)は産業とアカデミックで大きな発展を遂げている。
しかし、近年の産業の進歩によって世界は停滞し、この分野における学術研究の役割に対する新たな視点がもたらされた。
ここでは、過去25年間に両方の環境によって生成されたAIの影響と種類を特徴付け、いくつかのパターンを確立する。
業界研究者のみで構成されたチームによって公開された記事が注目を集める傾向があり、高い引用と引用破壊の可能性が高く、最先端のモデルを作る確率も数倍高いことが分かりました。
対照的に、学術チームだけがai研究の大部分を公開し、より高度なノベルティワークを生み出す傾向にあり、単一の論文が非慣習的で非定型的であることの確率が数倍高いことが分かりました。
産業とアカデミックのそれぞれのインパクトノーベルティの利点は、サブフィールド、チームサイズ、年功、名声のコントロールに堅牢である。
学術と産業のコラボレーションは、学術チームのノベルティを再現するのに苦労しており、業界チームと似ている傾向があります。
我々の発見は、学術と産業の両方がAIの健全な進歩に向けて行った、ユニークでほぼ置き換えられない貢献を、共に見極めている。 Artificial intelligence (AI) has seen tremendous development in industry and academia. However, striking recent advances by industry have stunned the world, inviting a fresh perspective on the role of academic research in this field. Here, we characterize the impact and type of AI produced by both environments over the last 25 years and establish several patterns. We find that articles published by teams consisting exclusively of industry researchers tend to get greater attention, with a higher chance of being highly cited and citation-disruptive, and several times more likely to produce state-of-the-art models. In contrast, we find that exclusively academic teams publish the bulk of AI research and tend to produce higher novelty work, with single papers having several times higher likelihood of being unconventional and atypical. The respective impact-novelty advantages of industry and academia are robust to controls for subfield, team size, seniority, and prestige. We find that academic-industry collaborations struggle to replicate the novelty of academic teams and tend to look similar to industry teams. Together, our findings identify the unique and nearly irreplaceable contributions that both academia and industry make toward the healthy progress of AI. | 翻訳日:2024-01-28 16:31:47 公開日:2024-01-04 |
# hypersense: インテリジェントセンサデータ処理のための超次元コンピューティングの高速化 HyperSense: Accelerating Hyper-Dimensional Computing for Intelligent Sensor Data Processing ( http://arxiv.org/abs/2401.10267v1 ) ライセンス: Link先を確認 | Sanggeon Yun, Hanning Chen, Ryozo Masukawa, Hamza Errahmouni Barkam, Andrew Ding, Wenjun Huang, Arghavan Rezvani, Shaahin Angizi, Mohsen Imani | (参考訳) ハードウェアとソフトウェアを共同設計したHyperSenseは,センサデータのオブジェクト存在予測に基づいて,ADCモジュールのデータ生成率を効率的に制御する。
センサー量とデータレートをエスカレートすることで生じる課題に対処するため、HyperSenseはエネルギー効率の低いADCを使用して冗長なデジタルデータを削減し、機械学習システムコストを削減している。
ニューラルインスパイアされた超次元コンピューティング(HDC)を活用して、HyperSenseはリアルタイムの生の低精度センサーデータを解析し、ノイズ、メモリ中心性、リアルタイム学習を扱う利点を提供する。
提案するHyperSenseモデルは,物体検出のための高性能ソフトウェアとリアルタイムハードウェア予測を組み合わせ,インテリジェントセンサ制御という新しい概念を導入した。
AUC(Area Under the Curve)とROC(Area Under the Curve)曲線によって証明された,ソリューションの優れた性能を示すソフトウェアとハードウェアの総合評価を行った。
ハードウェア面では、HyperSense用に調整されたFPGAベースのドメイン固有アクセラレータはNVIDIA Jetson OrinのYOLOv4と比較して5.6倍の高速化を実現しています。
これらの結果はhypersenseの有効性と効率を強調し、様々なアプリケーションにわたるインテリジェントセンシングとリアルタイムデータ処理の有望なソリューションと位置づけている。 Introducing HyperSense, our co-designed hardware and software system efficiently controls Analog-to-Digital Converter (ADC) modules' data generation rate based on object presence predictions in sensor data. Addressing challenges posed by escalating sensor quantities and data rates, HyperSense reduces redundant digital data using energy-efficient low-precision ADC, diminishing machine learning system costs. Leveraging neurally-inspired HyperDimensional Computing (HDC), HyperSense analyzes real-time raw low-precision sensor data, offering advantages in handling noise, memory-centricity, and real-time learning. Our proposed HyperSense model combines high-performance software for object detection with real-time hardware prediction, introducing the novel concept of Intelligent Sensor Control. Comprehensive software and hardware evaluations demonstrate our solution's superior performance, evidenced by the highest Area Under the Curve (AUC) and sharpest Receiver Operating Characteristic (ROC) curve among lightweight models. Hardware-wise, our FPGA-based domain-specific accelerator tailored for HyperSense achieves a 5.6x speedup compared to YOLOv4 on NVIDIA Jetson Orin while showing up to 92.1% energy saving compared to the conventional system. These results underscore HyperSense's effectiveness and efficiency, positioning it as a promising solution for intelligent sensing and real-time data processing across diverse applications. | 翻訳日:2024-01-28 16:31:27 公開日:2024-01-04 |
# 三重項の部分的または完全マッチングによる三進概念の問合せ Querying Triadic Concepts through Partial or Complete Matching of Triples ( http://arxiv.org/abs/2401.10271v1 ) ライセンス: Link先を確認 | Pedro Henrique B. Ruas, Rokia Missaoui and Mohamed Hamza Ibrahim | (参考訳) 本稿では,逆インデックスを用いて三進数の部分的あるいは完全マッチングによって三進数の概念を問合せする新しい手法を提案する。
ananias で記述される近似アプローチとは対照的に、この手法は
(i)初期三進文脈またはその3つのdyadicコンテキストを維持する必要はない。
(ii)文脈探索による三重成分への導出演算子の適用を避ける
(iii) 1次元クエリの答えとして三進的概念を得るための因子化フェーズの必要をなくす。
さらに,検索された三進概念を,与えられた問合せと類似性に基づいてランク付けするための新しい指標を提案する。
最後に、近似に対するアプローチの有効性と拡張性を説明するための実証的研究が主に行われている。
私たちのソリューションは、優れた効率を示すだけでなく、より優れたスケーラビリティを強調し、ビッグデータシナリオに適合させています。 In this paper, we introduce a new method for querying triadic concepts through partial or complete matching of triples using an inverted index, to retrieve already computed triadic concepts that contain a set of terms in their extent, intent, and/or modus. As opposed to the approximation approach described in Ananias, this method (i) does not need to keep the initial triadic context or its three dyadic counterparts, (ii) avoids the application of derivation operators on the triple components through context exploration, and (iii) eliminates the requirement for a factorization phase to get triadic concepts as the answer to one-dimensional queries. Additionally, our solution introduces a novel metric for ranking the retrieved triadic concepts based on their similarity to a given query. Lastly, an empirical study is primarily done to illustrate the effectiveness and scalability of our approach against the approximation one. Our solution not only showcases superior efficiency, but also highlights a better scalability, making it suitable for big data scenarios. | 翻訳日:2024-01-28 16:17:56 公開日:2024-01-04 |
# テキスト分類のための鳥の最適化に基づく特徴選択 Migrating Birds Optimization-Based Feature Selection for Text Classification ( http://arxiv.org/abs/2401.10270v1 ) ライセンス: Link先を確認 | Cem Kaya, Zeynep Hilal Kilimci, Mitat Uysal, Murat Kaya | (参考訳) そこで本研究では,Naive Bayesと組み合わせたMBO-NB(Migrating Birds Optimization)を内部分類器として活用し,多数の特徴を有するテキスト分類における特徴選択問題に対処する手法を提案する。
計算効率に着目し,情報ゲインアルゴリズムを用いて生データを前処理し,特徴量を平均62221から2089まで戦略的に削減する。
本実験は,従来の手法に比べて機能削減においてmbo-nbが優れていることを示し,分類精度の向上を強調する。
MBO内のネイブベイズの統合が成功すると、よく取りまとめられた解が得られる。
パーティクルスワーム最適化(PSO)との比較では、MBO-NBは4つの設定で平均6.9%向上している。
本研究は、特徴選択手法の強化に関する貴重な洞察を提供し、テキスト分類のためのスケーラブルで効果的なソリューションを提供する。 This research introduces a novel approach, MBO-NB, that leverages Migrating Birds Optimization (MBO) coupled with Naive Bayes as an internal classifier to address feature selection challenges in text classification having large number of features. Focusing on computational efficiency, we preprocess raw data using the Information Gain algorithm, strategically reducing the feature count from an average of 62221 to 2089. Our experiments demonstrate MBO-NB's superior effectiveness in feature reduction compared to other existing techniques, emphasizing an increased classification accuracy. The successful integration of Naive Bayes within MBO presents a well-rounded solution. In individual comparisons with Particle Swarm Optimization (PSO), MBO-NB consistently outperforms by an average of 6.9% across four setups. This research offers valuable insights into enhancing feature selection methods, providing a scalable and effective solution for text classification | 翻訳日:2024-01-28 16:17:14 公開日:2024-01-04 |
# フェミシドを先行したブラジル警察のリスクパターンの同定:長期記憶(LSTM)に基づく分析 Identifying Risk Patterns in Brazilian Police Reports Preceding Femicides: A Long Short Term Memory (LSTM) Based Analysis ( http://arxiv.org/abs/2401.12980v1 ) ライセンス: Link先を確認 | Vinicius Lima, Jaque Almeida de Oliveira | (参考訳) フェミサイド(Femicide)は、親密なパートナーや家族によってしばしば強姦される女性の犠牲者を殺害することであり、また性による暴力とも関係している。
研究は、これらの殺人に至る暴力をエスカレートするパターンがあることを示しており、被害者に対する危険度を評価することができる場合の予防の可能性を強調している。
機械学習は、暴力のテキスト記述に基づいてリスクレベルを予測することによって、この課題に対処するための有望なアプローチを提供する。
本研究では,殺人前のブラジル警察報告における行動パターンの同定にLSTM(Long Short Term Memory)を用いた。
我々の最初の目的は、これらの報告の内容が被害者が殺されるリスクが低いか高いかを示すものとして分類することであり、正確性は66%であった。
第2のアプローチでは、被害者がパターン化されたイベントのシーケンス内で経験するであろう次のアクションを予測するモデルを開発した。
どちらのアプローチも、家庭内暴力に関連するリスクの理解と評価に寄与し、当局は女性を保護し、状況がエスカレートすることを防ぐ貴重な洞察を提供する。 Femicide refers to the killing of a female victim, often perpetrated by an intimate partner or family member, and is also associated with gender-based violence. Studies have shown that there is a pattern of escalating violence leading up to these killings, highlighting the potential for prevention if the level of danger to the victim can be assessed. Machine learning offers a promising approach to address this challenge by predicting risk levels based on textual descriptions of the violence. In this study, we employed the Long Short Term Memory (LSTM) technique to identify patterns of behavior in Brazilian police reports preceding femicides. Our first objective was to classify the content of these reports as indicating either a lower or higher risk of the victim being murdered, achieving an accuracy of 66%. In the second approach, we developed a model to predict the next action a victim might experience within a sequence of patterned events. Both approaches contribute to the understanding and assessment of the risks associated with domestic violence, providing authorities with valuable insights to protect women and prevent situations from escalating. | 翻訳日:2024-01-28 15:43:58 公開日:2024-01-04 |
# PokerGPT: 大規模言語モデルによるマルチプレイヤーテキサスホールディングスのためのエンドツーエンド軽量ソルバー PokerGPT: An End-to-End Lightweight Solver for Multi-Player Texas Hold'em via Large Language Model ( http://arxiv.org/abs/2401.06781v1 ) ライセンス: Link先を確認 | Chenghao Huang, Yanbo Cao, Yinlong Wen, Tao Zhou, Yanru Zhang | (参考訳) ポーカーはテキサスホールデムとしても知られ、常にimperfect information games (iigs) の典型的な研究対象となっている。
IIGは長年、人工知能(AI)の発展の指標として機能してきた。
DeepStackやLibratusといった代表的な先行作業は、ヘッドアップのノーリミットポーカーに取り組むために、反ファクト的後悔の最小化(CFR)に大きく依存している。
しかし、その後の研究者は、CFRイテレーションの高価な計算コストのために、以前のモデルからCFRを学び、それを他の現実世界のアプリケーションに適用することは困難である。
また,ゲームツリーサイズが指数関数的に大きくなるため,マルチプレイヤーゲームに適用することは困難である。
本稿では,テキサスホールデムを任意の数の選手と対戦し,高い勝利率を得るためのエンドツーエンド解法であるポーカーgptを,軽量大言語モデル(llm)に基づいて紹介する。
PokerGPTは、意思決定アドバイスを生成するためにポーカーゲームの単純なテキスト情報のみを必要とするため、AIと人間間の便利なインタラクションが保証される。
我々は,実ゲームから取得した一連のテキストレコードをプロンプトに変換し,強化学習人間のフィードバック技術を用いて,軽量な事前学習LDMを微調整する。
微調整性能を向上させるため,有用な情報をフィルタリングし,高い利得率のプレイヤーの行動を選択し,さらに複数のプロンプト技術を用いてテキスト命令に処理するなど,生データ上でのプロンプトエンジニアリングを行う。
実験により,PokerGPTは勝利率,モデルサイズ,トレーニング時間,応答速度において従来の手法よりも優れており,IIGの解法におけるLLMの大きな可能性を示している。 Poker, also known as Texas Hold'em, has always been a typical research target within imperfect information games (IIGs). IIGs have long served as a measure of artificial intelligence (AI) development. Representative prior works, such as DeepStack and Libratus heavily rely on counterfactual regret minimization (CFR) to tackle heads-up no-limit Poker. However, it is challenging for subsequent researchers to learn CFR from previous models and apply it to other real-world applications due to the expensive computational cost of CFR iterations. Additionally, CFR is difficult to apply to multi-player games due to the exponential growth of the game tree size. In this work, we introduce PokerGPT, an end-to-end solver for playing Texas Hold'em with arbitrary number of players and gaining high win rates, established on a lightweight large language model (LLM). PokerGPT only requires simple textual information of Poker games for generating decision-making advice, thus guaranteeing the convenient interaction between AI and humans. We mainly transform a set of textual records acquired from real games into prompts, and use them to fine-tune a lightweight pre-trained LLM using reinforcement learning human feedback technique. To improve fine-tuning performance, we conduct prompt engineering on raw data, including filtering useful information, selecting behaviors of players with high win rates, and further processing them into textual instruction using multiple prompt engineering techniques. Through the experiments, we demonstrate that PokerGPT outperforms previous approaches in terms of win rate, model size, training time, and response speed, indicating the great potential of LLMs in solving IIGs. | 翻訳日:2024-01-22 12:42:27 公開日:2024-01-04 |
# 機械学習による運転者の疲労・気遣いの自動検出の改善 Improving automatic detection of driver fatigue and distraction using machine learning ( http://arxiv.org/abs/2401.10213v1 ) ライセンス: Link先を確認 | Dongjiang Wu | (参考訳) 近年の情報技術の変化と進歩は、インテリジェントな車両システムの開発において重要な役割を担っている。
ドライバーの疲労と運転の邪魔は交通事故の重要な要因である。
このように、運転行動のオンボード監視は、インテリジェントな車両の高度な運転支援システムの重要な要素となっている。
本稿では,視覚ベースと機械学習に基づくアプローチを用いて,疲労と不注意の運転行動を同時に検出する手法を提案する。
運転疲労検出において,画像中の顔特徴点を識別するために顔アライメントネットワークを使用し,顔特徴点の距離を算出し,目と口の開閉を検出する。
さらに,mobilenetアーキテクチャに基づく畳み込みニューラルネットワーク(cnn)を用いて,各種の注意をそらした運転行動の識別を行う。
実験は、WebカメラでPCベースのセットアップで行われ、その結果は、公開データセットと、トレーニングとテスト用に作成されたカスタムデータセットを使用して実証される。
従来のアプローチと比較して、我々は独自のデータセットを構築し、精度と計算時間の観点からより良い結果を提供する。 Changes and advances in information technology have played an important role in the development of intelligent vehicle systems in recent years. Driver fatigue and distracted driving are important factors in traffic accidents. Thus, onboard monitoring of driving behavior has become a crucial component of advanced driver assistance systems for intelligent vehicles. In this article, we present techniques for simultaneously detecting fatigue and distracted driving behaviors using vision-based and machine learning-based approaches. In driving fatigue detection, we use facial alignment networks to identify facial feature points in the images, and calculate the distance of the facial feature points to detect the opening and closing of the eyes and mouth. Furthermore, we use a convolutional neural network (CNN) based on the MobileNet architecture to identify various distracted driving behaviors. Experiments are performed on a PC based setup with a webcam and results are demonstrated using public datasets as well as custom datasets created for training and testing. Compared to previous approaches, we build our own datasets and provide better results in terms of accuracy and computation time. | 翻訳日:2024-01-22 09:18:02 公開日:2024-01-04 |
# マルチグラニュラリティ構造とマルチスケールシーケンス表現の結合によるPTMサイト予測の改善 Improving PTM Site Prediction by Coupling of Multi-Granularity Structure and Multi-Scale Sequence Representation ( http://arxiv.org/abs/2401.10211v1 ) ライセンス: Link先を確認 | Zhengyi Li, Menglu Li, Lida Zhu, Wen Zhang | (参考訳) タンパク質翻訳後修飾(PTM)サイト予測はバイオインフォマティクスの基本的な課題である。
PTMサイトを予測するためにいくつかの計算手法が開発されている。
しかし、既存の方法は構造情報を無視し、単にタンパク質配列を利用するだけである。
さらに、PTMは原子粒度で発生する生物学的事象であるため、より微細な構造表現学習法を設計する必要がある。
本稿では,マルチグラニュラリティ構造とマルチスケールシーケンス表現の結合によるPTMサイト予測手法,PTM-CMGMSを提案する。
Specifically, multigranularity structure-aware representation learning is designed to learn neighborhood structure representations at the amino acid, atom, and whole protein granularity from AlphaFold predicted structures, followed by utilizing contrastive learning to optimize the structure representations.Additionally, multi-scale sequence representation learning is used to extract context sequence information, and motif generated by aligning all context sequences of PTM sites assists the prediction.
3つのデータセットに対する大規模な実験は、PTM-CMGMSが最先端の手法よりも優れていることを示している。 Protein post-translational modification (PTM) site prediction is a fundamental task in bioinformatics. Several computational methods have been developed to predict PTM sites. However, existing methods ignore the structure information and merely utilize protein sequences. Furthermore, designing a more fine-grained structure representation learning method is urgently needed as PTM is a biological event that occurs at the atom granularity. In this paper, we propose a PTM site prediction method by Coupling of Multi-Granularity structure and Multi-Scale sequence representation, PTM-CMGMS for brevity. Specifically, multigranularity structure-aware representation learning is designed to learn neighborhood structure representations at the amino acid, atom, and whole protein granularity from AlphaFold predicted structures, followed by utilizing contrastive learning to optimize the structure representations.Additionally, multi-scale sequence representation learning is used to extract context sequence information, and motif generated by aligning all context sequences of PTM sites assists the prediction. Extensive experiments on three datasets show that PTM-CMGMS outperforms the state-of-the-art methods. | 翻訳日:2024-01-22 09:17:47 公開日:2024-01-04 |
# スケールアップ戦略予測のためのマスターガイド非パラメトリッククラスタリング Mastery Guided Non-parametric Clustering to Scale-up Strategy Prediction ( http://arxiv.org/abs/2401.10210v1 ) ライセンス: Link先を確認 | Anup Shakya, Vasile Rus, Deepak Venugopal | (参考訳) 学生が問題解決に使用するであろう戦略(概念の系列)を予測することは、適応型指導システム(aiss)が学習能力に基づいて異なるタイプの学習者に適応するのに役立つ。
これは学生にとってよりダイナミックでエンゲージメントがあり、パーソナライズされた体験をもたらす可能性がある。
大規模学習データセット上での予測モデル(LSTMなど)のトレーニングをスケールアップするために、データ内のクラスタ対称インスタンスに対する非パラメトリックアプローチを開発する。
具体的には,Node2Vecをベースとして,習得度やスキルレベルよりも対称性を符号化した表現を学習し,課題を解決するために,学生の戦略が習得した概念を巻き込むのは当然である。
この表現を用いて,クラスタの粗い細粒化を通じて対称インスタンスをグループ化するdp-meansを用いた。
我々は,中学校数学学習のAISであるMATHiaの大規模データセットから数学学習の戦略を学習するために,本モデルを適用した。
その結果,本手法は,完全なデータセットを表す小さなサンプルを用いて,一貫して高い精度を達成できることがわかった。
さらに, この手法は, 異なるスキルレベルの学生に対して, 高い精度で戦略を学習する上で有効であること, 予測モデルの公平性を向上させること, を示す。 Predicting the strategy (sequence of concepts) that a student is likely to use in problem-solving helps Adaptive Instructional Systems (AISs) better adapt themselves to different types of learners based on their learning abilities. This can lead to a more dynamic, engaging, and personalized experience for students. To scale up training a prediction model (such as LSTMs) over large-scale education datasets, we develop a non-parametric approach to cluster symmetric instances in the data. Specifically, we learn a representation based on Node2Vec that encodes symmetries over mastery or skill level since, to solve a problem, it is natural that a student's strategy is likely to involve concepts in which they have gained mastery. Using this representation, we use DP-Means to group symmetric instances through a coarse-to-fine refinement of the clusters. We apply our model to learn strategies for Math learning from large-scale datasets from MATHia, a leading AIS for middle-school math learning. Our results illustrate that our approach can consistently achieve high accuracy using a small sample that is representative of the full dataset. Further, we show that this approach helps us learn strategies with high accuracy for students at different skill levels, i.e., leveraging symmetries improves fairness in the prediction model. | 翻訳日:2024-01-22 09:17:34 公開日:2024-01-04 |
# MSXセールスコパイロットにおける生成AIの事例研究:コンテンツ推薦のためのリアルタイム質問応答システムによる販売者の生産性向上 A case study of Generative AI in MSX Sales Copilot: Improving seller productivity with a real-time question-answering system for content recommendation ( http://arxiv.org/abs/2401.04732v1 ) ライセンス: Link先を確認 | Manpreet Singh, Ravdeep Pasricha, Nitish Singh, Ravi Prasad Kondapalli, Manoj R, Kiran R, Laurent Bou\'e | (参考訳) 本稿では,売り手が顧客とライブで共有したり,通話中に参照したりできる関連資料や資料を入手することを目的とした,リアルタイム質問応答システムを設計する。
地震コンテンツリポジトリを,販売資料の多種多様なデータセットの比較的大規模な例として捉え,販売者のクエリのllm埋め込みと関連するコンテンツとのマッチングを実証する。
我々は、文書や販売業者が利用できる豊富なメタ機能を利用する、精巧な手法でこれを実現している。
クロスエンコーダリランカアーキテクチャを備えたバイエンコーダを使用して、大規模なデータセットであっても、最も関連性の高いコンテントレコメンデーションをわずか数秒で返却する方法を示す。
我々のレコメンダシステムはリアルタイム推論のためのAMLエンドポイントとしてデプロイされ、Copilotインターフェースに統合され、現在、Microsoftの売り手によって毎日使用されるMSXとして知られるDynamics CRMの本番バージョンにデプロイされています。 In this paper, we design a real-time question-answering system specifically targeted for helping sellers get relevant material/documentation they can share live with their customers or refer to during a call. Taking the Seismic content repository as a relatively large scale example of a diverse dataset of sales material, we demonstrate how LLM embeddings of sellers' queries can be matched with the relevant content. We achieve this by engineering prompts in an elaborate fashion that makes use of the rich set of meta-features available for documents and sellers. Using a bi-encoder with cross-encoder re-ranker architecture, we show how the solution returns the most relevant content recommendations in just a few seconds even for large datasets. Our recommender system is deployed as an AML endpoint for real-time inferencing and has been integrated into a Copilot interface that is now deployed in the production version of the Dynamics CRM, known as MSX, used daily by Microsoft sellers. | 翻訳日:2024-01-15 09:07:54 公開日:2024-01-04 |
# DeepPhysiNet: 正確な気象モデリングのための深層学習と大気物理 DeepPhysiNet: Bridging Deep Learning and Atmospheric Physics for Accurate and Continuous Weather Modeling ( http://arxiv.org/abs/2401.04125v1 ) ライセンス: Link先を確認 | Wenyuan Li, Zili Liu, Keyan Chen, Hao Chen, Shunlin Liang, Zhengxia Zou and Zhenwei Shi | (参考訳) 正確な天気予報は人間の活動に重要な意味を持つ。
現在、天気予報には数値気象予報(NWP)とディープラーニングに基づく予測(DLP)の2つのパラダイムがある。
NWPは気象モデリングに大気物理学を利用するが、データ利用の低さと高い計算コストに悩まされ、DLPは大量のデータから直接気象パターンを学習するが、物理法則を組み込むのに苦労する。
どちらのパラダイムもそれぞれの強みと弱みを持ち、nwpで採用された物理法則は座標と気象変数の関係を記述するが、dlpは座標を考慮せずに気象変数間の関係を直接学習する。
これらの問題に対処するために,我々は深層気象システムモデリングのための物理法則をディープラーニングモデルに組み込むdeepphysinetフレームワークを紹介する。
まず, 温度, 圧力, 風速などの個々の気象変動に対する多層パーセプトロン(MLP)に基づく物理ネットワークを構築した。
物理ネットワークは、座標を入力とし、変数値を出力として生成することで、変数と座標の関係を確立する。
偏微分方程式(pdes)の形式における物理法則は損失関数の一部として組み込むことができる。
次に,気象データから気象パターンを直接学習する深層学習手法に基づくハイパーネットワークを構築した。
ハイパーネットワークの出力は、物理ネットワークの重みの一部を構成する。
実験の結果,DeepPhysiNetは物理法則をうまく統合することで,予測精度を向上するだけでなく,NWPでもDLPでも達成不可能な連続時空間分解結果を得ることができることがわかった。 Accurate weather forecasting holds significant importance to human activities. Currently, there are two paradigms for weather forecasting: Numerical Weather Prediction (NWP) and Deep Learning-based Prediction (DLP). NWP utilizes atmospheric physics for weather modeling but suffers from poor data utilization and high computational costs, while DLP can learn weather patterns from vast amounts of data directly but struggles to incorporate physical laws. Both paradigms possess their respective strengths and weaknesses, and are incompatible, because physical laws adopted in NWP describe the relationship between coordinates and meteorological variables, while DLP directly learns the relationships between meteorological variables without consideration of coordinates. To address these problems, we introduce the DeepPhysiNet framework, incorporating physical laws into deep learning models for accurate and continuous weather system modeling. First, we construct physics networks based on multilayer perceptrons (MLPs) for individual meteorological variable, such as temperature, pressure, and wind speed. Physics networks establish relationships between variables and coordinates by taking coordinates as input and producing variable values as output. The physical laws in the form of Partial Differential Equations (PDEs) can be incorporated as a part of loss function. Next, we construct hyper-networks based on deep learning methods to directly learn weather patterns from a large amount of meteorological data. The output of hyper-networks constitutes a part of the weights for the physics networks. Experimental results demonstrate that, upon successful integration of physical laws, DeepPhysiNet can accomplish multiple tasks simultaneously, not only enhancing forecast accuracy but also obtaining continuous spatiotemporal resolution results, which is unattainable by either the NWP or DLP. | 翻訳日:2024-01-15 09:07:34 公開日:2024-01-04 |
# mobileagent: ヒューマンマシンインタラクションとsop統合によるモバイル制御の強化 MobileAgent: enhancing mobile control via human-machine interaction and SOP integration ( http://arxiv.org/abs/2401.04124v1 ) ライセンス: Link先を確認 | Tinghe Ding | (参考訳) 大規模言語モデル(LLM)を中心としたエージェントは、ユーザのためのモバイルデバイス操作を自動化することができる。
ユーザのモバイル操作を微調整した後、これらのエージェントはオンラインで高レベルのユーザ指示に従うことができる。
最終目的を達成するまで、目標分解、サブゴールのシークエンシング、インタラクティブな環境探索といったタスクを実行する。
しかし、パーソナライズされたユーザデータに関するプライバシーの懸念は、モバイル操作中に発生し、ユーザ確認を必要とする。
さらに、ユーザの実世界の操作は探索的であり、アクションデータは複雑で冗長であり、エージェント学習の課題となる。
これらの問題に対処するために,我々は,エージェントと人間間の対話的なタスクを設計し,機密情報を識別し,パーソナライズされたユーザニーズに対応する。
さらに,モデルのコンテキスト内学習に標準運用手順(sop)情報を統合し,エージェントの複雑なタスク実行に対する理解を深めた。
提案手法は,アプリケーション操作,Web検索,Webショッピングなど多段階のタスクにまたがる,30万のユニークな命令を含む新しいデバイス制御ベンチマークであるAitWを用いて評価した。
実験の結果, SOPをベースとしたエージェントは, 追加の推論コストを発生させることなく, 動作成功率66.92%を達成できることがわかった。 Agents centered around Large Language Models (LLMs) are now capable of automating mobile device operations for users. After fine-tuning to learn a user's mobile operations, these agents can adhere to high-level user instructions online. They execute tasks such as goal decomposition, sequencing of sub-goals, and interactive environmental exploration, until the final objective is achieved. However, privacy concerns related to personalized user data arise during mobile operations, requiring user confirmation. Moreover, users' real-world operations are exploratory, with action data being complex and redundant, posing challenges for agent learning. To address these issues, in our practical application, we have designed interactive tasks between agents and humans to identify sensitive information and align with personalized user needs. Additionally, we integrated Standard Operating Procedure (SOP) information within the model's in-context learning to enhance the agent's comprehension of complex task execution. Our approach is evaluated on the new device control benchmark AitW, which encompasses 30K unique instructions across multi-step tasks, including application operation, web searching, and web shopping. Experimental results show that the SOP-based agent achieves state-of-the-art performance without incurring additional inference costs, boasting an overall action success rate of 66.92%. | 翻訳日:2024-01-15 09:07:05 公開日:2024-01-04 |
# チェーンワイド刺激ラマンショートカット-アディバティックパスによる超低温深層分子の高効率創製と検出 Highly Efficient Creation and Detection of Ultracold Deeply-Bound Molecules via Chainwise Stimulated Raman Shortcut-to-Adiabatic Passage ( http://arxiv.org/abs/2310.11071v6 ) ライセンス: Link先を確認 | Jiahui Zhang, Li Deng, Yueping Niu, Shangqing Gong | (参考訳) M型分子系における連鎖的に刺激されたラマン断熱通路(C-STIRAP)は、状態間のフランク・コンドン因子の弱さにより典型的なSTIRAPが機能しない場合、超低温のディープバウンド分子を生成する良い方法である。
しかし、スムーズな進化の過程における生成効率は概して低い。
この過程の間、中間状態の個体群は急速に崩壊し、強いレーザーパルスは多光子過程を誘導する。
本稿では,C-STIRAPの性能向上に,ショートカット・トゥ・アディバティック(STA)パスが適していることを示す。
現在、連鎖的に刺激されたラマン短絡-断熱通路(C-STIRSAP)に関する関連する議論は稀である。
ここでは、このトピックを断熱的除去の下で検討する。
4つの入射パルスの関係を考えると、m型系が最も単純な共振結合を持つ効果的な {\lambda} 型構造に一般化できることは非常に興味深い。
したがって、三状態系に対するstaの可能な全ての方法が借用できる。
分子システム上での処理を実証するために, 反断熱駆動法と "chosen path" 法を例に挙げた。
本手法は, 励起状態が強い場合, 実3状態系ではうまく動作しないが, 両方式のC-STIRSAPプロトコルは, M型系では高効率で極低温の深い分子を生成できる。
強度レーザーパルスを使わずに進化時間を短縮し、STAのロバスト性は良好に保存される。
最後に,超低温深層分子の検出について論じる。 Chainwise stimulated Raman adiabatic passage (C-STIRAP) in M-type molecular system is a good alternative in creating ultracold deeply-bound molecules when the typical STIRAP in {\Lambda}-type system does not work due to weak Frank-Condon factors between states. However, its creation efficiency under the smooth evolution is generally low. During the process, the population in the intermediate states may decay out quickly and the strong laser pulses may induce multi-photon processes. In this paper, we find that shortcut-to-adiabatic (STA) passage fits very well in improving the performance of the C-STIRAP. Currently, related discussions on the so-called chainwise stimulated Raman shortcut-to-adiabatic passage (C-STIRSAP) are rare. Here, we investigate this topic under the adiabatic elimination. Given a relation among the four incident pulses, it is quite interesting that the M-type system can be generalized into an effective {\Lambda}-type structure with the simplest resonant coupling. Consequently, all possible methods of STA for three-state system can be borrowed. We take the counter-diabatic driving and "chosen path" method as instances to demonstrate our treatment on the molecular system. Although the "chosen path" method does not work well in real three-state system if there is strong decay in the excited state, our C-STIRSAP protocol under both the two methods can create ultracold deeply-bound molecules with high efficiency in the M-type system. The evolution time is shortened without strong laser pulses and the robustness of STA is well preserved. Finally, the detection of ultracold deeply-bound molecules is discussed. | 翻訳日:2024-01-09 22:51:14 公開日:2024-01-04 |
# ESGレポートのための高度な非構造化データ処理:構造化変換の方法論と解析の強化 Advanced Unstructured Data Processing for ESG Reports: A Methodology for Structured Transformation and Enhanced Analysis ( http://arxiv.org/abs/2401.02992v1 ) ライセンス: Link先を確認 | Jiahui Peng, Jing Gao, Xin Tong, Jing Guo, Hang Yang, Jianchuan Qi, Ruiqiao Li, Nan Li, Ming Xu | (参考訳) コーポレートサステナビリティの進展分野において、非構造化環境・社会・ガバナンスレポート(esg)の分析は、その多様なフォーマットと複雑な内容のために複雑な課題である。
本研究では,ESGレポートを構造化解析可能な形式に変換することで,これらの課題に対処するために,"Unstructured Core Library"を活用する革新的な方法論を提案する。
提案手法は, 高精度なテキストクリーニング, 画像からのテキストの識別・抽出, 表の標準化などにより, 既存の研究を著しく進歩させる。
テキスト、画像、テーブルなど、さまざまなデータタイプを扱う能力を強調したこのメソッドは、業界全体で異なるページレイアウトとレポートスタイルのニュアンスを適切に管理する。
本研究は, 産業生態学と企業持続可能性評価の分野に大きく貢献し, コーポレートガバナンスとサステナビリティの分析において, 先進的なNLP技術と大規模言語モデルの適用の道を開いた。
私たちのコードはhttps://github.com/linancn/TianGong-AI-Unstructure.gitで公開されています。 In the evolving field of corporate sustainability, analyzing unstructured Environmental, Social, and Governance (ESG) reports is a complex challenge due to their varied formats and intricate content. This study introduces an innovative methodology utilizing the "Unstructured Core Library", specifically tailored to address these challenges by transforming ESG reports into structured, analyzable formats. Our approach significantly advances the existing research by offering high-precision text cleaning, adept identification and extraction of text from images, and standardization of tables within these reports. Emphasizing its capability to handle diverse data types, including text, images, and tables, the method adeptly manages the nuances of differing page layouts and report styles across industries. This research marks a substantial contribution to the fields of industrial ecology and corporate sustainability assessment, paving the way for the application of advanced NLP technologies and large language models in the analysis of corporate governance and sustainability. Our code is available at https://github.com/linancn/TianGong-AI-Unstructure.git. | 翻訳日:2024-01-09 21:14:26 公開日:2024-01-04 |
# ブリッジモーダル(bridging modality):知識蒸留とマスキング学習によるマルチモーダル感情認識から単モーダル音声のみの感情認識へ Bridging Modalities: Knowledge Distillation and Masked Training for Translating Multi-Modal Emotion Recognition to Uni-Modal, Speech-Only Emotion Recognition ( http://arxiv.org/abs/2401.03000v1 ) ライセンス: Link先を確認 | Muhammad Muaz and Nathan Paull and Jahnavi Malagavalli | (参考訳) 本稿では,マルチモーダル感情認識モデルの課題を,より実用的かつ資源効率の高いユニモーダルモデル,特に音声のみの感情認識に焦点をあてた手法を提案する。
音声信号から感情を認識することは、人間とコンピュータの相互作用、感情コンピューティング、メンタルヘルスアセスメントにおける重要な課題である。
しかし、既存の最先端のモデルは、しばしばマルチモーダル入力に依存しており、表情やジェスチャーといった複数のソースからの情報を組み込んでいる。
この問題に取り組むため,我々は知識蒸留とマスキングトレーニング技術を活用した新しい枠組みを提案する。 This paper presents an innovative approach to address the challenges of translating multi-modal emotion recognition models to a more practical and resource-efficient uni-modal counterpart, specifically focusing on speech-only emotion recognition. Recognizing emotions from speech signals is a critical task with applications in human-computer interaction, affective computing, and mental health assessment. However, existing state-of-the-art models often rely on multi-modal inputs, incorporating information from multiple sources such as facial expressions and gestures, which may not be readily available or feasible in real-world scenarios. To tackle this issue, we propose a novel framework that leverages knowledge distillation and masked training techniques. | 翻訳日:2024-01-09 20:58:46 公開日:2024-01-04 |
# Blar-SQL: より速く、より強く、より小さなNL2SQL Blar-SQL: Faster, Stronger, Smaller NL2SQL ( http://arxiv.org/abs/2401.02997v1 ) ライセンス: Link先を確認 | Jos\'e Manuel Dom\'inguez, Benjam\'in Err\'azuriz, Patricio Daher | (参考訳) 大規模言語モデル (LLM) は、自然言語からSQLタスク (NL2SQL) まで、かなり有名になった。
本研究では,SQLクエリによる人間の質問に答えるために,データベース理解とクエリ生成において,タスク分解がLLMに大きく貢献することを示す。
我々は、各モデルのコアコンピテンシーを活用し、最終的なsqlクエリの精度をさらに高めるために、2つのタスクの1つにフォーカスするように指定された2つの異なるモデルを組み合わせて、llama-2とcode llamaを微調整した。
我々は、より詳細な情報を限られたコンテキストに適合させるために、スキーマをチャンクに分割する新しいフレームワークを提案する。
その結果,GPT-4はGPT-4の135倍,90倍,100倍以上の速さであった。 Large Language Models (LLMs) have gained considerable notoriety in the field of natural language to SQL tasks (NL2SQL). In this study, we show how task decomposition can greatly benefit LLMs in database understanding and query generation in order to answer human questions with an SQL query. We fined-tuned open source models, specifically Llama-2 and Code Llama, by combining 2 different models each designated to focus on one of two tasks in order to leverage each model's core competency to further increase the accuracy of the final SQL query. We propose a new framework to divide the schema into chunks in order to fit more information into a limited context. Our results are comparable with those obtained by GPT-4 at the same time being 135 times smaller, 90 times faster and more than 100 times cheaper than GPT-4. | 翻訳日:2024-01-09 20:58:32 公開日:2024-01-04 |
# Cough Audio を用いたAI 対応バイアズフリー呼吸器疾患診断モデル : COVID-19 の1例 An AI-enabled Bias-Free Respiratory Disease Diagnosis Model using Cough Audio: A Case Study for COVID-19 ( http://arxiv.org/abs/2401.02996v1 ) ライセンス: Link先を確認 | Tabish Saeed, Aneeqa Ijaz, Ismail Sadiq, Haneya N. Qureshi, Ali Rizwan, and Ali Imran | (参考訳) 人工知能(AI)を用いた呼吸器疾患(RD)のカフベースの診断は注目されているが、既存の多くの研究は予測モデルに相反する変数を見落としている。
これらの変数は、コー記録(インプットデータ)とRD状態(アウトプット変数)の関係を歪め、バイアス付き関連と非現実的なモデル性能をもたらす。
このギャップに対処するために、トレーニングデータ配信における共同創設者の影響を効果的に軽減するエンドツーエンドソリューションであるBias Free Network (RBFNet)を提案する。
RBFNetは、この研究にCOVID19データセットを組み込むことで、その関連性を強調し、正確で偏りのないRD診断機能を保証する。
このアプローチは、変数の混在によって生じる課題をナビゲートすることで、AIベースのRD診断モデルの信頼性を高めることを目的としている。
rbfnetの特徴エンコーダモジュールには畳み込みニューラルネットワーク(cnn)とlong- short term memory(lstm)のハイブリッドが提案されている。
追加のバイアス予測器は、条件付き生成逆数ネットワーク(cGAN)を定式化するための分類スキームに組み込まれ、RD予測から共起変数の影響を推測するのに役立つ。
RBFNetのメリットは、大規模プロプライエタリなコークスデータセットを用いて、さまざまな不均衡なCOVID-19データセットをトレーニングした後、分類性能をState of The Art (SoTA) Deep Learning (DL)モデル (CNN LSTM) と比較することによって示される。
RBF-Netは84.1%、84.6%、80.5%の試験セットをそれぞれ性別、年齢、喫煙ステータスで達成することで、非常に偏りのあるトレーニングシナリオに対する堅牢性を証明した。
RBF-NetはCNN-LSTMモデルテストセットの精度をそれぞれ5.5%、7.7%、8.2%で上回っている。 Cough-based diagnosis for Respiratory Diseases (RDs) using Artificial Intelligence (AI) has attracted considerable attention, yet many existing studies overlook confounding variables in their predictive models. These variables can distort the relationship between cough recordings (input data) and RD status (output variable), leading to biased associations and unrealistic model performance. To address this gap, we propose the Bias Free Network (RBFNet), an end to end solution that effectively mitigates the impact of confounders in the training data distribution. RBFNet ensures accurate and unbiased RD diagnosis features, emphasizing its relevance by incorporating a COVID19 dataset in this study. This approach aims to enhance the reliability of AI based RD diagnosis models by navigating the challenges posed by confounding variables. A hybrid of a Convolutional Neural Networks (CNN) and Long-Short Term Memory (LSTM) networks is proposed for the feature encoder module of RBFNet. An additional bias predictor is incorporated in the classification scheme to formulate a conditional Generative Adversarial Network (cGAN) which helps in decorrelating the impact of confounding variables from RD prediction. The merit of RBFNet is demonstrated by comparing classification performance with State of The Art (SoTA) Deep Learning (DL) model (CNN LSTM) after training on different unbalanced COVID-19 data sets, created by using a large scale proprietary cough data set. RBF-Net proved its robustness against extremely biased training scenarios by achieving test set accuracies of 84.1%, 84.6%, and 80.5% for the following confounding variables gender, age, and smoking status, respectively. RBF-Net outperforms the CNN-LSTM model test set accuracies by 5.5%, 7.7%, and 8.2%, respectively | 翻訳日:2024-01-09 20:58:17 公開日:2024-01-04 |
# CANAMRF:マルチモーダル抑うつ検出のための注意ベースモデル CANAMRF: An Attention-Based Model for Multimodal Depression Detection ( http://arxiv.org/abs/2401.02995v1 ) ライセンス: Link先を確認 | Yuntao Wei, Yuzhe Zhang, Shuyang Zhang, and Hong Zhang | (参考訳) マルチモーダルうつ病検出は、マルチモーダルデータを用いた人間の精神状態の予測を目的とした重要な研究課題である。
従来の手法では, 異なるモダリティを等しく扱うことができ, それぞれのモダリティを, 相対的重要性を測ることなく, na\ な数学的操作によって融合させることができた。
以上の問題に対処するため,適応型マルチモーダルリカレントフュージョン(CANAMRF)を用いたマルチモーダルうつ病検出のためのクロスモーダルアテンションネットワークを提案する。
CANAMRFは、マルチモーダル特徴抽出器、アダプティブマルチモーダルリカレントフュージョンモジュール、ハイブリッドアテンションモジュールによって構成されている。
CANAMRFは2つのベンチマークデータセットの実験を通じて最先端の性能を示し、提案手法の有効性を実証する。 Multimodal depression detection is an important research topic that aims to predict human mental states using multimodal data. Previous methods treat different modalities equally and fuse each modality by na\"ive mathematical operations without measuring the relative importance between them, which cannot obtain well-performed multimodal representations for downstream depression tasks. In order to tackle the aforementioned concern, we present a Cross-modal Attention Network with Adaptive Multi-modal Recurrent Fusion (CANAMRF) for multimodal depression detection. CANAMRF is constructed by a multimodal feature extractor, an Adaptive Multimodal Recurrent Fusion module, and a Hybrid Attention Module. Through experimentation on two benchmark datasets, CANAMRF demonstrates state-of-the-art performance, underscoring the effectiveness of our proposed approach. | 翻訳日:2024-01-09 20:57:39 公開日:2024-01-04 |
# ブレンディングは必要なすべて:1兆ドルのパラメーターllmよりも安く、より良い代替手段 Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM ( http://arxiv.org/abs/2401.02994v1 ) ライセンス: Link先を確認 | Xiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp | (参考訳) 会話型AI研究では、ChatGPTのようなモデルが示すように、多数のパラメータを持つモデルを開発する傾向が顕著です。
これらの拡張モデルは、より優れたチャット応答を生成する傾向にあるが、大きな計算リソースとメモリを必要とする。
より小さなモデルの組み合わせは、特異な大きなモデルと比較して、同等または拡張されたパフォーマンスを協調的に達成できるだろうか?
複数のチャットAIを統合する上で,単純かつ効果的な手法である「ブレンディング」というアプローチを導入する。
我々の実証的な証拠は、特定の小さなモデルが相乗的にブレンドされると、より大きいモデルの能力よりも優れ、または匹敵する可能性があることを示唆している。
例えば、中程度のサイズの3つのモデル(6B/13Bパラメータ)を統合することで、ChatGPT (175B+パラメータ)のようなかなり大きなモデルのパフォーマンス指標に匹敵したり、超えたりすることができる。
この仮説は、30日間にわたってChaiリサーチプラットフォーム上で大きなユーザベースを持つA/Bテスト手法を使って厳格にテストされている。
この結果は、計算要求の急増を伴わずに、チャットAIの有効性を高めるための実行可能なアプローチとして、"ブレンディング"戦略の可能性を強調している。 In conversational AI research, there's a noticeable trend towards developing models with a larger number of parameters, exemplified by models like ChatGPT. While these expansive models tend to generate increasingly better chat responses, they demand significant computational resources and memory. This study explores a pertinent question: Can a combination of smaller models collaboratively achieve comparable or enhanced performance relative to a singular large model? We introduce an approach termed "blending", a straightforward yet effective method of integrating multiple chat AIs. Our empirical evidence suggests that when specific smaller models are synergistically blended, they can potentially outperform or match the capabilities of much larger counterparts. For instance, integrating just three models of moderate size (6B/13B paramaeters) can rival or even surpass the performance metrics of a substantially larger model like ChatGPT (175B+ paramaters). This hypothesis is rigorously tested using A/B testing methodologies with a large user base on the Chai research platform over a span of thirty days. The findings underscore the potential of the "blending" strategy as a viable approach for enhancing chat AI efficacy without a corresponding surge in computational demands. | 翻訳日:2024-01-09 20:57:21 公開日:2024-01-04 |
# 計算効率の高い検索表現融合による自然言語理解の改善 Improving Natural Language Understanding with Computation-Efficient Retrieval Representation Fusion ( http://arxiv.org/abs/2401.02993v1 ) ライセンス: Link先を確認 | Shangyu Wu, Ying Xiong, Yufei Cui, Xue Liu, Buzhou Tang, Tei-Wei Kuo, Chun Jason Xue | (参考訳) 外部データベースからの知識を言語モデルに組み込むことを目的とした検索ベースの拡張は,質問応答やテキスト生成など,さまざまな知識集約型(ki)タスクで大きな成功を収めている。
しかし,テキスト分類などの非知識集約タスクにおける検索の統合は依然として困難である。
既存の作品は、プロンプトベースの入力を形成するためのコンテキストとして、検索を入力に結合することに焦点を当てている。
残念ながら、このような方法では言語モデルに長いテキストを扱う能力が必要です。
さらに、そのような連結データを推測すると、かなりの量の計算資源が消費される。
これらの課題を解決するために,ニューラルアーキテクチャ探索を用いた計算効率の高い \textbf{Re}trieval representation \textbf{Fusion} を提案する。
主なアイデアは、検索表現を言語モデルに直接融合させることである。
具体的には,まず類似文の表現を検索するオンライン検索モジュールを提案する。
そこで我々は,検索表現を隠蔽状態に融合させるために,リランカベーススキームと順序マスクベーススキームの2つの効果的なランキングスキームを含む検索融合モジュールを提案する。
さらに,様々な層にわたる最適な融合構造を求めるために,ニューラルネットワーク探索(nas)を用いる。
最後に, 包括的実験を行い, 様々なnkiタスクにおいて, 優れたロバストな性能が得られることを実証した。 Retrieval-based augmentations that aim to incorporate knowledge from an external database into language models have achieved great success in various knowledge-intensive (KI) tasks, such as question-answering and text generation. However, integrating retrievals in non-knowledge-intensive (NKI) tasks, such as text classification, is still challenging. Existing works focus on concatenating retrievals to inputs as context to form the prompt-based inputs. Unfortunately, such methods require language models to have the capability to handle long texts. Besides, inferring such concatenated data would also consume a significant amount of computational resources. To solve these challenges, we propose \textbf{ReFusion} in this paper, a computation-efficient \textbf{Re}trieval representation \textbf{Fusion} with neural architecture search. The main idea is to directly fuse the retrieval representations into the language models. Specifically, we first propose an online retrieval module that retrieves representations of similar sentences. Then, we present a retrieval fusion module including two effective ranking schemes, i.e., reranker-based scheme and ordered-mask-based scheme, to fuse the retrieval representations with hidden states. Furthermore, we use Neural Architecture Search (NAS) to seek the optimal fusion structure across different layers. Finally, we conduct comprehensive experiments, and the results demonstrate our ReFusion can achieve superior and robust performance on various NKI tasks. | 翻訳日:2024-01-09 20:57:02 公開日:2024-01-04 |
# 言語支援型ディープラーニングによる自閉症行動認識 Language-Assisted Deep Learning for Autistic Behaviors Recognition ( http://arxiv.org/abs/2211.09310v3 ) ライセンス: Link先を確認 | Andong Deng and Taojiannan Yang and Chen Chen and Qian Chen and Leslie Neely and Sakiko Oyama | (参考訳) 自閉症スペクトラム障害(ASD)児の行動の正確な認識は,自閉症の診断や早期介入において極めて重要である。
しかし,自閉症児の親による治療中の観察と記録は正確で客観的なものではない。
このような場合、コンピュータビジョンと機械学習(特にディープラーニング)技術に基づく自動認識システムは、この問題を大幅に軽減することができる。
既存のヒューマンアクション認識モデルは、日々の活動やスポーツ活動など、挑戦的なアクティビティデータセットで説得力のあるパフォーマンスを実現することができる。
しかし,ASD児における問題行動はこれらの一般的な行動とは大きく異なり,コンピュータビジョンによる問題行動の認識は少ない。
本稿では,2つの自閉症行動データセット(ssbdおよびesbd)上での行動認識の強力なベースライン,すなわちビデオスウィントランスを評価し,従来の手法よりも高い精度を達成し,大きなマージンで先行手法に勝ることを示し,視覚に基づく問題行動認識の実現可能性を示す。
さらに,行動認識性能を高めるために,言語支援トレーニングを提案する。
具体的には,問題行動の各タイプに「フリーで利用可能な」言語記述を組み込んで,マルチモーダル深層学習フレームワークを開発した。
実験結果から,言語指導を付加することで,映像情報のみを使用する場合に比べて,自閉症問題行動認識タスクの性能が向上することが示唆された(ESBDは3.49%,SSBDは1.46%)。 Correctly recognizing the behaviors of children with Autism Spectrum Disorder (ASD) is of vital importance for the diagnosis of Autism and timely early intervention. However, the observation and recording during the treatment from the parents of autistic children may not be accurate and objective. In such cases, automatic recognition systems based on computer vision and machine learning (in particular deep learning) technology can alleviate this issue to a large extent. Existing human action recognition models can now achieve persuasive performance on challenging activity datasets, e.g. daily activity, and sports activity. However, problem behaviors in children with ASD are very different from these general activities, and recognizing these problem behaviors via computer vision is less studied. In this paper, we first evaluate a strong baseline for action recognition, i.e. Video Swin Transformer, on two autism behaviors datasets (SSBD and ESBD) and show that it can achieve high accuracy and outperform the previous methods by a large margin, demonstrating the feasibility of vision-based problem behaviors recognition. Moreover, we propose language-assisted training to further enhance the action recognition performance. Specifically, we develop a two-branch multimodal deep learning framework by incorporating the "freely available" language description for each type of problem behavior. Experimental results demonstrate that incorporating additional language supervision can bring an obvious performance boost for the autism problem behaviors recognition task as compared to using the video information only (i.e. 3.49% improvement on ESBD and 1.46% on SSBD). | 翻訳日:2024-01-08 19:04:07 公開日:2024-01-04 |
# AIの新しいフロンティア:オンデバイスAIトレーニングとパーソナライゼーション A New Frontier of AI: On-Device AI Training and Personalization ( http://arxiv.org/abs/2206.04688v3 ) ライセンス: Link先を確認 | Ji Joong Moon, Hyun Suk Lee, Jiho Chu, Donghak Park, Seungbaek Hong, Hyungjun Seo, Donghyeon Jeong, Sungsik Kong, MyungJoo Ham | (参考訳) 最新の消費者電子デバイスは、クラウドサーバーではなくデバイス上でディープラーニングベースのインテリジェンスサービスを実行し、デバイス上の個人データを保持し、ネットワークとクラウドコストを削減する。
デバイスからデータを公開することなく、ニューラルネットワークをユーザデータで更新することで、インテリジェンスサービスをパーソナライズする機会として、このような傾向が見られます。
しかし、デバイスの限られた資源は重大な困難を引き起こす。
ニューラルネットワークのきめ細かい実行順序解析に基づいて,高メモリ効率のニューラルネットワークトレーニング技術とプロアクティブスワップを提供する軽量オンデバイストレーニングフレームワークNNTrainerを提案する。
さらに、その最適化は精度を犠牲にせず、トレーニングアルゴリズムに透過的であるため、従来のアルゴリズム研究はNTNrainer上に実装することができる。
評価の結果,NNTrainerはメモリ消費を1/20まで削減し,デバイス上でのインテリジェンスサービスを効果的にパーソナライズできることがわかった。
NNTrainerはクロスプラットフォームで実用的なオープンソースソフトウェアで、何百万ものモバイルデバイスにデプロイされている。 Modern consumer electronic devices have started executing deep learning-based intelligence services on devices, not cloud servers, to keep personal data on devices and to reduce network and cloud costs. We find such a trend as the opportunity to personalize intelligence services by updating neural networks with user data without exposing the data out of devices: on-device training. However, the limited resources of devices incurs significant difficulties. We propose a light-weight on-device training framework, NNTrainer, which provides highly memory-efficient neural network training techniques and proactive swapping based on fine-grained execution order analysis for neural networks. Moreover, its optimizations do not sacrifice accuracy and are transparent to training algorithms; thus, prior algorithmic studies may be implemented on top of NNTrainer. The evaluations show that NNTrainer can reduce memory consumption down to 1/20 (saving 95%!) and effectively personalizes intelligence services on devices. NNTrainer is cross-platform and practical open-source software, which is being deployed to millions of mobile devices. | 翻訳日:2024-01-08 19:00:57 公開日:2024-01-04 |
# 医用画像分割のためのデノージングによる監督 Supervision by Denoising for Medical Image Segmentation ( http://arxiv.org/abs/2202.02952v3 ) ライセンス: Link先を確認 | Sean I. Young, Adrian V. Dalca, Enzo Ferrante, Polina Golland, Christopher A. Metzler, Bruce Fischl, and Juan Eugenio Iglesias | (参考訳) u-netのような学習ベースの画像再構成モデルは、適切な一般化が保証される場合、大量のラベル付き画像を必要とする。
しかし、一部の撮像領域では、画素レベルやボクセルレベルのラベル精度を持つラベル付きデータを取得するコストが低くなる。
この問題は、単一の基底的真理ラベルが存在しない医療画像のような領域でさらに悪化し、その結果、ラベルに大量の繰り返し変動が生じる。
したがって、ラベル付きおよびラベルなしの例(半教師付き学習と呼ばれる)から学習することで、より一般化するための訓練レコンストラクションネットワークは、実用的かつ理論的に興味深い問題である。
しかし、画像再構成のための従来の半教師付き学習手法は、特定の画像問題に特有の識別可能な正規化器を手作りする必要があり、非常に時間がかかる。
本研究は,自己の復号化出力をソフトラベルとして,再構成モデルの監督を可能にするフレームワークである「復号化スーパービジョン(SUD)」を提案する。
SUDは、時空間デノナイズフレームワークの下で確率平均化と空間デノナイズ技術を統一し、セミスーパービジョンのための最適化フレームワークにおけるデノナイズとモデルウェイト更新ステップを交互に行う。
例えば、生体医用画像(解剖学的脳再構築(3D)と皮質パーセレーション(2D))による2つの問題にSUDを適用し、教師付きおよび確率的平均化ベースラインよりも画像再構成の大幅な改善を示す。 Learning-based image reconstruction models, such as those based on the U-Net, require a large set of labeled images if good generalization is to be guaranteed. In some imaging domains, however, labeled data with pixel- or voxel-level label accuracy are scarce due to the cost of acquiring them. This problem is exacerbated further in domains like medical imaging, where there is no single ground truth label, resulting in large amounts of repeat variability in the labels. Therefore, training reconstruction networks to generalize better by learning from both labeled and unlabeled examples (called semi-supervised learning) is problem of practical and theoretical interest. However, traditional semi-supervised learning methods for image reconstruction often necessitate handcrafting a differentiable regularizer specific to some given imaging problem, which can be extremely time-consuming. In this work, we propose "supervision by denoising" (SUD), a framework that enables us to supervise reconstruction models using their own denoised output as soft labels. SUD unifies stochastic averaging and spatial denoising techniques under a spatio-temporal denoising framework and alternates denoising and model weight update steps in an optimization framework for semi-supervision. As example applications, we apply SUD to two problems arising from biomedical imaging -- anatomical brain reconstruction (3D) and cortical parcellation (2D) -- to demonstrate a significant improvement in the image reconstructions over supervised-only and stochastic averaging baselines. | 翻訳日:2024-01-08 18:59:34 公開日:2024-01-04 |
# 強化学習による拡散モデルの訓練 Training Diffusion Models with Reinforcement Learning ( http://arxiv.org/abs/2305.13301v4 ) ライセンス: Link先を確認 | Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, and Sergey Levine | (参考訳) 拡散モデルは、log-likelihoodの目的に近似して訓練されたフレキシブルな生成モデルのクラスである。
しかし、拡散モデルのほとんどのユースケースは、可能性ではなく、人間の知覚画像の品質や薬物の有効性といった下流の目的に関係している。
本稿では,拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,マルチステップ意思決定問題としてのデノイジングの手法によって,デノイジン拡散政策最適化 (ddpo) と呼ばれる政策勾配アルゴリズムのクラスが実現可能であり,代替報酬重み付け手法よりも効果的であることを示す。
DDPOは、画像圧縮性などのプロンプトによる表現が難しい対象や、美的品質などの人間のフィードバックから派生した対象に、テキストから画像への拡散モデルを適用することができる。
最後に、ddpoは視覚言語モデルからのフィードバックにより、追加のデータ収集や人間のアノテーションを必要とせずに、プロンプト画像アライメントを改善することができることを示す。
プロジェクトのWebサイトはhttp://rl-diffusion.github.io にある。 Diffusion models are a class of flexible generative models trained with an approximation to the log-likelihood objective. However, most use cases of diffusion models are not concerned with likelihoods, but instead with downstream objectives such as human-perceived image quality or drug effectiveness. In this paper, we investigate reinforcement learning methods for directly optimizing diffusion models for such objectives. We describe how posing denoising as a multi-step decision-making problem enables a class of policy gradient algorithms, which we refer to as denoising diffusion policy optimization (DDPO), that are more effective than alternative reward-weighted likelihood approaches. Empirically, DDPO is able to adapt text-to-image diffusion models to objectives that are difficult to express via prompting, such as image compressibility, and those derived from human feedback, such as aesthetic quality. Finally, we show that DDPO can improve prompt-image alignment using feedback from a vision-language model without the need for additional data collection or human annotation. The project's website can be found at http://rl-diffusion.github.io . | 翻訳日:2024-01-08 18:51:00 公開日:2024-01-04 |
# 編集可能なステップバイステップ記述によるインタラクティブテキスト間SQL生成 Interactive Text-to-SQL Generation via Editable Step-by-Step Explanations ( http://arxiv.org/abs/2305.07372v5 ) ライセンス: Link先を確認 | Yuan Tian, Zheng Zhang, Zheng Ning, Toby Jia-Jun Li, Jonathan K. Kummerfeld, Tianyi Zhang | (参考訳) 関係データベースはビジネス、科学などにおいて重要な役割を果たす。
しかし、多くのユーザはSQLのようなデータベース言語に慣れていないため、リレーショナルデータベースの分析能力を完全に解き放つことはできない。
自然言語からsqlを自動的に生成するために多くのテクニックが提案されているが、それらは2つの問題に苦しんでいる: (1) 複雑なクエリでは、まだ多くの間違いを犯す。
これらの問題に対処するために,ユーザがクエリのステップバイステップ説明を直接編集してエラーを修正する,新たなインタラクション機構を導入する。
複数のデータセットに関する実験と24人の参加者によるユーザスタディは、我々のアプローチが複数のSOTAアプローチよりも優れたパフォーマンスを実現することを実証している。
コードとデータセットはhttps://github.com/magic-YuanTian/STEPS.comで公開されています。 Relational databases play an important role in business, science, and more. However, many users cannot fully unleash the analytical power of relational databases, because they are not familiar with database languages such as SQL. Many techniques have been proposed to automatically generate SQL from natural language, but they suffer from two issues: (1) they still make many mistakes, particularly for complex queries, and (2) they do not provide a flexible way for non-expert users to validate and refine incorrect queries. To address these issues, we introduce a new interaction mechanism that allows users to directly edit a step-by-step explanation of a query to fix errors. Our experiments on multiple datasets, as well as a user study with 24 participants, demonstrate that our approach can achieve better performance than multiple SOTA approaches. Our code and datasets are available at https://github.com/magic-YuanTian/STEPS. | 翻訳日:2024-01-08 18:50:15 公開日:2024-01-04 |
# 連続波状態における死亡時間と余パルスによる光計測 Photocounting measurements with dead time and afterpulses in the continuous-wave regime ( http://arxiv.org/abs/2303.14246v2 ) ライセンス: Link先を確認 | A. A. Semenov, J. Samelin, Ch. Boldt, M. Sch\"unemann, C. Reiher, W. Vogel, and B. Hage | (参考訳) 連続波検出の広く用いられている実験手法は、所定の測定時間窓内のクリック型検出器からの光電流のパルスを数えることを想定している。
このような手順で、検出器のデッドタイム中に各光電流パルス後に検出された光子を見逃す。
さらに、各パルスは、実際の光子とは関連のないいわゆる後パルスを初期化する。
対応する量子光計数式を導出し,その妥当性を実験的に検証する。
光電流パルスの統計は、以前の測定時間ウィンドウのメモリ効果によって説明される量子状態に対して非線形であるように見える。
一般に非線形で光子とパルスの統計を接続する表現は、異なる測定シナリオのために導出される。
また,不平衡ホモダイン検出を用いた量子状態再構成への応用も検討した。 The widely used experimental technique of continuous-wave detection assumes counting pulses of photocurrent from a click-type detector inside a given measurement time window. With such a procedure we miss out the photons detected after each photocurrent pulse during the detector dead time. Additionally, each pulse may initialize so-called afterpulse, which is not associated with the real photons. We derive the corresponding quantum photocounting formula and experimentally verify its validity. Statistics of photocurrent pulses appears to be nonlinear with respect to quantum state, which is explained by the memory effect of the previous measurement time windows. Expressions -- in general, nonlinear -- connecting statistics of photons and pulses are derived for different measurement scenarios. We also consider an application of the obtained results to quantum state reconstruction with unbalanced homodyne detection. | 翻訳日:2024-01-08 18:47:14 公開日:2024-01-04 |
# 連帯強化学習における局所環境中毒攻撃 Local Environment Poisoning Attacks on Federated Reinforcement Learning ( http://arxiv.org/abs/2303.02725v4 ) ライセンス: Link先を確認 | Evelyn Ma, Praneet Rathi, and S. Rasoul Etesami | (参考訳) フェデレーション学習(fl)は、伝統的な強化学習(rl)タスクを解決するための一般的なツールとなっている。
マルチエージェント構造は従来のRLにおけるデータハングリーの主な懸念に対処し、フェデレーション機構は個々のエージェントのデータプライバシを保護する。
しかし、フェデレーション機構は、訓練されたポリシーを誤解させる悪質なエージェントによる中毒にもシステムを公開する。
flの利点にもかかわらず、federated reinforcement learning (frl)の脆弱性はよく研究されていない。
本研究では,frl中毒を最適化問題として特徴付ける汎用フレームワークを提案し,ポリシーベースのfrlに適用可能な中毒プロトコルを設計する。
我々のフレームワークは、個人と公共の批評家のペアを訓練することで、ローカルなRLアルゴリズムとしてアクター批判を用いてFRLに拡張することもできる。
我々は,本手法がグローバルな目的を厳密に損なうことを確実に示している。
主要なRLアルゴリズムを対象とし,様々なRL OpenAI Gym環境を対象とし,幅広い難易度をカバーした広範囲な実験を行うことにより,毒性の有効性を検証する。
これらの実験では, クリーニング法とベースライン中毒法の比較を行った。
提案手法は, FRL系を汚染し, 各種環境における性能を低下させ, ベースライン法よりも効果的に動作することを示す。
我々の研究は、RLトレーニングにおけるFLの脆弱性に関する新たな洞察を提供し、堅牢なFRLアルゴリズムの設計に新たな課題をもたらす。 Federated learning (FL) has become a popular tool for solving traditional Reinforcement Learning (RL) tasks. The multi-agent structure addresses the major concern of data-hungry in traditional RL, while the federated mechanism protects the data privacy of individual agents. However, the federated mechanism also exposes the system to poisoning by malicious agents that can mislead the trained policy. Despite the advantage brought by FL, the vulnerability of Federated Reinforcement Learning (FRL) has not been well-studied before. In this work, we propose a general framework to characterize FRL poisoning as an optimization problem and design a poisoning protocol that can be applied to policy-based FRL. Our framework can also be extended to FRL with actor-critic as a local RL algorithm by training a pair of private and public critics. We provably show that our method can strictly hurt the global objective. We verify our poisoning effectiveness by conducting extensive experiments targeting mainstream RL algorithms and over various RL OpenAI Gym environments covering a wide range of difficulty levels. Within these experiments, we compare clean and baseline poisoning methods against our proposed framework. The results show that the proposed framework is successful in poisoning FRL systems and reducing performance across various environments and does so more effectively than baseline methods. Our work provides new insights into the vulnerability of FL in RL training and poses new challenges for designing robust FRL algorithms | 翻訳日:2024-01-08 18:46:23 公開日:2024-01-04 |
# 病理学のスライドインデクシングと検索:まだ存在するか? Histopathology Slide Indexing and Search: Are We There Yet? ( http://arxiv.org/abs/2306.17019v2 ) ライセンス: Link先を確認 | Helen H. Shang, Mohammad Sadegh Nasr, Jai Prakash Veerla, Parisa Boodaghi Malidarreh, MD Jillur Rahman Saurav, Amir Hajighasemi, Manfred Huber, Chace Moleta, Jitin Makker, Jacob M. Luber | (参考訳) デジタル病理学スライドの検索と検索は,まだ解決されていない重要な課題である。
本症例では, 固形腫瘍3例に対してyottixel, sish, retcclの3つの最先端病理組織学スライド検索エンジンの臨床適応について検討した。
我々は,各モデルの性能を定性的に評価し,病理医に有用で信頼性の高い検索結果を提供する。
その結果,3つの画像検索エンジンはいずれも一貫して信頼性の高い結果が得られず,診断精度を制限した粒度と微妙な悪性特徴の把握が困難であることが判明した。
また, 臨床応用を成功させるために, 正確で信頼性の高い病理組織像検索エンジンの開発を進めるための, 最小限の要件も提案する。 The search and retrieval of digital histopathology slides is an important task that has yet to be solved. In this case study, we investigate the clinical readiness of three state-of-the-art histopathology slide search engines, Yottixel, SISH, and RetCCL, on three patients with solid tumors. We provide a qualitative assessment of each model's performance in providing retrieval results that are reliable and useful to pathologists. We found that all three image search engines fail to produce consistently reliable results and have difficulties in capturing granular and subtle features of malignancy, limiting their diagnostic accuracy. Based on our findings, we also propose a minimal set of requirements to further advance the development of accurate and reliable histopathology image search engines for successful clinical adoption. | 翻訳日:2024-01-08 18:31:56 公開日:2024-01-04 |
# 楕円作用素の学習均質化 Learning Homogenization for Elliptic Operators ( http://arxiv.org/abs/2306.12006v3 ) ライセンス: Link先を確認 | Kaushik Bhattacharya, Nikola Kovachki, Aakila Rajan, Andrew M. Stuart, Margaret Trautner | (参考訳) マルチスケール偏微分方程式(PDE)は様々な応用に現れ、効率的に解くためにいくつかのスキームが開発されている。
ホモジェナイゼーション理論は、小さな依存を排除し、計算可能でマクロな反応を正確に予測しながら単純化された方程式をもたらす強力な方法論である。
連続体力学の分野では、マイクロスケール物理学を包含する構成法則を導出し、巨視的興味量に対する法則を定式化するためにホモジェナイゼーションが不可欠である。
しかし、一般に解析形式を持たず、マイクロスケールに存在しない現象を示すため、均質化された構成法則を得るのは難しいことが多い。
これに対し, 構成法則に関するデータ駆動学習が課題として提案されている。
しかし、この問題に対するデータ駆動学習アプローチにおける大きな課題は、基礎となる素材における不連続とコーナーインターフェースの影響である。
これらの係数の不連続性は、基礎となる方程式の解の滑らかさに影響する。
連続力学応用における不連続材料の普及を考えると、この文脈における学習の課題に対処し、特に、この科学的領域におけるデータ駆動手法の信頼性を確立する基盤理論を開発することが重要である。
本論文は, 楕円型作用素に対する同質化構成法則の, 複素数の存在下での学習可能性について検討することによって, 未解明の課題に対処する。
近似理論を示し、楕円型PDEの均質化に起因したセル問題によって定義される解演算子を学習する文脈で理論を検証する数値実験を行った。 Multiscale partial differential equations (PDEs) arise in various applications, and several schemes have been developed to solve them efficiently. Homogenization theory is a powerful methodology that eliminates the small-scale dependence, resulting in simplified equations that are computationally tractable while accurately predicting the macroscopic response. In the field of continuum mechanics, homogenization is crucial for deriving constitutive laws that incorporate microscale physics in order to formulate balance laws for the macroscopic quantities of interest. However, obtaining homogenized constitutive laws is often challenging as they do not in general have an analytic form and can exhibit phenomena not present on the microscale. In response, data-driven learning of the constitutive law has been proposed as appropriate for this task. However, a major challenge in data-driven learning approaches for this problem has remained unexplored: the impact of discontinuities and corner interfaces in the underlying material. These discontinuities in the coefficients affect the smoothness of the solutions of the underlying equations. Given the prevalence of discontinuous materials in continuum mechanics applications, it is important to address the challenge of learning in this context; in particular, to develop underpinning theory that establishes the reliability of data-driven methods in this scientific domain. The paper addresses this unexplored challenge by investigating the learnability of homogenized constitutive laws for elliptic operators in the presence of such complexities. Approximation theory is presented, and numerical experiments are performed which validate the theory in the context of learning the solution operator defined by the cell problem arising in homogenization for elliptic PDEs. | 翻訳日:2024-01-08 18:31:42 公開日:2024-01-04 |
# 視覚言語モデルは自然映像からドライバーの注意をそらす行動を識別する Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos ( http://arxiv.org/abs/2306.10159v3 ) ライセンス: Link先を確認 | Md Zahid Hasan, Jiajing Chen, Jiyang Wang, Mohammed Shaiqur Rahman, Ameya Joshi, Senem Velipasalar, Chinmay Hegde, Anuj Sharma, Soumik Sarkar | (参考訳) 現実の運転シナリオに注意をそらす活動を認識することは、道路上のドライバーと歩行者の両方の安全と信頼性を確保するために重要である。
従来のコンピュータビジョン技術は通常、データ集約的であり、様々な注意をそらす運転行動を検出し分類するために大量の注釈付きトレーニングデータを必要とするため、その効率とスケーラビリティは制限される。
我々は,限定的あるいは無注釈のトレーニングデータにアクセスして,堅牢なパフォーマンスを示す汎用フレームワークの開発を目指している。
近年,視覚言語モデルでは,運転行動認識などのタスク固有の学習に適応可能な大規模視覚テキスト事前学習が提供されている。
CLIPのような視覚言語事前学習モデルは、自然言語による視覚表現の学習において大きな可能性を示している。
本稿では,自然主義的な運転映像と映像からドライバの注意をそらすクリップベースの運転行動認識手法を提案する。
CLIPのビジョン埋め込みはゼロショット転送とタスクベースの微調整を提供する。
その結果,このフレームワークは,ゼロショット転送における最先端のパフォーマンスと,2つの公開データセット上でのドライバの状態を予測するビデオベースのクリップを提供する。
そこで本研究では,映像の視覚的表現の上に開発されたフレームベースおよびビデオベースのフレームワークを提案する。 Recognizing the activities causing distraction in real-world driving scenarios is critical for ensuring the safety and reliability of both drivers and pedestrians on the roadways. Conventional computer vision techniques are typically data-intensive and require a large volume of annotated training data to detect and classify various distracted driving behaviors, thereby limiting their efficiency and scalability. We aim to develop a generalized framework that showcases robust performance with access to limited or no annotated training data. Recently, vision-language models have offered large-scale visual-textual pretraining that can be adapted to task-specific learning like distracted driving activity recognition. Vision-language pretraining models, such as CLIP, have shown significant promise in learning natural language-guided visual representations. This paper proposes a CLIP-based driver activity recognition approach that identifies driver distraction from naturalistic driving images and videos. CLIP's vision embedding offers zero-shot transfer and task-based finetuning, which can classify distracted activities from driving video data. Our results show that this framework offers state-of-the-art performance on zero-shot transfer and video-based CLIP for predicting the driver's state on two public datasets. We propose both frame-based and video-based frameworks developed on top of the CLIP's visual representation for distracted driving detection and classification tasks and report the results. | 翻訳日:2024-01-08 18:30:44 公開日:2024-01-04 |
# bhl-bclクロスオーバー:非線形から線形量子増幅へ The BHL-BCL crossover: from nonlinear to linear quantum amplification ( http://arxiv.org/abs/2306.05458v3 ) ライセンス: Link先を確認 | Juan Ram\'on Mu\~noz de Nova and Fernando Sols | (参考訳) ブラックホールレーザー(bhl)効果は、共鳴キャビティとして働く一対の水平線の間のホーキング放射の自己増幅である。
流動性原子凝縮体では、BHL効果は、ボゴリューボフ・チェレンコフ・ランダウ(BCL)放射が静摂動によって共鳴的に励起される有限超音速領域で生じる。
したがって、bhlを生成する実験は、強いbcl背景の存在を不可避に扱おうとしており、bhl効果の観測はアナログ重力場において依然として大きな課題となっている。
ここでは,両現象をあいまいに分離できる理想モデルを用いて,BHL-BCLクロスオーバーの理論的研究を行う。
不安定な振り子にアナロジーを描くことで、量子揺らぎと古典的刺激の相互作用(量子bhl、古典bhl、bcl)に応じて3つの主要なレジームを区別する。
非常に一般的なスケーリングの議論に基づいて、飽和までの量子ゆらぎの非線形増幅は、量子BHLの最も堅牢な特性として同定される。
古典的なbhlは代わりに線形量子増幅器として振る舞うが、出力は入力に比例する。
BCLは線形量子増幅器としても機能するが、その利得は古典的なBHLに比べて指数関数的に小さい。
ブラックホール発振の相補的なシグネチャは、bcl振幅の増大に対する増幅の低下や、背景パラメータに対する成長速度の非単調な依存である。
また、ホーキング刺激ホワイトホール放射や量子BCL刺激ホーキング放射などの興味深い類似現象も同定した。
この研究の結果は、それぞれの現象を区別し、BHL効果をはっきりと観察するための実験的なスキームを設計するのに役立つアナログ重力に対する興味だけでなく、量子技術におけるアナログ概念の応用を見出す可能性も開けている。 The black-hole laser (BHL) effect is the self-amplification of Hawking radiation between a pair of horizons which act as a resonant cavity. In a flowing atomic condensate, the BHL effect arises in a finite supersonic region, where Bogoliubov-Cherenkov-Landau (BCL) radiation is resonantly excited by any static perturbation. Thus, experimental attempts to produce a BHL unavoidably deal with the presence of a strong BCL background, making the observation of the BHL effect still a major challenge in the analogue gravity field. Here, we perform a theoretical study of the BHL-BCL crossover using an idealized model where both phenomena can be unambiguously isolated. By drawing an analogy with an unstable pendulum, we distinguish three main regimes according to the interplay between quantum fluctuations and classical stimulation: quantum BHL, classical BHL, and BCL. Based on quite general scaling arguments, the nonlinear amplification of quantum fluctuations up to saturation is identified as the most robust trait of a quantum BHL. A classical BHL behaves instead as a linear quantum amplifier, where the output is proportional to the input. The BCL regime also acts as a linear quantum amplifier, but its gain is exponentially smaller as compared to a classical BHL. Complementary signatures of black-hole lasing are a decrease in the amplification for increasing BCL amplitude or a nonmonotonic dependence of the growth rate with respect to the background parameters. We also identify interesting analogue phenomena such as Hawking-stimulated white-hole radiation or quantum BCL-stimulated Hawking radiation. The results of this work not only are of interest for analogue gravity, where they help to distinguish each phenomenon and to design experimental schemes for a clear observation of the BHL effect, but they also open the prospect of finding applications of analogue concepts in quantum technologies. | 翻訳日:2024-01-08 18:29:13 公開日:2024-01-04 |
# R-MAE:地域がマスクオートエンコーダと出会う R-MAE: Regions Meet Masked Autoencoders ( http://arxiv.org/abs/2306.05411v2 ) ライセンス: Link先を確認 | Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen | (参考訳) 本研究では,自己教師付き画像表現学習における単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
具体的には,特に高品質な領域において,画像と領域間の1対1のマッピングを効率的に処理できるアーキテクチャを設計する。
MAEと統合すると、R-MAE(R-MAE)は様々な事前学習データセットと下流検出とセグメンテーションのベンチマークに一貫した改善を示し、計算オーバーヘッドは無視できる。
定量的評価以外にも,マスキング領域の自動エンコーディングによる事前学習モデルによる対話的セグメンテーションの可能性も示唆した。
コードはhttps://github.com/facebookresearch/r-maeで提供される。 In this work, we explore regions as a potential visual analogue of words for self-supervised image representation learning. Inspired by Masked Autoencoding (MAE), a generative pre-training baseline, we propose masked region autoencoding to learn from groups of pixels or regions. Specifically, we design an architecture which efficiently addresses the one-to-many mapping between images and regions, while being highly effective especially with high-quality regions. When integrated with MAE, our approach (R-MAE) demonstrates consistent improvements across various pre-training datasets and downstream detection and segmentation benchmarks, with negligible computational overheads. Beyond the quantitative evaluation, our analysis indicates the models pre-trained with masked region autoencoding unlock the potential for interactive segmentation. The code is provided at https://github.com/facebookresearch/r-mae. | 翻訳日:2024-01-08 18:28:43 公開日:2024-01-04 |
# 科学シミュレーションと設計を加速するニューラル演算子 Neural Operators for Accelerating Scientific Simulations and Design ( http://arxiv.org/abs/2309.15325v5 ) ライセンス: Link先を確認 | Kamyar Azizzadenesheli, Nikola Kovachki, Zongyi Li, Miguel Liu-Schiaffini, Jean Kossaifi, Anima Anandkumar | (参考訳) 科学的発見と工学的設計は、物理実験の時間とコストによって制限されており、主にドメインの深い専門知識を必要とする試行錯誤と直観によって選択されている。
数値シミュレーションは物理実験に代わるものであるが、既存の数値手法の計算要件のため、通常複雑な実世界領域では実現不可能である。
人工知能(AI)は、高速なデータ駆動サロゲートモデルを開発することによって、潜在的なパラダイムシフトを示す。
特に、Neural Operatorsとして知られるAIフレームワークは、例えば時空間過程や偏微分方程式(PDE)など、連続ドメイン上で定義された関数間のマッピングを学習するための原則化されたフレームワークを提供する。
トレーニング中に見つからない新しい場所で、すなわちゼロショット超解像を行うソリューションを外挿し、予測することができる。
ニューラルオペレータは、計算流体力学、天気予報、物質モデリングなど、多くのアプリケーションで既存のシミュレータを拡張または置き換えることができ、4~5桁高速である。
さらに、神経演算子は、より細かい解像度で強制される物理学やその他の領域の制約と統合でき、高忠実性ソリューションと良好な一般化を得ることができる。
ニューラル演算子は微分可能であるため、逆設計や他の逆問題に対するパラメータを直接最適化することができる。
我々はニューラルオペレーターがシミュレーションと設計の変革的なアプローチを示し、迅速な研究と開発を可能にしていると考えている。 Scientific discovery and engineering design are currently limited by the time and cost of physical experiments, selected mostly through trial-and-error and intuition that require deep domain expertise. Numerical simulations present an alternative to physical experiments but are usually infeasible for complex real-world domains due to the computational requirements of existing numerical methods. Artificial intelligence (AI) presents a potential paradigm shift by developing fast data-driven surrogate models. In particular, an AI framework, known as Neural Operators, presents a principled framework for learning mappings between functions defined on continuous domains, e.g., spatiotemporal processes and partial differential equations (PDE). They can extrapolate and predict solutions at new locations unseen during training, i.e., perform zero-shot super-resolution. Neural Operators can augment or even replace existing simulators in many applications, such as computational fluid dynamics, weather forecasting, and material modeling, while being 4-5 orders of magnitude faster. Further, Neural Operators can be integrated with physics and other domain constraints enforced at finer resolutions to obtain high-fidelity solutions and good generalization. Since Neural Operators are differentiable, they can directly optimize parameters for inverse design and other inverse problems. We believe that Neural Operators present a transformative approach to simulation and design, enabling rapid research and development. | 翻訳日:2024-01-08 18:06:36 公開日:2024-01-04 |
# VGX:学習ベースのソフトウェア脆弱性分析を促進する大規模サンプル生成 VGX: Large-Scale Sample Generation for Boosting Learning-Based Software Vulnerability Analyses ( http://arxiv.org/abs/2310.15436v2 ) ライセンス: Link先を確認 | Yu Nong, Richard Fang, Guangbei Yi, Kunsong Zhao, Xiapu Luo, Feng Chen, and Haipeng Cai | (参考訳) 学習ベースの防御ソフトウェア脆弱性分析の成功を伴って、ラベル付き脆弱性プログラムサンプルの大規模かつ高品質なセットが欠如しており、これらの防御のさらなる進歩を妨げる。
既存の自動サンプル生成手法は、生成したサンプルの高ノイズのため、まだ現実的な期待に届かなかった。
本稿では,高品質な脆弱性データセットを大規模に生成するための新しい手法であるVGXを提案する。
通常のプログラムが与えられた場合、VGXは脆弱性を注入できるコードコンテキストを特定し、新しいバリューフローベースの位置エンコーディングを備えたカスタマイズされたトランスフォーマーを使用して、特にコード構造とコンテキストを学ぶための新しい目的に対して事前トレーニングを行う。
次に、VGXは、歴史的修正と現実世界の脆弱性に関する人間の知識の両方から得られた編集パターンを用いて、特定コンテキストにおける脆弱性注入コード編集を実現する。
4つのSOTAベースライン(パターン-、トランスフォーマー-、GNN-、パターン+トランスフォーマー-ベース)と比較して、VGXは99.09-890.06%高いF1と22.45%-328.47%高いラベル精度を達成した。
vgxは脆弱性のあるサンプルを150,392個生成し、そのサンプルから10パーセントをランダムに選択し、脆弱性の検出、ローカライズ、修復にどの程度役立つかを評価しました。
その結果、これらの3つのアプリケーションタスクのSOTA技術は、F1の19.15-330.80%、トップ10の精度が12.86-19.31%、トップ50の精度が85.02-99.30%向上した。
これらのサンプルはまた、SOTA脆弱性検出器が、オリジナルのモデルで見逃されるような重要なシステム(例えばLinuxカーネル)において、13のより現実的な脆弱性(CVE)を発見するのに役立った。 Accompanying the successes of learning-based defensive software vulnerability analyses is the lack of large and quality sets of labeled vulnerable program samples, which impedes further advancement of those defenses. Existing automated sample generation approaches have shown potentials yet still fall short of practical expectations due to the high noise in the generated samples. This paper proposes VGX, a new technique aimed for large-scale generation of high-quality vulnerability datasets. Given a normal program, VGX identifies the code contexts in which vulnerabilities can be injected, using a customized Transformer featured with a new value-flowbased position encoding and pre-trained against new objectives particularly for learning code structure and context. Then, VGX materializes vulnerability-injection code editing in the identified contexts using patterns of such edits obtained from both historical fixes and human knowledge about real-world vulnerabilities. Compared to four state-of-the-art (SOTA) baselines (pattern-, Transformer-, GNN-, and pattern+Transformer-based), VGX achieved 99.09-890.06% higher F1 and 22.45%-328.47% higher label accuracy. For in-the-wild sample production, VGX generated 150,392 vulnerable samples, from which we randomly chose 10% to assess how much these samples help vulnerability detection, localization, and repair. Our results show SOTA techniques for these three application tasks achieved 19.15-330.80% higher F1, 12.86-19.31% higher top-10 accuracy, and 85.02-99.30% higher top-50 accuracy, respectively, by adding those samples to their original training data. These samples also helped a SOTA vulnerability detector discover 13 more real-world vulnerabilities (CVEs) in critical systems (e.g., Linux kernel) that would be missed by the original model. | 翻訳日:2024-01-08 17:51:13 公開日:2024-01-04 |
# マスクオーディオ学習者の拡散モデル Diffusion Models as Masked Audio-Video Learners ( http://arxiv.org/abs/2310.03937v2 ) ライセンス: Link先を確認 | Elvis Nunez, Yanzi Jin, Mohammad Rastegari, Sachin Mehta, Maxwell Horton | (参考訳) 過去数年間、音声と視覚信号の同期を利用してよりリッチな視覚表現を学習してきた。
多くの教師なしのトレーニングフレームワークは、ラベルなしのビデオの大量利用を助長し、下流の様々なオーディオとビデオのタスクで印象的な結果を示している。
近年,Masked Audio-Video Learners (MAViL) が最先端のオーディオビデオ事前学習フレームワークとして登場した。
MAViLは、マスク付きオートエンコーディングと対照的な学習を結合し、両方のモダリティからの情報を融合することで、オーディオスペクトログラムとビデオフレームを共同で再構成する。
本稿では,拡散モデルとMAViLの相乗効果について検討し,これら2つのフレームワークの相互利益を導出する。
MAViLへの拡散は、マスキング比のカリキュラムと適応バッチサイズの利用を含む様々な訓練効率の手法と組み合わせて、トレーニング前浮動小数点演算(FLOPS)の顕著な32%の削減と、トレーニング前壁時計時間の18%の削減をもたらす。
重要なことに、この強化された効率は、MAViLの性能と比較して下流オーディオ分類タスクにおけるモデルの性能を損なうことはない。 Over the past several years, the synchronization between audio and visual signals has been leveraged to learn richer audio-visual representations. Aided by the large availability of unlabeled videos, many unsupervised training frameworks have demonstrated impressive results in various downstream audio and video tasks. Recently, Masked Audio-Video Learners (MAViL) has emerged as a state-of-the-art audio-video pre-training framework. MAViL couples contrastive learning with masked autoencoding to jointly reconstruct audio spectrograms and video frames by fusing information from both modalities. In this paper, we study the potential synergy between diffusion models and MAViL, seeking to derive mutual benefits from these two frameworks. The incorporation of diffusion into MAViL, combined with various training efficiency methodologies that include the utilization of a masking ratio curriculum and adaptive batch sizing, results in a notable 32% reduction in pre-training Floating-Point Operations (FLOPS) and an 18% decrease in pre-training wall clock time. Crucially, this enhanced efficiency does not compromise the model's performance in downstream audio-classification tasks when compared to MAViL's performance. | 翻訳日:2024-01-08 17:50:12 公開日:2024-01-04 |
# LLM in a flash: メモリ制限付き効率的な大言語モデル推論 LLM in a flash: Efficient Large Language Model Inference with Limited Memory ( http://arxiv.org/abs/2312.11514v2 ) ライセンス: Link先を確認 | Keivan Alizadeh, Iman Mirzadeh, Dmitry Belenko, Karen Khatamifard, Minsik Cho, Carlo C Del Mundo, Mohammad Rastegari, Mehrdad Farajtabar | (参考訳) 大規模言語モデル(LLM)は現代の自然言語処理の中心であり、様々なタスクにおいて例外的なパフォーマンスを提供する。
しかし、特にDRAM容量が限られているデバイスでは、その相当な計算およびメモリ要件が問題となる。
本稿では,フラッシュメモリにモデルパラメータを格納することで,利用可能なDRAM容量を超えるLCMを効率的に動作させるという課題に対処する。
提案手法では,フラッシュメモリの特性を考慮した推論コストモデルを構築し,フラッシュから転送されるデータ量を削減することと,より大きく,より連続的なチャンクでデータを読み取ることの2つの重要な領域を最適化する。
このハードウェアインフォームド・フレームワークには2つの主要な技術が導入されている。
第一に、"ウィンドウ"は、以前活性化されたニューロンを再利用することで、戦略的にデータ転送を減らし、第二に、フラッシュメモリのシーケンシャルなデータアクセス強度に合わせて、フラッシュメモリから読み取ったデータチャンクのサイズを増大させる。
これらの手法により、利用可能なDRAMの最大2倍のモデルの実行が可能となり、CPUとGPUの単純なロードアプローチと比較して4-5xと20-25xの推論速度が向上した。
空間認識、コンテキスト適応ロード、ハードウェア指向設計の統合は、メモリ制限のあるデバイス上でのLLMの効果的な推論方法である。 Large language models (LLMs) are central to modern natural language processing, delivering exceptional performance in various tasks. However, their substantial computational and memory requirements present challenges, especially for devices with limited DRAM capacity. This paper tackles the challenge of efficiently running LLMs that exceed the available DRAM capacity by storing the model parameters in flash memory, but bringing them on demand to DRAM. Our method involves constructing an inference cost model that takes into account the characteristics of flash memory, guiding us to optimize in two critical areas: reducing the volume of data transferred from flash and reading data in larger, more contiguous chunks. Within this hardware-informed framework, we introduce two principal techniques. First, "windowing" strategically reduces data transfer by reusing previously activated neurons, and second, "row-column bundling", tailored to the sequential data access strengths of flash memory, increases the size of data chunks read from flash memory. These methods collectively enable running models up to twice the size of the available DRAM, with a 4-5x and 20-25x increase in inference speed compared to naive loading approaches in CPU and GPU, respectively. Our integration of sparsity awareness, context-adaptive loading, and a hardware-oriented design paves the way for effective inference of LLMs on devices with limited memory. | 翻訳日:2024-01-08 17:43:27 公開日:2024-01-04 |
# 離散破壊ネットワークシミュレーションにおける固有確率性の有無の感度解析 Sensitivity Analysis in the Presence of Intrinsic Stochasticity for Discrete Fracture Network Simulations ( http://arxiv.org/abs/2312.04722v2 ) ライセンス: Link先を確認 | Alexander C. Murph, Justin D. Strait, Kelly R. Moran, Jeffrey D. Hyman, Hari S. Viswanathan, and Philip H. Stauffer | (参考訳) 大規模離散破壊ネットワーク (dfn) シミュレータは, 実世界の地下破壊ネットワークの直接観測は一般的に不可能であるため, 粒子の地下輸送に関わる研究の標準的な方法である。
これらのシミュレータは、いくつかのエンジニアリングアプリケーションで多くの成功を収めているが、システムの端に到達する粒子のブレークスルー時間(qoi)の推定は、2つの異なるタイプの不確実性に苦しんでいる。
dfnシミュレータの実行には、破壊の配置や大きさ、破壊の密度、システムの全体的な透過性を規定するいくつかのパラメータ値が必要となる。
さらに、DFNシミュレータはフラクチャーの配置とフローの制御に確率的プロセスに依存するため、このランダム性がQoIにどのように影響するかを理解するには、異なるランダムシードでのシミュレータの実行がいくつか必要となる。
QoIにおける不確実性は、同じランダムな過程の異なる実現(すなわち異なる種)によって、2つ目の不確実性をもたらす。
本稿では,qoiで観測された不確かさを,各入力パラメータの認識的不確実性とアレエータ的不確実性とを直接区別する感度解析を行う。
我々は,dfnシミュレータにおいて観測されたヘテロケクタスティック性を扱うために,様々な入力に対してアレータティックな不確実性が変化する設計法をいくつか選択する。
DFNシミュレータにおいて,入力変数が不確実性に最も影響する特定の特徴に加えて,不確実性を示すDFNフローシミュレーションにおける不確かさを特徴付ける統計的に厳密なワークフローの導入も大きな貢献である。 Large-scale discrete fracture network (DFN) simulators are standard fare for studies involving the sub-surface transport of particles since direct observation of real world underground fracture networks is generally infeasible. While these simulators have seen numerous successes over several engineering applications, estimations on quantities of interest (QoI) - such as breakthrough time of particles reaching the edge of the system - suffer from a two distinct types of uncertainty. A run of a DFN simulator requires several parameter values to be set that dictate the placement and size of fractures, the density of fractures, and the overall permeability of the system; uncertainty on the proper parameter choices will lead to some amount of uncertainty in the QoI, called epistemic uncertainty. Furthermore, since DFN simulators rely on stochastic processes to place fractures and govern flow, understanding how this randomness affects the QoI requires several runs of the simulator at distinct random seeds. The uncertainty in the QoI attributed to different realizations (i.e. different seeds) of the same random process leads to a second type of uncertainty, called aleatoric uncertainty. In this paper, we perform a Sensitivity Analysis, which directly attributes the uncertainty observed in the QoI to the epistemic uncertainty from each input parameter and to the aleatoric uncertainty. We make several design choices to handle an observed heteroskedasticity in DFN simulators, where the aleatoric uncertainty changes for different inputs, since the quality makes several standard statistical methods inadmissible. Beyond the specific takeaways on which input variables affect uncertainty the most for DFN simulators, a major contribution of this paper is the introduction of a statistically rigorous workflow for characterizing the uncertainty in DFN flow simulations that exhibit heteroskedasticity. | 翻訳日:2024-01-08 17:40:08 公開日:2024-01-04 |
# StackSpot AI構築から学んだこと - コンテキスト化されたAIコーディングアシスタント Lessons from Building StackSpot AI: A Contextualized AI Coding Assistant ( http://arxiv.org/abs/2311.18450v3 ) ライセンス: Link先を確認 | Gustavo Pinto and Cleidson de Souza and Jo\~ao Batista Neto and Alberto de Souza and Tarc\'isio Gotto and Edward Monteiro | (参考訳) 例外的な自然言語処理機能によって、ChatGPTやCo-PilotのようなLarge Language Models(LLM)ベースのツールは、ソフトウェア開発者のツールキットにおいて、急速に必須のリソースになっています。
最近の研究は、これらのツールがアンロックされる可能性のある生産性の向上を示唆している。
さらに、改善されたレスポンスの追求は、しばしば、実際の価値を提供するコードを書くことから価値ある時間を逸脱し、広範な迅速なエンジニアリング努力に繋がる。
これらの課題に対処するため、LSM上に構築された新しい種類のツールが登場しつつある。
これらのツールは、微調整やコンテキスト情報によるユーザプロンプトの強化といった手法を用いて、欠点を軽減することを目的としている。
本稿では,CodeBuddy と呼ばれる検索技術を用いて,ソフトウェア開発チームが,このような文脈化された LLM ベースのアプリケーションの開発について学んだ教訓を掘り下げる。
LLMベースのアプリケーションで以前のプロフェッショナルな経験がなかったにも関わらず、チームは4ヶ月間にわたって、ゼロから製品を構築した。
最初の製品リリースの後、私たちはコード生成コンポーネントを担当する開発チームと関わりました。
アプリケーションのイシュートラッカに関するインタビューと分析を通じて、llmベースのアプリケーションに取り組んでいるチームが直面するさまざまな興味深い課題を明らかにする。
例えば、LLMベースのレッスン、ユーザベースのレッスン、技術的レッスンの3つの主要なグループを見つけました。
これらの教訓を理解することで、ソフトウェア開発チームはLCMベースのアプリケーションを構築する準備がより良くなるだろう。 With their exceptional natural language processing capabilities, tools based on Large Language Models (LLMs) like ChatGPT and Co-Pilot have swiftly become indispensable resources in the software developer's toolkit. While recent studies suggest the potential productivity gains these tools can unlock, users still encounter drawbacks, such as generic or incorrect answers. Additionally, the pursuit of improved responses often leads to extensive prompt engineering efforts, diverting valuable time from writing code that delivers actual value. To address these challenges, a new breed of tools, built atop LLMs, is emerging. These tools aim to mitigate drawbacks by employing techniques like fine-tuning or enriching user prompts with contextualized information. In this paper, we delve into the lessons learned by a software development team venturing into the creation of such a contextualized LLM-based application, using retrieval-based techniques, called CodeBuddy. Over a four-month period, the team, despite lacking prior professional experience in LLM-based applications, built the product from scratch. Following the initial product release, we engaged with the development team responsible for the code generative components. Through interviews and analysis of the application's issue tracker, we uncover various intriguing challenges that teams working on LLM-based applications might encounter. For instance, we found three main group of lessons: LLM-based lessons, User-based lessons, and Technical lessons. By understanding these lessons, software development teams could become better prepared to build LLM-based applications. | 翻訳日:2024-01-08 17:38:53 公開日:2024-01-04 |
# 2次元シュロディンガー方程式の特異ポテンシャルとしてのディラックデルタ The Dirac Delta as a Singular Potential for the 2D Schrodinger Equation ( http://arxiv.org/abs/2312.15126v2 ) ライセンス: Link先を確認 | Michael Maroun | (参考訳) 分布一般化量子論の枠組みにおいて、オブジェクト $h\psi$ は分布として定義される。
数学的意義は、パラ微分作用素と擬微分作用素の理論(および弱固有値問題の一般化)の穏やかな一般化であり、$\psi$-doシンボル(この一般化の場合、適切な線型作用素ではない)はその係数関数が特異分布値を取ることができる。
ここで、分布が特異であるとは、任意の$p\geq 1$に対して l$^p(\mathbb{r}^d)$ でないときに言う。
物理的には、その重要性は数学的に厳密な方法であり、いかなる種類の正規化や正規化にも依存せず、文献と一致した境界状態エネルギーを生成する。
さらに別の利点は、このメソッドがラプラス演算子の自己随伴拡張に依存していないことである。
これは、ディラック方程式の場合と同様に、理論が非シュロディンガー系に適用されるときに重要であり、量子場理論の有限厳密なバージョンに必要な性質である。
分布解釈は、それが定義できない時点で波動関数を評価する必要性を解消する。
$d=2$ の場合、これは $K_o(a|x|)\delta(x)$ であり、$K_o$ はゼロ次マクドナルド関数である。
最後に、形式記号(ic)ハミルトニアン(英語版)のスケール不変性と対数関数の共通同一性により、a,\,b\in\mathbb{r}^+$, $\log(ab)=\log という異常な長さスケールの識別もある。
(a)+\log
(b)$であり、引数に単位性が失われる。
その結果、エネルギーまたは点スペクトルは、cスペクトルと呼ばれるスペクトル値の族(連続体によってインデックス化された集合)として一般化される。 In the framework of distributionally generalized quantum theory, the object $H\psi$ is defined as a distribution. The mathematical significance is a mild generalization for the theory of para- and pseudo-differential operators (as well as a generalization of the weak eigenvalue problem), where the $\psi$-do symbol (which is not a proper linear operator in this generalized case) can have its coefficient functions take on singular distributional values. Here, a distribution is said to be singular if it is not L$^p(\mathbb{R}^d)$ for any $p\geq 1$. Physically, the significance is a mathematically rigorous method, which does not rely upon renormalization or regularization of any kind, while producing bound state energy results in agreement with the literature. In addition, another benefit is that the method does not rely upon self-adjoint extensions of the Laplace operator. This is important when the theory is applied to non-Schrodinger systems, as is the case for the Dirac equation and a necessary property of any finite rigorous version of quantum field theory. The distributional interpretation resolves the need to evaluate a wave function at a point where it fails to be defined. For $d=2$, this occurs as $K_o(a|x|)\delta(x)$, where $K_o$ is the zeroth order MacDonald function. Finally, there is also the identification of a missing anomalous length scale, owing to the scale invariance of the formal symbol(ic) Hamiltonian, as well as the common identity for the logarithmic function, with $a,\,b\in\mathbb{R}^+$, $\log(ab)=\log(a)+\log(b)$, which loses unitlessness in its arguments. Consequently, the energy or point spectrum is generalized as a family (set indexed by the continuum) of would-be spectral values, called the C-spectrum. | 翻訳日:2024-01-08 17:27:08 公開日:2024-01-04 |
# Geo2SigMap:地理データベースを用いた高忠実RF信号マッピング Geo2SigMap: High-Fidelity RF Signal Mapping Using Geographic Databases ( http://arxiv.org/abs/2312.14303v2 ) ライセンス: Link先を確認 | Yiming Li, Zeyu Li, Zhihui Gao, Tingjun Chen | (参考訳) 無線周波数(RF)信号マッピングは、特定の領域にわたるRF信号の強度と分布を分析し予測するプロセスであり、細胞ネットワークの計画と展開に不可欠である。
従来のrf信号マッピングのアプローチは、低複雑性だが精度に欠ける測定データに基づいて構築された統計モデルや、ターゲット領域の精度が向上するが計算複雑性が増大するレイトレーシングツールに依存している。
近年、機械学習(ML)は、合成データセットで訓練されたモデルを利用して「見えない」領域でRF信号マッピングを行う、RF信号伝搬をモデル化するデータ駆動手法として登場した。
本稿では,地理データベースを用いた高速かつ高忠実なRF信号マッピングのためのMLベースのフレームワークGeo2SigMapを提案する。
まず,OpenStreetMap (地理データベース), Blender (コンピュータグラフィックス), Sionna (レイトレーシング) の3つのオープンソースツールをシームレスに統合する自動フレームワークを開発し,大規模3Dビルディングマップとレイトレーシングモデルの効率的な生成を可能にする。
第2に,合成データセットを事前学習し,環境情報とスパース計測データを利用して詳細なRF信号マップを生成するカスケードU-Netモデルを提案する。
最後に,3種類のユーザ機器(UE)が市民ブロードバンド無線サービス(CBRS)帯域で動作する6つのLTEセルのセル情報に関連する45,000以上のデータポイントを収集し,Geo2SigMapの性能を評価する。
以上の結果から,Geo2SigMap は UE における基準信号受信電力 (RSRP) の予測に 6.04 dB の平均ルート平均二乗誤差 (RMSE) を達成し,既存の手法と比較して平均 3.59 dB の改善率を示した。 Radio frequency (RF) signal mapping, which is the process of analyzing and predicting the RF signal strength and distribution across specific areas, is crucial for cellular network planning and deployment. Traditional approaches to RF signal mapping rely on statistical models constructed based on measurement data, which offer low complexity but often lack accuracy, or ray tracing tools, which provide enhanced precision for the target area but suffer from increased computational complexity. Recently, machine learning (ML) has emerged as a data-driven method for modeling RF signal propagation, which leverages models trained on synthetic datasets to perform RF signal mapping in "unseen" areas. In this paper, we present Geo2SigMap, an ML-based framework for efficient and high-fidelity RF signal mapping using geographic databases. First, we develop an automated framework that seamlessly integrates three open-source tools: OpenStreetMap (geographic databases), Blender (computer graphics), and Sionna (ray tracing), enabling the efficient generation of large-scale 3D building maps and ray tracing models. Second, we propose a cascaded U-Net model, which is pre-trained on synthetic datasets and employed to generate detailed RF signal maps, leveraging environmental information and sparse measurement data. Finally, we evaluate the performance of Geo2SigMap via a real-world measurement campaign, where three types of user equipment (UE) collect over 45,000 data points related to cellular information from six LTE cells operating in the citizens broadband radio service (CBRS) band. Our results show that Geo2SigMap achieves an average root-mean-square-error (RMSE) of 6.04 dB for predicting the reference signal received power (RSRP) at the UE, representing an average RMSE improvement of 3.59 dB compared to existing methods. | 翻訳日:2024-01-08 17:26:08 公開日:2024-01-04 |
# 記憶・意識・大規模言語モデル Memory, Consciousness and Large Language Model ( http://arxiv.org/abs/2401.02509v1 ) ライセンス: Link先を確認 | Jitang Li and Jinzheng Li | (参考訳) 認知科学と大規模言語モデル(llm)の発展に伴い、これら2つの異なる分野間のつながりが高まっている。
これらの関係に基づいて,llms と tulving の記憶理論との双対性の存在を示唆する予想を提案する。
検索のSEM(synergistic ecphory model)とLLMで観測される創発的能力との潜在的な対応を同定し,この仮説を裏付ける証拠となる。
さらに,意識は,この双対性に基づく創発能力の一形態であると考えられた。
また、他の意識理論と研究との関わりについても論じる。 With the development in cognitive science and Large Language Models (LLMs), increasing connections have come to light between these two distinct fields. Building upon these connections, we propose a conjecture suggesting the existence of a duality between LLMs and Tulving's theory of memory. We identify a potential correspondence between Tulving's synergistic ecphory model (SEM) of retrieval and the emergent abilities observed in LLMs, serving as supporting evidence for our conjecture. Furthermore, we speculate that consciousness may be considered a form of emergent ability based on this duality. We also discuss how other theories of consciousness intersect with our research. | 翻訳日:2024-01-08 17:18:43 公開日:2024-01-04 |
# フェデレーション学習における適応的微分プライバシー--優先順位に基づくアプローチ Adaptive Differential Privacy in Federated Learning: A Priority-Based Approach ( http://arxiv.org/abs/2401.02453v1 ) ライセンス: Link先を確認 | Mahtab Talaei, Iman Izadi | (参考訳) 分散機械学習(ml)の新たな分野の一つであるフェデレーション・ラーニング(fl)は、ローカルデータセットに直接アクセスすることなく、プライベートプロシージャを通じてグローバルモデルを開発する。
しかしながら、クライアントとサーバ間で転送されるモデル更新(例えば、ディープニューラルネットワークの勾配更新)へのアクセスは、敵に機密情報を明らかにすることができる。
差分プライバシー(DP)は、パラメータに一定のノイズを加えることでプライバシーを保証するフレームワークを提供する。
このアプローチは、プライバシーの観点からは有効であるが、ノイズによるモデル性能に悪影響を及ぼす。
したがって、ノイズ注入と犠牲となる精度のバランスを見つけることが常に必要となる。
この課題に対処するために,特徴量の相対的重要性に基づいて入射雑音の値を決定するFLの適応雑音加算を提案する。
本稿では,まず,ディープニューラルネットワークモデルの特徴を優先順位付けする2つの効果的な手法を提案し,その情報に基づいてモデルの重みを摂動させる。
具体的には、より重要でないパラメータにノイズを追加し、より重要なパラメータにノイズを少なくするというアイデアが、プライバシーを保ちながらモデルの精度を効果的に節約できるかどうかを見極めようとしている。
実験ではいくつかの条件でこの声明を確認した。
ノイズの注入量、関連するパラメータの比率、グローバルイテレーションの回数は、出力を大きく変えることができる。
データセットの特性を考慮してパラメータを慎重に選択することは、精度を著しく損なうことなくプライバシを改善することができるが、悪い選択はモデルのパフォーマンスを悪化させる可能性がある。 Federated learning (FL) as one of the novel branches of distributed machine learning (ML), develops global models through a private procedure without direct access to local datasets. However, access to model updates (e.g. gradient updates in deep neural networks) transferred between clients and servers can reveal sensitive information to adversaries. Differential privacy (DP) offers a framework that gives a privacy guarantee by adding certain amounts of noise to parameters. This approach, although being effective in terms of privacy, adversely affects model performance due to noise involvement. Hence, it is always needed to find a balance between noise injection and the sacrificed accuracy. To address this challenge, we propose adaptive noise addition in FL which decides the value of injected noise based on features' relative importance. Here, we first propose two effective methods for prioritizing features in deep neural network models and then perturb models' weights based on this information. Specifically, we try to figure out whether the idea of adding more noise to less important parameters and less noise to more important parameters can effectively save the model accuracy while preserving privacy. Our experiments confirm this statement under some conditions. The amount of noise injected, the proportion of parameters involved, and the number of global iterations can significantly change the output. While a careful choice of parameters by considering the properties of datasets can improve privacy without intense loss of accuracy, a bad choice can make the model performance worse. | 翻訳日:2024-01-08 17:18:31 公開日:2024-01-04 |
# 機械学習の計算分割: 学術的貢献と精査に対する脅威? The Compute Divide in Machine Learning: A Threat to Academic Contribution and Scrutiny? ( http://arxiv.org/abs/2401.02452v1 ) ライセンス: Link先を確認 | Tamay Besiroglu, Sage Andrus Bergerson, Amelia Michael, Xueyun Luo, Neil Thompson | (参考訳) 産業と学術のAIラボがコンピューティングリソースを使用する範囲には、明らかな違いがある。
本稿では,機械学習研究における計算分割の役割に関するデータ駆動調査を行う。
計算分断は、計算集約的な研究トピック、特に基礎モデルにおける学術のみの研究チームの表現の減少と一致していることを示す。
学術は関連する技術の進歩、批判的な評価と精査、そしてそのようなモデルの拡散において、より小さな役割を担っていると我々は主張する。
この研究の焦点の変更と並行して、業界内で開発されたオープンソースの事前学習モデルを受け入れることへの学術研究のシフトが目覚ましい。
この傾向から生じる課題、特に影響力のあるモデルの精査を減らすために、学術的洞察を思慮深く拡大することを目的としたアプローチを推奨する。
国家が支援するコンピューティングインフラストラクチャとオープンサイエンスのイニシアチブが組み合わさることで、アカデミックな計算アクセスを公平に促進し、解釈可能性、安全性、セキュリティの研究を優先することができる。
構造化されたアクセスプログラムとサードパーティの監査により、産業システムの外部評価も可能となる。 There are pronounced differences in the extent to which industrial and academic AI labs use computing resources. We provide a data-driven survey of the role of the compute divide in shaping machine learning research. We show that a compute divide has coincided with a reduced representation of academic-only research teams in compute intensive research topics, especially foundation models. We argue that, academia will likely play a smaller role in advancing the associated techniques, providing critical evaluation and scrutiny, and in the diffusion of such models. Concurrent with this change in research focus, there is a noticeable shift in academic research towards embracing open source, pre-trained models developed within the industry. To address the challenges arising from this trend, especially reduced scrutiny of influential models, we recommend approaches aimed at thoughtfully expanding academic insights. Nationally-sponsored computing infrastructure coupled with open science initiatives could judiciously boost academic compute access, prioritizing research on interpretability, safety and security. Structured access programs and third-party auditing may also allow measured external evaluation of industry systems. | 翻訳日:2024-01-08 17:18:06 公開日:2024-01-04 |
# 任意順依存型構造化行列学習とマルコフ遷移カーネルの推定 Structured Matrix Learning under Arbitrary Entrywise Dependence and Estimation of Markov Transition Kernel ( http://arxiv.org/abs/2401.02520v1 ) ライセンス: Link先を確認 | Jinhang Chai, Jianqing Fan | (参考訳) 構造行列推定の問題は、主に強い雑音依存の仮定の下で研究されている。
本稿では,ノイズマトリクスが任意の成分に任意の依存性を持つ任意のジョイント分布から生じる場合,雑音低ランクプラススパースマトリクスリカバリの一般的な枠組みについて考察する。
本稿では,不整合制約最小二乗推定器を提案し,その厳密さを,様々な雑音分布下での決定論的下界とミニマックスリスクの一致の両面から証明する。
この結果を達成するために, 任意の低次非コヒーレント行列の差は, 成分全体にエネルギーを分散させなければならない, 言い換えればスパースしすぎず, 非コヒーレントな低次行列の構造に光を当て, 独立した興味を持つかもしれない, という新たな結果が得られた。
次に、我々のフレームワークのいくつかの重要な統計機械学習問題への適用を紹介します。
構造的マルコフ遷移カーネルを推定する問題において,提案手法は最小限の最適性を達成し,拡張学習において重要な要素である条件付き平均演算子を推定できる。
マルチタスク回帰と構造化共分散推定への応用についても述べる。
本稿では,潜在的にハードな最適化問題を大まかに解くために,交代最小化アルゴリズムを提案する。
数値計算の結果は,通常数ステップで収束する手法の有効性を裏付けるものである。 The problem of structured matrix estimation has been studied mostly under strong noise dependence assumptions. This paper considers a general framework of noisy low-rank-plus-sparse matrix recovery, where the noise matrix may come from any joint distribution with arbitrary dependence across entries. We propose an incoherent-constrained least-square estimator and prove its tightness both in the sense of deterministic lower bound and matching minimax risks under various noise distributions. To attain this, we establish a novel result asserting that the difference between two arbitrary low-rank incoherent matrices must spread energy out across its entries, in other words cannot be too sparse, which sheds light on the structure of incoherent low-rank matrices and may be of independent interest. We then showcase the applications of our framework to several important statistical machine learning problems. In the problem of estimating a structured Markov transition kernel, the proposed method achieves the minimax optimality and the result can be extended to estimating the conditional mean operator, a crucial component in reinforcement learning. The applications to multitask regression and structured covariance estimation are also presented. We propose an alternating minimization algorithm to approximately solve the potentially hard optimization problem. Numerical results corroborate the effectiveness of our method which typically converges in a few steps. | 翻訳日:2024-01-08 16:54:05 公開日:2024-01-04 |
# ハイパーボリックPDEとパラボリックPDEの1次元移動水平推定器 Moving-Horizon Estimators for Hyperbolic and Parabolic PDEs in 1-D ( http://arxiv.org/abs/2401.02516v1 ) ライセンス: Link先を確認 | Luke Bhan, Yuanyuan Shi, Iasson Karafyllis, Miroslav Krstic, and James B. Rawlings | (参考訳) PDE のオブザーバは PDE 自身である。
したがって、そのような観測者によるリアルタイム推定は計算的に重荷となる。
有限次元およびODE系では、移動水平推定器(MHE)は状態推定器であり、その入力は地平線の開始時の初期状態推定器であり、測定された出力と入力信号は移動時地平線の上の状態推定器である。
本稿では、観測者PDEの数値解の必要性をリアルタイムで除去するPDEのためのMHEを紹介する。
我々は、双曲型PDEと放物型PDEの両方のクラスに対して、移動水平状態推定を明示的に生成するPDEバックステッピング法を用いてこれを実現する。
正確には、状態推定を明示的に生成するために、難解オブザーバPDEを対象オブザーバPDEに変換するバックステッピング変換を用いる。
私たちが提案するMHEは、新しいオブザーバの設計ではなく、既存のバックステッピングオブザーバの任意の長さの移動地平線上の明示的なMHE実現である。
我々の PDE MHE は MPC の双対として生じる MHE の最適性に欠けるが、PDE に対しても明示的に与えられる。
本稿では, 双曲型PDEと放物型PDEの両方に対するMHEの明示的な公式と, MHEの収束を理論的に保証するシミュレーション結果について述べる。 Observers for PDEs are themselves PDEs. Therefore, producing real time estimates with such observers is computationally burdensome. For both finite-dimensional and ODE systems, moving-horizon estimators (MHE) are operators whose output is the state estimate, while their inputs are the initial state estimate at the beginning of the horizon as well as the measured output and input signals over the moving time horizon. In this paper we introduce MHEs for PDEs which remove the need for a numerical solution of an observer PDE in real time. We accomplish this using the PDE backstepping method which, for certain classes of both hyperbolic and parabolic PDEs, produces moving-horizon state estimates explicitly. Precisely, to explicitly produce the state estimates, we employ a backstepping transformation of a hard-to-solve observer PDE into a target observer PDE, which is explicitly solvable. The MHEs we propose are not new observer designs but simply the explicit MHE realizations, over a moving horizon of arbitrary length, of the existing backstepping observers. Our PDE MHEs lack the optimality of the MHEs that arose as duals of MPC, but they are given explicitly, even for PDEs. In the paper we provide explicit formulae for MHEs for both hyperbolic and parabolic PDEs, as well as simulation results that illustrate theoretically guaranteed convergence of the MHEs. | 翻訳日:2024-01-08 16:53:42 公開日:2024-01-04 |
# クォークグルーオンプラズマにおける開放量子系としてのクォークニウムの最近の展開 Recent Developments in Quarkonium as an Open Quantum System in Quark-Gluon Plasma ( http://arxiv.org/abs/2401.02514v1 ) ライセンス: Link先を確認 | Bruno Scheihing Hitschfeld and Xiaojun Yao | (参考訳) 本稿では、クォークグルーオンプラズマ内のクォークニウムダイナミクスを、関連する輸送係数と一般化グルーオン分布の定義と非摂動計算に焦点をあてたオープン量子システムとして理解する最近の進歩を概観する。 We review recent progress in understanding quarkonium dynamics inside the quark-gluon plasma as an open quantum system with a focus on the definition and nonperturbative calculations of relevant transport coefficients and generalized gluon distributions. | 翻訳日:2024-01-08 16:53:13 公開日:2024-01-04 |
# 非線形再循環型輸送PDEのためのニューラル演算子によるゲインスケジューリング Gain Scheduling with a Neural Operator for a Transport PDE with Nonlinear Recirculation ( http://arxiv.org/abs/2401.02511v1 ) ライセンス: Link先を確認 | Maxence Lamarque, Luke Bhan, Rafael Vazquez, and Miroslav Krstic | (参考訳) PDEモデルを安定させるためには、制御法則はPDE関数係数から非線形作用素によってマッピングされた空間依存関数ゲインを必要とする。
PDEが非線形であり、その「擬係数」関数が状態依存である場合、ゲインスケジューリング(GS)非線形設計は非線形フィードバックの設計における最も単純なアプローチである。
PDEバックステッピングのGS版では、状態の各値でPDEを解くことで得られるゲインを採用している。
このようなPDE計算をリアルタイムで行うことは禁じられるかもしれない。
最近導入されたニューラル演算子(NO)は、PDEソリューションを必要とせずに、各状態値に対して高速に利得関数を生成するように訓練することができる。
本稿では,GS-PDEバックステッピング用NOについて紹介する。
GSコントローラは状態変化が遅いという前提で動作し、結果としてODEであってもローカルな安定性のみが保証される。
我々は「フルカーネル」アプローチと「ゲインオンオンリー」アプローチの両方を用いて、非線形再循環を伴う双曲型PDEの局所安定化を確立し、演算子近似を得る。
数値シミュレーションは安定化を示し、従来のpdeゲインスケジューリングよりも3桁のスピードアップを示す。
数値的な実装のためのコード(Github)が公開され、探索が可能である。 To stabilize PDE models, control laws require space-dependent functional gains mapped by nonlinear operators from the PDE functional coefficients. When a PDE is nonlinear and its "pseudo-coefficient" functions are state-dependent, a gain-scheduling (GS) nonlinear design is the simplest approach to the design of nonlinear feedback. The GS version of PDE backstepping employs gains obtained by solving a PDE at each value of the state. Performing such PDE computations in real time may be prohibitive. The recently introduced neural operators (NO) can be trained to produce the gain functions, rapidly in real time, for each state value, without requiring a PDE solution. In this paper we introduce NOs for GS-PDE backstepping. GS controllers act on the premise that the state change is slow and, as a result, guarantee only local stability, even for ODEs. We establish local stabilization of hyperbolic PDEs with nonlinear recirculation using both a "full-kernel" approach and the "gain-only" approach to gain operator approximation. Numerical simulations illustrate stabilization and demonstrate speedup by three orders of magnitude over traditional PDE gain-scheduling. Code (Github) for the numerical implementation is published to enable exploration. | 翻訳日:2024-01-08 16:53:07 公開日:2024-01-04 |
# 決定と制御における適応的で一般化可能な最適化エンジンを目指して:メタ強化学習アプローチ Towards an Adaptable and Generalizable Optimization Engine in Decision and Control: A Meta Reinforcement Learning Approach ( http://arxiv.org/abs/2401.02508v1 ) ライセンス: Link先を確認 | Sungwook Yang, Chaoying Pei, Ran Dai, Chuangchuang Sun | (参考訳) サンプリングベースモデル予測制御(MPC)は、非滑らかなシステム力学とコスト関数による最適制御問題において大きな成功を収めている。
MPC改善のための機械学習に基づく多くの研究
a) ダイナミックス/コスト関数の学習または微調整
b) mpcコントローラの更新を最適化するための学習。
後者の場合、模倣学習ベースのオプティマイザは、専門家のデモンストレーションを模倣してmpcコントローラを更新するように訓練される。
さらに、多くのシーケンシャルな意思決定問題は非定常環境にあり、異なるタスクを解決するためにMPCコントローラを更新するために最適化器を適応し、一般化する必要がある。
これらの問題に対処するために,メタ強化学習(RL)に基づく最適化器の学習を提案し,コントローラの更新を行う。
このオプティマイザは専門家によるデモンストレーションを必要とせず、未確認の制御タスクにデプロイされた場合の高速適応(例:数ショット)を可能にする。
高速適応に関する学習最適化の有効性を実験的に検証した。 Sampling-based model predictive control (MPC) has found significant success in optimal control problems with non-smooth system dynamics and cost function. Many machine learning-based works proposed to improve MPC by a) learning or fine-tuning the dynamics/ cost function, or b) learning to optimize for the update of the MPC controllers. For the latter, imitation learning-based optimizers are trained to update the MPC controller by mimicking the expert demonstrations, which, however, are expensive or even unavailable. More significantly, many sequential decision-making problems are in non-stationary environments, requiring that an optimizer should be adaptable and generalizable to update the MPC controller for solving different tasks. To address those issues, we propose to learn an optimizer based on meta-reinforcement learning (RL) to update the controllers. This optimizer does not need expert demonstration and can enable fast adaptation (e.g., few-shots) when it is deployed in unseen control tasks. Experimental results validate the effectiveness of the learned optimizer regarding fast adaptation. | 翻訳日:2024-01-08 16:52:45 公開日:2024-01-04 |
# 細胞シグナリング構造の機能 The cell signaling structure function ( http://arxiv.org/abs/2401.02501v1 ) ライセンス: Link先を確認 | Layton Aho, Mark Winter, Marc DeCarlo, Agne Frismantiene, Yannick Blum, Paolo Armando Gagliardi, Olivier Pertz, Andrew R. Cohen | (参考訳) 生きた細胞顕微鏡は、5d $(x,y,z,channel,time)$の映画を撮影し、細胞の動きとシグナルのダイナミクスのパターンを表示する。
本稿では, 予測パターンダイナミクスの知識を必要とせず, トレーニングデータも必要とせず, 5次元ライブセル顕微鏡映画において, 細胞シグナル伝達ダイナミクスの時空間的パターンを探索する手法を提案する。
提案する細胞シグナリング構造関数(ssf)は、細胞質周辺の核強度w.r.t.の細胞シグナリング状態を最適に測定するコルモゴロフ構造関数であり、現在の細胞核比と比較して著しく改善されている。
SSFキモグラフは、各時空間セルセントロイドにSSF値または速度のような機能出力を格納する。
類似性のパターンは、計量正規化圧縮距離(NCD)を介して同定される。
ncdは、入力 ssf kymographs を空間全体の ncd によって識別されるパターンの類似性を最適に捉えた低次元埋め込みの点として表現するヒルベルト空間の再生核である。
唯一のパラメータは期待セル radii ($\mu m$) である。
クラスタ構造関数の新しい定式化は、RKHS表現からの埋め込みがいかに意味を持つかを最適に推定する。
その結果,ヒト乳癌上皮細胞 (MCF10A) の2次元単分子膜, ERKのオプトジェネティック操作下での3次元MCF10A球体, およびヒト誘導多能性幹細胞のERKシグナル伝達と細胞速度パターンとの関係を定量化した。 Live cell microscopy captures 5-D $(x,y,z,channel,time)$ movies that display patterns of cellular motion and signaling dynamics. We present here an approach to finding spatiotemporal patterns of cell signaling dynamics in 5-D live cell microscopy movies unique in requiring no \emph{a priori} knowledge of expected pattern dynamics, and no training data. The proposed cell signaling structure function (SSF) is a Kolmogorov structure function that optimally measures cell signaling state as nuclear intensity w.r.t. surrounding cytoplasm, a significant improvement compared to the current state-of-the-art cytonuclear ratio. SSF kymographs store at each spatiotemporal cell centroid the SSF value, or a functional output such as velocity. Patterns of similarity are identified via the metric normalized compression distance (NCD). The NCD is a reproducing kernel for a Hilbert space that represents the input SSF kymographs as points in a low dimensional embedding that optimally captures the pattern similarity identified by the NCD throughout the space. The only parameter is the expected cell radii ($\mu m$). A new formulation of the cluster structure function optimally estimates how meaningful an embedding from the RKHS representation. Results are presented quantifying the impact of ERK and AKT signaling between different oncogenic mutations, and by the relation between ERK signaling and cellular velocity patterns for movies of 2-D monolayers of human breast epithelial (MCF10A) cells, 3-D MCF10A spheroids under optogenetic manipulation of ERK, and human induced pluripotent stem cells . | 翻訳日:2024-01-08 16:52:29 公開日:2024-01-04 |
# 自動計画・スケジューリング(APS)における大規模言語モデル(LLM)の導入の展望 On the Prospects of Incorporating Large Language Models (LLMs) in Automated Planning and Scheduling (APS) ( http://arxiv.org/abs/2401.02500v1 ) ライセンス: Link先を確認 | Vishal Pallagani, Kaushik Roy, Bharath Muppasani, Francesco Fabiano, Andrea Loreggia, Keerthiram Murugesan, Biplav Srivastava, Francesca Rossi, Lior Horesh, Amit Sheth | (参考訳) 自動計画とスケジューリングは、LLMの記述が人気を博している人工知能(AI)の領域の1つである。
本稿では,言語翻訳,計画生成,モデル構築,マルチエージェント計画,インタラクティブ計画,ヒューリスティックス最適化,ツール統合,脳に触発された計画など,計画問題のさまざまな側面にLLMを応用した8つのカテゴリについて検討する。
各カテゴリについて、検討された問題と既存のギャップを明確にする。
我々のレビューから得られた重要な洞察は、LLMの真の可能性は、従来の象徴的プランナーと統合されたときに広がり、有望なニューロシンボリックアプローチに向けられるということである。
このアプローチは、LLMの生成側面と古典的計画手法の精度を効果的に組み合わせる。
既存の文献から洞察を合成することにより、複雑な計画課題に対処するためにこの統合の可能性を明確にする。
我々のゴールは、ICAPSコミュニティがLLMとシンボリックプランナーの補完的な強みを認識し、これらの相乗的能力を活用してより高度でインテリジェントな計画システムを開発するための自動計画の方向性を提唱することである。 Automated Planning and Scheduling is among the growing areas in Artificial Intelligence (AI) where mention of LLMs has gained popularity. Based on a comprehensive review of 126 papers, this paper investigates eight categories based on the unique applications of LLMs in addressing various aspects of planning problems: language translation, plan generation, model construction, multi-agent planning, interactive planning, heuristics optimization, tool integration, and brain-inspired planning. For each category, we articulate the issues considered and existing gaps. A critical insight resulting from our review is that the true potential of LLMs unfolds when they are integrated with traditional symbolic planners, pointing towards a promising neuro-symbolic approach. This approach effectively combines the generative aspects of LLMs with the precision of classical planning methods. By synthesizing insights from existing literature, we underline the potential of this integration to address complex planning challenges. Our goal is to encourage the ICAPS community to recognize the complementary strengths of LLMs and symbolic planners, advocating for a direction in automated planning that leverages these synergistic capabilities to develop more advanced and intelligent planning systems. | 翻訳日:2024-01-08 16:51:56 公開日:2024-01-04 |
# 相互情報の時空間一般化 Space-time generalization of mutual information ( http://arxiv.org/abs/2401.02475v1 ) ライセンス: Link先を確認 | Paolo Glorioso, Xiao-Liang Qi, Zhenbin Yang | (参考訳) 相互情報は、システムの空間的に分離された領域間の相関を特徴付ける。
しかし、実験では、時間内に分離された探索作用素を含む動的相関をしばしば測定する。
本稿では、構築により相互情報のいくつかの自然特性を満足する相互情報の時空間的一般化と、時間的に分離されたサブシステム間の相関を特徴付ける。
特に、我々が \emph{space-time mutual information} と呼ぶこの量は、すべての動的相関を束縛する。
この量は、量子仮説テストの考え方に基づいて構成する。
副産物として、我々の定義は実験的に利用可能な設定という観点で透明な解釈を提供する。
我々は、量子チャネル識別のような量子情報理論の他の概念とのつながりを描いている。
最後に,様々な場面における時空間相互情報の挙動について検討し,多体局所化・熱化システムにおけるその長期的挙動を対比する。 The mutual information characterizes correlations between spatially separated regions of a system. Yet, in experiments we often measure dynamical correlations, which involve probing operators that are also separated in time. Here, we introduce a space-time generalization of mutual information which, by construction, satisfies several natural properties of the mutual information and at the same time characterizes correlations across subsystems that are separated in time. In particular, this quantity, that we call the \emph{space-time mutual information}, bounds all dynamical correlations. We construct this quantity based on the idea of the quantum hypothesis testing. As a by-product, our definition provides a transparent interpretation in terms of an experimentally accessible setup. We draw connections with other notions in quantum information theory, such as quantum channel discrimination. Finally, we study the behavior of the space-time mutual information in several settings and contrast its long-time behavior in many-body localizing and thermalizing systems. | 翻訳日:2024-01-08 16:51:31 公開日:2024-01-04 |
# VASE:リアルビデオのオブジェクト中心の外観と形状操作 VASE: Object-Centric Appearance and Shape Manipulation of Real Videos ( http://arxiv.org/abs/2401.02473v1 ) ライセンス: Link先を確認 | Elia Peruzzo, Vidit Goel, Dejia Xu, Xingqian Xu, Yifan Jiang, Zhangyang Wang, Humphrey Shi, Nicu Sebe | (参考訳) 近年,大規模なテキストから画像への生成モデルの成功により,映像編集作業が進められている。
しかし、これらの手法のほとんどは、テキストを用いてホリスティックにフレームを編集し、基礎拡散モデルによって与えられる先行手法を活用し、フレーム間の時間的一貫性を改善することに焦点を当てている。
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
本手法は,最先端の映像編集に類似した性能を示す映像編集タスクの評価を行い,新たな形状編集機能を示す。
詳細、コード、サンプルはプロジェクトのページ(https://helia95.github.io/vase-website/)で閲覧できます。 Recently, several works tackled the video editing task fostered by the success of large-scale text-to-image generative models. However, most of these methods holistically edit the frame using the text, exploiting the prior given by foundation diffusion models and focusing on improving the temporal consistency across frames. In this work, we introduce a framework that is object-centric and is designed to control both the object's appearance and, notably, to execute precise and explicit structural modifications on the object. We build our framework on a pre-trained image-conditioned diffusion model, integrate layers to handle the temporal dimension, and propose training strategies and architectural modifications to enable shape control. We evaluate our method on the image-driven video editing task showing similar performance to the state-of-the-art, and showcasing novel shape-editing capabilities. Further details, code and examples are available on our project page: https://helia95.github.io/vase-website/ | 翻訳日:2024-01-08 16:51:17 公開日:2024-01-04 |
# 複合下水流における排水モデリングのための解釈可能な時系列モデル Interpretable Time Series Models for Wastewater Modeling in Combined Sewer Overflows ( http://arxiv.org/abs/2401.02465v1 ) ライセンス: Link先を確認 | Teodor Chiaburu, Felix Biessmann | (参考訳) 気候変動は社会にますます複雑な課題をもたらす。
洪水、山火事、干ばつなどの極度の気象現象は、より頻繁に、自然に起こり、予知や対応が困難になっている。
本研究は, 豪雨の結果として降雨槽から流出し, 下水汚濁水が表層水域を汚染する問題に特に対処するものである。
本研究は, 最先端の解釈可能な時系列モデルが, 臨界水位予測にどの程度役立つかを検証し, 余剰水が下水ネットワーク上で迅速に再分配されるようにした。
その結果, 現代の時系列モデルは, 下水道の排水管理や環境汚染防止に寄与することが示唆された。
すべてのコードと実験は、私たちのリポジトリで見ることができる。 Climate change poses increasingly complex challenges to our society. Extreme weather events such as floods, wild fires or droughts are becoming more frequent, spontaneous and difficult to foresee or counteract. In this work we specifically address the problem of sewage water polluting surface water bodies after spilling over from rain tanks as a consequence of heavy rain events. We investigate to what extent state-of-the-art interpretable time series models can help predict such critical water level points, so that the excess can promptly be redistributed across the sewage network. Our results indicate that modern time series models can contribute to better waste water management and prevention of environmental pollution from sewer systems. All the code and experiments can be found in our repository: https://github.com/TeodorChiaburu/RIWWER_TimeSeries. | 翻訳日:2024-01-08 16:51:02 公開日:2024-01-04 |
# テキスト記述によるVLM適応によるゼロショット分類の改善 Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions ( http://arxiv.org/abs/2401.02460v1 ) ライセンス: Link先を確認 | Oindrila Saha, Grant Van Horn, Subhransu Maji | (参考訳) CLIPのような既存の視覚言語モデル(VLM)のゼロショット性能は、特定のドメインにおける大規模で整列した画像とテキストデータセットの可用性によって制限される。
本研究では,大言語モデル(LLM)で生成されたカテゴリと,詳細な画像分類データセットの2つの相補的な情報源を利用して,細粒度領域にまたがるVLMのゼロショット分類性能を改善する。
技術面では、この「バグレベル」画像テキスト管理を用いてVLMの訓練方法を開発する。
これらの属性をテスト時に単純に使うと性能は向上しないが、例えばiNaturalistデータセットでは、鳥や花の新規分類におけるゼロショット分類精度が平均4-5%向上する。
同様の改善は、モデルの微調整にカテゴリのサブセットが使われた領域でも観察される。
LLMを様々な方法で促進することにより、視覚的外観、生息地、地理的地域を捉え、それらのカテゴリーの分類学的構造のような既存の属性と組み合わせる記述を生成する。
自然ドメインにおけるゼロショット分類を改善する能力を体系的に評価する。
以上の結果から,地理的先行は視覚的外観と同等に有効である可能性が示唆された。
また,本手法は,VLMのプロンプトベースチューニングにおける先行作業よりも優れていた。
我々は7つのデータセットからなるベンチマークをリリースする予定である。 The zero-shot performance of existing vision-language models (VLMs) such as CLIP is limited by the availability of large-scale, aligned image and text datasets in specific domains. In this work, we leverage two complementary sources of information -- descriptions of categories generated by large language models (LLMs) and abundant, fine-grained image classification datasets -- to improve the zero-shot classification performance of VLMs across fine-grained domains. On the technical side, we develop methods to train VLMs with this "bag-level" image-text supervision. We find that simply using these attributes at test-time does not improve performance, but our training strategy, for example, on the iNaturalist dataset, leads to an average improvement of 4-5% in zero-shot classification accuracy for novel categories of birds and flowers. Similar improvements are observed in domains where a subset of the categories was used to fine-tune the model. By prompting LLMs in various ways, we generate descriptions that capture visual appearance, habitat, and geographic regions and pair them with existing attributes such as the taxonomic structure of the categories. We systematically evaluate their ability to improve zero-shot categorization in natural domains. Our findings suggest that geographic priors can be just as effective and are complementary to visual appearance. Our method also outperforms prior work on prompt-based tuning of VLMs. We plan to release the benchmark, consisting of 7 datasets, which will contribute to future research in zero-shot recognition. | 翻訳日:2024-01-08 16:50:48 公開日:2024-01-04 |
# 計算医療におけるデータ中心の基礎モデルに関する研究 Data-Centric Foundation Models in Computational Healthcare: A Survey ( http://arxiv.org/abs/2401.02458v1 ) ライセンス: Link先を確認 | Yunkun Zhang, Jin Gao, Zheling Tan, Lingfeng Zhou, Kexin Ding, Mu Zhou, Shaoting Zhang, Dequan Wang | (参考訳) 新たなai技術のスイートとしての基盤モデル(fms)の出現は、計算医療における多くの機会を生み出した。
これらのモデルのインタラクティブな性質は、事前トレーニングされたデータと人間の指示によって導かれ、より良いデータ特徴、品質、スケールを強調するデータ中心のAIパラダイムに着火した。
医療AIでは、データ量、アノテーション、患者のプライバシ、倫理など、高品質な臨床データの取得と処理が長年にわたる課題となっている。
本研究では,fm時代(モデル事前トレーニングから推論まで)の医療ワークフロー改善に向けて,幅広いデータ中心アプローチを調査した。
我々は、aiセキュリティ、アセスメント、人間価値との整合における重要な視点について論じる。
最後に,fmベースの分析の展望を提供し,医療と医療の発展の展望における患者の成果と臨床ワークフローのパフォーマンスを向上させる。
医療関連基盤モデルとデータセットの最新のリストはhttps://github.com/Yunkun-Zhang/Data-Centric-FM-Healthcare で公開しています。 The advent of foundation models (FMs) as an emerging suite of AI techniques has struck a wave of opportunities in computational healthcare. The interactive nature of these models, guided by pre-training data and human instructions, has ignited a data-centric AI paradigm that emphasizes better data characterization, quality, and scale. In healthcare AI, obtaining and processing high-quality clinical data records has been a longstanding challenge, ranging from data quantity, annotation, patient privacy, and ethics. In this survey, we investigate a wide range of data-centric approaches in the FM era (from model pre-training to inference) towards improving the healthcare workflow. We discuss key perspectives in AI security, assessment, and alignment with human values. Finally, we offer a promising outlook of FM-based analytics to enhance the performance of patient outcome and clinical workflow in the evolving landscape of healthcare and medicine. We provide an up-to-date list of healthcare-related foundation models and datasets at https://github.com/Yunkun-Zhang/Data-Centric-FM-Healthcare . | 翻訳日:2024-01-08 16:50:22 公開日:2024-01-04 |
# ecil-mu:組込み型クラスインクリメンタル学習と機械学習 eCIL-MU: Embedding based Class Incremental Learning and Machine Unlearning ( http://arxiv.org/abs/2401.02457v1 ) ライセンス: Link先を確認 | Zhiwei Zuo, Zhuo Tang, Bin Wang, Kenli Li and Anwitaman Datta | (参考訳) 新しいカテゴリは時間とともに導入され、既存のカテゴリは再分類される必要がある。
クラスインクリメンタルラーニング(CIL)は、新しいカテゴリに関する知識を段階的に取得すると同時に、そのような動的環境において以前に学習したものに関する情報を保存するために用いられる。
また、再分類に適応するために、関連するカテゴリがモデルに与える影響も排除する必要があるかもしれない。
したがって、cil内にクラスレベルマシンアンラーニング(mu)を導入する。
通常、MUメソッドは時間を要する傾向があり、モデルの性能を害する可能性がある。
非学習要求の連続的なストリームは、破滅的な忘れにつながります。
これらの問題に対処するため,埋め込み技術に基づく非破壊的eCIL-MUフレームワークを提案し,データをベクトルにマッピングし,ベクトルデータベースに格納する。
提案手法は,CILタスクとMUタスクの重なり合いを利用して高速化を行う。
実験は、未学習の有効性と等級(最大$\sim 278\times$)の加速度を達成する能力を示す。 New categories may be introduced over time, or existing categories may need to be reclassified. Class incremental learning (CIL) is employed for the gradual acquisition of knowledge about new categories while preserving information about previously learned ones in such dynamic environments. It might also be necessary to also eliminate the influence of related categories on the model to adapt to reclassification. We thus introduce class-level machine unlearning (MU) within CIL. Typically, MU methods tend to be time-consuming and can potentially harm the model's performance. A continuous stream of unlearning requests could lead to catastrophic forgetting. To address these issues, we propose a non-destructive eCIL-MU framework based on embedding techniques to map data into vectors and then be stored in vector databases. Our approach exploits the overlap between CIL and MU tasks for acceleration. Experiments demonstrate the capability of achieving unlearning effectiveness and orders of magnitude (upto $\sim 278\times$) of acceleration. | 翻訳日:2024-01-08 16:50:05 公開日:2024-01-04 |
# 戦前・戦前・戦前・戦後管理におけるAI対応無人航空システム研究の包括的調査 A comprehensive survey of research towards AI-enabled unmanned aerial systems in pre-, active-, and post-wildfire management ( http://arxiv.org/abs/2401.02456v1 ) ライセンス: Link先を確認 | Sayed Pedram Haeri Boroujeni, Abolfazl Razi, Sahand Khoshdel, Fatemeh Afghah, Janice L. Coen, Leo ONeill, Peter Z. Fule, Adam Watts, Nick-Marios T. Kokolakis, Kyriakos G. Vamvoudakis | (参考訳) 森林火災は世界でも最も破壊的な自然災害の1つとなり、人命と森林の野生生物に壊滅的な被害をもたらした。
近年,無人航空機 (uavs) と深層学習モデルの統合が推進する山火事における人工知能 (ai) の利用は,より効果的な山火事管理の実現と開発において,前例のない勢いを生み出している。
既存の調査論文の中には、さまざまな学習に基づくアプローチを探求しているものもあるが、ai対応のuavシステムの適用と、それに続く多段階ワイルドファイア管理への影響を強調する包括的なレビューは、特に不足している。
今回の調査は、最新の最先端技術に関する体系的なレビューを提供することで、これらのギャップを埋めることを目的としている。
本研究の目的は,UAVの高度化,デバイス仕様,および山火事管理に関連するセンサ技術を中心に,既存のリモートセンシングシステムを広範囲に分析することである。
また, 火災前・火災後管理手法として, 燃料監視, 予防対策, 避難計画, 被害評価, 運用戦略についても検討した。
さらに,野火分類,セグメンテーション,検出,監視タスクのための機械学習(ML),強化学習(RL),深層学習(DL)アルゴリズムを中心に,アクティブファイアマネージメントにおける幅広いコンピュータビジョン技術の検討と要約を行った。
最終的に私たちは、最先端のAI技術とUAVベースのデータを統合し、動的な山火事の振る舞いを理解するための新しい洞察と予測能力を提供することで、山火事モデリングの大幅な進歩を強調します。 Wildfires have emerged as one of the most destructive natural disasters worldwide, causing catastrophic losses in both human lives and forest wildlife. Recently, the use of Artificial Intelligence (AI) in wildfires, propelled by the integration of Unmanned Aerial Vehicles (UAVs) and deep learning models, has created an unprecedented momentum to implement and develop more effective wildfire management. Although some of the existing survey papers have explored various learning-based approaches, a comprehensive review emphasizing the application of AI-enabled UAV systems and their subsequent impact on multi-stage wildfire management is notably lacking. This survey aims to bridge these gaps by offering a systematic review of the recent state-of-the-art technologies, highlighting the advancements of UAV systems and AI models from pre-fire, through the active-fire stage, to post-fire management. To this aim, we provide an extensive analysis of the existing remote sensing systems with a particular focus on the UAV advancements, device specifications, and sensor technologies relevant to wildfire management. We also examine the pre-fire and post-fire management approaches, including fuel monitoring, prevention strategies, as well as evacuation planning, damage assessment, and operation strategies. Additionally, we review and summarize a wide range of computer vision techniques in active-fire management, with an emphasis on Machine Learning (ML), Reinforcement Learning (RL), and Deep Learning (DL) algorithms for wildfire classification, segmentation, detection, and monitoring tasks. Ultimately, we underscore the substantial advancement in wildfire modeling through the integration of cutting-edge AI techniques and UAV-based data, providing novel insights and enhanced predictive capabilities to understand dynamic wildfire behavior. | 翻訳日:2024-01-08 16:49:48 公開日:2024-01-04 |
# 単一分子分解能空間転写学における空間点過程による未来状態の予測 Predicting Future States with Spatial Point Processes in Single Molecule Resolution Spatial Transcriptomics ( http://arxiv.org/abs/2401.02564v1 ) ライセンス: Link先を確認 | Parisa Boodaghi Malidarreh, Biraaj Rout, Mohammad Sadegh Nasr, Priyanshi Borad, Jillur Rahman Saurav, Jai Prakash Veerla, Kelli Fenelon, Theodora Koromila, Jacob M. Luber | (参考訳) 本稿では,胚発生過程においてショウジョウバエの前後葉(ap)および背側腹側(dv)軸の両方においてsog-d遺伝子(活性細胞)によって発現される細胞の将来分布を予測するために,ランダムフォレスト回帰に基づくパイプラインを提案する。
この方法により、スーパーレゾリューション全胚空間転写酵素イメージングにおける細胞と生物が遺伝子発現をどのように制御するかについての洞察が得られる。
ランダムフォレスト回帰モデルを用いて、前のモデルに基づいて次のステージのアクティブ分布を予測した。
この目的を達成するために, 胚発生の各段階において, リプリーのK-関数を細胞の状態と組み合わせることで時間分解された空間的点過程を利用し, 活性細胞分布の予測精度を推定した。
このツールは、空間分解型発達生物学におけるrna速度と類似しており、あるデータポイントから、空間分解型遺伝子の発現を空間点過程の特徴を用いて予測できる。 In this paper, we introduce a pipeline based on Random Forest Regression to predict the future distribution of cells that are expressed by the Sog-D gene (active cells) in both the Anterior to posterior (AP) and the Dorsal to Ventral (DV) axis of the Drosophila in embryogenesis process. This method provides insights about how cells and living organisms control gene expression in super resolution whole embryo spatial transcriptomics imaging at sub cellular, single molecule resolution. A Random Forest Regression model was used to predict the next stage active distribution based on the previous one. To achieve this goal, we leveraged temporally resolved, spatial point processes by including Ripley's K-function in conjunction with the cell's state in each stage of embryogenesis, and found average predictive accuracy of active cell distribution. This tool is analogous to RNA Velocity for spatially resolved developmental biology, from one data point we can predict future spatially resolved gene expression using features from the spatial point processes. | 翻訳日:2024-01-08 16:41:11 公開日:2024-01-04 |
# MeTA: マルチソーステスト時間適応 MeTA: Multi-source Test Time Adaptation ( http://arxiv.org/abs/2401.02561v1 ) ライセンス: Link先を確認 | Sk Miraj Ahmed, Fahim Faisal Niloy, Dripta S. Raychaudhuri, Samet Oymak, Amit K. Roy-Chowdhury | (参考訳) テスト時間適応(英語: test time adaptation)とは、テストデータの入ってくるバッチ(つまり、テストデータの大部分を必要とせず、従来のドメイン適応のように)に事前訓練されたソースモデルを適用し、ソースデータにアクセスせずに適用するプロセスである。
テストデータのバッチで動作するため、データがストリーミングされるときに意思決定を行う必要がある動的環境に適しています。
現在のテスト時間適応法は主に単一ソースモデルに焦点を当てている。
複数のソースモデルを処理し、テストデータに最適な組み合わせをする、完全に教師なしのMulti-source Test Time Adaptation (MeTA) フレームワークを提案する。
MeTAには2つの特徴がある。
まず、ソースモデルを組み合わせてテストデータ分布に適応するための最適な組み合わせ重み付けを効率よく取得する。
第二に、対象データに最も相関の強いモデルのみを適用するように更新すべきソースモデルパラメータのどれかを識別し、対象データに最も相関の少ないモデルのみを未修正にしておくことにより、テストバッチ分布と強い相関を示すソースモデルのみに注目することで、ソースモデルパラメータを"忘れ"する問題を軽減する。
多様なデータセットに関する実験により、複数のソースモデルの組み合わせは、少なくとも最高のソース(後見の知識を伴う)だけでなく、テストデータの分散が時間とともに変化するため、パフォーマンスが低下しないことが示された。 Test time adaptation is the process of adapting, in an unsupervised manner, a pre-trained source model to each incoming batch of the test data (i.e., without requiring a substantial portion of the test data to be available, as in traditional domain adaptation) and without access to the source data. Since it works with each batch of test data, it is well-suited for dynamic environments where decisions need to be made as the data is streaming in. Current test time adaptation methods are primarily focused on a single source model. We propose the first completely unsupervised Multi-source Test Time Adaptation (MeTA) framework that handles multiple source models and optimally combines them to adapt to the test data. MeTA has two distinguishing features. First, it efficiently obtains the optimal combination weights to combine the source models to adapt to the test data distribution. Second, it identifies which of the source model parameters to update so that only the model which is most correlated to the target data is adapted, leaving the less correlated ones untouched; this mitigates the issue of "forgetting" the source model parameters by focusing only on the source model that exhibits the strongest correlation with the test batch distribution. Experiments on diverse datasets demonstrate that the combination of multiple source models does at least as well as the best source (with hindsight knowledge), and performance does not degrade as the test data distribution changes over time (robust to forgetting). | 翻訳日:2024-01-08 16:40:50 公開日:2024-01-04 |
# リアルタイム意思決定のための長期公正性:制約付きオンライン最適化アプローチ Long-term Fairness For Real-time Decision Making: A Constrained Online Optimization Approach ( http://arxiv.org/abs/2401.02552v1 ) ライセンス: Link先を確認 | Ruijie Du, Deepan Muthirayan, Pramod P. Khargonekar and Yanning Shen | (参考訳) 機械学習(ML)は、予測モデリングからインテリジェントオートメーションまで、多くの現実世界のシステムで顕著な機能を示している。
しかし、機械学習の広範な統合は、機械学習駆動の意思決定システムが、彼らが運営する社会の倫理的原則や価値観に違反しないことを保証する必要もある。
MLが主導する決定が、特に性別、人種、年齢などのセンシティブな属性が関係する場合には、いくつかの例を挙げると、公平性や公平性の必要性が根本的な懸念として現れている。
リアルタイムな意思決定を必要とする状況では、公平さの目標はより曖昧で複雑になり、時間帯ごとに公平性を確保するための即時公正と、一定期間にわたって公平性を確保するための長期的な公正である。
長期にわたって運用し、異なるタイムラインに対して公平性を必要とする現実世界のシステムに対する認識が高まっている。
しかし、既存のアプローチは主に時間不変公正制約による動的コストに対処し、時間不変公正制約による課題を無視することが多い。
このギャップを埋めるために、この研究は時間変動公正性制約を特徴とする動的意思決定システムにおける長期公正性を保証するための枠組みを導入する。
制約付きオンライン最適化問題として,一定期間の公平性制約で決定問題を定式化する。
lotfairと呼ばれる新しいオンラインアルゴリズムが提示され、'オンザフライ'の問題を解く。
LoTFairは、長期にわたってパフォーマンスを維持しながら、全体的な公平性違反を無視できることを示す。 Machine learning (ML) has demonstrated remarkable capabilities across many real-world systems, from predictive modeling to intelligent automation. However, the widespread integration of machine learning also makes it necessary to ensure machine learning-driven decision-making systems do not violate ethical principles and values of society in which they operate. As ML-driven decisions proliferate, particularly in cases involving sensitive attributes such as gender, race, and age, to name a few, the need for equity and impartiality has emerged as a fundamental concern. In situations demanding real-time decision-making, fairness objectives become more nuanced and complex: instantaneous fairness to ensure equity in every time slot, and long-term fairness to ensure fairness over a period of time. There is a growing awareness that real-world systems that operate over long periods and require fairness over different timelines. However, existing approaches mainly address dynamic costs with time-invariant fairness constraints, often disregarding the challenges posed by time-varying fairness constraints. To bridge this gap, this work introduces a framework for ensuring long-term fairness within dynamic decision-making systems characterized by time-varying fairness constraints. We formulate the decision problem with fairness constraints over a period as a constrained online optimization problem. A novel online algorithm, named LoTFair, is presented that solves the problem 'on the fly'. We prove that LoTFair can make overall fairness violations negligible while maintaining the performance over the long run. | 翻訳日:2024-01-08 16:40:25 公開日:2024-01-04 |
# optflow: 監督なしでの最適化に基づくシーンフロー推定 OptFlow: Fast Optimization-based Scene Flow Estimation without Supervision ( http://arxiv.org/abs/2401.02550v1 ) ライセンス: Link先を確認 | Rahul Ahuja, Chris Baker, Wilko Schwarting | (参考訳) シーンフロー推定は、自律運転と3dロボットの開発において重要な要素であり、環境認識とナビゲーションに有用な情報を提供する。
学習に基づくシーンフロー推定手法の利点にもかかわらず、ドメインの特異性とさまざまなシナリオにわたる限定的な一般化が課題となる。
対照的に、ロバストな事前設定や正規化を組み込んだ非学習最適化ベースの手法は、競争力のあるシーンフロー推定性能を提供し、トレーニングを必要とせず、データセットにまたがる広範な適用性を示すが、長い推論時間に苦しむ。
本稿では,高速な最適化に基づくシーンフロー推定手法であるOpsFlowを提案する。
optflowは、学習やラベル付きデータセットに頼ることなく、人気のある自動運転ベンチマークでシーンフロー推定の最先端のパフォーマンスを実現する。
一致マッチングのための局所相関重み行列、最寄り探索のための適応対応対応しきい値限界、グラフ前の剛性制約を統合し、高速収束と点対応同定の改善をもたらす。
さらに,目的関数にポイントクラウド登録機能を統合することで,外部のオドメトリデータに頼らずに,静的点と動的点を区別できることを示す。
したがって、オプティフローは、ベースライングラフ優先法を約20%、ニューラルシーンフロー優先法を5%〜7%精度で上回り、非学習シーンフロー推定法で最速の推論時間を提供する。 Scene flow estimation is a crucial component in the development of autonomous driving and 3D robotics, providing valuable information for environment perception and navigation. Despite the advantages of learning-based scene flow estimation techniques, their domain specificity and limited generalizability across varied scenarios pose challenges. In contrast, non-learning optimization-based methods, incorporating robust priors or regularization, offer competitive scene flow estimation performance, require no training, and show extensive applicability across datasets, but suffer from lengthy inference times. In this paper, we present OptFlow, a fast optimization-based scene flow estimation method. Without relying on learning or any labeled datasets, OptFlow achieves state-of-the-art performance for scene flow estimation on popular autonomous driving benchmarks. It integrates a local correlation weight matrix for correspondence matching, an adaptive correspondence threshold limit for nearest-neighbor search, and graph prior rigidity constraints, resulting in expedited convergence and improved point correspondence identification. Moreover, we demonstrate how integrating a point cloud registration function within our objective function bolsters accuracy and differentiates between static and dynamic points without relying on external odometry data. Consequently, OptFlow outperforms the baseline graph-prior method by approximately 20% and the Neural Scene Flow Prior method by 5%-7% in accuracy, all while offering the fastest inference time among all non-learning scene flow estimation methods. | 翻訳日:2024-01-08 16:39:59 公開日:2024-01-04 |
# 定量的技術予測--トレンド外挿法の検討 Quantitative Technology Forecasting: a Review of Trend Extrapolation Methods ( http://arxiv.org/abs/2401.02549v1 ) ライセンス: Link先を確認 | Peng-Hung Tsai, Daniel Berleant, Richard S. Segall, Hyacinthe Aboudja, Venkata Jaipal R. Batthula, Sheela Duggirala and Michael Howell | (参考訳) 定量的技術予測は、定量的手法を使って技術的な変化を理解し、予測する。
多くの異なる技術を含む広い分野であり、幅広い技術に適用されている。
この分野で広く使われているアプローチはトレンド外挿である。
論文を参考に,定量的な外挿法に関する実証的証拠を体系的に検証する試みは,ほとんど,あるいは全く行われていない。
本研究では,このギャップを解消するために,定量的トレンド補間手法の適用に対処する文献予測技術について,体系的なレビューを行った。
本研究では,本研究の目的に関連する25の研究を同定し,成長曲線と時系列法が過去10年間にわたって人気を保ち続けているのに対して,機械学習によるハイブリッドモデルのような新しい手法が近年出現している分野に分類した。
ハイブリッドモデルが従来の方法よりも優れているかどうかを判断するためには、より多くの努力と証拠が必要となるため、ハイブリッドモデルの開発と技術予測への応用におけるトレンドが高まることを期待する。 Quantitative technology forecasting uses quantitative methods to understand and project technological changes. It is a broad field encompassing many different techniques and has been applied to a vast range of technologies. A widely used approach in this field is trend extrapolation. Based on the publications available to us, there has been little or no attempt made to systematically review the empirical evidence on quantitative trend extrapolation techniques. This study attempts to close this gap by conducting a systematic review of technology forecasting literature addressing the application of quantitative trend extrapolation techniques. We identified 25 studies relevant to the objective of this research and classified the techniques used in the studies into different categories, among which growth curves and time series methods were shown to remain popular over the past decade, while newer methods, such as machine learning-based hybrid models, have emerged in recent years. As more effort and evidence are needed to determine if hybrid models are superior to traditional methods, we expect to see a growing trend in the development and application of hybrid models to technology forecasting. | 翻訳日:2024-01-08 16:39:32 公開日:2024-01-04 |
# 疎ベイズ学習モデルのハイパーパラメータ推定 Hyperparameter Estimation for Sparse Bayesian Learning Models ( http://arxiv.org/abs/2401.02544v1 ) ライセンス: Link先を確認 | Feng Yu and Lixin Shen and Guohui Song | (参考訳) スパースベイズ学習(SBL)モデルは信号処理や機械学習に広く使われ、階層的な事前処理によって空間性を促進する。
SBLモデルにおけるハイパーパラメータはモデルの性能に不可欠であるが、非凸性や関連する目的関数の高次元性のために推定することがしばしば困難である。
本稿では,予測最大化(EM),MacKay,凸バウンディング(CB)アルゴリズムなどのよく知られたアルゴリズムを含む,SBLモデルにおけるハイパーパラメータ推定のための包括的フレームワークを提案する。
これらのアルゴリズムは交互に最小化と線形化(aml)のパラダイムの中で結合的に解釈される。
さらに、AMLフレームワーク内の新しいアルゴリズムを導入し、特に低信号雑音比下での高効率性を示す。
これは、近位正規化項を含む新しい交互最小化と二次近似(AMQ)パラダイムによってさらに改善される。
本論文は, 様々な雑音条件と信号対雑音比におけるアルゴリズムの有効性を実証し, 完全収束解析と数値実験によりこれらの進歩を実証する。 Sparse Bayesian Learning (SBL) models are extensively used in signal processing and machine learning for promoting sparsity through hierarchical priors. The hyperparameters in SBL models are crucial for the model's performance, but they are often difficult to estimate due to the non-convexity and the high-dimensionality of the associated objective function. This paper presents a comprehensive framework for hyperparameter estimation in SBL models, encompassing well-known algorithms such as the expectation-maximization (EM), MacKay, and convex bounding (CB) algorithms. These algorithms are cohesively interpreted within an alternating minimization and linearization (AML) paradigm, distinguished by their unique linearized surrogate functions. Additionally, a novel algorithm within the AML framework is introduced, showing enhanced efficiency, especially under low signal noise ratios. This is further improved by a new alternating minimization and quadratic approximation (AMQ) paradigm, which includes a proximal regularization term. The paper substantiates these advancements with thorough convergence analysis and numerical experiments, demonstrating the algorithm's effectiveness in various noise conditions and signal-to-noise ratios. | 翻訳日:2024-01-08 16:39:16 公開日:2024-01-04 |
# 科学文献を対象としたコミュニティ検出とグラフニューラルネットワークに基づくリンク予測手法 A Community Detection and Graph Neural Network Based Link Prediction Approach for Scientific Literature ( http://arxiv.org/abs/2401.02542v1 ) ライセンス: Link先を確認 | Chunjiang Liu, Yikun Han, Haiyun Xu, Shihan Yang, Kaidi Wang, Yongye Su | (参考訳) 本研究では,コミュニティ検出アルゴリズムとグラフニューラルネットワーク(gnn)モデルを統合し,学術文献ネットワークにおけるリンク予測を強化する革新的な手法を提案する。
特に,これらのネットワーク内の潜在コミュニティ構造を明らかにするために,ルーバインコミュニティ検出アルゴリズムの活用に注目し,gnnアーキテクチャに組み込まれ,潜在的なリンクを予測する。
本手法は,複雑なネットワークにおけるコミュニティダイナミクスの理解の重要性を実証し,コミュニティ検出とGNNの長所を利用して予測精度を向上させる。
科学的なコラボレーションや引用を表現する2部グラフの広範な実験を通じて,コミュニティ検出とgnnの相乗効果を強調するだけでなく,スケーラビリティや解決限界など,リンク予測における一般的な課題にも対処した。
その結果,コミュニティレベルの情報の導入は,リンク予測タスクにおけるGNNの性能を大幅に向上させる可能性が示唆された。
この研究は、高度な機械学習技術と従来のネットワーク分析手法を統合する新しい視点を提供することで、ネットワーク科学の発展に寄与し、科学コラボレーションの複雑なパターンをよりよく理解し、予測する。 This study introduces an innovative approach that integrates community detection algorithms with Graph Neural Network (GNN) models to enhance link prediction in scientific literature networks. We specifically focus on the utilization of the Louvain community detection algorithm to uncover latent community structures within these networks, which are then incorporated into GNN architectures to predict potential links. Our methodology demonstrates the importance of understanding community dynamics in complex networks and leverages the strengths of both community detection and GNNs to improve predictive accuracy. Through extensive experiments on bipartite graphs representing scientific collaborations and citations, our approach not only highlights the synergy between community detection and GNNs but also addresses some of the prevalent challenges in link prediction, such as scalability and resolution limits. The results suggest that incorporating community-level information can significantly enhance the performance of GNNs in link prediction tasks. This work contributes to the evolving field of network science by offering a novel perspective on integrating advanced machine learning techniques with traditional network analysis methods to better understand and predict the intricate patterns of scientific collaborations. | 翻訳日:2024-01-08 16:38:56 公開日:2024-01-04 |
# DISO:結晶材料の転位モデリングのためのドメインオントロジー DISO: A Domain Ontology for Modeling Dislocations in Crystalline Materials ( http://arxiv.org/abs/2401.02540v1 ) ライセンス: Link先を確認 | Ahmad Zainul Ihsan and Said Fathalla and Stefan Sandfeld | (参考訳) 金属や半導体などの結晶材料は、ほとんど常に転位と呼ばれる特別な欠陥型を含んでいる。
この欠陥は、強度、破壊靭性、延性など多くの重要な材料特性を決定的に決定する。
近年,実験的なキャラクタリゼーション手法とシミュレーションにより,異なる長さスケールでの転位挙動の把握に多大な努力が払われている。
本稿では, 結晶材料の線形欠陥に関する概念と関係を定義した転位オントロジー(DISO)を紹介する。
我々は、転位領域における最も一般的な概念とそれに続く特殊化を定義するトップダウンアプローチを用いて、disOを開発した。
disoはw3cのベストプラクティスに従って、linked dataを公開する永続urlを通じて公開される。
DISOの2つの潜在的なユースケースは、転位ダイナミクス領域におけるその有用性を示すものである。
オントロジーの評価は,実世界のドメインをモデル化する上でのオントロジーの成功と,オントロジーの豊かさを2方向に評価する。 Crystalline materials, such as metals and semiconductors, nearly always contain a special defect type called dislocation. This defect decisively determines many important material properties, e.g., strength, fracture toughness, or ductility. Over the past years, significant effort has been put into understanding dislocation behavior across different length scales via experimental characterization techniques and simulations. This paper introduces the dislocation ontology (DISO), which defines the concepts and relationships related to linear defects in crystalline materials. We developed DISO using a top-down approach in which we start defining the most general concepts in the dislocation domain and subsequent specialization of them. DISO is published through a persistent URL following W3C best practices for publishing Linked Data. Two potential use cases for DISO are presented to illustrate its usefulness in the dislocation dynamics domain. The evaluation of the ontology is performed in two directions, evaluating the success of the ontology in modeling a real-world domain and the richness of the ontology. | 翻訳日:2024-01-08 16:38:38 公開日:2024-01-04 |
# 仮想固定具を用いたロボット支援深部静脈血栓症超音波検査 Robot-Assisted Deep Venous Thrombosis Ultrasound Examination using Virtual Fixture ( http://arxiv.org/abs/2401.02539v1 ) ライセンス: Link先を確認 | Dianye Huang, Chenguang Yang, Mingchuan Zhou, Angelos Karlas, Nassir Navab, Zhongliang Jiang | (参考訳) 深部静脈血栓症(英: deep venous thrombosis, dvt)は、深部静脈に血塊がある一般的な血管疾患であり、血流を遮断したり、生命を脅かす肺塞栓症を引き起こすこともある。
超音波(US)イメージングを用いたDVTの典型的な試験は、路面が完全に圧縮されるまで標的静脈を押すことである。
しかし、圧縮試験は操作者に依存します。
そこで本研究では,位置と力の追跡精度を保証し,プローブを目標面に軟着陸させるハイブリッド力移動制御方式の米国ロボットシステムを提案する。
さらに,損傷箇所での繰り返し圧縮操作において,容易に人間とロボットのインタラクションを実現するために,パスベースの仮想フィクスチャを提案する。
異なる検査で得られた生体計測値が同等であることを保証するため、外部rgbdカメラとus画像の両方を用いて6次元走査路を粗く微視的に決定する。
RGBDカメラは、まずオブジェクトの粗い走査経路を抽出するために使用される。
次に、us画像からの分割血管腔を用いて走査路を最適化し、対象物体の視認性を確保する。
仮想フィクスチャを開発するための連続走査パスを生成するために、位置と向きの両方を考慮した弧長経路フィッティングモデルを提案する。
最後に、システム全体が不均一な表面を持つヒトのような腕ファントムで評価される。 Deep Venous Thrombosis (DVT) is a common vascular disease with blood clots inside deep veins, which may block blood flow or even cause a life-threatening pulmonary embolism. A typical exam for DVT using ultrasound (US) imaging is by pressing the target vein until its lumen is fully compressed. However, the compression exam is highly operator-dependent. To alleviate intra- and inter-variations, we present a robotic US system with a novel hybrid force motion control scheme ensuring position and force tracking accuracy, and soft landing of the probe onto the target surface. In addition, a path-based virtual fixture is proposed to realize easy human-robot interaction for repeat compression operation at the lesion location. To ensure the biometric measurements obtained in different examinations are comparable, the 6D scanning path is determined in a coarse-to-fine manner using both an external RGBD camera and US images. The RGBD camera is first used to extract a rough scanning path on the object. Then, the segmented vascular lumen from US images are used to optimize the scanning path to ensure the visibility of the target object. To generate a continuous scan path for developing virtual fixtures, an arc-length based path fitting model considering both position and orientation is proposed. Finally, the whole system is evaluated on a human-like arm phantom with an uneven surface. | 翻訳日:2024-01-08 16:38:22 公開日:2024-01-04 |
# 畳み込みニューラルネットワークにおける特異値分解を用いた脳腫瘍分割精度の向上 Using Singular Value Decomposition in a Convolutional Neural Network to Improve Brain Tumor Segmentation Accuracy ( http://arxiv.org/abs/2401.02537v1 ) ライセンス: Link先を確認 | Pegah Ahadian, Maryam Babaei, Kourosh Parand | (参考訳) 脳腫瘍は異常な脳の成長を示す細胞からなる。
脳腫瘍の面積は、治療の種類の選択と治療中の疾患の経過に大きく影響する。
同時に、脳MRIの画像にはノイズが伴っている。
既存のノイズの除去は、脳腫瘍の分節化と診断に著しく影響を及ぼす。
本研究では,固有値の解析を試みた。
我々は,MSVDアルゴリズムを用いて画像ノイズを低減し,深部ニューラルネットワークを用いて画像中の腫瘍を分割した。
提案手法の精度は, 従来の画像と比較して2.4%向上した。
MSVD法により収束速度も向上し,提案手法の有効性を示した。 A brain tumor consists of cells showing abnormal brain growth. The area of the brain tumor significantly affects choosing the type of treatment and following the course of the disease during the treatment. At the same time, pictures of Brain MRIs are accompanied by noise. Eliminating existing noises can significantly impact the better segmentation and diagnosis of brain tumors. In this work, we have tried using the analysis of eigenvalues. We have used the MSVD algorithm, reducing the image noise and then using the deep neural network to segment the tumor in the images. The proposed method's accuracy was increased by 2.4% compared to using the original images. With Using the MSVD method, convergence speed has also increased, showing the proposed method's effectiveness | 翻訳日:2024-01-08 16:37:58 公開日:2024-01-04 |
# ナノリソグラフィモデリングと補正のためのエンド・ツー・エンド生産対応機械学習 Novel End-to-End Production-Ready Machine Learning Flow for Nanolithography Modeling and Correction ( http://arxiv.org/abs/2401.02536v1 ) ライセンス: Link先を確認 | Mohamed S. E. Habib, Hossam A. H. Fahmy, Mohamed F. Abu-ElYazeed | (参考訳) 光リソグラフィーは半導体製造の主要な実現手段である。
設計データをIC(Integrated Circuits)に転送するために必要な解像度向上技術(RET)を実行するには、広範囲な処理が必要である。
RETsタスクの処理能力と計算ランタイムは、機能サイズが継続的に小さくなり、チップ領域が拡張され、ますます増大している。
最先端の研究は、ランタイムと計算能力を減らすために機械学習(ML)技術を模索したが、まだ本番環境では使われていない。
本研究では,ML 計算リソグラフィーの運用準備が整っていない理由を解析し,ML-RET の修正が可能な,スケーラブルなエンドツーエンドフローを新たに提示する。 Optical lithography is the main enabler to semiconductor manufacturing. It requires extensive processing to perform the Resolution Enhancement Techniques (RETs) required to transfer the design data to a working Integrated Circuits (ICs). The processing power and computational runtime for RETs tasks is ever increasing due to the continuous reduction of the feature size and the expansion of the chip area. State-of-the-art research sought Machine Learning (ML) technologies to reduce runtime and computational power, however they are still not used in production yet. In this study, we analyze the reasons holding back ML computational lithography from being production ready and present a novel highly scalable end-to-end flow that enables production ready ML-RET correction. | 翻訳日:2024-01-08 16:37:49 公開日:2024-01-04 |
# 散逸を用いたラマン量子ビットのコヒーレント重ね合わせの生成 Creation of coherent superpositions of Raman qubits by using dissipation ( http://arxiv.org/abs/2401.02535v1 ) ライセンス: Link先を確認 | Andon A. Rangelov and Nikolay V. Vitanov | (参考訳) 3つの状態のランダ量子系の基底状態の間に、中間状態が崩壊するコヒーレントな重ね合わせを作る方法を示す。
この考え方は、2つの地上州によって形成された明るい州の人口を人口減少チャンネルを通じて枯渇させることである。
残りの人口は暗黒状態(英語版)に閉じ込められ、基底状態の任意の所望のコヒーレント重ね合わせと等しいように設計することができる。
現在の概念は、コヒーレントな重ね合わせの遅い断熱的な生成の代替であり、したがって、特に中間状態が短い寿命を持つ場合において、短時間で実現される可能性がある。
しかし、急速な進化のために私たちが支払う価格は、全体の50%の人口減少と関連している。
この問題は、選択後を使って実験で取り除くことができる。 We show how to create coherent superpositions between two ground states of Lamda quantum system of three states, among which the middle one decays. The idea is to deplete the population of the bright state formed by the two ground states via the population loss channel. The remaining population is trapped in the dark states, which can be designed to be equal to any desired coherent superposition of the ground states. The present concept is an alternative to the slow adiabatic creation of coherent superpositions and may therefore be realized over short times, especially in the case where the middle state has a short life span. However, the price we pay for the fast evolution is associated with an overall 50% population losses. This issue can be removed in an experiment by using post-selection. | 翻訳日:2024-01-08 16:37:34 公開日:2024-01-04 |
# 分岐変分オートエンコーダ分類器 Branched Variational Autoencoder Classifiers ( http://arxiv.org/abs/2401.02526v1 ) ライセンス: Link先を確認 | Ahmed Salah and David Yevick | (参考訳) 本稿では、追加のニューラルネットワーク分岐を含む変分オートエンコーダ(VAE)を導入する。
結果として得られた分岐VAE(BVAE)は、クラスラベルに基づく分類成分を総損失に寄与し、従って潜在表現に分類情報を付与する。
これにより、入力クラスの潜在空間分布を分離して順序付けし、分類精度を高めることができる。
改良度は、回転しない桁と回転した桁のベンチマークMNISTデータセットを用いた数値計算によって定量化される。
提案手法は, 出力分布を固定したVAEに比較し, 組み込む。
この手法により, 広範囲の出力分布の性能が向上することがわかった。 This paper introduces a modified variational autoencoder (VAEs) that contains an additional neural network branch. The resulting branched VAE (BVAE) contributes a classification component based on the class labels to the total loss and therefore imparts categorical information to the latent representation. As a result, the latent space distributions of the input classes are separated and ordered, thereby enhancing the classification accuracy. The degree of improvement is quantified by numerical calculations employing the benchmark MNIST dataset for both unrotated and rotated digits. The proposed technique is then compared to and then incorporated into a VAE with fixed output distributions. This procedure is found to yield improved performance for a wide range of output distributions. | 翻訳日:2024-01-08 16:37:21 公開日:2024-01-04 |
# 総合的な合成データ生成の探索:サーベイ Comprehensive Exploration of Synthetic Data Generation: A Survey ( http://arxiv.org/abs/2401.02524v1 ) ライセンス: Link先を確認 | Andr\'e Bauer, Simon Trapp, Michael Stenger, Robert Leppich, Samuel Kounev, Mark Leznik, Kyle Chard, Ian Foster | (参考訳) 近年、機械学習(ML)の人気が高まっており、さまざまな領域にまたがって適用されている。
しかし、高価な買収とプライバシー法によって、トレーニングデータの不足が進行を妨げている。
合成データは解決策として現れるが、リリースされたモデルと限られた概要文献が、意思決定に挑戦する。
この研究は、過去10年間に417のSynthetic Data Generation(SDG)モデルを調査し、モデルタイプ、機能、改善に関する包括的な概要を提供する。
一般的な属性は識別され、分類とトレンド分析につながる。
この結果は、プライバシ保存データ生成を除いて、ニューラルネットワークベースのアプローチが普及するにつれて、モデルのパフォーマンスと複雑性が向上することを示している。
コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。
パフォーマンス評価による影響は、一般的なメトリクスとデータセットの不足を強調し、比較を困難にしています。
さらに、文学におけるトレーニングや計算コストの無視は、将来の研究に注意を必要とする。
この研究はSDGモデル選択のガイドとして機能し、将来の探査にとって重要な領域を特定する。 Recent years have witnessed a surge in the popularity of Machine Learning (ML), applied across diverse domains. However, progress is impeded by the scarcity of training data due to expensive acquisition and privacy legislation. Synthetic data emerges as a solution, but the abundance of released models and limited overview literature pose challenges for decision-making. This work surveys 417 Synthetic Data Generation (SDG) models over the last decade, providing a comprehensive overview of model types, functionality, and improvements. Common attributes are identified, leading to a classification and trend analysis. The findings reveal increased model performance and complexity, with neural network-based approaches prevailing, except for privacy-preserving data generation. Computer vision dominates, with GANs as primary generative models, while diffusion models, transformers, and RNNs compete. Implications from our performance evaluation highlight the scarcity of common metrics and datasets, making comparisons challenging. Additionally, the neglect of training and computational costs in literature necessitates attention in future research. This work serves as a guide for SDG model selection and identifies crucial areas for future exploration. | 翻訳日:2024-01-08 16:37:11 公開日:2024-01-04 |
# スマートデジタル双生児のための画像ベースディープラーニング : レビュー Image-based Deep Learning for Smart Digital Twins: a Review ( http://arxiv.org/abs/2401.02523v1 ) ライセンス: Link先を確認 | Md Ruman Islam, Mahadevan Subramaniam, Pei-Chi Huang (Department of Computer Science, University of Nebraska at Omaha, Omaha, NE, USA) | (参考訳) スマートデジタルツイン(SDT)は、システムの動作を制御することで、これらのシステムの性能の最適化を可能にする連続データ同化を通じて、複雑な物理システムの振る舞いを仮想的に再現し、予測するために、ますます使われている。
近年、ディープラーニング(DL)モデルは、特に予測保守、異常検出、最適化といったタスクにおいて、SDTの機能を大幅に強化している。
医学、工学、教育を含む多くの分野において、sdtは画像データ(画像ベースのsdt)を使用してシステムの振る舞いを観察し学習し、行動を制御する。
本稿では,物理システムから画像データを継続的に同化することにより,画像ベースsdtの開発における様々なアプローチと課題について述べる。
また,データ取得,処理,解釈など,sdts用のdlモデルの設計と実装に関する課題についても論じた。
さらに、ロバストなsdtを開発するための新しいイメージベースのdlアプローチを開発するための今後の方向性と機会に関する洞察を提供する。
これには、データ拡張に生成モデルを使用する可能性、マルチモーダルDLモデルの開発、および5Gやエッジコンピューティング、IoTなど、他のテクノロジとのDL統合の探求が含まれている。
本稿では,様々な領域にまたがるデジタルツインDTパラダイムの広範な採用を可能にする画像ベースSDTについて述べるとともに,複雑なシステムの動作の複製,予測,最適化におけるSDTの能力向上のための新しい手法の開発について述べる。 Smart Digital twins (SDTs) are being increasingly used to virtually replicate and predict the behaviors of complex physical systems through continual data assimilation enabling the optimization of the performance of these systems by controlling the actions of systems. Recently, deep learning (DL) models have significantly enhanced the capabilities of SDTs, particularly for tasks such as predictive maintenance, anomaly detection, and optimization. In many domains, including medicine, engineering, and education, SDTs use image data (image-based SDTs) to observe and learn system behaviors and control their behaviors. This paper focuses on various approaches and associated challenges in developing image-based SDTs by continually assimilating image data from physical systems. The paper also discusses the challenges involved in designing and implementing DL models for SDTs, including data acquisition, processing, and interpretation. In addition, insights into the future directions and opportunities for developing new image-based DL approaches to develop robust SDTs are provided. This includes the potential for using generative models for data augmentation, developing multi-modal DL models, and exploring the integration of DL with other technologies, including 5G, edge computing, and IoT. In this paper, we describe the image-based SDTs, which enable broader adoption of the digital twin DT paradigms across a broad spectrum of areas and the development of new methods to improve the abilities of SDTs in replicating, predicting, and optimizing the behavior of complex systems. | 翻訳日:2024-01-08 16:36:53 公開日:2024-01-04 |
# t-DGR:意思決定における連続学習のための軌道ベース深層生成再生法 t-DGR: A Trajectory-Based Deep Generative Replay Method for Continual Learning in Decision Making ( http://arxiv.org/abs/2401.02576v1 ) ライセンス: Link先を確認 | William Yue, Bo Liu, Peter Stone | (参考訳) ディープジェネレーティブリプレイは、意思決定タスクにおける継続的な学習に有望なアプローチとして現れてきた。
このアプローチは、現在のデータセットを補強するために、以前に遭遇したタスクからの軌跡の生成を活用することで、破滅的な忘れる問題に対処する。
しかし、既存の連続学習のための深層生成的再生法は、生成した軌跡の複雑な誤りに悩まされる自己回帰モデルに依存している。
本稿では,軌道上の時間ステップに条件付きタスクサンプルを生成する生成モデルを用いて,意思決定タスクにおける継続学習のためのシンプルでスケーラブルで非自己回帰的手法を提案する。
提案手法は連続世界ベンチマークで評価し, 連続学習手法の平均成功率測定値から最先端のパフォーマンスを達成できることを確認した。
コードはhttps://github.com/WilliamYue37/t-DGRで入手できる。 Deep generative replay has emerged as a promising approach for continual learning in decision-making tasks. This approach addresses the problem of catastrophic forgetting by leveraging the generation of trajectories from previously encountered tasks to augment the current dataset. However, existing deep generative replay methods for continual learning rely on autoregressive models, which suffer from compounding errors in the generated trajectories. In this paper, we propose a simple, scalable, and non-autoregressive method for continual learning in decision-making tasks using a generative model that generates task samples conditioned on the trajectory timestep. We evaluate our method on Continual World benchmarks and find that our approach achieves state-of-the-art performance on the average success rate metric among continual learning methods. Code is available at https://github.com/WilliamYue37/t-DGR . | 翻訳日:2024-01-08 16:17:36 公開日:2024-01-04 |
# ソーシャルネットワークのための大規模言語モデル:アプリケーション、課題、ソリューション Large Language Models for Social Networks: Applications, Challenges, and Solutions ( http://arxiv.org/abs/2401.02575v1 ) ライセンス: Link先を確認 | Jingying Zeng, Richard Huang, Waleed Malik, Langxuan Yin, Bojan Babic, Danny Shacham, Xiao Yan, Jaewon Yang, Qi He | (参考訳) 大規模言語モデル(llm)は、コンテンツの生成、探索、エンゲージの方法を変えつつある。
オンラインソーシャルネットワークにおけるLLMアプリケーションの開発方法について検討する。
LLMが他の領域で成功しているにもかかわらず、様々な理由からLLMベースの製品を開発することは困難であり、研究コミュニティではあまり報告されていない。
ソーシャルネットワーク用LCMアプリケーションを3つのカテゴリに分類する。
まず、ユーザーが検索や質問応答といった新しい知識や情報を見つけようとする知識タスクです。
第二に、ユーザーが興味深いコンテンツを消費したいというエンターテイメントのタスクだ。
第3の課題は、コンテンツアノテーションやLLM監視など、ソーシャルネットワークを適度に運用するための基本的なタスクである。
各タスクについて、見つけた課題、開発したソリューション、学んだ教訓を共有します。
私たちの知る限りでは、これはソーシャルネットワーク向けのllmアプリケーション開発に関する最初の包括的な論文です。 Large Language Models (LLMs) are transforming the way people generate, explore, and engage with content. We study how we can develop LLM applications for online social networks. Despite LLMs' successes in other domains, it is challenging to develop LLM-based products for social networks for numerous reasons, and it has been relatively under-reported in the research community. We categorize LLM applications for social networks into three categories. First is knowledge tasks where users want to find new knowledge and information, such as search and question-answering. Second is entertainment tasks where users want to consume interesting content, such as getting entertaining notification content. Third is foundational tasks that need to be done to moderate and operate the social networks, such as content annotation and LLM monitoring. For each task, we share the challenges we found, solutions we developed, and lessons we learned. To the best of our knowledge, this is the first comprehensive paper about developing LLM applications for social networks. | 翻訳日:2024-01-08 16:17:23 公開日:2024-01-04 |
# ピアノ演奏評価における形状評価のためのシアーム残差ニューラルネットワーク Siamese Residual Neural Network for Musical Shape Evaluation in Piano Performance Assessment ( http://arxiv.org/abs/2401.02566v1 ) ライセンス: Link先を確認 | Xiaoquan Li, Stephan Weiss, Yijun Yan, Yinhe Li, Jinchang Ren, John Soraghan, Ming Gong | (参考訳) 音楽形態の理解と同定は音楽教育と演奏評価において重要な役割を担っている。
本稿では,時間的・費用的な音楽的形状の評価を簡略化するために,人工知能(AI)駆動モデルの適用方法について検討する。
分類問題として音楽形状評価を考慮し,音楽形状の自動識別のために,s-resnn(light-weight siamese residual neural network)を提案する。
提案手法をピアノ楽器の形状評価の文脈で評価するために,147回のピアノ前装練習で得られた4116曲の楽曲を含む新たなデータセットを作成し,28のカテゴリーで演奏した。
実験の結果,S-ResNNは精度,リコール,F1スコアの点で,多くのベンチマーク手法よりも優れていた。 Understanding and identifying musical shape plays an important role in music education and performance assessment. To simplify the otherwise time- and cost-intensive musical shape evaluation, in this paper we explore how artificial intelligence (AI) driven models can be applied. Considering musical shape evaluation as a classification problem, a light-weight Siamese residual neural network (S-ResNN) is proposed to automatically identify musical shapes. To assess the proposed approach in the context of piano musical shape evaluation, we have generated a new dataset, containing 4116 music pieces derived by 147 piano preparatory exercises and performed in 28 categories of musical shapes. The experimental results show that the S-ResNN significantly outperforms a number of benchmark methods in terms of the precision, recall and F1 score. | 翻訳日:2024-01-08 16:17:08 公開日:2024-01-04 |
# 病的イメージングのためのマルチモーダルビジョンランガウジモデルに敵対的に攻撃する脆弱性が明らかに Vulnerabilities Unveiled: Adversarially Attacking a Multimodal Vision Langauge Model for Pathology Imaging ( http://arxiv.org/abs/2401.02565v1 ) ライセンス: Link先を確認 | Jai Prakash Veerla, Poojitha Thota, Partha Sai Guttikonda, Shirin Nilizadeh, Jacob M. Luber | (参考訳) 本研究は,医学人工知能のダイナミックな状況において,対象とする対人条件下で,ビジョン言語基礎モデルであるPLIPモデルの脆弱性について検討する。
そこで本研究では,9種類の組織に対して7,180個のH&E画像を用いたKather Colonデータセットを応用し,PGD (Projected Gradient Descent) 対逆攻撃を用いて意図的に誤分類を誘導する。
結果は、plipの予測を操作するのに100%の成功率を示し、その逆の摂動に対する感受性を強調する。
敵の例の質的分析は解釈可能性の問題に陥り、敵の操作によって引き起こされる予測の微妙な変化に光を当てている。
これらの知見は、医用画像におけるビジョン言語モデルの解釈可能性、ドメイン適応、信頼性に関する重要な洞察に寄与する。
この研究は、AIモデルの信頼性を確保するための堅牢な防御の必要性を強調している。 In the dynamic landscape of medical artificial intelligence, this study explores the vulnerabilities of the Pathology Language-Image Pretraining (PLIP) model, a Vision Language Foundation model, under targeted adversarial conditions. Leveraging the Kather Colon dataset with 7,180 H&E images across nine tissue types, our investigation employs Projected Gradient Descent (PGD) adversarial attacks to intentionally induce misclassifications. The outcomes reveal a 100% success rate in manipulating PLIP's predictions, underscoring its susceptibility to adversarial perturbations. The qualitative analysis of adversarial examples delves into the interpretability challenges, shedding light on nuanced changes in predictions induced by adversarial manipulations. These findings contribute crucial insights into the interpretability, domain adaptation, and trustworthiness of Vision Language Models in medical imaging. The study emphasizes the pressing need for robust defenses to ensure the reliability of AI models. | 翻訳日:2024-01-08 16:16:56 公開日:2024-01-04 |
# 超伝導量子プロセッサのハミルトン力学をロバストに学習する Robustly learning the Hamiltonian dynamics of a superconducting quantum processor ( http://arxiv.org/abs/2108.08319v2 ) ライセンス: Link先を確認 | Dominik Hangleiter, Ingo Roth, Jonas Fuksa, Jens Eisert, Pedram Roushan | (参考訳) 古典的なコンピュータの能力を超える量子シミュレーションを行うために必要な精度は、大きな実験的および理論的課題を課す。
これらの問題を解決する鍵は、アナログ量子シミュレータを正確に特徴づける方法である。
ここでは, 超伝導量子ビットアナログ量子シミュレータにおけるボソニック励起のフリーハミルトンパラメータを, 単モードカノニカル座標の時系列から頑健に推定する。
モデル構造を最大限に活用し,雑音および状態準備・測定(spam)誤差に対してロバストにすることで,ハミルトニアンパラメータの推定に必要な精度を実現する。
重要なことに、我々は同じデータからこれらのSPAMエラーに関するトモグラフィー情報を得ることができ、量子クエンチ実験におけるハミルトン学習の実験的適用性に不可欠である。
私たちの学習アルゴリズムは、必要なデータ量と後処理の両方の観点から非常にスケーラブルです。
これを実現するために,行列時系列から周波数抽出を行うテンソルESPRITを開発した。
このアルゴリズムはテンソルESPRITと固有空間再構成のための制約付き多様体最適化を前処理および後処理の段階と組み合わせる。
2つのSycamoreプロセッサ上の14個の結合超伝導量子ビットについて、ハミルトンパラメーターを同定し、その1つの実装をサブMHz精度で検証し、27量子ビットのグリッドに対する空間的実装誤差マップを構築する。
この結果は,アナログ力学量子シミュレーションの完全かつ高精度な実装であり,アナログ量子プロセッサの理解,校正,改良のための診断ツールキットを導入している。 The required precision to perform quantum simulations beyond the capabilities of classical computers imposes major experimental and theoretical challenges. The key to solving these issues are highly precise ways of characterizing analog quantum sim ulators. Here, we robustly estimate the free Hamiltonian parameters of bosonic excitations in a superconducting-qubit analog quantum simulator from measured time-series of single-mode canonical coordinates. We achieve the required levels of precision in estimating the Hamiltonian parameters by maximally exploiting the model structure, making it robust against noise and state-preparation and measurement (SPAM) errors. Importantly, we are also able to obtain tomographic information about those SPAM errors from the same data, crucial for the experimental applicability of Hamiltonian learning in dynamical quantum-quench experiments. Our learning algorithm is highly scalable both in terms of the required amounts of data and post-processing. To achieve this, we develop a new super-resolution technique coined tensorESPRIT for frequency extraction from matrix time-series. The algorithm then combines tensorESPRIT with constrained manifold optimization for the eigenspace reconstruction with pre- and post-processing stages. For up to 14 coupled superconducting qubits on two Sycamore processors, we identify the Hamiltonian parameters - verifying the implementation on one of them up to sub-MHz precision - and construct a spatial implementation error map for a grid of 27 qubits. Our results constitute a fully characterized, highly accurate implementation of an analog dynamical quantum simulation and introduce a diagnostic toolkit for understanding, calibrating, and improving analog quantum processors. | 翻訳日:2024-01-05 18:16:38 公開日:2024-01-04 |
# 多相半環代数的ショートカット融合による動的プログラミング Dynamic programming by polymorphic semiring algebraic shortcut fusion ( http://arxiv.org/abs/2107.01752v5 ) ライセンス: Link先を確認 | Max A. Little, Xi He, Ugur Kayas | (参考訳) 動的プログラミング(英: dynamic programming、dp)は、非可算な組合せ問題に対する効率的で厳密な解のためのアルゴリズム的設計パラダイムである。
しかし、DPアルゴリズムの設計はしばしばアドホックな方法で表される。
アルゴリズムの正しさを正当化するのは難しい。
本稿では, 半環多型に基づくdpアルゴリズムを体系的に導出するための厳密な代数的形式論を提案する。
まず、仕様から始まり、その仕様を満たすすべての可能なソリューションを徹底的に生成し評価するため、自己明快に正しい必要解を計算するアルゴリズムを構築します。
次に、このアルゴリズムの実装であるショートカット融合を用いて、効率と正確性の両方を導出する。
また,半環昇降法を用いることで,これらの制約がアルゴリズムとどのように融合するかを示す組合せ制約によって,仕様を拡張できることを示す。
さらに,与えられた組合せ問題に対する既存のdpアルゴリズムが,その元の文脈からどのように抽象化され,再利用されるかを示す。
このアプローチは、半環の観点から表現可能な組合せ問題の全範囲に適用できる。
例えば、最適確率とビタビ復号、確率的辺縁化、論理的推論、ファジィ集合、微分可能なソフトマックス、リレーショナルおよび前駆的クエリである。
このアプローチは、構成的アルゴリズム学に関する既存の文献に基づくもので、多形関数、タップリング、形式和、および制約代数から生じる代数的単純化の一般的な性質を活用している。
本稿では,信号処理,バイオインフォマティクス,信頼性工学などの応用例について,この形式の有効性を示す。
これらのアルゴリズムを実装するPythonソフトウェアは、http://www.maxlittle.net/software/dppolyalg.zipからダウンロードできる。 Dynamic programming (DP) is an algorithmic design paradigm for the efficient, exact solution of otherwise intractable, combinatorial problems. However, DP algorithm design is often presented in an ad-hoc manner. It is sometimes difficult to justify algorithm correctness. To address this issue, this paper presents a rigorous algebraic formalism for systematically deriving DP algorithms, based on semiring polymorphism. We start with a specification, construct an algorithm to compute the required solution which is self-evidently correct because it exhaustively generates and evaluates all possible solutions meeting the specification. We then derive, through the use of shortcut fusion, an implementation of this algorithm which is both efficient and correct. We also demonstrate how, with the use of semiring lifting, the specification can be augmented with combinatorial constraints, showing how these constraints can be fused with the algorithm. We furthermore demonstrate how existing DP algorithms for a given combinatorial problem can be abstracted from their original context and re-purposed. This approach can be applied to the full scope of combinatorial problems expressible in terms of semirings. This includes, for example: optimal probability and Viterbi decoding, probabilistic marginalization, logical inference, fuzzy sets, differentiable softmax, relational and provenance queries. The approach, building on ideas from the existing literature on constructive algorithmics, exploits generic properties of polymorphic functions, tupling and formal sums and algebraic simplifications arising from constraint algebras. We demonstrate the effectiveness of this formalism for some example applications arising in signal processing, bioinformatics and reliability engineering. Python software implementing these algorithms can be downloaded from: http://www.maxlittle.net/software/dppolyalg.zip. | 翻訳日:2024-01-05 18:16:13 公開日:2024-01-04 |
# フェデレーション学習システムに対するカバーチャネルアタック Covert Channel Attack to Federated Learning Systems ( http://arxiv.org/abs/2104.10561v2 ) ライセンス: Link先を確認 | Gabriele Costa, Fabio Pinelli, Simone Soderi, Gabriele Tolomei | (参考訳) フェデレーテッド・ラーニング(FL)は、エッジクライアントの大規模なコレクションにモデルトレーニングを分散することで、従来の集中型機械学習を越えている。
これらのクライアントは、ローカルでプライベートなトレーニングデータを開示することなく、グローバル、例えばクラウドホスト型のモデルを共同でトレーニングする。
グローバルモデルは、ローカルな予測に使用するすべての参加者の間で共有される。
本稿では,ステルス通信インフラを実装するために,FLシステムを隠蔽チャネルにすることを目的とした新たな攻撃モデルを提案する。
直感的には、連合訓練の間、悪意のある送信者は故意に作成した例を提出することでグローバルモデルに毒を盛ることができる。
モデル中毒の影響は他の参加者には無視され、モデル全体のパフォーマンスは変化しないが、悪意のある受信者によって観察され、1ビットの送信に使用される。 Federated learning (FL) goes beyond traditional, centralized machine learning by distributing model training among a large collection of edge clients. These clients cooperatively train a global, e.g., cloud-hosted, model without disclosing their local, private training data. The global model is then shared among all the participants which use it for local predictions. In this paper, we put forward a novel attacker model aiming at turning FL systems into covert channels to implement a stealth communication infrastructure. The main intuition is that, during federated training, a malicious sender can poison the global model by submitting purposely crafted examples. Although the effect of the model poisoning is negligible to other participants, and does not alter the overall model performance, it can be observed by a malicious receiver and used to transmit a single bit. | 翻訳日:2024-01-05 18:15:48 公開日:2024-01-04 |
# one-step abductive multi-target learningによるノイズラベルの取り扱いとhelicobacter pyloriセグメンテーションへの応用 Handling Noisy Labels via One-Step Abductive Multi-Target Learning and Its Application to Helicobacter Pylori Segmentation ( http://arxiv.org/abs/2011.14956v5 ) ライセンス: Link先を確認 | Yongquan Yang, Yiming Yang, Jie Chen, Jiayi Zheng, Zhongxi Zheng | (参考訳) ノイズの多いラベルから学ぶことは、多くの現実世界のシナリオにおいて重要な関心事である。
この懸念に対する様々なアプローチは、まず、潜在的に騒がしいラベル付きインスタンスに対応する修正を行い、その後、生成された修正の情報で予測モデルを更新する。
しかし, 病理組織学などの特定の領域では, 複雑な雑音を伴うラベルを手作業で達成することは困難か不可能であることが多い。
この状況は、より難しい2つの問題を引き起こす。
1) 潜在的に騒がしいラベル付きインスタンスに対応する補正を行う手法には,ラベルに存在する複雑なノイズによる制約がある。
2) バリデーション・テストの適切な評価戦略は, 騒音のない地中ラベルの収集が難しいため不明確である。
そこで,本研究では,学習モデルの予測を制約するために,多目的学習手順を通じ,機械学習に一段階論理推論を課す一段階帰納的多目標学習(osamtl)を提案する。
そこで,本研究では,osamtlの1段階論理推論の結果から得られた学習モデルの予測と論理事実とのコンピテンシーを推定することにより,アプローチのアウトプットの論理合理性を評価する論理評価式(laf)を提案する。
MHWSIAのHelicobacter pylori(H. pylori)セグメンテーションタスクに基づいて、OSAMTLは複雑なノイズラベルを扱うための様々な最先端アプローチを超越した論理的により合理的な予測を機械学習モデルで実現できることを示す。 Learning from noisy labels is an important concern in plenty of real-world scenarios. Various approaches for this concern first make corrections corresponding to potentially noisy-labeled instances, and then update predictive model with information of the made corrections. However, in specific areas, such as medical histopathology whole slide image analysis (MHWSIA), it is often difficult or impossible for experts to manually achieve the noisy-free ground-truth labels which leads to labels with complex noise. This situation raises two more difficult problems: 1) the methodology of approaches making corrections corresponding to potentially noisy-labeled instances has limitations due to the complex noise existing in labels; and 2) the appropriate evaluation strategy for validation/testing is unclear because of the great difficulty in collecting the noisy-free ground-truth labels. For the problem 1), we present one-step abductive multi-target learning (OSAMTL) that imposes a one-step logical reasoning upon machine learning via a multi-target learning procedure to constrain the predictions of the learning model to be subject to our prior knowledge about the true target. For the problem 2), we propose a logical assessment formula (LAF) that evaluates the logical rationality of the outputs of an approach by estimating the consistencies between the predictions of the learning model and the logical facts narrated from the results of the one-step logical reasoning of OSAMTL. Based on the Helicobacter pylori (H. pylori) segmentation task in MHWSIA, we show that OSAMTL enables the machine learning model achieving logically more rational predictions, which is beyond various state-of-the-art approaches in handling complex noisy labels. | 翻訳日:2024-01-05 18:15:34 公開日:2024-01-04 |
# ロボット卓球におけるサンプル効率強化学習 Sample-efficient Reinforcement Learning in Robotic Table Tennis ( http://arxiv.org/abs/2011.03275v4 ) ライセンス: Link先を確認 | Jonas Tebbe, Lukas Krauch, Yapeng Gao, Andreas Zell | (参考訳) 強化学習(rl)は、様々なコンピュータゲームやシミュレーションにおいて、最近の印象的な成功を収めている。
これらの成功の大部分は、エージェントが学べるエピソードの数が多いことに基づいている。
しかし、一般的なロボット応用では、実現可能な試みの数は極めて限られている。
本稿では,テーブルテニスロボットの例として,サンプル効率のよいRLアルゴリズムを提案する。
卓球では、各ストロークは異なるが、配置、速度、回転が異なる。
したがって、正確なリターンは高次元連続状態空間に依存する必要がある。
少ない試行数で学習できるようにするため,本手法をロボットシステムに組み込む。
このようにして、ワンステップ環境を使用できます。
状態空間は打時のボール(位置、速度、スピン)に依存し、アクションは打時のラケット状態(向き、速度)である。
アクタ-クリティックに基づく決定論的ポリシー勾配アルゴリズムを開発した。
私たちのアプローチは、シミュレーションと実際のロボットの両方において、多くの困難なシナリオで競争的に実行します。
正確な結果は、200ドル以下のトレーニングで事前トレーニングすることなく得られる。
実験のビデオはhttps://youtu.be/uRAtdoL6Wpw.comで公開されている。 Reinforcement learning (RL) has achieved some impressive recent successes in various computer games and simulations. Most of these successes are based on having large numbers of episodes from which the agent can learn. In typical robotic applications, however, the number of feasible attempts is very limited. In this paper we present a sample-efficient RL algorithm applied to the example of a table tennis robot. In table tennis every stroke is different, with varying placement, speed and spin. An accurate return therefore has to be found depending on a high-dimensional continuous state space. To make learning in few trials possible the method is embedded into our robot system. In this way we can use a one-step environment. The state space depends on the ball at hitting time (position, velocity, spin) and the action is the racket state (orientation, velocity) at hitting. An actor-critic based deterministic policy gradient algorithm was developed for accelerated learning. Our approach performs competitively both in a simulation and on the real robot in a number of challenging scenarios. Accurate results are obtained without pre-training in under $200$ episodes of training. The video presenting our experiments is available at https://youtu.be/uRAtdoL6Wpw. | 翻訳日:2024-01-05 18:15:04 公開日:2024-01-04 |
# 中心対称形状不変ポテンシャルの統一スキーム A Unified Scheme of Central Symmetric Shape-Invariant Potentials ( http://arxiv.org/abs/2001.02068v4 ) ライセンス: Link先を確認 | Taha Koohrokhi and Abdolmajid Izadpanah and Mitra Gerayloo | (参考訳) 古典的あるいは量子力学的に、ほとんどの物理系は球面対称性を示す。
角運動量(英: Angular momentum)は、中心力の影響下で粒子が動くときに遠心ポテンシャルに現れる保存量である。
この研究は、$\ell$が統一的な役割を担い、可解中心ポテンシャルを超ポテンシャルに統合する形式主義を導入する。
この枠組みは、クーロンポテンシャルが同族(r$非依存)の等方性超ポテンシャルの直接の結果として現れることを示している。
逆に$$\ell$非独立な中心超ポテンシャルは3次元高調波オシレータ(3-DHO)ポテンシャルをもたらす。
さらに、局所$$\ell$依存の中央超ポテンシャルは、分子や核子系のような有限範囲相互作用に適用可能なポテンシャルを生成する。
さらに、任意の$d$次元への一般化を議論し、超ポテンシャルの性質を調べ、超対称性が壊れているか崩壊していないかを決定する。
このスキームはまた、3次元の自由粒子波動関数は超対称性の自然分解から得られ、正の3DHOポテンシャルが逆向きポテンシャルとして負のエネルギースペクトルを持つことができるかを明らかにする。
また、中心超ポテンシャルと超パートナーの複素アイソスペクトル変形は、動的平衡における開系に興味深い応用をもたらすことができる。
最後に、実用的応用として、この形式を重陽子に対する新しい効果的なポテンシャルを特定するために適用する。 Most physical systems, whether classical or quantum mechanical, exhibit spherical symmetry. Angular momentum, denoted as $\ell$, is a conserved quantity that appears in the centrifugal potential when a particle moves under the influence of a central force. This study introduces a formalism in which $\ell$ plays a unifying role, consolidating solvable central potentials into a superpotential. This framework illustrates that the Coulomb potential emerges as a direct consequence of a homogenous ($r$-independent) isotropic superpotential. Conversely, a $\ell$-independent central superpotential results in the 3-Dimensional Harmonic Oscillator (3-DHO) potential. Moreover, a local $\ell$-dependent central superpotential generates potentials applicable to finite-range interactions such as molecular or nucleonic systems. Additionally, we discuss generalizations to arbitrary $D$ dimensions and investigate the properties of the superpotential to determine when supersymmetry is broken or unbroken. This scheme also explains that the free particle wave function in three dimensions is obtained from spontaneous breakdown of supersymmetry and clarifies how a positive 3-DHO potential, as an upside-down potential, can have a negative energy spectrum. We also present complex isospectral deformations of the central superpotential and superpartners, which can have interesting applications for open systems in dynamic equilibrium. Finally, as a practical application, we apply this formalism to specify a new effective potential for the deuteron. | 翻訳日:2024-01-05 18:14:14 公開日:2024-01-04 |
# シーン分析に用いる均質イジングモデルにおける高速近似 Fast approximations in the homogeneous Ising model for use in scene analysis ( http://arxiv.org/abs/1712.02195v4 ) ライセンス: Link先を確認 | Alejandro Murua-Sazo and Ranjan Maitra | (参考訳) イジングモデルは、多くの応用において統計モデリングや推論において重要であるが、その正規化定数、アクティブな頂点数、平均スピン相互作用(推論に必要な量)は計算上難解である。
等質な場合において、これらの量を数値計算できる正確な近似を提供する。
シミュレーション研究により,マルコフ確率場のサイズ(ノード数,グラフの次数)によって,スケーラブルで不満足な近似式の性能が示された。
この近似式の実際的な輸入は,機能的磁気共鳴イメージング活性化検出実験においてベイズ推定を行うことと,ピスタチオ樹収率の年々増加の空間パターンにおける異方性に関する確率比試験で示される。 The Ising model is important in statistical modeling and inference in many applications, however its normalizing constant, mean number of active vertices and mean spin interaction -- quantities needed in inference -- are computationally intractable. We provide accurate approximations that make it possible to numerically calculate these quantities in the homogeneous case. Simulation studies indicate good performance of our approximation formulae that are scalable and unfazed by the size (number of nodes, degree of graph) of the Markov Random Field. The practical import of our approximation formulae is illustrated in performing Bayesian inference in a functional Magnetic Resonance Imaging activation detection experiment, and also in likelihood ratio testing for anisotropy in the spatial patterns of yearly increases in pistachio tree yields. | 翻訳日:2024-01-05 18:13:51 公開日:2024-01-04 |
# カーネルステインの相違によるモーメントの制御 Controlling Moments with Kernel Stein Discrepancies ( http://arxiv.org/abs/2211.05408v2 ) ライセンス: Link先を確認 | Heishiro Kanagawa and Alessandro Barp and Arthur Gretton and Lester Mackey | (参考訳) カーネルスタイン差分法(KSD)は分布近似の質を測定し、ターゲット密度が難解な正規化定数を持つ場合でも計算できる。
注目すべき応用例としては、近似mcmcサンプラーの診断と非正規化統計モデルの適合度テストがある。
本研究は,KSDの収束制御特性を解析する。
まず,弱収束制御に用いる標準ksdはモーメント収束を制御できないことを示す。
この制限に対処するために、代替拡散KSDがモーメントと弱収束の両方を制御する十分な条件を提供する。
即ち、$q > 0$ に対して、$q$-ワッサーシュタイン収束を正確に特徴付けることが知られている最初の KSD を開発する。 Kernel Stein discrepancies (KSDs) measure the quality of a distributional approximation and can be computed even when the target density has an intractable normalizing constant. Notable applications include the diagnosis of approximate MCMC samplers and goodness-of-fit tests for unnormalized statistical models. The present work analyzes the convergence control properties of KSDs. We first show that standard KSDs used for weak convergence control fail to control moment convergence. To address this limitation, we next provide sufficient conditions under which alternative diffusion KSDs control both moment and weak convergence. As an immediate consequence we develop, for each $q > 0$, the first KSDs known to exactly characterize $q$-Wasserstein convergence. | 翻訳日:2024-01-05 18:10:53 公開日:2024-01-04 |
# ディープラーニングを用いた非線形ダイナミクスのための一般化擬似埋め込み Generalized Quadratic Embeddings for Nonlinear Dynamics using Deep Learning ( http://arxiv.org/abs/2211.00357v2 ) ライセンス: Link先を確認 | Pawan Goyal and Peter Benner | (参考訳) エンジニアリング設計プロセスは、しばしば基礎となる動的な振る舞いを記述できる数学的モデリングに依存している。
本稿では,非線形システムのダイナミクスをモデル化するためのデータ駆動手法を提案する。
このタスクを単純化するために,非線形システムの動力学を共通で単純なモデル構造を用いて表現できる座標変換の同定を目標としている。
一般的な単純なモデルの利点は、様々な非線形システムの研究にカスタマイズされた設計ツールを適用することができることである。
最も単純な共通モデルは線形であるが、線形系はしばしば非線形系の複雑なダイナミクスを正確に捉えるのに不足している。
本研究では,昇降原理に着想を得た2次系を共通構造として用いることを提案する。
この原理によれば、滑らかな非線形系は近似誤差なしで適切な座標の二次系として表すことができる。
しかし、データからのみこれらの座標を見つけることは困難である。
本稿では,ディープラーニングを用いて,データのみを用いて解き上げられた座標を同定し,二次力学系がシステムのダイナミクスを記述することを可能にする。
さらに、これらの二次力学系の漸近安定性についても論じる。
本稿では,様々な数値例から収集したデータを用いて,既存の既知の手法よりも優れた性能を示す。 The engineering design process often relies on mathematical modeling that can describe the underlying dynamic behavior. In this work, we present a data-driven methodology for modeling the dynamics of nonlinear systems. To simplify this task, we aim to identify a coordinate transformation that allows us to represent the dynamics of nonlinear systems using a common, simple model structure. The advantage of a common simple model is that customized design tools developed for it can be applied to study a large variety of nonlinear systems. The simplest common model -- one can think of -- is linear, but linear systems often fall short in accurately capturing the complex dynamics of nonlinear systems. In this work, we propose using quadratic systems as the common structure, inspired by the lifting principle. According to this principle, smooth nonlinear systems can be expressed as quadratic systems in suitable coordinates without approximation errors. However, finding these coordinates solely from data is challenging. Here, we leverage deep learning to identify such lifted coordinates using only data, enabling a quadratic dynamical system to describe the system's dynamics. Additionally, we discuss the asymptotic stability of these quadratic dynamical systems. We illustrate the approach using data collected from various numerical examples, demonstrating its superior performance with the existing well-known techniques. | 翻訳日:2024-01-05 18:10:40 公開日:2024-01-04 |
# ドメイン一般化のための最適化とモデル選択:混合誘導解 Towards Optimization and Model Selection for Domain Generalization: A Mixup-guided Solution ( http://arxiv.org/abs/2209.00652v2 ) ライセンス: Link先を確認 | Wang Lu, Jindong Wang, Yidong Wang, Xing Xie | (参考訳) トレーニングとテストデータ間の分散シフトは、一般的にモデルのパフォーマンスを損なう。
近年,分散シフトが存在する領域一般化(DG)に多くの作業が注がれており,対象データも見当たらない。
アルゴリズム設計の進歩にもかかわらず、2つの基本的な要素は長い間無視されてきた。
1)正則化に基づく目標の最適化、及び
2) DG のモデル選択は対象領域に関する知識を利用できないためである。
本稿では,DGのためのMixup Guided Optimization and selection Techniqueを提案する。
最適化のために、適応したミックスアップを使用して、好みの方向を導き、pareto最適化で最適化できる分散データセットを生成する。
モデル選択のために、ターゲット分布との距離が近い検証データセットを生成し、ターゲットデータをよりよく表現できる。
提案の背後にある理論的洞察も提示する。
包括的実験により、我々のモデル最適化と選択手法は既存のドメイン一般化アルゴリズムの性能を大幅に向上させ、新しい最先端の結果を得ることができることを示した。 The distribution shifts between training and test data typically undermine the performance of models. In recent years, lots of work pays attention to domain generalization (DG) where distribution shifts exist, and target data are unseen. Despite the progress in algorithm design, two foundational factors have long been ignored: 1) the optimization for regularization-based objectives, and 2) the model selection for DG since no knowledge about the target domain can be utilized. In this paper, we propose Mixup guided optimization and selection techniques for DG. For optimization, we utilize an adapted Mixup to generate an out-of-distribution dataset that can guide the preference direction and optimize with Pareto optimization. For model selection, we generate a validation dataset with a closer distance to the target distribution, and thereby it can better represent the target data. We also present some theoretical insights behind our proposals. Comprehensive experiments demonstrate that our model optimization and selection techniques can largely improve the performance of existing domain generalization algorithms and even achieve new state-of-the-art results. | 翻訳日:2024-01-05 18:10:23 公開日:2024-01-04 |
# 事前・ポスト選択システムにおける不確実性関係 Uncertainty Relations in Pre- and Post-Selected Systems ( http://arxiv.org/abs/2207.07687v4 ) ライセンス: Link先を確認 | Sahil, Sohail and Sibasish Ghosh | (参考訳) 本研究では、前および後選択(PPS)系における2つの非互換な観測可能量に対する不確実性関係のようなRobertson-Heisenbergを導出する。
新たに定義された標準偏差とppsシステムの不確かさの関係は、ここで提示する物理的意味を持つ。
我々は不確実性関係を用いたppsシステムにおける2つの特異な性質を示す。
第一に、可観測器の通勤の場合、PSS系における不確実性関係の下位境界は、初期準備状態、すなわち、特定の後選択を考慮した場合、両方の可観測器の固有状態であってもゼロにならない。
そのような場合、2つの可換観測器は、ロバートソン・ハイゼンベルクの不確実性関係と完全に対照的な、互いの測定結果を乱す可能性がある。
第二に、標準量子系とは異なり、ppsシステムは、非可換可観測性 {(主文で詳述する) に対して鋭く量子状態(事前選択)を作成することができる。
PPSシステムにおける不確実性と不確実性の関係のいくつかの応用が提供される:$
(i)$未知の状態の混合性の検出、$
(ii)標準量子系における強い不確実性関係(iii$)「純粋な量子不確実性関係」、すなわち、量子状態の古典的混合下では影響を受けない不確実性関係(つまり、増加も減少もしない)である。
(iv)標準量子系における状態依存的不確実性関係、および$
(v) 時間外相関関数のより厳密な上界。 In this work, we derive Robertson-Heisenberg like uncertainty relation for two incompatible observables in a pre- and post-selected (PPS) system. The newly defined standard deviation and the uncertainty relation in the PPS system have physical meanings which we present here. We demonstrate two unusual properties in the PPS system using our uncertainty relation. First, for commuting observables, the lower bound of the uncertainty relation in the PPS system does not become zero even if the initially prepared state i.e., pre-selection is the eigenstate of both the observables when specific post-selections are considered. This implies that for such case, two commuting observables can disturb each other's measurement results which is in fully contrast with the Robertson-Heisenberg uncertainty relation. Secondly, unlike the standard quantum system, the PPS system makes it feasible to prepare sharply a quantum state (pre-selection) for non-commuting observables {(to be detailed in the main text)}. Some applications of uncertainty and uncertainty relation in the PPS system are provided: $(i)$ detection of mixedness of an unknown state, $(ii)$ stronger uncertainty relation in the standard quantum system, ($iii$) ``purely quantum uncertainty relation" that is, the uncertainty relation which is not affected (i.e., neither increasing nor decreasing) under the classical mixing of quantum states, $(iv)$ state dependent tighter uncertainty relation in the standard quantum system, and $(v)$ tighter upper bound for the out-of-time-order correlation function. | 翻訳日:2024-01-05 18:10:06 公開日:2024-01-04 |
# 強い時間反転破壊、Li-Haldane状態カウント、PEPSを有する非キラル位相(2+1)次元位相の絡み合いスペクトル Entanglement spectra of non-chiral topological (2+1)-dimensional phases with strong time-reversal breaking, Li-Haldane state counting, and PEPS ( http://arxiv.org/abs/2207.03246v2 ) ライセンス: Link先を確認 | Mark J. Arildsen, Norbert Schuch, Andreas W. W. Ludwig | (参考訳) Li-Haldane対応 [PRL 101, 010504 (2008)] は、(2+1)-Dのキラル位相(すなわち、非ゼロのキラル中心電荷)の波動関数の同定に、有限周の長い円筒上での低層エンタングルメントスペクトル(ES)を研究することでしばしば用いられる。
ここで、そのような状態のes(実際には、ある投影された絡み合った対状態(peps))は、キラルではない(すなわち、キラル中心電荷がゼロである)が、その積をキラル状態と同じ対称性に保ちながら、時間反転と反射対称性を強破壊する。
これにより、左右に動くキラリティーの枝を持つESとなるが、速度は大きく異なる。
逆エンタングルメントギャップスケールよりもはるかに小さい円周に対して、いくつかのトポロジカルセクターでは低層ESがキラルに見え、真のキラル位相のLi-Haldane状態に正確に従う。
これは相をキラルと誤認させる可能性がある。
しかし、すべてのセクターのESを考えると、キラル相と異なる違いを観察することができる。
これを、Kure\v{c}i\'c, et al で研究した $SU(3)$ spin liquid PEPS で探索する。
[prb 99, 045116 (2019)], ここで位相的自明なセクタはキラルな$su(3)$-level-one [$su(3)_1$]共形場理論 (cft) の状態カウントを持つ。
実際、PEPSは9つのセクターを持つ$D(\mathbb{Z}_3)$位相順序を持つ。
我々は、ESをこれらのセクターに対応する最小の絡み合った状態で計算し、これは、$SU(3)_1$Chern-Simons位相場理論の9つの任意の型に写像する。
es の状態のカウントは我々の期待と一致する: es は「高速」カイラルの第一状態のテンソル積からの(最下層の)非対称のグローバル $su(3)$ 対称性を持ち、「低速度」カイラル $su(3)_1$ cft と「低速度」カイラル $su(3)_1$ cft セクタの完全な内容を持つ。 The Li-Haldane correspondence [PRL 101, 010504 (2008)] is often used to help identify wave functions of (2+1)-D chiral topological phases (i.e., with non-zero chiral central charge) by studying low-lying entanglement spectra (ES) on long cylinders of finite circumference. Here we consider such ES of states [in fact, certain Projected Entangled Pair States (PEPS)] that are not chiral (i.e., having zero chiral central charge), but which strongly break time-reversal as well as reflection symmetry, while preserving their product, the same symmetry as a chiral state. This leads to ES with branches of both right- and left-moving chiralities, but with vastly different velocities. For circumferences much smaller than the inverse entanglement gap scale, the low-lying ES appear chiral in some topological sectors, and precisely follow the Li-Haldane state counting of a truly chiral phase. This could lead one to misidentify the phase as chiral. However, considering the ES in all sectors, one can observe distinct differences from a chiral phase. We explore this in an $SU(3)$ spin liquid PEPS studied by Kure\v{c}i\'c, et al. [PRB 99, 045116 (2019)], where the topologically trivial sector has the state counting of a chiral $SU(3)$-level-one [$SU(3)_1$] Conformal Field Theory (CFT). In fact, the PEPS has $D(\mathbb{Z}_3)$ topological order, with 9 sectors. We compute the ES in minimally entangled states corresponding to these sectors, which map to the 9 anyon types of doubled $SU(3)_1$ Chern-Simons Topological Field Theory. The state countings of the ES coincide with our expectation: the ES contain irreps of global $SU(3)$ symmetry from the tensor products of the (lowest-lying) irrep of primary states of a "high-velocity" chiral $SU(3)_1$ CFT with the full content of a "low-velocity" chiral $SU(3)_1$ CFT sector, a non-chiral structure beyond that observable in the topologically trivial sector of the ES. | 翻訳日:2024-01-05 18:09:41 公開日:2024-01-04 |
# 定数量子深度における多変量トレース推定 Multivariate trace estimation in constant quantum depth ( http://arxiv.org/abs/2206.15405v3 ) ライセンス: Link先を確認 | Yihui Quek and Eneet Kaur and Mark M. Wilde | (参考訳) 深さ$\theta(m)$量子回路は、凝縮物や量子情報科学の応用に不可欠なサブルーチンである、m$密度行列(すなわち多変量トレース)の積のトレースを推定するために必要である、という民間の信念がある。
この信念は、ショア誤差補正法に触発されて、タスクのための一定の量子深さ回路を構築することによって、過度に保守的であることが証明される。
さらに、我々の回路は2次元の回路でローカルゲートのみを要求する。GoogleのSycamoreプロセッサと同様のアーキテクチャで高度に並列化された方法で実装する方法を示す。
これらの特徴により、我々のアルゴリズムは、短期量子プロセッサの能力に近い多変量トレース推定という中心的なタスクをもたらす。
量子状態の非線形関数を " well-behaved" 多項式近似で推定する定理を用いて後者の応用をインスタンス化する。 There is a folkloric belief that a depth-$\Theta(m)$ quantum circuit is needed to estimate the trace of the product of $m$ density matrices (i.e., a multivariate trace), a subroutine crucial to applications in condensed matter and quantum information science. We prove that this belief is overly conservative by constructing a constant quantum-depth circuit for the task, inspired by the method of Shor error correction. Furthermore, our circuit demands only local gates in a two dimensional circuit -- we show how to implement it in a highly parallelized way on an architecture similar to that of Google's Sycamore processor. With these features, our algorithm brings the central task of multivariate trace estimation closer to the capabilities of near-term quantum processors. We instantiate the latter application with a theorem on estimating nonlinear functions of quantum states with "well-behaved" polynomial approximations. | 翻訳日:2024-01-05 18:08:47 公開日:2024-01-04 |
# フラストレーションフリーハミルトニアンの基底状態の効率的な検証 Efficient Verification of Ground States of Frustration-Free Hamiltonians ( http://arxiv.org/abs/2206.15292v3 ) ライセンス: Link先を確認 | Huangjun Zhu, Yunting Li, and Tianyi Chen | (参考訳) 局所ハミルトンの基底状態は多体物理学や量子情報処理において重要な関心を持つ。
これらの状態の効率的な検証は多くのアプリケーションにとって重要であるが、非常に難しい。
ここでは,局所的な測定値からフラストレーションのない一般ハミルトニアンの基底状態を検証するための簡易かつ強力な手法を提案する。
さらに、(改善を伴う)量子検出可能性補題と量子和束によるサンプル複雑性の厳密な境界を導出する。
特に、基礎となるハミルトニアンが局所的でギャップがある場合、必要となるサンプルの数はシステムサイズとともに増加しない。
応用として、局所スピン測定に基づく任意のグラフ上でのAffleck-Kennedy-Lieb-Tasaki(AKLT)状態の検証方法を提案する。
我々の研究は、量子情報処理における多くのタスクだけでなく、多体物理学の研究にも関心がある。 Ground states of local Hamiltonians are of key interest in many-body physics and also in quantum information processing. Efficient verification of these states are crucial to many applications, but very challenging. Here we propose a simple, but powerful recipe for verifying the ground states of general frustration-free Hamiltonians based on local measurements. Moreover, we derive rigorous bounds on the sample complexity by virtue of the quantum detectability lemma (with improvement) and quantum union bound. Notably, the number of samples required does not increase with the system size when the underlying Hamiltonian is local and gapped, which is the case of most interest. As an application, we propose a general approach for verifying Affleck-Kennedy-Lieb-Tasaki (AKLT) states on arbitrary graphs based on local spin measurements, which requires only a constant number of samples for AKLT states defined on various lattices. Our work is of interest not only to many tasks in quantum information processing, but also to the study of many-body physics. | 翻訳日:2024-01-05 18:08:29 公開日:2024-01-04 |
# マルチモーダル問題におけるNSGA-IIの最初の実行時解析 A First Runtime Analysis of the NSGA-II on a Multimodal Problem ( http://arxiv.org/abs/2204.13750v5 ) ライセンス: Link先を確認 | Benjamin Doerr and Zhongdi Qu | (参考訳) 近年,多目的進化オプティマイザNSGA-IIの数学的ランタイム解析が行われた。
2つのマルチモーダル目的からなるベンチマーク問題に対して,このアルゴリズムの初回実行時解析を行い,この一連の研究を継続する。
N$がパレートフロントの少なくとも4倍の大きさであれば、NSGA-IIは4つの異なる方法で親を選択することができ、ビットワイドの変異はOneJumpZeroJumpベンチマークをジャンプサイズ~2$le k \le n/4$ in time $O(N n^k)$で最適化する。
最近提案されたヘビーテール変異演算子であるfast mutationを使用すると、この保証は$k^{\omega(k)}$によって改善される。
この研究は、NSGA-IIが少なくともグローバルSEMOアルゴリズムと同様にOneJumpZeroJump問題の局所最適化に対処していることを示している。 Very recently, the first mathematical runtime analyses of the multi-objective evolutionary optimizer NSGA-II have been conducted. We continue this line of research with a first runtime analysis of this algorithm on a benchmark problem consisting of two multimodal objectives. We prove that if the population size $N$ is at least four times the size of the Pareto front, then the NSGA-II with four different ways to select parents and bit-wise mutation optimizes the OneJumpZeroJump benchmark with jump size~$2 \le k \le n/4$ in time $O(N n^k)$. When using fast mutation, a recently proposed heavy-tailed mutation operator, this guarantee improves by a factor of $k^{\Omega(k)}$. Overall, this work shows that the NSGA-II copes with the local optima of the OneJumpZeroJump problem at least as well as the global SEMO algorithm. | 翻訳日:2024-01-05 18:08:11 公開日:2024-01-04 |
# 2次元画像から3次元モデルへ:深部融合による多視点顔再建 From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion ( http://arxiv.org/abs/2204.03842v3 ) ライセンス: Link先を確認 | Weiguang Zhao and Chaolong Yang and Jianan Ye and Rui Zhang and Yuyao Yan and Xi Yang and Bin Dong and Amir Hussain and Kaizhu Huang | (参考訳) 弱教師付き多視点顔再構成(MVR)が注目度を高めつつある一方で、複数の画像情報を効果的に融合して高精度な3Dモデルを再構成する方法という重要な問題がまだ残っている。
本稿では,Deep Fusion MVR (DF-MVR) と呼ばれる新しいモデルを提案し,マルチビュー画像から深い特徴を抽出し,統合し,補償することができる,スキップ接続による単一デコードフレームワークへのマルチビューエンコーディングを設計する。
さらに,チャネル機能で深い融合機能を豊かにするために,畳み込みカーネルを採用する。
さらに,多視点画像における重要な共通顔領域の学習,識別,強調を行う顔解析ネットワークを開発した。
pixel-faceとbosphorusデータセットの実験は、モデルが優れていることを示している。
3Dアノテーションがなければ、DF-MVRはPixel-FaceデータセットとBosphorusデータセットで、既存の弱教師付きMVRに対して5.2%と3.0%のRMSE改善を達成する。
コードはhttps://github.com/weiguangzhao/DF_MVR.comで公開される。 While weakly supervised multi-view face reconstruction (MVR) is garnering increased attention, one critical issue still remains open: how to effectively fuse multiple image information to reconstruct high-precision 3D models. In this regard, we propose a novel model called Deep Fusion MVR (DF-MVR) and design a multi-view encoding to single decoding framework with skip connections, able to extract, integrate, and compensate deep features with attention from multi-view images. Furthermore, we adopt the involution kernel to enrich deep fusion features with channel features. In addition, we develop the face parse network to learn, identify, and emphasize the critical common face area within multi-view images. Experiments on Pixel-Face and Bosphorus datasets indicate the superiority of our model. Without 3D annotation, DF-MVR achieves 5.2% and 3.0% RMSE improvement over the existing weakly supervised MVRs respectively on Pixel-Face and Bosphorus dataset. Code will be available publicly at https://github.com/weiguangzhao/DF_MVR. | 翻訳日:2024-01-05 18:07:11 公開日:2024-01-04 |
# 高次元関数近似のためのスライス勾配強化クリグ Sliced gradient-enhanced Kriging for high-dimensional function approximation ( http://arxiv.org/abs/2204.03562v3 ) ライセンス: Link先を確認 | Kai Cheng, Ralf Zimmermann | (参考訳) Gradient-enhanced Kriging (GE-Kriging)は、高価な計算モデルを近似するために確立されたサロゲートモデリング技術である。
しかし、固有相関行列の大きさと関連する高次元超パラメータチューニング問題により、高次元問題には実用的でない傾向がある。
これらの問題に対処するために、相関行列のサイズとハイパーパラメータの数の両方を減らすために、スライスされたGE-Kriging (SGE-Kriging) と呼ばれる新しい手法を開発した。
まず、トレーニングサンプルセットを複数のスライスに分割し、ベイズの定理を導いて、スライスされた確率関数によって全確率関数を近似し、複数の小さな相関行列を用いてサンプルセットの相関を1つの大きなスライスではなく記述する。
そして,高パラメータと導関数に基づく大域感度指標の関係を学習することにより,従来の高次元ハイパーパラメータチューニング問題を,低次元に置き換える。
SGE-Krigingの性能は、いくつかのベンチマークによる数値実験と高次元空力モデリング問題により検証された。
その結果,SGE-Krigingモデルでは,標準モデルに匹敵する精度と堅牢性を特徴とするが,トレーニングコストの低減が図られた。
この利点は、数十変数の高次元問題に対して最も顕著である。 Gradient-enhanced Kriging (GE-Kriging) is a well-established surrogate modelling technique for approximating expensive computational models. However, it tends to get impractical for high-dimensional problems due to the size of the inherent correlation matrix and the associated high-dimensional hyper-parameter tuning problem. To address these issues, a new method, called sliced GE-Kriging (SGE-Kriging), is developed in this paper for reducing both the size of the correlation matrix and the number of hyper-parameters. We first split the training sample set into multiple slices, and invoke Bayes' theorem to approximate the full likelihood function via a sliced likelihood function, in which multiple small correlation matrices are utilized to describe the correlation of the sample set rather than one large one. Then, we replace the original high-dimensional hyper-parameter tuning problem with a low-dimensional counterpart by learning the relationship between the hyper-parameters and the derivative-based global sensitivity indices. The performance of SGE-Kriging is finally validated by means of numerical experiments with several benchmarks and a high-dimensional aerodynamic modeling problem. The results show that the SGE-Kriging model features an accuracy and robustness that is comparable to the standard one but comes at much less training costs. The benefits are most evident for high-dimensional problems with tens of variables. | 翻訳日:2024-01-05 18:06:53 公開日:2024-01-04 |
# メディアは新型コロナウイルス(covid-19)パンデミックについてどう語るのか?
イタリアのオンライン新聞におけるメタファ的テーマクラスタリング How do media talk about the Covid-19 pandemic? Metaphorical thematic clustering in Italian online newspapers ( http://arxiv.org/abs/2204.02106v2 ) ライセンス: Link先を確認 | Lucia Busso, Ottavia Tordini | (参考訳) この貢献は、イタリアのオンライン新聞において、covid-19危機の最初の数ヶ月の比定的言語に関する研究である。
特に,2020年春のパンデミックに対する政府対応の第1段階と第2段階において,ジャーナリストが使用する話題とメタファー言語を対比する。
この分析は、2020年2月24日から6月3日までに収集されたジャーナリストコーパスで行われる。
この分析は、構造トピックモデリング(Roberts et al. 2016)、概念メタファー理論(Lakoff & Johnson, 1980)、定性コーパスに基づく比喩分析(Charteris-Black, 2004)を組み合わせた定量的および定性的なアプローチの両方を用いて行われる。
フェーズ1とフェーズ2で議論されるトピックには大きな変化があり、トピック固有のメタファで興味深い重複が見られる。
質的コーパス分析を用いて,経済と社会の話題のメタファ的コロケーションを議論する,より詳細なケーススタディを提案する。 The contribution presents a study on figurative language of the first months of the COVID-19 crisis in Italian online newspapers. Particularly, we contrast topics and metaphorical language used by journalists in the first and second phase of the government response to the pandemic in Spring 2020. The analysis is conducted on a journalistic corpus collected between February 24th and June 3rd, 2020. The analysis is performed using both quantitative and qualitative approaches, combining Structural Topic Modelling (Roberts et al. 2016), Conceptual Metaphor Theory (Lakoff & Johnson, 1980), and qualitative-corpus based metaphor analysis (Charteris-Black, 2004). We find a significant shift in topics discussed across Phase 1 and Phase 2, and interesting overlaps in topic-specific metaphors. Using qualitative corpus analysis, we present a more in-depth case study discussing metaphorical collocations of the topics of Economy and Society | 翻訳日:2024-01-05 18:06:31 公開日:2024-01-04 |
# ツイスト二層グラフェンの磁気応答 Magnetic response of twisted bilayer graphene ( http://arxiv.org/abs/2201.02170v2 ) ライセンス: Link先を確認 | Simon Becker, Jihoi Kim, Xiaowen Zhu | (参考訳) 本稿では,ツイスト二層グラフェン(tbg)のビストリッツァー-マクドナルド(bm)モデル(連続体モデルとしても知られる)を外部磁場で解析する。
強磁場の極限における状態密度(DOS)の明示的な半古典的漸近展開を提供する。
DOSの明示的な拡張により、Shubnikov-de HaasやDe Haas-van Alphen振動を含む磁気振動や整数量子ホール効果などの磁気応答特性の研究が可能になる。
特に、dosの研究における異なる種類の層間トンネル(aa^{\prime}$/$bb^{\prime}$ vs. $ab^{\prime}$/$ba^{\prime}$)の役割と磁気特性を解明する。 In this article, we analyse the Bistritzer--MacDonald (BM) model (also known as the continuum model) of twisted bilayer graphene (TBG) with an additional external magnetic field. We provide an explicit semiclassical asymptotic expansion of the density of states (DOS) in the limit of strong magnetic fields. The explicit expansion of the DOS enables us to study magnetic response properties such as magnetic oscillations which includes Shubnikov-de Haas and de Haas-van Alphen oscillations as well as the integer quantum Hall effect. In particular, we elucidate the role played by different types of interlayer tunnelings ($AA^{\prime}$/$BB^{\prime}$ vs. $AB^{\prime}$/$BA^{\prime}$) in the study of the DOS, and magnetic properties. | 翻訳日:2024-01-05 18:06:13 公開日:2024-01-04 |
# 平滑損失関数のフェデレーション最適化 Federated Optimization of Smooth Loss Functions ( http://arxiv.org/abs/2201.01954v2 ) ライセンス: Link先を確認 | Ali Jadbabaie and Anuran Makur and Devavrat Shah | (参考訳) 本研究では,実験的リスク最小化(ERM, empirical risk minimization)を,中央サーバが,$m$のクライアントに格納するトレーニングデータを用いて,ERMの目的関数を最小化するフェデレーション学習フレームワーク内で研究する。
この設定では、フェデレート平均化(FedAve)アルゴリズムは、ERM問題に対する$\epsilon$-approximateソリューションを決定するための必須条件である。
標準最適化アルゴリズムと同様に、fedaveの収束解析は最適化パラメータの損失関数の滑らかさのみに依存する。
しかし、トレーニングデータでは損失関数も非常にスムーズであることが多い。
このさらなる滑らかさを活用するために,フェデレート低ランク勾配Descent (FedLRGD) アルゴリズムを提案する。
データの平滑性は損失関数の近似低ランク構造を誘導するので,本手法はまずサーバとクライアント間の数ラウンドの通信を行い,サーバがクライアントの勾配を近似するために使用できる重みを学習する。
そこで本手法では,不正確な勾配勾配を用いたサーバのERM問題を解く。
FedLRGDがFedAveよりも優れた性能を持つことを示すために,本研究では,標準オラクルの複雑性に対抗して,フェデレートされたオラクルの複雑性の概念を提案する。
損失関数、例えばパラメータの強い凸性、データのより古い滑らかさなどの仮定の下で、federated oracleのfederated oracle complexity of fedlrgd scales($\phi m(p/\epsilon)^{\theta(d/\eta)}$および$\phi m(p/\epsilon)^{3/4}$(neglecting sub-dominant factors)($\phi\gg 1$は「通信対計算比」、$p$はパラメータ次元、$d$はデータ次元である。
次に、$d$が小さく、データで損失関数が十分に滑らかである場合、federated oracle の複雑さにおいて fedave をfederrgd が上回っています。
最後に、FedLRGDを解析する過程で、潜在変数モデルの低階近似の結果も確立する。 In this work, we study empirical risk minimization (ERM) within a federated learning framework, where a central server minimizes an ERM objective function using training data that is stored across $m$ clients. In this setting, the Federated Averaging (FedAve) algorithm is the staple for determining $\epsilon$-approximate solutions to the ERM problem. Similar to standard optimization algorithms, the convergence analysis of FedAve only relies on smoothness of the loss function in the optimization parameter. However, loss functions are often very smooth in the training data too. To exploit this additional smoothness, we propose the Federated Low Rank Gradient Descent (FedLRGD) algorithm. Since smoothness in data induces an approximate low rank structure on the loss function, our method first performs a few rounds of communication between the server and clients to learn weights that the server can use to approximate clients' gradients. Then, our method solves the ERM problem at the server using inexact gradient descent. To show that FedLRGD can have superior performance to FedAve, we present a notion of federated oracle complexity as a counterpart to canonical oracle complexity. Under some assumptions on the loss function, e.g., strong convexity in parameter, $\eta$-H\"older smoothness in data, etc., we prove that the federated oracle complexity of FedLRGD scales like $\phi m(p/\epsilon)^{\Theta(d/\eta)}$ and that of FedAve scales like $\phi m(p/\epsilon)^{3/4}$ (neglecting sub-dominant factors), where $\phi\gg 1$ is a "communication-to-computation ratio," $p$ is the parameter dimension, and $d$ is the data dimension. Then, we show that when $d$ is small and the loss function is sufficiently smooth in the data, FedLRGD beats FedAve in federated oracle complexity. Finally, in the course of analyzing FedLRGD, we also establish a result on low rank approximation of latent variable models. | 翻訳日:2024-01-05 18:06:02 公開日:2024-01-04 |
# 量子特異値変換の非量子化:ハードネスと量子化学と量子pcp予想への応用 Dequantizing the Quantum Singular Value Transformation: Hardness and Applications to Quantum Chemistry and the Quantum PCP Conjecture ( http://arxiv.org/abs/2111.09079v5 ) ライセンス: Link先を確認 | Sevag Gharibian and Fran\c{c}ois Le Gall | (参考訳) qsvt(quantum singular value transformation)は、これまでに発見されたほとんどの量子アルゴリズムを記述するための統一フレームワークを提供し、新しい量子アルゴリズムの開発に繋がる最近の技術である。
本稿では,QSVTを古典的にシミュレートする難しさについて検討する。
Chia, Gily\'en, Li, Lin, Tang, Wang (STOC 2020) の最近の結果によると,QSVT は低ランク行列に対して効率的に "等価化" 可能であることが示され,量子機械学習への影響について議論された。
本研究は、量子化学における量子アルゴリズムの優越性を確立し、量子pcp予想の進展を動機とし、qsvt,スパース行列の応用で考慮される他の主要な行列のクラスに焦点を当てたものである。
まず、低次多項式に付随するQSVTを任意に小さな定数精度で効率よく「等化」する方法を示す。
我々はこの手法を,一定精度でスパース行列の特異値を推定する古典的アルゴリズムの設計に適用する。
特に量子化学の量子アルゴリズムによって考慮される中央計算問題(局所ハミルトニアンの基底状態エネルギーを推定する)は、追加入力として、基底状態に近い状態が古典的コンピュータ上で一定精度で効率的に解くことができることを示す。
その結果、逆多項精度では、同じ問題がbqp完全となることが証明される。
これにより、化学における量子アルゴリズムの優越性に関する理論的証拠が得られ、その優越性は量子設定において達成可能な精度の向上に起因することを強く示唆する。
また、この分数化手法が中心量子PCP予想の進展にどう役立つかについても論じる。 The Quantum Singular Value Transformation (QSVT) is a recent technique that gives a unified framework to describe most quantum algorithms discovered so far, and may lead to the development of novel quantum algorithms. In this paper we investigate the hardness of classically simulating the QSVT. A recent result by Chia, Gily\'en, Li, Lin, Tang and Wang (STOC 2020) showed that the QSVT can be efficiently "dequantized" for low-rank matrices, and discussed its implication to quantum machine learning. In this work, motivated by establishing the superiority of quantum algorithms for quantum chemistry and making progress on the quantum PCP conjecture, we focus on the other main class of matrices considered in applications of the QSVT, sparse matrices. We first show how to efficiently "dequantize", with arbitrarily small constant precision, the QSVT associated with a low-degree polynomial. We apply this technique to design classical algorithms that estimate, with constant precision, the singular values of a sparse matrix. We show in particular that a central computational problem considered by quantum algorithms for quantum chemistry (estimating the ground state energy of a local Hamiltonian when given, as an additional input, a state sufficiently close to the ground state) can be solved efficiently with constant precision on a classical computer. As a complementary result, we prove that with inverse-polynomial precision, the same problem becomes BQP-complete. This gives theoretical evidence for the superiority of quantum algorithms for chemistry, and strongly suggests that said superiority stems from the improved precision achievable in the quantum setting. We also discuss how this dequantization technique may help make progress on the central quantum PCP conjecture. | 翻訳日:2024-01-05 18:05:19 公開日:2024-01-04 |
# 胸部X線による疾患検出のためのコンテンツ認識型不変モデルによる未確認領域への一般化の学習 Learning to Generalize towards Unseen Domains via a Content-Aware Style Invariant Model for Disease Detection from Chest X-rays ( http://arxiv.org/abs/2302.13991v3 ) ライセンス: Link先を確認 | Mohammad Zunaed, Md. Aynal Haque, Taufiq Hasan | (参考訳) 分布の不一致による性能低下は、知的イメージング、特に胸部x線(cxr)における長年の課題である。
近年の研究では、cnnは人間の視覚システムとは対照的に、内容(例えば形状)よりもスタイル(例えば、非形成テクスチャ)に偏っていることが示されている。
放射線学者は、CXRから視覚的手がかりを学び、複数の領域でよく機能する傾向にある。
そこで我々は、画像(SRM-IL)と特徴(SRM-FL)の両方において、新しいオンザフライスタイルのランダム化モジュールを使用し、リッチなスタイルの摂動機能を作成しながら、コンテンツが堅牢なクロスドメインパフォーマンスを維持する。
従来の方法は、補間や既存のデータからのスタイル交換を通じて新しいスタイルを構築し、トレーニング中に利用可能なソースドメインに制限することで、目に見えないドメインをシミュレートする。
しかし、SRM-ILはトレーニングデータの代わりに、CXR画像の可能な値範囲からスタイル統計をサンプリングし、より多様化された拡張を実現する。
さらに,srm-flにおけるピクセル単位の学習可能なパラメータと,予め定義されたチャネル単位の平均と標準偏差を,より代表的なスタイル特徴をキャプチャするスタイル埋め込みとして利用する。
さらに,同一のcxrのスタイル摂動バージョンの有無によるグローバル意味的特徴と予測分布の一貫性を定式化し,正確な予測のためにコンテンツマーカーに対するモデルの感度を微調整する。
提案手法はCheXpertおよびMIMIC-CXRデータセットに基づいて, 77.32$\pm$0.35, 88.38$\pm$0.19, 82.63$\pm$0.13 AUCs(%)を未確認領域試験データセット(BRAX, VinDr-CXR, NIH chest X-ray14)上で達成し, それぞれ75.56$\pm$0.80, 87.57$\pm$0.46, 82.07$\pm$0.19を, 胸腺疾患分類における統計的に有意な結果を得た5次クロスバリデーションモデルから得られた。 Performance degradation due to distribution discrepancy is a longstanding challenge in intelligent imaging, particularly for chest X-rays (CXRs). Recent studies have demonstrated that CNNs are biased toward styles (e.g., uninformative textures) rather than content (e.g., shape), in stark contrast to the human vision system. Radiologists tend to learn visual cues from CXRs and thus perform well across multiple domains. Motivated by this, we employ the novel on-the-fly style randomization modules at both image (SRM-IL) and feature (SRM-FL) levels to create rich style perturbed features while keeping the content intact for robust cross-domain performance. Previous methods simulate unseen domains by constructing new styles via interpolation or swapping styles from existing data, limiting them to available source domains during training. However, SRM-IL samples the style statistics from the possible value range of a CXR image instead of the training data to achieve more diversified augmentations. Moreover, we utilize pixel-wise learnable parameters in the SRM-FL compared to pre-defined channel-wise mean and standard deviations as style embeddings for capturing more representative style features. Additionally, we leverage consistency regularizations on global semantic features and predictive distributions from with and without style-perturbed versions of the same CXR to tweak the model's sensitivity toward content markers for accurate predictions. Our proposed method, trained on CheXpert and MIMIC-CXR datasets, achieves 77.32$\pm$0.35, 88.38$\pm$0.19, 82.63$\pm$0.13 AUCs(%) on the unseen domain test datasets, i.e., BRAX, VinDr-CXR, and NIH chest X-ray14, respectively, compared to 75.56$\pm$0.80, 87.57$\pm$0.46, 82.07$\pm$0.19 from state-of-the-art models on five-fold cross-validation with statistically significant results in thoracic disease classification. | 翻訳日:2024-01-05 17:59:47 公開日:2024-01-04 |
# 敵対的機械学習における攻撃 : ライフサイクルから見たシステム的調査 Attacks in Adversarial Machine Learning: A Systematic Survey from the Life-cycle Perspective ( http://arxiv.org/abs/2302.09457v2 ) ライセンス: Link先を確認 | Baoyuan Wu, Zihao Zhu, Li Liu, Qingshan Liu, Zhaofeng He, Siwei Lyu | (参考訳) 敵対的機械学習(adversarial machine learning, aml)は、人間との一貫性や予期せぬ予測を可能にする機械学習の敵対的現象を研究する。
近年、機械学習システムの異なる段階で発生するこの敵対現象を探求するパラダイムが開発されている。例えば、トレーニング前、トレーニング中、推論段階で発生するバックドアアタック、トレーニング後、デプロイ後、推論段階で発生するウェイトアタック、推論段階で発生する敵アタックなどである。
しかし、これらの敵対的パラダイムは共通の目標を共有しているが、その開発はほとんど独立しており、AMLの全体像はいまだにない。
本研究は,amlコミュニティに統一的な視点を提供し,この分野全体の進歩を体系的に見直すことを目的とする。
まず、AMLに関する一般的な定義を提供し、次に既存の攻撃パラダイムをカバーするための統一的な数学的枠組みを提案する。
提案した統合フレームワークでは,各パラダイムの既存の代表的手法を体系的に分類し,レビューするための完全な分類法を構築している。
さらに、この統合されたフレームワークを使用することで、異なる攻撃パラダイム間の接続と差異を容易に把握し、将来の研究者がより高度な攻撃パラダイムを開発するよう促す可能性がある。
最後に、構築された分類学と関連する文学の学習を容易にするために、我々はさらにwebサイト \ie, \url{http://adversarial-ml.com} を提供し、分類法と文学を継続的に更新する。 Adversarial machine learning (AML) studies the adversarial phenomenon of machine learning, which may make inconsistent or unexpected predictions with humans. Some paradigms have been recently developed to explore this adversarial phenomenon occurring at different stages of a machine learning system, such as backdoor attack occurring at the pre-training, in-training and inference stage; weight attack occurring at the post-training, deployment and inference stage; adversarial attack occurring at the inference stage. However, although these adversarial paradigms share a common goal, their developments are almost independent, and there is still no big picture of AML. In this work, we aim to provide a unified perspective to the AML community to systematically review the overall progress of this field. We firstly provide a general definition about AML, and then propose a unified mathematical framework to covering existing attack paradigms. According to the proposed unified framework, we build a full taxonomy to systematically categorize and review existing representative methods for each paradigm. Besides, using this unified framework, it is easy to figure out the connections and differences among different attack paradigms, which may inspire future researchers to develop more advanced attack paradigms. Finally, to facilitate the viewing of the built taxonomy and the related literature in adversarial machine learning, we further provide a website, \ie, \url{http://adversarial-ml.com}, where the taxonomies and literature will be continuously updated. | 翻訳日:2024-01-05 17:58:33 公開日:2024-01-04 |
# 群分布ロバスト最適化に対する確率近似手法 Stochastic Approximation Approaches to Group Distributionally Robust Optimization ( http://arxiv.org/abs/2302.09267v4 ) ライセンス: Link先を確認 | Lijun Zhang, Peng Zhao, Zhen-Hua Zhuang, Tianbao Yang, Zhi-Hua Zhou | (参考訳) 本稿では,群分布にロバストな最適化(gdro, group distributionally robust optimization)について検討する。
まず、GDROを確率的凸凹サドル点問題として定式化し、各反復において$m$のサンプルを用いて、$O(m)/\epsilon^2)$のサンプル複雑性を達成し、$Omega(m/\epsilon^2)$の対数係数に一致する$\epsilon$最適解を求める。
そして、オンライン学習の手法を使って、各ラウンドに必要なサンプル数を$m$から$$$に減らし、同じサンプルの複雑さを維持します。
具体的には、GDROを2人プレイヤゲームとして、一方のプレイヤーが単にSMDを実行し、他方のプレイヤーが非公開マルチアームバンディットのオンラインアルゴリズムを実行する。
次に,各分布から抽出できるサンプルの数が異なる,より実用的なシナリオを考察し,分布依存収束率の導出を可能にする重み付きGDROの新しい定式化を提案する。
n_i$ は$i$-th分布のサンプル予算を示し、$n_1 \geq n_2 \geq \cdots \geq n_m$ を仮定する。
最初のアプローチでは、サンプル予算が期待通りに満たされるように非一様サンプリングをsmdに組み込んで、$i$-th分布の過剰なリスクが$o(\sqrt{n_1 \log m}/n_i)$レートで減少することを証明する。
第2のアプローチでは、予算を正確に満たすためにミニバッチを使用し、確率勾配の分散を低減し、さらに小さな分散を活用可能な確率ミラープロキシアルゴリズムを利用して、慎重に設計された重み付きGDRO問題を最適化する。
適切な条件下では、$o((\log m)/\sqrt{n_i})$の収束率に達し、最適な$o(\sqrt{1/n_i})$の値にほぼ一致する。 This paper investigates group distributionally robust optimization (GDRO), with the purpose to learn a model that performs well over $m$ different distributions. First, we formulate GDRO as a stochastic convex-concave saddle-point problem, and demonstrate that stochastic mirror descent (SMD), using $m$ samples in each iteration, achieves an $O(m (\log m)/\epsilon^2)$ sample complexity for finding an $\epsilon$-optimal solution, which matches the $\Omega(m/\epsilon^2)$ lower bound up to a logarithmic factor. Then, we make use of techniques from online learning to reduce the number of samples required in each round from $m$ to $1$, keeping the same sample complexity. Specifically, we cast GDRO as a two-players game where one player simply performs SMD and the other executes an online algorithm for non-oblivious multi-armed bandits. Next, we consider a more practical scenario where the number of samples that can be drawn from each distribution is different, and propose a novel formulation of weighted GDRO, which allows us to derive distribution-dependent convergence rates. Denote by $n_i$ the sample budget for the $i$-th distribution, and assume $n_1 \geq n_2 \geq \cdots \geq n_m$. In the first approach, we incorporate non-uniform sampling into SMD such that the sample budget is satisfied in expectation, and prove that the excess risk of the $i$-th distribution decreases at an $O(\sqrt{n_1 \log m}/n_i)$ rate. In the second approach, we use mini-batches to meet the budget exactly and also reduce the variance in stochastic gradients, and then leverage stochastic mirror-prox algorithm, which can exploit small variances, to optimize a carefully designed weighted GDRO problem. Under appropriate conditions, it attains an $O((\log m)/\sqrt{n_i})$ convergence rate, which almost matches the optimal $O(\sqrt{1/n_i})$ rate of only learning from the $i$-th distribution with $n_i$ samples. | 翻訳日:2024-01-05 17:58:05 公開日:2024-01-04 |
# グラフニューラルネットワークを用いたグラフ要約に関する包括的調査 A Comprehensive Survey on Graph Summarization with Graph Neural Networks ( http://arxiv.org/abs/2302.06114v3 ) ライセンス: Link先を確認 | Nasrin Shabani, Jia Wu, Amin Beheshti, Quan Z. Sheng, Jin Foo, Venus Haghighi, Ambreen Hanif, Maryam Shahabikargar | (参考訳) 大規模グラフが普及するにつれて,大規模グラフデータの抽出,処理,解釈といった計算上の課題がますます顕在化しつつある。
したがって、これらの拡張グラフをその重要な特徴を保ちながら要約する方法を探すことは自然である。
過去のグラフ要約技術のほとんどは、グラフの最も重要な部分を統計的に捉えようとしていた。
しかし今日では、現代のグラフデータの高次元性と複雑さにより、ディープラーニング技術がより普及している。
そこで本稿では,グラフニューラルネットワーク(GNN)を利用した深層学習要約技術の進歩を包括的に調査する。
我々の調査は、GNN、畳み込みGNN、グラフオートエンコーダ、グラフアテンションネットワークなど、現在の最先端アプローチのレビューを含む。
グラフ強化学習を用いてグラフ要約の質を評価・改善する新たな研究ラインについても論じる。
さらに、この調査は、グラフの要約に焦点を当てた研究コミュニティのための詳細な比較、議論、要約とともに、実験設定でよく使用されるベンチマークデータセット、評価メトリクス、オープンソースツールの詳細を提供する。
最後に、この調査は、この分野におけるさらなる研究の動機づけとなる多くのオープンリサーチの課題で締めくくられている。 As large-scale graphs become more widespread, more and more computational challenges with extracting, processing, and interpreting large graph data are being exposed. It is therefore natural to search for ways to summarize these expansive graphs while preserving their key characteristics. In the past, most graph summarization techniques sought to capture the most important part of a graph statistically. However, today, the high dimensionality and complexity of modern graph data are making deep learning techniques more popular. Hence, this paper presents a comprehensive survey of progress in deep learning summarization techniques that rely on graph neural networks (GNNs). Our investigation includes a review of the current state-of-the-art approaches, including recurrent GNNs, convolutional GNNs, graph autoencoders, and graph attention networks. A new burgeoning line of research is also discussed where graph reinforcement learning is being used to evaluate and improve the quality of graph summaries. Additionally, the survey provides details of benchmark datasets, evaluation metrics, and open-source tools that are often employed in experimentation settings, along with a detailed comparison, discussion, and takeaways for the research community focused on graph summarization. Finally, the survey concludes with a number of open research challenges to motivate further study in this area. | 翻訳日:2024-01-05 17:57:18 公開日:2024-01-04 |
# ricci流下における学習離散化ニューラルネットワーク Learning Discretized Neural Networks under Ricci Flow ( http://arxiv.org/abs/2302.03390v4 ) ライセンス: Link先を確認 | Jun Chen, Hanwen Chen, Mengmeng Wang, Guang Dai, Ivor W. Tsang, Yong Liu | (参考訳) 本稿では,低精度重みとアクティベーションから構成される離散ニューラルネットワーク(DNN)について検討する。
このようなシナリオにおけるほとんどのトレーニングベースのDNNは、勾配w.r.t.離散値の近似に標準のSTE(Straight-Through Estimator)を使用している。
しかし、STEの使用は、近似勾配の摂動に起因する勾配ミスマッチの問題を提起する。
この問題に対処するために、このミスマッチはリーマン多様体における計量摂動と解釈でき、双対性理論のレンズを通して見ることができる。
情報幾何学に基づいてDNNのための線形近傍ユークリッド多様体(LNE)を構築し,摂動に対処するための背景を提供する。
計量に偏微分方程式、すなわちリッチフローを導入することにより、LNE計量の動的安定性と収束を$L^2$-norm摂動で確立する。
分数列の収束率を持つ以前の摂動理論とは対照的に、リッチフロー下の計量摂動はLNE多様体において指数減衰を示す。
各種データセットに対する実験結果から,本手法はDNNに対して,他の代表的なトレーニングベース手法と比較して,優れた,より安定した性能を発揮することが示された。 In this paper, we study Discretized Neural Networks (DNNs) composed of low-precision weights and activations, which suffer from either infinite or zero gradients due to the non-differentiable discrete function during training. Most training-based DNNs in such scenarios employ the standard Straight-Through Estimator (STE) to approximate the gradient w.r.t. discrete values. However, the use of STE introduces the problem of gradient mismatch, arising from perturbations in the approximated gradient. To address this problem, this paper reveals that this mismatch can be interpreted as a metric perturbation in a Riemannian manifold, viewed through the lens of duality theory. Building on information geometry, we construct the Linearly Nearly Euclidean (LNE) manifold for DNNs, providing a background for addressing perturbations. By introducing a partial differential equation on metrics, i.e., the Ricci flow, we establish the dynamical stability and convergence of the LNE metric with the $L^2$-norm perturbation. In contrast to previous perturbation theories with convergence rates in fractional powers, the metric perturbation under the Ricci flow exhibits exponential decay in the LNE manifold. Experimental results across various datasets demonstrate that our method achieves superior and more stable performance for DNNs compared to other representative training-based methods. | 翻訳日:2024-01-05 17:56:59 公開日:2024-01-04 |
# マージナルコントリビューションを伴わないシェープリー値の近似 Approximating the Shapley Value without Marginal Contributions ( http://arxiv.org/abs/2302.00736v4 ) ライセンス: Link先を確認 | Patrick Kolpaczki, Viktor Bengs, Maximilian Muschalik, Eyke H\"ullermeier | (参考訳) 協調ゲームにおいてプレイヤーに有意義な貢献価値を割り当てる最も一般的な手法であるShapley値は最近、説明可能な人工知能において集中的に使用されている。
その意味性は、シャプリー値のみが満足する公理的な性質のためであるが、エージェントの数で指数関数的に増加する正確な計算を犠牲にしている。
したがって、多くの研究がシェープリー値の効率的な近似に費やされているが、そのほとんどはエージェントの限界貢献の概念に反するものである。
本稿では,余剰寄与の概念から分離されたShapley値の表現に基づいて,SVARM と Stratified SVARM の2つのパラメータフリーおよびドメイン非依存近似アルゴリズムを提案する。
我々は,その近似的品質に関する不一致の理論的保証を証明し,合成ゲームを含む経験的結果と,最先端手法と比較する一般的な説明可能性ユースケースを提供する。 The Shapley value, which is arguably the most popular approach for assigning a meaningful contribution value to players in a cooperative game, has recently been used intensively in explainable artificial intelligence. Its meaningfulness is due to axiomatic properties that only the Shapley value satisfies, which, however, comes at the expense of an exact computation growing exponentially with the number of agents. Accordingly, a number of works are devoted to the efficient approximation of the Shapley value, most of them revolve around the notion of an agent's marginal contribution. In this paper, we propose with SVARM and Stratified SVARM two parameter-free and domain-independent approximation algorithms based on a representation of the Shapley value detached from the notion of marginal contribution. We prove unmatched theoretical guarantees regarding their approximation quality and provide empirical results including synthetic games as well as common explainability use cases comparing ourselves with state-of-the-art methods. | 翻訳日:2024-01-05 17:55:58 公開日:2024-01-04 |
# 点雲からの自動表面再構成に関する調査とベンチマーク A Survey and Benchmark of Automatic Surface Reconstruction from Point Clouds ( http://arxiv.org/abs/2301.13656v2 ) ライセンス: Link先を確認 | Raphael Sulzer, Renaud Marlet, Bruno Vallet, Loic Landrieu | (参考訳) 我々は,点雲から表面再構成を行う従来の手法と学習ベースの手法の総合的な調査とベンチマークを行う。
このタスクは、ノイズ、外れ値、非一様サンプリング、欠落データなどの要因により、現実世界の買収において特に困難である。
従来のアプローチでは、入力ポイントの雲または結果として生じる表面に手作りの事前設定を課すことで問題を単純化することが多い。
逆に、ディープラーニングモデルには、入力点雲と所望の表面の性質を直接データから学習する能力がある。
本研究では,これらの手工芸と学習先行が表面再構成技術の精度と堅牢性に与える影響について検討する。
時間テストおよび現代手法を標準化された方法で評価する。
同じ特性を持つ点雲上でトレーニングと評価の両方を行う場合、学習ベースのモデルは、新しい形状カテゴリを含むシナリオにおいて、従来のそれよりも優れた表面を生成する。
しかし、従来の手法は、現実世界の3D取得でよく見られる多様な点雲異常に対して、より大きなレジリエンスを示す。
研究コミュニティの利益のために、コードとデータセットを利用可能にし、学習ベースの表面再構成をさらに強化します。
これはhttps://github.com/raphaelsulzer/dsr-benchmarkでアクセスできる。 We present a comprehensive survey and benchmark of both traditional and learning-based methods for surface reconstruction from point clouds. This task is particularly challenging for real-world acquisitions due to factors like noise, outliers, non-uniform sampling, and missing data. Traditional approaches often simplify the problem by imposing handcrafted priors on either the input point clouds or the resulting surface, a process that can necessitate tedious hyperparameter tuning. Conversely, deep learning models have the capability to directly learn the properties of input point clouds and desired surfaces from data. We study the influence of these handcrafted and learned priors on the precision and robustness of surface reconstruction techniques. We evaluate various time-tested and contemporary methods in a standardized manner. When both trained and evaluated on point clouds with identical characteristics, the learning-based models consistently produce superior surfaces compared to their traditional counterparts$\unicode{x2013}$even in scenarios involving novel shape categories. However, traditional methods demonstrate greater resilience to the diverse array of point cloud anomalies commonly found in real-world 3D acquisitions. For the benefit of the research community, we make our code and datasets available, inviting further enhancements to learning-based surface reconstruction. This can be accessed at https://github.com/raphaelsulzer/dsr-benchmark . | 翻訳日:2024-01-05 17:55:45 公開日:2024-01-04 |
# SynthMorph を用いた解剖学的認識と獲得診断関節登録 Anatomy-aware and acquisition-agnostic joint registration with SynthMorph ( http://arxiv.org/abs/2301.11329v2 ) ライセンス: Link先を確認 | Malte Hoffmann, Andrew Hoopes, Douglas N. Greve, Bruce Fischl, Adrian V. Dalca | (参考訳) アフィン画像登録は医用画像分析の基礎である。
古典的アルゴリズムは精度が良いが、各画像対に対する時間を要する最適化を解く。
ディープラーニング(dl)メソッドは、画像ペアを出力変換にマッピングする関数を学習する。
関数の評価は速いが、大きな変換をキャプチャすることは困難であり、テスト画像の特徴が解像度などのトレーニング領域からシフトした場合、ネットワークは苦労する傾向がある。
ほとんどのアフィン法は解剖学に依存せず、アルゴリズムが画像中の全ての構造を考慮すれば、登録は不正確になる。
SynthMorphは、MRIスキャナーのすぐ外にある、前処理なしで任意の脳画像の結合アフィン変形可能な登録のための、使いやすいDLツールである。
まず,ラベルマップから合成した多種多様な画像を用いてネットワークを訓練する戦略を活用し,学習時に見いだされない獲得特性にロバストな性能を与える。
次に,選択された解剖学的ラベルの空間的重複を最適化する。
これにより、ネットワークは無関係な構造から関心の解剖学を区別することができ、解剖学固有の登録を妨げるコンテンツを排除する前処理の必要性を排除できる。
第3に、アフィンモデルと変形可能なハイパーネットワークを組み合わせることで、ユーザが特定のデータに対して、登録時に、古典的手法で要求されるわずかな時間で最適な変形場正規性を選択することができる。
競合するアーキテクチャがアフィン変換をどのように学習するかを厳格に分析し、非常に多様な神経画像データに対して最先端の登録ツールを比較し、現実の世界におけるメソッドの振る舞いを真に捉えることを目的としています。
SynthMorphは一貫性と精度の向上を示す。
https://w3id.org/synthmorphで、単一の完全なエンドツーエンドソリューションとして、脳MRIの登録が可能である。 Affine image registration is a cornerstone of medical-image analysis. While classical algorithms can achieve excellent accuracy, they solve a time-consuming optimization for every image pair. Deep-learning (DL) methods learn a function that maps an image pair to an output transform. Evaluating the function is fast, but capturing large transforms can be challenging, and networks tend to struggle if a test-image characteristic shifts from the training domain, such as resolution. Most affine methods are agnostic to anatomy, meaning the registration will be inaccurate if algorithms consider all structures in the image. We address these shortcomings with SynthMorph, an easy-to-use DL tool for joint affine-deformable registration of any brain image without preprocessing, right off the MRI scanner. First, we leverage a strategy to train networks with wildly varying images synthesized from label maps, yielding robust performance across acquisition specifics unseen at training. Second, we optimize the spatial overlap of select anatomical labels. This enables networks to distinguish anatomy of interest from irrelevant structures, removing the need for preprocessing that excludes content which would impinge on anatomy-specific registration. Third, we combine the affine model with a deformable hypernetwork that lets users choose the optimal deformation-field regularity for their specific data, at registration time, in a fraction of the time required by classical methods. We rigorously analyze how competing architectures learn affine transforms and compare state-of-the-art registration tools across an extremely diverse set of neuroimaging data, aiming to truly capture the behavior of methods in the real world. SynthMorph demonstrates consistent and improved accuracy. It is available at https://w3id.org/synthmorph, as a single complete end-to-end solution for registration of brain MRI. | 翻訳日:2024-01-05 17:55:25 公開日:2024-01-04 |
# 量子近似最適化アルゴリズム回路における情報スクランブルと絡み合い Information scrambling and entanglement in quantum approximate optimization algorithm circuits ( http://arxiv.org/abs/2301.07445v3 ) ライセンス: Link先を確認 | Chen Qian, Wei-Feng Zhuang, Rui-Cheng Guo, Meng-Jun Hu, Dong E. Liu | (参考訳) 最適なパラメータ化量子回路からなる変分量子アルゴリズムは、ノイズのある中間スケール量子(NISQ)時代に量子上の利点を示すことを約束している。
古典的な計算資源とは別に、様々な種類の量子資源が、情報スクランブルや絡み合いなどの計算プロセスに寄与している。
量子情報処理の文脈におけるVQAの構造を理解する上で, 特定の問題の複雑性とこれらの問題の解決によって消費される量子資源の関係を特徴づけることが有用である。
本研究では,組合せ最適化問題を解くことを目的とした量子近似最適化アルゴリズム(QAOA)に焦点を当てる。
本稿では,QAOA回路における情報スクランブルと絡み合いについて検討し,QAOA回路が解を得るためには,より難しい問題に対してより多くの量子資源が必要であることを明らかにする。
将来的には, 量子多体問題の複雑性を, 計算プロセスにおける情報スクランブルや絡み合いの蓄積によって評価することが可能になる。 Variational quantum algorithms, which consist of optimal parameterized quantum circuits, are promising for demonstrating quantum advantages in the noisy intermediate-scale quantum (NISQ) era. Apart from classical computational resources, different kinds of quantum resources have their contributions to the process of computing, such as information scrambling and entanglement. Characterizing the relation between the complexity of specific problems and quantum resources consumed by solving these problems is helpful for us to understand the structure of VQAs in the context of quantum information processing. In this work, we focus on the quantum approximate optimization algorithm (QAOA), which aims to solve combinatorial optimization problems. We study information scrambling and entanglement in QAOA circuits, respectively, and discover that for a harder problem, more quantum resource is required for the QAOA circuit to obtain the solution in most cases. We note that in the future, our results can be used to benchmark the complexity of quantum many-body problems by information scrambling or entanglement accumulation in the computing process. | 翻訳日:2024-01-05 17:54:54 公開日:2024-01-04 |
# ZX計算からのグラフィック量子クリフォードエンコーダコンパイラ Graphical quantum Clifford-encoder compilers from the ZX calculus ( http://arxiv.org/abs/2301.02356v2 ) ライセンス: Link先を確認 | Andrey Boris Khesin, Jonathan Z. Lu, and Peter W. Shor | (参考訳) 本稿では,安定な量子符号を符号化するクリフォードエンコーダをZX計算のユニークなグラフィカル表現にマッピングする量子コンパイルアルゴリズムを提案する。
具体的には、zx計算において正準形式を開発し、任意のクリフォードエンコーダの正準形式への効率的な還元性を証明する。
コンパイラが生成する図はエンコーダの情報伝達と絡み合い構造を可視化し、回路やスタビライザ・テーブルー表現で隠蔽される可能性のある特性を明らかにする。
したがって、我々の標準表現はグラフ理論解析による新しい安定化型量子符号の設計に有用な技術となるかもしれない。 We present a quantum compilation algorithm that maps Clifford encoders, encoding maps for stabilizer quantum codes, to a unique graphical representation in the ZX calculus. Specifically, we develop a canonical form in the ZX calculus and prove canonicity as well as efficient reducibility of any Clifford encoder into the canonical form. The diagrams produced by our compiler visualize information propagation and entanglement structure of the encoder, revealing properties that may be obscured in the circuit or stabilizer-tableau representation. Consequently, our canonical representation may be an informative technique for the design of new stabilizer quantum codes via graph theory analysis. | 翻訳日:2024-01-05 17:54:38 公開日:2024-01-04 |
# 制御可能な感情を伴う表現型音声駆動顔アニメーション Expressive Speech-driven Facial Animation with controllable emotions ( http://arxiv.org/abs/2301.02008v2 ) ライセンス: Link先を確認 | Yutong Chen, Junhong Zhao, Wei-Qiang Zhang | (参考訳) 顔のアニメーションを高いリアリズムで生成することは高い需要があるが、それでも難しい課題である。
既存の音声駆動顔アニメーションのアプローチは、口の動きと唇の同期を満足させるが、劇的な感情表現の弱さと感情制御の柔軟性を示す。
本稿では,感情のタイプと強度を制御可能な広スペクトルの表情を表現できる音声から表情を表現できる,新しい深層学習に基づくアプローチを提案する。
感情の変動(タイプや強度など)とそれに対応する表情パラメータの関係を学習するための感情制御モジュールを提案する。
感情制御可能な顔アニメーションを可能にし、ターゲット表現を必要に応じて継続的に調整することができる。
質的,定量的評価により,本手法で生成したアニメーションは,唇の動きを正確に保ちながら表情の表情に富み,他の手法よりも優れていた。 It is in high demand to generate facial animation with high realism, but it remains a challenging task. Existing approaches of speech-driven facial animation can produce satisfactory mouth movement and lip synchronization, but show weakness in dramatic emotional expressions and flexibility in emotion control. This paper presents a novel deep learning-based approach for expressive facial animation generation from speech that can exhibit wide-spectrum facial expressions with controllable emotion type and intensity. We propose an emotion controller module to learn the relationship between the emotion variations (e.g., types and intensity) and the corresponding facial expression parameters. It enables emotion-controllable facial animation, where the target expression can be continuously adjusted as desired. The qualitative and quantitative evaluations show that the animation generated by our method is rich in facial emotional expressiveness while retaining accurate lip movement, outperforming other state-of-the-art methods. | 翻訳日:2024-01-05 17:54:27 公開日:2024-01-04 |
# 音響マスクオートエンコーダ Audiovisual Masked Autoencoders ( http://arxiv.org/abs/2212.05922v3 ) ライセンス: Link先を確認 | Mariana-Iuliana Georgescu, Eduardo Fonseca, Radu Tudor Ionescu, Mario Lucic, Cordelia Schmid, Anurag Arnab | (参考訳) 映像にすでに存在する映像情報を利用して自己教師付き表現学習を向上できるか?
そこで本稿では,自然言語や画像理解における類似手法の成功を動機として,マスク付き自動符号化フレームワークにおける事前学習アーキテクチャと目的について検討する。
我々は,vggsound と audioset の最先端技術に勝って,視聴覚下分類タスクにおいて大幅な改善を実現できることを示す。
さらに,1つのオーディオビジュアルプリトレーニングモデルを用いて,複数のユニモーダルダウンストリームタスクに対して,オーディオビジュアルプリトレーニングスキームを活用できる。
さらに,表現の転送性を実証し,このデータセットを事前にトレーニングすることなく,エピックキッチンで最先端のオーディオビジュアル結果を得る。 Can we leverage the audiovisual information already present in video to improve self-supervised representation learning? To answer this question, we study various pretraining architectures and objectives within the masked autoencoding framework, motivated by the success of similar methods in natural language and image understanding. We show that we can achieve significant improvements on audiovisual downstream classification tasks, surpassing the state-of-the-art on VGGSound and AudioSet. Furthermore, we can leverage our audiovisual pretraining scheme for multiple unimodal downstream tasks using a single audiovisual pretrained model. We additionally demonstrate the transferability of our representations, achieving state-of-the-art audiovisual results on Epic Kitchens without pretraining specifically for this dataset. | 翻訳日:2024-01-05 17:54:10 公開日:2024-01-04 |
# DeepTaster: ディープニューラルネットワークにおける一次データセットの識別のための逆摂動に基づくフィンガープリント DeepTaster: Adversarial Perturbation-Based Fingerprinting to Identify Proprietary Dataset Use in Deep Neural Networks ( http://arxiv.org/abs/2211.13535v2 ) ライセンス: Link先を確認 | Seonhye Park, Alsharif Abuadbba, Shuo Wang, Kristen Moore, Yansong Gao, Hyoungshick Kim, Surya Nepal | (参考訳) ディープニューラルネットワーク(DNN)のトレーニングには、大規模なデータセットと強力なコンピューティングリソースが必要だ。
機密データをdnnに埋め込む透かし技術は、所有権を保護するために使われてきたが、これらはモデルのパフォーマンスを低下させ、透かし除去攻撃に弱い。
近年,DeepJudgeは被疑者と被害者モデルとの類似性を測定する代替手法として導入された。
DeepJudgeは、透かしの欠点に対処する際、主に被疑者のモデルが犠牲者のアーキテクチャをコピーする状況に対処する。
本研究では,新たなDNNフィンガープリント技術であるDeepTasterを紹介し,被害者のデータを不正に使用して容疑者モデルを構築するシナリオに対処する。
DeepTasterは、疑わしいモデルのアーキテクチャが被害者から逸脱した場合でも、そのようなDNNモデル盗難攻撃を効果的に識別することができる。
これを達成するため、deeptasterは摂動を伴う逆画像を生成し、フーリエ周波数領域に変換し、これらの変換画像を使用して被疑者モデルで使用されるデータセットを識別する。
根底にある前提は、特定のデータセットで構築されたDNNのユニークな特徴を、逆画像がキャプチャできるということです。
DeepTasterの有効性を実証するために,3つのモデルアーキテクチャ(ResNet18,VGG16,DenseNet161)における3つのデータセット(CIFAR10,MNIST,Tiny-ImageNet)における検出精度を評価し,DeepTasterの有効性を評価した。
転送学習,プルーニング,微調整,データ拡張など,さまざまな攻撃シナリオで実験を行った。
具体的には、Multi-Architecture Attackのシナリオでは、DeepTasterはすべてのデータセットで盗まれたすべてのケースを識別することができたが、DeepJudgeはいずれのケースも検出できなかった。 Training deep neural networks (DNNs) requires large datasets and powerful computing resources, which has led some owners to restrict redistribution without permission. Watermarking techniques that embed confidential data into DNNs have been used to protect ownership, but these can degrade model performance and are vulnerable to watermark removal attacks. Recently, DeepJudge was introduced as an alternative approach to measuring the similarity between a suspect and a victim model. While DeepJudge shows promise in addressing the shortcomings of watermarking, it primarily addresses situations where the suspect model copies the victim's architecture. In this study, we introduce DeepTaster, a novel DNN fingerprinting technique, to address scenarios where a victim's data is unlawfully used to build a suspect model. DeepTaster can effectively identify such DNN model theft attacks, even when the suspect model's architecture deviates from the victim's. To accomplish this, DeepTaster generates adversarial images with perturbations, transforms them into the Fourier frequency domain, and uses these transformed images to identify the dataset used in a suspect model. The underlying premise is that adversarial images can capture the unique characteristics of DNNs built with a specific dataset. To demonstrate the effectiveness of DeepTaster, we evaluated the effectiveness of DeepTaster by assessing its detection accuracy on three datasets (CIFAR10, MNIST, and Tiny-ImageNet) across three model architectures (ResNet18, VGG16, and DenseNet161). We conducted experiments under various attack scenarios, including transfer learning, pruning, fine-tuning, and data augmentation. Specifically, in the Multi-Architecture Attack scenario, DeepTaster was able to identify all the stolen cases across all datasets, while DeepJudge failed to detect any of the cases. | 翻訳日:2024-01-05 17:53:57 公開日:2024-01-04 |
# 等角予測における深層学習モデルの不確かさの定量化 Quantifying Deep Learning Model Uncertainty in Conformal Prediction ( http://arxiv.org/abs/2306.00876v2 ) ライセンス: Link先を確認 | Hamed Karimi, Reza Samavi | (参考訳) ディープニューラルネットワークにおける予測の不確かさの正確な推定は、機械学習や統計モデリング、特に医療aiの文脈において、信頼できる意思決定のための重要な要件である。
共形予測(cp)は、個々の予測に対して十分に調整された信頼レベルを提供することで、モデルの不確実性を表現するための有望な枠組みとして現れた。
しかし、共形予測におけるモデル不確実性の定量化は依然として活発な研究領域であり、完全には解決されていない。
本稿では,最先端CP手法とその理論的基礎について考察する。
本研究では,生成された予測集合から得られたモデル不確かさを共形予測で定量化する確率論的アプローチを提案し,計算不確実性に対する認定境界を提供する。
これにより、CPによって測定されたモデルの不確実性は、ベイジアン(例えば、MC-DropoutやDeepEnsemble)やエビデンシャルアプローチといった他の不確実性定量化手法と比較することができる。 Precise estimation of predictive uncertainty in deep neural networks is a critical requirement for reliable decision-making in machine learning and statistical modeling, particularly in the context of medical AI. Conformal Prediction (CP) has emerged as a promising framework for representing the model uncertainty by providing well-calibrated confidence levels for individual predictions. However, the quantification of model uncertainty in conformal prediction remains an active research area, yet to be fully addressed. In this paper, we explore state-of-the-art CP methodologies and their theoretical foundations. We propose a probabilistic approach in quantifying the model uncertainty derived from the produced prediction sets in conformal prediction and provide certified boundaries for the computed uncertainty. By doing so, we allow model uncertainty measured by CP to be compared by other uncertainty quantification methods such as Bayesian (e.g., MC-Dropout and DeepEnsemble) and Evidential approaches. | 翻訳日:2024-01-05 17:43:27 公開日:2024-01-04 |
# 量子アニーリングによる合成開口レーダ画像分割 Synthetic Aperture Radar Image Segmentation with Quantum Annealing ( http://arxiv.org/abs/2305.17954v2 ) ライセンス: Link先を確認 | Timothe Presles, Cyrille Enderli, Gilles Burel and El Houssain Baghious | (参考訳) 画像処理において、イメージセグメンテーション(英: image segmentation)とは、デジタル画像を複数の画像セグメントに分割するプロセスである。
最先端の手法の中で、マルコフランダムフィールド(MRF)はピクセル間の依存関係をモデル化し、関連するコスト関数を最小化してセグメンテーションを実現できる。
現在、MDFとしてモデル化された画像の最適部分集合を見つけることはNPハードであるようである。
本稿では,量子コンピューティングの指数関数的スケーラビリティを利用して,合成開口レーダ画像のセグメンテーションを高速化することを目的とする。
そこで本研究では,セグメントの最適集合を得るためのハイブリッド量子アニーリング古典最適化期待最大化アルゴリズムを提案する。
適切な定式化を提案した後、D-Wave量子コンピュータにおける我々のアプローチの性能とスケーラビリティについて論じる。
また,Adiabatic 量子計算の限界とポテンシャルを啓蒙する最適計算パラメータの簡単な研究を行い,組合せ最適化問題の大規模解法を提案する。 In image processing, image segmentation is the process of partitioning a digital image into multiple image segment. Among state-of-the-art methods, Markov Random Fields (MRF) can be used to model dependencies between pixels, and achieve a segmentation by minimizing an associated cost function. Currently, finding the optimal set of segments for a given image modeled as a MRF appears to be NP-hard. In this paper, we aim to take advantage of the exponential scalability of quantum computing to speed up the segmentation of Synthetic Aperture Radar images. For that purpose, we propose an hybrid quantum annealing classical optimization Expectation Maximization algorithm to obtain optimal sets of segments. After proposing suitable formulations, we discuss the performances and the scalability of our approach on the D-Wave quantum computer. We also propose a short study of optimal computation parameters to enlighten the limits and potential of the adiabatic quantum computation to solve large instances of combinatorial optimization problems. | 翻訳日:2024-01-05 17:43:10 公開日:2024-01-04 |
# キャッシュ付きスパース拡散推論によるテキスト間編集の高速化 Accelerating Text-to-Image Editing via Cache-Enabled Sparse Diffusion Inference ( http://arxiv.org/abs/2305.17423v3 ) ライセンス: Link先を確認 | Zihao Yu, Haoyang Li, Fangcheng Fu, Xupeng Miao, Bin Cui | (参考訳) 近年の拡散モデルの成功により,テキスト・画像生成が普及し,幅広い応用が達成されている。
その中でも、テキスト・ツー・イメージの編集や連続的なテキスト・ツー・イメージ生成は、多くの注目を集め、生成した画像の品質を向上させる可能性がある。
ユーザは、何ラウンドかの拡散推論のために入力テキスト記述を微調整することで、生成した画像をわずかに編集したいと考えるのが一般的です。
しかし、そのような画像編集プロセスは、GPUアクセラレーターを使用しても、既存の多くの拡散モデルの低推論効率に悩まされる。
この問題を解決するために,キャッシュ型スパース拡散モデル推論エンジンであるFast Image Semantically Edit (FISEdit)を導入する。
このアプローチの背後にある重要な直感は、入力テキストのマイナーな変更と出力画像の影響を受ける領域の間のセマンティックマッピングを利用することです。
テキスト編集ステップ毎に、FISEditは影響を受ける画像領域を自動で識別し、キャッシュされた未変更領域の特徴マップを利用して推論プロセスを高速化する。
大規模な実験結果によると、FISEditはNVIDIA TITAN RTXとA100 GPUの既存の方法よりも3.4\times$と4.4\times$で、より満足できる画像を生成することができる。 Due to the recent success of diffusion models, text-to-image generation is becoming increasingly popular and achieves a wide range of applications. Among them, text-to-image editing, or continuous text-to-image generation, attracts lots of attention and can potentially improve the quality of generated images. It's common to see that users may want to slightly edit the generated image by making minor modifications to their input textual descriptions for several rounds of diffusion inference. However, such an image editing process suffers from the low inference efficiency of many existing diffusion models even using GPU accelerators. To solve this problem, we introduce Fast Image Semantically Edit (FISEdit), a cached-enabled sparse diffusion model inference engine for efficient text-to-image editing. The key intuition behind our approach is to utilize the semantic mapping between the minor modifications on the input text and the affected regions on the output image. For each text editing step, FISEdit can automatically identify the affected image regions and utilize the cached unchanged regions' feature map to accelerate the inference process. Extensive empirical results show that FISEdit can be $3.4\times$ and $4.4\times$ faster than existing methods on NVIDIA TITAN RTX and A100 GPUs respectively, and even generates more satisfactory images. | 翻訳日:2024-01-05 17:42:53 公開日:2024-01-04 |
# スパイクニューラルネットワークを用いたパターン認識のためのハイブリッドニューラルコーディング手法 A Hybrid Neural Coding Approach for Pattern Recognition with Spiking Neural Networks ( http://arxiv.org/abs/2305.16594v2 ) ライセンス: Link先を確認 | Xinyi Chen, Qu Yang, Jibin Wu, Haizhou Li, and Kay Chen Tan | (参考訳) 近年,脳に触発されたスパイキングニューラルネットワーク(snn)が,パターン認識課題の解決に有望な能力を示している。
しかし、これらのSNNは情報表現に一様神経コーディングを利用する同質ニューロンに基づいている。
各ニューラルコーディングスキームが独自のメリットと欠点を持っていることを考えると、これらのsnsは、正確性、応答時間、効率性、堅牢性といった最適なパフォーマンスを達成する上での課題に遭遇する。
本研究では、SNNアーキテクチャは異種符号化方式を組み込むよう、均質に設計されるべきであると主張する。
この方向の最初の探索として、神経科学で発見された多様なニューラルコーディングスキームを備えたニューラルコーディング動物園を含むハイブリッドニューラルコーディングおよび学習フレームワークを提案する。
さらに、タスク固有の要件を満たすフレキシブルなニューラルコーディング割り当て戦略と、ハイブリッドコーディングSNNを効果的に実装する新しいレイヤワイズ学習手法も組み込まれている。
画像分類と音像定位タスクにおいて,提案手法の優位性を示す。
具体的には、提案したハイブリッドコーディングSNNは、最先端SNNと同等の精度を達成し、推論遅延とエネルギー消費を著しく低減し、高ノイズロバスト性を示す。
この研究は、ハイブリッドニューラルコーディングの設計に貴重な洞察を与え、高性能なニューロモルフィックシステムの開発に道を開く。 Recently, brain-inspired spiking neural networks (SNNs) have demonstrated promising capabilities in solving pattern recognition tasks. However, these SNNs are grounded on homogeneous neurons that utilize a uniform neural coding for information representation. Given that each neural coding scheme possesses its own merits and drawbacks, these SNNs encounter challenges in achieving optimal performance such as accuracy, response time, efficiency, and robustness, all of which are crucial for practical applications. In this study, we argue that SNN architectures should be holistically designed to incorporate heterogeneous coding schemes. As an initial exploration in this direction, we propose a hybrid neural coding and learning framework, which encompasses a neural coding zoo with diverse neural coding schemes discovered in neuroscience. Additionally, it incorporates a flexible neural coding assignment strategy to accommodate task-specific requirements, along with novel layer-wise learning methods to effectively implement hybrid coding SNNs. We demonstrate the superiority of the proposed framework on image classification and sound localization tasks. Specifically, the proposed hybrid coding SNNs achieve comparable accuracy to state-of-the-art SNNs, while exhibiting significantly reduced inference latency and energy consumption, as well as high noise robustness. This study yields valuable insights into hybrid neural coding designs, paving the way for developing high-performance neuromorphic systems. | 翻訳日:2024-01-05 17:42:30 公開日:2024-01-04 |
# ツイート投稿に対するnerのための階層型マルチモーダル学習 Hierarchical Aligned Multimodal Learning for NER on Tweet Posts ( http://arxiv.org/abs/2305.08372v2 ) ライセンス: Link先を確認 | Peipei Liu, Hong Li, Yimo Ren, Jie Liu, Shuaizong Si, Hongsong Zhu, Limin Sun | (参考訳) 名前付きエンティティ認識(NER)を用いたつぶやきからの構造化知識のマイニングは、推奨や意図的理解といったダウンストリームアプリケーションの多くにとって有益である。
ツイート投稿はマルチモーダルである傾向にあり、マルチモーダルなエンティティ認識(MNER)が注目されている。
本稿では,画像とテキストのシーケンスを動的に整列させ,マルチレベルクロスモーダル学習を実現し,mner改善のための文章表現を増強する手法を提案する。
第1段階はモダリティの暗黙のグローバルな知識と局所的な知識を導き出すためのモダリティ内表現学習,第2段階はテキストと付随する画像の関連性を評価し,その関連性に基づいて異なるきめ細かい視覚情報を統合する,第3段階は反復的相互モーダル相互作用とコアテンションによって意味的洗練を強制する,という3つの段階に分けられる。
2つのオープンデータセットについて実験を行い,結果と詳細な解析結果から,このモデルの利点を実証した。 Mining structured knowledge from tweets using named entity recognition (NER) can be beneficial for many down stream applications such as recommendation and intention understanding. With tweet posts tending to be multimodal, multimodal named entity recognition (MNER) has attracted more attention. In this paper, we propose a novel approach, which can dynamically align the image and text sequence and achieve the multi-level cross-modal learning to augment textual word representation for MNER improvement. To be specific, our framework can be split into three main stages: the first stage focuses on intra-modality representation learning to derive the implicit global and local knowledge of each modality, the second evaluates the relevance between the text and its accompanying image and integrates different grained visual information based on the relevance, the third enforces semantic refinement via iterative cross-modal interactions and co-attention. We conduct experiments on two open datasets, and the results and detailed analysis demonstrate the advantage of our model. | 翻訳日:2024-01-05 17:42:06 公開日:2024-01-04 |
# リスク確率推定のための一般化物理形学習フレームワーク A Generalizable Physics-informed Learning Framework for Risk Probability Estimation ( http://arxiv.org/abs/2305.06432v2 ) ライセンス: Link先を確認 | Zhuoyuan Wang, Yorie Nakahira | (参考訳) 長期リスク確率とその勾配の正確な推定は、多くの確率的安全な制御法において重要である。
しかし、そのようなリスク確率をリアルタイムで計算したり、見当たらない環境や変化する環境で計算することは困難である。
モンテカルロ法(MC)はサンプリングノイズを増幅できる無限小因子として確率とその勾配を正確に評価することはできない。
本稿では,長期的リスクの確率とその勾配を評価するための効率的な手法を開発する。
提案手法は,確率間の近接関係を特徴付けるある偏微分方程式(PDE)を長期的リスク確率で満たすという事実を利用して,MC法と物理インフォームドニューラルネットワークを統合する。
トレーニング構成の特定の選択により推定誤差を理論的に保証する。
数値計算の結果,提案手法はサンプル効率が良く,未検出領域によく一般化でき,パラメータが変化するシステムに適用できることがわかった。
提案手法は,リスク確率の勾配を正確に推定し,リスク確率の1次・2次手法を学習・制御に使用することができる。 Accurate estimates of long-term risk probabilities and their gradients are critical for many stochastic safe control methods. However, computing such risk probabilities in real-time and in unseen or changing environments is challenging. Monte Carlo (MC) methods cannot accurately evaluate the probabilities and their gradients as an infinitesimal devisor can amplify the sampling noise. In this paper, we develop an efficient method to evaluate the probabilities of long-term risk and their gradients. The proposed method exploits the fact that long-term risk probability satisfies certain partial differential equations (PDEs), which characterize the neighboring relations between the probabilities, to integrate MC methods and physics-informed neural networks. We provide theoretical guarantees of the estimation error given certain choices of training configurations. Numerical results show the proposed method has better sample efficiency, generalizes well to unseen regions, and can adapt to systems with changing parameters. The proposed method can also accurately estimate the gradients of risk probabilities, which enables first- and second-order techniques on risk probabilities to be used for learning and control. | 翻訳日:2024-01-05 17:41:41 公開日:2024-01-04 |
# VideoChat: チャット中心のビデオ理解 VideoChat: Chat-Centric Video Understanding ( http://arxiv.org/abs/2305.06355v2 ) ライセンス: Link先を確認 | KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao | (参考訳) 本稿では,VoiceChatと呼ばれるエンドツーエンドのチャット中心のビデオ理解システムを開発する試みを開始する。
学習可能なニューラルネットワークを通じてビデオ基盤モデルと大規模言語モデルを統合し、時空間推論、イベントローカライゼーション、因果関係推論に優れる。
このシステムを学習的にチューニングするために,詳細な説明や会話に関連する数千のビデオからなるビデオ中心の指導データセットを構築した。
このデータセットは時空間的推論を強調し、因果関係を捉え、チャット中心のビデオ理解システムのトレーニングに有用な資産を提供する。
予備的な質的実験は,チャット中心のビデオ理解に関する今後の研究のための単純なプロトタイプシステムとして機能する,幅広いビデオアプリケーションにわたるシステムの可能性を実証するものだ。
https://github.com/OpenGVLab/Ask-Anythingでコードとデータにアクセスする In this paper, we initiate an attempt of developing an end-to-end chat-centric video understanding system, coined as VideoChat. It integrates video foundation models and large language models via a learnable neural interface, excelling in spatiotemporal reasoning, event localization, and causal relationship inference. To instructively tune this system, we build a video-centric instruction dataset, composed of thousands of videos associated with detailed descriptions and conversations. This dataset emphasizes spatiotemporal reasoning and captures causal relationships, providing a valuable asset for training our chat-centric video understanding system. Preliminary qualitative experiments demonstrate the potential of our system across a broad spectrum of video applications, which could serve as a simple prototype system for future research on chat-centric video understanding. Access our code and data at https://github.com/OpenGVLab/Ask-Anything | 翻訳日:2024-01-05 17:41:22 公開日:2024-01-04 |
# 量子力学におけるエネルギー密度 Energy densities in quantum mechanics ( http://arxiv.org/abs/2305.05657v3 ) ライセンス: Link先を確認 | V. Stepanyan and A.E. Allahverdyan | (参考訳) 量子力学は、エネルギーと座標が可換ではないため、空間におけるエネルギー密度を定義するための準備が整っていない。
よく動機づけられたエネルギー密度を求めるには、スピン-$\frac{1}{2}$ particle: dirac's equation の基本的な相対論的記述から始める。
エネルギー-運動量テンソルを使い、非相対論的極限に進むと、局所的に保存された非相対論的エネルギー密度がテレツキー・マルゲナウ・ヒル準確率(英語版)(terletsky-Margenau-Hill quasiprobability)によって定義される。
これはエネルギーの弱い値と一致し、量子ポテンシャルを含む量子力学のマドルング表現における流体エネルギーと一致する。
さらに、非相対論的極限において有限であり、残りのエネルギーから出現し、(別々に)局所的に保存されている新しいスピン関連エネルギーが、地球規模のエネルギー予算に寄与しない。
この形のエネルギーはホログラフィック的特徴、すなわち、与えられた体積に対するその値は、この体積の表面を通して表される。
この結果は局所的なエネルギー表現が不可欠である状況に適用され、例えば、ガウス波やエアリー波のパペットを含む)大規模な自由波パペットのエネルギー移動速度がその群(すなわち座標移動速度)よりも大きいことを示す。 Quantum mechanics does not provide any ready recipe for defining energy density in space, since the energy and coordinate do not commute. To find a well-motivated energy density, we start from a possibly fundamental, relativistic description for a spin-$\frac{1}{2}$ particle: Dirac's equation. Employing its energy-momentum tensor and going to the non-relativistic limit we find a locally conserved non-relativistic energy density that is defined via the Terletsky-Margenau-Hill quasiprobability (which is hence selected among other options). It coincides with the weak value of energy, and also with the hydrodynamic energy in the Madelung representation of quantum dynamics, which includes the quantum potential. Moreover, we find a new form of spin-related energy that is finite in the non-relativistic limit, emerges from the rest energy, and is (separately) locally conserved, though it does not contribute to the global energy budget. This form of energy has a holographic character, i.e., its value for a given volume is expressed via the surface of this volume. Our results apply to situations where local energy representation is essential; e.g. we show that the energy transfer velocity for a large class of free wave-packets (including Gaussian and Airy wave-packets) is larger than its group (i.e. coordinate-transfer) velocity. | 翻訳日:2024-01-05 17:41:07 公開日:2024-01-04 |
# 資源エンジン Resource engines ( http://arxiv.org/abs/2304.09559v2 ) ライセンス: Link先を確認 | Hanna Wojew\'odka-\'Sci\k{a}\.zko, Zbigniew Pucha{\l}a and Kamil Korzekwa | (参考訳) 本稿では、熱力学と量子資源理論の類似性をさらに一歩押し上げることを目的とする。
以前の着想は主に1つの熱浴のシナリオに関する熱力学的考察に基づいており、異なる温度で2つの浴の間に作用する熱エンジンを研究する熱力学の重要な部分を無視していた。
本稿では,異なる温度での2つの熱浴へのアクセスを,状態変換の2つの任意制約により置き換える資源エンジンの性能について検討する。
このアイデアは、2ストロークのヒートエンジンの動作を模倣し、システムは2つのエージェント(アリスとボブ)に交互に送られ、制約された自由操作セットを使って変換される。
我々は、リソースエンジンが完全な量子演算や可能な状態変換を生成できるかどうか、それに必要なストローク数など、いくつかの疑問を提起し、解決する。
また、2つ以上の資源理論を融合させる自然な方法として、熱力学の2つの資源理論と2つの異なる温度との融合、および2つの異なる基底に対するコヒーレンスに関する2つの資源理論について詳細に論じる。 In this paper we aim to push the analogy between thermodynamics and quantum resource theories one step further. Previous inspirations were based predominantly on thermodynamic considerations concerning scenarios with a single heat bath, neglecting an important part of thermodynamics that studies heat engines operating between two baths at different temperatures. Here, we investigate the performance of resource engines, which replace the access to two heat baths at different temperatures with two arbitrary constraints on state transformations. The idea is to imitate the action of a two--stroke heat engine, where the system is sent to two agents (Alice and Bob) in turns, and they can transform it using their constrained sets of free operations. We raise and address several questions, including whether or not a resource engine can generate a full set of quantum operations or all possible state transformations, and how many strokes are needed for that. We also explain how the resource engine picture provides a natural way to fuse two or more resource theories, and we discuss in detail the fusion of two resource theories of thermodynamics with two different temperatures, and two resource theories of coherence with respect to two different bases. | 翻訳日:2024-01-05 17:40:40 公開日:2024-01-04 |
# STAS:マルチエージェント強化学習のための時空間回帰分解 STAS: Spatial-Temporal Return Decomposition for Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2304.07520v2 ) ライセンス: Link先を確認 | Sirui Chen, Zhaowei Zhang, Yaodong Yang, Yali Du | (参考訳) 分散実行による集中訓練(CTDE)は協調型マルチエージェント強化学習(MARL)において有効なパラダイムであることが証明されている。
主な課題の1つは、クレジット・アサイン(credit assignment)である。
以前の研究では大きな成功を収めたものの、その手法はエピソードの終わりにのみグローバルな報酬が明らかにされるエピソード強化学習シナリオではうまく機能しない。
時間的次元における遅延したグローバル報酬の複雑な関係をモデル化する機能がなく、非効率に苦しむ。
これを解決するために,時空間次元と空間次元の両方でクレジット割り当てを学習する新しい手法であるSpatial-Temporal Attention with Shapley(STAS)を導入する。
最初はグローバルリターンを各タイムステップに分解し、次にShapley Valueを使用して、分解されたグローバルリターンから個々のペイオフを再分配する。
共有値の計算複雑性を軽減するために,余剰寄与の近似を導入し,モンテカルロサンプリングを用いて推定する。
Alice & Bob の例と MPE 環境について,様々なシナリオで評価を行った。
本手法は,すべての最先端ベースラインを上回って,空間的-時空間的クレジットを効果的に割り当てることを示す。 Centralized Training with Decentralized Execution (CTDE) has been proven to be an effective paradigm in cooperative multi-agent reinforcement learning (MARL). One of the major challenges is credit assignment, which aims to credit agents by their contributions. While prior studies have shown great success, their methods typically fail to work in episodic reinforcement learning scenarios where global rewards are revealed only at the end of the episode. They lack the functionality to model complicated relations of the delayed global reward in the temporal dimension and suffer from inefficiencies. To tackle this, we introduce Spatial-Temporal Attention with Shapley (STAS), a novel method that learns credit assignment in both temporal and spatial dimensions. It first decomposes the global return back to each time step, then utilizes the Shapley Value to redistribute the individual payoff from the decomposed global reward. To mitigate the computational complexity of the Shapley Value, we introduce an approximation of marginal contribution and utilize Monte Carlo sampling to estimate it. We evaluate our method on an Alice & Bob example and MPE environments across different scenarios. Our results demonstrate that our method effectively assigns spatial-temporal credit, outperforming all state-of-the-art baselines. | 翻訳日:2024-01-05 17:40:20 公開日:2024-01-04 |
# オフザシェルフ画像拡散モデルを用いたゼロショット映像編集 Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models ( http://arxiv.org/abs/2303.17599v3 ) ライセンス: Link先を確認 | Wen Wang, Yan Jiang, Kangyang Xie, Zide Liu, Hao Chen, Yue Cao, Xinlong Wang, Chunhua Shen | (参考訳) 大規模テキスト・画像拡散モデルは画像生成と編集において前例のない成功を収めた。
しかし、このような成功をビデオ編集に拡張する方法は不明である。
ビデオ編集の初期の試みでは、大量のテキストからビデオへのデータと、訓練のための計算リソースが必要だった。
本研究では,ゼロショット映像編集のための簡易かつ効果的な手法であるvid2vid-zeroを提案する。
私たちのvid2vid-zeroは、既製の画像拡散モデルを活用しています。
提案手法の核心は,テキスト間アライメントのためのヌルテキストインバージョンモジュール,時間的一貫性のためのクロスフレームモデリングモジュール,オリジナルビデオへの忠実性のための空間正規化モジュールである。
トレーニングがなければ、アテンション機構の動的な性質を利用して、テスト時に双方向のテンポラリモデリングを可能にします。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
コードは \url{https://github.com/baaivision/vid2vid-zero} で利用可能である。 Large-scale text-to-image diffusion models achieve unprecedented success in image generation and editing. However, how to extend such success to video editing is unclear. Recent initial attempts at video editing require significant text-to-video data and computation resources for training, which is often not accessible. In this work, we propose vid2vid-zero, a simple yet effective method for zero-shot video editing. Our vid2vid-zero leverages off-the-shelf image diffusion models, and doesn't require training on any video. At the core of our method is a null-text inversion module for text-to-video alignment, a cross-frame modeling module for temporal consistency, and a spatial regularization module for fidelity to the original video. Without any training, we leverage the dynamic nature of the attention mechanism to enable bi-directional temporal modeling at test time. Experiments and analyses show promising results in editing attributes, subjects, places, etc., in real-world videos. Code is made available at \url{https://github.com/baaivision/vid2vid-zero}. | 翻訳日:2024-01-05 17:39:59 公開日:2024-01-04 |
# 拡散モデルにおけるh空間を用いたトレーニングフリーコンテンツ注入 Training-free Content Injection using h-space in Diffusion Models ( http://arxiv.org/abs/2303.15403v2 ) ライセンス: Link先を確認 | Jaeseok Jeong, Mingi Kwon, Youngjung Uh | (参考訳) 拡散モデル(DM)は、様々な領域で高品質な画像を合成する。
しかし、その生成過程の制御は、プロセスの中間変数が厳密に研究されていないため、まだ曖昧である。
最近では、U-Netのボトルネック機能である$h$-spaceが、結果の画像の意味を伝達している。
DM内でStyleCLIPライクな潜時編集を可能にする。
本稿では,属性編集以外の$h$-spaceのさらなる利用について検討し,その特徴を生成プロセスに組み合わせることにより,ある画像の内容を別の画像に注入する手法を提案する。
略して、他の画像の本来の生成過程を考える。
1) コンテンツのボトルネック特徴と適切な正規化を徐々にブレンドし、
2) 挿入された内容と一致するようにスキップ接続を校正する。
カスタム拡散アプローチとは異なり、我々の手法は時間を要する最適化や微調整を必要としない。
代わりに、本手法はフィードフォワード生成プロセス内で中間機能を操作する。
さらに,本手法は外部ネットワークの監視を必要としない。
コードはhttps://curryjung.github.io/injectfusion/で入手できる。 Diffusion models (DMs) synthesize high-quality images in various domains. However, controlling their generative process is still hazy because the intermediate variables in the process are not rigorously studied. Recently, the bottleneck feature of the U-Net, namely $h$-space, is found to convey the semantics of the resulting image. It enables StyleCLIP-like latent editing within DMs. In this paper, we explore further usage of $h$-space beyond attribute editing, and introduce a method to inject the content of one image into another image by combining their features in the generative processes. Briefly, given the original generative process of the other image, 1) we gradually blend the bottleneck feature of the content with proper normalization, and 2) we calibrate the skip connections to match the injected content. Unlike custom-diffusion approaches, our method does not require time-consuming optimization or fine-tuning. Instead, our method manipulates intermediate features within a feed-forward generative process. Furthermore, our method does not require supervision from external networks. The code is available at https://curryjung.github.io/InjectFusion/ | 翻訳日:2024-01-05 17:39:43 公開日:2024-01-04 |
# ニューラルネットワークのモデル圧縮について:フレームワーク,アルゴリズム,収束保証 On Model Compression for Neural Networks: Framework, Algorithm, and Convergence Guarantee ( http://arxiv.org/abs/2303.06815v2 ) ライセンス: Link先を確認 | Chenyang Li, Jihoon Chung, Biao Cai, Haimin Wang, Xianlian Zhou, Bo Shen | (参考訳) モデル圧縮は、特に多くのアプリケーションでコンピュータデバイスのメモリとストレージが制限されている場合、ニューラルネットワーク(NN)のデプロイにおいて重要な部分である。
本稿では,ニューラルネットワークにおける低ランク近似と重み付けという2つのモデル圧縮技術について論じる。
しかし、低ランク近似と重量刈りのトレーニングNNは、常にかなりの精度の損失と収束の問題に悩まされる。
本稿では, 最適目的関数の設計による非凸最適化の新しい視点から, モデル圧縮のための包括的枠組みを提案する。
次に,非凸最適化のためのブロック座標降下(BCD)アルゴリズムであるNN-BCDを紹介する。
アルゴリズムの利点の1つは、効率的な反復スキームを勾配のない閉形式で導出できることである。
したがって,アルゴリズムは勾配問題を解消・展開することができない。
さらに、我々の目的関数のKurtyka-{\L}ojasiewicz (K{\L}) 特性により、我々のアルゴリズムはO(1/k) の速度で臨界点に収束し、k は反復数を表す。
最後に, テンソルトレインの分解および重み付けによる広範囲な実験により, 提案手法の有効性と性能を実証した。
私たちのコード実装はhttps://github.com/ChenyangLi-97/NN-BCDで利用可能です。 Model compression is a crucial part of deploying neural networks (NNs), especially when the memory and storage of computing devices are limited in many applications. This paper focuses on two model compression techniques: low-rank approximation and weight pruning in neural networks, which are very popular nowadays. However, training NN with low-rank approximation and weight pruning always suffers significant accuracy loss and convergence issues. In this paper, a holistic framework is proposed for model compression from a novel perspective of nonconvex optimization by designing an appropriate objective function. Then, we introduce NN-BCD, a block coordinate descent (BCD) algorithm to solve the nonconvex optimization. One advantage of our algorithm is that an efficient iteration scheme can be derived with closed-form, which is gradient-free. Therefore, our algorithm will not suffer from vanishing/exploding gradient problems. Furthermore, with the Kurdyka-{\L}ojasiewicz (K{\L}) property of our objective function, we show that our algorithm globally converges to a critical point at the rate of O(1/k), where k denotes the number of iterations. Lastly, extensive experiments with tensor train decomposition and weight pruning demonstrate the efficiency and superior performance of the proposed framework. Our code implementation is available at https://github.com/ChenyangLi-97/NN-BCD | 翻訳日:2024-01-05 17:39:29 公開日:2024-01-04 |
# ロバストなセマンティックセグメンテーションのためのトレーニングデータセット生成の学習 Learning to Generate Training Datasets for Robust Semantic Segmentation ( http://arxiv.org/abs/2308.02535v3 ) ライセンス: Link先を確認 | Marwane Hariat, Olivier Laurent, R\'emi Kazmierczak, Shihao Zhang, Andrei Bursuc, Angela Yao and Gianni Franchi | (参考訳) セマンティックセグメンテーション法は著しく進歩した。
それでも、トレーニング中に見えない現実世界の摂動やオブジェクトタイプに対する堅牢性は、特に安全クリティカルなアプリケーションでは、依然として課題である。
本稿では,ラベル・ツー・イメージ生成器と画像・ラベル・セグメンテーションモデルとの相乗効果を利用して,意味セグメンテーション手法のロバスト性を向上させる新しい手法を提案する。
具体的には,ロバスタを設計し,信頼性の高いセグメンテーションモデルのトレーニングに使用可能な,現実的で可視な摂動画像を生成する。
提案する生成モデルの詳細検討を行い,下流セグメンテーションネットワークの性能とロバスト性を評価し,本手法が実世界の摂動,分布シフト,分散サンプルに直面するロバスト性を大幅に向上できることを実証する。
提案手法は,セマンティクスセグメンテーションなどの知覚モジュールの信頼性が最も重要であり,計算予算が限定された,安全性クリティカルなアプリケーションにおいて有用であることが示唆された。
コードをhttps://github.com/ENSTA-U2IS/robusta.comでリリースします。 Semantic segmentation methods have advanced significantly. Still, their robustness to real-world perturbations and object types not seen during training remains a challenge, particularly in safety-critical applications. We propose a novel approach to improve the robustness of semantic segmentation techniques by leveraging the synergy between label-to-image generators and image-to-label segmentation models. Specifically, we design Robusta, a novel robust conditional generative adversarial network to generate realistic and plausible perturbed images that can be used to train reliable segmentation models. We conduct in-depth studies of the proposed generative model, assess the performance and robustness of the downstream segmentation network, and demonstrate that our approach can significantly enhance the robustness in the face of real-world perturbations, distribution shifts, and out-of-distribution samples. Our results suggest that this approach could be valuable in safety-critical applications, where the reliability of perception modules such as semantic segmentation is of utmost importance and comes with a limited computational budget in inference. We release our code at https://github.com/ENSTA-U2IS/robusta. | 翻訳日:2024-01-05 17:32:41 公開日:2024-01-04 |
# 超伝導量子ビットを用いたグラフ安定化器の散逸ダイナミクス Dissipative Dynamics of Graph-State Stabilizers with Superconducting Qubits ( http://arxiv.org/abs/2308.01860v2 ) ライセンス: Link先を確認 | Liran Shirizly, Gr\'egoire Misguich and Haggai Landa | (参考訳) 本研究では,多成分の絡み合い状態のノイズ発生を実験的および数値的に検討し,クラウド経由でアクセス可能な超伝導量子デバイスに着目した。
統計的電荷-パリティ変動に起因するコヒーレント周波数シフトを適切に考慮する必要がある。
拡張マルコフ環境を用いたチャージパリティ分割のモデル化手法を提案する。
このアプローチは数十のキュービットに対して数値的にスケーラブルであり、大きなマルチキュービット状態の散逸ダイナミクスを効率的にシミュレートすることができる。
リンググラフ状態において、最大12個の結合量子ビットを持つより大きく複雑な初期状態の連続時間ダイナミクスを求めると、実験とシミュレーションの良好な一致が得られる。
基礎となる多体力学は、量子誤差補正の文脈で広く用いられる安定化器の崩壊と復活を生じることを示す。
さらに,2量子コヒーレント相互作用(クロストーク)の動的デカップリング配列による緩和効果を示す。
ノイズモデルと数値的アプローチは,誤り訂正と緩和の理解を前進させ,そのダイナミクスのさらなる調査を促す上で有用である。 We study experimentally and numerically the noisy evolution of multipartite entangled states, focusing on superconducting-qubit devices accessible via the cloud. We find that a valid modeling of the dynamics requires one to properly account for coherent frequency shifts, caused by stochastic charge-parity fluctuations. We introduce an approach modeling the charge-parity splitting using an extended Markovian environment. This approach is numerically scalable to tens of qubits, allowing us to simulate efficiently the dissipative dynamics of some large multiqubit states. Probing the continuous-time dynamics of increasingly larger and more complex initial states with up to 12 coupled qubits in a ring-graph state, we obtain a good agreement of the experiments and simulations. We show that the underlying many-body dynamics generate decays and revivals of stabilizers, which are used extensively in the context of quantum error correction. Furthermore, we demonstrate the mitigation of two-qubit coherent interactions (crosstalk) using tailored dynamical decoupling sequences. Our noise model and the numerical approach can be valuable to advance the understanding of error correction and mitigation and invite further investigations of their dynamics. | 翻訳日:2024-01-05 17:32:20 公開日:2024-01-04 |
# 双対性を持つ1次元スピン模型における弱普遍性、量子多体傷、異常無限温度自己相関 Weak universality, quantum many-body scars and anomalous infinite-temperature autocorrelations in a one-dimensional spin model with duality ( http://arxiv.org/abs/2307.11161v4 ) ライセンス: Link先を確認 | Adithi Udupa, Samudra Sur, Sourav Nandy, Arnab Sen, Diptiman Sen | (参考訳) 3スピン相互作用を持つ1次元スピン$1/2$モデルと横磁場$h$の研究を行った。
このモデルは、z_2 \times z_2$ 対称性を持ち、h$と1/h$の双対性を持つ。
自己双対点の$h=1$は連続相転移を持つ量子臨界点である。
我々は、周期境界条件を持つシステムに対して、臨界指数であるz$、$\beta$、$\gamma$、$\nu$を計算し、中心電荷である$c$を厳密対角化(ed)を用いて数値的に計算する。
z$ と $c$ の両方が 1$ に等しいことは、臨界点が共形場理論によって支配されていることを暗示している。
ED の $\beta/\nu$, $\gamma/\nu$, $\nu$ の値は、4状態ポッツモデルと2つの非結合な逆場イジングモデルの間の中間の効果的な結合を持つアシュキン・テラー臨界度を示すことを示唆している。
しかし、密度行列再正規化群計算を用いた開境界を持つより大きい系の解析は、自己双対点が四状態ポッツモデルと同じ普遍性クラスであることを示している。
エネルギー準位間隔解析は、モデルが可積分でないことを示す。
周期境界条件を持つ系では、指数的に多くの正確な中スペクトルゼロエネルギー固有状態が存在する。
これらの固有状態のサブセットは、$h$ とは独立な波動関数を持ち、異常な絡み合い構造を持ち、量子多体傷であることを示唆している。
このような状態の数は、少なくともシステムサイズと線形にスケールする。
最後に,開システムの一端に近い無限温度自己相関関数について検討する。
自己相関者の何人かは異常に時間的にリラックスし、h \gg 1$ または $h \ll 1$ であれば、発音される振動と非常に小さな減衰率を持つ。
h$ が臨界点に近い場合、オートコレレータは終点のオートコレレータを除いて急速に 0 に崩壊する。 We study a one-dimensional spin-$1/2$ model with three-spin interactions and a transverse magnetic field $h$. The model has a $Z_2 \times Z_2$ symmetry, and a duality between $h$ and $1/h$. The self-dual point at $h=1$ is a quantum critical point with a continuous phase transition. We compute the critical exponents $z$, $\beta$, $\gamma$ and $\nu$, and the central charge $c$ numerically using exact diagonalization (ED) for systems with periodic boundary conditions. We find that both $z$ and $c$ are equal to $1$, implying that the critical point is governed by a conformal field theory. The values obtained for $\beta/\nu$, $\gamma/\nu$, and $\nu$ from ED suggest that the model exhibits Ashkin-Teller criticality with an effective coupling that is intermediate between the four-state Potts model and two decoupled transverse field Ising models. An analysis on larger systems but with open boundaries using density-matrix renormalization group calculations, however, shows that the self-dual point may be in the same universality class as the four-state Potts model. An energy level spacing analysis shows that the model is not integrable. For a system with periodic boundary conditions, there are an exponentially large number of exact mid-spectrum zero-energy eigenstates. A subset of these eigenstates have wave functions which are independent of $h$ and have unusual entanglement structure, suggesting that they are quantum many-body scars. The number of such states scales at least linearly with system size. Finally, we study the infinite-temperature autocorrelation functions close to one end of an open system. We find that some of the autocorrelators relax anomalously in time, with pronounced oscillations and very small decay rates if $h \gg 1$ or $h \ll 1$. If $h$ is close to the critical point, the autocorrelators decay quickly to zero except for an autocorrelator at the end site. | 翻訳日:2024-01-05 17:31:59 公開日:2024-01-04 |
# vasicekモデルによるバリアオプション価格設定へのハミルトン的アプローチ A Hamiltonian Approach to Barrier Option Pricing Under Vasicek Model ( http://arxiv.org/abs/2307.07103v2 ) ライセンス: Link先を確認 | Qi Chen Hong-tao Wang and Chao Guo | (参考訳) 量子論におけるハミルトンのアプローチは、確率的利率を持つオプション価格に対する新しい考え方を提供する。
バリアオプションの場合、オプション価格変更プロセスは量子力学における無限大バリア散乱問題と類似しており、二重バリアオプションの場合、オプション価格変更プロセスは無限二乗ポテンシャル井戸で移動する粒子と類似している。
ハミルトニアンアプローチを用いて、Vasicek確率的利率モデルの下での価格カーネルとオプション価格の表現を導出することができる。
基本価格の関数としてのオプション価格の数値結果も示す。 Hamiltonian approach in quantum theory provides a new thinking for option pricing with stochastic interest rates. For barrier options, the option price changing process is similar to the infinite high barrier scattering problem in quantum mechanics; for double barrier options, the option price changing process is analogous to a particle moving in a infinite square potential well. Using Hamiltonian approach, the expressions of pricing kernels and option prices under Vasicek stochastic interest rate model could be derived. Numerical results of options price as functions of underlying prices are also shown. | 翻訳日:2024-01-05 17:31:20 公開日:2024-01-04 |
# InternVid:マルチモーダル理解と生成のための大規模ビデオテキストデータセット InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation ( http://arxiv.org/abs/2307.06942v2 ) ライセンス: Link先を確認 | Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinhao Li, Guo Chen, Xinyuan Chen, Yaohui Wang, Conghui He, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao | (参考訳) 本稿では,マルチモーダル理解と生成のための強力で転送可能なビデオテキスト表現の学習を可能にする,大規模ビデオ中心のマルチモーダルデータセットinternvidを提案する。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップを生成する。
我々の中核的な貢献は、大規模言語モデル(LLM)を用いた高品質なビデオテキストデータセットを自律的に構築するスケーラブルなアプローチを開発することである。
具体的には,ビデオ関連記述の生成にマルチスケール手法を用いる。
さらに,ViT-Lに基づくビデオテキスト表現学習モデルであるViCLIPを紹介する。
コントラスト学習を通じてinternvidで学んだこのモデルは、ゼロショットアクション認識と競合するビデオ検索性能を示す。
認識や検索といった基本的なビデオ理解タスク以外にも、データセットとモデルには幅広い応用があります。
これらは、ビデオ中心の対話システムを学ぶためにインターリーブされたビデオテキストデータを生成するのに特に有用である。
これらのリソースは、マルチモーダルビデオ理解と生成に関心を持つ研究者や実践者のためのツールを提供する。 This paper introduces InternVid, a large-scale video-centric multimodal dataset that enables learning powerful and transferable video-text representations for multimodal understanding and generation. The InternVid dataset contains over 7 million videos lasting nearly 760K hours, yielding 234M video clips accompanied by detailed descriptions of total 4.1B words. Our core contribution is to develop a scalable approach to autonomously build a high-quality video-text dataset with large language models (LLM), thereby showcasing its efficacy in learning video-language representation at scale. Specifically, we utilize a multi-scale approach to generate video-related descriptions. Furthermore, we introduce ViCLIP, a video-text representation learning model based on ViT-L. Learned on InternVid via contrastive learning, this model demonstrates leading zero-shot action recognition and competitive video retrieval performance. Beyond basic video understanding tasks like recognition and retrieval, our dataset and model have broad applications. They are particularly beneficial for generating interleaved video-text data for learning a video-centric dialogue system, advancing video-to-text and text-to-video generation research. These proposed resources provide a tool for researchers and practitioners interested in multimodal video understanding and generation. | 翻訳日:2024-01-05 17:31:10 公開日:2024-01-04 |
# ファンデルワールス材料におけるスピン欠陥の同位体工学 Isotope engineering for spin defects in van der Waals materials ( http://arxiv.org/abs/2307.06441v2 ) ライセンス: Link先を確認 | Ruotian Gong, Xinyi Du, Eli Janzen, Vincent Liu, Zhongyuan Liu, Guanghui He, Bingtian Ye, Tongcang Li, Norman Y. Yao, James H. Edgar, Erik A. Henriksen, Chong Zu | (参考訳) ファンデルワールス材料のスピン欠陥は量子技術の発展に有望なプラットフォームを提供する。
本稿では, 埋込スピン欠陥のコヒーレンス特性を著しく向上させるため, ホスト材料の同位体工学に基づく強力な技術を提案する。
六方晶窒化ホウ素 (hBN) において、最近発見された負電荷のホウ素空孔中心 (\mathrm{V}_{\mathrm{B}}^-$) に着目し、同相的に精製された$\mathrm{h}{}^{10}\mathrm{B}{}^{15}\mathrm{N}$結晶を成長させる。
同位体の自然分布と hbn における $\mathrm{v}_{\mathrm{b}}^-$ と比較して、より狭く、より混み合っている $\mathrm{v}_{\mathrm{b}}^-$ スピン遷移や拡張コヒーレンス時間 $t_2$ と緩和時間 $t_1$ が観測される。
量子センシングでは、$\mathrm{v}_{\mathrm{b}}^-$ centers in our $\mathrm{h}{}^{10}\mathrm{b}{}^{15}\mathrm{n}$例では、dc(ac)磁場の感度が4ドル (2$)向上している。
追加の量子資源に対して、$\mathrm{V}_{\mathrm{B}}^-$超微粒子レベルの個々のアドレナビリティは、3つの隣接する${}^{15}\mathrm{N}$核スピンの動的偏極とコヒーレント制御を可能にする。
本研究は,hbn中の量子スピン欠陥の特性を向上させるための同位体工学の力を示し,ファンデルワールス物質の幅広い族におけるスピン量子ビットの改善に容易に拡張できることを示す。 Spin defects in van der Waals materials offer a promising platform for advancing quantum technologies. Here, we propose and demonstrate a powerful technique based on isotope engineering of host materials to significantly enhance the coherence properties of embedded spin defects. Focusing on the recently-discovered negatively charged boron vacancy center ($\mathrm{V}_{\mathrm{B}}^-$) in hexagonal boron nitride (hBN), we grow isotopically purified $\mathrm{h}{}^{10}\mathrm{B}{}^{15}\mathrm{N}$ crystals. Compared to $\mathrm{V}_{\mathrm{B}}^-$ in hBN with the natural distribution of isotopes, we observe substantially narrower and less crowded $\mathrm{V}_{\mathrm{B}}^-$ spin transitions as well as extended coherence time $T_2$ and relaxation time $T_1$. For quantum sensing, $\mathrm{V}_{\mathrm{B}}^-$ centers in our $\mathrm{h}{}^{10}\mathrm{B}{}^{15}\mathrm{N}$ samples exhibit a factor of $4$ ($2$) enhancement in DC (AC) magnetic field sensitivity. For additional quantum resources, the individual addressability of the $\mathrm{V}_{\mathrm{B}}^-$ hyperfine levels enables the dynamical polarization and coherent control of the three nearest-neighbor ${}^{15}\mathrm{N}$ nuclear spins. Our results demonstrate the power of isotope engineering for enhancing the properties of quantum spin defects in hBN, and can be readily extended to improving spin qubits in a broad family of van der Waals materials. | 翻訳日:2024-01-05 17:30:49 公開日:2024-01-04 |
# ソフトウェアエンジニアリングにおける生成AI導入の複雑さのナビゲート Navigating the Complexity of Generative AI Adoption in Software Engineering ( http://arxiv.org/abs/2307.06081v2 ) ライセンス: Link先を確認 | Daniel Russo | (参考訳) 本稿では,ソフトウェア工学における生成人工知能(AI)ツールの採用パターンについて検討する。
個人、技術、社会的レベルの影響要因は、AI導入の広範な理解のために混合メソッドアプローチを用いて分析される。
最初の構造化されたインタビューは100人のソフトウェアエンジニアで行われ、TAM(Technology Acceptance Model)、DOI(Diffusion of Innovations Theory)、SCT(Social Cognitive Theory)を導く理論として採用した。
Human-AI Collaboration and Adaptation Framework (HACAF) という理論モデルがGioia Methodologyを使って推論され、ソフトウェア工学におけるAIの採用を特徴づけた。
このモデルの妥当性は、その後183人のソフトウェア専門家から収集されたデータを用いて、Partial Least Squares - Structure Equation Modeling (PLS-SEM)を通して検証された。
その結果、これらの初期の統合段階におけるAIツールの採用は、主に既存の開発ワークフローとの互換性が原因であることが示唆された。
この発見は、従来の技術受容理論に反する。
期待とは対照的に, 有用性, 社会的側面, 個人的革新性の影響は, それほど大きくなかった。
本稿では、将来のAIツールの設計に関する重要な洞察を与え、組織実装のための効果的な戦略を考案するための構造を提供する。 In this paper, the adoption patterns of Generative Artificial Intelligence (AI) tools within software engineering are investigated. Influencing factors at the individual, technological, and societal levels are analyzed using a mixed-methods approach for an extensive comprehension of AI adoption. An initial structured interview was conducted with 100 software engineers, employing the Technology Acceptance Model (TAM), the Diffusion of Innovations theory (DOI), and the Social Cognitive Theory (SCT) as guiding theories. A theoretical model named the Human-AI Collaboration and Adaptation Framework (HACAF) was deduced using the Gioia Methodology, characterizing AI adoption in software engineering. This model's validity was subsequently tested through Partial Least Squares - Structural Equation Modeling (PLS-SEM), using data collected from 183 software professionals. The results indicate that the adoption of AI tools in these early integration stages is primarily driven by their compatibility with existing development workflows. This finding counters the traditional theories of technology acceptance. Contrary to expectations, the influence of perceived usefulness, social aspects, and personal innovativeness on adoption appeared to be less significant. This paper yields significant insights for the design of future AI tools and supplies a structure for devising effective strategies for organizational implementation. | 翻訳日:2024-01-05 17:30:12 公開日:2024-01-04 |
# 大規模言語モデルにおける創発的認知シナジーの解放:マルチペソナ・セルフコラボレーションによるタスクソルビングエージェント Unleashing the Emergent Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration ( http://arxiv.org/abs/2307.05300v3 ) ライセンス: Link先を確認 | Zhenhailong Wang, Shaoguang Mao, Wenshan Wu, Tao Ge, Furu Wei, Heng Ji | (参考訳) 人間の知性は認知シナジーで育ち、異なる心の協調は孤立した個人よりも優れた結果をもたらす。
本研究では,Solo Performance Prompting(SPP)を提案し,複数のペルソナと多ターンの自己コラボレーションを行うことにより,単一のLLMを認知的シナジストに変換する。
認知シナジスト(cognitive synergist)は、複数の心の強みと知識を協調的に組み合わせ、複雑なタスクにおける問題解決を強化する知的エージェントである。
タスク入力に基づいて異なるペルソナを動的に識別し、シミュレーションすることにより、SPPはLLMにおける認知シナジーの可能性を解き放つ。
より詳細な分析により,LLMに複数の微粒なペルソナを割り当てることによって,単一あるいは固定数のペルソナに比べて問題解決能力が向上することが示された。
我々は,3つの課題 – Trivia Creative Writing, Codenames Collaborative, Logic Grid Puzzle – について,知識集約型と推論集約型の両方を含む評価を行った。
LLMにおける推論能力のみを増強するChain-of-Thoughtのような従来の研究とは異なり、実験結果は、SPPが事実上の幻覚を減少させ、強力な推論能力を維持することを示す。
さらに、比較実験により、認知シナジーはGPT-4にのみ出現し、GPT-3.5-turboやLlama2-13b-chatのようなより能力の低いモデルには現れないことが示されている。
コード、データ、プロンプトはhttps://github.com/MikeWangWZHL/Solo-Performance-Prompting.gitにある。 Human intelligence thrives on cognitive synergy, where collaboration among different minds yield superior outcomes compared to isolated individuals. In this work, we propose Solo Performance Prompting (SPP), which transforms a single LLM into a cognitive synergist by engaging in multi-turn self-collaboration with multiple personas. A cognitive synergist is an intelligent agent that collaboratively combines multiple minds' strengths and knowledge to enhance problem-solving in complex tasks. By dynamically identifying and simulating different personas based on task inputs, SPP unleashes the potential of cognitive synergy in LLMs. Our in-depth analysis shows that assigning multiple fine-grained personas in LLMs improves problem-solving abilities compared to using a single or fixed number of personas. We evaluate SPP on three challenging tasks: Trivia Creative Writing, Codenames Collaborative, and Logic Grid Puzzle, encompassing both knowledge-intensive and reasoning-intensive types. Unlike previous works, such as Chain-of-Thought, that solely enhance the reasoning abilities in LLMs, experimental results demonstrate that SPP effectively reduces factual hallucination, and maintains strong reasoning capabilities. Additionally, comparative experiments show that cognitive synergy only emerges in GPT-4 and does not appear in less capable models, such as GPT-3.5-turbo and Llama2-13b-chat, which draws an interesting analogy to human development. Code, data, and prompts can be found at: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git. | 翻訳日:2024-01-05 17:29:45 公開日:2024-01-04 |
# ブラックホール内部の非等距離モデルにおけるホーキング放射からの情報検索:理論と量子シミュレーション Information retrieval from Hawking radiation in the non-isometric model of black hole interior: theory and quantum simulations ( http://arxiv.org/abs/2307.01454v3 ) ライセンス: Link先を確認 | Ran Li, Xuanhua Wang, Kun Zhang, Jin Wang | (参考訳) ブラックホール内部の非等尺ホログラフィーモデルは、有効計算と微視的記述の間の摩擦を補うため、長年続くブラックホール情報パズルの潜在的な解決法として際立っている。
本研究では, ブラックホール内部の非等方性モデルである最終状態投射モデルとHayden-Preskillシンキング実験を組み合わせることで, ホーキング放射の復号からの情報回復と, この設定におけるページタイムの出現を実証する。
本研究では,Hyden-Preskillプロトコルでは無視される地平線内部のスクランブルに有効モードを組み込んで,EPRプロジェクションからローカルプロジェクションへの情報伝送チャネルの遷移としてページ時間を特定可能であることを示す。
これはページタイムに関する新しい視点を提供する。
本研究では,情報検索が可能なデカップリング条件を計算し,このモデルが量子上面計算と整合したブラックホールエントロピーを計算することを示す。
ブラックホールの内部のダイナミクスに関する完全な知識を仮定し,修正ヘイデン・プレススキルプロトコルにおいて,吉田・キタエフのデコード戦略をどのように活用できるかを示す。
さらに、確率的およびグロバーの探索復号戦略を7ビットのIBM量子プロセッサ上で実験し、解析結果の検証を行い、非等尺モデルにおける情報検索の可能性を確認する。
この研究は、量子プロセッサのブラックホール情報問題を探究するより多くの関心を刺激する。 The non-isometric holographic model of the black hole interior stands out as a potential resolution of the long-standing black hole information puzzle since it remedies the friction between the effective calculation and the microscopic description. In this study, combining the final-state projection model, the non-isometric model of black hole interior and Hayden-Preskill thought experiment, we investigate the information recovery from decoding Hawking radiation and demonstrate the emergence of the Page time in this setup. We incorporate the effective modes into the scrambling inside the horizon, which are usually disregarded in Hayden-Preskill protocols, and show that the Page time can be identified as the transition of information transmission channels from the EPR projection to the local projections. This offers a new perspective on the Page time. We compute the decoupling condition under which retrieving information is feasible and show that this model computes the black hole entropy consistent with the quantum extremal surface calculation. Assuming the full knowledge of the dynamics of the black hole interior, we show how Yoshida-Kitaev decoding strategy can be employed in the modified Hayden-Preskill protocol. Furthermore, we perform experimental tests of both probabilistic and Grover's search decoding strategies on the 7-qubit IBM quantum processors to validate our analytical findings and confirm the feasibility of retrieving information in the non-isometric model. This study would stimulate more interests to explore black hole information problem on the quantum processors. | 翻訳日:2024-01-05 17:29:15 公開日:2024-01-04 |
# 分解マスク予測と注意型シャドウフィリングによるシャドウ生成 Shadow Generation with Decomposed Mask Prediction and Attentive Shadow Filling ( http://arxiv.org/abs/2306.17358v3 ) ライセンス: Link先を確認 | Xinhao Tao, Junyan Cao, Yan Hong, Li Niu | (参考訳) 画像構成は、背景画像に前景オブジェクトを挿入して合成画像を得る。
本研究では,合成画像をよりリアルにするために,挿入された前景オブジェクトに対する可塑性影の生成に焦点をあてる。
既存の小規模データセットを補完するために、レンダリング技術を備えたRdSOBAと呼ばれる大規模データセットを作成します。
さらに,マスク予測と注意影の充満を分離した2段階ネットワークDMASNetを設計した。
具体的には,第1段階でシャドウマスク予測をボックス予測と形状予測に分解する。
第2段階では、前景影を埋めるために背景影画素を参照する。
DMASNetはより優れた視覚効果を達成し、実際の合成画像によく応用できることを示す。 Image composition refers to inserting a foreground object into a background image to obtain a composite image. In this work, we focus on generating plausible shadows for the inserted foreground object to make the composite image more realistic. To supplement the existing small-scale dataset, we create a large-scale dataset called RdSOBA with rendering techniques. Moreover, we design a two-stage network named DMASNet with decomposed mask prediction and attentive shadow filling. Specifically, in the first stage, we decompose shadow mask prediction into box prediction and shape prediction. In the second stage, we attend to reference background shadow pixels to fill the foreground shadow. Abundant experiments prove that our DMASNet achieves better visual effects and generalizes well to real composite images. | 翻訳日:2024-01-05 17:28:47 公開日:2024-01-04 |
# 測定誘起量子同期と多重化 Measurement-Induced Quantum Synchronization and Multiplexing ( http://arxiv.org/abs/2306.12986v2 ) ライセンス: Link先を確認 | Finn Schmolke, Eric Lutz | (参考訳) 測定は量子力学に根本的な影響を及ぼすことができる。
本稿では,連続的に測定される量子多体系が,単一軌道のレベルで非同期確率力学からノイズフリー安定同期へ自発的に遷移することを示す。
我々は、この量子現象の一般的な基準を定式化し、同期実現数を無から全まで制御できることを実証する。
さらに、時間とアンサンブル平均が根本的に異なる同期挙動を示す可能性があるため、エルゴード性は通常壊れている。
さらに、異なる同期周波数を持つ個々の軌跡を含む量子型多重化を導入する。
測定誘起同期は、量子重ね合わせを利用する真の非古典的同期形式として現れる。 Measurements are able to fundamentally affect quantum dynamics. We here show that a continuously measured quantum many-body system can undergo a spontaneous transition from asynchronous stochastic dynamics to noise-free stable synchronization at the level of single trajectories. We formulate general criteria for this quantum phenomenon to occur, and demonstrate that the number of synchronized realizations can be controlled from none to all. We additionally find that ergodicity is typically broken, since time and ensemble averages may exhibit radically different synchronization behavior. We further introduce a quantum type of multiplexing that involves individual trajectories with distinct synchronization frequencies. Measurement-induced synchronization appears as a genuine nonclassical form of synchrony that exploits quantum superpositions. | 翻訳日:2024-01-05 17:28:34 公開日:2024-01-04 |
# 有望な有向多重グラフ用グラフニューラルネットワーク Provably Powerful Graph Neural Networks for Directed Multigraphs ( http://arxiv.org/abs/2306.11586v3 ) ライセンス: Link先を確認 | B\'eni Egressy, Luc von Niederh\"ausern, Jovan Blanusa, Erik Altman, Roger Wattenhofer, Kubilay Atasu | (参考訳) 本稿では,標準メッセージパスグラフニューラルネットワーク(GNN)を実証可能な有向多重グラフニューラルネットワークに変換するための,単純な適応の集合を解析する。
適応には、マルチグラフポート番号、ego ID、リバースメッセージパッシングが含まれる。
これらの組み合わせが任意の有向部分グラフパターンの検出を可能にすることを理論的に証明する。
提案手法の有効性を検証するために, 合成サブグラフ検出タスクの実験を行い, ほぼ完璧な結果を得た。
さらに,提案手法を2つの財務犯罪分析課題に適用した。
我々は、マネーロンダリングトランザクションの検出における劇的な改善、標準メッセージパスGNNのマイノリティークラスF1スコアの最大30%向上、ツリーベースおよびGNNベースラインの緊密な整合性や性能向上について観察する。
同様に、実際のフィッシング検出データセットで印象的な結果が観測され、3つの標準GNNのF1スコアが約15%向上し、すべてのベースラインを上回っている。 This paper analyses a set of simple adaptations that transform standard message-passing Graph Neural Networks (GNN) into provably powerful directed multigraph neural networks. The adaptations include multigraph port numbering, ego IDs, and reverse message passing. We prove that the combination of these theoretically enables the detection of any directed subgraph pattern. To validate the effectiveness of our proposed adaptations in practice, we conduct experiments on synthetic subgraph detection tasks, which demonstrate outstanding performance with almost perfect results. Moreover, we apply our proposed adaptations to two financial crime analysis tasks. We observe dramatic improvements in detecting money laundering transactions, improving the minority-class F1 score of a standard message-passing GNN by up to 30%, and closely matching or outperforming tree-based and GNN baselines. Similarly impressive results are observed on a real-world phishing detection dataset, boosting three standard GNNs' F1 scores by around 15% and outperforming all baselines. | 翻訳日:2024-01-05 17:28:23 公開日:2024-01-04 |
# SGFormer: 大きなグラフ表現のための変換器の簡素化と強化 SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations ( http://arxiv.org/abs/2306.10759v4 ) ライセンス: Link先を確認 | Qitian Wu, Wentao Zhao, Chenxiao Yang, Hengrui Zhang, Fan Nie, Haitian Jiang, Yatao Bian, Junchi Yan | (参考訳) 大規模グラフでの表現の学習は、大量のデータポイントに関わる相互依存性のため、長年にわたる課題である。
グラフ構造化データのための基盤エンコーダの新たなクラスであるトランスフォーマーは、隣接するノードを越えて全ペアの影響を捉えることができるため、小さなグラフ上で有望な性能を示している。
それでも、既存のアプローチは、言語や視覚タスクにおけるトランスフォーマーの精神を継承し、深いマルチヘッドの注意を積み重ねることで複雑なモデルを受け入れる傾向があります。
本稿では,一層注意を払わなくても,ノード数が千レベルから十億レベルに及ぶノード特性予測ベンチマークにおいて,驚くほどの競合性能が得られることを批判的に示す。
これにより、大きなグラフ上でTransformerの設計哲学を再考し、グローバルな注目はスケーラビリティを妨げる計算オーバーヘッドである。
提案手法を簡易グラフトランスフォーマー (sgformer) として構成し, 1 層内の任意のノード間の情報を効率的に伝達するシンプルな注意モデルによって実現されている。
SGFormerは、位置エンコーディング、フィーチャ/グラフ前処理、拡張損失を必要としない。
実証的には、SGFormerはWebスケールグラフogbn-papers100Mにスケールし、中規模のグラフ上でSOTA変換器上で最大141倍の推論加速度を得る。
提案手法は,現在の結果以外にも,大規模なグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを実現するものだと考えている。 Learning representations on large-sized graphs is a long-standing challenge due to the inter-dependence nature involved in massive data points. Transformers, as an emerging class of foundation encoders for graph-structured data, have shown promising performance on small graphs due to its global attention capable of capturing all-pair influence beyond neighboring nodes. Even so, existing approaches tend to inherit the spirit of Transformers in language and vision tasks, and embrace complicated models by stacking deep multi-head attentions. In this paper, we critically demonstrate that even using a one-layer attention can bring up surprisingly competitive performance across node property prediction benchmarks where node numbers range from thousand-level to billion-level. This encourages us to rethink the design philosophy for Transformers on large graphs, where the global attention is a computation overhead hindering the scalability. We frame the proposed scheme as Simplified Graph Transformers (SGFormer), which is empowered by a simple attention model that can efficiently propagate information among arbitrary nodes in one layer. SGFormer requires none of positional encodings, feature/graph pre-processing or augmented loss. Empirically, SGFormer successfully scales to the web-scale graph ogbn-papers100M and yields up to 141x inference acceleration over SOTA Transformers on medium-sized graphs. Beyond current results, we believe the proposed methodology alone enlightens a new technical path of independent interest for building Transformers on large graphs. | 翻訳日:2024-01-05 17:28:05 公開日:2024-01-04 |
# デジタル双生児の発達, 維持, 運用の現況: インタビュー研究 Current Trends in Digital Twin Development, Maintenance, and Operation: An Interview Study ( http://arxiv.org/abs/2306.10085v3 ) ライセンス: Link先を確認 | Hossain Muhammad Muctadir, David A. Manrique Negrin, Raghavendran Gunasekaran, Loek Cleophas, Mark van den Brand, Boudewijn R. Haverkort | (参考訳) デジタルツイン(DT)は、しばしば物理エンティティと対応する仮想エンティティ(VE)のペアリングとして定義され、ユースケースによっては前者の特定の側面を模倣する。
近年、この概念は、設計から検証、大規模および小規模のハイテクシステムの予測保守まで、数多くのユースケースを促進している。
このようなシステムには様々な異種クロスドメインモデルが不可欠であり、モデル駆動工学はこれらのモデルの設計、開発、保守において重要な役割を果たす。
私たちは、モデルとモデル駆動エンジニアリングがDTのVEのコンテキストにおいて同様に重要な役割を果たすと信じています。
DTが急速に普及し、さまざまなドメインやユースケースで使用されているため、対応するVEを設計、開発、保守するための方法論、ツール、プラクティスは大きく異なる。
これらの相違点と類似点をよりよく理解するため,デジタル双生児のライフサイクルステージに密接な関係を持つ産学専門職19名を対象に,半構造化面接を行った。
本稿では,7つの研究課題に基づき,本研究から得られた分析と知見について述べる。
概して,デジタル双生児の理解における統一性の欠如と,対応するVEの開発と維持のためのツール,技術,方法論の活用について検討した。
さらに、デジタル双生児がソフトウェア集約システムであることを考えると、デジタル双生児のライフサイクルの様々な段階において、ソフトウェア工学のプラクティス、プロセス、専門知識をより多く採用する上で、大きな成長の可能性を認識します。 Digital twins (DT) are often defined as a pairing of a physical entity and a corresponding virtual entity (VE), mimicking certain aspects of the former depending on the use-case. In recent years, this concept has facilitated numerous use-cases ranging from design to validation and predictive maintenance of large and small high-tech systems. Various heterogeneous cross-domain models are essential for such systems and model-driven engineering plays a pivotal role in the design, development, and maintenance of these models. We believe models and model-driven engineering play a similarly crucial role in the context of a VE of a DT. Due to the rapidly growing popularity of DTs and their use in diverse domains and use-cases, the methodologies, tools, and practices for designing, developing, and maintaining the corresponding VEs differ vastly. To better understand these differences and similarities, we performed a semi-structured interview research with 19 professionals from industry and academia who are closely associated with different lifecycle stages of digital twins. In this paper, we present our analysis and findings from this study, which is based on seven research questions. In general, we identified an overall lack of uniformity in terms of the understanding of digital twins and used tools, techniques, and methodologies for the development and maintenance of the corresponding VEs. Furthermore, considering that digital twins are software intensive systems, we recognize a significant growth potential for adopting more software engineering practices, processes, and expertise in various stages of a digital twin's lifecycle. | 翻訳日:2024-01-05 17:27:38 公開日:2024-01-04 |
# 生成逆数ネットワークのための動的マスク判別器 Dynamically Masked Discriminator for Generative Adversarial Networks ( http://arxiv.org/abs/2306.07716v3 ) ライセンス: Link先を確認 | Wentian Zhang, Haozhe Liu, Bing Li, Jinheng Xie, Yawen Huang, Yuexiang Li, Yefeng Zheng, Bernard Ghanem | (参考訳) GAN(Generative Adversarial Networks)のトレーニングは依然として難しい問題である。
判別器は、実データ分布を学習して生成器を訓練する。
しかし、生成したデータの分布はトレーニングプロセスを通して変化するため、判別者が学ぶことは困難である。
本稿では,オンライン連続学習の観点から,GANの新たな手法を提案する。
歴史的に生成されたデータに基づいて訓練された判別器モデルは、新しい到着したデータの変化への適応を遅くすることが多いため、結果の品質が低下する。
学習中に生成されたデータをストリームとして扱うことにより,識別者が生成したデータにおける新たな知識の学習を遅くするかどうかを検出する。
したがって、識別者が新しい知識を素早く学ぶように明示的に強制することができる。
特に,その遅延を自動的に検出し,その特徴を動的にマスキングする新たな識別器を提案する。
実験の結果,本手法は最先端手法よりも優れていた。 Training Generative Adversarial Networks (GANs) remains a challenging problem. The discriminator trains the generator by learning the distribution of real/generated data. However, the distribution of generated data changes throughout the training process, which is difficult for the discriminator to learn. In this paper, we propose a novel method for GANs from the viewpoint of online continual learning. We observe that the discriminator model, trained on historically generated data, often slows down its adaptation to the changes in the new arrival generated data, which accordingly decreases the quality of generated results. By treating the generated data in training as a stream, we propose to detect whether the discriminator slows down the learning of new knowledge in generated data. Therefore, we can explicitly enforce the discriminator to learn new knowledge fast. Particularly, we propose a new discriminator, which automatically detects its retardation and then dynamically masks its features, such that the discriminator can adaptively learn the temporally-vary distribution of generated data. Experimental results show our method outperforms the state-of-the-art approaches. | 翻訳日:2024-01-05 17:27:13 公開日:2024-01-04 |
# factoformer:自己教師付き事前学習による因子化ハイパースペクトルトランスフォーマ FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised Pretraining ( http://arxiv.org/abs/2309.09431v4 ) ライセンス: Link先を確認 | Shaheer Mohamed, Maryam Haghighat, Tharindu Fernando, Sridha Sridharan, Clinton Fookes, Peyman Moghadam | (参考訳) ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。
自然言語処理やコンピュータビジョンの分野でのトランスフォーマーの成功により、入力データ内の長距離依存を学習する能力が示され、最近の研究は、HSIのためのトランスフォーマーの使用に焦点を当てている。
しかし、現在最先端のハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するだけで、空間情報の未利用をもたらす。
さらに、トランスはデータハングリーであることが知られており、その性能は大規模な事前トレーニングに大きく依存している。
したがって、hsiトランスフォーマのポテンシャルは十分に実現されていない。
これらの限界を克服するために, 自己教師付き事前学習手順を組み込んだ新しい因子化スペクトル空間トランスを提案する。
入力の分解により、スペクトル変換器と空間変換器はハイパースペクトルデータキューブ内の相互作用をよりよく捉えることができる。
マスク画像モデリングの事前学習に触発されて,スペクトルおよび空間トランスフォーマーを事前学習するための効率的なマスク戦略を考案する。
我々は、HSI分類タスクのための6つの公開データセットの実験を行い、我々のモデルがすべてのデータセットで最先端のパフォーマンスを達成することを示す。
私たちのモデルのコードは、https://github.com/csiro-robotics/factoformerで利用可能になります。 Hyperspectral images (HSIs) contain rich spectral and spatial information. Motivated by the success of transformers in the field of natural language processing and computer vision where they have shown the ability to learn long range dependencies within input data, recent research has focused on using transformers for HSIs. However, current state-of-the-art hyperspectral transformers only tokenize the input HSI sample along the spectral dimension, resulting in the under-utilization of spatial information. Moreover, transformers are known to be data-hungry and their performance relies heavily on large-scale pretraining, which is challenging due to limited annotated hyperspectral data. Therefore, the full potential of HSI transformers has not been fully realized. To overcome these limitations, we propose a novel factorized spectral-spatial transformer that incorporates factorized self-supervised pretraining procedures, leading to significant improvements in performance. The factorization of the inputs allows the spectral and spatial transformers to better capture the interactions within the hyperspectral data cubes. Inspired by masked image modeling pretraining, we also devise efficient masking strategies for pretraining each of the spectral and spatial transformers. We conduct experiments on six publicly available datasets for HSI classification task and demonstrate that our model achieves state-of-the-art performance in all the datasets. The code for our model will be made available at https://github.com/csiro-robotics/factoformer. | 翻訳日:2024-01-05 17:21:05 公開日:2024-01-04 |
# 探索型ユニットテスト生成における複数の基準を組み合わせたカバレッジ目標選択 Coverage Goal Selector for Combining Multiple Criteria in Search-Based Unit Test Generation ( http://arxiv.org/abs/2309.07518v2 ) ライセンス: Link先を確認 | Zhichao Zhou, Yuming Zhou, Chunrong Fang, Zhenyu Chen, Xiapu Luo, Jingzhu He, and Yutian Tang | (参考訳) 単体テストはソフトウェア開発プロセスにとって重要であり、プログラム(例えばメソッド)における基本的なプログラミングユニットの正確性を保証する。
検索ベースのソフトウェアテスト(SBST)は、テストケースを生成する自動化アプローチである。
SBSTは、カバレッジ基準(ブランチカバレッジなど)を指定することで、遺伝的アルゴリズムによるテストケースを生成する。
しかし、優れたテストスイートは異なる特性を持つ必要があり、個々のカバレッジ基準を使用してキャプチャできない。
したがって、最先端のアプローチは複数の基準を組み合わせてテストケースを生成する。
複数のカバレッジ基準を組み合わせることで最適化の目的が複数のため、単一の基準を使用する場合と比較して、特定の基準に対するテストスイートのカバレッジが損なわれる。
この問題に対処するため,我々は \textbf{smart selection} という新しい手法を提案する。
基準間のカバレッジ相関とカバレッジ目標間の仮定関係に基づいて、スマートセレクションはカバレッジ目標のサブセットを選択し、最適化目標の数を減らし、すべての基準の特性の欠如を回避する。
私たちは、400ドルのjavaクラスで3つの最先端の遺伝的アルゴリズムを使ってスマート選択を評価する実験を2分間の予算で行います。
平均すると、スマートセレクションは、この2つのアプローチに大きな違いがあるクラスのうち、65.1\%$ですべてのゴールを組み合わせるのを上回っている。
次に,カバレッジ基準関係の仮定を検証する実験を行った。
さらに,5ドル,8ドル,10ドルというさまざまな予算下でのスマートセレクションのカバレッジ性能を評価し,バグ検出への影響を調査し,すべての目標の組み合わせよりもスマートセレクションの利点を確認する。 Unit testing is critical to the software development process, ensuring the correctness of basic programming units in a program (e.g., a method). Search-based software testing (SBST) is an automated approach to generating test cases. SBST generates test cases with genetic algorithms by specifying the coverage criterion (e.g., branch coverage). However, a good test suite must have different properties, which cannot be captured using an individual coverage criterion. Therefore, the state-of-the-art approach combines multiple criteria to generate test cases. Since combining multiple coverage criteria brings multiple objectives for optimization, it hurts the test suites' coverage for certain criteria compared with using the single criterion. To cope with this problem, we propose a novel approach named \textbf{smart selection}. Based on the coverage correlations among criteria and the subsumption relationships among coverage goals, smart selection selects a subset of coverage goals to reduce the number of optimization objectives and avoid missing any properties of all criteria. We conduct experiments to evaluate smart selection on $400$ Java classes with three state-of-the-art genetic algorithms under the $2$-minute budget. On average, smart selection outperforms combining all goals on $65.1\%$ of the classes having significant differences between the two approaches. Secondly, we conduct experiments to verify our assumptions about coverage criteria relationships. Furthermore, we assess the coverage performance of smart selection under varying budgets of $5$, $8$, and $10$ minutes and explore its effect on bug detection, confirming the advantage of smart selection over combining all goals. | 翻訳日:2024-01-05 17:20:41 公開日:2024-01-04 |
# 完全分離型エンドツーエンド検索を目指して Towards Fully Decoupled End-to-End Person Search ( http://arxiv.org/abs/2309.04967v2 ) ライセンス: Link先を確認 | Pengcheng Zhang, Xiao Bai, Jin Zheng, Xin Ning | (参考訳) エンド・ツー・エンドの人物探索は、原シーン画像中の対象者を統一モデルで共同で検出し、再同定することを目的としている。
検出タスクは、re-idタスクが異なるアイデンティティを識別している間に、すべての人を統一する。
このような対立を緩和するために、エンドツーエンドの検索を分離する既存の作業が提案されている。
しかし、これらの手法は部分的に分離されたモデルであるため、サブタスクの1つか2つの部分最適である。
本稿では,最適な人物探索に向けた人物探索を完全に分離することを提案する。
2つのサブタスクのモデルアーキテクチャを分離する、検出および再識別するサブタスクのエンドツーエンドモデルを構築するために、タスクインクリメンタルなパーソンサーチネットワークを提案する。
提案するtask-incremental networkは、2つの競合するタスクのtask-incrementalトレーニングを可能にする。
これにより、異なる目的に対して独立した学習が可能となり、それによって、人的階層のモデルを完全に分離する。
包括的実験評価により,完全分離モデルの有効性が実証された。 End-to-end person search aims to jointly detect and re-identify a target person in raw scene images with a unified model. The detection task unifies all persons while the re-id task discriminates different identities, resulting in conflict optimal objectives. Existing works proposed to decouple end-to-end person search to alleviate such conflict. Yet these methods are still sub-optimal on one or two of the sub-tasks due to their partially decoupled models, which limits the overall person search performance. In this paper, we propose to fully decouple person search towards optimal person search. A task-incremental person search network is proposed to incrementally construct an end-to-end model for the detection and re-id sub-task, which decouples the model architecture for the two sub-tasks. The proposed task-incremental network allows task-incremental training for the two conflicting tasks. This enables independent learning for different objectives thus fully decoupled the model for persons earch. Comprehensive experimental evaluations demonstrate the effectiveness of the proposed fully decoupled models for end-to-end person search. | 翻訳日:2024-01-05 17:20:14 公開日:2024-01-04 |
# mln-net : 多層正規化を用いたマルチソース医用マイクロ石灰化画像分割法 MLN-net: A multi-source medical image segmentation method for clustered microcalcifications using multiple layer normalization ( http://arxiv.org/abs/2309.02742v2 ) ライセンス: Link先を確認 | Ke Wang, Zanting Ye, Xiang Xie, Haidong Cui, Tao Chen, Banteng Liu | (参考訳) 乳がんの診断と治療には,マンモグラフィーにおけるクラスタ化微小石灰化の正確なセグメンテーションが不可欠である。
専門家レベルの精度を示すにもかかわらず、最近の医学画像分割におけるディープラーニングの進歩は、患者の姿勢や個々の腺密度、マンモグラフィのイメージングモダリティなどの違いによるドメインシフトによって、実用的な応用に不十分な貢献を与えている。
本稿では,マルチソースイメージを単一ソース画像のみを用いて高精度にセグメント化できるmln-netという新しいフレームワークを提案する。
本稿ではまず,マルチソース画像を生成するためのソース領域画像拡張手法を提案する。
また、複数の層正規化(ln)層の構造を用いてセグメンテーションネットワークを構築し、異なる領域のクラスタ化マイクロ石灰化セグメンテーションに効率的であることが分かる。
さらに、ソースドメインデータとターゲットドメインデータの類似度を測定するために、分岐選択戦略が設計されている。
提案するMLN-netを検証するため, アブレーション実験を含む広範囲な解析を行い, 12塩基法との比較を行った。
広範囲な実験により、異なる領域からのクラスタ化マイクロ石灰化のセグメンテーションにおけるMLN-netの有効性が検証され、そのセグメンテーション精度は最先端の手法を超えている。
コードはhttps://github.com/yezanting/MLN-NET-VERSON1.comから入手できる。 Accurate segmentation of clustered microcalcifications in mammography is crucial for the diagnosis and treatment of breast cancer. Despite exhibiting expert-level accuracy, recent deep learning advancements in medical image segmentation provide insufficient contribution to practical applications, due to the domain shift resulting from differences in patient postures, individual gland density, and imaging modalities of mammography etc. In this paper, a novel framework named MLN-net, which can accurately segment multi-source images using only single source images, is proposed for clustered microcalcification segmentation. We first propose a source domain image augmentation method to generate multi-source images, leading to improved generalization. And a structure of multiple layer normalization (LN) layers is used to construct the segmentation network, which can be found efficient for clustered microcalcification segmentation in different domains. Additionally, a branch selection strategy is designed for measuring the similarity of the source domain data and the target domain data. To validate the proposed MLN-net, extensive analyses including ablation experiments are performed, comparison of 12 baseline methods. Extensive experiments validate the effectiveness of MLN-net in segmenting clustered microcalcifications from different domains and the its segmentation accuracy surpasses state-of-the-art methods. Code will be available at https://github.com/yezanting/MLN-NET-VERSON1. | 翻訳日:2024-01-05 17:19:57 公開日:2024-01-04 |
# 最大エントロピーを持つ半古典的時空領域 A Semi-classical Spacetime Region with Maximum Entropy ( http://arxiv.org/abs/2309.00602v3 ) ライセンス: Link先を確認 | Yuki Yokokura | (参考訳) 4次元球面対称な静的時空領域を半古典的アインシュタイン方程式の量子の集まりとみなし、自己重力を含むエントロピーを研究する。
十分に励起された状態については,熱力学との局所的整合性を考慮したwkb法でエントロピーを推定し,その上限を求める。
飽和条件は、エントロピー最大化時空を、シュワルツシルト半径のすぐ外側の平面と、平面に近い曲率を持つ放射状の密度分布として一意的に決定する。
内部計量は$\hbar$の非摂動的解であり、種は束縛される。
最大エントロピーはブッソ境界を飽和させ、ベケンシュタイン・ホーキング公式と一致する。
したがって、地平線を持たない飽和構成を構築し、情報を内部に格納することで、このクラスにおけるブーッソ境界が検証される。 We consider a 4D spherically-symmetric static finite spacetime region as a collection of quanta in the semi-classical Einstein equation and study the entropy including the self-gravity. For sufficiently excited states, we estimate the entropy in a WKB-like method considering local consistency with thermodynamics and find its upper bound. The saturation condition uniquely determines the entropy-maximized spacetime as a radially uniform dense configuration with near-Planckian curvatures and a surface just outside the Schwarzschild radius. The interior metric is a non-perturbative solution in $\hbar$, leading to the species bound. The maximum entropy then saturates the Bousso bound and coincides with the Bekenstein-Hawking formula. Thus, the Bousso bound in this class of spacetime is verified by constructing the saturating configuration that has no horizon and stores information inside. | 翻訳日:2024-01-05 17:19:29 公開日:2024-01-04 |
# let there be sound: ハイクオリティな音声をサイレントビデオから再構築する Let There Be Sound: Reconstructing High Quality Speech from Silent Videos ( http://arxiv.org/abs/2308.15256v2 ) ライセンス: Link先を確認 | Ji-Hoon Kim, Jaehun Kim, Joon Son Chung | (参考訳) この研究の目的は、唇の動きだけで高品質な音声を再構築することである。
音声合成システムにおける重要な課題は,(1)ホモフェーンの存在,(2)複数の発声変化に起因する一対多のマッピングであり,誤発音と過度な発声が生じる。
本稿では,複数視点から一対多のマッピング問題を緩和することにより,生成品質を著しく向上する新しい音声合成システムを提案する。
具体的には,(1)ホモフェーンを曖昧にするための自己教師型音声表現,(2)多様な音声スタイルをモデル化するための音響的分散情報を含む。
さらに、上記の問題を解決するために、生成した音声の詳細をキャプチャし、洗練するフローベースのpost-netを採用する。
2つのデータセットについて広範な実験を行い、本手法が実際の人間の発話に近い生成品質を達成することを実証し、音声の自然性や知性の観点から、既存の手法を大差で上回っていることを示す。
合成されたサンプルは、デモページで利用可能です。 The goal of this work is to reconstruct high quality speech from lip motions alone, a task also known as lip-to-speech. A key challenge of lip-to-speech systems is the one-to-many mapping caused by (1) the existence of homophenes and (2) multiple speech variations, resulting in a mispronounced and over-smoothed speech. In this paper, we propose a novel lip-to-speech system that significantly improves the generation quality by alleviating the one-to-many mapping problem from multiple perspectives. Specifically, we incorporate (1) self-supervised speech representations to disambiguate homophenes, and (2) acoustic variance information to model diverse speech styles. Additionally, to better solve the aforementioned problem, we employ a flow based post-net which captures and refines the details of the generated speech. We perform extensive experiments on two datasets, and demonstrate that our method achieves the generation quality close to that of real human utterance, outperforming existing methods in terms of speech naturalness and intelligibility by a large margin. Synthesised samples are available at our demo page: https://mm.kaist.ac.kr/projects/LTBS. | 翻訳日:2024-01-05 17:19:14 公開日:2024-01-04 |
# ランダム量子回路を用いたランダム投影 Random Projection using Random Quantum Circuits ( http://arxiv.org/abs/2308.13919v2 ) ライセンス: Link先を確認 | Keerthi Kumaran, Manas Sajjan, Sangchul Oh, Sabre Kais | (参考訳) googleのsycamoreプロセッサによるランダムサンプリングタスクは、"quantum supremacy era"を垣間見せてくれた。
このことは、(擬似)ランダム回路からの出力をサンプリングするこの抽象的なタスクにおいて、ランダム量子回路のパワーにいくつかの注目を向けている。
本稿では,大規模低ランクデータセットの次元縮小における局所ランダム量子回路の短期的利用について検討する。
ランダム射影法という,十分に研究された次元性低減手法を応用した。
この方法は、画像処理、ロジスティック回帰、低ランク行列のエントロピー計算など、様々な用途で広く利用されている。
我々は、十分に短い深さ (\sim o(n)$) の局所ランダム量子回路の行列表現が、ランダム射影のよい候補となることを証明している。
我々は,MNISTおよびCIFAR-100画像データセットにおける計算コストの高い古典的主成分分析から,その射影能力がそれほど遠くないことを示す。
また、画像データセットの次元性低減や、大きな低ランク密度行列のノイマンエントロピーの計算において、一般的な古典的ランダム射影に対する量子ランダム射影の性能をベンチマークする。
そして最後に、変分量子特異値分解を用いて、大きな低ランク行列を低次元に投影した量子ランダムの後、支配的な特異値を持つ特異ベクトルを抽出する短期的な実装を示す。
このような数値実験はすべて、局所ランダム回路が、縮小次元における大きなデータセットの性質の頑健な保持を伴う十分短い深さで大きなヒルベルト空間をランダム化する能力を示す。 The random sampling task performed by Google's Sycamore processor gave us a glimpse of the "Quantum Supremacy era". This has definitely shed some spotlight on the power of random quantum circuits in this abstract task of sampling outputs from the (pseudo-) random circuits. In this manuscript, we explore a practical near-term use of local random quantum circuits in dimensional reduction of large low-rank data sets. We make use of the well-studied dimensionality reduction technique called the random projection method. This method has been extensively used in various applications such as image processing, logistic regression, entropy computation of low-rank matrices, etc. We prove that the matrix representations of local random quantum circuits with sufficiently shorter depths ($\sim O(n)$) serve as good candidates for random projection. We demonstrate numerically that their projection abilities are not far off from the computationally expensive classical principal components analysis on MNIST and CIFAR-100 image data sets. We also benchmark the performance of quantum random projection against the commonly used classical random projection in the tasks of dimensionality reduction of image datasets and computing Von Neumann entropies of large low-rank density matrices. And finally using variational quantum singular value decomposition, we demonstrate a near-term implementation of extracting the singular vectors with dominant singular values after quantum random projecting a large low-rank matrix to lower dimensions. All such numerical experiments unequivocally demonstrate the ability of local random circuits to randomize a large Hilbert space at sufficiently shorter depths with robust retention of properties of large datasets in reduced dimensions. | 翻訳日:2024-01-05 17:18:50 公開日:2024-01-04 |
# RewardsだけでなくConstraintsも:レッグロボットのロコモーションへの応用 Not Only Rewards But Also Constraints: Applications on Legged Robot Locomotion ( http://arxiv.org/abs/2308.12517v2 ) ライセンス: Link先を確認 | Yunho Kim, Hyunsik Oh, Jeonghyun Lee, Jinhyeok Choi, Gwanghyeon Ji, Moonkyu Jung, Donghoon Youm, Jemin Hwangbo | (参考訳) ニューラルネットワークを使ってコントローラを設計し、モデルフリーの強化学習でトレーニングすることで、複雑なロボットシステムにおける印象的な制御性能を示している。
しかし、これらの優れた動作スタイルと高いタスク性能を持つコントローラは、多数の報酬項を設計し、適切な報酬係数を決定するため、多大な報酬工学によって開発されている。
本研究では,複雑なロボットシステムのためのニューラルネットワークコントローラをトレーニングするための,報酬と制約の両方からなる新しい強化学習フレームワークを提案する。
エンジニアが制約に対する意図を適切に反映し、最小の計算オーバーヘッドで処理できるように、2つの制約タイプと効率的なポリシー最適化アルゴリズムが提案されている。
学習フレームワークは、異なる形態と物理的特性を持つ複数の脚を持つロボットに対して、困難な地形を横断する移動制御器の訓練に応用される。
大規模なシミュレーションと実世界の実験により、単一の報酬係数だけをチューニングすることで、パフォーマンスコントローラをかなり少ない報酬工学で訓練できることが示される。
さらに、制約の解釈可能性と一般化性のおかげで、より単純で直感的なエンジニアリングプロセスが利用できる。
要約ビデオはhttps://youtu.be/KAlm3yskhvM.comで公開されている。 Several earlier studies have shown impressive control performance in complex robotic systems by designing the controller using a neural network and training it with model-free reinforcement learning. However, these outstanding controllers with natural motion style and high task performance are developed through extensive reward engineering, which is a highly laborious and time-consuming process of designing numerous reward terms and determining suitable reward coefficients. In this work, we propose a novel reinforcement learning framework for training neural network controllers for complex robotic systems consisting of both rewards and constraints. To let the engineers appropriately reflect their intent to constraints and handle them with minimal computation overhead, two constraint types and an efficient policy optimization algorithm are suggested. The learning framework is applied to train locomotion controllers for several legged robots with different morphology and physical attributes to traverse challenging terrains. Extensive simulation and real-world experiments demonstrate that performant controllers can be trained with significantly less reward engineering, by tuning only a single reward coefficient. Furthermore, a more straightforward and intuitive engineering process can be utilized, thanks to the interpretability and generalizability of constraints. The summary video is available at https://youtu.be/KAlm3yskhvM. | 翻訳日:2024-01-05 17:18:28 公開日:2024-01-04 |
# 一般化スターリングおよびユーレアン数からのボソン演算子オーダーID Boson Operator Ordering Identities from Generalized Stirling and Eulerian Numbers ( http://arxiv.org/abs/2308.10332v2 ) ライセンス: Link先を確認 | Robert S. Maier | (参考訳) 単モードボソン作用素によって生成されるワイル・ハイゼンベルク代数の順序性について検討した。
生成と消滅演算子からなるボソン弦は他のそのような弦の線型結合として拡張することができ、最も単純な例は正規順序付けである。
各文字列が1つの消滅作用素のみを含む場合、既に組合せ的に非自明である。
2種類の展開が導出される。
(i)別の文字列$\omega'$の下限で$\omega$という文字列のパワーのそれ、及び
(ii)$\Omega$と同じパワーのツイストバージョン$\Omega$のパワー。
膨張係数は、それぞれhsu と shiue の一般化スターリング数と、ある一般化オイラー数であることが示される。
多くの例がある。
これらの組合せ数は互いに二項変換であり、それらの理論は、和公式、Graham-Knuth-Patashnik (GKP) 三角再帰、超幾何列の終了、閉形式表現など、それらを計算するためのスキームを強調する。
最初のタイプの展開の結果は、ボソン弦の正規順序付けに関する以前の結果の多くを仮定する。 Ordering identities in the Weyl-Heisenberg algebra generated by single-mode boson operators are investigated. A boson string composed of creation and annihilation operators can be expanded as a linear combination of other such strings, the simplest example being a normal ordering. The case when each string contains only one annihilation operator is already combinatorially nontrivial. Two kinds of expansion are derived: (i) that of a power of a string $\Omega$ in lower powers of another string $\Omega'$, and (ii) that of a power of $\Omega$ in twisted versions of the same power of $\Omega'$. The expansion coefficients are shown to be, respectively, generalized Stirling numbers of Hsu and Shiue, and certain generalized Eulerian numbers. Many examples are given. These combinatorial numbers are binomial transforms of each other, and their theory is developed, emphasizing schemes for computing them: summation formulas, Graham-Knuth-Patashnik (GKP) triangular recurrences, terminating hypergeometric series, and closed-form expressions. The results on the first type of expansion subsume a number of previous results on the normal ordering of boson strings. | 翻訳日:2024-01-05 17:18:07 公開日:2024-01-04 |
# git-mol: グラフ、画像、テキストを用いた分子科学のためのマルチモーダル大言語モデル GIT-Mol: A Multi-modal Large Language Model for Molecular Science with Graph, Image, and Text ( http://arxiv.org/abs/2308.06911v2 ) ライセンス: Link先を確認 | Pengfei Liu, Yiming Ren and Zhixiang Ren | (参考訳) 大規模な言語モデルは自然言語処理において大きな進歩を遂げ、分子のテキスト表現を処理することによって分子科学における革新的な応用を可能にした。
しかし、既存の言語モデルは複雑な分子構造や画像でリッチな情報を捉えることができない。
本稿では,グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
マルチモーダルな分子データの統合を容易にするため,全てのモダリティを統一された潜在空間に整列させることができる新しいアーキテクチャであるGIT-Formerを提案する。
特性予測の精度が5%~10%向上し, 分子生成の有効性が20.2%向上した。
言語間の分子翻訳戦略により, 化合物名認識や化学反応予測など, より下流の課題を遂行できる可能性が示唆された。 Large language models have made significant strides in natural language processing, enabling innovative applications in molecular science by processing textual representations of molecules. However, most existing language models cannot capture the rich information with complex molecular structures or images. In this paper, we introduce GIT-Mol, a multi-modal large language model that integrates the Graph, Image, and Text information. To facilitate the integration of multi-modal molecular data, we propose GIT-Former, a novel architecture that is capable of aligning all modalities into a unified latent space. We achieve a 5%-10% accuracy increase in properties prediction and a 20.2% boost in molecule generation validity compared to the baselines. With the any-to-language molecular translation strategy, our model has the potential to perform more downstream tasks, such as compound name recognition and chemical reaction prediction. | 翻訳日:2024-01-05 17:17:47 公開日:2024-01-04 |
# 高速NeRF合成とレンダリングのための汎用的暗黙フレームワーク A General Implicit Framework for Fast NeRF Composition and Rendering ( http://arxiv.org/abs/2308.04669v4 ) ライセンス: Link先を確認 | Xinyu Gao, Ziyi Yang, Yunlu Zhao, Yuxiang Sun, Xiaogang Jin, Changqing Zou | (参考訳) 様々なニューラル・ラジアンス・フィールド(nerf)法が近年、高いレンダリング速度で顕著な成功を収めている。
しかし、現在の加速法は特殊であり、様々な暗黙的手法と相容れないため、様々な種類のNeRF作品に対するリアルタイムな構成を妨げている。
NeRFは放射線のサンプリングに依存するため、加速のための一般的なガイダンスを提供することができる。
そこで我々は,NeRFオブジェクトを高速に構成するための一般的な暗黙パイプラインを提案する。
本手法は,複数のNeRFオブジェクトを任意の剛性変換とともにシームレスに配置・描画し,解析光源を用いて物体内および物体間の動的影の鋳造を可能にする。
主に,光線と暗黙表面との直接交叉計算を可能にすることで,物体間の空間的関係を迅速に決定するニューラル深度場(nedf)と呼ばれる新しい表面表現を導入する。
交叉ニューラルネットワークを用いて、空間構造によらず、NeRFを高速化するためにクエリし、提案手法は、NeRFオブジェクトのプログレッシブかつインタラクティブな合成を可能にする最初の方法である。
さらに、既存のNeRFワークのプレビュープラグインとしても機能する。 A variety of Neural Radiance Fields (NeRF) methods have recently achieved remarkable success in high render speed. However, current accelerating methods are specialized and incompatible with various implicit methods, preventing real-time composition over various types of NeRF works. Because NeRF relies on sampling along rays, it is possible to provide general guidance for acceleration. To that end, we propose a general implicit pipeline for composing NeRF objects quickly. Our method enables the casting of dynamic shadows within or between objects using analytical light sources while allowing multiple NeRF objects to be seamlessly placed and rendered together with any arbitrary rigid transformations. Mainly, our work introduces a new surface representation known as Neural Depth Fields (NeDF) that quickly determines the spatial relationship between objects by allowing direct intersection computation between rays and implicit surfaces. It leverages an intersection neural network to query NeRF for acceleration instead of depending on an explicit spatial structure.Our proposed method is the first to enable both the progressive and interactive composition of NeRF objects. Additionally, it also serves as a previewing plugin for a range of existing NeRF works. | 翻訳日:2024-01-05 17:17:15 公開日:2024-01-04 |
# 単眼RGBビデオにおける手指再建の空間的文脈の展開 Exploiting Spatial-Temporal Context for Interacting Hand Reconstruction on Monocular RGB Video ( http://arxiv.org/abs/2308.04074v2 ) ライセンス: Link先を確認 | Weichao Zhao, Hezhen Hu, Wengang Zhou, Li li, Houqiang Li | (参考訳) モノラルなRGBデータから相互作用する手を再構築することは難しい作業であり、例えば、自己と相互の閉塞や類似したテクスチャなど、多くの干渉要因が伴う。
それまでの作業では、物理的に妥当な関係をモデル化することなく、単一のRGB画像からの情報しか活用できなかった。
本研究は,空間的時空間情報を明示的に活用し,より優れたハンドリコンストラクションを実現することを目的としている。
一方,1つのフレームで提供される情報不足を補うために時間的文脈を活用し,手の動きの滑らかさを対話するための時間的制約を伴う新しい時間的枠組みを設計する。
また, 物理的衝突を伴わずに, 動的に再現可能な手を作るための相互浸透検出モジュールを提案する。
提案フレームワークの有効性を検証するために,公開ベンチマークで新たな最先端性能を実現するための広範囲な実験を行った。 Reconstructing interacting hands from monocular RGB data is a challenging task, as it involves many interfering factors, e.g. self- and mutual occlusion and similar textures. Previous works only leverage information from a single RGB image without modeling their physically plausible relation, which leads to inferior reconstruction results. In this work, we are dedicated to explicitly exploiting spatial-temporal information to achieve better interacting hand reconstruction. On one hand, we leverage temporal context to complement insufficient information provided by the single frame, and design a novel temporal framework with a temporal constraint for interacting hand motion smoothness. On the other hand, we further propose an interpenetration detection module to produce kinetically plausible interacting hands without physical collisions. Extensive experiments are performed to validate the effectiveness of our proposed framework, which achieves new state-of-the-art performance on public benchmarks. | 翻訳日:2024-01-05 17:16:58 公開日:2024-01-04 |
# 開放シュウィンガー模型のリウビリアンダイナミクス:熱媒質における弦破断と運動散逸 Liouvillian Dynamics of the Open Schwinger Model: String Breaking and Kinetic Dissipation in a Thermal Medium ( http://arxiv.org/abs/2308.03878v4 ) ライセンス: Link先を確認 | Kyle Lee, James Mulligan, Felix Ringer and Xiaojun Yao | (参考訳) 境界状態形成のダイナミクスを理解することは、量子色力学(qcd)のような量子場理論を閉じ込める基本的な問題の1つである。
最初にフェルミオンと反フェルミオンをつなぐ弦の破断が大きな注目を集めたハドロン化機構の1つである。
シュウィンガーモデルのようなより単純で低次元のモデルでリアルタイムの弦破れ力学の理解を深めることにより、凝縮物質や統計システムで見られるQCDやその他の凝縮系におけるハドロン化過程の理解を深めることができる。
本稿では,シュウィンガーモデルにおける弦破壊のダイナミクスを考察し,熱媒質中での修正を考察し,シュウィンガーモデルを熱環境に結合した開量子系として扱う。
システムと環境の間の弱い結合の仕組みの中で、システムのリアルタイムな進化はリンドブラッド進化方程式によって説明できる。
このリンドブラッド方程式のリウヴィリアンギャップとシステムのフォン・ノイマンエントロピーの時間依存性を解析した。
環境相関時間の増加に伴い, 後期緩和速度は低下する。
さらに、環境相関長が無限であるとき、系は2つの定常状態を示し、各々のチャージ共役パリティ(cp)量子数を持つセクタに1つずつを示す。
初期弦が真空で壊れるパラメータ状態に対しては, 運動的消散効果により, 媒体内の弦破壊の遅れが観察される。
逆に、真空時間進化において初期弦がそのまま残る状態においては、熱媒体内の弦の破れ(融解)が観察される。
さらに,オープンシュウィンガーモデルのリウビリアンダイナミクスを量子コンピュータ上でシミュレートし,関連するトロッター誤差を推定する方法についても検討した。 Understanding the dynamics of bound state formation is one of the fundamental questions in confining quantum field theories such as Quantum Chromodynamics (QCD). One hadronization mechanism that has garnered significant attention is the breaking of a string initially connecting a fermion and an anti-fermion. Deepening our understanding of real-time string-breaking dynamics with simpler, lower dimensional models like the Schwinger model can improve our understanding of the hadronization process in QCD and other confining systems found in condensed matter and statistical systems. In this paper, we consider the string-breaking dynamics within the Schwinger model and investigate its modification inside a thermal medium, treating the Schwinger model as an open quantum system coupled to a thermal environment. Within the regime of weak coupling between the system and environment, the real-time evolution of the system can be described by a Lindblad evolution equation. We analyze the Liouvillian gaps of this Lindblad equation and the time dependence of the system's von Neumann entropy. We observe that the late-time relaxation rate decreases as the environment correlation length increases. Moreover, when the environment correlation length is infinite, the system exhibits two steady states, one in each of the sectors with definite charge-conjugation-parity (CP) quantum numbers. For parameter regimes where an initial string breaks in vacuum, we observe a delay of the string breaking in the medium, due to kinetic dissipation effects. Conversely, in regimes where an initial string remains intact in vacuum time evolution, we observe string breaking (melting) in the thermal medium. We further discuss how the Liouvillian dynamics of the open Schwinger model can be simulated on quantum computers and provide an estimate of the associated Trotter errors. | 翻訳日:2024-01-05 17:16:41 公開日:2024-01-04 |
# 感情的なヌームか共感か?
EmotionBench を用いた LLM の実用性評価 Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench ( http://arxiv.org/abs/2308.03656v3 ) ライセンス: Link先を確認 | Jen-tse Huang, Man Ho Lam, Eric John Li, Shujie Ren, Wenxuan Wang, Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu | (参考訳) 大規模言語モデル (LLM) の人為的能力の評価は, 現代言論においてますます重要になっている。
感情評価理論を心理学から活用し, LLMの共感能力, すなわち, 特定の状況における感情の変化を評価することを提案する。
慎重に総合的な調査を行い、400以上の状況を含むデータセットを収集し、研究の中心となる8つの感情を解明した。
状況を36の要因に分類し,世界1200名以上の被験者を対象に,人間による評価を行った。
GPT-4 や LLaMA-2 のような最新のイテレーションを特徴とする,商用モデルとオープンソースモデルの両方をカバーする5つの LLM を参考として評価を行った。
いくつかのミスアライメントにもかかわらず、LLMは一般的に特定の状況に適切に対応できる。
しかしながら、それらは人間の感情的な行動と一致せず、類似した状況間のつながりを確立できない。
集めた状況のデータセット、人間の評価結果、そしてemotionbenchと呼ばれるテストフレームワークのコードは、https://github.com/cuhk-arise/emotionbenchを介してオープンにアクセスできます。
我々は,人間の感情行動との整合性を向上し,知的アシスタントとしての有用性と適用性を高めることを目的としている。 Evaluating Large Language Models' (LLMs) anthropomorphic capabilities has become increasingly important in contemporary discourse. Utilizing the emotion appraisal theory from psychology, we propose to evaluate the empathy ability of LLMs, i.e., how their feelings change when presented with specific situations. After a careful and comprehensive survey, we collect a dataset containing over 400 situations that have proven effective in eliciting the eight emotions central to our study. Categorizing the situations into 36 factors, we conduct a human evaluation involving more than 1,200 subjects worldwide. With the human evaluation results as references, our evaluation includes five LLMs, covering both commercial and open-source models, including variations in model sizes, featuring the latest iterations, such as GPT-4 and LLaMA-2. We find that, despite several misalignments, LLMs can generally respond appropriately to certain situations. Nevertheless, they fall short in alignment with the emotional behaviors of human beings and cannot establish connections between similar situations. Our collected dataset of situations, the human evaluation results, and the code of our testing framework, dubbed EmotionBench, is made openly accessible via https://github.com/CUHK-ARISE/EmotionBench. We aspire to contribute to the advancement of LLMs regarding better alignment with the emotional behaviors of human beings, thereby enhancing their utility and applicability as intelligent assistants. | 翻訳日:2024-01-05 17:16:08 公開日:2024-01-04 |
# どの量子回路変異体を使うのか?
量子回路変異の実証評価 Which Quantum Circuit Mutants Shall Be Used? An Empirical Evaluation of Quantum Circuit Mutations ( http://arxiv.org/abs/2311.16913v2 ) ライセンス: Link先を確認 | E\~naut Mendiluze Usandizaga, Tao Yue, Paolo Arcaini and Shaukat Ali | (参考訳) 新しい研究分野として、量子ソフトウェアテストはテスト手法の有効性を評価するための体系的なテストベンチマークを欠いている。
最近、いくつかのオープンソースのベンチマークと変異解析ツールが登場した。
しかし、様々な量子回路特性(例えば、回路深さ、量子ゲート数)、アルゴリズム(例えば、量子近似最適化アルゴリズム)、突然変異特性(例えば、突然変異演算子)が量子回路における最も変異検出にどのように影響するかの証拠は不十分である。
このような関係を研究することは、様々な特性(例えば、シードされた障害を検出するのが難しい)の欠陥ベンチマークを体系的に設計し、量子ソフトウェアテスト技術のコスト効率を効率的に評価する上で重要である。
そこで本研究では,実世界の382個の量子回路を変異させた700K以上の故障ベンチマーク(量子回路)を用いて,大規模な実験評価を行う。
この結果をもとに,系統的量子突然変異解析手法を研究者が定義するための貴重な知見を提供する。
また、選択した特徴(例えば、量子アルゴリズムタイプ)とミュータントを殺すことの難しさに基づいて、ユーザにミュータントを推薦するツールも提供する。
最後に,量子ソフトウェアテスト手法のコスト効率を評価するために,すでに使用可能な不備なベンチマークも提供しています。 As a new research area, quantum software testing lacks systematic testing benchmarks to assess testing techniques' effectiveness. Recently, some open-source benchmarks and mutation analysis tools have emerged. However, there is insufficient evidence on how various quantum circuit characteristics (e.g., circuit depth, number of quantum gates), algorithms (e.g., Quantum Approximate Optimization Algorithm), and mutation characteristics (e.g., mutation operators) affect the most mutant detection in quantum circuits. Studying such relations is important to systematically design faulty benchmarks with varied attributes (e.g., the difficulty in detecting a seeded fault) to facilitate assessing the cost-effectiveness of quantum software testing techniques efficiently. To this end, we present a large-scale empirical evaluation with more than 700K faulty benchmarks (quantum circuits) generated by mutating 382 real-world quantum circuits. Based on the results, we provide valuable insights for researchers to define systematic quantum mutation analysis techniques. We also provide a tool to recommend mutants to users based on chosen characteristics (e.g., a quantum algorithm type) and the required difficulty of killing mutants. Finally, we also provide faulty benchmarks that can already be used to assess the cost-effectiveness of quantum software testing techniques. | 翻訳日:2024-01-05 17:10:32 公開日:2024-01-04 |
# DiffAttack:拡散型逆境浄化に対する侵入攻撃 DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial Purification ( http://arxiv.org/abs/2311.16124v2 ) ライセンス: Link先を確認 | Mintong Kang, Dawn Song, Bo Li | (参考訳) 拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去し、最先端の堅牢性を達成する。
最近の研究では、高度な攻撃でさえそのような防御を効果的に破ることができないことが示されている。精製プロセスは、勾配の難読化、高メモリコスト、無界ランダムネスの潜在的な問題を引き起こす非常に深い計算グラフを誘導するからである。
本稿では,DDPMとスコアベースの両方を含む拡散型浄化防御を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。
特に,不正確な密度勾配推定を誘導するために,中間拡散段階における逸脱再構成損失を提案する。
また、セグメント毎のフォワードバックワードアルゴリズムを提供し、メモリ効率のよい勾配バックプロパゲーションを実現する。
我々は,既存のCIFAR-10およびImageNetに対する適応攻撃と比較して,DiffAttackの攻撃効果を検証する。
diffattackは、$\ell_\infty$ attack $(\epsilon=8/255)$でcifar-10で20%以上、$\ell_\infty$ attack $(\epsilon=4/255)$でimagenetで10%以上、soma攻撃と比較して、モデルのロバストな精度を低下させる。
私たちは一連のアブレーション研究を行い
1) 一斉サンプリングされた時間ステップに付加された脱落再構築損失のDiffAttackは、初期/最終ステップのみに付加されたものよりも効果的である。
2) DiffAttackでは, 拡散長が中程度である拡散基の精製がより堅牢である。 Diffusion-based purification defenses leverage diffusion models to remove crafted perturbations of adversarial examples and achieve state-of-the-art robustness. Recent studies show that even advanced attacks cannot break such defenses effectively, since the purification process induces an extremely deep computational graph which poses the potential problem of gradient obfuscation, high memory cost, and unbounded randomness. In this paper, we propose a unified framework DiffAttack to perform effective and efficient attacks against diffusion-based purification defenses, including both DDPM and score-based approaches. In particular, we propose a deviated-reconstruction loss at intermediate diffusion steps to induce inaccurate density gradient estimation to tackle the problem of vanishing/exploding gradients. We also provide a segment-wise forwarding-backwarding algorithm, which leads to memory-efficient gradient backpropagation. We validate the attack effectiveness of DiffAttack compared with existing adaptive attacks on CIFAR-10 and ImageNet. We show that DiffAttack decreases the robust accuracy of models compared with SOTA attacks by over 20% on CIFAR-10 under $\ell_\infty$ attack $(\epsilon=8/255)$, and over 10% on ImageNet under $\ell_\infty$ attack $(\epsilon=4/255)$. We conduct a series of ablations studies, and we find 1) DiffAttack with the deviated-reconstruction loss added over uniformly sampled time steps is more effective than that added over only initial/final steps, and 2) diffusion-based purification with a moderate diffusion length is more robust under DiffAttack. | 翻訳日:2024-01-05 17:10:11 公開日:2024-01-04 |
# ファウショット画像における3次元ガウス平滑化の深さ正規化最適化 Depth-Regularized Optimization for 3D Gaussian Splatting in Few-Shot Images ( http://arxiv.org/abs/2311.13398v3 ) ライセンス: Link先を確認 | Jaeyoung Chung, Jeongtaek Oh, and Kyoung Mu Lee | (参考訳) 本稿では,過剰適合を回避しつつ,限られた画像数でガウススプラッティングを最適化する方法を提案する。
多数のガウススプラットを組み合わせることで3Dシーンを表現することで、目立った視覚的品質が得られる。
しかし、少数の画像しか利用できない場合、トレーニングビューは過度に適合する傾向にある。
この問題に対処するため,オーバーフィッティングを緩和するための幾何ガイドとして深度マップを導入する。
事前学習した単眼深度推定モデルを用いて深度マップを求め,スパースコルマップ特徴点を用いたスケールとオフセットの調整を行った。
調整された深度は、3Dガウススプラッティングのカラーベース最適化、浮動小道具の緩和、幾何学的制約の遵守を保証する。
提案手法は,NeRF-LLFFデータセット上で,少ない画像数で検証する。
本手法は,画像のみに依存する元の手法と比較してロバストな形状を示す。
プロジェクトページ: Robot0321.github.io/DepthRegGS In this paper, we present a method to optimize Gaussian splatting with a limited number of images while avoiding overfitting. Representing a 3D scene by combining numerous Gaussian splats has yielded outstanding visual quality. However, it tends to overfit the training views when only a small number of images are available. To address this issue, we introduce a dense depth map as a geometry guide to mitigate overfitting. We obtained the depth map using a pre-trained monocular depth estimation model and aligning the scale and offset using sparse COLMAP feature points. The adjusted depth aids in the color-based optimization of 3D Gaussian splatting, mitigating floating artifacts, and ensuring adherence to geometric constraints. We verify the proposed method on the NeRF-LLFF dataset with varying numbers of few images. Our approach demonstrates robust geometry compared to the original method that relies solely on images. Project page: robot0321.github.io/DepthRegGS | 翻訳日:2024-01-05 17:09:41 公開日:2024-01-04 |
# スパイキングNeRF:不連続表現による実世界幾何の表現 Spiking NeRF: Representing the Real-World Geometry by a Discontinuous Representation ( http://arxiv.org/abs/2311.09077v2 ) ライセンス: Link先を確認 | Zhanfeng Liao, Qian Zheng, Yan Liu, Gang Pan | (参考訳) 既存のNeRFベースの手法が成功した重要な理由は、複数のパーセプトロン層(MLP)を介して幾何学表現のための神経密度場を構築することである。
MLPは連続関数であるが、実際の幾何学や密度場は空気と表面の界面においてしばしば不連続である。
このような逆は不利な幾何学表現の問題をもたらす。
そこで本研究では, スパイキングニューロンとハイブリッドニューラルネットワーク(ANN)-スパイキングニューラルネットワーク(SNN)を用いて, 忠実な幾何表現のための不連続密度場を構築するためのスパイキングNeRFを提案する。
具体的には、連続密度場が不正確をもたらす理由を最初に示す。
次に、スパイキングニューロンを用いて不連続密度場を構築することを提案する。
既存のスパイキングニューロンモデルの問題に対する包括的解析を行い、スパイキングニューロンのパラメータと幾何学の理論的精度との数値的関係を提供する。
これに基づいて,不連続密度場を構築するための境界スパイキングニューロンを提案する。
本手法は sota 性能を実現する。
ソースコードと追加資料はhttps://github.com/liaozhanfeng/Spiking-NeRFで公開されている。 A crucial reason for the success of existing NeRF-based methods is to build a neural density field for the geometry representation via multiple perceptron layers (MLPs). MLPs are continuous functions, however, real geometry or density field is frequently discontinuous at the interface between the air and the surface. Such a contrary brings the problem of unfaithful geometry representation. To this end, this paper proposes spiking NeRF, which leverages spiking neurons and a hybrid Artificial Neural Network (ANN)-Spiking Neural Network (SNN) framework to build a discontinuous density field for faithful geometry representation. Specifically, we first demonstrate the reason why continuous density fields will bring inaccuracy. Then, we propose to use the spiking neurons to build a discontinuous density field. We conduct a comprehensive analysis for the problem of existing spiking neuron models and then provide the numerical relationship between the parameter of the spiking neuron and the theoretical accuracy of geometry. Based on this, we propose a bounded spiking neuron to build the discontinuous density field. Our method achieves SOTA performance. The source code and the supplementary material are available at https://github.com/liaozhanfeng/Spiking-NeRF. | 翻訳日:2024-01-05 17:09:26 公開日:2024-01-04 |
# 増分ランダム化平滑化による視覚言語モデルの高速認証 Fast Certification of Vision-Language Models Using Incremental Randomized Smoothing ( http://arxiv.org/abs/2311.09024v2 ) ライセンス: Link先を確認 | A K Nirala (1), A Joshi (2), C Hegde (2), S Sarkar (1) ((1) Iowa State University, (2) New York University) | (参考訳) CLIPのような深い視覚言語モデルの大きな利点は、ゼロショットのオープン語彙分類を可能にすることである。
しかし、CLIPベースのゼロショット分類器は、さまざまなドメインシフトで競合性能を示しているが、敵攻撃に対して非常に脆弱である。
したがって、そのようなモデルの堅牢性を保証することは、その信頼性の高いデプロイに不可欠である。
本稿では,CLIP などのオープン語彙モデルを対象とした高速認証手法である Open Vocabulary Certification (OVC) を紹介する。
プロンプトのベース"トレーニング"セットとそれに対応するCLIP分類器が与えられた場合、OVCは、新しいプロンプトを持つ分類器がベーストレーニングセット内の近くの分類器の摂動バージョンと見なせるという観察に依存している。
したがって、OVCは漸進的ランダム化スムーシングのバリエーションを用いて、新しい分類器を迅速に認証することができる。
キャッシング手法を用いて,新規プロンプトの認証プロセスにおいて,約2桁の高速化を実現する。
さらに(ヒューリスティックな)スピードアップを達成するために、OVCは視覚バックボーンを通る前方通過によるサンプリングの必要性を回避し、多変量正規分布を用いて与えられた入力における埋め込み空間を近似する。
CIFAR-10およびImageNetテストデータセット上で、複数の視覚言語バックボーンを用いて実験評価を行い、OVCの有効性を示す。 A key benefit of deep vision-language models such as CLIP is that they enable zero-shot open vocabulary classification; the user has the ability to define novel class labels via natural language prompts at inference time. However, while CLIP-based zero-shot classifiers have demonstrated competitive performance across a range of domain shifts, they remain highly vulnerable to adversarial attacks. Therefore, ensuring the robustness of such models is crucial for their reliable deployment in the wild. In this work, we introduce Open Vocabulary Certification (OVC), a fast certification method designed for open-vocabulary models like CLIP via randomized smoothing techniques. Given a base "training" set of prompts and their corresponding certified CLIP classifiers, OVC relies on the observation that a classifier with a novel prompt can be viewed as a perturbed version of nearby classifiers in the base training set. Therefore, OVC can rapidly certify the novel classifier using a variation of incremental randomized smoothing. By using a caching trick, we achieve approximately two orders of magnitude acceleration in the certification process for novel prompts. To achieve further (heuristic) speedups, OVC approximates the embedding space at a given input using a multivariate normal distribution bypassing the need for sampling via forward passes through the vision backbone. We demonstrate the effectiveness of OVC on through experimental evaluation using multiple vision-language backbones on the CIFAR-10 and ImageNet test datasets. | 翻訳日:2024-01-05 17:09:08 公開日:2024-01-04 |
# 変分量子アルゴリズムを用いたghz状態蒸留のための繰り返しプロトコルの訓練 Training iterated protocols for distillation of GHZ states with variational quantum algorithms ( http://arxiv.org/abs/2311.04646v2 ) ライセンス: Link先を確認 | \'Aron Rozgonyi, G\'abor Sz\'echenyi, Orsolya K\'alm\'an, Tam\'as Kiss | (参考訳) グリーンバーガー・ホーネ・ザイリンガー状態(GHZ)を調製するための最適化蒸留方式を提案する。
提案手法は、入力としてGHZ状態に影響を受ける白色雑音を持つ変分量子回路のトレーニングに依存する。
スキームの1つの反復を最適化すると、GHZ状態への忠実度の増加が可能であるが、さらなる反復は忠実度を減少させる。
整合的に歪んだ純粋状態入力に作用する同じスキームは、特定の特別な場合にのみ有効である。
しかし,プロトコルを2回繰り返した後に出力を最適化することで,根本的に異なる結果が得られることを示す。
この場合、得られたスキームはホワイトノイズによる入力からGHZ状態を蒸留するのにより効果的である。
さらに、複数の種類のコヒーレントな純状態誤差を修正することもできる。 We present optimized distillation schemes for preparing Greenberger-Horne-Zeilinger (GHZ) states. Our approach relies on training variational quantum circuits with white noise affected GHZ states as inputs. Optimizing for a single iteration of the scheme, we find that it is possible to achieve an increased fidelity to the GHZ state, although further iterations decrease the fidelity. The same scheme, acting on coherently distorted pure-state inputs, is effective only in certain special cases. We show that radically different results can be achieved, however, when one optimizes for the output after two iterations of the protocol. In this case, the obtained schemes are more effective in distilling GHZ states from inputs affected by white noise. Moreover, they can also correct several types of coherent pure-state errors. | 翻訳日:2024-01-05 17:08:39 公開日:2024-01-04 |
# TEAL:マルチモーダル大規模言語モデルのためのTokenize and Embed ALL TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models ( http://arxiv.org/abs/2311.04589v3 ) ライセンス: Link先を確認 | Zhen Yang, Yingxue Zhang, Fandong Meng and Jie Zhou | (参考訳) 近年,MM-LLM(Multi-modal Large Language Models, MM-LLMs)が注目されているが, マルチモーダル入力間の相互作用や非テクスチュアルなモーダル生成のモデル化に苦慮している。
本研究では,任意のモダリティからの入力をトークンシーケンスとして扱い,すべてのモダリティに対する共同埋め込み空間を学習するTEAL(Tokenize and Embed ALl)}を提案する。
具体的には、任意のモダリティからの入力に対して、TEALはまずそれをオフザシェルフトークンライザでトークンシーケンスに離散化し、トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。
MM-LLM はテキスト LLM のように自動回帰的にマルチモーダルトークンを予測する必要がある。
最後に、対応するデトケナイザを適用し、予測トークンシーケンスに基づいて各モードで出力を生成する。
共同埋め込み空間により、TEALは凍結したLCMに対して、画像やオーディオなどの非テクスチュアルなモダリティを含む理解と生成の両方を行うことができる。
したがって、テキストLLMはインタフェースとして機能し、テキストの理解と生成において高い性能を維持することができる。
実験により、TEALはマルチモーダル理解を大幅に改善し、マルチモーダル世代のための単純なスキームを実装した。 Despite Multi-modal Large Language Models (MM-LLMs) have made exciting strides recently, they are still struggling to efficiently model the interactions among multi-modal inputs and the generation in non-textual modalities. In this work, we propose TEAL (Tokenize and Embed ALl)}, an approach to treat the input from any modality as a token sequence and learn a joint embedding space for all modalities. Specifically, for the input from any modality, TEAL first discretizes it into a token sequence with the off-the-shelf tokenizer and embeds the token sequence into a joint embedding space with a learnable embedding matrix. MM-LLMs just need to predict the multi-modal tokens autoregressively as the textual LLMs do. Finally, the corresponding de-tokenizer is applied to generate the output in each modality based on the predicted token sequence. With the joint embedding space, TEAL enables the frozen LLMs to perform both understanding and generation tasks involving non-textual modalities, such as image and audio. Thus, the textual LLM can just work as an interface and maintain its high performance in textual understanding and generation. Experiments show that TEAL achieves substantial improvements in multi-modal understanding, and implements a simple scheme for multi-modal generations. | 翻訳日:2024-01-05 17:08:26 公開日:2024-01-04 |
# CBD:ローカルドミナント確率に基づく認証バックドア検出器 CBD: A Certified Backdoor Detector Based on Local Dominant Probability ( http://arxiv.org/abs/2310.17498v2 ) ライセンス: Link先を確認 | Zhen Xiang and Zidi Xiong and Bo Li | (参考訳) バックドア攻撃はディープニューラルネットワークに対する一般的な脅威である。
テスト中、バックドアトリガーに埋め込まれたサンプルは、バックドアモデルによって敵の標的として誤分類され、バックドアトリガーのないサンプルは正しく分類される。
本稿では,提案した統計的局所支配確率に基づく,新しい調整可能な共形予測スキームに基づく,最初の認証バックドア検出器(CBD)を提案する。
検査中の分類器に対して cbdは
1) 検出推測
2 同一分類領域において、攻撃が検出可能であることを保証された条件、及び
3) 偽陽性率の確率的上限。
実験結果から, 試験時間騒音に対する耐性が高く, 摂動強度が小さいトリガによる攻撃は, 確実に検出される可能性が示唆された。
さらに,BadNet,CB,Blendなどのバックドアタイプを考慮した4つのベンチマークデータセットについて広範な実験を行った。
CBDは最先端の検出器と同等またはそれ以上の精度で検出を行い、さらに検出認証を提供する。
特に、90\%以上の攻撃成功率を達成する$\ell_2\leq0.75$で制限されたランダムな摂動トリガーを持つバックドア攻撃の場合、cbdは、それぞれ100\% (98\%), 100\% (84\%), 98\% (98\%), 72\% (40\%) の経験的 (認証済み) で、gtsrb, svhn, cifar-10, tinyimagenet の4つのベンチマークデータセットの真正正率をそれぞれ低い偽陽性率で達成する。 Backdoor attack is a common threat to deep neural networks. During testing, samples embedded with a backdoor trigger will be misclassified as an adversarial target by a backdoored model, while samples without the backdoor trigger will be correctly classified. In this paper, we present the first certified backdoor detector (CBD), which is based on a novel, adjustable conformal prediction scheme based on our proposed statistic local dominant probability. For any classifier under inspection, CBD provides 1) a detection inference, 2) the condition under which the attacks are guaranteed to be detectable for the same classification domain, and 3) a probabilistic upper bound for the false positive rate. Our theoretical results show that attacks with triggers that are more resilient to test-time noise and have smaller perturbation magnitudes are more likely to be detected with guarantees. Moreover, we conduct extensive experiments on four benchmark datasets considering various backdoor types, such as BadNet, CB, and Blend. CBD achieves comparable or even higher detection accuracy than state-of-the-art detectors, and it in addition provides detection certification. Notably, for backdoor attacks with random perturbation triggers bounded by $\ell_2\leq0.75$ which achieves more than 90\% attack success rate, CBD achieves 100\% (98\%), 100\% (84\%), 98\% (98\%), and 72\% (40\%) empirical (certified) detection true positive rates on the four benchmark datasets GTSRB, SVHN, CIFAR-10, and TinyImageNet, respectively, with low false positive rates. | 翻訳日:2024-01-05 17:07:12 公開日:2024-01-04 |
# DHOT-GM: 微分階層型最適輸送フレームワークを用いたロバストグラフマッチング DHOT-GM: Robust Graph Matching Using A Differentiable Hierarchical Optimal Transport Framework ( http://arxiv.org/abs/2310.12081v2 ) ライセンス: Link先を確認 | Haoran Cheng, Dixin Luo, Hongteng Xu | (参考訳) グラフマッチングは、グラフ間のノード対応を見つけることを目的として、実際には最も重要なグラフ解析タスクの1つである。
既存のアプローチのほとんどは、グラフに隠されたマルチモーダル情報(ノード属性やサブグラフ構造など)を十分に活用していないため、グラフにマッチする際の隣接行列やノード埋め込みに依存している。
本研究では, DHOT-GMと呼ばれる, 微分可能な階層的最適輸送(HOT)フレームワークに基づく, 新規かつ効果的なグラフマッチング手法を提案する。
基本的に,本手法は各グラフを,異なるモーダル情報に対応する関係行列の集合として表現する。
2つのグラフが与えられた場合、すべての関係行列対を列挙してマッチング結果を求め、その結果の重み付き平均化によるノード対応を推定する。
この方法では、2つのグラフ間のHOT距離を計算することができる -- 各マッチング結果は、2つの関係行列間のGromov-Wasserstein (GW) 距離に関連する最適な輸送計画であり、全てのマッチング結果の重みは行列集合上で定義された上位レベルの最適輸送計画の要素である。
そこで本研究では, 熱間距離を微分可能な方法で計算し, 関係行列を調整可能な2レベル最適化アルゴリズムを提案する。
様々なグラフマッチングタスクにおける実験は、最先端のアプローチと比較して、提案手法の優越性と頑健性を示している。 Graph matching is one of the most significant graph analytic tasks in practice, which aims to find the node correspondence across different graphs. Most existing approaches rely on adjacency matrices or node embeddings when matching graphs, whose performances are often sub-optimal because of not fully leveraging the multi-modal information hidden in graphs, such as node attributes, subgraph structures, etc. In this study, we propose a novel and effective graph matching method based on a differentiable hierarchical optimal transport (HOT) framework, called DHOT-GM. Essentially, our method represents each graph as a set of relational matrices corresponding to the information of different modalities. Given two graphs, we enumerate all relational matrix pairs and obtain their matching results, and accordingly, infer the node correspondence by the weighted averaging of the matching results. This method can be implemented as computing the HOT distance between the two graphs -- each matching result is an optimal transport plan associated with the Gromov-Wasserstein (GW) distance between two relational matrices, and the weights of all matching results are the elements of an upper-level optimal transport plan defined on the matrix sets. We propose a bi-level optimization algorithm to compute the HOT distance in a differentiable way, making the significance of the relational matrices adjustable. Experiments on various graph matching tasks demonstrate the superiority and robustness of our method compared to state-of-the-art approaches. | 翻訳日:2024-01-05 17:06:32 公開日:2024-01-04 |
# 微分プライベート統計量推定のための改良と簡易化 Better and Simpler Lower Bounds for Differentially Private Statistical Estimation ( http://arxiv.org/abs/2310.06289v2 ) ライセンス: Link先を確認 | Shyam Narayanan | (参考訳) 近似微分プライバシーを持つ高次元の2つのよく知られたパラメータ推定(統計的推定とも呼ばれる)タスクに対して最適な下界を提供する。
まず、任意の$\alpha \le O(1)$に対して、ガウスの共分散をスペクトル誤差まで推定するには$\tilde{\Omega}\left(\frac{d^{3/2}}{\alpha \varepsilon} + \frac{d}{\alpha^2}\right)$サンプルが必要である。
この結果は、$\alpha \le o\left(\frac{1}{\sqrt{d}}\right)$という従来の仕事よりも改善され、また以前の仕事よりも単純である。
次に、有界な$k$thモーメントで重み付き分布の平均を推定するには、$\tilde{\Omega}\left(\frac{d}{\alpha^{k/(k-1)} \varepsilon} + \frac{d}{\alpha^2}\right)$サンプルが必要であることを証明する。
この問題に対する以前の研究は、純粋な差分プライバシーに対して、あるいは特別な場合、$k = 2$に対して、この低い境界を確立することしかできなかった。
我々の技術は指紋認証の手法に従っており、概して非常に単純である。
重み付き推定の低い境界は、個人的同一性共分散ガウスのブラックボックス削減に基づいている。
共分散行列に対する逆ウィッシュアート事前分布の下では、十分多くのサンプルを使わずに、期待してもプライベートな推定器が正確ではないことをベイズ法を用いて証明する。 We provide optimal lower bounds for two well-known parameter estimation (also known as statistical estimation) tasks in high dimensions with approximate differential privacy. First, we prove that for any $\alpha \le O(1)$, estimating the covariance of a Gaussian up to spectral error $\alpha$ requires $\tilde{\Omega}\left(\frac{d^{3/2}}{\alpha \varepsilon} + \frac{d}{\alpha^2}\right)$ samples, which is tight up to logarithmic factors. This result improves over previous work which established this for $\alpha \le O\left(\frac{1}{\sqrt{d}}\right)$, and is also simpler than previous work. Next, we prove that estimating the mean of a heavy-tailed distribution with bounded $k$th moments requires $\tilde{\Omega}\left(\frac{d}{\alpha^{k/(k-1)} \varepsilon} + \frac{d}{\alpha^2}\right)$ samples. Previous work for this problem was only able to establish this lower bound against pure differential privacy, or in the special case of $k = 2$. Our techniques follow the method of fingerprinting and are generally quite simple. Our lower bound for heavy-tailed estimation is based on a black-box reduction from privately estimating identity-covariance Gaussians. Our lower bound for covariance estimation utilizes a Bayesian approach to show that, under an Inverse Wishart prior distribution for the covariance matrix, no private estimator can be accurate even in expectation, without sufficiently many samples. | 翻訳日:2024-01-05 17:06:07 公開日:2024-01-04 |
# 条件分岐間の自動微分のための平滑化法 Smoothing Methods for Automatic Differentiation Across Conditional Branches ( http://arxiv.org/abs/2310.03585v2 ) ライセンス: Link先を確認 | Justin N. Kreikemeyer and Philipp Andelfinger | (参考訳) 制御フロー構造によって導入された不連続性を含むプログラムは、目的関数の応答面の滑らかさを仮定する数学的最適化法に挑戦する。
スムース解釈(Smooth interpretation, SI)は、プログラムの出力とガウス核との畳み込みを近似した抽象解釈の形式であり、その出力を原則的に滑らかにする。
本稿では,siと自動微分(ad)を組み合わせることで,プログラムの勾配を効率的に計算する。
通常のプログラム実行中のadとは対照的に、これらの勾配は代替制御フローパスの効果も捉えている。
siとadの組み合わせにより、分岐プログラムの直接勾配に基づくパラメータ合成が可能になり、シミュレーションモデルのキャリブレーションや、機械学習パイプラインにおけるニューラルネットワークモデルとの結合が可能になる。
SIにおけるトラクタビリティに対する近似の効果を詳述し、ADとサンプリングの組み合わせによる滑らかなプログラムの勾配を推定することにより、基礎となる仮定を回避できるモンテカルロ推定器を提案する。
単純なc++プログラムをスムーズな微分可能な形式に自動翻訳するツールであるdiscogradを使用することで,広範な評価を行う。
従来のシミュレーションベース最適化からニューラルネットワーク駆動制御まで,非自明で元来不連続な4つの問題に対して,SIとADとモンテカルロ推定器の組み合わせを,既存の勾配のない確率的手法と比較した。
SIに基づく推定器による最適化の進行は、プログラムの制御フローの複雑さに依存するが、モンテカルロ推定器は、全ての問題において競争力があり、最も高い次元問題におけるかなりのマージンによる最速の収束を示す。 Programs involving discontinuities introduced by control flow constructs such as conditional branches pose challenges to mathematical optimization methods that assume a degree of smoothness in the objective function's response surface. Smooth interpretation (SI) is a form of abstract interpretation that approximates the convolution of a program's output with a Gaussian kernel, thus smoothing its output in a principled manner. Here, we combine SI with automatic differentiation (AD) to efficiently compute gradients of smoothed programs. In contrast to AD across a regular program execution, these gradients also capture the effects of alternative control flow paths. The combination of SI with AD enables the direct gradient-based parameter synthesis for branching programs, allowing for instance the calibration of simulation models or their combination with neural network models in machine learning pipelines. We detail the effects of the approximations made for tractability in SI and propose a novel Monte Carlo estimator that avoids the underlying assumptions by estimating the smoothed programs' gradients through a combination of AD and sampling. Using DiscoGrad, our tool for automatically translating simple C++ programs to a smooth differentiable form, we perform an extensive evaluation. We compare the combination of SI with AD and our Monte Carlo estimator to existing gradient-free and stochastic methods on four non-trivial and originally discontinuous problems ranging from classical simulation-based optimization to neural network-driven control. While the optimization progress with the SI-based estimator depends on the complexity of the program's control flow, our Monte Carlo estimator is competitive in all problems, exhibiting the fastest convergence by a substantial margin in our highest-dimensional problem. | 翻訳日:2024-01-05 17:05:35 公開日:2024-01-04 |
# Rewrite Caption Semantics: 言語スーパービジョンセマンティックセマンティックセマンティックセマンティックスのためのブリッジングセマンティックギャップ Rewrite Caption Semantics: Bridging Semantic Gaps for Language-Supervised Semantic Segmentation ( http://arxiv.org/abs/2309.13505v4 ) ライセンス: Link先を確認 | Yun Xing, Jian Kang, Aoran Xiao, Jiahao Nie, Ling Shao, Shijian Lu | (参考訳) ビジョンランゲージ事前学習は、その目覚ましいゼロショット認識能力と、言語監督から一般化可能な視覚表現を学習する可能性を示した。
一歩前進して、言語によるセマンティックセグメンテーションは、画像とテキストのペアのみからピクセルグループを学習することで、テキスト入力の空間的局所化を可能にする。
それでも、最先端技術は、視覚とテキストのモダリティの間に明確な意味的ギャップに悩まされている:画像に現れる多くの視覚概念が、ペア化されたキャプションに欠けている。
このような意味的ミスアライメントは事前学習で循環し、テキスト表現で捉えた視覚概念が不十分なため、密集した予測ではゼロショット性能が劣る。
このようなセマンティクスのギャップを埋めるため,CLIPを利用するパイプラインであるConcept Curation(CoCu)を提案する。
各画像とテキストのペアに対して,視覚駆動型拡張とテキスト対視覚誘導ランキングとで視覚的に整合するコンセプトアーカイブを構築した。
したがって、関連する概念はクラスタガイドによるサンプリングによって識別され、事前トレーニングされ、視覚とテキストのセマンティクスのギャップを埋めることができる。
8つのセグメンテーションベンチマークの幅広いスイートにわたる実験は、cocuがスーパーブゼロショット転送性能を達成し、言語教師付きセグメンテーションベースラインを大きなマージンで大きく向上させ、事前トレーニングデータにおけるセマンティクスギャップの橋渡しの価値を示唆している。 Vision-Language Pre-training has demonstrated its remarkable zero-shot recognition ability and potential to learn generalizable visual representations from language supervision. Taking a step ahead, language-supervised semantic segmentation enables spatial localization of textual inputs by learning pixel grouping solely from image-text pairs. Nevertheless, the state-of-the-art suffers from clear semantic gaps between visual and textual modality: plenty of visual concepts appeared in images are missing in their paired captions. Such semantic misalignment circulates in pre-training, leading to inferior zero-shot performance in dense predictions due to insufficient visual concepts captured in textual representations. To close such semantic gap, we propose Concept Curation (CoCu), a pipeline that leverages CLIP to compensate for the missing semantics. For each image-text pair, we establish a concept archive that maintains potential visually-matched concepts with our proposed vision-driven expansion and text-to-vision-guided ranking. Relevant concepts can thus be identified via cluster-guided sampling and fed into pre-training, thereby bridging the gap between visual and textual semantics. Extensive experiments over a broad suite of 8 segmentation benchmarks show that CoCu achieves superb zero-shot transfer performance and greatly boosts language-supervised segmentation baseline by a large margin, suggesting the value of bridging semantic gap in pre-training data. | 翻訳日:2024-01-05 17:05:07 公開日:2024-01-04 |
# wftnet:長期時系列予測におけるグローバルおよびローカル周期性の利用 WFTNet: Exploiting Global and Local Periodicity in Long-term Time Series Forecasting ( http://arxiv.org/abs/2309.11319v2 ) ライセンス: Link先を確認 | Peiyuan Liu, Beiliang Wu, Naiqi Li, Tao Dai, Fengmao Lei, Jigang Bao, Yong Jiang, Shu-Tao Xia | (参考訳) 最近のcnnとトランスフォーマのモデルでは、時系列予測に周波数と周期情報を活用しようと試みている。
しかし、既存のほとんどの仕事はフーリエ変換に基づいているため、細粒度および局所周波数構造を捉えることはできない。
本稿では,長期連続予測のためのウェーブレット・フーリエ変換ネットワーク(WFTNet)を提案する。
WFTNetは、フーリエ変換とウェーブレット変換の両方を用いて信号から包括的な時間周波数情報を抽出する。
さらに,グローバルおよび局所周波数パターンの重要性を適応的にバランスさせるために,周期性重み付き係数(PWC)を導入する。
様々な時系列データセットの大規模な実験により、WFTNetは他の最先端のベースラインを一貫して上回っていることが示されている。
コードはhttps://github.com/Hank0626/WFTNetで入手できる。 Recent CNN and Transformer-based models tried to utilize frequency and periodicity information for long-term time series forecasting. However, most existing work is based on Fourier transform, which cannot capture fine-grained and local frequency structure. In this paper, we propose a Wavelet-Fourier Transform Network (WFTNet) for long-term time series forecasting. WFTNet utilizes both Fourier and wavelet transforms to extract comprehensive temporal-frequency information from the signal, where Fourier transform captures the global periodic patterns and wavelet transform captures the local ones. Furthermore, we introduce a Periodicity-Weighted Coefficient (PWC) to adaptively balance the importance of global and local frequency patterns. Extensive experiments on various time series datasets show that WFTNet consistently outperforms other state-of-the-art baseline. Code is available at https://github.com/Hank0626/WFTNet. | 翻訳日:2024-01-05 17:04:35 公開日:2024-01-04 |
# SLP-Net:皮膚病変のセグメンテーションのための効率的な軽量ネットワーク SLP-Net:An efficient lightweight network for segmentation of skin lesions ( http://arxiv.org/abs/2312.12789v2 ) ライセンス: Link先を確認 | Bo Yang, Hong Peng, Chenggang Guo, Xiaohui Luo, Jun Wang, Xianzhong Long | (参考訳) メラノーマのプロンプト治療は重要である。
そこで本研究では,slp-netという,スパイキングニューラルp(snp)システムに基づく超軽量セグメンテーションネットワークを用いた皮膚病変セグメンテーション手法を提案する。
既存の畳み込みニューラルネットワークの多くは、高いハードウェアコストを無視しながら高いセグメンテーション精度を達成する。
一方、SLP-Netは非常に少ないパラメータと高い計算速度を持つ。
通常のエンコーダ・デコーダ構造を持たない軽量なマルチスケール特徴抽出器を設計する。
デコーダではなく、機能適応モジュールがデコーダを置き換え、マルチスケール情報デコードを実装するように設計されている。
ISIC2018チャレンジでの実験では、提案されたモデルが最先端の手法の中で最も高いAccとDSCを持ち、PH2データセットでの実験は良好な一般化能力を示している。
最後に,slp-netが全体の優越性が最も高い実験において,計算複雑性とモデルの計算速度を比較した。 Prompt treatment for melanoma is crucial. To assist physicians in identifying lesion areas precisely in a quick manner, we propose a novel skin lesion segmentation technique namely SLP-Net, an ultra-lightweight segmentation network based on the spiking neural P(SNP) systems type mechanism. Most existing convolutional neural networks achieve high segmentation accuracy while neglecting the high hardware cost. SLP-Net, on the contrary, has a very small number of parameters and a high computation speed. We design a lightweight multi-scale feature extractor without the usual encoder-decoder structure. Rather than a decoder, a feature adaptation module is designed to replace it and implement multi-scale information decoding. Experiments at the ISIC2018 challenge demonstrate that the proposed model has the highest Acc and DSC among the state-of-the-art methods, while experiments on the PH2 dataset also demonstrate a favorable generalization ability. Finally, we compare the computational complexity as well as the computational speed of the models in experiments, where SLP-Net has the highest overall superiority | 翻訳日:2024-01-05 16:57:51 公開日:2024-01-04 |
# Lookahead: ロスレス生成精度を持つ大規模言語モデルのための推論高速化フレームワーク Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy ( http://arxiv.org/abs/2312.12728v2 ) ライセンス: Link先を確認 | Yao Zhao, Zhitian Xie, Chenyi Zhuang, Jinjie Gu | (参考訳) 大規模言語モデル(LLM)は、質問応答、翻訳、テキスト要約、対話システムなど、様々なタスクにおいて大きな進歩を遂げているため、情報処理の正確性の必要性は、特にAlipayのような数十億のユーザーを対象とする深刻な金融製品にとって重要である。
これを解決するために、Alipayは、最も正確かつ最新の情報に基づいてLSMを基盤とする検索・拡張生成システム(RAG)を開発した。
しかし, 数百万人のユーザを対象とする実世界の製品では, LLMの推論速度は, 単なる実験モデルと比較して重要な要因となる。
そこで,本論文では,推論処理を高速化する汎用フレームワークを提案し,RAGシステムの高速化とコスト削減を実現し,生成精度を損なうことなく実現した。
従来の推論プロセスでは、各トークンはLCMによって順次生成され、生成されたトークンの数に比例する時間消費につながる。
このプロセスを強化するために、我々のフレームワークは \textit{lookahead} と呼ばれ、 \textit{multi-branch} 戦略を導入しました。
一つのトークンを一度に生成する代わりに、複数のブランチを同時に生成できる \textit{Trie-based Retrieval} (TR) プロセスを提案し、それぞれがトークンのシーケンスである。
その後、各ブランチに対して \textit{Verification and Accept} (VA) プロセスを実行し、最も長い正しいサブシーケンスを最終出力として識別する。
提案手法は,(1) 出力の絶対正当性を保証する,(2) 近似アルゴリズムの回避,(2) アプローチの最悪の性能は従来のプロセスと同等である,という2つの異なる利点を提供する。
我々は、推論加速フレームワークの適用によって達成された重要な改善を実証するために、広範な実験を行う。
コードは無効である。 https://github.com/alipay/PainlessInferenceAcceleration。 As Large Language Models (LLMs) have made significant advancements across various tasks, such as question answering, translation, text summarization, and dialogue systems, the need for accuracy in information becomes crucial, especially for serious financial products serving billions of users like Alipay. To address this, Alipay has developed a Retrieval-Augmented Generation (RAG) system that grounds LLMs on the most accurate and up-to-date information. However, for a real-world product serving millions of users, the inference speed of LLMs becomes a critical factor compared to a mere experimental model. Hence, this paper presents a generic framework for accelerating the inference process, resulting in a substantial increase in speed and cost reduction for our RAG system, with lossless generation accuracy. In the traditional inference process, each token is generated sequentially by the LLM, leading to a time consumption proportional to the number of generated tokens. To enhance this process, our framework, named \textit{lookahead}, introduces a \textit{multi-branch} strategy. Instead of generating a single token at a time, we propose a \textit{Trie-based Retrieval} (TR) process that enables the generation of multiple branches simultaneously, each of which is a sequence of tokens. Subsequently, for each branch, a \textit{Verification and Accept} (VA) process is performed to identify the longest correct sub-sequence as the final output. Our strategy offers two distinct advantages: (1) it guarantees absolute correctness of the output, avoiding any approximation algorithms, and (2) the worst-case performance of our approach is equivalent to the conventional process. We conduct extensive experiments to demonstrate the significant improvements achieved by applying our inference acceleration framework. Code is avaliable: https://github.com/alipay/PainlessInferenceAcceleration. | 翻訳日:2024-01-05 16:57:35 公開日:2024-01-04 |
# 連続学習:ビデオ表現のための「忘れない勝利」サブネットワーク Continual Learning: Forget-free Winning Subnetworks for Video Representations ( http://arxiv.org/abs/2312.11973v2 ) ライセンス: Link先を確認 | Haeyong Kang, Jaehong Yoon, Sung Ju Hwang, and Chang D. Yoo | (参考訳) 大規模で密集したネットワーク内で効率的なサブネットワークが存在することを強調する宝くじチケット仮説(lth)に触発され、様々な連続学習タスクにおいて、適切なスパーシティ条件下でのタスクパフォーマンスの観点から高いパフォーマンスの勝利サブネットワーク(wsn)が考慮される。
タスクインクリメンタルラーニング(TIL)のシナリオにおいて、既存のネットワークからの重みを利用して効率的な学習を実現する。
FSCIL(Few-Shot Class Incremental Learning)では、データサンプル不足時の過度な適合を防止するために、SoftNet(SoftNet)と呼ばれるWSNのバリエーションが設計されている。
さらに,ビデオインクリメンタルラーニング(VIL)では,WSN重みの疎再利用が検討されている。
WSNにおけるフーリエサブニューラル演算子(FSO)の使用について考察する。
ビデオのコンパクトエンコーディングを可能にし、様々な帯域で再利用可能なサブネットを識別する。
我々は、VIL、TIL、FSCILを含む継続学習のための異なるアーキテクチャフレームワークにFSOを統合した。
FSOの有効性を総合的に検証し,様々な畳み込み表現レベルでのタスク性能を著しく向上させた。
具体的には、FSOはTILおよびFSCILの高層性能とVILの低層性能を向上させる Inspired by the Lottery Ticket Hypothesis (LTH), which highlights the existence of efficient subnetworks within larger, dense networks, a high-performing Winning Subnetwork (WSN) in terms of task performance under appropriate sparsity conditions is considered for various continual learning tasks. It leverages pre-existing weights from dense networks to achieve efficient learning in Task Incremental Learning (TIL) scenarios. In Few-Shot Class Incremental Learning (FSCIL), a variation of WSN referred to as the Soft subnetwork (SoftNet) is designed to prevent overfitting when the data samples are scarce. Furthermore, the sparse reuse of WSN weights is considered for Video Incremental Learning (VIL). The use of Fourier Subneural Operator (FSO) within WSN is considered. It enables compact encoding of videos and identifies reusable subnetworks across varying bandwidths. We have integrated FSO into different architectural frameworks for continual learning, including VIL, TIL, and FSCIL. Our comprehensive experiments demonstrate FSO's effectiveness, significantly improving task performance at various convolutional representational levels. Specifically, FSO enhances higher-layer performance in TIL and FSCIL and lower-layer performance in VIL | 翻訳日:2024-01-05 16:57:00 公開日:2024-01-04 |
# 現実的自律課題における言語モデルエージェントの評価 Evaluating Language-Model Agents on Realistic Autonomous Tasks ( http://arxiv.org/abs/2312.11671v2 ) ライセンス: Link先を確認 | Megan Kinniment, Lucas Jun Koba Sato, Haoxing Du, Brian Goodrich, Max Hasin, Lawrence Chan, Luke Harold Miles, Tao R. Lin, Hjalmar Wijk, Joel Burget, Aaron Ho, Elizabeth Barnes and Paul Christiano | (参考訳) 本報告では,言語モデルエージェントがリソースを取得し,自己のコピーを作成し,野生で遭遇する新たな課題に適応する能力について検討する。
この機能のクラスタを "自己複製と適応" あるいは ARA と呼んでいる。
セキュリティ,監視,アライメントに関して,ARAを計測し,予測することは,セキュリティ,監視,アライメントに関する指標を示す上で有用である,と我々は考えている。
さらに、システムがARAを使えるようになると、システムの能力にバウンダリを置くことがかなり難しくなります。
我々は、言語モデルと、世界で行動を起こすためのツールを組み合わせた、単純な4つのサンプルエージェントを構築します。
次に、これらのエージェントをARAに関連する12のタスクで評価する。
これらの言語モデルエージェントは、このリストから最も簡単なタスクしか完了できないが、より困難なタスクについては前進している。
残念ながら、これらの評価は、近未来のエージェントがARAを実現できる可能性を排除するには不十分である。
特に、これらの評価が言語モデルの‘next generation’’(例えば、既存のモデルにおける100倍の効率的な計算スケールアップ)が、事前訓練中に中間評価を行わない限り、ARAが可能なエージェントを得られないことを保証できるとは考えていない。
関連して、既存のモデルの微調整がARAを直接対象としていない場合でも、より有能なエージェントを生み出すことが期待されている。 In this report, we explore the ability of language model agents to acquire resources, create copies of themselves, and adapt to novel challenges they encounter in the wild. We refer to this cluster of capabilities as "autonomous replication and adaptation" or ARA. We believe that systems capable of ARA could have wide-reaching and hard-to-anticipate consequences, and that measuring and forecasting ARA may be useful for informing measures around security, monitoring, and alignment. Additionally, once a system is capable of ARA, placing bounds on a system's capabilities may become significantly more difficult. We construct four simple example agents that combine language models with tools that allow them to take actions in the world. We then evaluate these agents on 12 tasks relevant to ARA. We find that these language model agents can only complete the easiest tasks from this list, although they make some progress on the more challenging tasks. Unfortunately, these evaluations are not adequate to rule out the possibility that near-future agents will be capable of ARA. In particular, we do not think that these evaluations provide good assurance that the ``next generation'' of language models (e.g. 100x effective compute scaleup on existing models) will not yield agents capable of ARA, unless intermediate evaluations are performed during pretraining. Relatedly, we expect that fine-tuning of the existing models could produce substantially more competent agents, even if the fine-tuning is not directly targeted at ARA. | 翻訳日:2024-01-05 16:56:39 公開日:2024-01-04 |
# 解釈可能なオーディオタギングのための知覚音楽的特徴 Perceptual Musical Features for Interpretable Audio Tagging ( http://arxiv.org/abs/2312.11234v2 ) ライセンス: Link先を確認 | Vassilis Lyberatos, Spyridon Kantarelis, Edmund Dervakos and Giorgos Stamou | (参考訳) 音楽ストリーミングプラットフォームの時代において、音楽オーディオを自動的にタグ付けするタスクは大きな注目を集め、研究者は標準データセットのパフォーマンス指標を向上する手法を考案した。
最近のアプローチのほとんどがディープニューラルネットワークに依存しており、そのパフォーマンスは素晴らしいが、不透明性があり、入力に対する出力の解明が困難である。
解釈の問題は医学など他の分野でも強調されているが、音楽関連の課題には注目されていない。
本研究では,音楽の自動タグ付けにおける解釈可能性の関連について検討した。
3つの異なる情報抽出技術を組み込んだワークフローを構築した。
a) 象徴的知識の活用
ロ 補助深部神経回路網の利用、及び
c) 音声ファイルから知覚的特徴を抽出するために信号処理を利用する。
これらの特徴はその後、タグ予測のための解釈可能な機械学習モデルをトレーニングするために使用された。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
提案手法は,両タスクにおけるベースラインモデルの性能を上回っており,その場合,現状との競合性を示した。
性能劣化が解釈可能性の値によって上回っているユースケースが存在すると結論付けている。 In the age of music streaming platforms, the task of automatically tagging music audio has garnered significant attention, driving researchers to devise methods aimed at enhancing performance metrics on standard datasets. Most recent approaches rely on deep neural networks, which, despite their impressive performance, possess opacity, making it challenging to elucidate their output for a given input. While the issue of interpretability has been emphasized in other fields like medicine, it has not received attention in music-related tasks. In this study, we explored the relevance of interpretability in the context of automatic music tagging. We constructed a workflow that incorporates three different information extraction techniques: a) leveraging symbolic knowledge, b) utilizing auxiliary deep neural networks, and c) employing signal processing to extract perceptual features from audio files. These features were subsequently used to train an interpretable machine-learning model for tag prediction. We conducted experiments on two datasets, namely the MTG-Jamendo dataset and the GTZAN dataset. Our method surpassed the performance of baseline models in both tasks and, in certain instances, demonstrated competitiveness with the current state-of-the-art. We conclude that there are use cases where the deterioration in performance is outweighed by the value of interpretability. | 翻訳日:2024-01-05 16:56:14 公開日:2024-01-04 |
# 大規模言語モデルのためのインストラクションデータプロスペクタとしてのショット学習 One Shot Learning as Instruction Data Prospector for Large Language Models ( http://arxiv.org/abs/2312.10302v3 ) ライセンス: Link先を確認 | Yunshui Li, Binyuan Hui, Xiaobo Xia, Jiaxi Yang, Min Yang, Lei Zhang, Shuzheng Si, Junhao Liu, Tongliang Liu, Fei Huang, Yongbin Li | (参考訳) 大規模言語モデル(LLM)を人間に適応させることは、幅広い言語タスクで事前訓練された能力を効果的に活用するための重要なステップである。
現在の命令チューニングのプラクティスは、データ品質を保証する明確な戦略を持たずにデータセットのサイズを拡大することに依存していることが多い。
この課題に対処するために,1ショット学習を用いて拡張型データセットから高品質な命令データを選択する,新しい効率的な手法であるnuggetsを紹介する。
Nuggetsは、個別のインストラクション例が効果的な1ショットの例として機能する可能性を評価し、多様なタスクパフォーマンスを著しく向上できるものを特定する。
nuggetsは、様々なアンカーセットのパープレキシティに対する候補例の影響に基づくスコアリングシステムを利用し、命令チューニングにおいて最も有益なデータの選択を容易にする。
MT-Bench と Alpaca-Eval を含む2つのベンチマークの厳密なテストを通じて,Nuggets が生成した例の上位1% の命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていることを示す。
これらの知見は、LLMと人間を協調するより効率的な経路を提供する、品質を優先するデータ選択パラダイムを提唱している。 Aligning large language models(LLMs) with human is a critical step in effectively utilizing their pre-trained capabilities across a wide array of language tasks. Current instruction tuning practices often rely on expanding dataset size without a clear strategy for ensuring data quality, which can inadvertently introduce noise and degrade model performance. To address this challenge, we introduce Nuggets, a novel and efficient methodology that employs one shot learning to select high-quality instruction data from expansive datasets. Nuggets assesses the potential of individual instruction examples to act as effective one shot examples, thereby identifying those that can significantly enhance diverse task performance. Nuggets utilizes a scoring system based on the impact of candidate examples on the perplexity of a diverse anchor set, facilitating the selection of the most beneficial data for instruction tuning. Through rigorous testing on two benchmarks, including MT-Bench and Alpaca-Eval, we demonstrate that instruction tuning with the top 1% of Nuggets-curated examples substantially outperforms conventional methods that use the full dataset. These findings advocate for a data selection paradigm that prioritizes quality, offering a more efficient pathway to align LLMs with humans. | 翻訳日:2024-01-05 16:55:59 公開日:2024-01-04 |
# GNN学習評価の不確実性:GNNコミュニティ検出におけるランダム性の定量化方法の比較 Uncertainty in GNN Learning Evaluations: A Comparison Between Measures for Quantifying Randomness in GNN Community Detection ( http://arxiv.org/abs/2312.09015v2 ) ライセンス: Link先を確認 | William Leeney and Ryan McConville | (参考訳) 1) クラスタノードの教師なしコミュニティ検出におけるグラフニューラルネットワーク(GNN)の強化能力は,グラフの接続性と特徴情報空間の両方を符号化する能力に起因している。
潜在コミュニティの同定は、社会ネットワークからゲノム学まで、様々な分野において実用的な意味を持っている。
現在の実世界のパフォーマンスベンチマークは、このタスクに対するGNN評価に影響を与える多くの決定により、混乱している。
2) ランダム性の有無でアルゴリズムランキングの整合性を評価するために3つの指標を比較した。
デフォルトのハイパーパラメータとのハイパーパラメータ最適化による結果の一貫性とパフォーマンスの質を評価した。
3)ハイパーパラメータの最適化とデフォルトのハイパーパラメータを比較し,ハイパーパラメータの調査を無視した場合の大幅な性能低下が確認された。
メトリクスの比較は、ランクの結びつきがランダムネスの定量化を著しく変更できることを示している。
(4)同一評価基準の遵守を確保することは、このタスクのメソッドの報告性能に顕著な違いをもたらす可能性がある。
w$ のランダム性係数は、wasserstein距離に基づいており、最もロバストなランダム性評価を提供すると見なされている。 (1) The enhanced capability of Graph Neural Networks (GNNs) in unsupervised community detection of clustered nodes is attributed to their capacity to encode both the connectivity and feature information spaces of graphs. The identification of latent communities holds practical significance in various domains, from social networks to genomics. Current real-world performance benchmarks are perplexing due to the multitude of decisions influencing GNN evaluations for this task. (2) Three metrics are compared to assess the consistency of algorithm rankings in the presence of randomness. The consistency and quality of performance between the results under a hyperparameter optimisation with the default hyperparameters is evaluated. (3) The results compare hyperparameter optimisation with default hyperparameters, revealing a significant performance loss when neglecting hyperparameter investigation. A comparison of metrics indicates that ties in ranks can substantially alter the quantification of randomness. (4) Ensuring adherence to the same evaluation criteria may result in notable differences in the reported performance of methods for this task. The $W$ Randomness coefficient, based on the Wasserstein distance, is identified as providing the most robust assessment of randomness. | 翻訳日:2024-01-05 16:55:36 公開日:2024-01-04 |
# VSFormer: 対応処理のためのVisual-Spatial Fusion Transformer VSFormer: Visual-Spatial Fusion Transformer for Correspondence Pruning ( http://arxiv.org/abs/2312.08774v3 ) ライセンス: Link先を確認 | Tangfei Liao, Xiaoqin Zhang, Li Zhao, Tao Wang, Guobao Xiao | (参考訳) 対応プルーニングは、多くのアプリケーションで基本的なタスクである最初の対応セットから正しい一致(インリアー)を見つけることを目的としている。
視覚的差異が大きいため、シーン/イメージペア間の不整合比が異なるため、発見のプロセスは困難である。
しかし、既存の手法の性能は通常、シーンの視覚的な手がかり(例えばテクスチャ、照明、構造)の欠如によって制限される。
本稿では,不整点を識別し,カメラのポーズを正確に復元するVisual-Spatial Fusion Transformer (VSFormer)を提案する。
まず,二視点画像の局所的特徴の相互に注意を向け,高度に抽象的なシーンの視覚手がかりを得る。
次に,これらの視覚手がかりと対応を視覚空間融合モジュールでモデル化し,同時に視覚手がかりをプルーニング用対応に組み込む。
さらに、対応の整合性を検討するために、KNNグラフと変換器を組み合わせた新しいモジュールを設計し、ローカルおよびグローバル両方のコンテキストを効果的にキャプチャする。
広範な実験により、vsformerは屋外および屋内ベンチマークにおいて最先端の手法よりも優れていることが示されている。
私たちのコードは以下のリポジトリで提供されています。 Correspondence pruning aims to find correct matches (inliers) from an initial set of putative correspondences, which is a fundamental task for many applications. The process of finding is challenging, given the varying inlier ratios between scenes/image pairs due to significant visual differences. However, the performance of the existing methods is usually limited by the problem of lacking visual cues (\eg texture, illumination, structure) of scenes. In this paper, we propose a Visual-Spatial Fusion Transformer (VSFormer) to identify inliers and recover camera poses accurately. Firstly, we obtain highly abstract visual cues of a scene with the cross attention between local features of two-view images. Then, we model these visual cues and correspondences by a joint visual-spatial fusion module, simultaneously embedding visual cues into correspondences for pruning. Additionally, to mine the consistency of correspondences, we also design a novel module that combines the KNN-based graph and the transformer, effectively capturing both local and global contexts. Extensive experiments have demonstrated that the proposed VSFormer outperforms state-of-the-art methods on outdoor and indoor benchmarks. Our code is provided at the following repository: https://github.com/sugar-fly/VSFormer. | 翻訳日:2024-01-05 16:55:17 公開日:2024-01-04 |
# CLASS-M: 組織像分類のための擬似ラベルを用いた適応的染色分離に基づくコントラスト学習 CLASS-M: Adaptive stain separation-based contrastive learning with pseudo-labeling for histopathological image classification ( http://arxiv.org/abs/2312.06978v3 ) ライセンス: Link先を確認 | Bodong Zhang, Hamid Manoochehri, Man Minh Ho, Fahimeh Fooladgar, Yosep Chong, Beatrice S. Knudsen, Deepika Sirohi, Tolga Tasdizen | (参考訳) 病理組織像分類は画像解析において重要な課題である。
最近のアプローチでは,症例レベルラベルの取得が容易なため,一般的には弱い教師付き学習に頼っている。
しかし、少数のケースしか利用できないアプリケーションや、局所的な予測精度が重要なアプリケーションではパッチレベルの分類が望ましい。
一方で、トレーニング用にローカライズされたラベルで広範なデータセットを取得することは不可能である。
本稿では,広範囲なラベル付きデータセットを必要としない半教師付きパッチレベルの組織像分類モデルCLASS-Mを提案する。
CLASS-Mは、適応的な染色分離プロセスによって生成されたヘマトキシリンとエオシンの分離された画像を使用するコントラスト学習モジュールと、MixUpを用いた擬似ラベル付きモジュールの2つの主要部分から構成される。
2つの明確な細胞腎細胞癌データセットの他の最先端モデルと比較した。
我々はCLASS-Mモデルが両方のデータセット上で最高の性能を持つことを示す。
私たちのコードはgithub.com/BzhangURU/Paper_CLASS-M/tree/mainで利用可能です。 Histopathological image classification is an important task in medical image analysis. Recent approaches generally rely on weakly supervised learning due to the ease of acquiring case-level labels from pathology reports. However, patch-level classification is preferable in applications where only a limited number of cases are available or when local prediction accuracy is critical. On the other hand, acquiring extensive datasets with localized labels for training is not feasible. In this paper, we propose a semi-supervised patch-level histopathological image classification model, named CLASS-M, that does not require extensively labeled datasets. CLASS-M is formed by two main parts: a contrastive learning module that uses separated Hematoxylin and Eosin images generated through an adaptive stain separation process, and a module with pseudo-labels using MixUp. We compare our model with other state-of-the-art models on two clear cell renal cell carcinoma datasets. We demonstrate that our CLASS-M model has the best performance on both datasets. Our code is available at github.com/BzhangURU/Paper_CLASS-M/tree/main | 翻訳日:2024-01-05 16:54:55 公開日:2024-01-04 |
# UpFusion: 未観測のスパースビューからの新しいビュー拡散 UpFusion: Novel View Diffusion from Unposed Sparse View Observations ( http://arxiv.org/abs/2312.06661v2 ) ライセンス: Link先を確認 | Bharath Raj Nagoor Kani, Hsin-Ying Lee, Sergey Tulyakov, Shubham Tulsiani | (参考訳) 本稿では,参照画像のスパースセットが与えられたオブジェクトに対して,対応するポーズ情報なしで新しいビュー合成と3次元表現を推論できるUpFusionを提案する。
現在のスパースビュー3D推論法は、通常、入力ビューからの情報を幾何学的に集約するためにカメラのポーズに依存するが、そのような情報が利用できない/不正確な場合には、その内部で堅牢ではない。
対照的にupfusionは、新しいビューを合成するための条件付き生成モデルにおいて、利用可能なイメージをコンテキストとして暗黙的に活用することで、この要件を回避している。
入力ビューを利用した拡散モデルにコンディショニングの相補的な形式を2つ取り入れる。
a) シーンレベルのトランスフォーマを使用してクエリビューアラインメント機能を推論することにより
b) 入力画像トークンを直接観察できる中間の注意層を介して。
この機構により高精細な新奇なビューを生成できると同時に、付加的な(想定外の)画像の合成品質を向上させることができる。
我々は、Co3Dv2およびGoogle Scanned Objectsデータセットに対するアプローチを評価し、追加のビューを活用できない単一ビューメソッドと同様に、ポーズ-リライアントなスパースビューメソッドよりも、メソッドの利点を実証する。
最後に,学習モデルがトレーニングカテゴリを超えた一般化が可能であり,さらに汎用オブジェクトの自己取得画像からの再構成も可能となることを示した。 We propose UpFusion, a system that can perform novel view synthesis and infer 3D representations for an object given a sparse set of reference images without corresponding pose information. Current sparse-view 3D inference methods typically rely on camera poses to geometrically aggregate information from input views, but are not robust in-the-wild when such information is unavailable/inaccurate. In contrast, UpFusion sidesteps this requirement by learning to implicitly leverage the available images as context in a conditional generative model for synthesizing novel views. We incorporate two complementary forms of conditioning into diffusion models for leveraging the input views: a) via inferring query-view aligned features using a scene-level transformer, b) via intermediate attentional layers that can directly observe the input image tokens. We show that this mechanism allows generating high-fidelity novel views while improving the synthesis quality given additional (unposed) images. We evaluate our approach on the Co3Dv2 and Google Scanned Objects datasets and demonstrate the benefits of our method over pose-reliant sparse-view methods as well as single-view methods that cannot leverage additional views. Finally, we also show that our learned model can generalize beyond the training categories and even allow reconstruction from self-captured images of generic objects in-the-wild. | 翻訳日:2024-01-05 16:54:37 公開日:2024-01-04 |
# ustancebr: スタンス予測のためのマルチモーダル言語資源 UstanceBR: a multimodal language resource for stance prediction ( http://arxiv.org/abs/2312.06374v2 ) ライセンス: Link先を確認 | Camila Pereira, Matheus Pavan, Sungwon Yoon, Ricelli Ramos, Pablo Costa, Lais Cavalheiro, Ivandre Paraboni | (参考訳) この研究は、ターゲットベースの姿勢予測のためのブラジルのTwitterドメインのマルチモーダルコーパスであるUstanceBRを紹介する。
コーパスは、選択された対象トピックに対する86.8kのラベル付きスタンスと、これらのスタンスをソーシャルメディアで公開したユーザに関する広範なネットワーク情報とからなる。
本稿では、コーパスのマルチモーダルデータと、テキストおよびネットワーク関連情報に基づくドメイン内およびゼロショット両方のスタンス予測における多くの使用例について述べる。 This work introduces UstanceBR, a multimodal corpus in the Brazilian Portuguese Twitter domain for target-based stance prediction. The corpus comprises 86.8 k labelled stances towards selected target topics, and extensive network information about the users who published these stances on social media. In this article we describe the corpus multimodal data, and a number of usage examples in both in-domain and zero-shot stance prediction based on text- and network-related information, which are intended to provide initial baseline results for future studies in the field. | 翻訳日:2024-01-05 16:54:13 公開日:2024-01-04 |
# インストラクタ:大規模視覚言語モデルに対する命令調整型ターゲットアタック InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models ( http://arxiv.org/abs/2312.01886v2 ) ライセンス: Link先を確認 | Xunguang Wang, Zhenlan Ji, Pingchuan Ma, Zongjie Li, Shuai Wang | (参考訳) 大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
しかし、このリッチな視覚相互作用により、LVLMは敵の例に弱い。
本稿では,そのプロンプト(しばしばサービスプロバイダにプロプライエタリであり,一般には公開されていない)とその基盤となる大規模言語モデル(llm)を知らずに,敵が被害者のlvlmの視覚エンコーダにのみアクセス可能な,新規かつ実用的なグレイボックス攻撃シナリオを定式化する。
この実践的な設定は、攻撃者が選択したターゲットテキストにセマンティックに類似した応答を出力するためにLVLMを混乱させることを目的とした、攻撃対象の敵攻撃のクロスプロンプトおよびクロスモデル転送可能性に課題をもたらす。
そこで本研究では,LVLMに対して高転送性で目標対向攻撃を行うための命令調整型目標攻撃(InstructTA)を提案する。
当初、ターゲット画像にターゲット応答を"反転"するために、パブリックテキスト・画像生成モデルを使用し、GPT-4を用いて、ターゲット応答から適切な命令 $\boldsymbol{p}^\prime$ を推論する。
次に,同一の視覚エンコーダを被害者のLVLMと共有する局所代理モデルを構築し,対向画像例と対象画像の特徴を抽出し,両特徴間の距離を最小化し,対向画像例を最適化する。
転送性をさらに向上するために、 LLM からパラメタした命令で $\boldsymbol{p}^\prime$ を加算する。
大規模実験により,攻撃性能と伝達性において提案手法の優位性を実証した。 Large vision-language models (LVLMs) have demonstrated their incredible capability in image understanding and response generation. However, this rich visual interaction also makes LVLMs vulnerable to adversarial examples. In this paper, we formulate a novel and practical gray-box attack scenario that the adversary can only access the visual encoder of the victim LVLM, without the knowledge of its prompts (which are often proprietary for service providers and not publicly available) and its underlying large language model (LLM). This practical setting poses challenges to the cross-prompt and cross-model transferability of targeted adversarial attack, which aims to confuse the LVLM to output a response that is semantically similar to the attacker's chosen target text. To this end, we propose an instruction-tuned targeted attack (dubbed InstructTA) to deliver the targeted adversarial attack on LVLMs with high transferability. Initially, we utilize a public text-to-image generative model to "reverse" the target response into a target image, and employ GPT-4 to infer a reasonable instruction $\boldsymbol{p}^\prime$ from the target response. We then form a local surrogate model (sharing the same visual encoder with the victim LVLM) to extract instruction-aware features of an adversarial image example and the target image, and minimize the distance between these two features to optimize the adversarial example. To further improve the transferability, we augment the instruction $\boldsymbol{p}^\prime$ with instructions paraphrased from an LLM. Extensive experiments demonstrate the superiority of our proposed method in targeted attack performance and transferability. | 翻訳日:2024-01-05 16:54:03 公開日:2024-01-04 |
# ベイジアンネットワークのエントロピーとKulback-Leibler分散:計算複雑性と効率的な実装 Entropy and the Kullback-Leibler Divergence for Bayesian Networks: Computational Complexity and Efficient Implementation ( http://arxiv.org/abs/2312.01520v2 ) ライセンス: Link先を確認 | Marco Scutari | (参考訳) ベイズネットワーク(BN)は、機械学習と因果推論の基礎モデルである。
それらのグラフィカルな構造は、高次元の問題に対処し、それらを小さな問題に分割し、ジュデア・パールの因果性を理解し、それらの説明可能性と解釈可能性を決定する。
その人気にもかかわらず、シャノンのエントロピーの計算方法や、BNのKL(Kulback-Leibler)の発散を最も一般的な分布仮定で計算する方法に関する文献にはほとんど資源がない。
本稿では,bnsのグラフィカルな構造を活かし,計算効率の良いアルゴリズムを両立し,それらの数値例の完全な集合を提示する。
この過程において,KL の計算複雑性をガウスBN の立方体から二次体に還元できることを示す。 Bayesian networks (BNs) are a foundational model in machine learning and causal inference. Their graphical structure can handle high-dimensional problems, divide them into a sparse collection of smaller ones, underlies Judea Pearl's causality, and determines their explainability and interpretability. Despite their popularity, there are almost no resources in the literature on how to compute Shannon's entropy and the Kullback-Leibler (KL) divergence for BNs under their most common distributional assumptions. In this paper, we provide computationally efficient algorithms for both by leveraging BNs' graphical structure, and we illustrate them with a complete set of numerical examples. In the process, we show it is possible to reduce the computational complexity of KL from cubic to quadratic for Gaussian BNs. | 翻訳日:2024-01-05 16:53:27 公開日:2024-01-04 |
# スクワット量子非マルコフ性:状態における真の量子非マルコフ性の測定 Squashed quantum non-Markovianity: a measure of genuine quantum non-Markovianity in states ( http://arxiv.org/abs/2311.18323v2 ) ライセンス: Link先を確認 | Rajeev Gangwar, Tanmoy Pandit, Kaumudibikash Goswami, Siddhartha Das, Manabendra Nath Bera | (参考訳) 三成分量子状態における量子非マルコフ性 $\rho_{abc}$ は、系で条件づけられた場合の系 $a$ と $c$ の間の相関を表し、古典的および量子的寄与を持つことが知られている。
しかし、後者の体系的な特徴は欠落している。
そこで,本研究では,真の量子起源の非マルコフ性に対して,squashed quantum non-markovianity (sqnm) という忠実な尺度を提案する。
これは量子条件の相互情報に基づいており、すべての非量子貢献を除いた後、左上非マルコフ性によって定義される。
縮小状態における非条件系間の密接な絡み合いにより下界となり、一方の非条件系の拡張性によって制限される。
sQNMは単ガム性,漸近的連続性,凸性,テンソル積状態への添加性,および一般に超添加性を示す。
我々は、sQNMを消滅させた自由状態とsQNMを増加しない自由操作を同定した後、凸資源理論を介して真の量子非マルコビアン性を資源として特徴づける。
特に、bob(b$)からalice(a$)、charlie(c$)への量子通信コストは、州におけるsqnmの変化によって境界が低くなっていることが分かりました。
特に、条件付きワンタイムパッドプロトコルの変種におけるプライベート通信の最適率は、sQNMの2倍である。
また、量子デコンストラクションプロトコルの変種に対する最小デコンストラクションコストは、状態の2倍のsqnmで与えられる。 Quantum non-Markovianity in tripartite quantum states $\rho_{ABC}$ represents a correlation between systems $A$ and $C$ when conditioned on the system $B$ and is known to have both classical and quantum contributions. However, a systematic characterization of the latter is missing. To address this, we propose a faithful measure for non-Markovianity of genuine quantum origin called squashed quantum non-Markovianity (sQNM). It is based on the quantum conditional mutual information and is defined by the left-over non-Markovianity after squashing out all non-quantum contributions. It is lower bounded by the squashed entanglement between non-conditioning systems in the reduced state and is delimited by the extendibility of either of the non-conditioning systems. We show that the sQNM is monogamous, asymptotically continuous, convex, additive on tensor-product states, and generally super-additive. We characterize genuine quantum non-Markovianity as a resource via a convex resource theory after identifying free states with vanishing sQNM and free operations that do not increase sQNM in states. We use our resource-theoretic framework to bound the rate of state transformations under free operations and to study state transformation under non-free operations; in particular, we find the quantum communication cost from Bob ($B$) to Alice ($A$) or Charlie ($C$) is lower bounded by the change in sQNM in the states. The sQNM finds operational meaning; in particular, the optimal rate of private communication in a variant of conditional one-time pad protocol is twice the sQNM. Also, the minimum deconstruction cost for a variant of quantum deconstruction protocol is given by twice the sQNM of the state. | 翻訳日:2024-01-05 16:53:11 公開日:2024-01-04 |
# 単一および積分多スペクトル空中画像の融合 Fusion of Single and Integral Multispectral Aerial Images ( http://arxiv.org/abs/2311.17515v2 ) ライセンス: Link先を確認 | Mohamed Youssef, Oliver Bimber | (参考訳) 従来の空中画像から得られた最も重要な特徴を,合成開口センシングによる咬合除去の結果である統合空中画像と融合した,新しいハイブリッド(モデルベースおよび学習ベース)アーキテクチャを提案する。
環境の空間的参照と、通常、密集した植生によって隠される、目立たない標的の特徴を組み合わせる。
本手法は, 相互情報, 視覚情報忠実度, ピーク信号対雑音比などの共通指標において, 最先端の2チャンネル融合と多チャンネル融合のアプローチを視覚的, 定量的に上回る。
提案モデルは、手動で調整したパラメータを必要とせず、任意の数とスペクトルチャネルの組み合わせに拡張することができ、異なるユースケースに対応するために再構成可能である。 A novel hybrid (model- and learning-based) architecture is presented for fusing the most significant features from conventional aerial images with the ones from integral aerial images that are the result of synthetic aperture sensing for removing occlusion. It combines the environment's spatial references with features of unoccluded targets that would normally be hidden by dense vegetation. Our method out-beats state-of-the-art two-channel and multi-channel fusion approaches visually and quantitatively in common metrics, such as mutual information, visual information fidelity, and peak signal-to-noise ratio. The proposed model does not require manually tuned parameters, can be extended to an arbitrary number and combinations of spectral channels, and is reconfigurable for addressing different use cases. | 翻訳日:2024-01-05 16:52:39 公開日:2024-01-04 |
# 離散時間オープン量子ダイナミクスにおける転移性の理論 Theory of Metastability in Discrete-Time Open Quantum Dynamics ( http://arxiv.org/abs/2401.00157v2 ) ライセンス: Link先を確認 | Yuan-De Jin and Chu-Dan Qiu and Wen-Long Ma | (参考訳) 開系力学における準安定性は、漸近安定状態に崩壊する前に長寿命の準安定状態への初期緩和現象を記述する。
古典系および量子系の連続時間確率力学において予測されている。
ここでは、離散時間開量子力学における準安定性の一般的な理論について述べる。
我々は,ターゲットシステムと純粋に強調される結合を持つアンシラシステムによって誘導される,ターゲットシステム上の量子チャネルの一般クラスに着目し,ラムゼーシーケンスの下で行う。
平均力学を確率軌道に分解することにより、興味深い準安定挙動を予測し、数値的に示す。
例や応用についても論じる。 Metastability in open system dynamics describes the phenomena of initial relaxation to longlived metastable states before decaying to the asymptotic stable states. It has been predicted in continuous-time stochastic dynamics of both classical and quantum systems. Here we present a general theory of metastability in discrete-time open quantum dynamics, described by sequential quantum channels. We focus on a general class of quantum channels on a target system, induced by an ancilla system with a pure-dephasing coupling to the target system and under Ramsey sequences. Interesting metastable behaviors are predicted and numerically demonstrated by decomposing the average dynamics into stochastic trajectories. Examples and applications are also discussed. | 翻訳日:2024-01-05 16:45:10 公開日:2024-01-04 |
# 2成分2-ユニタリ行列の連続族:量子畳み込みゲートのパラダイム Continuous families of bipartite 2-unitary matrices: a Paradigm for quantum convolution gates ( http://arxiv.org/abs/2312.17719v2 ) ライセンス: Link先を確認 | Rafa{\l} Bistro\'n, Jakub Czartowski and Karol \.Zyczkowski | (参考訳) 量子コンピューティングが発展するにつれて、複数の文脈で制御可能な方法で量子ゲートの絡み合いと切り離しを実装するという問題が再燃する。
量子畳み込みニューラルネットワーク(quantum convolutional neural networks)は、エンタングル状態においてエンコードされた情報を失うことなく、qudit数の体系的な減少を基本概念としている。
本研究では、畳み込みネットワークのための畳み込みとプールベーシックな構造ブロックの量子アナログに着目し、置換テンソルのコヒーレンスとしてパラメトリズ可能な ``quantum convolution''チャネルを構築し、特徴付ける。
この方法で構築された操作は、一般に高い(異なる)エンタングリングパワーを提供する。
特に,本手法を用いて構築した畳み込みチャネルに必要な条件を極大絡み合い力を持つために同定する。
これに基づいて、2部行列の次元$d^2$ for $d = 7$ および $d = 9$ の新しい連続クラスを2ドルおよび4ドル自由非局所パラメータで確立し、階数 4$ または 4$-partite の完全テンソルに対応する。
新たに確立されたファミリーは、量子畳み込みニューラルネットワークにおけるトレーニング可能な畳み込み/プーリング層のプロトタイプとして機能する。 As quantum computing develops, the problem of implementing entangling and disentangling quantum gates in a controllable manner reemerges in multiple contexts. One of the newest applications of such disentangling channels are quantum convolutional neural networks, where the core idea lies in the systematic decrease of qudit numbers without loss of information encoded in entangled states. In this work, we focus on quantum analogues of convolution and pooling - basic building block for convolutional networks - and construct and characterize parametrizable ``quantum convolution'' channels as coherifications of permutation tensors. Operations constructed in this manner generically provide high (dis)entangling power. In particular, we identify conditions necessary for the convolution channels constructed using our method to possess maximal entangling power. Based on this, we establish new, continuous classes of bipartite 2-unitary matrices of dimension $d^2$ for $d = 7$ and $d = 9$, with $2$ and $4$ free nonlocal parameters, corresponding to perfect tensors of rank $4$ or $4$-partite absolutely maximally entangled states. The newly established families may serve as the prototype for trainable convolution/pooling layers in quantum convolutional neural networks. | 翻訳日:2024-01-05 16:44:41 公開日:2024-01-04 |
# HEAP:Contrastive Groupingによる教師なしオブジェクト発見とローカライゼーション HEAP: Unsupervised Object Discovery and Localization with Contrastive Grouping ( http://arxiv.org/abs/2312.17492v2 ) ライセンス: Link先を確認 | Xin Zhang, Jinheng Xie, Yuan Yuan, Michael Bi Mi, Robby T. Tan | (参考訳) 教師なしオブジェクト発見とローカライゼーション(unsupervised object discovery and localization)は、監視なしで画像内のオブジェクトを検出または分割することを目的としている。
近年の取り組みは、自己監督型トランスフォーマー機能を利用して、有能な前景物体を識別する顕著な可能性を実証している。
しかし、そのスコープはイメージ内のパッチレベルの機能のみの上に構築され、領域/イメージレベルとクロスイメージの関係をより広いスケールで無視する。
さらに、これらの方法は複数のインスタンスと様々なセマンティクスを区別できない。
これらの問題に対処するため,Herarchical mErging framework via contrAstive grouPing (HEAP)を提案する。
具体的には,自己教師付き特徴間の相関に基づいて画像内パッチを意味的にコヒーレントな領域に適応的にグループ化するクロスアテンション機構を備えた新しい軽量ヘッドを提案する。
さらに,各領域間の識別性を確保するため,画像にまたがる類似領域を絞り込むために,領域レベルのコントラストクラスタリング損失を導入する。
また、フォアグラウンドと背景表現を分離するために画像レベルのコントラスト損失が存在し、それによってフォアグラウンドオブジェクトと背景が発見される。
HEAPは効率的な階層的な画像分解を容易にし、より正確なオブジェクト発見に寄与すると同時に、様々なクラスのオブジェクトの区別を可能にする。
セマンティックセグメンテーション検索、教師なしオブジェクト発見、およびサリエンシ検出タスクに関する大規模な実験結果は、HEAPが最先端のパフォーマンスを達成することを示す。 Unsupervised object discovery and localization aims to detect or segment objects in an image without any supervision. Recent efforts have demonstrated a notable potential to identify salient foreground objects by utilizing self-supervised transformer features. However, their scopes only build upon patch-level features within an image, neglecting region/image-level and cross-image relationships at a broader scale. Moreover, these methods cannot differentiate various semantics from multiple instances. To address these problems, we introduce Hierarchical mErging framework via contrAstive grouPing (HEAP). Specifically, a novel lightweight head with cross-attention mechanism is designed to adaptively group intra-image patches into semantically coherent regions based on correlation among self-supervised features. Further, to ensure the distinguishability among various regions, we introduce a region-level contrastive clustering loss to pull closer similar regions across images. Also, an image-level contrastive loss is present to push foreground and background representations apart, with which foreground objects and background are accordingly discovered. HEAP facilitates efficient hierarchical image decomposition, which contributes to more accurate object discovery while also enabling differentiation among objects of various classes. Extensive experimental results on semantic segmentation retrieval, unsupervised object discovery, and saliency detection tasks demonstrate that HEAP achieves state-of-the-art performance. | 翻訳日:2024-01-05 16:44:18 公開日:2024-01-04 |
# 大規模言語モデルによるビデオ理解:調査 Video Understanding with Large Language Models: A Survey ( http://arxiv.org/abs/2312.17432v2 ) ライセンス: Link先を確認 | Yunlong Tang, Jing Bi, Siting Xu, Luchuan Song, Susan Liang, Teng Wang, Daoan Zhang, Jie An, Jingyang Lin, Rongyi Zhu, Ali Vosoughi, Chao Huang, Zeliang Zhang, Feng Zheng, Jianguo Zhang, Ping Luo, Jiebo Luo, Chenliang Xu | (参考訳) オンラインビデオプラットフォームの急成長とビデオコンテンツの増大に伴い、熟練したビデオ理解ツールの需要が著しく高まっている。
言語およびマルチモーダルタスクにおけるLLM(Large Language Models)の顕著な機能を考えると、この調査はLLM(Vid-LLMs)のパワーを利用した映像理解の最近の進歩の概要を提供する。
Vid-LLMの創発的能力は驚くほど進歩しており、特に空間的空間的推論と常識的知識が組み合わさり、将来的なビデオ理解の道のりを示唆している。
我々は、vid-llmsのユニークな特徴と能力を調べ、そのアプローチをllmベースのビデオエージェント、vid-llmsプリトレーニング、vid-llms命令チューニング、ハイブリッド手法の4つのタイプに分類した。
さらに,Vid-LLMのタスク,データセット,評価手法を包括的に検討した。
さらに、さまざまなドメインにまたがるVid-LLMの広範な応用を探求し、実際のビデオ理解の課題において、その顕著なスケーラビリティと汎用性を強調している。
最後に、既存のVid-LLMの限界を要約し、今後の研究の方向性を概説する。
詳細については、https://github.com/yunlong10/Awesome-LLMs-for-Video-Understandingのリポジトリを参照してほしい。 With the burgeoning growth of online video platforms and the escalating volume of video content, the demand for proficient video understanding tools has intensified markedly. Given the remarkable capabilities of Large Language Models (LLMs) in language and multimodal tasks, this survey provides a detailed overview of the recent advancements in video understanding harnessing the power of LLMs (Vid-LLMs). The emergent capabilities of Vid-LLMs are surprisingly advanced, particularly their ability for open-ended spatial-temporal reasoning combined with commonsense knowledge, suggesting a promising path for future video understanding. We examine the unique characteristics and capabilities of Vid-LLMs, categorizing the approaches into four main types: LLM-based Video Agents, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, and Hybrid Methods. Furthermore, this survey presents a comprehensive study of the tasks, datasets, and evaluation methodologies for Vid-LLMs. Additionally, it explores the expansive applications of Vid-LLMs across various domains, highlighting their remarkable scalability and versatility in real-world video understanding challenges. Finally, it summarizes the limitations of existing Vid-LLMs and outlines directions for future research. For more information, readers are recommended to visit the repository at https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding. | 翻訳日:2024-01-05 16:43:53 公開日:2024-01-04 |
# 医療時間帯の知識向上型条件計算 Knowledge Enhanced Conditional Imputation for Healthcare Time-series ( http://arxiv.org/abs/2312.16713v2 ) ライセンス: Link先を確認 | Linglong Qian, Zina Ibrahim, Hugh Logan Ellis, Ao Zhang, Yuezhou Zhang, Tao Wang, Richard Dobson | (参考訳) 本研究では,医療データの複雑さに着目した多変量時系列における欠落データの問題に対処する新しいアプローチを提案する。
コンディショナル・セルフアテンション・インダクション(CSAI)モデルでは,医療時系列データの複雑化に合わせて,条件付き隠れ状態初期化を導入する。
この手法は、医療データセットでしばしば見過ごされる重要な側面であるデータ分散の不均衡を特にターゲットとして、従来のインプテーション技術から逸脱している。
高度な知識の埋め込みと一様でないマスキング戦略を統合することで、CSAIは電子健康記録(EHRs)の欠落したデータのパターンに順応的に適応する。 This study presents a novel approach to addressing the challenge of missing data in multivariate time series, with a particular focus on the complexities of healthcare data. Our Conditional Self-Attention Imputation (CSAI) model, grounded in a transformer-based framework, introduces a conditional hidden state initialization tailored to the intricacies of medical time series data. This methodology diverges from traditional imputation techniques by specifically targeting the imbalance in missing data distribution, a crucial aspect often overlooked in healthcare datasets. By integrating advanced knowledge embedding and a non-uniform masking strategy, CSAI adeptly adjusts to the distinct patterns of missing data in Electronic Health Records (EHRs). | 翻訳日:2024-01-05 16:43:28 公開日:2024-01-04 |
# 高忠実拡散に基づく画像編集 High-Fidelity Diffusion-based Image Editing ( http://arxiv.org/abs/2312.15707v3 ) ライセンス: Link先を確認 | Chen Hou, Guoqiang Wei, Zhibo Chen | (参考訳) 拡散モデルは画像生成と編集の分野で顕著な成功を収めている。
拡散モデルにおけるインバージョンとデノナイジングのステップを大きくすることで、画像再構成の品質が向上することが広く認識されている。
しかし,拡散モデルの編集性能は,デノナイジングステップが増加しても満足できない傾向にある。
編集の不足は、編集過程の条件付きマルコフ的性質に起因する可能性がある。
この課題に取り組むため,まず整流器モジュールを組み込んで拡散モデル重みを残差で変調し,忠実度ギャップを橋渡しするための補償情報を提供する革新的な枠組みを提案する。
さらに,編集過程における誤り伝播を最小限に抑えることを目的とした新しい学習パラダイムを提案する。
提案するフレームワークとトレーニング戦略は,様々な段階の認知段階における高忠実度再構築と編集を達成し,定量的評価と定性評価の両面において優れた性能を示した。
さらに,画像から画像への変換や領域外画像編集などの応用を通して,モデルの一般化について検討する。 Diffusion models have attained remarkable success in the domains of image generation and editing. It is widely recognized that employing larger inversion and denoising steps in diffusion model leads to improved image reconstruction quality. However, the editing performance of diffusion models tends to be no more satisfactory even with increasing denoising steps. The deficiency in editing could be attributed to the conditional Markovian property of the editing process, where errors accumulate throughout denoising steps. To tackle this challenge, we first propose an innovative framework where a rectifier module is incorporated to modulate diffusion model weights with residual features, thereby providing compensatory information to bridge the fidelity gap. Furthermore, we introduce a novel learning paradigm aimed at minimizing error propagation during the editing process, which trains the editing procedure in a manner similar to denoising score-matching. Extensive experiments demonstrate that our proposed framework and training strategy achieve high-fidelity reconstruction and editing results across various levels of denoising steps, meanwhile exhibits exceptional performance in terms of both quantitative metric and qualitative assessments. Moreover, we explore our model's generalization through several applications like image-to-image translation and out-of-domain image editing. | 翻訳日:2024-01-05 16:43:12 公開日:2024-01-04 |
# 治療ペプチド生成のための多モードコントラスト拡散モデル A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation ( http://arxiv.org/abs/2312.15665v2 ) ライセンス: Link先を確認 | Yongkang Wang, Xuan Liu, Feng Huang, Zhankun Xiong, Wen Zhang | (参考訳) 治療ペプチドは、ヒトの疾患の治療に必須の薬品の特異なクラスである。
近年, 深層生成モデルでは治療ペプチドの生成に顕著な可能性が示されているが, 配列情報や構造情報のみを利用するため, 発生時の性能を阻害している。
本研究では、新しいペプチド配列と構造を共生成するために、拡散フレームワークにおける配列と構造の両方のモダリティを融合したマルチモーダルコントラスト拡散モデル(mmcd)を提案する。
具体的には、mmcdはシーケンス・モーダル拡散モデルと構造・モーダル拡散モデルをそれぞれ構築し、各拡散時間ステップで相互接続性と内包性を持つマルチモーダルコントラスト学習戦略を考案し、2つのモーダル間の一貫性を捉え、モデル性能を向上させることを目的としている。
コントラスト内はペプチドの配列と構造を最大化し、コントラスト内は治療用ペプチドと非治療用ペプチドを区別し、配列/構造埋め込みの相違を最大化する。
幅広い実験により、MMCDは、抗微生物/抗がん剤スコア、多様性、ペプチドドッキングなど、さまざまな指標で治療ペプチドの生成において、他の最先端の深層生成法よりも優れた性能を示すことが示された。 Therapeutic peptides represent a unique class of pharmaceutical agents crucial for the treatment of human diseases. Recently, deep generative models have exhibited remarkable potential for generating therapeutic peptides, but they only utilize sequence or structure information alone, which hinders the performance in generation. In this study, we propose a Multi-Modal Contrastive Diffusion model (MMCD), fusing both sequence and structure modalities in a diffusion framework to co-generate novel peptide sequences and structures. Specifically, MMCD constructs the sequence-modal and structure-modal diffusion models, respectively, and devises a multi-modal contrastive learning strategy with intercontrastive and intra-contrastive in each diffusion timestep, aiming to capture the consistency between two modalities and boost model performance. The inter-contrastive aligns sequences and structures of peptides by maximizing the agreement of their embeddings, while the intra-contrastive differentiates therapeutic and non-therapeutic peptides by maximizing the disagreement of their sequence/structure embeddings simultaneously. The extensive experiments demonstrate that MMCD performs better than other state-of-theart deep generative methods in generating therapeutic peptides across various metrics, including antimicrobial/anticancer score, diversity, and peptide-docking. | 翻訳日:2024-01-05 16:42:51 公開日:2024-01-04 |
# フェイクニュース検出のための敵対的データ毒殺: モデルがターゲットニュースを変更せずに誤分類する方法 Adversarial Data Poisoning for Fake News Detection: How to Make a Model Misclassify a Target News without Modifying It ( http://arxiv.org/abs/2312.15228v2 ) ライセンス: Link先を確認 | Federico Siciliano, Luca Maiano, Lorenzo Papa, Federica Baccini, Irene Amerini, Fabrizio Silvestri | (参考訳) 偽ニュース検出モデルは偽情報に対抗するために重要であるが、敵の攻撃によって操作できる。
本稿では,攻撃者が本来のターゲットニュースを操作することなく,特定のニュースコンテンツに対してオンライン学習検出器の性能を損なうことができるかを分析する。
ソーシャルネットワークのように、攻撃者が全ての情報を完全に制御できない状況では、このシナリオは確かに極めて妥当である。
そこで本研究では,攻撃者がオンライン学習手法の動作を操作するためのトレーニングデータに有毒データを導入する方法を示す。
最初の知見から,ロジスティック回帰モデルの複雑性と攻撃タイプによる感受性が異なっていた。 Fake news detection models are critical to countering disinformation but can be manipulated through adversarial attacks. In this position paper, we analyze how an attacker can compromise the performance of an online learning detector on specific news content without being able to manipulate the original target news. In some contexts, such as social networks, where the attacker cannot exert complete control over all the information, this scenario can indeed be quite plausible. Therefore, we show how an attacker could potentially introduce poisoning data into the training data to manipulate the behavior of an online learning method. Our initial findings reveal varying susceptibility of logistic regression models based on complexity and attack type. | 翻訳日:2024-01-05 16:42:26 公開日:2024-01-04 |
# 動的線形弾性のモデリングのための物理インフォームドニューラルネットワーク Physics-informed neural network for modeling dynamic linear elasticity ( http://arxiv.org/abs/2312.15175v2 ) ライセンス: Link先を確認 | Vijay Kag and Venkatesh Gopinath | (参考訳) 本研究では,特に固体力学における動的問題に適用された物理情報ニューラルネットワーク(PINN)モデルを提案する。
私たちは前方と逆の問題に焦点を合わせます。
特に,動的環境下での物質識別にPINNモデルを効果的に利用する方法を示す。
本研究では, 線形連続弾性を仮定する。
2次元(2次元)平面ひずみ問題に対する結果を示し、3次元(3次元)問題に対して同様の手法を適用する。
トレーニングデータについては、有限要素法に基づく解を用いる。
PINNモデルは,特に材料識別問題に対する代理モデルとして,正確で堅牢で,計算効率が高いことを示す。
また, PINNのバニラ実装の改良である, PINN文献の最先端技術も採用している。
この結果から,我々が開発したフレームワークは,固体力学における複数の動的問題を解くための計算プラットフォームに容易に適応できると信じている。 In this work, we present the physics-informed neural network (PINN) model applied particularly to dynamic problems in solid mechanics. We focus on forward and inverse problems. Particularly, we show how a PINN model can be used efficiently for material identification in a dynamic setting. In this work, we assume linear continuum elasticity. We show results for two-dimensional (2D) plane strain problem and then we proceed to apply the same techniques for a three-dimensional (3D) problem. As for the training data we use the solution based on the finite element method. We rigorously show that PINN models are accurate, robust and computationally efficient, especially as a surrogate model for material identification problems. Also, we employ state-of-the-art techniques from the PINN literature which are an improvement to the vanilla implementation of PINN. Based on our results, we believe that the framework we have developed can be readily adapted to computational platforms for solving multiple dynamic problems in solid mechanics. | 翻訳日:2024-01-05 16:42:16 公開日:2024-01-04 |
# 連続時間における集合列の確率的モデリング Probabilistic Modeling for Sequences of Sets in Continuous-Time ( http://arxiv.org/abs/2312.15045v2 ) ライセンス: Link先を確認 | Yuxin Chang, Alex Boyd, Padhraic Smyth | (参考訳) ニューラルマーク付き時間的ポイントプロセスは、連続時間イベントデータのための統計パラメトリックモデルの既存のツールボックスに価値ある追加である。
これらのモデルは、各イベントが1つのアイテム(単一のイベントタイプまたは"マーク")に関連付けられるシーケンスに役立ちますが、これらのモデルは、各イベントが一連のアイテムに関連付けられる実用的な状況には適していません。
本研究では,インテンシティに基づくリカレントニューラルポイントプロセスモデルと互換性のある,連続時間にセット値データをモデリングするための汎用フレームワークを開発した。
さらに,このようなモデルを用いて,シーケンス履歴を条件とした「アイテム $b$ 前に観測されるアイテム $a$ の確率」のような確率的クエリに答える推論手法を開発した。
このようなクエリの正確な答えの計算は、問題設定の連続時間の性質と、各イベントの潜在的な結果の組合せ的に大きな空間の両方によって、神経モデルでは一般的には役に立たない。
そこで,本研究では,実世界の4つのデータセットを用いた体系的な実験を通して,直接サンプリングよりも桁違いに効率が向上することを示す。
また、このフレームワークを用いて1段階の予測を伴わない確率を用いてモデル選択を行う方法について説明する。 Neural marked temporal point processes have been a valuable addition to the existing toolbox of statistical parametric models for continuous-time event data. These models are useful for sequences where each event is associated with a single item (a single type of event or a "mark") -- but such models are not suited for the practical situation where each event is associated with a set of items. In this work, we develop a general framework for modeling set-valued data in continuous-time, compatible with any intensity-based recurrent neural point process model. In addition, we develop inference methods that can use such models to answer probabilistic queries such as "the probability of item $A$ being observed before item $B$," conditioned on sequence history. Computing exact answers for such queries is generally intractable for neural models due to both the continuous-time nature of the problem setting and the combinatorially-large space of potential outcomes for each event. To address this, we develop a class of importance sampling methods for querying with set-based sequences and demonstrate orders-of-magnitude improvements in efficiency over direct sampling via systematic experiments with four real-world datasets. We also illustrate how to use this framework to perform model selection using likelihoods that do not involve one-step-ahead prediction. | 翻訳日:2024-01-05 16:42:03 公開日:2024-01-04 |
# 等分散に基づく幻覚の理論 Theory of Hallucinations based on Equivariance ( http://arxiv.org/abs/2312.14504v2 ) ライセンス: Link先を確認 | Hisaichi Shibata | (参考訳) 本研究の目的は,幻覚に免疫を持つ非常に大きな言語モデルを作成するための知識を得ることである。
現代の大きな言語モデルにおける幻覚は、しばしば現実世界の社会関係の誤解に起因する。
したがって、これらすべての関係を徹底的に把握できる非常に大きな言語モデルは幻覚から解放されると仮定します。
さらに,これらの関係を学習し理解する上で,ある種の同変言語モデルを提案する。
これに基づいて,言語モデルに対する幻覚尺度を作成するための,特殊なクロスエントロピー誤差関数を開発した。
このスケールを利用して、キャラクタレベルの等価性を得るために言語モデルをテストしました。
特に,T5(Text To Text Transfer Transformer)に基づく新しい手法を導入して採用する。これは,トークンID(整数)をテキスト(文字列)に変換するための明示的な辞書を必要とせずに,置換された入力テキストを効率的に理解する手法である。
このT5モデルは、文字レベルの等式を取得する適度な能力を示した。
さらに、文字レベルで幻覚のない言語モデルを開発するのに役立つスケール法則も発見しました。
この手法は、単語レベルでの等価な獲得を評価するために拡張され、関係を包括的に理解し、幻覚を避けることができる非常に大きな言語モデルへの道を開くことができる。 This study aims to acquire knowledge for creating very large language models that are immune to hallucinations. Hallucinations in contemporary large language models are often attributed to a misunderstanding of real-world social relationships. Therefore, I hypothesize that very large language models capable of thoroughly grasping all these relationships will be free from hallucinations. Additionally, I propose that certain types of equivariant language models are adept at learning and understanding these relationships. Building on this, I have developed a specialized cross-entropy error function to create a hallucination scale for language models, which measures their extent of equivariance acquisition. Utilizing this scale, I tested language models for their ability to acquire character-level equivariance. In particular, I introduce and employ a novel technique based on T5 (Text To Text Transfer Transformer) that efficiently understands permuted input texts without the need for explicit dictionaries to convert token IDs (integers) to texts (strings). This T5 model demonstrated a moderate ability to acquire character-level equivariance. Additionally, I discovered scale laws that can aid in developing hallucination-free language models at the character level. This methodology can be extended to assess equivariance acquisition at the word level, paving the way for very large language models that can comprehensively understand relationships and, consequently, avoid hallucinations. | 翻訳日:2024-01-05 16:41:40 公開日:2024-01-04 |
# t-eval: ツールの利用能力の段階別評価 T-Eval: Evaluating the Tool Utilization Capability Step by Step ( http://arxiv.org/abs/2312.14033v2 ) ライセンス: Link先を確認 | Zehui Chen, Weihua Du, Wenwei Zhang, Kuikun Liu, Jiangning Liu, Miao Zheng, Jingming Zhuo, Songyang Zhang, Dahua Lin, Kai Chen, Feng Zhao | (参考訳) 大規模言語モデル(llm)は様々なnlpタスクで顕著なパフォーマンスを達成し、幅広いアプリケーションのためのツールによって拡張されている。
しかし、LLMのツール活用能力の評価と分析はまだ未検討である。
モデルを全体的評価する従来の作業とは対照的に,ツール利用を命令追従,計画,推論,検索,理解,レビューなど,複数のサブプロセスに包括的に分解する。
そこで本研究では,t-eval を用いてツールの利用率を段階的に評価する。
T-Evalは、ツール利用の評価をモデル機能に沿っていくつかのサブドメインに切り離し、LLMの全体性と分離された能力の両方を内部的に理解するのに役立つ。
各種LLMのT-Evalおよび深部解析について広範な実験を行った。
T-Evalは、結果指向評価と整合性を示すだけでなく、LLMの機能のよりきめ細かな分析も提供する。
ベンチマークはhttps://github.com/open-compass/T-Eval.comで公開される。 Large language models (LLM) have achieved remarkable performance on various NLP tasks and are augmented by tools for broader applications. Yet, how to evaluate and analyze the tool-utilization capability of LLMs is still under-explored. In contrast to previous works that evaluate models holistically, we comprehensively decompose the tool utilization into multiple sub-processes, including instruction following, planning, reasoning, retrieval, understanding, and review. Based on that, we further introduce T-Eval to evaluate the tool utilization capability step by step. T-Eval disentangles the tool utilization evaluation into several sub-domains along model capabilities, facilitating the inner understanding of both holistic and isolated competency of LLMs. We conduct extensive experiments on T-Eval and in-depth analysis of various LLMs. T-Eval not only exhibits consistency with the outcome-oriented evaluation but also provides a more fine-grained analysis of the capabilities of LLMs, providing a new perspective in LLM evaluation on tool-utilization ability. The benchmark will be available at https://github.com/open-compass/T-Eval. | 翻訳日:2024-01-05 16:41:18 公開日:2024-01-04 |
# サルエント特徴に基づく水中音響信号認識 Underwater Acoustic Signal Recognition Based on Salient Feature ( http://arxiv.org/abs/2312.13143v2 ) ライセンス: Link先を確認 | Minghao Chen | (参考訳) 技術の急速な進歩により、複雑な環境における水中音響信号の認識がますます重要になっている。
現在、水中音響信号認識は主にスペクトルの特徴を抽出するために時間周波数分析に依存しており、現場で広く応用されている。
しかし、既存の認識手法はエキスパートシステムに大きく依存しており、制限された知識ベースや複雑な関係を扱う際の課題といった制限に直面している。
これらの制限は、ルールや推論エンジンに関連する複雑さとメンテナンスの困難に起因する。
複雑な関係を扱う際の深層学習の潜在的な利点を認識し,ニューラルネットワークを用いた水中音響信号認識手法を提案する。
提案手法は,水中音響信号分類のためのスペクトルから抽出された特徴の連続学習を含む。
ディープラーニングモデルは、データから抽象的な特徴を自動的に学習し、トレーニング中に重みを継続的に調整し、分類性能を向上させる。 With the rapid advancement of technology, the recognition of underwater acoustic signals in complex environments has become increasingly crucial. Currently, mainstream underwater acoustic signal recognition relies primarily on time-frequency analysis to extract spectral features, finding widespread applications in the field. However, existing recognition methods heavily depend on expert systems, facing limitations such as restricted knowledge bases and challenges in handling complex relationships. These limitations stem from the complexity and maintenance difficulties associated with rules or inference engines. Recognizing the potential advantages of deep learning in handling intricate relationships, this paper proposes a method utilizing neural networks for underwater acoustic signal recognition. The proposed approach involves continual learning of features extracted from spectra for the classification of underwater acoustic signals. Deep learning models can automatically learn abstract features from data and continually adjust weights during training to enhance classification performance. | 翻訳日:2024-01-05 16:40:59 公開日:2024-01-04 |
# autapsesを有する非線形スパイキング神経pニューロンによる多段階注目乳癌の分類 Multi-stages attention Breast cancer classification based on nonlinear spiking neural P neurons with autapses ( http://arxiv.org/abs/2312.12804v2 ) ライセンス: Link先を確認 | Bo Yang, Hong Peng, Xiaohui Luo, Jun Wang | (参考訳) 乳癌(英: breast cancer、bc)は、女性の悪性腫瘍の一種である。
早期診断と治療は患者の生存率を高めるのに不可欠である。
深層ネットワークのダウンサンプリングは情報の損失につながる可能性があるため、詳細情報とエッジ情報を補正し、畳み込みニューラルネットワークが病変領域を探索するためにより注意を払うために、アタプスを持つnsnpニューロンに基づく多段階注意構造を提案する。
まず,既存手法の単一スケールの注意獲得方法とは違って,畳み込みネットワークの各特徴マップ尺度に空間的注意獲得を設定し,注意誘導に関する融合グローバル情報を得る。
次に,アタプを用いたNSNPニューロンと呼ばれる新しいNSNP変異体を紹介する。
具体的には、NSNPシステムは、特徴エンコーダとしてモジュール化され、畳み込みニューラルネットワークから抽出された特徴と注意情報の融合を復号し、特徴マップの重要な特徴要素を保存する。
これにより、高次元の複雑な情報を徐々に低次元に変換しながら、貴重なデータの保持が保証される。
提案手法は,公開データセットのBreakHisを様々な倍率および分類タスクで評価する。
分類精度は96.32%であり、最先端の手法よりも優れている。
アブレーション研究も行われ、提案モデルの有効性を検証する。
ソースコードはXhuBobYoung/Breast-cancer-Classificationで入手できる。 Breast cancer(BC) is a prevalent type of malignant tumor in women. Early diagnosis and treatment are vital for enhancing the patients' survival rate. Downsampling in deep networks may lead to loss of information, so for compensating the detail and edge information and allowing convolutional neural networks to pay more attention to seek the lesion region, we propose a multi-stages attention architecture based on NSNP neurons with autapses. First, unlike the single-scale attention acquisition methods of existing methods, we set up spatial attention acquisition at each feature map scale of the convolutional network to obtain an fusion global information on attention guidance. Then we introduce a new type of NSNP variants called NSNP neurons with autapses. Specifically, NSNP systems are modularized as feature encoders, recoding the features extracted from convolutional neural network as well as the fusion of attention information and preserve the key characteristic elements in feature maps. This ensures the retention of valuable data while gradually transforming high-dimensional complicated info into low-dimensional ones. The proposed method is evaluated on the public dataset BreakHis at various magnifications and classification tasks. It achieves a classification accuracy of 96.32% at all magnification cases, outperforming state-of-the-art methods. Ablation studies are also performed, verifying the proposed model's efficacy. The source code is available at XhuBobYoung/Breast-cancer-Classification. | 翻訳日:2024-01-05 16:40:48 公開日:2024-01-04 |
# Spikformer V2: SNN TicketでImageNetの高精度クラブに参加 Spikformer V2: Join the High Accuracy Club on ImageNet with an SNN Ticket ( http://arxiv.org/abs/2401.02020v1 ) ライセンス: Link先を確認 | Zhaokun Zhou, Kaiwei Che, Wei Fang, Keyu Tian, Yuesheng Zhu, Shuicheng Yan, Yonghong Tian, Li Yuan | (参考訳) 生物学的に妥当なアーキテクチャで知られるスパイキングニューラルネットワーク(SNN)は、限られた性能の課題に直面している。
高性能変圧器の基礎であり、生物学的にインスパイアされた構造である自己付着機構は、既存のsnsには存在していない。
そこで本研究では,SNNの自己認識能力と生物学的特性の両面を活用する可能性を探り,SSA(Spike Self-Attention)とSpikformer(Spikformer)を提案する。
SSAメカニズムは、Softmaxの必要性を排除し、スパイクベースのQuery、Key、Valueを使ったスパースビジュアル機能をキャプチャする。
乗算のないこのスパース計算は、SSAを効率的かつ省エネにする。
さらに,スパイクフォーマーのアーキテクチャを向上させるために,補足的な畳み込み層を有するスパイキング畳み込みステム(scs)を開発する。
SCSで強化されたSpikformerはSpikformer V2と呼ばれる。
より大きく深いSpikformer V2をトレーニングするために、SNN内での自己監視学習(SSL)の先駆的な探索を紹介します。
具体的には、メインストリームの自己教師型トランスフォーマーにインスパイアされたマスクと再構築スタイルを備えたSpikformer V2を事前訓練し、ImageNetの画像分類でSpikformer V2を微調整する。
広範な実験により、spikformer v2は他のサーロゲートトレーニングやann2snn法よりも優れていることが示されている。
8層スパイクフォーマーV2は4つのタイムステップを使用して80.38%の精度を達成し、SSL後、172M16層スパイクフォーマーV2は1つのタイムステップで81.10%の精度に達する。
私たちの知る限りでは、SNNがImageNetで80%以上の精度を達成したのはこれが初めてです。
コードはspikformer v2で利用可能になる。 Spiking Neural Networks (SNNs), known for their biologically plausible architecture, face the challenge of limited performance. The self-attention mechanism, which is the cornerstone of the high-performance Transformer and also a biologically inspired structure, is absent in existing SNNs. To this end, we explore the potential of leveraging both self-attention capability and biological properties of SNNs, and propose a novel Spiking Self-Attention (SSA) and Spiking Transformer (Spikformer). The SSA mechanism eliminates the need for softmax and captures the sparse visual feature employing spike-based Query, Key, and Value. This sparse computation without multiplication makes SSA efficient and energy-saving. Further, we develop a Spiking Convolutional Stem (SCS) with supplementary convolutional layers to enhance the architecture of Spikformer. The Spikformer enhanced with the SCS is referred to as Spikformer V2. To train larger and deeper Spikformer V2, we introduce a pioneering exploration of Self-Supervised Learning (SSL) within the SNN. Specifically, we pre-train Spikformer V2 with masking and reconstruction style inspired by the mainstream self-supervised Transformer, and then finetune the Spikformer V2 on the image classification on ImageNet. Extensive experiments show that Spikformer V2 outperforms other previous surrogate training and ANN2SNN methods. An 8-layer Spikformer V2 achieves an accuracy of 80.38% using 4 time steps, and after SSL, a 172M 16-layer Spikformer V2 reaches an accuracy of 81.10% with just 1 time step. To the best of our knowledge, this is the first time that the SNN achieves 80+% accuracy on ImageNet. The code will be available at Spikformer V2. | 翻訳日:2024-01-05 16:23:30 公開日:2024-01-04 |
# text2mdt: 医学テキストから医学的決定木を抽出する Text2MDT: Extracting Medical Decision Trees from Medical Texts ( http://arxiv.org/abs/2401.02034v1 ) ライセンス: Link先を確認 | Wei Zhu and Wenfeng Li and Xing Tian and Pengfei Wang and Xiaoling Wang and Jin Chen and Yuanbin Wu and Yuan Ni and Guotong Xie | (参考訳) 医療決定木(MDT)としてモデル化できる医療決定プロセスの知識は,臨床意思決定支援システムの構築に不可欠である。
しかし、現在の MDT の構築方法は、時間と手間のかかるマニュアルアノテーションに大きく依存している。
本研究では,医療ガイドラインや教科書などの医療用テキストからMDTを自動的に抽出するタスクであるText2MDTを提案する。
我々はMDTの形式を標準化し、医学専門家の参加で中国語で注釈付きテキスト・トゥ・MDTデータセットを作成する。
Text2MDTタスクの2つの異なる方法について検討する。
(a) GPTスタイルの大規模言語モデル(LLM)命令チューニングのみに依存するエンドツーエンドのフレームワークで、すべてのノード情報とツリー構造を生成する。
b) Text2MDTタスクを3つのサブタスクに分解するパイプラインフレームワーク。
Text2MDTデータセットの実験では、次のように示されています。
(a) LLM(7Bパラメータ以上)をベースとしたエンドツーエンドの手法は,有望な結果を示し,パイプライン手法よりも優れていた。
b) チェーン・オブ・シークレット(COT) プロンプト法 \cite{Wei2022ChainOT} は Text2MDT テストセット上での微調整 LLM の性能を向上させることができる。
c) エンコーダに基づく事前学習モデルに基づく軽量パイプライン方式は,モデルの複雑さが2倍小さいllmと同等に動作する。
私たちのtext2mdtデータセットは、 \url{https://tianchi.aliyun.com/dataset/95414}でオープンソースであり、ソースコードは \url{https://github.com/michael-wzhu/text2dt}でオープンソースです。 Knowledge of the medical decision process, which can be modeled as medical decision trees (MDTs), is critical to build clinical decision support systems. However, the current MDT construction methods rely heavily on time-consuming and laborious manual annotation. In this work, we propose a novel task, Text2MDT, to explore the automatic extraction of MDTs from medical texts such as medical guidelines and textbooks. We normalize the form of the MDT and create an annotated Text-to-MDT dataset in Chinese with the participation of medical experts. We investigate two different methods for the Text2MDT tasks: (a) an end-to-end framework which only relies on a GPT style large language models (LLM) instruction tuning to generate all the node information and tree structures. (b) The pipeline framework which decomposes the Text2MDT task to three subtasks. Experiments on our Text2MDT dataset demonstrate that: (a) the end-to-end method basd on LLMs (7B parameters or larger) show promising results, and successfully outperform the pipeline methods. (b) The chain-of-thought (COT) prompting method \cite{Wei2022ChainOT} can improve the performance of the fine-tuned LLMs on the Text2MDT test set. (c) the lightweight pipelined method based on encoder-based pretrained models can perform comparably with LLMs with model complexity two magnititudes smaller. Our Text2MDT dataset is open-sourced at \url{https://tianchi.aliyun.com/dataset/95414}, and the source codes are open-sourced at \url{https://github.com/michael-wzhu/text2dt}. | 翻訳日:2024-01-05 16:10:08 公開日:2024-01-04 |
# 自動テスト生成 -- 体系的文献レビュー Automated Test Production -- Systematic Literature Review ( http://arxiv.org/abs/2401.02033v1 ) ライセンス: Link先を確認 | Jos\'e Marcos Gomes and Luis Alberto Vieira Dias | (参考訳) コンピュータプログラムの自動テスト生産(ATP)に関する主な貢献を特定し、この目的のために使用されるモデル、方法論、ツールの概要を提供するのは、このシステム文献レビュー(SLR)の目的である。
結果は、包括的な分析と洞察によって、その適用性を評価することができる。
以前に作成された体系的文献マッピング(SLM)は、このレビューの質的分析プロトコルの定義のための「調査質問」とパラメータの定式化に寄与した。 Identifying the main contributions related to the Automated Test Production (ATP) of Computer Programs and providing an overview about models, methodologies and tools used for this purpose is the aim of this Systematic Literature Review (SLR). The results will enable a comprehensive analysis and insight to evaluate their applicability. A previously produced Systematic Literature Mapping (SLM) contributed to the formulation of the ``Research Questions'' and parameters for the definition of the qualitative analysis protocol of this review. | 翻訳日:2024-01-05 16:09:39 公開日:2024-01-04 |
# DiffusionEdge: Crispエッジ検出のための拡散確率モデル DiffusionEdge: Diffusion Probabilistic Model for Crisp Edge Detection ( http://arxiv.org/abs/2401.02032v1 ) ライセンス: Link先を確認 | Yunfan Ye, Kai Xu, Yuhang Huang, Renjiao Yi, Zhiping Cai | (参考訳) エンコーダ・デコーダアーキテクチャによって制限され、学習ベースのエッジ検出器は通常、正確さと不快さの両方を満たすエッジマップを予測するのが困難である。
拡散確率モデル (dpm) の最近の成功により, ノイズ化過程が原画像サイズに直接適用されるため, 高精度かつ鮮明なエッジ検出に適していることがわかった。
そこで本稿では,DiffusionEdgeと呼ばれる汎用エッジ検出タスクに対する最初の拡散モデルを提案する。
最終性能を保ちながら高価な計算資源を避けるため,DPMを潜水空間に適用し,画素レベルの不確実性を認識した古典的クロスエントロピー損失を有効にし,蒸留方法で潜水空間のパラメータを直接最適化する。
また,復調処理を高速化するために疎結合アーキテクチャを採用し,特定の周波数の潜伏特性を調整するための適応フーリエフィルタを提案する。
すべての技術設計で、DiffusionEdgeは限られたリソースで安定的にトレーニングすることができ、より少ない拡張戦略で、鮮明で正確なエッジマップを予測できる。
4つのエッジ検出ベンチマークの大規模な実験は、ディフュージョンEdgeの正確さと不快さの両方において優位性を示している。
NYUDv2データセットでは、ODS、OIS(後処理なし)、ACをそれぞれ30.2%、28.1%、65.1%増やす。
コード:https://github.com/GuHuangAI/DiffusionEdge。 Limited by the encoder-decoder architecture, learning-based edge detectors usually have difficulty predicting edge maps that satisfy both correctness and crispness. With the recent success of the diffusion probabilistic model (DPM), we found it is especially suitable for accurate and crisp edge detection since the denoising process is directly applied to the original image size. Therefore, we propose the first diffusion model for the task of general edge detection, which we call DiffusionEdge. To avoid expensive computational resources while retaining the final performance, we apply DPM in the latent space and enable the classic cross-entropy loss which is uncertainty-aware in pixel level to directly optimize the parameters in latent space in a distillation manner. We also adopt a decoupled architecture to speed up the denoising process and propose a corresponding adaptive Fourier filter to adjust the latent features of specific frequencies. With all the technical designs, DiffusionEdge can be stably trained with limited resources, predicting crisp and accurate edge maps with much fewer augmentation strategies. Extensive experiments on four edge detection benchmarks demonstrate the superiority of DiffusionEdge both in correctness and crispness. On the NYUDv2 dataset, compared to the second best, we increase the ODS, OIS (without post-processing) and AC by 30.2%, 28.1% and 65.1%, respectively. Code: https://github.com/GuHuangAI/DiffusionEdge. | 翻訳日:2024-01-05 16:09:31 公開日:2024-01-04 |
# Spy-Watermark: バックドア攻撃の目障りな透かし Spy-Watermark: Robust Invisible Watermarking for Backdoor Attack ( http://arxiv.org/abs/2401.02031v1 ) ライセンス: Link先を確認 | Ruofei Wang, Renjie Wan, Zongyu Guo, Qing Guo, Rui Huang | (参考訳) backdoor attackは、不正なデータのパフォーマンスを維持しながら、バックドアインスタンスに面した被害者モデルを欺くことを目的としている。
現在の手法では手動のパターンや特別な摂動をトリガーとして使用するが、データ破損に対する堅牢性を見落とし、バックドア攻撃を実際に防御しやすいものにすることが多い。
この問題を解決するために,データ崩壊やバックドア防御に直面する場合にも有効であるSpy-Watermarkという新しいバックドア攻撃手法を提案する。
そこで,画像の潜在領域に埋め込まれた学習可能な透かしをトリガーとして導入する。
次に,画像復号時の崩壊に耐えうる透かしを探索し,複数のアンチコラプス操作と協調して,データ破損に対するトリガーのレジリエンスをさらに高めていく。
CIFAR10、GTSRB、ImageNetのデータセットで大規模な実験が行われ、堅牢性とステルスネスの観点から、Spy-Watermarkが10の最先端メソッドを超越していることが実証された。 Backdoor attack aims to deceive a victim model when facing backdoor instances while maintaining its performance on benign data. Current methods use manual patterns or special perturbations as triggers, while they often overlook the robustness against data corruption, making backdoor attacks easy to defend in practice. To address this issue, we propose a novel backdoor attack method named Spy-Watermark, which remains effective when facing data collapse and backdoor defense. Therein, we introduce a learnable watermark embedded in the latent domain of images, serving as the trigger. Then, we search for a watermark that can withstand collapse during image decoding, cooperating with several anti-collapse operations to further enhance the resilience of our trigger against data corruption. Extensive experiments are conducted on CIFAR10, GTSRB, and ImageNet datasets, demonstrating that Spy-Watermark overtakes ten state-of-the-art methods in terms of robustness and stealthiness. | 翻訳日:2024-01-05 16:09:06 公開日:2024-01-04 |
# 量子誤り訂正符号の近似最適性能 The Near-optimal Performance of Quantum Error Correction Codes ( http://arxiv.org/abs/2401.02022v1 ) ライセンス: Link先を確認 | Guo Zheng, Wenhao He, Gideon Lee, Liang Jiang | (参考訳) Knill-Laflamme (KL) 条件は完全量子誤り訂正符号を区別し、最先端の符号の発見に重要な役割を果たしている。
しかし、完全符号の族は非常に制限的なものであり、必ずしも最高のコードを含むとは限らない。
したがって、一般化された定量的な性能指標を開発することが望ましい。
このレターでは、任意の符号と雑音に対する簡潔で最適化のない計量である準最適チャネル忠実度を導出する。
このメトリックは、最適なコードパフォーマンスに狭い2面結合を提供し、kl条件によって要求されるのと全く同じ入力で評価することができる。
複数の量子ビット符号と発振器符号による準最適チャネル忠実度の数値的利点を示す。
従来の最適化手法と比較して、計算コストの削減により、何百もの平均励起を符号化する発振器など、これまでアクセスできない大きさのシステムをシミュレートすることができる。
さらに,熱力学符号とGottesman-Kitaev-Preskill (GKP)符号のほぼ最適性能を解析的に導出した。
特に、励起損失下でのGKP符号の性能は、そのエネルギーと単調に改善し、他の発振器符号とは異なる無限エネルギーでの漸近極限に収束する。 The Knill-Laflamme (KL) conditions distinguish perfect quantum error correction codes, and it has played a critical role in the discovery of state-of-the-art codes. However, the family of perfect codes is a very restrictive one and does not necessarily contain the best-performing codes. Therefore, it is desirable to develop a generalized and quantitative performance metric. In this Letter, we derive the near-optimal channel fidelity, a concise and optimization-free metric for arbitrary codes and noise. The metric provides a narrow two-sided bound to the optimal code performance, and it can be evaluated with exactly the same input required by the KL conditions. We demonstrate the numerical advantage of the near-optimal channel fidelity through multiple qubit code and oscillator code examples. Compared to conventional optimization-based approaches, the reduced computational cost enables us to simulate systems with previously inaccessible sizes, such as oscillators encoding hundreds of average excitations. Moreover, we analytically derive the near-optimal performance for the thermodynamic code and the Gottesman-Kitaev-Preskill (GKP) code. In particular, the GKP code's performance under excitation loss improves monotonically with its energy and converges to an asymptotic limit at infinite energy, which is distinct from other oscillator codes. | 翻訳日:2024-01-05 16:08:47 公開日:2024-01-04 |
# 関数から分布モデルへ:オフライン最適化へのPAC-生成的アプローチ From Function to Distribution Modeling: A PAC-Generative Approach to Offline Optimization ( http://arxiv.org/abs/2401.02019v1 ) ライセンス: Link先を確認 | Qiang Zhang, Ruida Zhou, Yang Shen and Tie Liu | (参考訳) This paper considers the problem of offline optimization, where the objective function is unknown except for a collection of ``offline" data examples. While recent years have seen a flurry of work on applying various machine learning techniques to the offline optimization problem, the majority of these work focused on learning a surrogate of the unknown objective function and then applying existing optimization algorithms. While the idea of modeling the unknown objective function is intuitive and appealing, from the learning point of view it also makes it very difficult to tune the objective of the learner according to the objective of optimization. Instead of learning and then optimizing the unknown objective function, in this paper we take on a less intuitive but more direct view that optimization can be thought of as a process of sampling from a generative model. To learn an effective generative model from the offline data examples, we consider the standard technique of ``re-weighting", and our main technical contribution is a probably approximately correct (PAC) lower bound on the natural optimization objective, which allows us to jointly learn a weight function and a score-based generative model.
提案手法のロバストな競合性能は,標準オフライン最適化ベンチマークを用いた実証実験によって実証された。 This paper considers the problem of offline optimization, where the objective function is unknown except for a collection of ``offline" data examples. While recent years have seen a flurry of work on applying various machine learning techniques to the offline optimization problem, the majority of these work focused on learning a surrogate of the unknown objective function and then applying existing optimization algorithms. While the idea of modeling the unknown objective function is intuitive and appealing, from the learning point of view it also makes it very difficult to tune the objective of the learner according to the objective of optimization. Instead of learning and then optimizing the unknown objective function, in this paper we take on a less intuitive but more direct view that optimization can be thought of as a process of sampling from a generative model. To learn an effective generative model from the offline data examples, we consider the standard technique of ``re-weighting", and our main technical contribution is a probably approximately correct (PAC) lower bound on the natural optimization objective, which allows us to jointly learn a weight function and a score-based generative model. The robustly competitive performance of the proposed approach is demonstrated via empirical studies using the standard offline optimization benchmarks. | 翻訳日:2024-01-05 16:08:25 公開日:2024-01-04 |
# 文脈予測による拡散に基づく画像合成の改善 Improving Diffusion-Based Image Synthesis with Context Prediction ( http://arxiv.org/abs/2401.02015v1 ) ライセンス: Link先を確認 | Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui | (参考訳) 拡散モデルは新しい生成モデルのクラスであり、前例のない品質と多様性を持つ画像生成を劇的に促進した。
既存の拡散モデルは、主に空間軸に沿って画素方向または特徴方向の制約を持つ破損した画像から入力画像を再構成しようとする。
しかし、これらの点に基づく再構成は、各予測された画素/特徴が近傍のコンテキストを完全に保存することができず、拡散に基づく画像合成を阻害する可能性がある。
自動監視信号の強力な源として、文脈は学習表現によく研究されてきた。
そこで我々は,コンテキスト予測による拡散に基づく画像合成を改善するためのconprediffを提案する。
学習段階における拡散分節ブロックの終了時にコンテキストデコーダを用いて,近傍コンテキスト(すなわちマルチストライド特徴/トケント/ピクセル)を予測するために,各点を明示的に補強し,推論用デコーダを削除する。
このようにして、各ポイントは、近隣のコンテキストとのセマンティックな接続を保ちながら、自己を再構築することができる。
ConPreDiffの新しいパラダイムは、サンプリング手順に余分なパラメータを導入することなく、任意の離散的かつ連続的な拡散バックボーンに一般化することができる。
非条件画像生成,テキスト対画像生成,画像インペインティングタスクに関する広範な実験を行った。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で新しいSOTAテキスト・画像生成結果を得る。 Diffusion models are a new class of generative models, and have dramatically promoted image generation with unprecedented quality and diversity. Existing diffusion models mainly try to reconstruct input image from a corrupted one with a pixel-wise or feature-wise constraint along spatial axes. However, such point-based reconstruction may fail to make each predicted pixel/feature fully preserve its neighborhood context, impairing diffusion-based image synthesis. As a powerful source of automatic supervisory signal, context has been well studied for learning representations. Inspired by this, we for the first time propose ConPreDiff to improve diffusion-based image synthesis with context prediction. We explicitly reinforce each point to predict its neighborhood context (i.e., multi-stride features/tokens/pixels) with a context decoder at the end of diffusion denoising blocks in training stage, and remove the decoder for inference. In this way, each point can better reconstruct itself by preserving its semantic connections with neighborhood context. This new paradigm of ConPreDiff can generalize to arbitrary discrete and continuous diffusion backbones without introducing extra parameters in sampling procedure. Extensive experiments are conducted on unconditional image generation, text-to-image generation and image inpainting tasks. Our ConPreDiff consistently outperforms previous methods and achieves a new SOTA text-to-image generation results on MS-COCO, with a zero-shot FID score of 6.21. | 翻訳日:2024-01-05 16:08:12 公開日:2024-01-04 |
# switchtab: 自動エンコーダは効果的な表学習者 SwitchTab: Switched Autoencoders Are Effective Tabular Learners ( http://arxiv.org/abs/2401.02013v1 ) ライセンス: Link先を確認 | Jing Wu, Suiyao Chen, Qi Zhao, Renat Sergazinov, Chen Li, Shengjie Liu, Chongchao Zhao, Tianpei Xie, Hanqing Guo, Cheng Ji, Daniel Cociorva, Hakan Brunzel | (参考訳) 自己教師付き表現学習法はコンピュータビジョンや自然言語処理において大きな成功を収めており、データサンプルは空間的あるいは意味的な依存関係を明確に示している。
しかし,これらの手法を表データに適用することは,データサンプル間の依存度が低いため困難である。
本稿では,この制限に対処するために,表データに潜む依存性をキャプチャするために設計された,新しい自己教師あり方式であるswitchtabを導入する。
switchtabは、非対称エンコーダ-デコーダフレームワークを利用して、データペア間の相互およびサルエントな特徴を分離し、より代表的な埋め込みを実現する。
これらの埋め込みは、より良い意思決定境界に寄与し、下流タスクの結果を改善する。
SwitchTabの有効性を検証するため、表データを含む様々な領域にわたる広範な実験を行った。
その結果、微調整によるエンドツーエンド予測タスクにおいて優れた性能を示した。
さらに,従来の分類手法(例えば,ロジスティック回帰,XGBoostなど)の性能を高めるために,事前学習したサルエント埋め込みをプラグアンドプレイ機能として利用できることを示す。
最後に、潜在空間における分離された相互特徴とサルエント特徴を可視化することで、説明可能な表現を作成するswitchtabの機能を強調する。 Self-supervised representation learning methods have achieved significant success in computer vision and natural language processing, where data samples exhibit explicit spatial or semantic dependencies. However, applying these methods to tabular data is challenging due to the less pronounced dependencies among data samples. In this paper, we address this limitation by introducing SwitchTab, a novel self-supervised method specifically designed to capture latent dependencies in tabular data. SwitchTab leverages an asymmetric encoder-decoder framework to decouple mutual and salient features among data pairs, resulting in more representative embeddings. These embeddings, in turn, contribute to better decision boundaries and lead to improved results in downstream tasks. To validate the effectiveness of SwitchTab, we conduct extensive experiments across various domains involving tabular data. The results showcase superior performance in end-to-end prediction tasks with fine-tuning. Moreover, we demonstrate that pre-trained salient embeddings can be utilized as plug-and-play features to enhance the performance of various traditional classification methods (e.g., Logistic Regression, XGBoost, etc.). Lastly, we highlight the capability of SwitchTab to create explainable representations through visualization of decoupled mutual and salient features in the latent space. | 翻訳日:2024-01-05 16:07:50 公開日:2024-01-04 |
# Fast & Fair: 機械学習におけるフェアネスのための効率的な2階ロバスト最適化 Fast & Fair: Efficient Second-Order Robust Optimization for Fairness in Machine Learning ( http://arxiv.org/abs/2401.02012v1 ) ライセンス: Link先を確認 | Allen Minch, Hung Anh Vu, Anne Marie Warren | (参考訳) このプロジェクトでは、より公平なディープニューラルネットワーク(dnn)を開発するための、敵対的なトレーニングテクニックを探求する。
DNNは人種や性別などのセンシティブな属性に関して偏見を継承する可能性があり、これは人生を変える結果をもたらす(例えば、容疑者を逮捕するのに使用される顔認識ソフトウェアにおける人口統計バイアス)。
そこで我々は,アフィン線形モデルを用いて,合成および実世界の複数のデータセットの公平性を向上できるロバストな最適化問題を提案する。
2次情報を活用することで、純粋に1次法よりも効率的に最適化問題の解を見つけることができる。 This project explores adversarial training techniques to develop fairer Deep Neural Networks (DNNs) to mitigate the inherent bias they are known to exhibit. DNNs are susceptible to inheriting bias with respect to sensitive attributes such as race and gender, which can lead to life-altering outcomes (e.g., demographic bias in facial recognition software used to arrest a suspect). We propose a robust optimization problem, which we demonstrate can improve fairness in several datasets, both synthetic and real-world, using an affine linear model. Leveraging second order information, we are able to find a solution to our optimization problem more efficiently than a purely first order method. | 翻訳日:2024-01-05 16:07:27 公開日:2024-01-04 |
# ランダムリンク障害下における分散マルチタスクオンライン凸最適化 Decentralized Multi-Task Online Convex Optimization Under Random Link Failures ( http://arxiv.org/abs/2401.02011v1 ) ライセンス: Link先を確認 | Wenjing Yan and Xuanyu Cao | (参考訳) 分散最適化手法は、しばしば隣人間の情報交換を伴う。
送信障害は、ネットワークの混雑、ハードウェア/ソフトウェアの問題、通信障害などによって起こりうる。
本稿では,分散マルチタスクオンライン凸最適化におけるランダムリンク障害問題について検討する。
制約付き最適化で広く使われているが、ランダムなパケットの落下のため、従来の鞍点アルゴリズムは直接適用できない。
この問題に対処するために、近隣住民の欠落した決定を最新の受信値に置き換えることにより、不均一な確率を持つランダムリンク障害に対する頑健な分散サドルポイントアルゴリズムを開発した。
そして,この代替から生じる累積偏差を任意に有界化することにより,各時間帯の最後に局所コスト関数の完全情報が各エージェントに明らかになるような全情報シナリオに対して,我々のアルゴリズムが $\mathcal{O}(\sqrt{T})$ regret および $\mathcal{O}(T^\frac{3}{4})$制約違反を達成できることを確認した。
これら2つの境界は、秩序ある意味では、完全な通信を持つアルゴリズムのパフォーマンス境界と一致する。
さらに,アルゴリズムと解析を2点の帯域フィードバックシナリオに拡張し,各エージェントに対して2つのランダムポイントにおける局所コスト関数の値のみを順次開示する。
フルインフォメーションケースと同じ順序のパフォーマンス境界が導出される。
最後に,提案アルゴリズムの有効性と数値シミュレーションによる解析結果について考察する。 Decentralized optimization methods often entail information exchange between neighbors. Transmission failures can happen due to network congestion, hardware/software issues, communication outage, and other factors. In this paper, we investigate the random link failure problem in decentralized multi-task online convex optimization, where agents have individual decisions that are coupled with each other via pairwise constraints. Although widely used in constrained optimization, conventional saddle-point algorithms are not directly applicable here because of random packet dropping. To address this issue, we develop a robust decentralized saddle-point algorithm against random link failures with heterogeneous probabilities by replacing the missing decisions of neighbors with their latest received values. Then, by judiciously bounding the accumulated deviation stemming from this replacement, we first establish that our algorithm achieves $\mathcal{O}(\sqrt{T})$ regret and $\mathcal{O}(T^\frac{3}{4})$ constraint violations for the full information scenario, where the complete information on the local cost function is revealed to each agent at the end of each time slot. These two bounds match, in order sense, the performance bounds of algorithms with perfect communications. Further, we extend our algorithm and analysis to the two-point bandit feedback scenario, where only the values of the local cost function at two random points are disclosed to each agent sequentially. Performance bounds of the same orders as the full information case are derived. Finally, we corroborate the efficacy of the proposed algorithms and the analytical results through numerical simulations. | 翻訳日:2024-01-05 16:07:13 公開日:2024-01-04 |
# 自己矛盾:一貫性のない解決の視点を通じたより良いリフレクション Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives ( http://arxiv.org/abs/2401.02009v1 ) ライセンス: Link先を確認 | Wenqi Zhang, Yongliang Shen, Linjuan Wu, Qiuying Peng, Jun Wang, Yueting Zhuang, Weiming Lu | (参考訳) 大規模言語モデル(llm)のリフレクション能力は、多くの注目を集めている。
自己評価や外部からのフィードバックに基づいて、リフレクションや自己精製といったポストホック促進戦略はLLMの反応を洗練させる。
しかし、最近の研究では外部からのフィードバックがないため、LLMの固有反射は不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
LLMは自己評価時に過剰な自信や高いランダム性を示し、頑固なフィードバックや一貫性のないフィードバックを与え、反射を弱める。
要求に合わせて調整された多様な解決視点を適応的に探求し、違いを対比し、これらの不一致をチェックリストにまとめ、再検討し、不一致を排除するために使用できる。
本手法は, 頑健なバイアスを軽減するため, LLM を多種多様な視点で適用する。
さらに、それらの相違はLLMがしばしば見落としている潜在的な誤りや固有の不確実性を示している。
これらの反射はより正確で安定した反射を触媒することができる。
様々なLSMを用いた一連の推論および翻訳タスクの実験は、我々の戦略の有効性と汎用性を明らかにするのに役立ちます。 The reflection capacity of Large Language Model (LLM) has garnered extensive attention. A post-hoc prompting strategy, e.g., reflexion and self-refine, refines LLM's response based on self-evaluated or external feedback. However, recent research indicates without external feedback, LLM's intrinsic reflection is unstable. Our investigation unveils that the key bottleneck is the quality of the self-evaluated feedback. We find LLMs often exhibit overconfidence or high randomness when self-evaluate, offering stubborn or inconsistent feedback, which causes poor reflection. To remedy this, we advocate Self-Contrast: It adaptively explores diverse solving perspectives tailored to the request, contrasts the differences, and summarizes these discrepancies into a checklist which could be used to re-examine and eliminate discrepancies. Our method endows LLM with diverse perspectives to alleviate stubborn biases. Moreover, their discrepancies indicate potential errors or inherent uncertainties that LLM often overlooks. Reflecting upon these can catalyze more accurate and stable reflection. Experiments conducted on a series of reasoning and translation tasks with different LLMs serve to underscore the effectiveness and generality of our strategy. | 翻訳日:2024-01-05 16:06:41 公開日:2024-01-04 |
# データ駆動設計最適化のための二段階サロゲートモデリングと複合組織生成への応用 Two-Stage Surrogate Modeling for Data-Driven Design Optimization with Application to Composite Microstructure Generation ( http://arxiv.org/abs/2401.02008v1 ) ライセンス: Link先を確認 | Farhad Pourkamali-Anaraki, Jamal F. Husseini, Evan J. Pineda, Brett A. Bednarcyk, Scott E. Stapleton | (参考訳) 本稿では,科学技術分野における逆問題に対処する2段階の機械学習に基づく代理モデリングフレームワークを提案する。
提案フレームワークの第一段階では,「ラーナー」と呼ばれる機械学習モデルにより,予測出力が所望の結果と密接に一致している入力デザイン空間内の候補の限られた集合を特定する。
その後、第2段階では、第1段階で生じる縮小候補空間を評価するために、「評価器」として機能する独立した代理モデルを用いる。
この評価プロセスは、ユーザ定義のカバレッジレベルによって導かれる不正確で不確実なソリューションを排除する。
このフレームワークの特徴的な貢献は、共形推論の統合であり、広く適用可能な汎用的で効率的なアプローチを提供する。
従来の単段逆問題と比較して,提案手法の有効性を実証するため, 繊維強化複合材料のマイクロメカニカルモデリングに着目した工学的応用について, いくつかのベンチマーク試験を行った。
その結果、より信頼性の高いソリューションを一貫して生成するため、提案したフレームワークの優位性が確認された。
したがって、導入されたフレームワークは、現実世界のアプリケーションにおける機械学習ベースの代理モデル間の相互作用を促進するためのユニークな視点を提供する。 This paper introduces a novel two-stage machine learning-based surrogate modeling framework to address inverse problems in scientific and engineering fields. In the first stage of the proposed framework, a machine learning model termed the "learner" identifies a limited set of candidates within the input design space whose predicted outputs closely align with desired outcomes. Subsequently, in the second stage, a separate surrogate model, functioning as an "evaluator," is employed to assess the reduced candidate space generated in the first stage. This evaluation process eliminates inaccurate and uncertain solutions, guided by a user-defined coverage level. The framework's distinctive contribution is the integration of conformal inference, providing a versatile and efficient approach that can be widely applicable. To demonstrate the effectiveness of the proposed framework compared to conventional single-stage inverse problems, we conduct several benchmark tests and investigate an engineering application focused on the micromechanical modeling of fiber-reinforced composites. The results affirm the superiority of our proposed framework, as it consistently produces more reliable solutions. Therefore, the introduced framework offers a unique perspective on fostering interactions between machine learning-based surrogate models in real-world applications. | 翻訳日:2024-01-05 16:06:22 公開日:2024-01-04 |
# 画像劣化下における衛星画像のソースフリーオンラインドメイン適応セマンティックセマンティックセグメンテーション Source-Free Online Domain Adaptive Semantic Segmentation of Satellite Images under Image Degradation ( http://arxiv.org/abs/2401.02113v1 ) ライセンス: Link先を確認 | Fahim Faisal Niloy, Kishor Kumar Bhaumik, Simon S. Woo | (参考訳) 衛星画像セグメンテーションにおける分布変化へのオンライン適応は、重要で未解明の課題である。
本稿では,衛星画像のソースフリーおよびオンライン領域適応,すなわちテスト時間適応(TTA)について,様々な画像劣化による分布変化の緩和に焦点をあてる。
この目標を達成するために,我々は2つの効果的な戦略を含む新しいttaアプローチを提案する。
まず,対象分布のグローバルバッチ正規化(bn)統計を,入力データストリームを用いて漸進的に推定する。
推論中にこれらの統計を活用することで、ドメイン間のギャップを効果的に減らすことができる。
さらに,グローバルクラスセンタを用いた予測マスクの精錬により,予測品質の向上を図る。
どちらの戦略も高速で安定した収束のために動的運動量を用いる。
特に,提案手法はバックプロパゲーションフリーであり,高速かつ軽量であり,新しいドメインへのオンザフライ適応に適している。
ドメイン適応シナリオの総合的な実験を通じて,本手法の堅牢な性能を実証する。 Online adaptation to distribution shifts in satellite image segmentation stands as a crucial yet underexplored problem. In this paper, we address source-free and online domain adaptation, i.e., test-time adaptation (TTA), for satellite images, with the focus on mitigating distribution shifts caused by various forms of image degradation. Towards achieving this goal, we propose a novel TTA approach involving two effective strategies. First, we progressively estimate the global Batch Normalization (BN) statistics of the target distribution with incoming data stream. Leveraging these statistics during inference has the ability to effectively reduce domain gap. Furthermore, we enhance prediction quality by refining the predicted masks using global class centers. Both strategies employ dynamic momentum for fast and stable convergence. Notably, our method is backpropagation-free and hence fast and lightweight, making it highly suitable for on-the-fly adaptation to new domain. Through comprehensive experiments across various domain adaptation scenarios, we demonstrate the robust performance of our method. | 翻訳日:2024-01-05 15:58:08 公開日:2024-01-04 |
# ModuleGuard:Pythonエコシステムにおけるモジュール競合の解決と検出 ModuleGuard:Understanding and Detecting Module Conflicts in Python Ecosystem ( http://arxiv.org/abs/2401.02090v1 ) ライセンス: Link先を確認 | Ruofan Zhu, Xingyu Wang, Chengwei Liu, Zhengzi Xu, Wenbo Shen, Rui Chang and Yang Liu | (参考訳) Pythonは、その単純さ、可読性、汎用性のために、ソフトウェア開発で最も人気のあるプログラミング言語の1つになった。
pythonエコシステムが成長するにつれて、さまざまなパッケージが同じ名前空間モジュールを持つ場合に発生する、モジュールの衝突を回避するという課題が増加する。
残念ながら、既存の作業では、モジュールの衝突を包括的に調査したり、衝突を検出するツールを提供したりすることはなかった。
そこで本研究では,モジュール競合問題とそのPythonエコシステムへの影響を系統的に検討する。
InstSimulatorと呼ばれる新しい手法を提案し、セマンティクスとインストールシミュレーションを利用して、正確かつ効率的なモジュール抽出を実現する。
これに基づいて、Pythonエコシステムのモジュール競合を検出するModuleGuardというツールを実装しました。
本研究はまず,97のMC問題を収集し,これらのMC問題の特徴と原因を分類し,3つの異なる競合パターンを要約し,潜在的な脅威を分析する。
そして、PyPIエコシステム全体(420万パッケージ)とGitHubの人気プロジェクト(3,711プロジェクト)を大規模に分析して、それぞれのMCパターンを検出し、その潜在的な影響を分析しました。
モジュールのコンフリクトが多くのTPLやGitHubプロジェクトに影響を与えることもわかりました。
これは、開発者が直接依存関係内のモジュールを理解していないためであり、推移的な依存関係のモジュールは言うまでもない。
私たちの研究は、命名競合を扱うpythonの欠点を明らかにし、開発者が競合を検知するためのツールとガイドラインを提供します。 Python has become one of the most popular programming languages for software development due to its simplicity, readability, and versatility. As the Python ecosystem grows, developers face increasing challenges in avoiding module conflicts, which occur when different packages have the same namespace modules. Unfortunately, existing work has neither investigated the module conflict comprehensively nor provided tools to detect the conflict. Therefore, this paper systematically investigates the module conflict problem and its impact on the Python ecosystem. We propose a novel technique called InstSimulator, which leverages semantics and installation simulation to achieve accurate and efficient module extraction. Based on this, we implement a tool called ModuleGuard to detect module conflicts for the Python ecosystem. For the study, we first collect 97 MC issues, classify the characteristics and causes of these MC issues, summarize three different conflict patterns, and analyze their potential threats. Then, we conducted a large-scale analysis of the whole PyPI ecosystem (4.2 million packages) and GitHub popular projects (3,711 projects) to detect each MC pattern and analyze their potential impact. We discovered that module conflicts still impact numerous TPLs and GitHub projects. This is primarily due to developers' lack of understanding of the modules within their direct dependencies, not to mention the modules of the transitive dependencies. Our work reveals Python's shortcomings in handling naming conflicts and provides a tool and guidelines for developers to detect conflicts. | 翻訳日:2024-01-05 15:57:55 公開日:2024-01-04 |
# メモリバランスパイプライン並列性の再評価:bpipe Re-evaluating the Memory-balanced Pipeline Parallelism: BPipe ( http://arxiv.org/abs/2401.02088v1 ) ライセンス: Link先を確認 | Mincong Huang, Chao Wang, Chi Ma, Yineng Zhang, Peng Zhang, Lei Yu | (参考訳) パイプライン並列性は大規模トランスフォーマーモデルのトレーニングにおいて不可欠な技術である。
しかし、メモリ消費の不均衡に苦しむため、メモリ使用量が不足する。
BPipe技術はこの問題に対処するために提案され、GPT-3モデルで有効であることが証明された。
それにもかかわらず、我々の実験はラマトレーニングに同様の利点を与えていない。
加えて、BPipeはフラッシュアテンションを施す場合、GPT-3トレーニングに対して無視できる利益しか得られない。
GPT-3およびLLaMA上でのBPipeの発散性能の根本的な原因を解析した。
さらに,BPipeの性能を推定する新しい手法を提案する。 Pipeline parallelism is an essential technique in the training of large-scale Transformer models. However, it suffers from imbalanced memory consumption, leading to insufficient memory utilization. The BPipe technique was proposed to address this issue and has proven effective in the GPT-3 model. Nevertheless, our experiments have not yielded similar benefits for LLaMA training. Additionally, BPipe only yields negligible benefits for GPT-3 training when applying flash attention. We analyze the underlying causes of the divergent performance of BPipe on GPT-3 and LLaMA. Furthermore, we introduce a novel method to estimate the performance of BPipe. | 翻訳日:2024-01-05 15:57:32 公開日:2024-01-04 |
# グラフニューラルネットワークのためのビューベース説明 View-based Explanations for Graph Neural Networks ( http://arxiv.org/abs/2401.02086v1 ) ライセンス: Link先を確認 | Tingyang Chen, Dazhuo Qiu, Yinghui Wu, Arijit Khan, Xiangyu Ke, Yunjun Gao | (参考訳) グラフニューラルネットワーク(GNN)について,グラフ分類などの解析的タスクにおいて,その振る舞いを理解するために説明を生成する。
既存のアプローチは、特定のクラスラベルに関する説明を提供するのではなく、GNNの全体的な結果を理解することを目的としており、アクセスが困難で、直接クエリ可能な説明構造を返す可能性がある。
本稿では,表現のためのグラフビューを生成する新しいパラダイムであるGVEXを提案する。
1)説明ビューと呼ばれる二層説明構造を設計する。
説明ビューは、グラフパターンのセットと、誘導された説明サブグラフのセットで構成される。
複数のグラフからなるデータベースGと、GNN ベースの分類器 M によって割り当てられた特定のクラスラベル l が与えられた場合、G の分節を簡潔に記述し、なぜ l が M によって割り当てられるのかを最もよく説明する。
問題は$\Sigma^2_P$-hardである。
3) 2つのアルゴリズムを提示する。
ひとつは説明と要約の戦略で、まずはgnnを機能影響の最大化の観点から説明し、次にパターンを生成するための要約ステップを実行する高品質な説明サブグラフを生成する。
この戦略は近似比が1/2であることを示す。
第2のアルゴリズムは、バッチで入力ノードストリームへのシングルパスを実行し、説明ビューをインクリメンタルに維持し、1/4近似の時間品質を保証する。
実世界のベンチマークデータを用いて,GVEXの有効性,効率,スケーラビリティを実験的に検証した。
ケーススタディを通じて,GVEXの実用化について紹介する。 Generating explanations for graph neural networks (GNNs) has been studied to understand their behavior in analytical tasks such as graph classification. Existing approaches aim to understand the overall results of GNNs rather than providing explanations for specific class labels of interest, and may return explanation structures that are hard to access, nor directly queryable. We propose GVEX, a novel paradigm that generates Graph Views for EXplanation. (1) We design a two-tier explanation structure called explanation views. An explanation view consists of a set of graph patterns and a set of induced explanation subgraphs. Given a database G of multiple graphs and a specific class label l assigned by a GNN-based classifier M, it concisely describes the fraction of G that best explains why l is assigned by M. (2) We propose quality measures and formulate an optimization problem to compute optimal explanation views for GNN explanation. We show that the problem is $\Sigma^2_P$-hard. (3) We present two algorithms. The first one follows an explain-and-summarize strategy that first generates high-quality explanation subgraphs which best explain GNNs in terms of feature influence maximization, and then performs a summarization step to generate patterns. We show that this strategy provides an approximation ratio of 1/2. Our second algorithm performs a single-pass to an input node stream in batches to incrementally maintain explanation views, having an anytime quality guarantee of 1/4 approximation. Using real-world benchmark data, we experimentally demonstrate the effectiveness, efficiency, and scalability of GVEX. Through case studies, we showcase the practical applications of GVEX. | 翻訳日:2024-01-05 15:57:26 公開日:2024-01-04 |
# ボルツマン分布の効率的なサンプリングのためのエネルギーベース拡散発生器 Energy based diffusion generator for efficient sampling of Boltzmann distributions ( http://arxiv.org/abs/2401.02080v1 ) ライセンス: Link先を確認 | Yan Wang, Ling Guo, Hao Wu, Tao Zhou | (参考訳) 任意のターゲット分布から試料を生成するためのエネルギーベース拡散発生器という新しいサンプル装置を提案する。
サンプリングモデルは,可変オートエンコーダに似た構造を採用し,単純な分布から目標分布に近い確率変数に変換するデコーダを用いて,拡散モデルに基づくエンコーダを設計する。
複雑な分布に対する拡散モデルの強力なモデリング能力を利用することで、生成したサンプルとターゲットの分布間のクルバック・リーブラーのばらつきを正確に推定することができる。
さらに,一般化ハミルトン力学に基づくデコーダを提案し,サンプリング性能をさらに向上させる。
実験的な評価を通じて,本手法の有効性を実証し,既存手法と比較して優位性を示す。 We introduce a novel sampler called the energy based diffusion generator for generating samples from arbitrary target distributions. The sampling model employs a structure similar to a variational autoencoder, utilizing a decoder to transform latent variables from a simple distribution into random variables approximating the target distribution, and we design an encoder based on the diffusion model. Leveraging the powerful modeling capacity of the diffusion model for complex distributions, we can obtain an accurate variational estimate of the Kullback-Leibler divergence between the distributions of the generated samples and the target. Moreover, we propose a decoder based on generalized Hamiltonian dynamics to further enhance sampling performance. Through empirical evaluation, we demonstrate the effectiveness of our method across various complex distribution functions, showcasing its superiority compared to existing methods. | 翻訳日:2024-01-05 15:56:58 公開日:2024-01-04 |
# 医用画像セグメンテーションにおける単一ソース領域一般化のためのSAMの活用 Leveraging SAM for Single-Source Domain Generalization in Medical Image Segmentation ( http://arxiv.org/abs/2401.02076v1 ) ライセンス: Link先を確認 | Hanhui Wang, Huaize Ye, Yi Xia, and Xueyan Zhang | (参考訳) ドメイン一般化(Domain Generalization, DG)は、医用画像のセグメンテーションで広く行われている、目に見えないターゲットドメインの性能を達成するために、ドメイン間のドメインシフトを減らすことを目的としている。
単一ソースドメイン一般化(SDG)は、単一のソースドメインのみをトレーニングする最も難しい設定である。
既存の手法は医用画像分割のsdgをかなり進歩させたが、比較的大きな領域シフトに直面した場合でも、その性能は適用可能な基準とは程遠い。
本稿では,Segment Anything Model(SAM)をSDGに応用し,一般化の能力を大幅に向上させる。
具体的には、ソースイメージをsamモジュールと通常のセグメンテーションモジュールにそれぞれ送信する並列フレームワークを導入する。
計算資源を削減するため,SAMモジュールに画像を送る前にマージ戦略を適用する。
セグメンテーションモジュールからバウンディングボックスを抽出し、SAMモジュールにプロンプトとして洗練されたバージョンを送信する。
我々は,従来のDGデータセットを用いてモデルを評価し,他の最先端DG手法と比較して競争力のある結果を得た。
さらに,提案手法の有効性を証明するため,一連のアブレーション実験を行った。
コードはhttps://github.com/SARIHUST/SAMMed.comで公開されている。 Domain Generalization (DG) aims to reduce domain shifts between domains to achieve promising performance on the unseen target domain, which has been widely practiced in medical image segmentation. Single-source domain generalization (SDG) is the most challenging setting that trains on only one source domain. Although existing methods have made considerable progress on SDG of medical image segmentation, the performances are still far from the applicable standards when faced with a relatively large domain shift. In this paper, we leverage the Segment Anything Model (SAM) to SDG to greatly improve the ability of generalization. Specifically, we introduce a parallel framework, the source images are sent into the SAM module and normal segmentation module respectively. To reduce the calculation resources, we apply a merging strategy before sending images to the SAM module. We extract the bounding boxes from the segmentation module and send the refined version as prompts to the SAM module. We evaluate our model on a classic DG dataset and achieve competitive results compared to other state-of-the-art DG methods. Furthermore, We conducted a series of ablation experiments to prove the effectiveness of the proposed method. The code is publicly available at https://github.com/SARIHUST/SAMMed. | 翻訳日:2024-01-05 15:56:44 公開日:2024-01-04 |
# ICE-GRT:生成強化型変換器による指示文脈の強化 ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers ( http://arxiv.org/abs/2401.02072v1 ) ライセンス: Link先を確認 | Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou | (参考訳) chatgptやllamaといった大規模言語モデル(llm)の出現は、専門分野における深さや精度の欠如や、微調整時の一般的な能力の低下、特に小規模モデルにおける分析能力の低下など、ドメイン固有のタスクに制限が伴う。
これらのギャップに対処するために,PPO(Proximal Policy Optimization)に基づくRLHF(Reinforcement Learning from Human Feedback)を活用するICE-GRTを導入する。
ICE-GRTの探索は、堅牢な回答を生成するだけでなく、その答えの背後にある理由を詳細に分析するための理解と推論能力を強調している。
この機能は、Supervised Fine-Tuningモデルの範囲を超えて大幅に進歩している。
ICE-GRTの成功は、適切なデータ、リワードサイズスケーリング、KL-Control、アドバンテージ正規化など、いくつかの重要な要因に依存している。
ICE-GRTモデルは、ドメイン固有タスクおよび12の汎用言語タスクにおいて、同等のサイズとさらに大きなLLMに対して最先端の性能を示す。
我々はICE-GRTを包括的に分析し、それがLLMの分野にもたらす重要な進歩を裏付ける。 The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA encounter limitations in domain-specific tasks, with these models often lacking depth and accuracy in specialized areas, and exhibiting a decrease in general capabilities when fine-tuned, particularly analysis ability in small sized models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization (PPO), demonstrating remarkable ability in in-domain scenarios without compromising general task performance. Our exploration of ICE-GRT highlights its understanding and reasoning ability to not only generate robust answers but also to provide detailed analyses of the reasons behind the answer. This capability marks a significant progression beyond the scope of Supervised Fine-Tuning models. The success of ICE-GRT is dependent on several crucial factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in domain-specific tasks and across 12 general Language tasks against equivalent size and even larger size LLMs, highlighting the effectiveness of our approach. We provide a comprehensive analysis of the ICE-GRT, underscoring the significant advancements it brings to the field of LLM. | 翻訳日:2024-01-05 15:56:27 公開日:2024-01-04 |
# 極低温集積光学のための効果的なパッケージング手法を用いた包装極低温光子対光源 Packaged Cryogenic Photon Pair Source Using an Effective Packaging Methodology for Cryogenic Integrated Optics ( http://arxiv.org/abs/2401.02068v1 ) ライセンス: Link先を確認 | Donald Witt, Lukas Chrostowski, Jeff Young | (参考訳) 室温および低温の両方で動作するための集積フォトニクス回路のパッケージングに広く適用可能な新しい低温包装方法が報告されている。
この方法は、あらゆる集積光学研究所で利用可能な機器と技術のみを必要とし、標準集積フォトニックチップで動作する。
次に, シリコンリング共振器を用いて低温下での単一光子対の測定を行った。
5.9Kで動作すると、CLバンドの室温でピーク対生成率183倍となるように測定される。 A new cryogenic packaging methodology that is widely applicable to packaging any integrated photonics circuit for operation at both room temperature and cryogenic temperature is reported. The method requires only equipment and techniques available in any integrated optics lab and works on standard integrated photonic chips. Our methodology is then used to enable the measurement of a single photon pair sourced based on a silicon ring resonator at cryogenic temperatures. When operating at 5.9 K, this source is measured to have a peak pair generation rate 183 times greater then at room temperature in the CL-band. | 翻訳日:2024-01-05 15:56:04 公開日:2024-01-04 |
# 離散的および連続的多部絡み合いに対するエントロピー測度のポリゴン関係と部分付加性 The polygon relation and subadditivity of entropic measures for discrete and continuous multipartite entanglement ( http://arxiv.org/abs/2401.02066v1 ) ライセンス: Link先を確認 | Lijun Liu, Xiaozhen Ge, and Shuming Cheng | (参考訳) 最近の研究 [ge {\it et al. ] において。
}, arXiv: 2312。
17496 (2023)] では, 離散的, 連続的, さらにはハイブリッド多部量子系の絡み合い特性を明らかにするのに有用な両部共役エンタングルメントのポリゴン関係を導出した。
本研究では, r\'enyi と tsallis のエントロピーに関する情報理論的な尺度を用いて, ポリゴン関係とエントロピーの部分加法性との関係について検討した。
特に、エントロピー-ポリゴン関係は純粋に多ビット状態に対して導出され、量子境界問題の既知の結果を利用して多モードガウス状態に一般化される。
さらに、多角関係と部分加法的性質の同値性は、すべての離散的あるいは連続的多元状態に対して、その基礎となるエントロピーが部分加法的であるときに限り、多角関係が成立する。
副生成物として、r\'enyi と tsallis entropies の副加法性は、すべての二成分ガウス状態に対して証明されている。
最後に,ポリゴン関係とモノガミー関係の違いを明らかにし,その結果の一般化について論じる。
我々の研究は多粒子状態の豊富な構造をよりよく理解し、それゆえに多粒子絡みの研究に役立つと期待されている。 In a recent work [Ge {\it et al.}, arXiv: 2312. 17496 (2023)], we have derived the polygon relation of bipartite entanglement measures that is useful to reveal the entanglement properties of discrete, continuous, and even hybrid multipartite quantum systems. In this work, with the information-theoretical measures of R\'enyi and Tsallis entropies, we study the relationship between the polygon relation and the subadditivity of entropy. In particular, the entropy-polygon relations are derived for pure multi-qubit states and generalized to multi-mode Gaussian states, by utilizing the known results from the quantum marginal problem. Moreover, the equivalence between the polygon relation and subadditivity is established, in the sense that for all discrete or continuous multipartite states, the polygon relation holds if and only if the underlying entropy is subadditive. As byproduct, the subadditivity of R\'enyi and Tsallis entropies is proven for all bipartite Gaussian states. Finally, the difference between polygon relations and monogamy relations is clarified, and generalizations of our results are discussed. Our work provides a better understanding of the rich structure of multipartite states, and hence is expected to be helpful for the study of multipartite entanglement. | 翻訳日:2024-01-05 15:55:53 公開日:2024-01-04 |
# 意思決定における信頼性, 能力, 信頼性 U-Trustworthy Models.Reliability, Competence, and Confidence in Decision-Making ( http://arxiv.org/abs/2401.02062v1 ) ライセンス: Link先を確認 | Ritwik Vashistha, Arya Farahi | (参考訳) 予測モデルにおけるバイアスと差別に関する懸念が高まり、AIコミュニティはAIシステムの信頼性を評価することに注力している。
従来、信頼できるai文学は、信頼性の前提条件として確率的枠組みとキャリブレーションに依存する。
本論では,信頼に関する哲学文献から着想を得た新しい信頼枠組みを提案することにより,この視点から出発する。
信頼性の正確な数学的定義を$\mathcal{U}$-trustworthinessと呼び、実用関数の最大化を目的としたタスクのサブセットに特化する。
我々は、モデルの$\mathcal{u}$-trustworthinessは、このタスクサブセット内でベイズユーティリティを最大化する能力に起因していると主張する。
第1セットの結果は,信頼度の低いモデルを支持する可能性を示し,信頼度評価を誤解させるリスクを導入することで,確率的枠組みに挑戦する。
$\mathcal{U}$-trustworthiness の文脈において、適切にランク付けされたモデルは本質的に $\mathcal{U}$-trustworthy であることが証明される。
さらに,信頼度を優先する指標として,aucメトリクスの採用を提唱する。
理論的保証と実験的検証の両方を提供することにより、AUCは信頼性の堅牢な評価を可能にし、モデル選択とハイパーパラメータチューニングを強化し、より信頼性の高い結果が得られる。 With growing concerns regarding bias and discrimination in predictive models, the AI community has increasingly focused on assessing AI system trustworthiness. Conventionally, trustworthy AI literature relies on the probabilistic framework and calibration as prerequisites for trustworthiness. In this work, we depart from this viewpoint by proposing a novel trust framework inspired by the philosophy literature on trust. We present a precise mathematical definition of trustworthiness, termed $\mathcal{U}$-trustworthiness, specifically tailored for a subset of tasks aimed at maximizing a utility function. We argue that a model's $\mathcal{U}$-trustworthiness is contingent upon its ability to maximize Bayes utility within this task subset. Our first set of results challenges the probabilistic framework by demonstrating its potential to favor less trustworthy models and introduce the risk of misleading trustworthiness assessments. Within the context of $\mathcal{U}$-trustworthiness, we prove that properly-ranked models are inherently $\mathcal{U}$-trustworthy. Furthermore, we advocate for the adoption of the AUC metric as the preferred measure of trustworthiness. By offering both theoretical guarantees and experimental validation, AUC enables robust evaluation of trustworthiness, thereby enhancing model selection and hyperparameter tuning to yield more trustworthy outcomes. | 翻訳日:2024-01-05 15:55:28 公開日:2024-01-04 |
# 非拘束型relu特徴モデルを用いたクロスエントロピークラス不均衡学習における神経崩壊 Neural Collapse for Cross-entropy Class-Imbalanced Learning with Unconstrained ReLU Feature Model ( http://arxiv.org/abs/2401.02058v1 ) ライセンス: Link先を確認 | Hien Dang and Tho Tran and Tan Nguyen and Nhat Ho | (参考訳) 分類タスクのためのディープニューラルネットワークのトレーニングの現在のパラダイムは、トレーニングエラーが消失した後でもトレーニング損失値をゼロにプッシュする経験的リスクを最小化することを含む。
この最終段階の訓練では、最終層はクラス平均に崩壊し、これらのクラス平均は単純等角タイトフレーム(etf)の頂点に収束することが観察されている。
この現象はNeural Collapse(NC)と呼ばれる。
この現象を理論的に理解するために、最近の研究では、NCがトレーニング問題のグローバルな解で現れることを示すために、単純化された制約のない特徴モデルを採用している。
しかし、トレーニングデータセットがクラス不均衡である場合、NCプロパティのいくつかはもはや真実ではない。
例えば、クラス平均幾何学は、損失が収束すると単純なETFから切り離される。
本稿では,unconstrained relu feature model 下でのクロスエントロピー損失に対する不均衡レジームにncを一般化する。
この設定では、クラス内特徴の崩壊性は依然として保たれているが、クラス平均は異なる長さの直交ベクトルからなる構造に収束する。
さらに,分類器の重みは,クラスバランス設定においてNCを一般化する各クラスのトレーニングサンプル数に依存するスケーリング係数と集中型クラス平均値に一致していることがわかった。
実践的なアーキテクチャとデータセットの実験を通じて、実証的に結果を証明する。 The current paradigm of training deep neural networks for classification tasks includes minimizing the empirical risk that pushes the training loss value towards zero, even after the training error has been vanished. In this terminal phase of training, it has been observed that the last-layer features collapse to their class-means and these class-means converge to the vertices of a simplex Equiangular Tight Frame (ETF). This phenomenon is termed as Neural Collapse (NC). To theoretically understand this phenomenon, recent works employ a simplified unconstrained feature model to prove that NC emerges at the global solutions of the training problem. However, when the training dataset is class-imbalanced, some NC properties will no longer be true. For example, the class-means geometry will skew away from the simplex ETF when the loss converges. In this paper, we generalize NC to imbalanced regime for cross-entropy loss under the unconstrained ReLU feature model. We prove that, while the within-class features collapse property still holds in this setting, the class-means will converge to a structure consisting of orthogonal vectors with different lengths. Furthermore, we find that the classifier weights are aligned to the scaled and centered class-means with scaling factors depend on the number of training samples of each class, which generalizes NC in the class-balanced setting. We empirically prove our results through experiments on practical architectures and dataset. | 翻訳日:2024-01-05 15:55:10 公開日:2024-01-04 |
# 進化的計算+大言語モデルが人間に勝る一例:効率的なガイド付き局所探索の設計 An Example of Evolutionary Computation + Large Language Model Beating Human: Design of Efficient Guided Local Search ( http://arxiv.org/abs/2401.02051v1 ) ライセンス: Link先を確認 | Fei Liu, Xialiang Tong, Mingxuan Yuan, Xi Lin, Fu Luo, Zhenkun Wang, Zhichao Lu, Qingfu Zhang | (参考訳) 人間の専門家が効率的なアルゴリズムを設計するのは、しばしば面倒である。
近年,自動アルゴリズム設計のための大規模言語モデル(ael)フレームワークを用いた新しいアルゴリズム進化を提案する。
aelは大規模な言語モデルのパワーと進化的計算のパラダイムを組み合わせ、自動的にアルゴリズムを設計、組み合わせ、修正する。
本稿では、AELを用いて、ガイド付きローカルサーチ(GLS)のガイドアルゴリズムを設計し、よく知られた旅行セールスマン問題(TSP)を解決する。
AELは、人間の最小限の努力とモデルトレーニングなしで、エリートGLSアルゴリズムを2日で自動的に進化させる。
1000のTSP20-TSP100インスタンスとTSPLibインスタンスの実験結果から、ALEが設計したGLSは、同じイテレーション予算で最先端の人間設計のGLSより優れていた。
TSP20とTSP50の差は0%、TSP100の差は0.032%である。
以上より,自動アルゴリズム設計における新たな時代の出現を示唆する。 It is often very tedious for human experts to design efficient algorithms. Recently, we have proposed a novel Algorithm Evolution using Large Language Model (AEL) framework for automatic algorithm design. AEL combines the power of a large language model and the paradigm of evolutionary computation to design, combine, and modify algorithms automatically. In this paper, we use AEL to design the guide algorithm for guided local search (GLS) to solve the well-known traveling salesman problem (TSP). AEL automatically evolves elite GLS algorithms in two days, with minimal human effort and no model training. Experimental results on 1,000 TSP20-TSP100 instances and TSPLib instances show that AEL-designed GLS outperforms state-of-the-art human-designed GLS with the same iteration budget. It achieves a 0% gap on TSP20 and TSP50 and a 0.032% gap on TSP100 in 1,000 iterations. Our findings mark the emergence of a new era in automatic algorithm design. | 翻訳日:2024-01-05 15:54:45 公開日:2024-01-04 |
# アノテーションのない病理像定位のための汎用視覚言語前訓練 Generalizable vision-language pre-training for annotation-free pathology localization ( http://arxiv.org/abs/2401.02044v1 ) ライセンス: Link先を確認 | Hao Yang, Hong-Yu Zhou, Cheng Li, Weijian Huang, Jiarun Liu and Shanshan Wang | (参考訳) 医学画像から自動的に病理を同定することは、疾患の発生と進行を理解するのに役立ち、そのような能力は臨床診断に大いに役立つ。
しかし、既存のディープラーニングモデルは専門家のアノテーションに強く依存しており、オープン臨床環境では一般化できない。
本研究では,AFLOC ( Annotation-Free pathology Localization) のための視覚言語事前学習モデルを提案する。
AFLocのコアとなる強みは、画像アノテーションのない多段階のセマンティック構造に基づくコントラスト学習にある。
本研究は,11種類の胸部病理を含む4種類の外部データセットを対象に,その一般化能力を検証した。
その結果、AFLOCは6つの最先端の手法を超越し、5つの異なる病態の特定においてヒトのベンチマークよりも優れており、複雑な臨床環境への適応性を示している。 Locating pathologies automatically from medical images aids the understanding of the emergence and progression of diseases, and such an ability can significantly benefit clinical diagnostics. However, existing deep learning models heavily rely on expert annotations and lack generalization capabilities in open clinical environments. In this study, we present a generalizable vision-language pre-training model for Annotation-Free pathology Localization (AFLoc). The core strength of AFLoc lies in its image annotation-free multi-level semantic structure-based contrastive learning, which comprehensively aligns multi-granularity medical concepts from reports with abundant image features, to adapt to the diverse expressions of observed and emerging unseen pathologies. We conducted extensive experimental validation across 4 distinct external datasets, encompassing 11 types of chest pathologies, to verify its generalization ability. The results demonstrate that AFLoc surpasses 6 state-of-the-art methods and even outperforms the human benchmark in locating 5 different pathologies, underscoring its suitability for complex clinical environments. | 翻訳日:2024-01-05 15:54:28 公開日:2024-01-04 |
# オブジェクト再識別のための効率的なクラウドエッジ協調推論 Efficient Cloud-edge Collaborative Inference for Object Re-identification ( http://arxiv.org/abs/2401.02041v1 ) ライセンス: Link先を確認 | Chuanming Wang, Yuxin Yang, Mengshi Qi, Huadong Ma | (参考訳) 現在のオブジェクト再識別(ReID)システムは、集中処理パラダイム、すなわち、すべての計算がクラウドサーバで行われ、エッジデバイスは画像のキャプチャと送信にのみ使用される。
ビデオの数が急速にエスカレーションされるにつれて、このパラダイムは有限の計算資源のために実用的ではない。
このようなシナリオでは、ReIDシステムのスケーラビリティと実用性を高めるために重要なクラウド-エッジ協調処理パラダイムに適合するようにReIDシステムを変換する必要がある。
しかし、現在の関連する研究はこの問題の研究を欠いているため、reidメソッドを効果的に適用することは困難である。
そこで我々は,ReIDシステムのためのクラウドエッジ協調推論フレームワークを考案し,特に,インスタンス間の空間的相関をモデル化する学習を通じて,所望の画像をクラウドサーバにできるだけ早く返却する分散対応相関モデルネットワーク(DaCM)を提案する。
dacmはタイムスタンプに暗黙的に含まれている空間的-時間的相関をグラフ構造に埋め込み、クラウドに適用してアップロードウィンドウのサイズを制御し、エッジデバイス上で画像のシーケンスを調整することができる。
従来のReIDメソッドをDaCMとシームレスに組み合わせることで、提案したエッジクラウド協調フレームワーク内でアプリケーションを実現することができます。
広範に実験した結果,提案手法は伝送のオーバーヘッドを低減し,性能を大幅に向上させることがわかった。
コードとモデルをリリースします。 Current object re-identification (ReID) system follows the centralized processing paradigm, i.e., all computations are conducted in the cloud server and edge devices are only used to capture and send images. As the number of videos experiences a rapid escalation, this paradigm has become impractical due to the finite computational resources. In such a scenario, the ReID system should be converted to fit in the cloud-edge collaborative processing paradigm, which is crucial to boost the scalability and practicality of ReID systems. However, current relevant work lacks research on this issue, making it challenging for ReID methods to be adapted effectively. Therefore, we pioneer a cloud-edge collaborative inference framework for ReID systems and particularly propose a distribution-aware correlation modeling network (DaCM) to make the desired image return to the cloud server as soon as possible via learning to model the spatial-temporal correlations among instances. DaCM embeds the spatial-temporal correlations implicitly included in the timestamps into a graph structure, and it can be applied in the cloud to regulate the size of the upload window and on the edge device to adjust the sequence of images, respectively. Traditional ReID methods can be combined with DaCM seamlessly, enabling their application within our proposed edge-cloud collaborative framework. Extensive experiments demonstrate that our method obviously reduces transmission overhead and significantly improves performance. We will release our code and model. | 翻訳日:2024-01-05 15:54:03 公開日:2024-01-04 |
# LLMを理解する: トレーニングから推論への包括的概要 Understanding LLMs: A Comprehensive Overview from Training to Inference ( http://arxiv.org/abs/2401.02038v1 ) ライセンス: Link先を確認 | Yiheng Liu, Hao He, Tianle Han, Xu Zhang, Mengyuan Liu, Jiaming Tian, Yutong Zhang, Jiaqi Wang, Xiaohui Gao, Tianyang Zhong, Yi Pan, Shaochen Xu, Zihao Wu, Zhengliang Liu, Xin Zhang, Shu Zhang, Xintao Hu, Tuo Zhang, Ning Qiang, Tianming Liu, Bao Ge | (参考訳) ChatGPTの導入により、下流タスクに対処するためのLarge Language Models (LLM)の利用が大幅に増加した。
このコンテキストでは、コスト効率の高いトレーニングとデプロイメントに重点が置かれています。
LLMの低コストなトレーニングと展開は、将来の開発トレンドを表している。
本稿では,この新興トレンドに対応する大規模言語モデル学習技術と推論展開技術の進化を概観する。
トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。
推論に関しては,モデル圧縮,並列計算,メモリスケジューリング,構造最適化などのトピックを取り上げている。
LLMの利用についても検討し、今後の開発に関する洞察を提供する。 The introduction of ChatGPT has led to a significant increase in the utilization of Large Language Models (LLMs) for addressing downstream tasks. There's an increasing focus on cost-efficient training and deployment within this context. Low-cost training and deployment of LLMs represent the future development trend. This paper reviews the evolution of large language model training techniques and inference deployment technologies aligned with this emerging trend. The discussion on training includes various aspects, including data preprocessing, training architecture, pre-training tasks, parallel training, and relevant content related to model fine-tuning. On the inference side, the paper covers topics such as model compression, parallel computation, memory scheduling, and structural optimization. It also explores LLMs' utilization and provides insights into their future development. | 翻訳日:2024-01-05 15:53:23 公開日:2024-01-04 |
# テキストと画像による統一拡散型剛体と非剛体編集 Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image Guidance ( http://arxiv.org/abs/2401.02126v1 ) ライセンス: Link先を確認 | Jiacheng Wang, Ping Liu, Wei Xu | (参考訳) 既存のテキストから画像への編集方法は、厳格な編集でも非厳格な編集でも優れているが、両方を組み合わせると困難に直面するため、出力とテキストプロンプトが不一致になる。
さらに、制御のための参照イメージの統合は依然として困難である。
そこで本研究では,テキストプロンプトや参照画像に導かれ,剛体編集と非剛体編集の両方を実行できる多彩な画像編集フレームワークを提案する。
多様な編集シナリオに対処するためにデュアルパスインジェクションスキームを活用し,外観と構造情報の融合のための統合セルフアテンション機構を導入する。
潜在的な視覚的アーティファクトを緩和するために、中間潜伏量を調整するために潜伏融合技術を用いる。
これまでの研究と比較すると,このアプローチは,精巧で汎用的な画像編集を実現する上で大きな進歩を示している。
提案手法の有効性を検証し,テキストベースの編集および外観の転送タスクにおいて,剛体設定と非剛体設定の両方を包含する競合的あるいは優れた結果を示す。 Existing text-to-image editing methods tend to excel either in rigid or non-rigid editing but encounter challenges when combining both, resulting in misaligned outputs with the provided text prompts. In addition, integrating reference images for control remains challenging. To address these issues, we present a versatile image editing framework capable of executing both rigid and non-rigid edits, guided by either textual prompts or reference images. We leverage a dual-path injection scheme to handle diverse editing scenarios and introduce an integrated self-attention mechanism for fusion of appearance and structural information. To mitigate potential visual artifacts, we further employ latent fusion techniques to adjust intermediate latents. Compared to previous work, our approach represents a significant advance in achieving precise and versatile image editing. Comprehensive experiments validate the efficacy of our method, showcasing competitive or superior results in text-based editing and appearance transfer tasks, encompassing both rigid and non-rigid settings. | 翻訳日:2024-01-05 15:46:20 公開日:2024-01-04 |
# ACP-ESM:タンパク質指向トランスフォーマーアプローチを用いた抗がんペプチドの新規分類フレームワーク ACP-ESM: A novel framework for classification of anticancer peptides using protein-oriented transformer approach ( http://arxiv.org/abs/2401.02124v1 ) ライセンス: Link先を確認 | Zeynep Hilal Kilimci, Mustafa Yalcin | (参考訳) 抗がんペプチド(英語: Anticancer peptides、ACP)は、がん研究と治療の分野で大きな注目を集めている分子群である。
ACPはアミノ酸の短鎖であり、タンパク質の構成要素であり、がん細胞を選択的に標的にし、殺傷する能力を持っている。
ACPの主な利点の1つは、健康な細胞をより広範囲に分散させながら、がん細胞を選択的に標的にする能力である。
この選択性は、通常細胞と比較して癌細胞の表面特性の違いに起因することが多い。
そのため、ACPはがん治療の候補として研究されている。
ACPは単独で、あるいは化学療法や放射線療法のような他の治療法と組み合わせて用いられる。
ACPはがん治療に対する新しいアプローチとして期待されているが、安定性の最適化、選択性の向上、がん細胞へのデリバリーの促進、ペプチド配列の連続的な増加、信頼性と正確な予測モデルの開発など、克服すべき課題がある。
本研究では,正確で信頼性の高い予測モデルを行うことで抗癌ペプチドを識別できる効率的なトランスフォーマーベースのフレームワークを提案する。
この目的のために、アミノ酸配列から抗がんペプチドを検出するために、ESM、ProtBert、BioBERT、SciBERTの4つの異なるトランスフォーマーモデルを用いる。
このフレームワークの貢献を実証するために、文献で広く使われているデータセット、AntiCp2の2つのバージョン、cACP-DeepGram、ACP-740について広範な実験を行った。
実験の結果, 提案モデルの利用は, 最新の研究と比較して分類精度を高めることが示された。
提案されたフレームワークであるESMは、AntiCp2データセットの96.45の精度、cACP-DeepGramデータセットの97.66の精度、ACP-740データセットの88.51の精度を示し、その結果、新しい最先端技術を決定する。 Anticancer peptides (ACPs) are a class of molecules that have gained significant attention in the field of cancer research and therapy. ACPs are short chains of amino acids, the building blocks of proteins, and they possess the ability to selectively target and kill cancer cells. One of the key advantages of ACPs is their ability to selectively target cancer cells while sparing healthy cells to a greater extent. This selectivity is often attributed to differences in the surface properties of cancer cells compared to normal cells. That is why ACPs are being investigated as potential candidates for cancer therapy. ACPs may be used alone or in combination with other treatment modalities like chemotherapy and radiation therapy. While ACPs hold promise as a novel approach to cancer treatment, there are challenges to overcome, including optimizing their stability, improving selectivity, and enhancing their delivery to cancer cells, continuous increasing in number of peptide sequences, developing a reliable and precise prediction model. In this work, we propose an efficient transformer-based framework to identify anticancer peptides for by performing accurate a reliable and precise prediction model. For this purpose, four different transformer models, namely ESM, ProtBert, BioBERT, and SciBERT are employed to detect anticancer peptides from amino acid sequences. To demonstrate the contribution of the proposed framework, extensive experiments are carried on widely-used datasets in the literature, two versions of AntiCp2, cACP-DeepGram, ACP-740. Experiment results show the usage of proposed model enhances classification accuracy when compared to the state-of-the-art studies. The proposed framework, ESM, exhibits 96.45 of accuracy for AntiCp2 dataset, 97.66 of accuracy for cACP-DeepGram dataset, and 88.51 of accuracy for ACP-740 dataset, thence determining new state-of-the-art. | 翻訳日:2024-01-05 15:46:00 公開日:2024-01-04 |
# peft for speech - 最適な配置、マージ戦略、アンサンブル技術を公開する PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques ( http://arxiv.org/abs/2401.02122v1 ) ライセンス: Link先を確認 | Tzu-Han Lin, How-Shing Wang, Hao-Yung Weng, Kuang-Chen Peng, Zih-Ching Chen, Hung-yi Lee | (参考訳) パラメータ効率の良いファインチューニング(PEFT)は音声処理において有効な方法として認識されつつある。
しかし、PEFT法の最適手法と配置はいまだ決定的ではない。
本研究では,異なるPEFT手法と,異なるアーキテクチャ探索(DARTS)を適応させるレイヤワイド配置の比較実験を行った。
また,多様なPEFT戦略を活用するためのアンサンブル学習の活用についても検討する。
その結果、DARTSは、同じPEFTメソッドを自己監視学習(SSL)モデルのすべての層に挿入する、ベースラインアプローチよりも優れていることが判明した。
対照的に、アンサンブル学習アプローチ、特に多数決を採るアプローチは、優れたパフォーマンスを示している。
我々の統計的証拠は、異なるペフト法が様々な方法で学習することを示している。
この変化は、アンサンブル学習による様々なPEFTメソッドのシナジスティックな統合が、個々のレイヤワイズ最適化と比較して、独自の学習能力を効果的に活用できる理由を説明できるかもしれない。 Parameter-Efficient Fine-Tuning (PEFT) is increasingly recognized as an effective method in speech processing. However, the optimal approach and the placement of PEFT methods remain inconclusive. Our study conducts extensive experiments to compare different PEFT methods and their layer-wise placement adapting Differentiable Architecture Search (DARTS). We also explore the use of ensemble learning to leverage diverse PEFT strategies. The results reveal that DARTS does not outperform the baseline approach, which involves inserting the same PEFT method into all layers of a Self-Supervised Learning (SSL) model. In contrast, an ensemble learning approach, particularly one employing majority voting, demonstrates superior performance. Our statistical evidence indicates that different PEFT methods learn in varied ways. This variation might explain why the synergistic integration of various PEFT methods through ensemble learning can harness their unique learning capabilities more effectively compared to individual layer-wise optimization. | 翻訳日:2024-01-05 15:45:27 公開日:2024-01-04 |
# ランダム行列理論における一般化スペクトル形状因子 Generalized Spectral Form Factor in Random Matrix Theory ( http://arxiv.org/abs/2401.02119v1 ) ライセンス: Link先を確認 | Zhiyang Wei, Chengming Tan, Ren Zhang | (参考訳) スペクトル形成因子(SFF)は、複雑な系におけるエネルギー準位分布の統計的性質を明らかにする上で重要な役割を果たす。
量子カオスを診断し、普遍的なダイナミクスを解き放つツールの1つである。
ほとんどの文献におけるsffの定義は、2段階の相関のみを包含する。
本稿では,SSFの定義を高次相関を含むように拡張する。
具体的には、一般化スペクトル形式因子(gsff)をフーリエ変換によって得ることができる相関関数を定義するために、エネルギー準位の標準偏差を導入する。
GSFFはカオスシステムの力学に関するより包括的な知識を提供する。
ランダム行列を例として,GSFFで符号化された新しい動的特徴を示す。
驚くべきことに、gsffは複雑であり、実部と虚部の両方が普遍的なダイナミクスを示している。
例えば、二段階相関の場合、GSFFの実部は、従来のものと類似したディップ・ランプ・プラトー構造を示し、異なるシステムサイズに対する想像的部分は、長い時間制限で収束する。
2レベルGSFFでは、実部の閉解析形式が得られ、数値結果と一致している。
虚部の結果は数値計算により得られる。
同様の分析は3レベルGSFFに拡張される。 The spectral form factor (SFF) plays a crucial role in revealing the statistical properties of energy level distributions in complex systems. It is one of the tools to diagnose quantum chaos and unravel the universal dynamics therein. The definition of SFF in most literature only encapsulates the two-level correlation. In this manuscript, we extend the definition of SSF to include the high-order correlation. Specifically, we introduce the standard deviation of energy levels to define correlation functions, from which the generalized spectral form factor (GSFF) can be obtained by Fourier transforms. GSFF provides a more comprehensive knowledge of the dynamics of chaotic systems. Using random matrices as examples, we demonstrate new dynamics features that are encoded in GSFF. Remarkably, the GSFF is complex, and both the real and imaginary parts exhibit universal dynamics. For instance, in the two-level correlated case, the real part of GSFF shows a dip-ramp-plateau structure akin to the conventional counterpart, and the imaginary part for different system sizes converges in the long time limit. For the two-level GSFF, the closed analytical forms of the real part are obtained and consistent with numerical results. The results of the imaginary part are obtained by numerical calculation. Similar analyses are extended to three-level GSFF. | 翻訳日:2024-01-05 15:45:12 公開日:2024-01-04 |
# モバイルALOHA:低コスト全体遠隔操作によるバイマニピュレーション学習 Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation ( http://arxiv.org/abs/2401.02117v1 ) ライセンス: Link先を確認 | Zipeng Fu, Tony Z. Zhao, Chelsea Finn | (参考訳) 人間のデモから学ぶ模倣は、ロボティクスで印象的なパフォーマンスを示している。
しかし、ほとんどの結果はテーブルトップ操作に焦点を合わせ、一般的に有用なタスクに必要なモビリティとデクタリティを欠いている。
本研究では,バイマン的かつ全身制御を必要とするモバイル操作タスクを模倣するシステムを開発する。
まず,データ収集のための低コスト全体遠隔操作システムMobile ALOHAを提案する。
ALOHAシステムはモバイルベースと全身の遠隔操作インタフェースで拡張されている。
モバイル aloha で収集したデータを用いて教師付き動作のクローニングを行い,既存の静的 aloha データセットとの共同トレーニングによってモバイル操作タスクのパフォーマンスが向上することを示す。
タスク毎に50のデモを行うと、コトレーニングは成功率を最大90%向上させ、モバイルALOHAは、吐き気やエビなどの複雑なモバイル操作タスクを自律的に完了し、2ドアの壁のキャビネットを開き、重い調理鍋を保管し、エレベーターを呼び込み、キッチンの蛇口を使って使用済みの鍋を軽く洗うことができる。
プロジェクトサイト: https://mobile-aloha.github.io Imitation learning from human demonstrations has shown impressive performance in robotics. However, most results focus on table-top manipulation, lacking the mobility and dexterity necessary for generally useful tasks. In this work, we develop a system for imitating mobile manipulation tasks that are bimanual and require whole-body control. We first present Mobile ALOHA, a low-cost and whole-body teleoperation system for data collection. It augments the ALOHA system with a mobile base, and a whole-body teleoperation interface. Using data collected with Mobile ALOHA, we then perform supervised behavior cloning and find that co-training with existing static ALOHA datasets boosts performance on mobile manipulation tasks. With 50 demonstrations for each task, co-training can increase success rates by up to 90%, allowing Mobile ALOHA to autonomously complete complex mobile manipulation tasks such as sauteing and serving a piece of shrimp, opening a two-door wall cabinet to store heavy cooking pots, calling and entering an elevator, and lightly rinsing a used pan using a kitchen faucet. Project website: https://mobile-aloha.github.io | 翻訳日:2024-01-05 15:44:53 公開日:2024-01-04 |
# LLMを使って候補から正しいSQLクエリを選択する Using LLM to select the right SQL Query from candidates ( http://arxiv.org/abs/2401.02115v1 ) ライセンス: Link先を確認 | Zhenwen Li, Tao Xie | (参考訳) text-to-sqlモデルは、候補sqlクエリのリストを生成することができ、最良のクエリは、しばしば候補リストにあるが、リストのトップではない。
効果的なリランク手法では、候補リストから正しいSQLクエリを選択し、モデルの性能を改善することができる。
コード生成に関するこれまでの研究は、自動でテストケースを生成し、それらを候補コードの再ランクに使用する。
しかし、テキストからSQLへの自動テストケース生成は未調査の分野である。
そこで本研究では,まずデータベースを生成し,その後llmsを用いて基底真理を予測する自動テストケース生成手法を提案する。
LLMの予測の難しさを軽減するため,LLMのデータベース生成方法の探索や,理解しやすいプロンプトの設計を行う。
本稿では,テストケース生成手法に基づき,候補リストから適切なSQLクエリを選択するリランク手法を提案する。
候補リストが与えられると、テストケースを生成し、これらのテストケースのパス番号と生成確率に応じて候補リストを再ランク付けすることができる。
実験の結果、Spiderの検証データセットから、いくつかの最先端モデルの性能は、再ランク法を適用して3.6\%改善できることが示された。 Text-to-SQL models can generate a list of candidate SQL queries, and the best query is often in the candidate list, but not at the top of the list. An effective re-rank method can select the right SQL query from the candidate list and improve the model's performance. Previous studies on code generation automatically generate test cases and use them to re-rank candidate codes. However, automatic test case generation for text-to-SQL is an understudied field. We propose an automatic test case generation method that first generates a database and then uses LLMs to predict the ground truth, which is the expected execution results of the ground truth SQL query on this database. To reduce the difficulty for LLMs to predict, we conduct experiments to search for ways to generate easy databases for LLMs and design easy-to-understand prompts. Based on our test case generation method, we propose a re-rank method to select the right SQL query from the candidate list. Given a candidate list, our method can generate test cases and re-rank the candidate list according to their pass numbers on these test cases and their generation probabilities. The experiment results on the validation dataset of Spider show that the performance of some state-of-the-art models can get a 3.6\% improvement after applying our re-rank method. | 翻訳日:2024-01-05 15:44:30 公開日:2024-01-04 |
# 仮想トライオンにおける解剖学的制約の意義 Significance of Anatomical Constraints in Virtual Try-On ( http://arxiv.org/abs/2401.02110v1 ) ライセンス: Link先を確認 | Debapriya Roy, Sanchayan Santra, Diganta Mukherjee, and Bhabatosh Chanda | (参考訳) VTON(Virtual Try-ON)は、ユーザが仮想的に製品を試すことを可能にするシステムである。
一般に、VTONシステムは、衣服のソースと人のイメージを取り込み、所定の衣服の人の試着出力を予測する。
既存の方法は、曲げや交差した腕の姿勢や、元服のアライメントと対象者の姿勢との間に有意な差がある場合など、簡単なポーズではうまく機能するが、不正確な衣服変形を生じさせることで失敗する。
薄板スプライン(tps)を用いた衣料変換を用いたvton法では,(1)物体面の曲げを制限したtpsの2次滑らか性制約の2つの理由から,この現象が主に発生する。
2)異なる衣服部品(スリーブや胴体など)間のオーバーラップは、単一の平面オブジェクトとして服を仮定する単一のTPS変換によってモデル化できないため、異なる衣服部品の移動の独立性を無視している。
この目的のために、私たちは2つの大きな貢献をします。
TPSの曲げ制限について,人間のAnaTomy-Aware Geometric (ATAG)変換を提案する。
重ね合わせ問題については,衣服を独立に保温可能な部分に分けて別々に保温し,後に組み合わせた部分制振手法を提案する。
大規模な分析はこのアプローチの有効性を示している。 The system of Virtual Try-ON (VTON) allows a user to try a product virtually. In general, a VTON system takes a clothing source and a person's image to predict the try-on output of the person in the given clothing. Although existing methods perform well for simple poses, in case of bent or crossed arms posture or when there is a significant difference between the alignment of the source clothing and the pose of the target person, these methods fail by generating inaccurate clothing deformations. In the VTON methods that employ Thin Plate Spline (TPS) based clothing transformations, this mainly occurs for two reasons - (1)~the second-order smoothness constraint of TPS that restricts the bending of the object plane. (2)~Overlaps among different clothing parts (e.g., sleeves and torso) can not be modeled by a single TPS transformation, as it assumes the clothing as a single planar object; therefore, disregards the independence of movement of different clothing parts. To this end, we make two major contributions. Concerning the bending limitations of TPS, we propose a human AnaTomy-Aware Geometric (ATAG) transformation. Regarding the overlap issue, we propose a part-based warping approach that divides the clothing into independently warpable parts to warp them separately and later combine them. Extensive analysis shows the efficacy of this approach. | 翻訳日:2024-01-05 15:44:11 公開日:2024-01-04 |
# カドミウム亜鉛テルライド(czt)光子計数検出器を用いた軟組織イメージング Cadmium Zinc Telluride (CZT) photon counting detector Characterisation for soft tissue imaging ( http://arxiv.org/abs/2401.02106v1 ) ライセンス: Link先を確認 | Kamran Hameed, Rafidah Zainon and Mahbubunnabi Tamal | (参考訳) 光子計数検出技術の利用は近年、重要なx線画像研究の関心を呼んでいる。
Computed Tomography(CT)スキャナーは、従来のCT検出器の重要な限界を克服する可能性のある新しい技術である光子計数検出器の恩恵を受けることができる。
研究者は、軟組織コントラストを検出するための光子計数検出器における半導体検出器材料の有効性と感度について研究を続けている。
本研究では,種々の組織を同定するカドミウム亜鉛テルル光子計数検出器の性能を特徴付けることを目的とした。
CZT検出器の最適フレームレート(FPS)は,25keV,35keV,0.5mA,1.0mAのX線管電圧と電流をそれぞれ最適FPSを固定し,検出エネルギー閾値を15keVから35keVの小さなステップで設定し,電流を0.1mAから1.0mAの範囲のX線管に設定して,X線源の電圧と電流と秒数(CPS)の関係を調べた。
試料, 脂肪, 肝臓, 筋肉, パラフィンワックス, コントラストメディアは, プレキシガラス製階段式室に6種類の厚さで積み重ねられた。
また, 組織試料の厚さ6種類のX線透過率を, 5つの異なるエネルギー(領域)閾値(21 keV, 25 keV, 29 keV, 31 keV, 45 keV)で測定した。
本研究では、X線源のスペクトル応答に基づいて、1秒あたり12フレームを最適フレームレート(FPS)とし、CPSはX線管電流とも線形関係を持つことを示した。
また、試料の厚さが異なるエネルギー閾値でのx線透過にも影響を及ぼすことも指摘された。
検出器の感度が高く、直線性も高く、前臨床および医学の用途に適している。 The use of photon counting detection technology has resulted in significant X-ray imaging research interest in recent years. Computed Tomography (CT) scanners can benefit from photon-counting detectors, which are new technology with the potential to overcome key limitations of conventional CT detectors. Researchers are still studying the effectiveness and sensitivity of semiconductor detector materials in photon counting detectors for detecting soft tissue contrasts. This study aimed to characterize the performance of the Cadmium Zinc Telluride photon counting detector in identifying various tissues. An optimal frame rate per second (FPS) of CZT detector was evaluated by setting the X-ray tube voltage and current at 25 keV, 35 keV and 0.5 mA, 1.0 mA respectively by keeping the optimum FPS fixed, the detector energy thresholds were set in small steps from 15 keV to 35 keV and the Currents were set for X-ray tubes in ranges of 0.1 mA to 1.0 mA to find the relationship between voltage and current of the X-ray source and counts per second (CPS). The samples i.e., fat, liver, muscles, paraffin wax, and contrast media were stacked at six different thickness levels in a stair-step chamber made from Plexi-glass. X-ray transmission at six different thicknesses of tissue samples was also examined for five different energy (regions) thresholds (21 keV, 25 keV, 29 keV, 31 keV, and 45 keV) to determine the effect on count per second (CPS). In this study, 12 frames per second is found to be the optimum frame rate per second (FPS) based on the spectral response of an X-ray source and CPS has a linear relationship with X-ray tube current as well. It was also noted that A sample's thickness also affects its X-ray transmission at different energy thresholds. A high sensitivity and linearity of the detectors make them suitable for use in both preclinical and medical applications. | 翻訳日:2024-01-05 15:43:47 公開日:2024-01-04 |
# 介護におけるヒューマノイドロボットの知覚--養護老人ホームと介護管理者のスキルに関する研究 Perceptions of Humanoid Robots in Caregiving: A Study of Skilled Nursing Home and Long Term Care Administrators ( http://arxiv.org/abs/2401.02105v1 ) ライセンス: Link先を確認 | Rana Imtiaz, Arshia Khan | (参考訳) 高齢化が進み、医療従事者の不足が増大するにつれて、高齢化のための他の手段を検討する必要がある。
そのような手段の1つは、65歳以上の人々の社会的、感情的、身体的幸福をケアするためにヒューマノイドロボットを使用することである。
介護老人ホーム管理者の介護におけるヒューマノイドロボットに対する視点の理解は,ロボットの実践と生活の質に対する潜在的な影響を形作る上で重要である。
筆者らは, 介護施設におけるヒューマノイドロボットの利用に関する視点を把握すべく, 介護老人ホームの幹部290人を調査した。
データはコード化され、その結果、幹部たちは介護施設の能力を高めるロボティクスのような他のケア手段を探究することに熱心であることが判明した。
質的分析は、介護施設におけるヒューマノイドロボットの統合に関する様々な視点を明らかにする。
エンゲージメントの改善やスタッフサポートなどのメリットを認めながら、コスト、人間との相互作用への影響、ロボットの有効性への疑念は継続する。
これは、金融、技術、人間の複雑な障壁を強調し、戦略的実装の必要性を強調します。
スタッフや住民の効率性と満足度を確保するために、徹底的な訓練、役割の明確化、およびショーケースング技術の利点の重要性を強調している。 As the aging population increases and the shortage of healthcare workers increases, the need to examine other means for caring for the aging population increases. One such means is the use of humanoid robots to care for social, emotional, and physical wellbeing of the people above 65. Understanding skilled and long term care nursing home administrators' perspectives on humanoid robots in caregiving is crucial as their insights shape the implementation of robots and their potential impact on resident well-being and quality of life. This authors surveyed two hundred and sixty nine nursing homes executives to understand their perspectives on the use of humanoid robots in their nursing home facilities. The data was coded and results revealed that the executives were keen on exploring other avenues for care such as robotics that would enhance their nursing homes abilities to care for their residents. Qualitative analysis reveals diverse perspectives on integrating humanoid robots in nursing homes. While acknowledging benefits like improved engagement and staff support, concerns persist about costs, impacts on human interaction, and doubts about robot effectiveness. This highlights complex barriers financial, technical, and human and emphasizes the need for strategic implementation. It underscores the importance of thorough training, role clarity, and showcasing technology benefits to ensure efficiency and satisfaction among staff and residents. | 翻訳日:2024-01-05 15:43:06 公開日:2024-01-04 |
# トポロジカル巨大原子を持つ1次元導波路における単一光子散乱と束縛状態 Single-photon scattering and bound states in a one-dimensional waveguide with topological giant atom ( http://arxiv.org/abs/2401.02104v1 ) ライセンス: Link先を確認 | Wei Zhao, Tian Tian, Zhihai Wang | (参考訳) 結合共振器導波路 (crw) における単一光子散乱と結合状態について検討し, 2つの遠方点から位相巨原子 (tga) と結合する。
ここで、TGAは有限長の1次元のSu-Schrieffer-Heeger鎖によって構成される。
TGAの位相位相を調節することにより、CRWの入射光子を完全に反射または伝達することができ、コヒーレントフォトニックデバイスの設計に有用である。
一方、それぞれ上に位置する2対の束縛状態も達成し、連続体を吹き飛ばす。
ギャップが開いているか閉じているかは、TGAの境界条件に依存する。
したがって、位相と干渉の組み合わせは、導波路QEDの文脈でフォトニック状態を操作するエキサイティングな機会を与えてくれる。 We investigate the single photon scattering and bound states in a coupled resonator waveguide (CRW) which couples to a topological giant atom (TGA) via two distant sites. Here, the TGA is constructed by a one dimensional Su-Schrieffer-Heeger chain with finite length. By modulating the topological phase of the TGA, the incident photon in the CRW can be completely reflected or transmitted, and is therefore beneficial to design the coherent photonic device. Meanwhile, we also achieve two pairs of bound states locating respectively above and blow the continuum. Whether the gap is open or closed depends on the boundary condition of the TGA. Therefore, the combination of the topology and the interference provides us an exciting opportunity to manipulate the photonic state in the context of waveguide QED. | 翻訳日:2024-01-05 15:42:44 公開日:2024-01-04 |
# CLAPP:パッシブ水中容器分類におけるコントラスト言語-オーディオ事前学習 CLAPP: Contrastive Language-Audio Pre-training in Passive Underwater Vessel Classification ( http://arxiv.org/abs/2401.02099v1 ) ライセンス: Link先を確認 | Zeyu Li, Jingsheng Gao, Tong Yu, Suncheng Xiang, Jiacheng Ruan, Ting Liu, Yuzhuo Fu | (参考訳) 既存のオーディオ分類の研究は、受動的水中容器のシナリオの属性を認識することの難しさに直面し、データプライバシの懸念による十分な注釈付きデータセットが欠如している。
本研究では,新しいモデルclapp(contrastive language-audio pre-training in passive underwater vessel classification)を提案する。
本研究の目的は,オーシャンシップデータセットから得られた広い範囲の船舶音声と船舶状態テキストペアを用いてニューラルネットワークを訓練することである。
CLAPPは、生の血管オーディオデータから直接学習することができ、利用可能であれば、慎重にキュレートされたラベルから、受動的水中血管シナリオにおける血管属性の認識を改善することができる。
Modelのゼロショット機能は、タスクを直接最適化することなく、与えられた船体オーディオの最も関連性の高い船体状態記述を予測できる。
本研究の目的は,血管内オーディオテキスト分類と受動的水中オーディオ属性認識という2つの課題を解決することである。
提案手法はdeepshipとshipsearの両方のパブリックデータセットで最新の結果を得ることができ、ゼロショットタスクの以前の方法と比較して精度が7%-13%とかなり低い。 Existing research on audio classification faces challenges in recognizing attributes of passive underwater vessel scenarios and lacks well-annotated datasets due to data privacy concerns. In this study, we introduce CLAPP (Contrastive Language-Audio Pre-training in Passive Underwater Vessel Classification), a novel model. Our aim is to train a neural network using a wide range of vessel audio and vessel state text pairs obtained from an oceanship dataset. CLAPP is capable of directly learning from raw vessel audio data and, when available, from carefully curated labels, enabling improved recognition of vessel attributes in passive underwater vessel scenarios. Model's zero-shot capability allows predicting the most relevant vessel state description for a given vessel audio, without directly optimizing for the task. Our approach aims to solve 2 challenges: vessel audio-text classification and passive underwater vessel audio attribute recognition. The proposed method achieves new state-of-the-art results on both Deepship and Shipsear public datasets, with a notable margin of about 7%-13% for accuracy compared to prior methods on zero-shot task. | 翻訳日:2024-01-05 15:42:29 公開日:2024-01-04 |
# 拡散モデルの初期化による画像特性の保存 Preserving Image Properties Through Initializations in Diffusion Models ( http://arxiv.org/abs/2401.02097v1 ) ライセンス: Link先を確認 | Jeffrey Zhang, Shao-Yu Chang, Kedan Li, David Forsyth | (参考訳) 小売撮影は、画像に特定の要件を課す。
例えば、画像には均一な背景色、一貫したモデルポーズ、中心となる製品、一貫した照明が必要である。
これらの標準からのわずかな逸脱は、サイトの美的魅力に影響を与え、画像の使用に適さない。
現在適用されている安定拡散法は,これらの要件を尊重しないことを示す。
ノイズの多い画像でデノイザーを訓練し、純粋なノイズのサンプルで推論を開始するという通常のプラクティスは、推論中に生成された画像の一貫性を損なう。
この矛盾は、トレーニングのサンプルと推論の分布の違いを容易に判断できるため起こる。
その結果、一様背景を持つ中央の小売商品画像で訓練されたネットワークは、不規則な背景を持つ画像を生成する。
この問題は、ノイズ画像の近似からサンプルによる推論を初期化することで容易に解決できる。
しかし、そのような近似を用いる場合、推論時のテキストとノイズ画像の関節分布は、トレーニング時とまだ若干異なる。
この不一致は、近似雑音画像分布からサンプルとネットワークを訓練することにより補正される。
実アプリケーションデータに対する大規模な実験は、これらの手順の採用によるパフォーマンスの質的かつ定量的な改善を示す。
最後に,本手法は他の制御ベース手法とうまく相互作用し,拡散ベース手法の制御性をさらに高めることができる。 Retail photography imposes specific requirements on images. For instance, images may need uniform background colors, consistent model poses, centered products, and consistent lighting. Minor deviations from these standards impact a site's aesthetic appeal, making the images unsuitable for use. We show that Stable Diffusion methods, as currently applied, do not respect these requirements. The usual practice of training the denoiser with a very noisy image and starting inference with a sample of pure noise leads to inconsistent generated images during inference. This inconsistency occurs because it is easy to tell the difference between samples of the training and inference distributions. As a result, a network trained with centered retail product images with uniform backgrounds generates images with erratic backgrounds. The problem is easily fixed by initializing inference with samples from an approximation of noisy images. However, in using such an approximation, the joint distribution of text and noisy image at inference time still slightly differs from that at training time. This discrepancy is corrected by training the network with samples from the approximate noisy image distribution. Extensive experiments on real application data show significant qualitative and quantitative improvements in performance from adopting these procedures. Finally, our procedure can interact well with other control-based methods to further enhance the controllability of diffusion-based methods. | 翻訳日:2024-01-05 15:42:07 公開日:2024-01-04 |
# プロトタイプ誘導変換器を用いたフェデレーションクラスインクリメンタルラーニング Federated Class-Incremental Learning with Prototype Guided Transformer ( http://arxiv.org/abs/2401.02094v1 ) ライセンス: Link先を確認 | Haiyang Guo, Fei Zhu, Wenzhuo Liu, Xu-Yao Zhang, Cheng-Lin Liu | (参考訳) 既存のフェデレーション学習手法は、データプライバシと非IIDデータを含むシナリオにおいて、分散学習に効果的に対処してきた。
しかし、現実の状況では、各クライアントは新しいクラスを動的に学習し、グローバルモデルが新しいクラスと古いクラスの識別能力を維持する必要がある。
低通信コスト下での破滅的忘れとデータ不均一性の効果を効果的に軽減するために,PLoRAという簡易かつ効果的な手法を考案した。
一方で,より優れた特徴表現を学習し,プロトタイプとクラス特徴間のヒューリスティック情報を活用するためにプロトタイプ学習を採用し,データ不均質性に起因する分類子バイアスを分類層の再訓練なしに解決するプロトタイプ再重みモジュールを設計した。
一方,本手法では,事前学習したモデルをバックボーンとして活用し,loraを用いて新しいクラスを学習する際のパラメータを微調整する。
さらに、PLoRAは類似性に基づくモジュール選択戦略に頼らず、通信オーバーヘッドをさらに削減する。
標準データセットにおける実験結果は,本手法が最先端のアプローチを著しく上回っていることを示している。
さらに,本手法は様々なシナリオやデータの均一性に強い強靭性と優越性を示す。
私たちのコードは公開されます。 Existing federated learning methods have effectively addressed decentralized learning in scenarios involving data privacy and non-IID data. However, in real-world situations, each client dynamically learns new classes, requiring the global model to maintain discriminative capabilities for both new and old classes. To effectively mitigate the effects of catastrophic forgetting and data heterogeneity under low communication costs, we designed a simple and effective method named PLoRA. On the one hand, we adopt prototype learning to learn better feature representations and leverage the heuristic information between prototypes and class features to design a prototype re-weight module to solve the classifier bias caused by data heterogeneity without retraining the classification layer. On the other hand, our approach utilizes a pre-trained model as the backbone and utilizes LoRA to fine-tune with a tiny amount of parameters when learning new classes. Moreover, PLoRA does not rely on similarity-based module selection strategies, thereby further reducing communication overhead. Experimental results on standard datasets indicate that our method outperforms the state-of-the-art approaches significantly. More importantly, our method exhibits strong robustness and superiority in various scenarios and degrees of data heterogeneity. Our code will be publicly available. | 翻訳日:2024-01-05 15:41:49 公開日:2024-01-04 |
# k-winners-take-allアンサンブルニューラルネットワーク k-Winners-Take-All Ensemble Neural Network ( http://arxiv.org/abs/2401.02092v1 ) ライセンス: Link先を確認 | Abien Fred Agarap and Arnulfo P. Azcarraga | (参考訳) センスリング(ensembling)は、多くの独立したニューラルネットワークを結合することで、ニューラルネットワークのパフォーマンスを向上させるアプローチのひとつだ。
サブネットワークを独立してトレーニングすることで、このセンスリングアプローチを変更します。
このようなサブネットワークの同時訓練は、互いに協力し合い、それらを「協調的なアンサンブル」と呼ぶ。
一方、mixed-of-expertsアプローチは、与えられたデータセットをサブネットワークに分割することで、ニューラルネットワークのパフォーマンスを向上させる。
次に、"experts"と呼ばれる各サブネットワークに特殊化を割り当てるゲーティングネットワークを使用する。
k-Winners-Take-All (kWTA) アクティベーション関数を用いて、上記のニューラルネットワーク群を結合する方法を改善し、アンサンブル内の各サブネットワークの出力の組み合わせ方法として機能する。
本稿では,このモデルについて,kWTAアンサンブルニューラルネットワーク(kWTA-ENN)と呼ぶ。
kWTA活性化機能により、サブネットワークの喪失ニューロンが抑制され、勝利ニューロンが保持される。
この結果、サブネットワークにはある種の専門化があるが、相互に知識を共有することもできる。
そこで我々は、サブネットワークアーキテクチャとして100のニューロンを持つ1つの隠れ層を持つフィードフォワードニューラルネットワークを用いた。
ベンチマークデータセットでは98.34%がmnist、88.06%がファッションmnist、91.56%がkmnist、95.97%がwdbcであった。 Ensembling is one approach that improves the performance of a neural network by combining a number of independent neural networks, usually by either averaging or summing up their individual outputs. We modify this ensembling approach by training the sub-networks concurrently instead of independently. This concurrent training of sub-networks leads them to cooperate with each other, and we refer to them as "cooperative ensemble". Meanwhile, the mixture-of-experts approach improves a neural network performance by dividing up a given dataset to its sub-networks. It then uses a gating network that assigns a specialization to each of its sub-networks called "experts". We improve on these aforementioned ways for combining a group of neural networks by using a k-Winners-Take-All (kWTA) activation function, that acts as the combination method for the outputs of each sub-network in the ensemble. We refer to this proposed model as "kWTA ensemble neural networks" (kWTA-ENN). With the kWTA activation function, the losing neurons of the sub-networks are inhibited while the winning neurons are retained. This results in sub-networks having some form of specialization but also sharing knowledge with one another. We compare our approach with the cooperative ensemble and mixture-of-experts, where we used a feed-forward neural network with one hidden layer having 100 neurons as the sub-network architecture. Our approach yields a better performance compared to the baseline models, reaching the following test accuracies on benchmark datasets: 98.34% on MNIST, 88.06% on Fashion-MNIST, 91.56% on KMNIST, and 95.97% on WDBC. | 翻訳日:2024-01-05 15:41:29 公開日:2024-01-04 |
# Shayona@SMM4H23: BERTとLightGBMモデルを用いた自己診断分類 Shayona@SMM4H23: COVID-19 Self diagnosis classification using BERT and LightGBM models ( http://arxiv.org/abs/2401.02158v1 ) ライセンス: Link先を確認 | Rushi Chavda, Darshan Makwana, Vraj Patel, Anupam Shukla | (参考訳) 本稿では,Team Shayona による SMMH4-23 のタスク 1 と 4 の共有に対するアプローチと結果について述べる。
共有タスク1は、covid-19診断を自己報告する英語ツイートのバイナリ分類であり、共有タスク4は、社会不安障害診断を自己報告する英語のreddit投稿のバイナリ分類であった。
私たちのチームは、すべての参加者の中で、タスク1でf1-score 0.94を最高に達成しました。
両タスクで LightGBM モデルと組み合わせて Transformer Model (BERT) を利用した。 This paper describes approaches and results for shared Task 1 and 4 of SMMH4-23 by Team Shayona. Shared Task-1 was binary classification of english tweets self-reporting a COVID-19 diagnosis, and Shared Task-4 was Binary classification of English Reddit posts self-reporting a social anxiety disorder diagnosis. Our team has achieved the highest f1-score 0.94 in Task-1 among all participants. We have leveraged the Transformer model (BERT) in combination with the LightGBM model for both tasks. | 翻訳日:2024-01-05 15:34:48 公開日:2024-01-04 |
# クロスサイロデータによる因果効果の遠方性推定 Disentangle Estimation of Causal Effects from Cross-Silo Data ( http://arxiv.org/abs/2401.02154v1 ) ライセンス: Link先を確認 | Yuxuan Liu, Haozhao Wang, Shuang Wang, Zhiming He, Wenchao Xu, Jialiang Zhu, Fan Yang | (参考訳) 異なる事象における因果効果の推定は、薬物開発のような重要な分野において非常に重要である。
それでも、イベントに関連するデータ機能は、さまざまなサイロに分散し、各パーティ内でプライベートであり、それらの間の直接的な情報交換を妨げる可能性がある。
これにより、局所因果効果の偏りのある推定が可能となり、これは共変量のサブセットのみの特性に依存する。
この課題に対処するために,モデルパラメータのシームレスなクロスサイロ伝送を容易にするために,共有ブランチとプライベートブランチを組み合わせることで,因果メカニズムに富んだ革新的なアンタングルアーキテクチャを導入する。
さらに,この方程式に大域的な制約を導入し,欠落領域内のバイアスを効果的に軽減し,因果効果推定の精度を高める。
新しい半合成データセットで行った広範囲な実験により、この手法は最先端のベースラインよりも優れていた。 Estimating causal effects among different events is of great importance to critical fields such as drug development. Nevertheless, the data features associated with events may be distributed across various silos and remain private within respective parties, impeding direct information exchange between them. This, in turn, can result in biased estimations of local causal effects, which rely on the characteristics of only a subset of the covariates. To tackle this challenge, we introduce an innovative disentangle architecture designed to facilitate the seamless cross-silo transmission of model parameters, enriched with causal mechanisms, through a combination of shared and private branches. Besides, we introduce global constraints into the equation to effectively mitigate bias within the various missing domains, thereby elevating the accuracy of our causal effect estimation. Extensive experiments conducted on new semi-synthetic datasets show that our method outperforms state-of-the-art baselines. | 翻訳日:2024-01-05 15:34:40 公開日:2024-01-04 |
# ASPでの単体テスト:言語とテスト駆動開発環境 Unit Testing in ASP Revisited: Language and Test-Driven Development Environment ( http://arxiv.org/abs/2401.02153v1 ) ライセンス: Link先を確認 | Giovanni Amendola, Tobias Berei, Giuseppe Mazzotta, Francesco Ricca | (参考訳) ユニットテストフレームワークは、現在、ほぼすべてのモダンなソフトウェア開発プロセスに含まれる、正しい仕様の迅速な開発を達成するためのベストプラクティスとみなされています。
業界レベルのアプリケーションで使われているAnswer Set Programming(ASP)のような知識表現と推論パラダイムは例外ではありません。
実際、aspの最初のユニットテスト仕様言語は2011年にaspide開発環境の機能として提案された。
後に、よりポータブルなユニットテスト言語がLANAアノテーション言語に含まれている。
本稿では、ASP.NETでの単体テストのための言語とツールについて再検討する。
我々は、aspプログラム内でテストのインライン化を可能にする新しいユニットテスト仕様言語を提案し、様々なプログラム修正アサーションのチェックに関連するタスクの計算の複雑さを同定する。
テストケース仕様は従来の評価には透過的だが、特定のテストツールによって解釈できる。
そこで我々は,ASPプログラムのテスト駆動開発を支援する新しい環境を提案する。 Unit testing frameworks are nowadays considered a best practice, included in almost all modern software development processes, to achieve rapid development of correct specifications. Knowledge representation and reasoning paradigms such as Answer Set Programming (ASP), that have been used in industry-level applications, are not an exception. Indeed, the first unit testing specification language for ASP was proposed in 2011 as a feature of the ASPIDE development environment. Later, a more portable unit testing language was included in the LANA annotation language. In this paper we revisit both languages and tools for unit testing in ASP. We propose a new unit test specification language that allows one to inline tests within ASP programs, and we identify the computational complexity of the tasks associated with checking the various program-correctness assertions. Test-case specifications are transparent to the traditional evaluation, but can be interpreted by a specific testing tool. Thus, we present a novel environment supporting test driven development of ASP programs. | 翻訳日:2024-01-05 15:34:24 公開日:2024-01-04 |
# 専門家の混合による周波数適応パンシャープ化 Frequency-Adaptive Pan-Sharpening with Mixture of Experts ( http://arxiv.org/abs/2401.02151v1 ) ライセンス: Link先を確認 | Xuanhua He, Keyu Yan, Rui Li, Chengjun Xie, Jie Zhang, Man Zhou | (参考訳) パンシャーピングは、高解像度のパンクロマティック画像を用いて、空間解像度の低いマルチスペクトル画像において欠落する高周波情報を再構成する。
周波数領域との生まれつきの関連性はあるものの、既存のパンシャーピング研究は周波数領域に対する潜在的な解決策をほとんど研究していない。
そこで本研究では,適応周波数分離予測モジュール,サブ周波数学習エキスパートモジュール,エキスパート混合モジュールの3つの主成分からなる,パンシャープ化のための新しい周波数適応混合学習フレームワークを提案する。
詳しくは、第1は離散コサイン変換を利用して周波数マスクを予測して周波数分離を行う。
生成マスクに基づいて、第2の低周波MOEおよび高周波MOEは、有効な低周波・高周波情報再構成を可能にする。
追従して、最終融合モジュールは、高周波および低周波MOE知識を動的に重み付け、かなりの内容の異なるリモートセンシング画像に適応する。
複数のデータセットに対する定量的および定性的な実験により,本手法は他の最先端の手法に対して最善を尽くし,実世界のシーンに対して強力な一般化能力を有することが示された。
コードは \url{https://github.com/alexhe101/FAME-Net} で公開される。 Pan-sharpening involves reconstructing missing high-frequency information in multi-spectral images with low spatial resolution, using a higher-resolution panchromatic image as guidance. Although the inborn connection with frequency domain, existing pan-sharpening research has not almost investigated the potential solution upon frequency domain. To this end, we propose a novel Frequency Adaptive Mixture of Experts (FAME) learning framework for pan-sharpening, which consists of three key components: the Adaptive Frequency Separation Prediction Module, the Sub-Frequency Learning Expert Module, and the Expert Mixture Module. In detail, the first leverages the discrete cosine transform to perform frequency separation by predicting the frequency mask. On the basis of generated mask, the second with low-frequency MOE and high-frequency MOE takes account for enabling the effective low-frequency and high-frequency information reconstruction. Followed by, the final fusion module dynamically weights high-frequency and low-frequency MOE knowledge to adapt to remote sensing images with significant content variations. Quantitative and qualitative experiments over multiple datasets demonstrate that our method performs the best against other state-of-the-art ones and comprises a strong generalization ability for real-world scenes. Code will be made publicly at \url{https://github.com/alexhe101/FAME-Net}. | 翻訳日:2024-01-05 15:34:11 公開日:2024-01-04 |
# 公正な視覚認識のためのMarginal Debiased Network Marginal Debiased Network for Fair Visual Recognition ( http://arxiv.org/abs/2401.02150v1 ) ライセンス: Link先を確認 | Mei Wang, Weihong Deng, Sen Su | (参考訳) ディープニューラルネットワーク(dnn)は、トレーニングデータ(バイアス対応サンプル)の大部分に内在する、ターゲットクラスと性別や人種のようなバイアス属性の散発的な相関を学習することが多いため、現代の多元主義や平等主義社会において不公平な行動や論争が発生する。
本稿では,デバイアス表現を学習するための新しい限界脱バイアスネットワーク(MDN)を提案する。
より具体的には、フェアネス問題にマージンペナルティの概念を導入することにより、偏りのあるサンプル(偏りのないデータ)に対して、偏りのあるサンプルよりも大きなマージンを割り当て、偏りのある相関を強調し、偏りのないテスト基準の一般化を改善することにより、マージンのソフトマックス損失(msl)をデザインする。
マージンを決定するため、MDNはメタ学習フレームワークによって最適化されています。
本稿では,モデルフェアネスを知覚するメタ等化損失(mel)を提案し,最適マージンを導いたトレーニングモデルが不偏メタ評価集合上で計算されたメルを最小化する必要があるメタ最適化によりマージンパラメータを適応的に更新する。
BiasedMNIST, Corrupted CIFAR-10, CelebA, UTK-Face データセットの大規模な実験により, MDN が非表現標本に対して顕著な性能を発揮し, 従来の手法と比較して優れた劣化結果が得られることが示された。 Deep neural networks (DNNs) are often prone to learn the spurious correlations between target classes and bias attributes, like gender and race, inherent in a major portion of training data (bias-aligned samples), thus showing unfair behavior and arising controversy in the modern pluralistic and egalitarian society. In this paper, we propose a novel marginal debiased network (MDN) to learn debiased representations. More specifically, a marginal softmax loss (MSL) is designed by introducing the idea of margin penalty into the fairness problem, which assigns a larger margin for bias-conflicting samples (data without spurious correlations) than for bias-aligned ones, so as to deemphasize the spurious correlations and improve generalization on unbiased test criteria. To determine the margins, our MDN is optimized through a meta learning framework. We propose a meta equalized loss (MEL) to perceive the model fairness, and adaptively update the margin parameters by metaoptimization which requires the trained model guided by the optimal margins should minimize MEL computed on an unbiased meta-validation set. Extensive experiments on BiasedMNIST, Corrupted CIFAR-10, CelebA and UTK-Face datasets demonstrate that our MDN can achieve a remarkable performance on under-represented samples and obtain superior debiased results against the previous approaches. | 翻訳日:2024-01-05 15:33:47 公開日:2024-01-04 |
# 海洋分析におけるGPT-4Vの境界探索--予備研究 Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study ( http://arxiv.org/abs/2401.02147v1 ) ライセンス: Link先を確認 | Ziqiang Zheng, Yiwei Chen, Jipeng Zhang, Tuan-Anh Vu, Huimin Zeng, Yue Him Wong Tim, Sai-Kit Yeung | (参考訳) 大規模言語モデル(LLM)は、汎用アシスタントとして様々なクエリに応答する強力な能力を示している。
連続的マルチモーダル大言語モデル(MLLM)は、視覚信号を知覚する能力を持つLLMに権限を与える。
gpt-4 (generative pre-trained transformers) の発売は研究コミュニティに大きな関心を寄せている。
GPT-4V(ison)は、新しい人工知能生成の焦点として、学術分野と産業分野の両方で大きな影響力を示している。
GPT-4Vによって大きな成功を収めたが、ドメイン固有の知識と専門知識を必要とするドメイン固有の分析(例えば海洋分析)におけるMLLMの探索は、あまり注目されなかった。
本研究では,GPT-4Vを海洋分析に用いるための予備的かつ包括的な事例研究を行う。
本報告では,既存のGPT-4Vを体系的に評価し,海洋研究におけるGPT-4Vの性能を評価するとともに,MLLMの今後の発展のための新しい標準を策定する。
GPT-4Vの実験結果から, GPT-4Vが生成する応答は, 海洋専門職の領域固有の要求を満たすには程遠いことが明らかとなった。
この研究で使用されるすべての画像とプロンプトはhttps://github.com/hkust-vgd/Marine_GPT-4V_Evalで入手できる。 Large language models (LLMs) have demonstrated a powerful ability to answer various queries as a general-purpose assistant. The continuous multi-modal large language models (MLLM) empower LLMs with the ability to perceive visual signals. The launch of GPT-4 (Generative Pre-trained Transformers) has generated significant interest in the research communities. GPT-4V(ison) has demonstrated significant power in both academia and industry fields, as a focal point in a new artificial intelligence generation. Though significant success was achieved by GPT-4V, exploring MLLMs in domain-specific analysis (e.g., marine analysis) that required domain-specific knowledge and expertise has gained less attention. In this study, we carry out the preliminary and comprehensive case study of utilizing GPT-4V for marine analysis. This report conducts a systematic evaluation of existing GPT-4V, assessing the performance of GPT-4V on marine research and also setting a new standard for future developments in MLLMs. The experimental results of GPT-4V show that the responses generated by GPT-4V are still far away from satisfying the domain-specific requirements of the marine professions. All images and prompts used in this study will be available at https://github.com/hkust-vgd/Marine_GPT-4V_Eval | 翻訳日:2024-01-05 15:33:13 公開日:2024-01-04 |
# 表データ学習のためのグラフニューラルネットワーク:分類と方向による調査 Graph Neural Networks for Tabular Data Learning: A Survey with Taxonomy and Directions ( http://arxiv.org/abs/2401.02143v1 ) ライセンス: Link先を確認 | Cheng-Te Li, Yu-Che Tsai, Chih-Yao Chen, Jay Chiehen Liao | (参考訳) 本調査では,グラフニューラルネットワーク(GNN)を用いたタブラルデータ学習(TDL)について検討した。
調査は、ディープニューラルtdlメソッドにおける重要なギャップを浮き彫りにしている。データインスタンスと特徴値の間の潜在相関の過小表現である。
gnnは、表データの様々な要素間の複雑な関係や相互作用をモデル化する能力を持ち、様々なtdlドメインにまたがって大きな関心を集め、応用してきた。
本調査は,TDL(GNN4TDL)の設計と実装に関わる手法を体系的に検討する。
基礎的な側面に関する詳細な調査と、GNNベースのTDL手法の概要を包含し、その進化する風景についての洞察を提供する。
本稿では,グラフ構造の構築と表現学習に着目した総合分類法を提案する。
さらに,様々な学習計画について検討し,インスタンス表現の有効性を高めるために補助タスクの統合を強調する。
我々の議論の重要な部分は、GNN4TDLシナリオをまたいだGNNの実践的な適用に特化しており、その汎用性と影響を実証しています。
最後に,gnn4tdlの進歩を促進するために,限界を議論し,今後の研究方向性を提案する。
この調査は、研究者や実践者のリソースとして役立ち、TDLの革新におけるGNNの役割を深く理解し、将来的な領域におけるイノベーションを指している。 In this survey, we dive into Tabular Data Learning (TDL) using Graph Neural Networks (GNNs), a domain where deep learning-based approaches have increasingly shown superior performance in both classification and regression tasks compared to traditional methods. The survey highlights a critical gap in deep neural TDL methods: the underrepresentation of latent correlations among data instances and feature values. GNNs, with their innate capability to model intricate relationships and interactions between diverse elements of tabular data, have garnered significant interest and application across various TDL domains. Our survey provides a systematic review of the methods involved in designing and implementing GNNs for TDL (GNN4TDL). It encompasses a detailed investigation into the foundational aspects and an overview of GNN-based TDL methods, offering insights into their evolving landscape. We present a comprehensive taxonomy focused on constructing graph structures and representation learning within GNN-based TDL methods. In addition, the survey examines various training plans, emphasizing the integration of auxiliary tasks to enhance the effectiveness of instance representations. A critical part of our discussion is dedicated to the practical application of GNNs across a spectrum of GNN4TDL scenarios, demonstrating their versatility and impact. Lastly, we discuss the limitations and propose future research directions, aiming to spur advancements in GNN4TDL. This survey serves as a resource for researchers and practitioners, offering a thorough understanding of GNNs' role in revolutionizing TDL and pointing towards future innovations in this promising area. | 翻訳日:2024-01-05 15:32:52 公開日:2024-01-04 |
# テキスト駆動型モーション生成のための段階的合成 GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion Generation ( http://arxiv.org/abs/2401.02142v1 ) ライセンス: Link先を確認 | Xuehao Gao, Yang Yang, Zhenyu Xie, Shaoyi Du, Zhongqian Sun, and Yang Wu | (参考訳) 本稿では,GradUally Enriching SyntheSis(GUESSを略してGUESS)という戦略を生かした,テキスト駆動型人体動作合成のための新しいケースケード拡散型生成フレームワークを提案する。
この戦略は、詳細な骨格の体節を密接なセマンティックな近接でグループ化し、それらの関節群を1つの体節ノードに置き換えることで生成目標を設定する。
このような操作は、人間のポーズを複数の粒度レベルで粗く粗い骨格に再帰的に抽象化する。
抽象レベルが徐々に向上するにつれて、人間の動きはより簡潔で安定したものとなり、モーダル間の動き合成タスクに大いに恩恵をもたらす。
次に、テキスト駆動ヒトの動作合成問題全体を複数の抽象化レベルに分割し、カスケードされた潜在拡散モデルを用いて多段階生成フレームワークで解決する:初期生成器は、与えられたテキスト記述から最も粗い人間の動作推定を最初に生成し、その後、一連の連続生成器は、テキスト記述と、前回の合成結果に基づいて、動き詳細を徐々に強化する。
特に,提案する動的多条件融合機構と投機を更に統合し,与えられた文様条件の協調効果を動的にバランスさせ,異なる生成段階における粗い動きプロンプトを合成する。
大規模なデータセットに関する大規模な実験は、GUESSが既存の最先端手法よりも精度、現実性、多様性の点で大きなマージンで優れていることを検証している。
コードはhttps://github.com/Xuehao-Gao/GUESSで入手できる。 In this paper, we propose a novel cascaded diffusion-based generative framework for text-driven human motion synthesis, which exploits a strategy named GradUally Enriching SyntheSis (GUESS as its abbreviation). The strategy sets up generation objectives by grouping body joints of detailed skeletons in close semantic proximity together and then replacing each of such joint group with a single body-part node. Such an operation recursively abstracts a human pose to coarser and coarser skeletons at multiple granularity levels. With gradually increasing the abstraction level, human motion becomes more and more concise and stable, significantly benefiting the cross-modal motion synthesis task. The whole text-driven human motion synthesis problem is then divided into multiple abstraction levels and solved with a multi-stage generation framework with a cascaded latent diffusion model: an initial generator first generates the coarsest human motion guess from a given text description; then, a series of successive generators gradually enrich the motion details based on the textual description and the previous synthesized results. Notably, we further integrate GUESS with the proposed dynamic multi-condition fusion mechanism to dynamically balance the cooperative effects of the given textual condition and synthesized coarse motion prompt in different generation stages. Extensive experiments on large-scale datasets verify that GUESS outperforms existing state-of-the-art methods by large margins in terms of accuracy, realisticness, and diversity. Code is available at https://github.com/Xuehao-Gao/GUESS. | 翻訳日:2024-01-05 15:32:25 公開日:2024-01-04 |
# ベイズ内在性集団画像登録:解剖学と幾何学の教師なし遠絡 Bayesian Intrinsic Groupwise Image Registration: Unsupervised Disentanglement of Anatomy and Geometry ( http://arxiv.org/abs/2401.02141v1 ) ライセンス: Link先を確認 | Xinzhe Luo, Xin Wang, Linda Shapiro, Chun Yuan, Jianfeng Feng, Xiahai Zhuang | (参考訳) 本稿では,医療画像のマルチモーダルグループ登録のための一般ベイズ学習フレームワークを提案する。
この手法は、画像生成過程の確率論的モデリングに基づいており、観測された画像の基本的な共通解剖学と幾何学的バリエーションは、潜在変数として明示的に分離される。
したがって、群分解はベイズ推論の解によって達成される。
登録パラメータを数学的に解釈可能な方法で計算できる潜在変数の推論手順を実現するために,新しい階層的変分自動符号化アーキテクチャを提案する。
驚くべきことに、この新しいパラダイムは、教師なしのクローズドループ自己再構築プロセスでグループ毎の登録を学習することができ、複雑な強度に基づく類似性尺度の設計の負担を軽減できる。
計算効率のよい異方性アーキテクチャも本質的にスケーラブルで柔軟性があり、可変サイズの大規模画像群をグループ的に登録することができる。
さらに、乱れ学習から推定された構造表現は、視覚的意味論を用いて観測の潜在解剖を捉えることができる。
心, 脳, 腹部医用画像からの4つのデータセットを含む, 提案した枠組みの検証実験を行った。
その結果,従来の類似性に基づく手法に比べて,精度,効率,スケーラビリティ,解釈可能性の面で優位性が示された。 This article presents a general Bayesian learning framework for multi-modal groupwise registration on medical images. The method builds on probabilistic modelling of the image generative process, where the underlying common anatomy and geometric variations of the observed images are explicitly disentangled as latent variables. Thus, groupwise registration is achieved through the solution to Bayesian inference. We propose a novel hierarchical variational auto-encoding architecture to realize the inference procedure of the latent variables, where the registration parameters can be calculated in a mathematically interpretable fashion. Remarkably, this new paradigm can learn groupwise registration in an unsupervised closed-loop self-reconstruction process, sparing the burden of designing complex intensity-based similarity measures. The computationally efficient disentangled architecture is also inherently scalable and flexible, allowing for groupwise registration on large-scale image groups with variable sizes. Furthermore, the inferred structural representations from disentanglement learning are capable of capturing the latent anatomy of the observations with visual semantics. Extensive experiments were conducted to validate the proposed framework, including four datasets from cardiac, brain and abdominal medical images. The results have demonstrated the superiority of our method over conventional similarity-based approaches in terms of accuracy, efficiency, scalability and interpretability. | 翻訳日:2024-01-05 15:31:56 公開日:2024-01-04 |
# 行動認識のためのヒューマンパーシングモダリティの探索 Explore Human Parsing Modality for Action Recognition ( http://arxiv.org/abs/2401.02138v1 ) ライセンス: Link先を確認 | Jinfu Liu, Runwei Ding, Yuhang Wen, Nan Dai, Fanyang Meng, Shen Zhao, Mengyuan Liu | (参考訳) マルチモーダルに基づく行動認識法はポーズとRGBモダリティを用いて高い成功を収めた。
しかし、スケルトン配列には外観の描写がなく、RGB画像はモダリティの制限により無関係なノイズを被る。
そこで本研究では,身体部位の効果的な意味的特徴を選択的に保ちつつ,無関係なノイズを除去できるため,人間のパース特徴マップを新しいモダリティとして導入する。
本稿では,人体と人体の両方の動作認識を初めて活用するEnsemble Human Parsing and Pose Network (EPP-Net) という,新しいデュアルブランチフレームワークを提案する。
第1の人間のポーズブランチは、グラフ畳み込みネットワークで頑丈な骨格を養って特徴をモデル化し、第2の人間のパーシングブランチは、描写的なパーシング特徴マップを活用して、畳み込みバックボーンを介して祭をモデル化する。
2つのハイレベルな機能は、アクション認識を改善するためにレイトフュージョン戦略によって効果的に結合される。
NTU RGB+D と NTU RGB+D 120 ベンチマークの大規模な実験は,提案した EPP-Net の有効性を一貫して検証している。
私たちのコードは、https://github.com/liujf69/EPP-Net-Actionで利用可能です。 Multimodal-based action recognition methods have achieved high success using pose and RGB modality. However, skeletons sequences lack appearance depiction and RGB images suffer irrelevant noise due to modality limitations. To address this, we introduce human parsing feature map as a novel modality, since it can selectively retain effective semantic features of the body parts, while filtering out most irrelevant noise. We propose a new dual-branch framework called Ensemble Human Parsing and Pose Network (EPP-Net), which is the first to leverage both skeletons and human parsing modalities for action recognition. The first human pose branch feeds robust skeletons in graph convolutional network to model pose features, while the second human parsing branch also leverages depictive parsing feature maps to model parsing festures via convolutional backbones. The two high-level features will be effectively combined through a late fusion strategy for better action recognition. Extensive experiments on NTU RGB+D and NTU RGB+D 120 benchmarks consistently verify the effectiveness of our proposed EPP-Net, which outperforms the existing action recognition methods. Our code is available at: https://github.com/liujf69/EPP-Net-Action. | 翻訳日:2024-01-05 15:31:35 公開日:2024-01-04 |
# sycoca:マルチモーダルアライメントのための注意マスク付きコントラストキャプションの対称性 SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment ( http://arxiv.org/abs/2401.02137v1 ) ライセンス: Link先を確認 | Ziping Ma, Furong Xu, Jian Liu, Ming Yang, Qingpei Guo | (参考訳) 言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。
Contrastive Captioners (CoCa) は、Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合されたフレームワークに統合し、印象的な結果をもたらす。
CLIPは、全画像と文のグローバル表現に双方向の制約を課している。
ICは局所表現に対して一方向の画像からテキストへの生成を行うが、局所的なテキストから画像への再構成には制約がないため、テキストと整合する際のきめ細かいレベルでの画像の理解が制限される。
グローバルとローカルの両方の観点からマルチモーダルアライメントを実現するため,本論文では,画像とテキストの双方向インタラクションをグローバルとローカルの表現レベルで導入するシンメトリライズコントラストキャプション (sycoca) を提案する。
具体的には、itcおよびicヘッドに基づくtg-mim(text-guided masked image modeling)ヘッドを拡張する。
改良されたSyCoCaは、テキストの手がかりを利用してコンテキストイメージや視覚的な手がかりを再構築し、テキストの内容を予測する。
双方向の局所的相互作用を実装する場合、画像の局所的内容は、テキスト記述に散らかるか、あるいは関連しない傾向にある。
そこで我々は,効果的な画像パッチ選択のための注意型マスキング戦略を採用した。
提案手法の有効性を検証するため,画像テキスト検索,画像キャプチャ,視覚的質問応答,ゼロショット・精細画像分類など5つの視覚言語タスクに関する広範な実験を行った。 Multimodal alignment between language and vision is the fundamental topic in current vision-language model research. Contrastive Captioners (CoCa), as a representative method, integrates Contrastive Language-Image Pretraining (CLIP) and Image Caption (IC) into a unified framework, resulting in impressive results. CLIP imposes a bidirectional constraints on global representation of entire images and sentences. Although IC conducts an unidirectional image-to-text generation on local representation, it lacks any constraint on local text-to-image reconstruction, which limits the ability to understand images at a fine-grained level when aligned with texts. To achieve multimodal alignment from both global and local perspectives, this paper proposes Symmetrizing Contrastive Captioners (SyCoCa), which introduces bidirectional interactions on images and texts across the global and local representation levels. Specifically, we expand a Text-Guided Masked Image Modeling (TG-MIM) head based on ITC and IC heads. The improved SyCoCa can further leverage textual cues to reconstruct contextual images and visual cues to predict textual contents. When implementing bidirectional local interactions, the local contents of images tend to be cluttered or unrelated to their textual descriptions. Thus, we employ an attentive masking strategy to select effective image patches for interaction. Extensive experiments on five vision-language tasks, including image-text retrieval, image-captioning, visual question answering, and zero-shot/finetuned image classification, validate the effectiveness of our proposed method. | 翻訳日:2024-01-05 15:31:11 公開日:2024-01-04 |
# PosCUDA:未学習オーディオデータセットのための位置ベースの畳み込み PosCUDA: Position based Convolution for Unlearnable Audio Datasets ( http://arxiv.org/abs/2401.02135v1 ) ライセンス: Link先を確認 | Vignesh Gokul, Shlomo Dubnov | (参考訳) ディープラーニングモデルは、優れたパフォーマンスを得るために大量のクリーンデータを必要とします。
高価なデータ取得のコストを避けるために、研究者はインターネットで利用可能な豊富なデータを使用する。
これは、認証なしでモデルトレーニングのために個人データを誤用する可能性があるというプライバシー上の懸念を生じさせる。
CUDAのような最近の研究は、クラスワイドのぼかしを追加してデータセットを学習不能にすることでこの問題に対する解決策を提案する。
しかし、これらの手法はしばしばデータの品質を低下させ、実用的なアプリケーションでは役に立たない。
学習不能な音声データセットを作成するための位置ベースの畳み込みであるPosCUDAを紹介する。
PosCUDAは、小さなオーディオのパッチにクラスワイドの畳み込みを使用する。
パッチの位置は各クラス用の秘密鍵に基づいているため、モデルは一般化に失敗しながら、位置ボケとラベルの関係を学習する。
実験により,PosCUDAは元の音声データセットの品質を維持しつつ,未学習性を達成できることを実証的に示す。
また,提案手法は,MFCC,生オーディオ,トランスフォーマー,畳み込みネットワークなどの異なるアーキテクチャに頑健である。 Deep learning models require large amounts of clean data to acheive good performance. To avoid the cost of expensive data acquisition, researchers use the abundant data available on the internet. This raises significant privacy concerns on the potential misuse of personal data for model training without authorisation. Recent works such as CUDA propose solutions to this problem by adding class-wise blurs to make datasets unlearnable, i.e a model can never use the acquired dataset for learning. However these methods often reduce the quality of the data making it useless for practical applications. We introduce PosCUDA, a position based convolution for creating unlearnable audio datasets. PosCUDA uses class-wise convolutions on small patches of audio. The location of the patches are based on a private key for each class, hence the model learns the relations between positional blurs and labels, while failing to generalize. We empirically show that PosCUDA can achieve unlearnability while maintaining the quality of the original audio datasets. Our proposed method is also robust to different audio feature representations such as MFCC, raw audio and different architectures such as transformers, convolutional networks etc. | 翻訳日:2024-01-05 15:30:42 公開日:2024-01-04 |
# DCR整合性:大言語モデルの一貫性評価と改善のための分割整合性推論 DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models ( http://arxiv.org/abs/2401.02132v1 ) ライセンス: Link先を確認 | Wendi Cui, Jiaxin Zhang, Zhuohang Li, Lopez Damien, Kamalika Das, Bradley Malin, Sricharan Kumar | (参考訳) LLM(Large Language Models)が生成するテキストの品質と可変性を評価することは、重要かつ未解決な研究課題である。
トークンの類似度を測定する rouge や bertscore のような従来の評価手法は、しばしば全体論的な意味同値を捉えることができない。
この結果、人間の判断や直観との相関は低く、信頼性、安全性、堅牢な意思決定が非常に重要である医療や金融といった高リスクアプリケーションでは特に問題となる。
本研究は,分割共振方式を用いてLLM生成テキストの一貫性を評価・改善するフレームワークであるDCRを提案する。
従来のLCMに基づく評価手法とは違い,提案手法では,2つの生成した回答間の段落-段落比較を個別の文-段落比較に分解する分割-段落評価器(DCE)を採用している。
このアプローチを容易にするために,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を導入する。
一貫性評価以外にも,dceが特定した分析的理由を活用し,これらの不一致の低減を目的とした新たな回答を生成する,理性支援改良者(rai)を提案する。
包括的かつ体系的な実証分析により,複数のベンチマークにおけるllm生成の一貫性を意味的,事実的,要約的一貫性タスクにおいて評価する上で,本手法が最先端手法を大きなマージン(+19.3%,+24.3%)で上回っていることを示す。
提案手法は, 効果的な幻覚緩和の期待を示すため, 出力不整合の90%近くを実質的に削減する。 Evaluating the quality and variability of text generated by Large Language Models (LLMs) poses a significant, yet unresolved research challenge. Traditional evaluation methods, such as ROUGE and BERTScore, which measure token similarity, often fail to capture the holistic semantic equivalence. This results in a low correlation with human judgments and intuition, which is especially problematic in high-stakes applications like healthcare and finance where reliability, safety, and robust decision-making are highly critical. This work proposes DCR, an automated framework for evaluating and improving the consistency of LLM-generated texts using a divide-conquer-reasoning approach. Unlike existing LLM-based evaluators that operate at the paragraph level, our method employs a divide-and-conquer evaluator (DCE) that breaks down the paragraph-to-paragraph comparison between two generated responses into individual sentence-to-paragraph comparisons, each evaluated based on predefined criteria. To facilitate this approach, we introduce an automatic metric converter (AMC) that translates the output from DCE into an interpretable numeric score. Beyond the consistency evaluation, we further present a reason-assisted improver (RAI) that leverages the analytical reasons with explanations identified by DCE to generate new responses aimed at reducing these inconsistencies. Through comprehensive and systematic empirical analysis, we show that our approach outperforms state-of-the-art methods by a large margin (e.g., +19.3% and +24.3% on the SummEval dataset) in evaluating the consistency of LLM generation across multiple benchmarks in semantic, factual, and summarization consistency tasks. Our approach also substantially reduces nearly 90% of output inconsistencies, showing promise for effective hallucination mitigation. | 翻訳日:2024-01-05 15:30:23 公開日:2024-01-04 |
# 原子規模構造解析のための固体量子マルチセンサシステムと相関センシング Correlated sensing with a solid-state quantum multi-sensor system for atomic-scale structural analysis ( http://arxiv.org/abs/2401.02128v1 ) ライセンス: Link先を確認 | Wentao Ji, Zhaoxin Liu, Yuhang Guo, Zhihao Hu, Jingyang Zhou, Siheng Dai, Yu Chen, Pei Yu, Mengqi Wang, Kangwei Xia, Fazhan Shi, Ya Wang and Jiangfeng Du | (参考訳) 超高精度測定から複雑な構造解析まで、優れた量子センシング戦略の開発は量子技術の中心にある。
センサ間の絡み合いなどの量子資源を用いたセンシング精度向上戦略が盛んに実証されているが,量子センサ間の信号相関が悪用されることは稀である。
ここでは、複数の量子センサ間の信号相関を利用して、個々のセンサが解決できない複数のターゲットからの重なり合う信号を解決し、複雑な構造構造上の困難を解消する新しいセンシングパラダイムを開発する。
3つの窒素空洞中心を量子電磁計システムとして、個々の欠陥の変動電界をアンサンブル信号から解くことにより、このマルチセンサパラダイムを実証する。
ダイアモンド中の16個の暗黒電子分極の3次元分布をgpsライクな局在法による1.7nmの精度で可視化する。
さらに,個々の点欠陥の実時間電荷ダイナミクスを求め,そのダイナミクスがよく知られた光学スペクトル拡散をいかに引き起こすかを可視化する。
マルチセンサーパラダイムは量子センシングツールボックスを拡張し、構造分析の新たな可能性を提供する。 Developing superior quantum sensing strategies ranging from ultra-high precision measurement to complex structural analysis is at the heart of quantum technologies. While strategies using quantum resources, such as entanglement among sensors, to enhance the sensing precision have been abundantly demonstrated, the signal correlation among quantum sensors is rarely exploited. Here we develop a novel sensing paradigm exploiting the signal correlation among multiple quantum sensors to resolve overlapping signals from multiple targets that individual sensors can't resolve and complex structural construction struggles with. With three nitrogen-vacancy centers as a quantum electrometer system, we demonstrate this multi-sensor paradigm by resolving individual defects' fluctuating electric fields from ensemble signals. We image the three-dimensional distribution of 16 dark electronic point-defects in diamond with accuracy approaching 1.7 nm via a GPS-like localization method. Furthermore, we obtain the real-time charge dynamics of individual point defects and visualize how the dynamics induce the well-known optical spectral diffusion. The multi-sensor paradigm extends the quantum sensing toolbox and offers new possibilities for structural analysis. | 翻訳日:2024-01-05 15:29:46 公開日:2024-01-04 |
# トランスモンの励起状態における測定誘起ビスタビリティ Measurement-induced bistability in the excited states of a transmon ( http://arxiv.org/abs/2401.02127v1 ) ライセンス: Link先を確認 | Jeakyung Choi, Hyeok Hwang, and Eunseong Kim | (参考訳) トランスモンの |g>, |e>, |f> 状態における高出力測定によるキャビティ応答について検討した。
全ての状態は特定の臨界値を超える光子遮断を示すが、これは半古典的ダッフィング発振器の安定性に基づいてこれまで理解されてきた現象である。
測定誘起状態遷移 (MIST) から高レベルのトランスモン状態への遷移は, 安定性に寄与することが期待されているが, |e> 状態と |f> 状態の臨界値はMISTと一致しない。
この相違を理解するために,最近開発されたキャビティフォトン状態の半古典力学モデルを利用する。
モデルの定常溶液から得られる薄暗い空洞状態と明るい空洞状態の出現は、より低い臨界光子数での光子遮断を招き、これが |e> および |f> 状態における双安定領域の応答を説明することができる。 High power measurement-induced cavity response is investigated in the |g>, |e>, and |f> states of a transmon. All the states exhibit photon blockades above a certain critical value, a phenomenon that has previously been understood based on the bistability of semiclassical Duffing oscillators. The measurement-induced state transition (MIST) to high-level transmon states is expected to be one contributor to the bistability; however, the critical values measured in the |e> and |f> states are not coincident with the MIST. To understand this discrepancy, we utilize the recently developed semiclassical dynamics model of a cavity photon state. The appearance of dim and bright cavity states obtained from the model's steady-state solution leads to the photon blockades at lower critical photon numbers, and this can explain the response of the bistable region in the |e> and |f> states. | 翻訳日:2024-01-05 15:29:28 公開日:2024-01-04 |
# 知識グラフに基づく複合時間質問応答のための複合マルチファクト推論ネットワーク Joint Multi-Facts Reasoning Network For Complex Temporal Question Answering Over Knowledge Graph ( http://arxiv.org/abs/2401.02212v1 ) ライセンス: Link先を確認 | Rikui Huang, Wei Wei, Xiaoye Qu, Wenfeng Xie, Xianling Mao, Dangyang Chen | (参考訳) 時間的知識グラフ(TKG)は、時間範囲を付加することで、通常の知識グラフの拡張である。
既存の時間的知識グラフ回答(TKGQA)モデルは、各質問が明示的かつ単純な時間的制約を持つ単一の時間的事実のみを含むという前提から、単純な質問にのみアプローチする。
したがって、それらは複数の時間的事実を持つ質問に対して不十分に実行される。
本稿では, 時間的質問に正確に答えるために複数の時間的事実を共同で推論する目的で, 時間的質問に対して, 時間的質問に対して, 時間的質問に正確に答えるために, 時間的回答を導出するために, 時間的回答(JMFRN)を提案する。
特に、JMFRNは、与えられた複素問題の各実体について、まずTKGから質問に関連する時間的事実を検索する。
共同推論のために,汎用的な設定に適した2つの異なる注目モジュール(エンティティ認識とタイムアウェア)を設計し,エンティティを集約し,検索した事実のタイムスタンプ情報を収集する。
さらに,不正確な回答をフィルタリングするために,追加の回答型識別タスクを導入する。
広範囲にわたる実験により,提案手法は,よく知られた時間的質問ベンチマークの時間割に有意に優れることを示した。 Temporal Knowledge Graph (TKG) is an extension of regular knowledge graph by attaching the time scope. Existing temporal knowledge graph question answering (TKGQA) models solely approach simple questions, owing to the prior assumption that each question only contains a single temporal fact with explicit/implicit temporal constraints. Hence, they perform poorly on questions which own multiple temporal facts. In this paper, we propose \textbf{\underline{J}}oint \textbf{\underline{M}}ulti \textbf{\underline{F}}acts \textbf{\underline{R}}easoning \textbf{\underline{N}}etwork (JMFRN), to jointly reasoning multiple temporal facts for accurately answering \emph{complex} temporal questions. Specifically, JMFRN first retrieves question-related temporal facts from TKG for each entity of the given complex question. For joint reasoning, we design two different attention (\ie entity-aware and time-aware) modules, which are suitable for universal settings, to aggregate entities and timestamps information of retrieved facts. Moreover, to filter incorrect type answers, we introduce an additional answer type discrimination task. Extensive experiments demonstrate our proposed method significantly outperforms the state-of-art on the well-known complex temporal question benchmark TimeQuestions. | 翻訳日:2024-01-05 15:23:30 公開日:2024-01-04 |
# DIALIGHT:大規模言語モデルを用いたタスク指向対話システムの軽量多言語開発と評価 DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models ( http://arxiv.org/abs/2401.02208v1 ) ライセンス: Link先を確認 | Songbo Hu, Xiaobin Wang, Zhangdie Yuan, Anna Korhonen, Ivan Vuli\'c | (参考訳) 我々は,多言語タスク指向対話(ToD)システムの開発と評価を行うツールキットであるDIALIGHTについて,事前学習言語モデル(PLM)の微調整と,大規模言語モデル(LLM)のゼロショット・インコンテキスト学習機能を利用したToDシステムの比較を行う。
自動評価に加えて,このツールキットの特徴
(i)局所発話レベルとグローバル対話レベルの両方において、きめ細かい人的評価のためのセキュアでユーザフレンドリーなWebインターフェース
(ii)マイクロサービスベースのバックエンドで、効率とスケーラビリティが向上します。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成できる。
しかし,タスク固有の命令に固執し,複数の言語でアウトプットを生成する上でのLLMの重大な課題も指摘し,今後の研究分野を浮き彫りにしている。
このオープンソースツールキットは、多言語ToDシステムの開発と評価を目的とした研究者にとって貴重なリソースとして役立ち、この分野の参入障壁を低くすることを期待しています。 We present DIALIGHT, a toolkit for developing and evaluating multilingual Task-Oriented Dialogue (ToD) systems which facilitates systematic evaluations and comparisons between ToD systems using fine-tuning of Pretrained Language Models (PLMs) and those utilising the zero-shot and in-context learning capabilities of Large Language Models (LLMs). In addition to automatic evaluation, this toolkit features (i) a secure, user-friendly web interface for fine-grained human evaluation at both local utterance level and global dialogue level, and (ii) a microservice-based backend, improving efficiency and scalability. Our evaluations reveal that while PLM fine-tuning leads to higher accuracy and coherence, LLM-based systems excel in producing diverse and likeable responses. However, we also identify significant challenges of LLMs in adherence to task-specific instructions and generating outputs in multiple languages, highlighting areas for future research. We hope this open-sourced toolkit will serve as a valuable resource for researchers aiming to develop and properly evaluate multilingual ToD systems and will lower, currently still high, entry barriers in the field. | 翻訳日:2024-01-05 15:22:29 公開日:2024-01-04 |
# 無限温度における動的相関に対する中間回路計測を用いた雑音制限量子アルゴリズム A noise-limiting quantum algorithm using mid-circuit measurements for dynamical correlations at infinite temperature ( http://arxiv.org/abs/2401.02207v1 ) ライセンス: Link先を確認 | Etienne Granet, Henrik Dreyer | (参考訳) 一般に、量子回路によって出力される信号はゲート数で指数関数的に高速であると考えられている。
この手紙は、中間回路の測定と古典的条件付けを計算ツールとして用いるアルゴリズム(そしてエラー緩和や補正サブルーチンではない)が、完全なデコヒーレンスに対して自然に回復し、無限に深いノイズのある回路でも有用な性質を持つ量子状態を維持することができるかを探る。
具体的には, 無限温度における動的相関計算や, 任意のハミルトニアンに対する標準アンサンブル期待値の計算に使用できる, 中間回路計測とフィードフォワードによる量子チャネルを導入する。
このアルゴリズムの特異な性質は、分極チャネルの存在下では、大きな深さ制限で意味のある非ゼロ信号を表示することである。
この量子チャネルのノイズレジリエンスを、量子量子量子コンピュータ h1-1 のイオントラップ量子コンピュータ上で紹介する。 It is generally considered that the signal output by a quantum circuit is attenuated exponentially fast in the number of gates. This letter explores how algorithms using mid-circuit measurements and classical conditioning as computational tools (and not as error mitigation or correction subroutines) can be naturally resilient to complete decoherence, and maintain quantum states with useful properties even for infinitely deep noisy circuits. Specifically, we introduce a quantum channel built out of mid-circuit measurements and feed-forward, that can be used to compute dynamical correlations at infinite temperature and canonical ensemble expectation values for any Hamiltonian. The unusual property of this algorithm is that in the presence of a depolarizing channel it still displays a meaningful, non-zero signal in the large depth limit. We showcase the noise resilience of this quantum channel on Quantinuum's H1-1 ion-trap quantum computer. | 翻訳日:2024-01-05 15:21:35 公開日:2024-01-04 |
# 行列変数$t$分布に基づくロバスト双線形因子の解析 Robust bilinear factor analysis based on the matrix-variate $t$ distribution ( http://arxiv.org/abs/2401.02203v1 ) ライセンス: Link先を確認 | Xuan Ma, Jianhua Zhao, Changchun Shang, Fen Jiang, Philip L.H. Yu | (参考訳) 多変量$t$分布(t$fa)に基づく因子分析は、重み付きデータや汚染データから一般的な因子を抽出する有用な堅牢なツールである。
しかし、$t$faはベクトルデータにのみ適用される。
行列データに$t$faを適用すると、まず行列観測をベクトル化するのが一般的である。
これは$t$faの2つの課題をもたらす。
(i)データの固有のマトリックス構造が壊れており、
(ii) ロバスト性は失われる可能性があり、ベクトル化された行列データは典型的には高いデータ次元をもたらすため、容易に$t$faとなる。
これらの問題に対処するために,行列データの内在行列構造から,行列変数$t$分布(t$bfa)に基づいて構築された,新しいロバストな因子分析モデルを提案する。
この新奇な特徴は、重み付きまたは汚染されたマトリクスデータに対して、興味のある行変数と列変数の両方の共通因子を同時に抽出することができることである。
最大$t$bfa推定のための2つの効率的なアルゴリズムを開発した。
パラメータ推定の精度を計算するためのフィッシャー情報行列の閉形式表現を導出する。
提案した$t$bfaモデルを理解し、関連する競合相手と比較するための実証的研究を行った。
その結果,$t$bfaの優位性と実用性を示した。
重要なことに、$t$bfaは$t$faよりもはるかに高い分解点を示し、行列データに適している。 Factor Analysis based on multivariate $t$ distribution ($t$fa) is a useful robust tool for extracting common factors on heavy-tailed or contaminated data. However, $t$fa is only applicable to vector data. When $t$fa is applied to matrix data, it is common to first vectorize the matrix observations. This introduces two challenges for $t$fa: (i) the inherent matrix structure of the data is broken, and (ii) robustness may be lost, as vectorized matrix data typically results in a high data dimension, which could easily lead to the breakdown of $t$fa. To address these issues, starting from the intrinsic matrix structure of matrix data, a novel robust factor analysis model, namely bilinear factor analysis built on the matrix-variate $t$ distribution ($t$bfa), is proposed in this paper. The novelty is that it is capable to simultaneously extract common factors for both row and column variables of interest on heavy-tailed or contaminated matrix data. Two efficient algorithms for maximum likelihood estimation of $t$bfa are developed. Closed-form expression for the Fisher information matrix to calculate the accuracy of parameter estimates are derived. Empirical studies are conducted to understand the proposed $t$bfa model and compare with related competitors. The results demonstrate the superiority and practicality of $t$bfa. Importantly, $t$bfa exhibits a significantly higher breakdown point than $t$fa, making it more suitable for matrix data. | 翻訳日:2024-01-05 15:21:18 公開日:2024-01-04 |
# LADRI:自動走行システムにおけるLeArningに基づく動的リスク指標 LADRI: LeArning-based Dynamic Risk Indicator in Automated Driving System ( http://arxiv.org/abs/2401.02199v1 ) ライセンス: Link先を確認 | Anil Ranjitbhai Patel and Peter Liggesmeyer | (参考訳) インテリジェント輸送の地平が自動走行システム(ads)の進化とともに拡大するにつれ、パラマウント安全性の確保がこれまで以上に重要になる。
従来のリスク評価手法は、主に人間主導の車両向けに作られ、ADSの多面的、進化する環境に適切に適応する。
本稿では,ニューラルネットワーク(anns)の能力を活用した広告におけるリアルタイム動的リスクアセスメント(dra)の枠組みを提案する。
提案手法はこれらの制約を超越し,リアルタイムオンボードセンサ(OBS)データを用いてリスク次元を慎重に分析し,分類する。
この学習中心のアプローチは、ADSの状況意識を高めるだけでなく、即時の運用状況に対する理解を深める。
OBSデータを分離することにより、現在のリスクプロファイルを特定できるようになり、乗客の安全と幅広い交通エコシステムの確保が図られる。
この枠組みを通じて、リスク評価の方向性を図り、従来のヴォイドをブリッジし、ADSの熟練度を高める。
ANNを利用することで、我々の方法論は視点を提供し、ADSが潜在的なリスク要因を十分にナビゲートし、反応し、より安全でより情報のある自律走行を確実にすることを可能にする。 As the horizon of intelligent transportation expands with the evolution of Automated Driving Systems (ADS), ensuring paramount safety becomes more imperative than ever. Traditional risk assessment methodologies, primarily crafted for human-driven vehicles, grapple to adequately adapt to the multifaceted, evolving environments of ADS. This paper introduces a framework for real-time Dynamic Risk Assessment (DRA) in ADS, harnessing the potency of Artificial Neural Networks (ANNs). Our proposed solution transcends these limitations, drawing upon ANNs, a cornerstone of deep learning, to meticulously analyze and categorize risk dimensions using real-time On-board Sensor (OBS) data. This learning-centric approach not only elevates the ADS's situational awareness but also enriches its understanding of immediate operational contexts. By dissecting OBS data, the system is empowered to pinpoint its current risk profile, thereby enhancing safety prospects for onboard passengers and the broader traffic ecosystem. Through this framework, we chart a direction in risk assessment, bridging the conventional voids and enhancing the proficiency of ADS. By utilizing ANNs, our methodology offers a perspective, allowing ADS to adeptly navigate and react to potential risk factors, ensuring safer and more informed autonomous journeys. | 翻訳日:2024-01-05 15:20:54 公開日:2024-01-04 |
# 胸部X線による結節検出と生成:NODE21 Challenge Nodule detection and generation on chest X-rays: NODE21 Challenge ( http://arxiv.org/abs/2401.02192v1 ) ライセンス: Link先を確認 | Ecem Sogancioglu, Bram van Ginneken, Finn Behrendt, Marcel Bengs, Alexander Schlaefer, Miron Radu, Di Xu, Ke Sheng, Fabien Scalzo, Eric Marcus, Samuele Papa, Jonas Teuwen, Ernst Th. Scholten, Steven Schalekamp, Nils Hendrix, Colin Jacobs, Ward Hendrix, Clara I S\'anchez, Keelin Murphy | (参考訳) 肺結節は早期の肺癌の徴候であり、男女ともに癌関連死亡の原因となっている。
深層学習法は胸部X線による肺結節の検出において高い性能を発揮することが多くの研究で確認されている。
しかし、金標準の公開データセットの欠如により、研究の進行が遅くなり、このタスクのためのメソッドのベンチマークが妨げられる。
そこで我々は,胸部X線による肺結節の検出と発生を目的とした公開研究のNODE21を組織した。
検出トラックは最先端の結節検出システムを評価する一方、生成トラックは、結節生成アルゴリズムを用いてトレーニングデータを増強し、検出システムの性能を向上させる。
本稿では,node21チャレンジの結果を要約し,合成生成した結節訓練画像が検出アルゴリズム性能に与える影響を調べるために,さらなる実験を行う。 Pulmonary nodules may be an early manifestation of lung cancer, the leading cause of cancer-related deaths among both men and women. Numerous studies have established that deep learning methods can yield high-performance levels in the detection of lung nodules in chest X-rays. However, the lack of gold-standard public datasets slows down the progression of the research and prevents benchmarking of methods for this task. To address this, we organized a public research challenge, NODE21, aimed at the detection and generation of lung nodules in chest X-rays. While the detection track assesses state-of-the-art nodule detection systems, the generation track determines the utility of nodule generation algorithms to augment training data and hence improve the performance of the detection systems. This paper summarizes the results of the NODE21 challenge and performs extensive additional experiments to examine the impact of the synthetically generated nodule training images on the detection algorithm performance. | 翻訳日:2024-01-05 15:20:31 公開日:2024-01-04 |
# 偽ニュースをターゲティングする企業を特徴付ける Characterizing Fake News Targeting Corporations ( http://arxiv.org/abs/2401.02191v1 ) ライセンス: Link先を確認 | Ke Zhou, Sanja Scepanovic, Daniele Quercia | (参考訳) 誤報は、政治的・社会的領域に明らかな影響を及ぼし、民主的な言論に影響を与え、公衆衛生と安全にリスクを及ぼす。
企業の世界は偽ニュースの拡散の第一ターゲットでもある。
近年の研究では、企業の誤った情報とその企業への影響を特徴づけようと試みているが、その発見は、質的あるいは物語的なアプローチと特定の産業に焦点を絞ったことによる制限に苦しめられている。
このギャップに対処するために,ソーシャルメディア量的手法とクラウドソーシングによる分析を行い,s\&p 500 企業内の多様な産業を対象とした企業誤情報を調査した。
本研究は, 商品, 政治, 社会問題などの話題を含む企業誤報を明らかにする。
フェイクニュースの影響を受けた企業は、ソーシャルメディアの注目度が低く、ソーシャルメディアのコメントに対する否定感が高まり、株価の伸びが低下し、従業員レビューのストレスが高まった。
また、企業は常にフェイクニュースをターゲットとしていないが、重要なフェイクニュースが出現する特定の時期がある。
これらの発見は規制当局、ビジネスリーダー、投資家にとって重要な意味を持ち、企業の誤情報のエスカレートする現象を慎重に監視する必要性を強調している。 Misinformation proliferates in the online sphere, with evident impacts on the political and social realms, influencing democratic discourse and posing risks to public health and safety. The corporate world is also a prime target for fake news dissemination. While recent studies have attempted to characterize corporate misinformation and its effects on companies, their findings often suffer from limitations due to qualitative or narrative approaches and a narrow focus on specific industries. To address this gap, we conducted an analysis utilizing social media quantitative methods and crowd-sourcing studies to investigate corporate misinformation across a diverse array of industries within the S\&P 500 companies. Our study reveals that corporate misinformation encompasses topics such as products, politics, and societal issues. We discovered companies affected by fake news also get reputable news coverage but less social media attention, leading to heightened negativity in social media comments, diminished stock growth, and increased stress mentions among employee reviews. Additionally, we observe that a company is not targeted by fake news all the time, but there are particular times when a critical mass of fake news emerges. These findings hold significant implications for regulators, business leaders, and investors, emphasizing the necessity to vigilantly monitor the escalating phenomenon of corporate misinformation. | 翻訳日:2024-01-05 15:20:17 公開日:2024-01-04 |
# 観光質問応答のための位置認識モジュール型ビエンコーダ Location Aware Modular Biencoder for Tourism Question Answering ( http://arxiv.org/abs/2401.02187v1 ) ライセンス: Link先を確認 | Haonan Li, Martin Tomko, Timothy Baldwin | (参考訳) 関心のポイント(POI)レコメンデーションを求める現実世界の観光問題への回答は、大きな候補プールを越えて空間的および非空間的推論を必要とするため、難しい。
各質問のペアとPOIを符号化する従来の方法は、候補数が増えると効率が悪くなり、現実のアプリケーションでは利用できない。
そこで我々は,QAタスクを高密度ベクトル検索問題として扱い,質問やPOIを個別にエンコードし,埋め込み空間の類似性を利用して質問に対して最も関連性の高いPOIを検索する手法を提案する。
プリトレーニング言語モデル(plms)を用いてテキスト情報をエンコードし,poisの空間情報をキャプチャするために位置エンコーダをトレーニングする。
実世界の観光QAデータセットの実験は、我々のアプローチが効率的で効率的であり、すべての指標で過去の手法よりも優れていることを示した。
より密集した検索アーキテクチャにより,よりグローバルな評価基準を構築し,検索空間を従来に比べて20倍拡張する。
また,モデルの性能に影響を与える要因を追従実験によって検討する。
私たちのコードとモデルはhttps://github.com/haonan-li/LAMB.comで公開されています。 Answering real-world tourism questions that seek Point-of-Interest (POI) recommendations is challenging, as it requires both spatial and non-spatial reasoning, over a large candidate pool. The traditional method of encoding each pair of question and POI becomes inefficient when the number of candidates increases, making it infeasible for real-world applications. To overcome this, we propose treating the QA task as a dense vector retrieval problem, where we encode questions and POIs separately and retrieve the most relevant POIs for a question by utilizing embedding space similarity. We use pretrained language models (PLMs) to encode textual information, and train a location encoder to capture spatial information of POIs. Experiments on a real-world tourism QA dataset demonstrate that our approach is effective, efficient, and outperforms previous methods across all metrics. Enabled by the dense retrieval architecture, we further build a global evaluation baseline, expanding the search space by 20 times compared to previous work. We also explore several factors that impact on the model's performance through follow-up experiments. Our code and model are publicly available at https://github.com/haonan-li/LAMB. | 翻訳日:2024-01-05 15:19:54 公開日:2024-01-04 |
# fairgridsearch:公平度向上モデルを比較するフレームワーク FairGridSearch: A Framework to Compare Fairness-Enhancing Models ( http://arxiv.org/abs/2401.02183v1 ) ライセンス: Link先を確認 | Shih-Chi Ma, Tatiana Ermakova, Benjamin Fabian | (参考訳) 機械学習モデルは、批判的意思決定アプリケーションでますます使われている。
しかし、これらのモデルは現実世界のデータに存在するバイアスを複製したり増幅したりする恐れがある。
文献には様々なバイアス緩和法やベース推定法があるが、特定のアプリケーションに最適なモデルを選択することは依然として困難である。
本稿では,バイナリ分類に着目し,フェアネスエンハンシングモデルを比較するための新しいフレームワークであるfairgridsearchを提案する。
FairGridSearchは、異なるモデルパラメータの組み合わせの実験を可能にする。
この研究はfairgridsearchを3つの一般的なデータセット(adult, compas, german credit)に適用し、メトリクスの選択、ベース推定の選択、モデルの公平性に対する分類閾値の影響を分析する。
その結果、モデル評価のための適切な精度と公平度指標を選択することの重要性を強調した。
さらに、異なる基底推定器と分類しきい値はそれぞれバイアス緩和法の有効性と公正安定性に影響を与えるが、その効果は全てのデータセットで一致しない。
これらの知見に基づき、機械学習における公正性に関する今後の研究は、偏見緩和法以外にも、公正モデルを構築する際の幅広い要因を検討するべきである。 Machine learning models are increasingly used in critical decision-making applications. However, these models are susceptible to replicating or even amplifying bias present in real-world data. While there are various bias mitigation methods and base estimators in the literature, selecting the optimal model for a specific application remains challenging. This paper focuses on binary classification and proposes FairGridSearch, a novel framework for comparing fairness-enhancing models. FairGridSearch enables experimentation with different model parameter combinations and recommends the best one. The study applies FairGridSearch to three popular datasets (Adult, COMPAS, and German Credit) and analyzes the impacts of metric selection, base estimator choice, and classification threshold on model fairness. The results highlight the significance of selecting appropriate accuracy and fairness metrics for model evaluation. Additionally, different base estimators and classification threshold values affect the effectiveness of bias mitigation methods and fairness stability respectively, but the effects are not consistent across all datasets. Based on these findings, future research on fairness in machine learning should consider a broader range of factors when building fair models, going beyond bias mitigation methods alone. | 翻訳日:2024-01-05 15:19:33 公開日:2024-01-04 |
# 粒子法による分散メモリ並列化の実証 Proven Distributed Memory Parallelization of Particle Methods ( http://arxiv.org/abs/2401.02180v1 ) ライセンス: Link先を確認 | Johannes Pahlke, Ivo F. Sbalzarini | (参考訳) 分散メモリコンピュータシステムにおける粒子法に対する数学的に証明された並列化方式を提案する。
粒子法(ほくうほうほう、英: particle method)は、分子モデリングにおける分子動力学(md)シミュレーションに、滑らかな粒子流体力学(sph)や離散要素法(dem)といった手法を用いて、連続流体力学や粒状流など様々な応用における計算機シミュレーションや数値予測のための多用途なアルゴリズムである。
パーティクル法は並列計算ハードウェアの実装に自然に貢献する。
しかし、これまでは共有メモリ並列処理に対してのみ、正しさと逐次実装の等価性に関する数学的証明が利用可能であった。
本稿では,分散メモリコンピュータに対して証明された並列化スキームを提供するため,粒子法のアルゴリズムクラスを形式的に定義する。
分散メモリコンピュータ上での並列化粒子法が,よく定義された粒子法クラスの逐次対応法と形式的に等価であることを証明した。
特に、解析された並列化スキームはよく知られ、一般的に使われている。
したがって、素粒子法の既存および新しい並列ソフトウェア実装に即座の実用的妥当性を示し、それらを理論的な根拠に位置づける。 We provide a mathematically proven parallelization scheme for particle methods on distributed-memory computer systems. Particle methods are a versatile and widely used class of algorithms for computer simulations and numerical predictions in various applications, ranging from continuum fluid dynamics and granular flows, using methods such as Smoothed Particle Hydrodynamics (SPH) and Discrete Element Methods (DEM) to Molecular Dynamics (MD) simulations in molecular modeling. Particle methods naturally lend themselves to implementation on parallel-computing hardware. So far, however, a mathematical proof of correctness and equivalence to sequential implementations was only available for shared-memory parallelism. Here, we leverage a formal definition of the algorithmic class of particle methods to provide a proven parallelization scheme for distributed-memory computers. We prove that these parallelized particle methods on distributed memory computers are formally equivalent to their sequential counterpart for a well-defined class of particle methods. Notably, the here analyzed parallelization scheme is well-known and commonly used. Our analysis is, therefore, of immediate practical relevance to existing and new parallel software implementations of particle methods and places them on solid theoretical grounds. | 翻訳日:2024-01-05 15:19:13 公開日:2024-01-04 |
# 相対論的ドップラー効果の簡単な量子画像 A simple quantum picture of the relativistic Doppler effect ( http://arxiv.org/abs/2401.02175v1 ) ライセンス: Link先を確認 | Daniel Hodgson, Sara Kanzi, and Almut Beige | (参考訳) 相対論的ドップラー効果は、異なる慣性参照フレームの観測者が空間と時間が異なるが、光の速度は常に同じであるという事実から生じる。
その結果、光の波束は異なる周波数、波長、振幅を示す。
本稿では,相対性理論に基づく相対論的ドップラー効果に対する局所的アプローチについて述べる。
その後、光の波束の量子状態変換における相対論的ドップラー効果の影響について検討し、すべての慣性フレームにおける時空図の同じ点における局所光子であることが示される。 The relativistic Doppler effect comes from the fact that observers in different inertial reference frames experience space and time differently, while the speed of light remains always the same. Consequently, a wave packet of light exhibits different frequencies, wavelengths, and amplitudes. In this paper, we present a local approach to the relativistic Doppler effect based on relativity, spatial and time translational symmetries, and energy conservation. Afterward, we investigate the implications of the relativistic Doppler effect for the quantum state transformations of wave packets of light and show that a local photon is a local photon at the same point in the spacetime diagram in all inertial frames. | 翻訳日:2024-01-05 15:18:55 公開日:2024-01-04 |
# 人物識別のためのプロンプトデカップリング Prompt Decoupling for Text-to-Image Person Re-identification ( http://arxiv.org/abs/2401.02173v1 ) ライセンス: Link先を確認 | Weihao Li, Lei Tan, Pingyang Dai, Yan Zhang | (参考訳) TIReID(Text-to-image person re-identification)は、画像ギャラリーからテキスト記述クエリを通じて対象者を検索することを目的とする。
近年、CLIPのような事前学習型視覚言語モデルは、セマンティック概念学習と豊富なマルチモーダル知識のための堅牢な能力のために、この課題に広く利用されている。
しかし、最近のCLIPベースのTIReIDメソッドは、TIReIDタスクにCLIPモデルを適用するために、ネットワーク全体を直接微調整するのが一般的である。
これらの手法はこのトピックにおいて競合性能を示すが、同時にドメイン適応とタスク適応を必要とするため、最適以下である。
この問題に対処するため,我々はこの2つのプロセスをトレーニング段階で分離しようと試みる。
具体的には、ドメイン適応を可能にするためのプロンプトチューニング戦略を導入し、タスク適応からドメイン適応をアンタングルする2段階のトレーニング手法を提案する。
最初の段階では、2つのエンコーダをCLIPから凍結し、CLIPの当初のトレーニングデータと下流タスクの間のドメインギャップを軽減するプロンプトの最適化にのみ重点を置いています。
第2段階では,固定されたプロンプトを維持し,クリップモデルを微調整し,タイヤ処理に適した細粒度情報の取得を優先する。
最後に,3つの広く利用されているデータセットに対して,本手法の有効性を評価する。
直接微調整アプローチと比較すると,本手法は大幅に改善されている。 Text-to-image person re-identification (TIReID) aims to retrieve the target person from an image gallery via a textual description query. Recently, pre-trained vision-language models like CLIP have attracted significant attention and have been widely utilized for this task due to their robust capacity for semantic concept learning and rich multi-modal knowledge. However, recent CLIP-based TIReID methods commonly rely on direct fine-tuning of the entire network to adapt the CLIP model for the TIReID task. Although these methods show competitive performance on this topic, they are suboptimal as they necessitate simultaneous domain adaptation and task adaptation. To address this issue, we attempt to decouple these two processes during the training stage. Specifically, we introduce the prompt tuning strategy to enable domain adaptation and propose a two-stage training approach to disentangle domain adaptation from task adaptation. In the first stage, we freeze the two encoders from CLIP and solely focus on optimizing the prompts to alleviate domain gap between the original training data of CLIP and downstream tasks. In the second stage, we maintain the fixed prompts and fine-tune the CLIP model to prioritize capturing fine-grained information, which is more suitable for TIReID task. Finally, we evaluate the effectiveness of our method on three widely used datasets. Compared to the directly fine-tuned approach, our method achieves significant improvements. | 翻訳日:2024-01-05 15:18:42 公開日:2024-01-04 |
# 可視赤外人物再識別のための周波数領域ニュアンスマイニング Frequency Domain Nuances Mining for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2401.02162v1 ) ライセンス: Link先を確認 | Yukang Zhang, Yang Lu, Yan Yan, Hanzi Wang, Xuelong Li | (参考訳) 可視赤外人物再識別(VIReID)の鍵は、可視画像と赤外線画像の偏差を最小限にする方法にある。
既存の手法は主に、識別周波数情報を無視しながら空間情報を利用する。
この問題に対処するため,周波数領域から見たモダリティの差を低減することを目的とした。
具体的には、振幅誘導位相(AGP)モジュールと振幅ニュアンスマイニング(ANM)モジュールを主成分とする、周波数領域の周波数領域情報を探索する新しい周波数領域ニュアンスマイニング(FDNM)手法を提案する。
これらの2つのモジュールは、周波数領域の可視赤外ニュアンスを共同で探索することで、周波数領域におけるモダリティの差を効果的に低減する。
さらに,ANMモジュールの識別的アイデンティティ情報を保護し,多種多様なモダリティニュアンスを発見できるように,中心誘導型ニュアンスマイニング損失を提案する。
我々の知る限りでは、これがVIReID研究の潜在的な周波数情報を探究する最初の研究である。
広汎な実験により,提案するFDNMは,VIReIDの性能向上に有益であることがわかった。
具体的には,室内探索モード下でのSYSU-MM01データセットにおいて,Ran-1精度が5.2 %,mAPが5.8 %向上した。
さらに,難易度の高い視覚・赤外線顔認識タスクにおいて,本手法の有効性と一般化を検証した。
\textcolor{magenta}{ コードは利用可能になる。
} The key of visible-infrared person re-identification (VIReID) lies in how to minimize the modality discrepancy between visible and infrared images. Existing methods mainly exploit the spatial information while ignoring the discriminative frequency information. To address this issue, this paper aims to reduce the modality discrepancy from the frequency domain perspective. Specifically, we propose a novel Frequency Domain Nuances Mining (FDNM) method to explore the cross-modality frequency domain information, which mainly includes an amplitude guided phase (AGP) module and an amplitude nuances mining (ANM) module. These two modules are mutually beneficial to jointly explore frequency domain visible-infrared nuances, thereby effectively reducing the modality discrepancy in the frequency domain. Besides, we propose a center-guided nuances mining loss to encourage the ANM module to preserve discriminative identity information while discovering diverse cross-modality nuances. To the best of our knowledge, this is the first work that explores the potential frequency information for VIReID research. Extensive experiments show that the proposed FDNM has significant advantages in improving the performance of VIReID. Specifically, our method outperforms the second-best method by 5.2\% in Rank-1 accuracy and 5.8\% in mAP on the SYSU-MM01 dataset under the indoor search mode, respectively. Besides, we also validate the effectiveness and generalization of our method on the challenging visible-infrared face recognition task. \textcolor{magenta}{The code will be available.} | 翻訳日:2024-01-05 15:18:18 公開日:2024-01-04 |
# 疎結合構造を持つRAW-to-sRGBのフーリエ領域における拡張 Enhancing RAW-to-sRGB with Decoupled Style Structure in Fourier Domain ( http://arxiv.org/abs/2401.02161v1 ) ライセンス: Link先を確認 | Xuanhua He, Tao Hu, Guoli Wang, Zejin Wang, Run Wang, Qian Zhang, Keyu Yan, Ziyi Chen, Rui Li, Chenjun Xie, Jie Zhang, Man Zhou | (参考訳) RAWからsRGBへのマッピングは、スマートフォンからデジタル一眼レフ(DSLR)カメラに匹敵するRGB形式にRAW画像を変換することを目的としており、研究の重要領域となっている。
しかし、現在の方法では、携帯電話のraw画像とデジタル一眼レフカメラのrgb画像の違いを無視することが多い。
近年,カラーマッピングと空間構造を直接再構成する手法が提案されている。
画像復元と拡張を区別する画像信号処理(ISP)パイプラインにインスパイアされた我々は、新しいニューラルネットワークISPフレームワーク、FourierISPを提案する。
このアプローチは、画像を周波数領域内のスタイルと構造に分解し、独立した最適化を可能にする。
FourierISPは3つのサブネットで構成されている: 構造改善のためのフェーズエンハンス・サブネット、色学習のための振幅リファイン・サブネット、それらを滑らかにブレンドするためのカラー適応・サブネット。
このアプローチは色と構造の両方を鋭くし、様々なデータセットにわたる広範な評価により、我々の手法が最先端の結果を実現することを確認した。
コードは ~\url{https://github.com/alexhe101/FourierISP} で入手できる。 RAW to sRGB mapping, which aims to convert RAW images from smartphones into RGB form equivalent to that of Digital Single-Lens Reflex (DSLR) cameras, has become an important area of research. However, current methods often ignore the difference between cell phone RAW images and DSLR camera RGB images, a difference that goes beyond the color matrix and extends to spatial structure due to resolution variations. Recent methods directly rebuild color mapping and spatial structure via shared deep representation, limiting optimal performance. Inspired by Image Signal Processing (ISP) pipeline, which distinguishes image restoration and enhancement, we present a novel Neural ISP framework, named FourierISP. This approach breaks the image down into style and structure within the frequency domain, allowing for independent optimization. FourierISP is comprised of three subnetworks: Phase Enhance Subnet for structural refinement, Amplitude Refine Subnet for color learning, and Color Adaptation Subnet for blending them in a smooth manner. This approach sharpens both color and structure, and extensive evaluations across varied datasets confirm that our approach realizes state-of-the-art results. Code will be available at ~\url{https://github.com/alexhe101/FourierISP}. | 翻訳日:2024-01-05 15:17:49 公開日:2024-01-04 |
# 嗜好に基づく多目的強化学習のためのHuman-in-the-Loopポリシー最適化 Human-in-the-Loop Policy Optimization for Preference-Based Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2401.02160v1 ) ライセンス: Link先を確認 | Ke Li, Han Guo | (参考訳) マルチオブジェクト強化学習(MORL)は、複数の対立する目標間のトレードオフに対処する、ハイパフォーマンスで多様なポリシーのセットを見つけることを目的としている。
しかし、実際には、意思決定者(DM)は1つまたは少数のトレードオフポリシーのみをデプロイすることが多い。
DMに対する多彩なトレードオフポリシの提供は、作業負荷を著しく増加させるだけでなく、マルチ基準意思決定におけるノイズも引き起こす。
そこで本研究では,利害の方針を対話的に識別する嗜好に基づくMORLのためのHuman-in-the-loopポリシー最適化フレームワークを提案する。
本手法は,実世界のブラックボックス決定シナリオでは利用できないような事前知識を必要とせずに,DMの暗黙の選好情報を積極的に学習する。
学習された嗜好情報は、政策最適化を段階的に関心の政策へ導くために使用される。
本研究では,ロボット制御とスマートグリッド管理のための2つのモール環境において,好み情報や4つの最新嗜好に基づくモールアルゴリズムを考慮しない3つの従来のモールアルゴリズムに対するアプローチを評価する。
実験により,提案手法の有効性を他のピアアルゴリズムと比較した。 Multi-objective reinforcement learning (MORL) aims to find a set of high-performing and diverse policies that address trade-offs between multiple conflicting objectives. However, in practice, decision makers (DMs) often deploy only one or a limited number of trade-off policies. Providing too many diversified trade-off policies to the DM not only significantly increases their workload but also introduces noise in multi-criterion decision-making. With this in mind, we propose a human-in-the-loop policy optimization framework for preference-based MORL that interactively identifies policies of interest. Our method proactively learns the DM's implicit preference information without requiring any a priori knowledge, which is often unavailable in real-world black-box decision scenarios. The learned preference information is used to progressively guide policy optimization towards policies of interest. We evaluate our approach against three conventional MORL algorithms that do not consider preference information and four state-of-the-art preference-based MORL algorithms on two MORL environments for robot control and smart grid management. Experimental results fully demonstrate the effectiveness of our proposed method in comparison to the other peer algorithms. | 翻訳日:2024-01-05 15:17:24 公開日:2024-01-04 |
# グラフラプラシア量子状態の分離性:ユニタリ演算子、近傍集合および等価関係の利用 Separability of Graph Laplacian Quantum States: Utilizing Unitary Operators, Neighbourhood Sets and Equivalence Relation ( http://arxiv.org/abs/2401.02289v1 ) ライセンス: Link先を確認 | Anoopa Joshi, Parvinder Singh, Atul Kumar | (参考訳) この記事では、グラフラプラシアンで表される量子状態における内在的絡み合いと分離性の特徴について分析する。
グラフにおけるエッジの有無は、これらの状態の絡み合いや分離性を定義する上で重要な役割を果たすことを示す。
合成ヒルベルト空間内の量子状態の分離性を確認するための基準として,$h=h_1 \otimes h_2 \otimes \dots \otimes h_n$ を提案する。
この決定はユニタリ作用素、近傍集合、同値関係の組み合わせによって達成される。 This article delves into an analysis of the intrinsic entanglement and separability feature in quantum states as depicted by graph Laplacian. We show that the presence or absence of edges in the graph plays a pivotal role in defining the entanglement or separability of these states. We propose a set of criteria for ascertaining the separability of quantum states comprising $n$-qubit within a composite Hilbert space, indicated as $H=H_1 \otimes H_2 \otimes \dots \otimes H_n$. This determination is achieved through a combination of unitary operators, neighbourhood sets, and equivalence relations. | 翻訳日:2024-01-05 15:10:09 公開日:2024-01-04 |
# エンタングルメント蒸留のための育種プロトコルの汎用的枠組み General framework of breeding protocols for entanglement distillation ( http://arxiv.org/abs/2401.02265v1 ) ライセンス: Link先を確認 | Ryutaroh Matsumoto | (参考訳) Bennettらは、絡み合った蒸留のための一連のプロトコル、すなわちハッシュ、反復および繁殖プロトコルを提案した。
最後のものは非効率とされ、ハッシュプロトコルに劣ると考えられており、ほとんど調査されていない。
本稿では,安定器の量子誤り訂正符号を育種プロトコルに変換するための一般的な枠組みを提案する。
次に,育種プロトコルをハッシュプロトコルよりも優れたものにする安定化器の例を示す。 Bennett et al. proposed a family of protocols for entanglement distillation, namely, hashing, recurrence and breeding protocols. The last one was considered inefficient and has been investigated little, because it was considered inferior to the hashing protocol. In this paper, we propose a general framework of converting a stabilizer quantum error-correcting code to a breeding protocol. Then, we show an example of a stabilizer that gives a breeding protocol better than hashing protocols. | 翻訳日:2024-01-05 15:09:57 公開日:2024-01-04 |
# 不確実性を考慮した不均一時系列インプットのためのディープアテンションリカレントニューラルネットワーク Uncertainty-Aware Deep Attention Recurrent Neural Network for Heterogeneous Time Series Imputation ( http://arxiv.org/abs/2401.02258v1 ) ライセンス: Link先を確認 | Linglong Qian, Zina Ibrahim, Richard Dobson | (参考訳) 欠落は多変量時系列においてユビキタスであり、信頼できる下流分析の障害となる。
再帰的なネットワーク計算はSOTAを達成したが、既存のモデルは複雑なデータから生じる問題を軽減できるような深いアーキテクチャにスケールしない。
さらに、インプテーションは基底真理の偏りのある推定のリスクをもたらす。
しかし、インプットされた値の信頼性は常にモデル出力から計測されるか、計算される。
異種多変量時系列における欠落値とその関連不確かさを共同で推定するDeep Attention Recurrent Imputation (DEARI)を提案する。
特徴的相関と時間的ダイナミクスを共同で表現することにより,効果的な残差成分とともに自己注意機構を採用し,高いインプテーション性能と安定した収束性を有するディープリカレントニューラルネットワークを実現する。
また,サンプルの類似性を最適化することで,自己教師付きメトリック学習をパフォーマンス向上に活用した。
最後に,新たなベイズ辺縁化戦略により,deariをベイズ的ニューラルネットワークに変換し,その決定論的等価性を上回る確率的deariを生成する。
実験の結果、DEARIは空気質制御、医療、交通といった現実世界のデータセットを使用して様々な計算タスクでSOTAを上回っていることがわかった。 Missingness is ubiquitous in multivariate time series and poses an obstacle to reliable downstream analysis. Although recurrent network imputation achieved the SOTA, existing models do not scale to deep architectures that can potentially alleviate issues arising in complex data. Moreover, imputation carries the risk of biased estimations of the ground truth. Yet, confidence in the imputed values is always unmeasured or computed post hoc from model output. We propose DEep Attention Recurrent Imputation (DEARI), which jointly estimates missing values and their associated uncertainty in heterogeneous multivariate time series. By jointly representing feature-wise correlations and temporal dynamics, we adopt a self attention mechanism, along with an effective residual component, to achieve a deep recurrent neural network with good imputation performance and stable convergence. We also leverage self-supervised metric learning to boost performance by optimizing sample similarity. Finally, we transform DEARI into a Bayesian neural network through a novel Bayesian marginalization strategy to produce stochastic DEARI, which outperforms its deterministic equivalent. Experiments show that DEARI surpasses the SOTA in diverse imputation tasks using real-world datasets, namely air quality control, healthcare and traffic. | 翻訳日:2024-01-05 15:09:50 公開日:2024-01-04 |
# 対話システムにおける対話者眼からの反応評価の再考 Rethinking Response Evaluation from Interlocutor's Eye for Open-Domain Dialogue Systems ( http://arxiv.org/abs/2401.02256v1 ) ライセンス: Link先を確認 | Yuma Tsuta, Naoki Yoshinaga, Shoetsu Sato and Masashi Toyoda | (参考訳) オープンドメインの対話システムは、人間との継続的な会話に取り組み始めた。
これらの対話システムは、人間の対話者に対して調整され、その視点で評価される。
しかし、現在の自動評価手法が干渉者の判断を近似できるかどうかは疑問である。
本研究では,自動応答評価装置に必要な機能について,対話者の視点から分析・検討した。
ハズミデータセットの最初の実験では、対話者の認識が、対話者の判断と自動応答評価を関連付ける上で重要な役割を担っていることが明らかとなった。
X(旧Twitter)での大規模な会話を用いた2回目の実験では、対話継続性予測は人間からのフィードバックを伴わずにインターロカクタ認識応答評価器を訓練し、人間の反応と比較して生成された応答を評価するのが困難であることを明らかにした。 Open-domain dialogue systems have started to engage in continuous conversations with humans. Those dialogue systems are required to be adjusted to the human interlocutor and evaluated in terms of their perspective. However, it is questionable whether the current automatic evaluation methods can approximate the interlocutor's judgments. In this study, we analyzed and examined what features are needed in an automatic response evaluator from the interlocutor's perspective. The first experiment on the Hazumi dataset revealed that interlocutor awareness plays a critical role in making automatic response evaluation correlate with the interlocutor's judgments. The second experiment using massive conversations on X (formerly Twitter) confirmed that dialogue continuity prediction can train an interlocutor-aware response evaluator without human feedback while revealing the difficulty in evaluating generated responses compared to human responses. | 翻訳日:2024-01-05 15:09:31 公開日:2024-01-04 |
# 人間活動認識のための連続学習と微調整のバランシング Balancing Continual Learning and Fine-tuning for Human Activity Recognition ( http://arxiv.org/abs/2401.02255v1 ) ライセンス: Link先を確認 | Chi Ian Tang, Lorena Qendro, Dimitris Spathis, Fahim Kawsar, Akhil Mathur, Cecilia Mascolo | (参考訳) ウェアラブルベースのヒューマンアクティビティ認識(HAR)は、人間の行動の基本的な理解のため、人間中心の機械学習において重要なタスクである。
人間の行動の動的な性質のため、継続的な学習はユーザのニーズに合わせたHARシステムを約束する。
しかしながら、ラベル付きデータをウェアラブルセンサーで収集することが困難であるため、教師付き連続学習にフォーカスした既存のアプローチは適用性が低く、教師なし連続学習法は表現学習のみを処理し、分類訓練を後段に遅らせる。
本研究は,自己教師付き学習モデルcassleと,表現学習とダウンストリーム分類のバランスをとる半教師付き連続学習モデルkaizenの,ウェアラブルベースのharタスクの採用と適応について検討する。
これらのスキームは、知識保持のためのコントラスト学習を再利用し、カイゼンは、無ラベルおよびラベル付きデータを連続学習に活用できる統一スキームで自己学習を組み合わせる。
最先端の自己教師付き連続学習方式の比較に加えて、異なる損失項の重要性についても検討し、知識保持と新しいタスクからの学習のトレードオフについて検討した。
特に,学習と新しい授業の比率を反映した重み付け係数を用いることで,継続的な学習において最良のトレードオフが得られることを示した。 Wearable-based Human Activity Recognition (HAR) is a key task in human-centric machine learning due to its fundamental understanding of human behaviours. Due to the dynamic nature of human behaviours, continual learning promises HAR systems that are tailored to users' needs. However, because of the difficulty in collecting labelled data with wearable sensors, existing approaches that focus on supervised continual learning have limited applicability, while unsupervised continual learning methods only handle representation learning while delaying classifier training to a later stage. This work explores the adoption and adaptation of CaSSLe, a continual self-supervised learning model, and Kaizen, a semi-supervised continual learning model that balances representation learning and down-stream classification, for the task of wearable-based HAR. These schemes re-purpose contrastive learning for knowledge retention and, Kaizen combines that with self-training in a unified scheme that can leverage unlabelled and labelled data for continual learning. In addition to comparing state-of-the-art self-supervised continual learning schemes, we further investigated the importance of different loss terms and explored the trade-off between knowledge retention and learning from new tasks. In particular, our extensive evaluation demonstrated that the use of a weighting factor that reflects the ratio between learned and new classes achieves the best overall trade-off in continual learning. | 翻訳日:2024-01-05 15:09:14 公開日:2024-01-04 |
# L3Cube-IndicNews: ニュースベースの短文と長い文書分類データセット L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages ( http://arxiv.org/abs/2401.02254v1 ) ライセンス: Link先を確認 | Aishwarya Mirashi, Srushti Sonavane, Purva Lingayat, Tejas Padhiyar, Raviraj Joshi | (参考訳) 本研究では,インドの地域言語を対象とした高品質なデータセットのキュレーションを目的とした多言語テキスト分類コーパスL3Cube-IndicNewsを紹介する。
私たちはヒンディー語、ベンガル語、マラティ語、テルグ語、タミル語、グジャラート語、カンナダ語、オディア語、マラヤラム語、パンジャービ語を含む10の著名なインド語を中心にしています。
これらのニュースデータセットは、10以上のニュース記事からなる。
L3Cube-IndicNewsでは、ニュース見出しとニュースカテゴリを含むショートヘッドライン分類(SHC)データセット、ニュース記事全体とニュースカテゴリを含むロングドキュメント分類(LDC)データセット、ニュースとニュースカテゴリのサブアーティクルを含むロングパラグラフ分類(LPC)という3つの異なる文書長を扱うように調整された3つのデータセットを提供している。
詳細な長さに基づく分析のために、3つのデータセットにまたがって一貫したラベリングを維持します。
単言語BERT,多言語Indic Sentence BERT(IndicSBERT),IndicBERT(IndicSBERT)の4つのモデルを用いてこれらのIndic言語データセットを評価する。
本研究は、利用可能なテキスト分類データセットのプールの拡大に大きく貢献し、インドの地域言語におけるトピック分類モデルの開発を可能にする。
これはまた、言語間のラベルが重なり合っているため、言語横断分析に優れたリソースとなる。
データセットとモデルはhttps://github.com/l3cube-pune/indic-nlpで公開されている。 In this work, we introduce L3Cube-IndicNews, a multilingual text classification corpus aimed at curating a high-quality dataset for Indian regional languages, with a specific focus on news headlines and articles. We have centered our work on 10 prominent Indic languages, including Hindi, Bengali, Marathi, Telugu, Tamil, Gujarati, Kannada, Odia, Malayalam, and Punjabi. Each of these news datasets comprises 10 or more classes of news articles. L3Cube-IndicNews offers 3 distinct datasets tailored to handle different document lengths that are classified as: Short Headlines Classification (SHC) dataset containing the news headline and news category, Long Document Classification (LDC) dataset containing the whole news article and the news category, and Long Paragraph Classification (LPC) containing sub-articles of the news and the news category. We maintain consistent labeling across all 3 datasets for in-depth length-based analysis. We evaluate each of these Indic language datasets using 4 different models including monolingual BERT, multilingual Indic Sentence BERT (IndicSBERT), and IndicBERT. This research contributes significantly to expanding the pool of available text classification datasets and also makes it possible to develop topic classification models for Indian regional languages. This also serves as an excellent resource for cross-lingual analysis owing to the high overlap of labels among languages. The datasets and models are shared publicly at https://github.com/l3cube-pune/indic-nlp | 翻訳日:2024-01-05 15:08:50 公開日:2024-01-04 |
# REDriver: 自動運転車のランタイム強化 REDriver: Runtime Enforcement for Autonomous Vehicles ( http://arxiv.org/abs/2401.02253v1 ) ライセンス: Link先を確認 | Yang Sun, Christopher M. Poskitt, Xiaodong Zhang, Jun Sun | (参考訳) 自律運転システム(autonomous driving systems:adss)は、センシング、知覚、運転制御などの重要なタスクを統合し、安全性を評価する技術の研究を動機付ける。
高忠実度シミュレーターでテストし分析するためのアプローチはいくつかあるが、ADSは実際の道路に配備されたときにカバーされるもの以外の重要なシナリオに遭遇する可能性がある。
ADSの実行時に重要な特性を監視し、強制することによって、さらなる信頼度を確立することができる。
しかし、既存の作業では単純な安全特性(例えば衝突を避けるなど)のみを監視でき、緊急ブレーキを打つなどの鈍的強制機構に限定されている。
本稿では,信号時論理(STL)に基づく仕様言語において,幅広い特性(例えば,国家交通法則)を指定可能な,実行時執行のための汎用かつモジュール的なアプローチであるREDriverを提案する。
REDriverは、STLの定量的意味論に基づいて、ADSの計画された軌道を監視し、仕様に違反する可能性がある場合に、勾配駆動アルゴリズムを用いて軌道を修復する。
我々は,2つのバージョンのApollo(ADS)に対してREDriverを実装し,中国の交通法違反のベンチマークを行った。
その結果、REDriverはApolloの仕様への適合性を最小限のオーバーヘッドで大幅に改善した。 Autonomous driving systems (ADSs) integrate sensing, perception, drive control, and several other critical tasks in autonomous vehicles, motivating research into techniques for assessing their safety. While there are several approaches for testing and analysing them in high-fidelity simulators, ADSs may still encounter additional critical scenarios beyond those covered once they are deployed on real roads. An additional level of confidence can be established by monitoring and enforcing critical properties when the ADS is running. Existing work, however, is only able to monitor simple safety properties (e.g., avoidance of collisions) and is limited to blunt enforcement mechanisms such as hitting the emergency brakes. In this work, we propose REDriver, a general and modular approach to runtime enforcement, in which users can specify a broad range of properties (e.g., national traffic laws) in a specification language based on signal temporal logic (STL). REDriver monitors the planned trajectory of the ADS based on a quantitative semantics of STL, and uses a gradient-driven algorithm to repair the trajectory when a violation of the specification is likely. We implemented REDriver for two versions of Apollo (i.e., a popular ADS), and subjected it to a benchmark of violations of Chinese traffic laws. The results show that REDriver significantly improves Apollo's conformance to the specification with minimal overhead. | 翻訳日:2024-01-05 15:08:20 公開日:2024-01-04 |
# カーマグノンを用いた非相反光子遮断 Nonreciprocal photon blockade with Kerr magnons ( http://arxiv.org/abs/2401.02251v1 ) ライセンス: Link先を確認 | Xiao-Hong Fan, Yi-Ning Zhang, Jun-Po Yu, Ming-Yue Liu, Wen-Di He, Hai-Chao Li, Wei Xiong | (参考訳) 片方向信号を操作する非相互デバイスは、量子情報処理と量子ネットワークにとって不可欠である。
本稿では,1つまたは2つのyttrium-iron-garnet(yig)球体に結合したマイクロ波共振器からなる非線形共振器-マグノン系を提案する。
非相反性は方向依存カー効果に由来し、回転キャビティと散逸結合を持つ以前の提案とは明確に異なる。
単一球面の場合、非相互光子遮断は、ケーラー係数を正から負に変化させることで、2つの活性経路間の非相互破壊干渉を操作することで実現できる。
システムパラメータを最適化することで、完全でよく調整された非相互光子遮断を予測することができる。
反対のカー効果を持つ2つの球体の場合、2つのキャビティ-マグノン結合強度が対称であるときに、相互光子遮断のみが観測される。
しかし、結合強度やカー強度が非対称になると、非相互光子遮断が現れる。
これは、2次元非線形空洞-マグノン系が相互光子遮断と非相互光子遮断の遷移を切り替えるために用いられることを意味する。
本研究は非線形キャビティマグノニクスにおける非相反光子遮断効果を調べるための潜在的基盤を提供する。 Nonreciprocal devices, allowing to manipulate one-way signals, are crucial to quantum information processing and quantum network. Here we propose a nonlinear cavity-magnon system, consisting of a microwave cavity coupled to one or two yttrium-iron-garnet (YIG) spheres supporting magnons with Kerr nonlinearity, to investigate nonreciprocal photon blockade. The nonreciprocity originates from the direction-dependent Kerr effect, distinctly different from previous proposals with spinning cavities and dissipative couplings. For a single sphere case, nonreciprocal photon blockade can be realized by manipulating the nonreciprocal destructive interference between two active paths, via vary the Kerr coefficient from positive to negative, or vice versa. By optimizing the system parameters, the perfect and well tuned nonreciprocal photon blockade can be predicted. For the case of two spheres with opposite Kerr effects, only reciprocal photon blockade can be observed when two cavity-magnon coupling strengths Kerr strengths are symmetric. However, when coupling strengths or Kerr strengths become asymmetric, nonreciprocal photon blockade appears. This implies that two-sphere nonlinear cavity-magnon systems can be used to switch the transition between reciprocal and nonreciprocal photon blockades. Our study offers a potential platform for investigating nonreciprocal photon blockade effect in nonlinear cavity magnonics. | 翻訳日:2024-01-05 15:07:56 公開日:2024-01-04 |
# ジェネレーティブAIを用いたシナリオベースモデリングの強化について On Augmenting Scenario-Based Modeling with Generative AI ( http://arxiv.org/abs/2401.02245v1 ) ライセンス: Link先を確認 | David Harel, Guy Katz, Assaf Marron, Smadar Szekely | (参考訳) 複雑なシステムの手動モデリングは大変な作業であり、この問題を緩和する多くの方法が存在するが、この問題は非常に難しいままである。
生成AIの最近の進歩により、様々なモデリングタスクでソフトウェアエンジニアを支援する汎用チャットボットの開発が可能になった。
しかし、これらのチャットボットはしばしば不正確であり、その非構造化使用は誤ったシステムモデルをもたらす可能性がある。
本稿では,モデリングプロセスの一環として,チャットボットのより安全で構造化された利用法について概説する。
この統合を合理化するために,我々は,モデルの自動解析を容易にすることで知られるシナリオベースのモデリング手法の活用を提案する。
チャットボットの反復的な呼び出しと結果のモデルの手動および自動検査により、最終的にはより正確なシステムモデルが得られると論じる。
このアプローチの可能性を浮き彫りにした良好な予備結果について述べる。 The manual modeling of complex systems is a daunting task; and although a plethora of methods exist that mitigate this issue, the problem remains very difficult. Recent advances in generative AI have allowed the creation of general-purpose chatbots, capable of assisting software engineers in various modeling tasks. However, these chatbots are often inaccurate, and an unstructured use thereof could result in erroneous system models. In this paper, we outline a method for the safer and more structured use of chatbots as part of the modeling process. To streamline this integration, we propose leveraging scenario-based modeling techniques, which are known to facilitate the automated analysis of models. We argue that through iterative invocations of the chatbot and the manual and automatic inspection of the resulting models, a more accurate system model can eventually be obtained. We describe favorable preliminary results, which highlight the potential of this approach. | 翻訳日:2024-01-05 15:07:33 公開日:2024-01-04 |
# ポリシー正規化オフライン多目的強化学習 Policy-regularized Offline Multi-objective Reinforcement Learning ( http://arxiv.org/abs/2401.02244v1 ) ライセンス: Link先を確認 | Qian Lin, Chao Yu, Zongkai Liu, Zifan Wu | (参考訳) 本稿では,オフライン軌道データのみを用いて多目的RLのポリシーを訓練することを目的とする。
我々は,単一目的のオフラインrl問題に対して広く採用されているオフラインポリシー正規化手法を,上記の目標を達成するために多目的設定に拡張する。
しかし、このような手法はオフラインのMORL設定において新たな課題に直面している。
この問題に対する2つの解決策を提案します
1)行動選好の近似による選好不整合デモのフィルタリング
2) 政策表現力の高い正規化技術を採用する。
さらに,政策調整型オフラインrlに,選好条件付きスカラ化更新手法を統合することで,単一のポリシーネットワークを用いて一連のポリシーを同時に学習し,様々な選好のための多数の個別ポリシーのトレーニングによる計算コストを削減する。
最後に、配置中の任意のターゲット嗜好に対して適切な正規化重みを動的に決定するために正規化重み適応を導入する。
様々な多目的データセットに対する実験結果は、オフラインMORL問題の解法における我々のアプローチの能力を示している。 In this paper, we aim to utilize only offline trajectory data to train a policy for multi-objective RL. We extend the offline policy-regularized method, a widely-adopted approach for single-objective offline RL problems, into the multi-objective setting in order to achieve the above goal. However, such methods face a new challenge in offline MORL settings, namely the preference-inconsistent demonstration problem. We propose two solutions to this problem: 1) filtering out preference-inconsistent demonstrations via approximating behavior preferences, and 2) adopting regularization techniques with high policy expressiveness. Moreover, we integrate the preference-conditioned scalarized update method into policy-regularized offline RL, in order to simultaneously learn a set of policies using a single policy network, thus reducing the computational cost induced by the training of a large number of individual policies for various preferences. Finally, we introduce Regularization Weight Adaptation to dynamically determine appropriate regularization weights for arbitrary target preferences during deployment. Empirical results on various multi-objective datasets demonstrate the capability of our approach in solving offline MORL problems. | 翻訳日:2024-01-05 15:07:19 公開日:2024-01-04 |
# スロット誘導容積物体放射場 Slot-guided Volumetric Object Radiance Fields ( http://arxiv.org/abs/2401.02241v1 ) ライセンス: Link先を確認 | Di Qi, Tong Yang, Xiangyu Zhang | (参考訳) 本稿では3次元オブジェクト中心表現学習のための新しいフレームワークを提案する。
本手法では,複雑なシーンを,教師なしの方法で単一の画像から個々のオブジェクトに分解する。
この方法は、slot-guided volumetric object radiance fields (svorf)と呼ばれ、教師なしの3dシーン分解を実装するためのガイダンスとして、オブジェクトスロット付きボリュームリックオブジェクトradianceフィールドを構成する。
具体的には、SVORFは、トランスフォーマーモジュールを介して単一の画像からオブジェクトスロットを取得し、これらのスロットをハイパーネットワークでボリュームオブジェクトラディアンスフィールドにマッピングし、3D位置でのオブジェクトスロットの誘導でオブジェクトラディアンスフィールドを構成する。
さらに、sVORFは、トレーニング中の小さなピクセルレンダリングによるメモリ要求を著しく低減する。
複雑な合成データセット(Room-Diverseなど)のシーン分解および生成タスクにおける上位結果を示すことによって,本手法の有効性を示す。
さらに、現実世界のシーン(例えばLLFFデータセット)でオブジェクトをセグメント化するためのsVORFの可能性を確認する。
我々は,3次元オブジェクト中心表現学習における物理世界の予備的な理解と今後の研究の容易化を期待する。 We present a novel framework for 3D object-centric representation learning. Our approach effectively decomposes complex scenes into individual objects from a single image in an unsupervised fashion. This method, called slot-guided Volumetric Object Radiance Fields (sVORF), composes volumetric object radiance fields with object slots as a guidance to implement unsupervised 3D scene decomposition. Specifically, sVORF obtains object slots from a single image via a transformer module, maps these slots to volumetric object radiance fields with a hypernetwork and composes object radiance fields with the guidance of object slots at a 3D location. Moreover, sVORF significantly reduces memory requirement due to small-sized pixel rendering during training. We demonstrate the effectiveness of our approach by showing top results in scene decomposition and generation tasks of complex synthetic datasets (e.g., Room-Diverse). Furthermore, we also confirm the potential of sVORF to segment objects in real-world scenes (e.g., the LLFF dataset). We hope our approach can provide preliminary understanding of the physical world and help ease future research in 3D object-centric representation learning. | 翻訳日:2024-01-05 15:07:01 公開日:2024-01-04 |
# U-Mixer: 時系列予測のための定常補正付きUnet-Mixerアーキテクチャ U-Mixer: An Unet-Mixer Architecture with Stationarity Correction for Time Series Forecasting ( http://arxiv.org/abs/2401.02236v1 ) ライセンス: Link先を確認 | Xiang Ma, Xuemei Li, Lexin Fang, Tianlong Zhao, Caiming Zhang | (参考訳) 時系列予測は様々な分野において重要なタスクである。
傾向、季節性、不規則な変動などの要因によって、時系列はしばしば非定常を示す。
ディープレイヤを通じた安定した機能伝達を阻害し、機能分布を乱し、学習データの分散変更を複雑にする。
その結果、既存のモデルの多くが基盤となるパターンを捉えるのに苦労し、予測性能が低下した。
本研究では,提案フレームワークであるU-Mixerを用いて時系列予測における非定常性の問題に取り組む。
UnetとMixerを組み合わせることで、U-Mixerは異なるパッチとチャネル間の局所的な時間的依存関係を効果的にキャプチャし、チャネル間の分散変動の影響を回避し、低レベルと高レベルの機能をマージして包括的なデータ表現を得る。
モデル処理前後のデータ間の定常性の差を制約して非定常情報を復元し、時間的依存性を保ちながら、データの分散を明示的に復元する、新たな定常性補正方法が鍵となる。
様々な実世界の時系列データセットに関する広範な実験を通じて、U-Mixerはその有効性と堅牢性を実証し、最先端(SOTA)手法よりも14.5\%と7.7\%改善した。 Time series forecasting is a crucial task in various domains. Caused by factors such as trends, seasonality, or irregular fluctuations, time series often exhibits non-stationary. It obstructs stable feature propagation through deep layers, disrupts feature distributions, and complicates learning data distribution changes. As a result, many existing models struggle to capture the underlying patterns, leading to degraded forecasting performance. In this study, we tackle the challenge of non-stationarity in time series forecasting with our proposed framework called U-Mixer. By combining Unet and Mixer, U-Mixer effectively captures local temporal dependencies between different patches and channels separately to avoid the influence of distribution variations among channels, and merge low- and high-levels features to obtain comprehensive data representations. The key contribution is a novel stationarity correction method, explicitly restoring data distribution by constraining the difference in stationarity between the data before and after model processing to restore the non-stationarity information, while ensuring the temporal dependencies are preserved. Through extensive experiments on various real-world time series datasets, U-Mixer demonstrates its effectiveness and robustness, and achieves 14.5\% and 7.7\% improvements over state-of-the-art (SOTA) methods. | 翻訳日:2024-01-05 15:06:40 公開日:2024-01-04 |
# 超伝導回路における非線形ホロノミックfSimゲートの一段階実装 One-step implementation of nonadiabatic holonomic fSim gate in superconducting circuits ( http://arxiv.org/abs/2401.02234v1 ) ライセンス: Link先を確認 | M.-R. Yun, Zheng Shan, L.-L. Yan, Yu Jia S.-L. Su, and G. Chen | (参考訳) fsimゲートはアルゴリズムの奥行きを下げる重要な用途のために多くの注目を集め、一方fsimゲートのワンステップ実装は未解決の問題である。
本稿では,3つの最低エネルギーレベルに基づく可変超伝導回路におけるホロノミックfSimゲートの一段階実装を提案する。
数値シミュレーションは,提案手法の有効性を実証する。
このスキームは量子計算とシミュレーションへの有望な道を提供するかもしれない。 Due to its significant application in reducing algorithm depth, fSim gates have attracted a lot of attention, while one-step implementation of fSim gates remains an unresolved issue. In this manuscript, we propose a one-step implementation of holonomic fSim gates in a tunable superconducting circuit based on the three lowest energy levels. Numerical simulations demonstrate the feasibility of our scheme. This scheme may provide a promising path toward quantum computation and simulation. | 翻訳日:2024-01-05 15:06:13 公開日:2024-01-04 |
# 自動テスト生産 - "アドホック"テストの補完 Automated Test Production -- Complement to "Ad-hoc" Testing ( http://arxiv.org/abs/2401.02230v1 ) ライセンス: Link先を確認 | Jos\'e Marcos Gomes and Luis Alberto Vieira Dias | (参考訳) 幅広い意味で、重要な活動と見なされるソフトウェアテストに関する見解が提示される。
本稿では,テストの適用方法と手法について論じるとともに,産業界が学界で観察される進歩の採用を困難にしている理由について述べる。
この領域におけるいくつかの進歩について論じ、ソリューションの探索において私たちが従うべきアプローチを簡潔に指摘する。 A view on software testing, taken in a broad sense and considered a important activity is presented. We discuss the methods and techniques for applying tests and the reasons we recognize make it difficult for industry to adopt the advances observed in academia. We discuss some advances in the area and briefly point out the approach we intend to follow in the search for a solution. | 翻訳日:2024-01-05 15:06:07 公開日:2024-01-04 |
# スパース報酬を用いた軌道指向政策最適化 Trajectory-Oriented Policy Optimization with Sparse Rewards ( http://arxiv.org/abs/2401.02225v1 ) ライセンス: Link先を確認 | Guojian Wang, Faguo Wu, Xiao Zhang | (参考訳) 深層強化学習(DRL)は, まばらな報酬を伴う課題において依然として困難な課題である。
これらのまばらな報酬は、しばしばタスクが部分的に完了したか完全に完了したかを示すだけであり、エージェントが有用なフィードバックを得る前に多くの探索行動を行う必要がある。
したがって、既存のDRLアルゴリズムは、合理的な時間枠内で実現可能なポリシーを学習できない。
この問題を克服するために,オフラインデモトラジェクタを利用する手法を開発し,より少ない報酬設定でより高速かつ効率的なオンラインrlを実現する。
私たちの重要な洞察は、オフラインデモの軌跡をガイダンスとして、それらを模倣する代わりに、オフラインデモのそれとステートアクション訪問の限界分布が一致するポリシーを学習することです。
具体的には、距離制約付き最適化問題として、最大平均誤差(MMD)と定式化ポリシー最適化に基づく新しい軌道距離を導入する。
そして,この距離制約付き最適化問題を,オフラインデモから学習した報酬を形作るポリシ勾配アルゴリズムに還元できることを示す。
提案アルゴリズムは, 離散的かつ連続的なタスクに対して, まばらで偽りの報奨を伴って評価する。
実験結果から,提案アルゴリズムは多様な探索法や最適政策の学習法よりもはるかに優れていることがわかった。 Deep reinforcement learning (DRL) remains challenging in tasks with sparse rewards. These sparse rewards often only indicate whether the task is partially or fully completed, meaning that many exploration actions must be performed before the agent obtains useful feedback. Hence, most existing DRL algorithms fail to learn feasible policies within a reasonable time frame. To overcome this problem, we develop an approach that exploits offline demonstration trajectories for faster and more efficient online RL in sparse reward settings. Our key insight is that by regarding offline demonstration trajectories as guidance, instead of imitating them, our method learns a policy whose state-action visitation marginal distribution matches that of offline demonstrations. Specifically, we introduce a novel trajectory distance based on maximum mean discrepancy (MMD) and formulate policy optimization as a distance-constrained optimization problem. Then, we show that this distance-constrained optimization problem can be reduced into a policy-gradient algorithm with shaped rewards learned from offline demonstrations. The proposed algorithm is evaluated on extensive discrete and continuous control tasks with sparse and deceptive rewards. The experimental results indicate that our proposed algorithm is significantly better than the baseline methods regarding diverse exploration and learning the optimal policy. | 翻訳日:2024-01-05 15:06:00 公開日:2024-01-04 |
# 大気におけるアップリンク伝送のための衛星型量子鍵分布(qkd)のリンク予算の推定 Estimating the link budget of satellite-based Quantum Key Distribution (QKD) for uplink transmission through the atmosphere ( http://arxiv.org/abs/2401.02303v1 ) ライセンス: Link先を確認 | Satya Ranjan Behera and Urbasi Sinha | (参考訳) 量子鍵分布(QKD)を含む衛星ベースの量子通信は、地球規模の量子通信に対する最も有望なアプローチの1つである。
大気を透過する量子信号の有効性を決定するためには、アップリンクとダウンリンクの両方の量子通信の大気シミュレーションを行うことが不可欠である。
アップリンクのシナリオでは、ビームの伝播の初期段階は大気との相互作用を伴い、シミュレーションを特に重要なものにしている。
本研究は,インド亜大陸上空の大気を解析するために,カナリア諸島で行った実験から得られた大気データを用いて,量子コミュニケーション(qc)の枠組みを用いてそのアプローチを検証することから始まる。
また、低地球軌道(LEO)におけるアップリンクとダウンリンクのシナリオを考慮し、カナダ各地のシミュレーション結果を再現してシミュレーション手法を検証する。
本稿では,インドにおける3つの異なる地上局をアップリンクベースQCに活用する実践性について検討するとともに,アップリンクおよびダウンリンクシナリオのビーコン信号についても検討する。
インドの様々な地理的地域の大気条件をシミュレートし、それぞれの場所について専用のリンク予算分析を行い、特にiao hanle、aries nainital、abuの3つの有名な観測所に注目した。
この分析では、信号とビーコンビームの全体的な損失を計算する。
その結果,IAO Hanleサイトは,他の2サイトと比較して,アップリンクベースのQCに適した選択であることがわかった。 Satellite-based quantum communications including quantum key distribution (QKD) represent one of the most promising approaches toward global-scale quantum communications. To determine the viability of transmitting quantum signals through the atmosphere, it is essential to conduct atmospheric simulations for both uplink and downlink quantum communications. In the case of the uplink scenario, the initial phase of the beam's propagation involves interaction with the atmosphere, making simulation particularly critical. To analyze the atmosphere over the Indian subcontinent, we begin by validating our approach by utilizing atmospheric data obtained from the experiments carried out in the Canary Islands within the framework of Quantum Communication (QC). We also verify our simulation methodology by reproducing simulation outcomes from diverse Canadian locations, taking into account both uplink and downlink scenarios in Low Earth Orbit (LEO). In this manuscript, we explore the practicality of utilizing three different ground station locations in India for uplink-based QC, while also considering beacon signals for both uplink and downlink scenarios. The atmospheric conditions of various geographical regions in India are simulated, and a dedicated link budget analysis is performed for each location, specifically focusing on three renowned observatories: IAO Hanle, Aries Nainital, and Mount Abu. The analysis involves computing the overall losses of the signal and beacon beams. The findings indicate that the IAO Hanle site is a more suitable choice for uplink-based QC when compared to the other two sites. | 翻訳日:2024-01-05 15:00:38 公開日:2024-01-04 |
# ロバスト物理インフォームドニューラルネットワーク Robust Physics Informed Neural Networks ( http://arxiv.org/abs/2401.02300v1 ) ライセンス: Link先を確認 | Marcin {\L}o\'s, Maciej Paszy\'nski | (参考訳) 偏微分方程式 (PDE) を近似するために, 物理情報ニューラルネットワーク (RPINN) のロバスト版を導入する。
標準物理情報ニューラルネットワーク(PINN)は、学習過程においてPDEが記述した物理法則を考慮に入れている。
ネットワークは、物理領域とその境界内のランダムに選択された点からなるデータセット上でトレーニングされる。
PINNは境界条件を持つPDEによって記述された様々な問題の解決に成功している。
従来のPINNの損失関数はPDEの強い残基に基づいている。
PINNにおけるこの損失関数は、一般に真の誤りに関して堅牢ではない。
PINNの損失関数は真のエラーとは程遠いため、トレーニングプロセスはより難しくなる。
特に、トレーニングプロセスが既に必要な精度でソリューションに収束したかどうかは不明です。
これは、正確な解決策がわからなければ特に当てはまるので、トレーニング中に真のエラーを見積もることはできません。
本稿では、損失関数を定義する別の方法を紹介する。
これは、エネルギーノルムを用いて計算されたグラム行列の残差と逆行列を組み込む。
2つのラプラス問題と2つの空間次元のアドベクション拡散問題に対してrpinnアルゴリズムをテストした。
rpinnはロバストな方法であると結論づける。
提案された損失は、エネルギーノルムで測定された解の真の誤りとよく一致する。
したがって、トレーニングプロセスがうまく行っているかどうかが分かっており、PDEの解のニューラルネットワーク近似を真に正確な精度の誤差で取得するためにトレーニングをいつ停止するかを知っています。 We introduce a Robust version of the Physics-Informed Neural Networks (RPINNs) to approximate the Partial Differential Equations (PDEs) solution. Standard Physics Informed Neural Networks (PINN) takes into account the governing physical laws described by PDE during the learning process. The network is trained on a data set that consists of randomly selected points in the physical domain and its boundary. PINNs have been successfully applied to solve various problems described by PDEs with boundary conditions. The loss function in traditional PINNs is based on the strong residuals of the PDEs. This loss function in PINNs is generally not robust with respect to the true error. The loss function in PINNs can be far from the true error, which makes the training process more difficult. In particular, we do not know if the training process has already converged to the solution with the required accuracy. This is especially true if we do not know the exact solution, so we cannot estimate the true error during the training. This paper introduces a different way of defining the loss function. It incorporates the residual and the inverse of the Gram matrix, computed using the energy norm. We test our RPINN algorithm on two Laplace problems and one advection-diffusion problem in two spatial dimensions. We conclude that RPINN is a robust method. The proposed loss coincides well with the true error of the solution, as measured in the energy norm. Thus, we know if our training process goes well, and we know when to stop the training to obtain the neural network approximation of the solution of the PDE with the true error of required accuracy. | 翻訳日:2024-01-05 15:00:14 公開日:2024-01-04 |
# LLMは音声対話にとってロバストか? Are LLMs Robust for Spoken Dialogues? ( http://arxiv.org/abs/2401.02297v1 ) ライセンス: Link先を確認 | Seyed Mahed Mousavi, Gabriel Roccabruna, Simone Alghisi, Massimo Rizzoli, Mirco Ravanelli, Giuseppe Riccardi | (参考訳) 大規模事前学習言語モデルでは、対話状態追跡やエンドツーエンド応答生成など、さまざまなダウンストリームタスクで最先端のパフォーマンスが実証されている。
それでも、タスク指向対話に関する公開データセットとベンチマークのほとんどは、書かれた会話に焦点を当てている。
その結果、音声対話に対する発達したモデルの堅牢性は不明である。
本研究では,DSTC11 テストセット上での音声タスク指向対話における LLM の性能評価を行った。
適切な音声対話データセットがないため、我々は最先端のASRエンジンによる音声対話の開発セットを自動転写した。
我々は、ASR-error型とその分布を特徴付け、これらのエラーを対話の大規模なデータセットでシミュレートした。
応答生成と対話状態追跡の2つのサブタスクにおける微調整GPT-2とT5モデルの内在的(複雑)および外在的(人間的評価)性能について報告する。
その結果、llmはデフォルトでは音声ノイズに対して頑健ではないが、これらのモデルを適切なtodデータセット上で微調整/訓練することで、よりロバストなパフォーマンスが得られることが分かった。 Large Pre-Trained Language Models have demonstrated state-of-the-art performance in different downstream tasks, including dialogue state tracking and end-to-end response generation. Nevertheless, most of the publicly available datasets and benchmarks on task-oriented dialogues focus on written conversations. Consequently, the robustness of the developed models to spoken interactions is unknown. In this work, we have evaluated the performance of LLMs for spoken task-oriented dialogues on the DSTC11 test sets. Due to the lack of proper spoken dialogue datasets, we have automatically transcribed a development set of spoken dialogues with a state-of-the-art ASR engine. We have characterized the ASR-error types and their distributions and simulated these errors in a large dataset of dialogues. We report the intrinsic (perplexity) and extrinsic (human evaluation) performance of fine-tuned GPT-2 and T5 models in two subtasks of response generation and dialogue state tracking, respectively. The results show that LLMs are not robust to spoken noise by default, however, fine-tuning/training such models on a proper dataset of spoken TODs can result in a more robust performance. | 翻訳日:2024-01-05 14:59:48 公開日:2024-01-04 |
# Convex-Concaveプログラミングを用いた単層形態知覚の訓練 Training Single-Layer Morphological Perceptron Using Convex-Concave Programming ( http://arxiv.org/abs/2401.02296v1 ) ライセンス: Link先を確認 | Iara Cunha and Marcos Eduardo Valle | (参考訳) 本稿では,disciplined convex-concave programming (dccp) を用いた単層モルフォロジーパーセプトロンの訓練について述べる。
我々は,K-DDCCPと呼ばれるアルゴリズムを導入し,リッターとウルシッドが提案した単一層型形態素パーセプトロン(SLMP)モデルとCharisopoulosとMaragosによる重み付き凸凸プログラミング(WDCCP)アルゴリズムを組み合わせた。
提案したトレーニングアルゴリズムは,DCCP法を利用して,二項分類のための非凸最適化問題を定式化する。
この問題に対処するため、制約は凸関数の違いとして表現され、DCCPパッケージの適用を可能にする。
実験により,K-DDCCPアルゴリズムによる二項分類問題の解法の有効性が確認された。
全体として、この研究はSLMPモデルの能力を拡張するアルゴリズムを提案することによって、モルフォロジーニューラルネットワークの分野に寄与する。 This paper concerns the training of a single-layer morphological perceptron using disciplined convex-concave programming (DCCP). We introduce an algorithm referred to as K-DDCCP, which combines the existing single-layer morphological perceptron (SLMP) model proposed by Ritter and Urcid with the weighted disciplined convex-concave programming (WDCCP) algorithm by Charisopoulos and Maragos. The proposed training algorithm leverages the disciplined convex-concave procedure (DCCP) and formulates a non-convex optimization problem for binary classification. To tackle this problem, the constraints are expressed as differences of convex functions, enabling the application of the DCCP package. The experimental results confirm the effectiveness of the K-DDCCP algorithm in solving binary classification problems. Overall, this work contributes to the field of morphological neural networks by proposing an algorithm that extends the capabilities of the SLMP model. | 翻訳日:2024-01-05 14:59:31 公開日:2024-01-04 |
# gridformer: 表面再構成のためのポイントグリッドトランスフォーマ GridFormer: Point-Grid Transformer for Surface Reconstruction ( http://arxiv.org/abs/2401.02292v1 ) ライセンス: Link先を確認 | Shengtao Li, Ge Gao, Yudong Liu, Yu-Shen Liu, Ming Gu | (参考訳) 入射ニューラルネットワークは3次元表面再構成において重要な技術である。
離散点雲から連続面を再構成するためには、入力点を通常の格子特徴(平面または体積)に符号化することが一般的である。
しかし、これらの手法は通常、一様散乱点特徴の指標としてグリッドを用いる。
不規則な点の特徴と比較すると、通常のグリッドの特徴はいくつかの再構築の詳細を犠牲にするが、効率は向上する。
これら2つの特徴を最大限に活用するために,グリッドとポイント機能の間に,ポイントグリッドトランス (GridFormer) という新しい,高効率なアテンション機構を導入する。
このメカニズムは、グリッドを空間と点クラウドを結ぶ転送ポイントとして扱う。
本手法はグリッド特徴の空間的表現性を最大化し,計算効率を維持する。
さらに、空間全体の予測を最適化すると、境界がぼやけてしまう可能性がある。
この問題に対処するために,余剰二項クロスエントロピー損失と境界サンプリングを組み込んだ境界最適化手法を提案する。
このアプローチにより、オブジェクト構造をより正確に表現することができます。
提案手法は,より正確な形状再構成を行うことで,広く用いられているベンチマークにおいて,最先端の手法よりも効果的であることを確認した。
コードはhttps://github.com/list17/gridformerで入手できる。 Implicit neural networks have emerged as a crucial technology in 3D surface reconstruction. To reconstruct continuous surfaces from discrete point clouds, encoding the input points into regular grid features (plane or volume) has been commonly employed in existing approaches. However, these methods typically use the grid as an index for uniformly scattering point features. Compared with the irregular point features, the regular grid features may sacrifice some reconstruction details but improve efficiency. To take full advantage of these two types of features, we introduce a novel and high-efficiency attention mechanism between the grid and point features named Point-Grid Transformer (GridFormer). This mechanism treats the grid as a transfer point connecting the space and point cloud. Our method maximizes the spatial expressiveness of grid features and maintains computational efficiency. Furthermore, optimizing predictions over the entire space could potentially result in blurred boundaries. To address this issue, we further propose a boundary optimization strategy incorporating margin binary cross-entropy loss and boundary sampling. This approach enables us to achieve a more precise representation of the object structure. Our experiments validate that our method is effective and outperforms the state-of-the-art approaches under widely used benchmarks by producing more precise geometry reconstructions. The code is available at https://github.com/list17/GridFormer. | 翻訳日:2024-01-05 14:59:14 公開日:2024-01-04 |
# 知識グラフ完成のためのパスベース説明 Path-based Explanation for Knowledge Graph Completion ( http://arxiv.org/abs/2401.02290v1 ) ライセンス: Link先を確認 | Heng Chang, Jiangnan Ye, Alejo Lopez Avila, Jinhua Du, Jia Li | (参考訳) グラフニューラルネットワーク(GNN)は近年,エンティティと関係の相互作用をモデル化することによって,知識グラフ補完(KGC)において大きな成功を収めている。
しかし、予測された事実の説明は必要な注意を引いていない。
GNNベースのKGCモデルの結果に対する適切な説明は、モデルの透明性を高め、研究者がより信頼性の高いモデルを開発するのに役立つ。
KGCタスクを説明するための既存のプラクティスは、インスタンス/サブグラフベースのアプローチに依存している。
にもかかわらず、KGの経路に基づく説明を生成する方法はまだよく研究されていない。
このギャップに対処するために、GNNベースのモデルを探索する最初のパスベースのKGC説明器であるPower-Linkを提案する。
完全に並列化可能なメモリ効率のトレーニングスキームでパスベースの説明を生成できる,グラフパワーの新手法を設計する。
さらに,説明の定量的評価のための3つの新しい指標と定性的な人的評価を紹介する。
大規模な実験により、Power-LinkはSOTAベースラインの解釈可能性、効率、スケーラビリティに優れていた。 Graph Neural Networks (GNNs) have achieved great success in Knowledge Graph Completion (KGC) by modelling how entities and relations interact in recent years. However, the explanation of the predicted facts has not caught the necessary attention. Proper explanations for the results of GNN-based KGC models increase model transparency and help researchers develop more reliable models. Existing practices for explaining KGC tasks rely on instance/subgraph-based approaches, while in some scenarios, paths can provide more user-friendly and interpretable explanations. Nonetheless, the methods for generating path-based explanations for KGs have not been well-explored. To address this gap, we propose Power-Link, the first path-based KGC explainer that explores GNN-based models. We design a novel simplified graph-powering technique, which enables the generation of path-based explanations with a fully parallelisable and memory-efficient training scheme. We further introduce three new metrics for quantitative evaluation of the explanations, together with a qualitative human evaluation. Extensive experiments demonstrate that Power-Link outperforms the SOTA baselines in interpretability, efficiency, and scalability. | 翻訳日:2024-01-05 14:58:57 公開日:2024-01-04 |
# 蒸留による布の異常検出 Distillation-based fabric anomaly detection ( http://arxiv.org/abs/2401.02287v1 ) ライセンス: Link先を確認 | Simon Thomine and Hichem Snoussi | (参考訳) 非教師なしテクスチャ異常検出は、多くの産業プロセスにおいて問題となっている。
パターンテクスチャ検査、特に布地欠陥検出の文脈では、実際に広く使われているユースケースである。
この作業は、様々な色や織物の種類を扱うことを含み、広い範囲の織物を包含する。
色、テクスチャ、欠陥の種類が多様であることを考えると、ファブリック欠陥検出はパターンテクスチャ検査の分野において複雑で困難な問題となる。
本稿では,繊維に似たテクスチャにおける教師なし異常検出の課題に対処するための知識蒸留に基づくアプローチを提案する。
本手法は,最近導入された逆蒸留法を再定義することを目的としており,エンコーダデコーダの設計により,分類器バイアスを緩和し,生徒が異常を再現するのを防ぐことを目的としている。
本研究では, ファブリック欠陥検出の特定のタスクに対する新しい逆蒸留手法を提案する。
当社のアプローチには,高レベルの機能を戦略的に強調する,巧妙な設計選択が伴います。
性能と推論速度の両面で,我々のアプローチの能力を実証するために,mvtec ad, aitex, tildaを含む複数のテクスチャデータセットについて実験を行い,繊維製造施設から取得したデータセットについて実験を行った。
本論文の主な貢献は, 異常検出と領域一般化の両方に適した逆知識蒸留技術を利用した強固なテクスチャ異常検出法と, 多様な布地や欠陥を包含する新しいデータセットである。 Unsupervised texture anomaly detection has been a concerning topic in a vast amount of industrial processes. Patterned textures inspection, particularly in the context of fabric defect detection, is indeed a widely encountered use case. This task involves handling a diverse spectrum of colors and textile types, encompassing a wide range of fabrics. Given the extensive variability in colors, textures, and defect types, fabric defect detection poses a complex and challenging problem in the field of patterned textures inspection. In this article, we propose a knowledge distillation-based approach tailored specifically for addressing the challenge of unsupervised anomaly detection in textures resembling fabrics. Our method aims to redefine the recently introduced reverse distillation approach, which advocates for an encoder-decoder design to mitigate classifier bias and to prevent the student from reconstructing anomalies. In this study, we present a new reverse distillation technique for the specific task of fabric defect detection. Our approach involves a meticulous design selection that strategically highlights high-level features. To demonstrate the capabilities of our approach both in terms of performance and inference speed, we conducted a series of experiments on multiple texture datasets, including MVTEC AD, AITEX, and TILDA, alongside conducting experiments on a dataset acquired from a textile manufacturing facility. The main contributions of this paper are the following: a robust texture anomaly detector utilizing a reverse knowledge-distillation technique suitable for both anomaly detection and domain generalization and a novel dataset encompassing a diverse range of fabrics and defects. | 翻訳日:2024-01-05 14:58:40 公開日:2024-01-04 |
# DEM: 航空宇宙におけるディープニューラルネットワーク分類器出力の認証方法 DEM: A Method for Certifying Deep Neural Network Classifier Outputs in Aerospace ( http://arxiv.org/abs/2401.02283v1 ) ライセンス: Link先を確認 | Guy Katz, Natan Levy, Idan Refaeli and Raz Yerushalmi | (参考訳) 航空宇宙分野のソフトウェア開発には、厳格で高品質な標準に固執する必要がある。
この領域には商用ソフトウェア(ARP-4754やDO-178など)の規制ガイドラインがあるが、ディープニューラルネットワーク(DNN)コンポーネントを持つソフトウェアには適用されない。
そのため、航空宇宙システムが深層学習革命の恩恵を受けることができるかは不明である。
我々の研究は、DNN認証のための新しいアウトプット中心のアプローチで、この問題に対処しようとしています。
提案手法は統計的検証手法を用いており,DNNの出力が信頼できない可能性のある特定の入力をフラグできる重要な利点がある。
そこで本手法では,DNNの他の近傍入力に対する予測の統計的解析を行い,不整合を検出する。
これは、個々の出力とは対照的に、DNN全体を認証しようとする既存の技術とは対照的である。
本手法では,DNNをブラックボックスとして使用し,そのトポロジを仮定しない。
特に高い品質と信頼性の基準が不可欠である航空宇宙分野では、この作業が安全クリティカルなアプリケーションにdnnを統合するための新たなステップとなることを願っています。 Software development in the aerospace domain requires adhering to strict, high-quality standards. While there exist regulatory guidelines for commercial software in this domain (e.g., ARP-4754 and DO-178), these do not apply to software with deep neural network (DNN) components. Consequently, it is unclear how to allow aerospace systems to benefit from the deep learning revolution. Our work here seeks to address this challenge with a novel, output-centric approach for DNN certification. Our method employs statistical verification techniques, and has the key advantage of being able to flag specific inputs for which the DNN's output may be unreliable - so that they may be later inspected by a human expert. To achieve this, our method conducts a statistical analysis of the DNN's predictions for other, nearby inputs, in order to detect inconsistencies. This is in contrast to existing techniques, which typically attempt to certify the entire DNN, as opposed to individual outputs. Our method uses the DNN as a black-box, and makes no assumptions about its topology. We hope that this work constitutes another step towards integrating DNNs in safety-critical applications - especially in the aerospace domain, where high standards of quality and reliability are crucial. | 翻訳日:2024-01-05 14:57:56 公開日:2024-01-04 |
# pegasus:6dofオブジェクトポーズデータセット生成のための物理的拡張ガウススメットシミュレーションシステム PEGASUS: Physically Enhanced Gaussian Splatting Simulation System for 6DOF Object Pose Dataset Generation ( http://arxiv.org/abs/2401.02281v1 ) ライセンス: Link先を確認 | Lukas Meyer, Floris Erich, Yusuke Yoshiyasu, Marc Stamminger, Noriaki Ando, Yukiyasu Domae | (参考訳) 本稿では,3次元ガウス分割に基づく多目的データセット生成システムである6DOFオブジェクトポーズデータセット生成のためのPhysically Enhanced Gaussian Splatting Simulation System (PEGASUS)を紹介する。
コモディティカメラを用いて、環境やオブジェクトの表現を容易に取得でき、ガウスのスプラッティングで再構築することができる。
PEGASUSは、環境のそれぞれの基礎となるガウススプレイティングポイントクラウドを1つまたは複数のオブジェクトにマージすることで、新しいシーンの構成を可能にする。
物理エンジンを利用することで、オブジェクトと環境のために抽出されたメッシュ間のインタラクションを通じて、シーン内の自然なオブジェクト配置のシミュレーションが可能になる。
その結果、さまざまな環境とオブジェクトを組み合わせることで、大量の新しいシーン - 静的または動的 - を作成できる。
様々な視点からシーンをレンダリングすることで、RGB画像、深度マップ、セマンティックマスク、および6DoFオブジェクトポーズなどの多様なデータポイントを抽出することができる。
本研究は,ペガサスが生成するデータに対するトレーニングにより,ポーズ推定ネットワークが合成データから実世界データへうまく移行できることを実証する。
また,日本カップ麺30点からなるラーメンデータセットについても紹介する。
このデータセットには、物体半球とガウススプラッティングの再構成の両方から画像をキャプチャする球面スキャンが含まれており、PEGASUSと互換性がある。 We introduce Physically Enhanced Gaussian Splatting Simulation System (PEGASUS) for 6DOF object pose dataset generation, a versatile dataset generator based on 3D Gaussian Splatting. Environment and object representations can be easily obtained using commodity cameras to reconstruct with Gaussian Splatting. PEGASUS allows the composition of new scenes by merging the respective underlying Gaussian Splatting point cloud of an environment with one or multiple objects. Leveraging a physics engine enables the simulation of natural object placement within a scene through interaction between meshes extracted for the objects and the environment. Consequently, an extensive amount of new scenes - static or dynamic - can be created by combining different environments and objects. By rendering scenes from various perspectives, diverse data points such as RGB images, depth maps, semantic masks, and 6DoF object poses can be extracted. Our study demonstrates that training on data generated by PEGASUS enables pose estimation networks to successfully transfer from synthetic data to real-world data. Moreover, we introduce the Ramen dataset, comprising 30 Japanese cup noodle items. This dataset includes spherical scans that captures images from both object hemisphere and the Gaussian Splatting reconstruction, making them compatible with PEGASUS. | 翻訳日:2024-01-05 14:57:17 公開日:2024-01-04 |
# カイラルキャビティ-マグノンカップリングを利用したキャビティマグノメカニクスにおける非相互絡み合い Nonreciprocal entanglement in cavity magnomechanics exploiting chiral cavity-magnon coupling ( http://arxiv.org/abs/2401.02280v1 ) ライセンス: Link先を確認 | Zhi-Yuan Fan, Xuan Zuo, Hao-Tian Li, Jie Li | (参考訳) キラルキャビティ-マグノンカップリングを利用したキャビティマグノメカニカルシステムにおいて,非相反的な量子絡み合いを実現する方法を示す。
システムはマグノンモード、機械振動モード、トーラス型キャビティ内の2つの縮退反伝搬マイクロ波キャビティモードで構成される。
キラルカップリングを有する異なる循環キャビティモードをそれぞれ駆動することにより,非逆定常マイクロ波-マグノンおよび-フォノン二分極およびフォトン-フォノン-フォノン三分極の絡み合いが達成できることを示す。
非相互の絡み合いは様々な実験的な欠陥に対して堅牢である。
この研究は、非相互電気力学量子テレポーテーションやカイラル磁気量子ネットワークにおけるキャビティ・マグノメカニクスシステムの有望な応用を見出すことができる。 We show how to achieve nonreciprocal quantum entanglement in a cavity magnomechanical system by exploiting the chiral cavity-magnon coupling. The system consists of a magnon mode, a mechanical vibration mode, and two degenerate counter-propagating microwave cavity modes in a torus-shaped cavity. We show that nonreciprocal stationary microwave-magnon and -phonon bipartite entanglements and photon-magnon-phonon tripartite entanglement can be achieved by respectively driving different circulating cavity modes that hold a chiral coupling to the magnon mode. The nonreciprocal entanglements are shown to be robust against various experimental imperfections. The work may find promising applications of the cavity magnomechanical systems in nonreciprocal electromechanical quantum teleportation and chiral magnonic quantum networks. | 翻訳日:2024-01-05 14:56:38 公開日:2024-01-04 |
# 持続的海洋管理のための軽量魚分類モデル:インドネシア Lightweight Fish Classification Model for Sustainable Marine Management: Indonesian Case ( http://arxiv.org/abs/2401.02278v1 ) ライセンス: Link先を確認 | Febrian Kurniawan, Gandeva Bayu Satrya, Firuz Kamalov | (参考訳) 魚介類に対する膨大な需要は、海洋資源の搾取と一部の種の絶滅に繋がった。
特に、過剰漁は持続可能な海洋開発の主要な課題である。
本研究は, 海洋資源の保護と漁業の持続性に則って, 最先端の機械学習を用いた魚種識別を支援する魚分類手法を提案する。
限られたハードウェアで動作可能なm-mobilenetと呼ばれる軽量な分類器を設計するために、mobilenetモデルのカスタム変更を使用します。
この研究の一環として、インドネシア列島で発見された魚の37,462枚の画像のラベル付きデータセットをまとめた。
提案モデルは,捕獲した魚のイメージを種に分類し,消費可能か否かを推薦するデータセットに基づいて訓練される。
修正されたMobileNetモデルでは,GTX 860Mユーティリティが約42%の上位層のパラメータの50倍しか使用せず,魚の分類と消費性判定において最大97%の精度を実現している。
多くの漁船で利用可能な計算能力の制限を考えると、提案モデルは現場での魚の分類に実用的な解決策を提供する。
さらに,提案手法を複数容器に同期的に実装することで,異なる魚種の動きや位置に関する貴重な情報を得ることができる。 The enormous demand for seafood products has led to exploitation of marine resources and near-extinction of some species. In particular, overfishing is one the main issues in sustainable marine development. In alignment with the protection of marine resources and sustainable fishing, this study proposes to advance fish classification techniques that support identifying protected fish species using state-of-the-art machine learning. We use a custom modification of the MobileNet model to design a lightweight classifier called M-MobileNet that is capable of running on limited hardware. As part of the study, we compiled a labeled dataset of 37,462 images of fish found in the waters of the Indonesian archipelago. The proposed model is trained on the dataset to classify images of the captured fish into their species and give recommendations on whether they are consumable or not. Our modified MobileNet model uses only 50\% of the top layer parameters with about 42% GTX 860M utility and achieves up to 97% accuracy in fish classification and determining its consumability. Given the limited computing capacity available on many fishing vessels, the proposed model provides a practical solution to on-site fish classification. In addition, synchronized implementation of the proposed model on multiple vessels can supply valuable information about the movement and location of different species of fish. | 翻訳日:2024-01-05 14:55:51 公開日:2024-01-04 |
# ベクトル・超複素値ニューラルネットワークの普遍近似定理 Universal Approximation Theorem for Vector- and Hypercomplex-Valued Neural Networks ( http://arxiv.org/abs/2401.02277v1 ) ライセンス: Link先を確認 | Marcos Eduardo Valle, Wington L. Vital, Guilherme Vieira | (参考訳) 普遍近似定理によれば、1つの隠れ層を持つニューラルネットワークは、任意の精度でコンパクト集合上の連続関数を近似することができる。
この定理は、回帰や分類タスクを含む様々な応用にニューラルネットワークを使うことをサポートする。
さらに、実数値ニューラルネットワークや、複素、四元、テッサリン、クリフォード値ニューラルネットワークのような超複素値ニューラルネットワークにも有効である。
しかし、超複素値ニューラルネットワーク(hypercomplex-valued neural network)は、代数的あるいは幾何学的性質を持つ代数上で定義されるベクトル値ニューラルネットワークの一種である。
本稿では,超複素数値モデルを含む,幅広いベクトル値ニューラルネットワークに対する普遍近似定理を拡張した。
正確には、非退化代数の概念を導入し、そのような代数上で定義されるニューラルネットワークに対する普遍近似定理を述べる。 The universal approximation theorem states that a neural network with one hidden layer can approximate continuous functions on compact sets with any desired precision. This theorem supports using neural networks for various applications, including regression and classification tasks. Furthermore, it is valid for real-valued neural networks and some hypercomplex-valued neural networks such as complex-, quaternion-, tessarine-, and Clifford-valued neural networks. However, hypercomplex-valued neural networks are a type of vector-valued neural network defined on an algebra with additional algebraic or geometric properties. This paper extends the universal approximation theorem for a wide range of vector-valued neural networks, including hypercomplex-valued models as particular instances. Precisely, we introduce the concept of non-degenerate algebra and state the universal approximation theorem for neural networks defined on such algebras. | 翻訳日:2024-01-05 14:55:09 公開日:2024-01-04 |
# ShapeAug: イベントカメラデータのためのOcclusion Augmentation ShapeAug: Occlusion Augmentation for Event Camera Data ( http://arxiv.org/abs/2401.02274v1 ) ライセンス: Link先を確認 | Katharina Bendig, Ren\'e Schuster, Didier Stricker | (参考訳) 最近、Dynamic Vision Sensors (DVS) は、従来のRGBカメラに固有の利点から、多くの関心を呼んだ。
これらの利点は、低レイテンシ、高ダイナミックレンジ、低エネルギー消費である。
それでも、特にイベントトレーニングデータの可用性は限られているため、ディープラーニング(dl)メソッドを用いたdvsデータの処理は依然として課題である。
これにより、正確性を改善し、トレーニングデータの過度な適合を避けるために、イベントデータ拡張技術の必要性が生じる。
現実世界の自動車応用におけるもうひとつの課題は、隠蔽(Occlusion)であり、あるオブジェクトがその背後にあるオブジェクトに対するビューを妨げていることを意味する。
本稿では,シーン内でランダムに移動するオブジェクトに合成イベントを導入することで,この問題に対処する新しいイベントデータ拡張手法を提案する。
提案手法を複数のDVS分類データセットで検証した結果,トップ1精度が6.5%まで向上した。
さらに,対象物検出のための実世界gen1自動車イベントデータセットに拡張技術を適用し,特に歩行者検出を最大5%向上させる。 Recently, Dynamic Vision Sensors (DVSs) sparked a lot of interest due to their inherent advantages over conventional RGB cameras. These advantages include a low latency, a high dynamic range and a low energy consumption. Nevertheless, the processing of DVS data using Deep Learning (DL) methods remains a challenge, particularly since the availability of event training data is still limited. This leads to a need for event data augmentation techniques in order to improve accuracy as well as to avoid over-fitting on the training data. Another challenge especially in real world automotive applications is occlusion, meaning one object is hindering the view onto the object behind it. In this paper, we present a novel event data augmentation approach, which addresses this problem by introducing synthetic events for randomly moving objects in a scene. We test our method on multiple DVS classification datasets, resulting in an relative improvement of up to 6.5 % in top1-accuracy. Moreover, we apply our augmentation technique on the real world Gen1 Automotive Event Dataset for object detection, where we especially improve the detection of pedestrians by up to 5 %. | 翻訳日:2024-01-05 14:54:55 公開日:2024-01-04 |
# セルフプロモーションを超えて - ソフトウェアエンジニアリングリサーチがLinkedInでどのように議論されるか Beyond Self-Promotion: How Software Engineering Research Is Discussed on LinkedIn ( http://arxiv.org/abs/2401.02268v1 ) ライセンス: Link先を確認 | Marvin Wyrich, Justus Bogner | (参考訳) LinkedInは世界最大のプロフェッショナルネットワークだ。
そのため、ソフトウェア工学(se)を日常業務とする実践者と、ソフトウェア工学の分野を前進させるために働く研究者との間に橋を架けることができる。
seの研究成果は時々linkedinで共有され、ソフトウェア実践者によってコメントされています。
しかし、橋がどの状態にあるのかは分かっていない。
そこで我々は,SE実践者と研究者がLinkedInの公開討論を通じてどのように接近し,双方が効果的な科学コミュニケーションに寄与するかを定量的に質的に検討した。
論文執筆者ではない人(39%)が、SE研究に関するLinkedIn投稿のかなりの割合を書いていることがわかった。
さらに、私たちのデータセットの全コメントの71%は業界の人々からのものですが、少なくとも1つのコメントを受け取ったのは2回目だけです。
この結果に基づいて、研究者や実践者に対して、LinkedInでの新しい研究成果を共有するための具体的なアドバイスを定式化します。 LinkedIn is the largest professional network in the world. As such, it can serve to build bridges between practitioners, whose daily work is software engineering (SE), and researchers, who work to advance the field of software engineering. We know that such a metaphorical bridge exists: SE research findings are sometimes shared on LinkedIn and commented on by software practitioners. Yet, we do not know what state the bridge is in. Therefore, we quantitatively and qualitatively investigate how SE practitioners and researchers approach each other via public LinkedIn discussions and what both sides can contribute to effective science communication. We found that a considerable proportion of LinkedIn posts on SE research are written by people who are not the paper authors (39%). Further, 71% of all comments in our dataset are from people in the industry, but only every second post receives at least one comment at all. Based on our findings, we formulate concrete advice for researchers and practitioners to make sharing new research findings on LinkedIn more fruitful. | 翻訳日:2024-01-05 14:54:37 公開日:2024-01-04 |
# 変圧器を用いた脳波非依存感情認識のためのマルチソース領域適応 Multi-Source Domain Adaptation with Transformer-based Feature Generation for Subject-Independent EEG-based Emotion Recognition ( http://arxiv.org/abs/2401.02344v1 ) ライセンス: Link先を確認 | Shadi Sartipi, Mujdat Cetin | (参考訳) 深層学習に基づくアルゴリズムは、脳波(EEG)信号による自動感情認識において優れた性能を示したが、個々の脳信号パターンの変動は、異なる被験者に適用した場合のモデルの有効性を低下させる可能性がある。
トランスファー学習技術は有望な結果を示したが、それでも不適切な特徴表現に関連する課題に遭遇し、ソース主体自身が異なる特徴を持つという事実を見逃す可能性がある。
本研究では,複数ソースの情報を活用するためのトランスフォーマティブ・フィーチャー・ジェネレータ(msda-tf)を用いたマルチソース・ドメイン適応手法を提案する。
提案した特徴発生器は、浅部空間、時間、スペクトルの脳波データ表現をキャプチャするための畳み込み層を保持し、自己保持機構はこれらの特徴の中でグローバルな依存関係を抽出する。
適応過程において,対象対象を相関値に基づいてグループ化し,対象対象のモーメントをソース内だけでなく各ソースに合わせることを目的としている。
MSDA-TFはSEEDデータセット上で検証され、有望な結果が得られる。 Although deep learning-based algorithms have demonstrated excellent performance in automated emotion recognition via electroencephalogram (EEG) signals, variations across brain signal patterns of individuals can diminish the model's effectiveness when applied across different subjects. While transfer learning techniques have exhibited promising outcomes, they still encounter challenges related to inadequate feature representations and may overlook the fact that source subjects themselves can possess distinct characteristics. In this work, we propose a multi-source domain adaptation approach with a transformer-based feature generator (MSDA-TF) designed to leverage information from multiple sources. The proposed feature generator retains convolutional layers to capture shallow spatial, temporal, and spectral EEG data representations, while self-attention mechanisms extract global dependencies within these features. During the adaptation process, we group the source subjects based on correlation values and aim to align the moments of the target subject with each source as well as within the sources. MSDA-TF is validated on the SEED dataset and is shown to yield promising results. | 翻訳日:2024-01-05 14:47:54 公開日:2024-01-04 |
# 逆パワートレースによるハードウェアトロイの木馬の回避 Evasive Hardware Trojan through Adversarial Power Trace ( http://arxiv.org/abs/2401.02342v1 ) ライセンス: Link先を確認 | Behnam Omidi, Khaled N. Khasawneh, Ihsen Alouani | (参考訳) 集積回路(IC)サプライチェーンのグローバル化は、市場投入時間とコストを考慮したもので、ICをハードウェアトロイの木馬(HT)に脆弱にしている。
この脅威に対して、有望なアプローチは機械学習(ML)ベースのサイドチャネル分析を使用することである。
本稿では,MLに基づくHT検出の信頼性をサイドチャネル解析により疑う。
我々は,この検出方法をhtsがバイパスできるように,ht難読化(hto)アプローチを導入する。
理論的には逆トレースをシミュレーションすることでモデルを誤解させるのではなく、HTとともに回路の一部としての逆ノイズの設計と実装が我々のアプローチの重要な側面である。
ASICとFPGAのHTO手法を詳述し、TrustHubベンチマークを用いて我々のアプローチを評価する。
興味深いことに、HTOはASIC設計のための1つのトランジスタだけで実装でき、100%効率で防御を騙すことができる。
また,Spartan 6 Xilinx FPGAに対して,2つの異なる変種を用いたアプローチを効率よく実装した。
(i)DSPスライスベース、及び
(ii)リングオシレータに基づく設計。
さらに, スペクトル領域分析などの対策の効率を評価し, 適応攻撃者はスペクトル雑音予算で設計を制約することにより, 回避型htoを設計できることを示した。
さらに、敵の訓練(AT)は回避可能なHTに対して高い保護を提供するが、ATモデルはかなりの実用上の損失を被り、そのようなセキュリティアプリケーションには適さない可能性がある。
この研究は、ハードウェアセキュリティコンテキストにおけるML脆弱性の理解と活用における重要なステップであり、すべてのリソースと設計をオンラインで公開しています。 The globalization of the Integrated Circuit (IC) supply chain, driven by time-to-market and cost considerations, has made ICs vulnerable to hardware Trojans (HTs). Against this threat, a promising approach is to use Machine Learning (ML)-based side-channel analysis, which has the advantage of being a non-intrusive method, along with efficiently detecting HTs under golden chip-free settings. In this paper, we question the trustworthiness of ML-based HT detection via side-channel analysis. We introduce a HT obfuscation (HTO) approach to allow HTs to bypass this detection method. Rather than theoretically misleading the model by simulated adversarial traces, a key aspect of our approach is the design and implementation of adversarial noise as part of the circuitry, alongside the HT. We detail HTO methodologies for ASICs and FPGAs, and evaluate our approach using TrustHub benchmark. Interestingly, we found that HTO can be implemented with only a single transistor for ASIC designs to generate adversarial power traces that can fool the defense with 100% efficiency. We also efficiently implemented our approach on a Spartan 6 Xilinx FPGA using 2 different variants: (i) DSP slices-based, and (ii) ring-oscillator-based design. Additionally, we assess the efficiency of countermeasures like spectral domain analysis, and we show that an adaptive attacker can still design evasive HTOs by constraining the design with a spectral noise budget. In addition, while adversarial training (AT) offers higher protection against evasive HTs, AT models suffer from a considerable utility loss, potentially rendering them unsuitable for such security application. We believe this research represents a significant step in understanding and exploiting ML vulnerabilities in a hardware security context, and we make all resources and designs openly available online: https://dev.d18uu4lqwhbmka.amplifyapp.com | 翻訳日:2024-01-05 14:47:35 公開日:2024-01-04 |
# deepfakeの言語的プロファイリング:次世代ディープフェイク検出のためのオープンデータベース Linguistic Profiling of Deepfakes: An Open Database for Next-Generation Deepfake Detection ( http://arxiv.org/abs/2401.02335v1 ) ライセンス: Link先を確認 | Yabin Wang, Zhiwu Huang, Zhiheng Ma, and Xiaopeng Hong | (参考訳) テキストから画像への生成モデルの出現は、ディープフェイクの分野に革命をもたらし、テキスト記述から直接現実的で説得力のあるビジュアルコンテンツを作成することができる。
しかし、この進歩はコンテンツの真正性を検出する上で大きな課題となっている。
既存のディープフェイク検出データセットや手法は、広範囲のディープフェイクを効果的に捕捉し、検出に十分な説明情報を提供するために、しばしば不足する。
そこで本研究では,Deepfakeデータベース(DFLIP-3K)を提案する。
約3k生成モデルから約300kのディープフェイクのサンプルを含んでおり、文献で最大のディープフェイクモデルである。
さらに、これらのディープフェイクの約190kの言語的足跡を収集している。
この2つの特徴によりdflip-3kは、ディープフェイクの検出、モデル同定、迅速な予測という3つのサブタスクを含む、ディープフェイクの言語的プロファイリングの進展を促進するベンチマークを開発することができる。
ディープフェイクモデルとプロンプトはディープフェイクの2つの重要な構成要素であり、これらを言語的に分離することで、ディープフェイク検出における信頼性と解釈可能な証拠を重要視することができる。
さらに、DFLIP-3Kは透明性を高め、その成長をさらに促進するための共同作業を促進するオープンデータベースとして構想されている。
我々のDFLIP-3Kデータベースは,言語に基づくディープフェイクの検出・識別・予測手法の評価・比較を行うための標準リソースとして機能することを確認した。 The emergence of text-to-image generative models has revolutionized the field of deepfakes, enabling the creation of realistic and convincing visual content directly from textual descriptions. However, this advancement presents considerably greater challenges in detecting the authenticity of such content. Existing deepfake detection datasets and methods often fall short in effectively capturing the extensive range of emerging deepfakes and offering satisfactory explanatory information for detection. To address the significant issue, this paper introduces a deepfake database (DFLIP-3K) for the development of convincing and explainable deepfake detection. It encompasses about 300K diverse deepfake samples from approximately 3K generative models, which boasts the largest number of deepfake models in the literature. Moreover, it collects around 190K linguistic footprints of these deepfakes. The two distinguished features enable DFLIP-3K to develop a benchmark that promotes progress in linguistic profiling of deepfakes, which includes three sub-tasks namely deepfake detection, model identification, and prompt prediction. The deepfake model and prompt are two essential components of each deepfake, and thus dissecting them linguistically allows for an invaluable exploration of trustworthy and interpretable evidence in deepfake detection, which we believe is the key for the next-generation deepfake detection. Furthermore, DFLIP-3K is envisioned as an open database that fosters transparency and encourages collaborative efforts to further enhance its growth. Our extensive experiments on the developed benchmark verify that our DFLIP-3K database is capable of serving as a standardized resource for evaluating and comparing linguistic-based deepfake detection, identification, and prompt prediction techniques. | 翻訳日:2024-01-05 14:47:04 公開日:2024-01-04 |
# beyond extraction: 言語モデルによる効率的な要約のための表データコンテキスト化 Beyond Extraction: Contextualising Tabular Data for Efficient Summarisation by Language Models ( http://arxiv.org/abs/2401.02333v1 ) ライセンス: Link先を確認 | Uday Allu, Biddwan Ahmed, Vishesh Tripathi | (参考訳) Retrieval-Augmented Generation (RAG) アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。
しかしながら,複雑なテーブルクエリを扱う場合,特に複雑な表構造を含むPDF文書では,RAGベースのシステムにおいて複雑なテーブルクエリの精度を高めるための革新的なアプローチが提案されている。
本手法では,検索データベースにPDFを格納し,タブ状コンテンツを別々に抽出する。
抽出されたテーブルはコンテキストエンリッチメントのプロセスに入り、ヘッダを対応する値に結合する。
強化されたデータの包括的理解を確保するため、ragアーキテクチャ内で要約するためにllama-2-chat言語モデルの微調整バージョンを用いる。
さらに,ChatGPT 3.5 APIをワンショットプロンプトで使用して,文脈感覚で表データを拡張する。
このリッチなデータは、他のPDFと並んで検索データベースに送られる。
提案手法は,複雑なテーブルクエリの精度を大幅に向上し,情報検索における長年の課題に対して有望な解決策を提供することを目的としている。 The conventional use of the Retrieval-Augmented Generation (RAG) architecture has proven effective for retrieving information from diverse documents. However, challenges arise in handling complex table queries, especially within PDF documents containing intricate tabular structures.This research introduces an innovative approach to enhance the accuracy of complex table queries in RAG-based systems. Our methodology involves storing PDFs in the retrieval database and extracting tabular content separately. The extracted tables undergo a process of context enrichment, concatenating headers with corresponding values. To ensure a comprehensive understanding of the enriched data, we employ a fine-tuned version of the Llama-2-chat language model for summarisation within the RAG architecture. Furthermore, we augment the tabular data with contextual sense using the ChatGPT 3.5 API through a one-shot prompt. This enriched data is then fed into the retrieval database alongside other PDFs. Our approach aims to significantly improve the precision of complex table queries, offering a promising solution to a longstanding challenge in information retrieval. | 翻訳日:2024-01-05 14:46:33 公開日:2024-01-04 |
# LLaVA-$\phi$:小言語モデルを用いた効率的なマルチモーダルアシスタント LLaVA-$\phi$: Efficient Multi-Modal Assistant with Small Language Model ( http://arxiv.org/abs/2401.02330v1 ) ライセンス: Link先を確認 | Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang | (参考訳) 本稿では,最近開発された小言語モデルであるPhi-2のパワーを活用し,マルチモーダル対話を容易にする,効率的なマルチモーダルアシスタントであるLLaVA-$\phi$(LLaVA-Phi)を紹介する。
LLaVA-Phiはコンパクトなマルチモーダルモデルの領域において顕著な進歩を示している。
より小さな言語モデルでも2.7Bのパラメータしか持たず、高品質なコーパスで訓練された場合、テキスト要素と視覚要素の両方を統合する複雑な対話を効果的に行うことができる。
私たちのモデルは、視覚理解、推論、知識に基づく知覚を包含する公開ベンチマークで、賞賛可能なパフォーマンスを提供します。
マルチモーダル対話タスクにおける顕著なパフォーマンスに加えて、我々のモデルは、エンボディエージェントのようなリアルタイム対話を必要とする時間に敏感な環境やシステムにおけるアプリケーションのための新しい道を開く。
リソース効率を高めながら、より高度な理解と対話を実現するための、より小さな言語モデルの可能性を強調している。 In this paper, we introduce LLaVA-$\phi$ (LLaVA-Phi), an efficient multi-modal assistant that harnesses the power of the recently advanced small language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a notable advancement in the realm of compact multi-modal models. It demonstrates that even smaller language models, with as few as 2.7B parameters, can effectively engage in intricate dialogues that integrate both textual and visual elements, provided they are trained with high-quality corpora. Our model delivers commendable performance on publicly available benchmarks that encompass visual comprehension, reasoning, and knowledge-based perception. Beyond its remarkable performance in multi-modal dialogue tasks, our model opens new avenues for applications in time-sensitive environments and systems that require real-time interaction, such as embodied agents. It highlights the potential of smaller language models to achieve sophisticated levels of understanding and interaction, while maintaining greater resource efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}. | 翻訳日:2024-01-05 14:46:17 公開日:2024-01-04 |
# すべてのマイノリティが等しくない:不均一連関学習のための空クラス対応蒸留 Not all Minorities are Equal: Empty-Class-Aware Distillation for Heterogeneous Federated Learning ( http://arxiv.org/abs/2401.02329v1 ) ライセンス: Link先を確認 | Kuangpu Guo, Yuhe Ding, Jian Liang, Ran He, Zilei Wang, Tieniu Tan | (参考訳) データの不均一性は、クライアント間でのローカルなデータ分散の格差によって特徴づけられ、連合学習において大きな課題となる。
ローカルラベル分布の多様性に対処するためにかなりの努力が払われている。
マイノリティクラスは、局所的な不均衡データへの過剰適合によって、精度が低下するので、事前の手法では、ローカルトレーニング中にクラスバランスの学習技術が取り入れられることが多い。
全てのクラスの平均精度が向上したにもかかわらず、クライアントのデータ分散にないカテゴリの空のクラスは、まだよく認識されていないことを観察した。
本稿では,空クラス蒸留とロジット抑制を同時に統合した異種フェデレーション学習の新たなアプローチであるFedEDを紹介する。
特に、空クラス蒸留は、各クライアントのローカルトレーニング中の知識蒸留を利用して、グローバルモデルから空クラスに関する重要な情報を保持する。
さらに、ロジット抑制は、非ラベルクラスに対するネットワークロジットを直接罰し、多数派クラスに偏った少数派クラスの誤分類に効果的に対処する。
広範囲な実験によってfeedの有効性が検証され、ラベルの分布シフトの程度が異なる、さまざまなデータセットにわたる以前の最先端の手法を上回った。 Data heterogeneity, characterized by disparities in local data distribution across clients, poses a significant challenge in federated learning. Substantial efforts have been devoted to addressing the heterogeneity in local label distribution. As minority classes suffer from worse accuracy due to overfitting on local imbalanced data, prior methods often incorporate class-balanced learning techniques during local training. Despite the improved mean accuracy across all classes, we observe that empty classes-referring to categories absent from a client's data distribution-are still not well recognized. This paper introduces FedED, a novel approach in heterogeneous federated learning that integrates both empty-class distillation and logit suppression simultaneously. Specifically, empty-class distillation leverages knowledge distillation during local training on each client to retain essential information related to empty classes from the global model. Moreover, logit suppression directly penalizes network logits for non-label classes, effectively addressing misclassifications in minority classes that may be biased toward majority classes. Extensive experiments validate the efficacy of FedED, surpassing previous state-of-the-art methods across diverse datasets with varying degrees of label distribution shift. | 翻訳日:2024-01-05 14:45:56 公開日:2024-01-04 |
# ClassWise-SAM-Adapter: セマンティックセグメンテーションのためのSARドメインに対応するパラメータ効率の良いファインチューニングアダプティブセグメンテーション ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment Anything to SAR Domain for Semantic Segmentation ( http://arxiv.org/abs/2401.02326v1 ) ライセンス: Link先を確認 | Xinyang Pu, Hecheng Jia, Linghao Zheng, Feng Wang, Feng Xu | (参考訳) 人工知能の分野では、高度なコンピューティング能力と広範なデータによって支えられた基礎モデルの出現は革命的だ。
数百万のパラメータと広大なトレーニングデータセットSA-1Bを持つビジョントランスフォーマー(ViT)モデルに基づいて構築されたSegment Anything Model(SAM)は、セグメンテーションのシナリオにおいて、セグメンテーション情報と一般化能力の重要性に依存している。
このような視覚基盤モデルの達成は、コンピュータビジョンにおける特定の下流タスクに関する継続的な研究を刺激する。
cwsam(classwise-sam-adapter)は、スペースベース合成開口レーダ(sar)画像の土地被覆分類に高パフォーマンスsamを適応させるように設計されている。
提案したCWSAMはSAMのパラメータの大部分を凍結し,パラメータを効率的に微調整するための軽量アダプタを内蔵し,セマンティックセグメンテーションタスクを実現するために,クラスワイズマスクデコーダを設計した。
この適応チューニング手法により,SAR画像の効率的な土地被覆分類が可能となり,精度と計算要求のバランスがとれる。
さらに、タスク固有入力モジュールは、MLPベースの層によりSAR画像の低周波情報を注入し、モデル性能を向上させる。
従来の最先端セマンティックセグメンテーションアルゴリズムと比較して、CWSAMは、SARドメインの特定の下流タスクにSAMのような基礎モデルを活用する可能性を強調し、少ない計算リソースでパフォーマンスを向上させる。
ソースコードはhttps://github.com/xypu98/cwsam。 In the realm of artificial intelligence, the emergence of foundation models, backed by high computing capabilities and extensive data, has been revolutionary. Segment Anything Model (SAM), built on the Vision Transformer (ViT) model with millions of parameters and vast training dataset SA-1B, excels in various segmentation scenarios relying on its significance of semantic information and generalization ability. Such achievement of visual foundation model stimulates continuous researches on specific downstream tasks in computer vision. The ClassWise-SAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on space-borne Synthetic Aperture Radar (SAR) images. The proposed CWSAM freezes most of SAM's parameters and incorporates lightweight adapters for parameter efficient fine-tuning, and a classwise mask decoder is designed to achieve semantic segmentation task. This adapt-tuning method allows for efficient landcover classification of SAR images, balancing the accuracy with computational demand. In addition, the task specific input module injects low frequency information of SAR images by MLP-based layers to improve the model performance. Compared to conventional state-of-the-art semantic segmentation algorithms by extensive experiments, CWSAM showcases enhanced performance with fewer computing resources, highlighting the potential of leveraging foundational models like SAM for specific downstream tasks in the SAR domain. The source code is available at: https://github.com/xypu98/CWSAM. | 翻訳日:2024-01-05 14:45:34 公開日:2024-01-04 |
# 分布強化学習における解釈パラメータ調整によるロバスト量子ハマーの損失 A Robust Quantile Huber Loss With Interpretable Parameter Adjustment In Distributional Reinforcement Learning ( http://arxiv.org/abs/2401.02325v1 ) ライセンス: Link先を確認 | Parvin Malekzadeh, Konstantinos N. Plataniotis, Zissis Poulos, Zeyu Wang | (参考訳) 分布強化学習(英語版) (rl) は、主に量子量的フーバー損失関数を最小化し、しばしばヒューリスティックに選択されるしきい値パラメータやハイパーパラメータ探索を伴って量子量的値を学習することで、帰納分布を推定する。
本稿では、ガウス分布間のワッサーシュタイン距離(WD)計算から導かれる一般化量子ハマー損失関数を導入し、予測(電流)と目標(ベルマン更新)量子化値のノイズを捕捉する。
古典的な量子ハマー損失と比較して、この革新的な損失関数は外れ値に対する堅牢性を高める。
特に、古典的なハマー損失関数は、提案した損失の近似と見なすことができ、学習過程におけるデータのノイズ量の近似によるパラメータ調整を可能にする。
分散RLの一般的な応用であるアタリゲームに対する実証実験と、分布RLを用いた最近のヘッジ戦略により、提案した損失関数の有効性と分布RLにおけるパラメータ調整の可能性を検証する。 Distributional Reinforcement Learning (RL) estimates return distribution mainly by learning quantile values via minimizing the quantile Huber loss function, entailing a threshold parameter often selected heuristically or via hyperparameter search, which may not generalize well and can be suboptimal. This paper introduces a generalized quantile Huber loss function derived from Wasserstein distance (WD) calculation between Gaussian distributions, capturing noise in predicted (current) and target (Bellman-updated) quantile values. Compared to the classical quantile Huber loss, this innovative loss function enhances robustness against outliers. Notably, the classical Huber loss function can be seen as an approximation of our proposed loss, enabling parameter adjustment by approximating the amount of noise in the data during the learning process. Empirical tests on Atari games, a common application in distributional RL, and a recent hedging strategy using distributional RL, validate the effectiveness of our proposed loss function and its potential for parameter adjustments in distributional RL. | 翻訳日:2024-01-05 14:45:02 公開日:2024-01-04 |
# 干渉対応ビームアロケーションのためのマルチエージェントコンテキスト学習戦略 Multi-Agent Context Learning Strategy for Interference-Aware Beam Allocation in mmWave Vehicular Communications ( http://arxiv.org/abs/2401.02323v1 ) ライセンス: Link先を確認 | Abdulkadir Kose, Haeyoung Lee, Chuan Heng Foh, Mohammad Shojafar | (参考訳) ミリ波(mmWave)は、チャネル帯域幅とネットワーク容量を増大させる可能性から、5Gやネットワーク以外の重要な技術の一つとして認識されている。
車両通信を含む各種用途におけるmmwaveの利用は広く議論されている。
しかし、車体通信にmmWaveを適用することは、高モビリティノードとmmWaveビームに沿った狭い範囲の課題に直面している。
高密度ネットワークにおける高モビリティのため、重なり合うビームは強い干渉を引き起こし、性能劣化を引き起こす。
治療として、mWaveのビームスイッチング機能を利用することができる。
そして、頻繁なビームスイッチングとセルの変更は干渉を管理するために避けられなくなり、計算と信号の複雑さが増大する。
干渉制御の複雑さに対処するため,Multi-Agent Context Learning (MACOL) と呼ばれる新しい手法を開発した。
提案手法は,隣接ビーム状態の知識を活用し,他の送信への潜在的な干渉伝達を機械学習エージェントが識別し回避できることを実証する。
さらに、重交通負荷下であっても、提案したMACOL戦略は低干渉レベルを約10%に維持できることを示す。 Millimeter wave (mmWave) has been recognized as one of key technologies for 5G and beyond networks due to its potential to enhance channel bandwidth and network capacity. The use of mmWave for various applications including vehicular communications has been extensively discussed. However, applying mmWave to vehicular communications faces challenges of high mobility nodes and narrow coverage along the mmWave beams. Due to high mobility in dense networks, overlapping beams can cause strong interference which leads to performance degradation. As a remedy, beam switching capability in mmWave can be utilized. Then, frequent beam switching and cell change become inevitable to manage interference, which increase computational and signalling complexity. In order to deal with the complexity in interference control, we develop a new strategy called Multi-Agent Context Learning (MACOL), which utilizes Contextual Bandit to manage interference while allocating mmWave beams to serve vehicles in the network. Our approach demonstrates that by leveraging knowledge of neighbouring beam status, the machine learning agent can identify and avoid potential interfering transmissions to other ongoing transmissions. Furthermore, we show that even under heavy traffic loads, our proposed MACOL strategy is able to maintain low interference levels at around 10%. | 翻訳日:2024-01-05 14:44:42 公開日:2024-01-04 |
# ビームフォカルパラメータを用いたダウンコンバート光子の純度最大化と重み付け効率 Maximizing the Purity and Heralding Efficiency of Down-Converted Photons Using Beam Focal Parameters ( http://arxiv.org/abs/2401.02319v1 ) ライセンス: Link先を確認 | Andrew Rockovich, Shu'an Wang, Daniel Gauthier | (参考訳) 自発パラメトリックダウン変換は量子フォトニック状態の共通源であり、量子技術の鍵となる。
ポンプモードと信号とアイドラー収集モードのビーム幅を調整することで、音源特性を最適化できることを示す。
適切な条件下では、2つの測定値が$\approx0.98$ に近づくバルク結晶を用いて、均一な紋章効率と単光子純度を同時に得ることができる。
本手法は, 特殊な結晶分散特性を必要とせず, 幅広いポンプ, 信号, アイドラー波長で適用可能である。
例えば、450-$\mu$m-long $\beta$-barium borate crystal を 405nm 波長レーザーで励起し、ほぼ退縮する信号およびアイドラー波長を 810 nm 前後で用いて、0.98 と一光子純度 0.98 と対生成率 10.9 対/(s$\textrm{ }$mW) を計算した。
ここでは、ポンプモードは310$\mu$mの腰を持ち、信号とアイドラのコレクションモードは145.4$\mu$mの腰を持ち、標準的な実験室コンポーネントを使って簡単に製造できる。
我々の研究は、高い純度とシェラルディング効率で量子フォトニック状態を生成するための単純なアプローチを実現するための道を開いた。 Spontaneous parametric down-conversion is a common source of quantum photonic states that is a key enabling quantum technology. We show that the source characteristics can be optimized by adjusting the beam waists of the pump mode and the signal and idler collection modes. It is possible to obtain simultaneously near unity heralding efficiency and single-photon purity using a bulk crystal with both metrics approaching $\approx0.98$ under appropriate conditions. Importantly, our approach can be applied over a wide range of pump, signal, and idler wavelengths without requiring special crystal dispersion characteristics. As an example, we obtain a heralding efficiency of 0.98, a single-photon purity of 0.98, and a pair production rate of 10.9 pairs/(s$\textrm{ }$mW) using a 450-$\mu$m-long $\beta$-barium borate crystal pumped by a 405-nm-wavelength laser and nearly degenerate signal and idler wavelengths around 810 nm. Here, the pump mode has a waist of 310 $\mu$m and the signal and idler collection modes have a waist of 145.4 $\mu$m, which can be produced straightforwardly using standard laboratory components. Our work paves the way for realizing a simple approach to producing quantum photonic states with high purity and heralding efficiency. | 翻訳日:2024-01-05 14:44:25 公開日:2024-01-04 |
# BA-SAM: セグメンテーションモデルのためのスケーラブルなバイアスモード注意マスク BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model ( http://arxiv.org/abs/2401.02317v1 ) ライセンス: Link先を確認 | Yiran Song, Qianyu Zhou, Xiangtai Li, Deng-Ping Fan, Xuequan Lu, Lizhuang Ma | (参考訳) 本稿では,Segment Anything Model (SAM)における画像解像度変化の課題について述べる。
SAMはゼロショットの汎用性で知られており、様々な画像サイズを持つデータセットに直面すると性能劣化を示す。
以前のアプローチでは、イメージを一定のサイズにリサイズしたり、構造を変更したりする傾向があり、サムの豊富な事前知識の保存を妨げている。
さらに、このようなタスク固有のチューニングは、ダウンストリームタスクのデプロイに費用対効果があり許容できないモデルを完全に再トレーニングする必要があります。
本稿では,この問題を,異なるサイズの画像に対する一貫したパッチサイズを維持しつつ,トークン列の長さが変化する長さ補間問題として再検討する。
そこで本研究では,多様な画像解像度に対するSAMの適応性を向上し,構造修正の必要をなくすために,スケーラブルバイアス修正注意マスク(BA-SAM)を提案する。
まず,トークン列の長さが変化すると,注目層のドット積値が一貫した大きさとなるような新しいスケーリング係数を導入する。
第2に,未学習の遠方情報の影響を緩和し,各トークンが隣り合う情報を優先できるバイアスモードの注目マスクを提案する。
我々のBA-SAMはゼロショットと微調整の2つのシナリオで有効性を示す。
DIS5K、DUTS、ISIC、COD10K、COCOを含む多様なデータセットに対する広範な評価は、ゼロショット設定のパフォーマンス劣化を著しく軽減し、最小限の微調整で最先端のパフォーマンスを達成する能力を明らかにしている。
さらに,BA-SAMの一般化可能性を4つのデータセットで同時に示す一般化モデルとベンチマークを提案する。 In this paper, we address the challenge of image resolution variation for the Segment Anything Model (SAM). SAM, known for its zero-shot generalizability, exhibits a performance degradation when faced with datasets with varying image sizes. Previous approaches tend to resize the image to a fixed size or adopt structure modifications, hindering the preservation of SAM's rich prior knowledge. Besides, such task-specific tuning necessitates a complete retraining of the model, which is cost-expensive and unacceptable for deployment in the downstream tasks. In this paper, we reformulate this issue as a length extrapolation problem, where token sequence length varies while maintaining a consistent patch size for images of different sizes. To this end, we propose Scalable Bias-Mode Attention Mask (BA-SAM) to enhance SAM's adaptability to varying image resolutions while eliminating the need for structure modifications. Firstly, we introduce a new scaling factor to ensure consistent magnitude in the attention layer's dot product values when the token sequence length changes. Secondly, we present a bias-mode attention mask that allows each token to prioritize neighboring information, mitigating the impact of untrained distant information. Our BA-SAM demonstrates efficacy in two scenarios: zero-shot and fine-tuning. Extensive evaluation on diverse datasets, including DIS5K, DUTS, ISIC, COD10K, and COCO, reveals its ability to significantly mitigate performance degradation in the zero-shot setting and achieve state-of-the-art performance with minimal fine-tuning. Furthermore, we propose a generalized model and benchmark, showcasing BA-SAM's generalizability across all four datasets simultaneously. | 翻訳日:2024-01-05 14:43:56 公開日:2024-01-04 |
# SuperEdge: セルフスーパービジョンエッジ検出のための一般化モデル SuperEdge: Towards a Generalization Model for Self-Supervised Edge Detection ( http://arxiv.org/abs/2401.02313v1 ) ライセンス: Link先を確認 | Leng Kai and Zhang Zhijie and Liu Jie and Zed Boukhers and Sui Wei and Cong Yang and Li Zhijun | (参考訳) エッジ検出は様々なコンピュータビジョンタスクの基本技術である。
エッジは実質的にピクセルの不連続性によって表現され、テクスチャのない領域でも信頼できる構造情報を提供できる。
最先端のアノテーションは、労働集約的であり、手作業で取得すると矛盾する。
本研究では,合成データから実世界データへアノテーションを転送するマルチレベルマルチホモグラフィ手法を用いた,エッジ検出のための新しい自己教師あり手法を提案する。
生成したエッジアノテーションをフル活用するために,ピクセルレベルのエッジとオブジェクトレベルの粒度を同時に抽出できる,合理化されながら効率的なモデルであるSuperEdgeを開発した。
自己教師付きトレーニングにより、手動の注釈付きエッジラベルへの依存を排除し、多様なデータセット間の一般化性を向上させる。
比較評価では、SuperEdgeはエッジ検出を向上し、既存のBIPEDv2のSTEdge法よりもODSが4.9%、OISが3.3%改善した。 Edge detection is a fundamental technique in various computer vision tasks. Edges are indeed effectively delineated by pixel discontinuity and can offer reliable structural information even in textureless areas. State-of-the-art heavily relies on pixel-wise annotations, which are labor-intensive and subject to inconsistencies when acquired manually. In this work, we propose a novel self-supervised approach for edge detection that employs a multi-level, multi-homography technique to transfer annotations from synthetic to real-world datasets. To fully leverage the generated edge annotations, we developed SuperEdge, a streamlined yet efficient model capable of concurrently extracting edges at pixel-level and object-level granularity. Thanks to self-supervised training, our method eliminates the dependency on manual annotated edge labels, thereby enhancing its generalizability across diverse datasets. Comparative evaluations reveal that SuperEdge advances edge detection, demonstrating improvements of 4.9% in ODS and 3.3% in OIS over the existing STEdge method on BIPEDv2. | 翻訳日:2024-01-05 14:43:28 公開日:2024-01-04 |
# TR-DETR:ジョイントモーメント検索と光検出のためのタスク逆変換器 TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection ( http://arxiv.org/abs/2401.02309v1 ) ライセンス: Link先を確認 | Hao Sun, Mingyao Zhou, Wenjing Chen, Wei Xie | (参考訳) 自然言語クエリに基づくビデオモーメント検索(MR)とハイライト検出(HD)は、ビデオ内の関連モーメントを取得し、各ビデオクリップのスコアをハイライトすることを目的としている。
近年,mr と hd を共同で解決するために detr ベースのネットワークを構築する手法がいくつか提案されている。
これらのメソッドは、マルチモーダルな特徴抽出と機能インタラクションの後に2つのタスクヘッドを追加するだけで、パフォーマンスが向上する。
しかしながら、これらのアプローチは2つのタスク間の相互関係を弱めている。
本稿では,mr と hd の固有相互性を検討するために,detr (tr-detr) に基づくタスク逆変換器を提案する。
具体的には、局所的な多モードアライメントモジュールが最初に構築され、様々なモダリティの機能を共有潜在空間にアライメントする。
その後、視覚的特徴改善により、視覚的特徴からクエリ非関連情報を排除し、モーダルインタラクションを実現する。
最後に、mrとhdの相互性を利用して検索パイプラインとハイライトスコア予測プロセスを洗練させるタスク協調モジュールを構築する。
QVHighlights、Charades-STA、TVSumのデータセットに関する総合的な実験は、TR-DETRが既存の最先端手法よりも優れていることを示した。
コードは \url{https://github.com/mingyao1120/TR-DETR} で公開されている。 Video moment retrieval (MR) and highlight detection (HD) based on natural language queries are two highly related tasks, which aim to obtain relevant moments within videos and highlight scores of each video clip. Recently, several methods have been devoted to building DETR-based networks to solve both MR and HD jointly. These methods simply add two separate task heads after multi-modal feature extraction and feature interaction, achieving good performance. Nevertheless, these approaches underutilize the reciprocal relationship between two tasks. In this paper, we propose a task-reciprocal transformer based on DETR (TR-DETR) that focuses on exploring the inherent reciprocity between MR and HD. Specifically, a local-global multi-modal alignment module is first built to align features from diverse modalities into a shared latent space. Subsequently, a visual feature refinement is designed to eliminate query-irrelevant information from visual features for modal interaction. Finally, a task cooperation module is constructed to refine the retrieval pipeline and the highlight score prediction process by utilizing the reciprocity between MR and HD. Comprehensive experiments on QVHighlights, Charades-STA and TVSum datasets demonstrate that TR-DETR outperforms existing state-of-the-art methods. Codes are available at \url{https://github.com/mingyao1120/TR-DETR}. | 翻訳日:2024-01-05 14:43:09 公開日:2024-01-04 |
# Rb-Cs Rydberg $d$-states の種間F\"オースター共鳴による多ビットゲートの強化 Interspecies F\"orster resonances of Rb-Cs Rydberg $d$-states for enhanced multi-qubit gate fidelities ( http://arxiv.org/abs/2401.02308v1 ) ライセンス: Link先を確認 | Paul M. Ireland, D. M. Walker and J. D. Pritchard | (参考訳) 我々は,ルビジウムとセシウムのrydberg $d$-states間の種間相互作用の解析を行った。
高忠実度2ビットおよび多ビットの$C_kZ$ゲートを最大$k=4$まで実行し、対ポテンシャルの数値対角化によって評価されたブロックエラーを考慮に入れた上で、最強の種間結合を提供するF\"オースター共鳴チャネルを同定する。
その結果、d$-state軌道は、s$-stateよりも種内結合の抑制を強化し、大規模な中性原子量子プロセッサでの使用に適していることがわかった。 We present an analysis of interspecies interactions between Rydberg $d$-states of rubidium and cesium. We identify the F\"orster resonance channels offering the strongest interspecies couplings, demonstrating the viability for performing high-fidelity two- and multi-qubit $C_kZ$ gates up to $k=4$, including accounting for blockade errors evaluated via numerical diagonalization of the pair-potentials. Our results show $d$-state orbitals offer enhanced suppression of intraspecies couplings compared to $s$-states, making them well suited for use in large-scale neutral atom quantum processors. | 翻訳日:2024-01-05 14:42:45 公開日:2024-01-04 |
# 位相後選による量子鍵の送受信非送出分布 Sending-or-not-sending quantum key distribution with phase postselection ( http://arxiv.org/abs/2401.02304v1 ) ライセンス: Link先を確認 | Yang-Guang Shan, Yao Zhou, Zhen-Qiang Yin, Shuang Wang, Wei Chen, De-Yong He, Guang-Can Guo, Zheng-Fu Han | (参考訳) 量子鍵分布(QKD)は、2つの離れたピア間でセキュアなキーを共有するのに役立つ。
近年、長い伝送距離のため、ツインフィールド(TF)QKDが広く研究されている。
TF QKDの一般的なバリエーションの1つは、1000kmレベルのファイバー鍵分布を実現するために実験的に検証された送信・送信(SNS)QKDである。
本稿では,snsプロトコルにフェーズポスト選択を導入する。
この修正により、"sending"を選択する確率が大幅に向上する。
数値シミュレーションにより, アクティブな奇異ペアリング法により, 伝送距離を向上できることが示唆された。
離散位相ランダム化では、変種はより大きな鍵レートと長い距離を持つことができる。 Quantum key distribution (QKD) could help to share secure key between two distant peers. In recent years, twin-field (TF) QKD has been widely investigated because of its long transmission distance. One of the popular variants of TF QKD is sending-or-not-sending (SNS) QKD, which has been experimentally verified to realize 1000-km level fibre key distribution. In this article, the authors introduce phase postselection into the SNS protocol. With this modification, the probability of selecting "sending" can be substantially improved. The numerical simulation shows that the transmission distance can be improved both with and without the actively odd-parity pairing method. With discrete phase randomization, the variant can have both a larger key rate and a longer distance. | 翻訳日:2024-01-05 14:42:30 公開日:2024-01-04 |
# TinyLlama: オープンソースの小型言語モデル TinyLlama: An Open-Source Small Language Model ( http://arxiv.org/abs/2401.02385v1 ) ライセンス: Link先を確認 | Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu | (参考訳) 約3エポックで約1兆トークンを事前訓練した,コンパクトな1.1B言語モデルTinyLlamaを提案する。
Llama 2のアーキテクチャとトークン化ツール上に構築されているTinyLlamaは、オープンソースコミュニティ(FlashAttentionなど)から提供された様々な進歩を活用し、より良い計算効率を実現する。
TinyLlamaは比較的小さなサイズだが、一連のダウンストリームタスクで顕著なパフォーマンスを示している。
これは、同等のサイズの既存のオープンソース言語モデルを大幅に上回っている。
当社のモデルチェックポイントとコードはgithubのhttps://github.com/jzhang38/tinyllama.comで公開されている。 We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages various advances contributed by the open-source community (e.g., FlashAttention), achieving better computational efficiency. Despite its relatively small size, TinyLlama demonstrates remarkable performance in a series of downstream tasks. It significantly outperforms existing open-source language models with comparable sizes. Our model checkpoints and code are publicly available on GitHub at https://github.com/jzhang38/TinyLlama. | 翻訳日:2024-01-05 14:36:04 公開日:2024-01-04 |
# ChartAssisstant: Chart-to-Table事前学習とマルチタスク指導チューニングによるユニバーサルチャートマルチモーダル言語モデル ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning ( http://arxiv.org/abs/2401.02384v1 ) ライセンス: Link先を確認 | Fanqing Meng, Wenqi Shao, Quanfeng Lu, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo | (参考訳) データ視覚化、データパターン理解、情報意思決定において、チャートは重要な役割を果たす。
しかし、それらのグラフィカル要素(バー、ラインなど)とテキストコンポーネント(ラベル、レジェンドなど)のユニークな組み合わせは、汎用のマルチモーダルモデルにとって課題となる。
グラフデータに基づいて訓練された視覚言語モデルは理解に優れるが、一般化に苦慮し、タスク固有の微調整を必要とする。
これらの課題に対処するために,ユニバーサルチャート理解と推論のためのグラフベースのビジョン言語モデルであるchart assistantを提案する。
ChartAssistantはChartSFTを活用している。ChartSFTは、さまざまなチャート関連タスクを基本的なチャートタイプと特殊なチャートタイプでカバーする包括的データセットである。
まず、チャートからテーブルへのパースを事前トレーニングし、チャートとテキストを調整し、次にマルチタスクのインストラクションフォローの微調整を行う。
このアプローチにより、ChartAssistantはタスク固有の微調整なしで、様々なチャートタスク間での競合性能を達成することができる。
実験により,OpenAIのGPT-4V(ision)を実世界のチャートデータで上回り,最先端のUniChart法よりも高い性能を示した。
コードとデータはhttps://github.com/opengvlab/chartastで入手できる。 Charts play a vital role in data visualization, understanding data patterns, and informed decision-making. However, their unique combination of graphical elements (e.g., bars, lines) and textual components (e.g., labels, legends) poses challenges for general-purpose multimodal models. While vision-language models trained on chart data excel in comprehension, they struggle with generalization and require task-specific fine-tuning. To address these challenges, we propose ChartAssistant, a chart-based vision-language model for universal chart comprehension and reasoning. ChartAssistant leverages ChartSFT, a comprehensive dataset covering diverse chart-related tasks with basic and specialized chart types. It undergoes a two-stage training process, starting with pre-training on chart-to-table parsing to align chart and text, followed by multitask instruction-following fine-tuning. This approach enables ChartAssistant to achieve competitive performance across various chart tasks without task-specific fine-tuning. Experimental results demonstrate significant performance gains over the state-of-the-art UniChart method, outperforming OpenAI's GPT-4V(ision) on real-world chart data. The code and data are available at https://github.com/OpenGVLab/ChartAst. | 翻訳日:2024-01-05 14:35:54 公開日:2024-01-04 |
# 現代舞踊における3次元人体ポーズと形状推定法の検討 Survey of 3D Human Body Pose and Shape Estimation Methods for Contemporary Dance Applications ( http://arxiv.org/abs/2401.02383v1 ) ライセンス: Link先を確認 | Darshan Venkatrayappa, Alain Tremeau, Damien Muselet, Philippe Colantoni | (参考訳) 3Dの人体形状とRGB画像からのポーズ推定は、拡張現実やバーチャルリアリティー、ヘルスケア、フィットネス技術、仮想小売における潜在的な応用において難しい問題である。
最近のソリューションは3種類の入力に焦点を当てている。
i) 単一の画像,
二 マルチビュー画像及び
iii) ビデオ。
本研究では,現代舞踊・芸能における3次元身体形状とポーズ推定法について,人体ポーズ・ドレッシング,カメラ視点,照明条件,背景条件に着目し,調査・比較を行った。
踊り手が現代舞踊を行う場合のポーズ推定には,phalpのようなマルチフレーム方式の方が単一フレーム方式よりも優れた結果が得られることを示した。 3D human body shape and pose estimation from RGB images is a challenging problem with potential applications in augmented/virtual reality, healthcare and fitness technology and virtual retail. Recent solutions have focused on three types of inputs: i) single images, ii) multi-view images and iii) videos. In this study, we surveyed and compared 3D body shape and pose estimation methods for contemporary dance and performing arts, with a special focus on human body pose and dressing, camera viewpoint, illumination conditions and background conditions. We demonstrated that multi-frame methods, such as PHALP, provide better results than single-frame method for pose estimation when dancers are performing contemporary dances. | 翻訳日:2024-01-05 14:35:31 公開日:2024-01-04 |
# ウェブグラフを用いた誤情報源の検出と発見 Detection and Discovery of Misinformation Sources using Attributed Webgraphs ( http://arxiv.org/abs/2401.02379v1 ) ライセンス: Link先を確認 | Peter Carragher, Evan M. Williams, Kathleen M. Carley | (参考訳) ウェブサイト信頼性ラベルは誤情報検出のほとんどすべての研究を支えている。
しかし、誤報ソースは過渡的な行動を示すことが多く、多くのラベル付きリストが時代とともに時代遅れになっている。
検索エンジン最適化(seo)属性はニュースサイトの信頼性を予測するための強力なシグナルを提供する。
ラベル付きニュースドメインと,そのアウトリンクおよびバックリンクドメインとの接続を持つ,新たなwebgraphデータセットを提案する。
本稿では,これらのwebグラフを用いたニュースサイト信頼性検出におけるグラフニューラルネットワークの成功を実証し,ベースラインニュースサイト信頼性分類器が,現在のsoma法を上回っており,f1スコア0.96であることを示す。
最後に,未知の誤報ニュースソースを発見するための新しいグラフベースアルゴリズムを提案し,評価する。 Website reliability labels underpin almost all research in misinformation detection. However, misinformation sources often exhibit transient behavior, which makes many such labeled lists obsolete over time. We demonstrate that Search Engine Optimization (SEO) attributes provide strong signals for predicting news site reliability. We introduce a novel attributed webgraph dataset with labeled news domains and their connections to outlinking and backlinking domains. We demonstrate the success of graph neural networks in detecting news site reliability using these attributed webgraphs, and show that our baseline news site reliability classifier outperforms current SoTA methods on the PoliticalNews dataset, achieving an F1 score of 0.96. Finally, we introduce and evaluate a novel graph-based algorithm for discovering previously unknown misinformation news sources. | 翻訳日:2024-01-05 14:35:19 公開日:2024-01-04 |
# $k$-photon量子ラビモデル The $k$-photon quantum Rabi model ( http://arxiv.org/abs/2401.02370v1 ) ライセンス: Link先を確認 | Daniel Braak | (参考訳) 量子ラビモデルの一般化は、2レベル系と放射モードの間の線形(双極子)結合を、多光子励起に対応する生成と消滅演算子における非線形表現に置き換えることで得られる。
各スピンフリップが$k$光子を含む場合、"$k$-photon"量子ラビモデルと呼ばれる。
形式対称ハミルトニアン作用素は、$k=2$の場合自己随伴的であるが、ここでは、ハミルトニアンが$k\ge 3$に対して自己随伴でないことを示す。
したがって、単体時間進化は起こらず、非物理的である。
この結果は、有限ランク作用素によって非有界作用素を近似しようとする有限次元空間の数値計算では得られない。 A generalization of the quantum Rabi model is obtained by replacing the linear (dipole) coupling between the two-level system and the radiation mode by a non-linear expression in the creation and annihilation operators, corresponding to multi-photon excitations. If each spin flip involves $k$ photons, it is called the "$k$-photon" quantum Rabi model. While the formally symmetric Hamilton operator is self-adjoint in the case $k=2$, it is demonstrated here that the Hamiltonian is not self-adjoint for $k\ge 3$. Therefore it does not generate a unitary time evolution and is unphysical. This result cannot be obtained by numerical calculations in finite-dimensional spaces which attempt to approximate an unbounded operator by a finite-rank operator. | 翻訳日:2024-01-05 14:35:06 公開日:2024-01-04 |
# SPEER:組込みエンティティ検索による長期臨床医の文レベルプランニング SPEER: Sentence-Level Planning of Long Clinical Summaries via Embedded Entity Retrieval ( http://arxiv.org/abs/2401.02369v1 ) ライセンス: Link先を確認 | Griffin Adams, Jason Zucker, No\'emie Elhadad | (参考訳) 臨床医は、患者が退院するたびに、長い要約を書かなければならない。
このタスクは、入院時にカバーされるユニークな臨床概念の数が多いため、時間がかかります。
要約が臨床的に有用であるためには、健全な実体の同定と被覆が不可欠である。
我々は、そのタスクにオープンソース LLM (Mistral-7B-Instruct および Zephyr-7B-\b{eta}) を微調整し、不完全かつ不誠実な要約を生成する。
エンティティのカバレッジを高めるために,LLMをガイドするコンテンツプランとして扱われる有能なエンティティを予測するために,より小さなエンコーダのみのモデルを訓練する。
LLMがソースノートの特定の言及に集中するように促すため、SPEER: Embedded Entity Retrievalによる文レベルのプランニングを提案します。
具体的には、それぞれの有意なエンティティに特別な"{{ }}"境界タグを付けてマークし、各文を生成する前にLLMにマークされたスパンを検索するように指示する。
文レベルのプランニングは、モデルが使用するエンティティを明示的に記録している状態追跡の形式として機能する。
入院患者約167kの大規模多種多様なデータセット上でミストラルとゼファーの変異を微調整し,3つのデータセットを評価した。
SPEERは、非ガイドベースラインやガイドベースラインよりも、カバレッジと忠実度の両方が向上していることを示している。 Clinician must write a lengthy summary each time a patient is discharged from the hospital. This task is time-consuming due to the sheer number of unique clinical concepts covered in the admission. Identifying and covering salient entities is vital for the summary to be clinically useful. We fine-tune open-source LLMs (Mistral-7B-Instruct and Zephyr-7B-\b{eta}) on the task and find that they generate incomplete and unfaithful summaries. To increase entity coverage, we train a smaller, encoder-only model to predict salient entities, which are treated as content-plans to guide the LLM. To encourage the LLM to focus on specific mentions in the source notes, we propose SPEER: Sentence-level Planning via Embedded Entity Retrieval. Specifically, we mark each salient entity span with special "{{ }}" boundary tags and instruct the LLM to retrieve marked spans before generating each sentence. Sentence-level planning acts as a form of state tracking in that the model is explicitly recording the entities it uses. We fine-tune Mistral and Zephyr variants on a large-scale, diverse dataset of ~167k in-patient hospital admissions and evaluate on 3 datasets. SPEER shows gains in both coverage and faithfulness metrics over non-guided and guided baselines. | 翻訳日:2024-01-05 14:34:53 公開日:2024-01-04 |
# 低次元系の量子2-SATは$\mathsf{QMA}_1$-complete:直接埋め込みとブラックボックスシミュレーション Quantum 2-SAT on low dimensional systems is $\mathsf{QMA}_1$-complete: Direct embeddings and black-box simulation ( http://arxiv.org/abs/2401.02368v1 ) ライセンス: Link先を確認 | Dorian Rudolph, Sevag Gharibian, Daniel Nagaj | (参考訳) qsat(quantum satisfiability)問題は量子複雑性理論において基本的な役割を担っているが、中心的な疑問は、どの局所次元において、qsatの複雑性は「容易」から「ハード」に変化するのか、という点にある。
ここでは、各制約が$k$-dimensionalと$l$-dimensionalのquditペアに作用し、QSATを$(k,l)$-QSATと表す。
最初の主要な結果は、驚くほど、量子ビット上の QSAT が $\mathsf{QMA}_1$-hard であり、$(2,5)$-QSAT は $\mathsf{QMA}_1$-complete であることを示している。
対照的に、qubits 上の 2$-SAT はポリ時間可解であることが知られている [Bravyi, 2006]。
2つ目の結果は、$(3,d)$-qsat 1d 行の $d\in o(1)$ もまた $\mathsf{qma}_1$-hard であることを示している。
最後に、1D $(2,d)$-QSATの研究を開始する。
最初の結果は直接埋め込みを使用し,[gosset, nagaj, 2013]の2次元回路からハミルトニアンへの新規なクロック構成を組み合わせる。
注目すべきは、([GN13]の部分的に数値的な証明とは対照的に)後者の新しい単純化された解析的な証明である。
これにより、新しい"Nullspace Connection Lemma"とともにUnitary Labelled Graphs [Bausch, Cubitt, Ozols, 2017] を利用し、低エネルギー解析をプロジェクタの小さなパッチに分割し、[GN13] の音質解析を$\Omega(1/T^6)$から$\Omega(1/T^2)$に改善し、$T$のゲート数を求める。
任意の 1d hamiltonian $h$ on $d'$-dimensional qudits が与えられたとき、それを $d\in o(1)$ に対して 1d $(3,d)$-qsat インスタンスの有効なnull空間に埋め込む方法を示します。
私たちのアプローチは、"シミュレート"(\`a la [Bravyi, Hastings 2017], [Cubitt, Montanaro, Piddock 2018])の弱い概念として見ることができます。
我々の知る限り、これは最初の「ブラックボックスシミュレーション」ベースの$\mathsf{qma}_1$-hardness結果、すなわちフラストレーションのないハミルトニアンを与える。 Despite the fundamental role the Quantum Satisfiability (QSAT) problem has played in quantum complexity theory, a central question remains open: At which local dimension does the complexity of QSAT transition from "easy" to "hard"? Here, we study QSAT with each constraint acting on a $k$-dimensional and $l$-dimensional qudit pair, denoted $(k,l)$-QSAT. Our first main result shows that, surprisingly, QSAT on qubits can remain $\mathsf{QMA}_1$-hard, in that $(2,5)$-QSAT is $\mathsf{QMA}_1$-complete. In contrast, $2$-SAT on qubits is well-known to be poly-time solvable [Bravyi, 2006]. Our second main result proves that $(3,d)$-QSAT on the 1D line with $d\in O(1)$ is also $\mathsf{QMA}_1$-hard. Finally, we initiate the study of 1D $(2,d)$-QSAT by giving a frustration-free 1D Hamiltonian with a unique, entangled ground state. Our first result uses a direct embedding, combining a novel clock construction with the 2D circuit-to-Hamiltonian construction of [Gosset, Nagaj, 2013]. Of note is a new simplified and analytic proof for the latter (as opposed to a partially numeric proof in [GN13]). This exploits Unitary Labelled Graphs [Bausch, Cubitt, Ozols, 2017] together with a new "Nullspace Connection Lemma", allowing us to break low energy analyses into small patches of projectors, and to improve the soundness analysis of [GN13] from $\Omega(1/T^6)$ to $\Omega(1/T^2)$, for $T$ the number of gates. Our second result goes via black-box reduction: Given an arbitrary 1D Hamiltonian $H$ on $d'$-dimensional qudits, we show how to embed it into an effective null-space of a 1D $(3,d)$-QSAT instance, for $d\in O(1)$. Our approach may be viewed as a weaker notion of "simulation" (\`a la [Bravyi, Hastings 2017], [Cubitt, Montanaro, Piddock 2018]). As far as we are aware, this gives the first "black-box simulation"-based $\mathsf{QMA}_1$-hardness result, i.e. for frustration-free Hamiltonians. | 翻訳日:2024-01-05 14:34:25 公開日:2024-01-04 |
# 偏微分方程式のパラメトリック学習のための物理形演算子学習と有限要素法の統合 Integration of physics-informed operator learning and finite element method for parametric learning of partial differential equations ( http://arxiv.org/abs/2401.02363v1 ) ライセンス: Link先を確認 | Shahed Rezaei, Ahmad Moeineddin, Michael Kaliske, Markus Apel | (参考訳) 本稿では,偏微分方程式をパラメトリックに解くための物理インフォームド深層学習手法を提案する。
その焦点は、相コントラストが著しい不均一固体中の定常熱方程式である。
同様の方程式は化学拡散、静電気、ダーシー流などの様々な応用に現れる。
ニューラルネットワークは、複雑な熱伝導率プロファイルと温度分布、およびミクロ構造内の熱流束成分との、一定の境界条件下でのリンクを確立することを目的としている。
データに対する有限要素法のような古典的な解法とは独立である。
注目すべき貢献は、制御方程式の離散化弱形式に基づいて損失関数を定義する新しいアプローチにある。
これは微分の必要な順序を減少させるだけでなく、選択された離散化法から潜在的な数値誤差を受け入れて損失項の構成における自動微分の必要性をなくす。
結果として、この研究における損失関数は、トレーニング効率を著しく向上させる代数方程式である。
本手法を標準有限要素法に対してベンチマークし,温度およびフラックスプロファイルのトレーニングニューラルネットワークを用いて高精度かつ高速な予測を行う。
また,提案手法を想定しないシナリオに対する純粋データ駆動アプローチと比較し,高い精度を示す。 We present a method that employs physics-informed deep learning techniques for parametrically solving partial differential equations. The focus is on the steady-state heat equations within heterogeneous solids exhibiting significant phase contrast. Similar equations manifest in diverse applications like chemical diffusion, electrostatics, and Darcy flow. The neural network aims to establish the link between the complex thermal conductivity profiles and temperature distributions, as well as heat flux components within the microstructure, under fixed boundary conditions. A distinctive aspect is our independence from classical solvers like finite element methods for data. A noteworthy contribution lies in our novel approach to defining the loss function, based on the discretized weak form of the governing equation. This not only reduces the required order of derivatives but also eliminates the need for automatic differentiation in the construction of loss terms, accepting potential numerical errors from the chosen discretization method. As a result, the loss function in this work is an algebraic equation that significantly enhances training efficiency. We benchmark our methodology against the standard finite element method, demonstrating accurate yet faster predictions using the trained neural network for temperature and flux profiles. We also show higher accuracy by using the proposed method compared to purely data-driven approaches for unforeseen scenarios. | 翻訳日:2024-01-05 14:33:27 公開日:2024-01-04 |
# オブジェクトの統一接地と検出のためのオープンで包括的なパイプライン An Open and Comprehensive Pipeline for Unified Object Grounding and Detection ( http://arxiv.org/abs/2401.02361v1 ) ライセンス: Link先を確認 | Xiangyu Zhao, Yicheng Chen, Shilin Xu, Xiangtai Li, Xinjiang Wang, Yining Li, Haian Huang | (参考訳) Grounding-DINOは最先端のオープンセット検出モデルであり、Open-Vocabulary Detection (OVD)、Phrase Grounding (PG)、Referring Expression Comprehension (REC)を含む複数の視覚タスクに取り組む。
その効果は、ダウンストリームアプリケーションの主流アーキテクチャとして広く採用されている。
しかし、その重要性にもかかわらず、当初のグラウンドング・ディノモデルは訓練法が適用できないため、包括的な技術詳細を欠いている。
このギャップを埋めるため,オープンソースで包括的でユーザフレンドリなベースラインであるmm-grounding-dinoをmmdetectionツールボックスで構築した。
事前学習のための豊富なビジョンデータセットと、微調整のための様々な検出および接地データセットを採用している。
報告された各結果の包括的分析と再現のための詳細な設定を行う。
上で述べたベンチマーク実験は、MM-Grounding-DINO-Tinyがグラウンディング-DINO-Tinyベースラインを上回っていることを示している。
すべてのモデルを研究コミュニティにリリースします。
コードとトレーニングされたモデルはhttps://github.com/open-mmlab/mmdetection/configs/mm_grounding_dinoでリリースされる。 Grounding-DINO is a state-of-the-art open-set detection model that tackles multiple vision tasks including Open-Vocabulary Detection (OVD), Phrase Grounding (PG), and Referring Expression Comprehension (REC). Its effectiveness has led to its widespread adoption as a mainstream architecture for various downstream applications. However, despite its significance, the original Grounding-DINO model lacks comprehensive public technical details due to the unavailability of its training code. To bridge this gap, we present MM-Grounding-DINO, an open-source, comprehensive, and user-friendly baseline, which is built with the MMDetection toolbox. It adopts abundant vision datasets for pre-training and various detection and grounding datasets for fine-tuning. We give a comprehensive analysis of each reported result and detailed settings for reproduction. The extensive experiments on the benchmarks mentioned demonstrate that our MM-Grounding-DINO-Tiny outperforms the Grounding-DINO-Tiny baseline. We release all our models to the research community. Codes and trained models are released at https://github.com/open-mmlab/mmdetection/configs/mm_grounding_dino. | 翻訳日:2024-01-05 14:33:07 公開日:2024-01-04 |
# CNNと視覚変換器のモデルレベルアンサンブルによる新規肺炎検出法 A novel method to enhance pneumonia detection via a model-level ensembling of CNN and vision transformer ( http://arxiv.org/abs/2401.02358v1 ) ライセンス: Link先を確認 | Sandeep Angara, Nishith Reddy Mannuru, Aashrith Mannuru, Sharath Thirunagaru | (参考訳) 肺炎は世界中で主要な死因であり、死亡率も高い。
胸部X線画像(CXR)は基本的な診断ツールであるが、従来の分析は時間集約的な専門家評価に依存している。
近年, 深層学習はCXRによる肺炎検出の自動化に大きな可能性を秘めている。
本稿ではCXRによる肺炎の診断を改善するためにニューラルネットワークを適用した。
畳み込みニューラルネットワーク(cnn)と視覚トランスフォーマーネットワークをモデルレベルセンスリングで融合した新しいモデルを開発した。
我々の融合アーキテクチャはResNet34変種とMulti-Axis Vision Transformer小モデルを組み合わせたものである。
両方のベースモデルは、ImageNetで事前訓練されたウェイトで初期化される。
出力層を除去し、最終分類の前に平坦層を用いて特徴を結合する。
1,341枚の正常および3,875個の肺炎cxr画像を含むカグル小児肺炎データセットを用いた。
我々は,スタンドアロンのResNet34,Vision Transformer,Swin Transformer Tinyのベースラインモデルと比較した。
広範なデータ拡張、adam最適化、学習率ウォームアップ、減衰が採用された。
融合モデルは94.87%の精度を達成し、ベースラインを上回った。
また,優れた感度,特異性,kappaスコア,正の予測値を得た。
融合行列解析は誤分類を減らす。
ResNet34とVision Transformerの組み合わせにより、CNNとTransformerのパラダイムから堅牢な機能を学ぶことができる。
このモデルレベルのアンサンブル技術は肺炎の分類に補完的な強みを効果的に統合する。 Pneumonia remains a leading cause of morbidity and mortality worldwide. Chest X-ray (CXR) imaging is a fundamental diagnostic tool, but traditional analysis relies on time-intensive expert evaluation. Recently, deep learning has shown immense potential for automating pneumonia detection from CXRs. This paper explores applying neural networks to improve CXR-based pneumonia diagnosis. We developed a novel model fusing Convolution Neural networks (CNN) and Vision Transformer networks via model-level ensembling. Our fusion architecture combines a ResNet34 variant and a Multi-Axis Vision Transformer small model. Both base models are initialized with ImageNet pre-trained weights. The output layers are removed, and features are combined using a flattening layer before final classification. Experiments used the Kaggle pediatric pneumonia dataset containing 1,341 normal and 3,875 pneumonia CXR images. We compared our model against standalone ResNet34, Vision Transformer, and Swin Transformer Tiny baseline models using identical training procedures. Extensive data augmentation, Adam optimization, learning rate warmup, and decay were employed. The fusion model achieved a state-of-the-art accuracy of 94.87%, surpassing the baselines. We also attained excellent sensitivity, specificity, kappa score, and positive predictive value. Confusion matrix analysis confirms fewer misclassifications. The ResNet34 and Vision Transformer combination enables jointly learning robust features from CNNs and Transformer paradigms. This model-level ensemble technique effectively integrates their complementary strengths for enhanced pneumonia classification. | 翻訳日:2024-01-05 14:32:45 公開日:2024-01-04 |
# Fit-NGP:物体モデルをニューラルネットワークプリミティブに適合させる Fit-NGP: Fitting Object Models to Neural Graphics Primitives ( http://arxiv.org/abs/2401.02357v1 ) ライセンス: Link先を確認 | Marwan Taher, Ignacio Alzugaray, Andrew J. Davison | (参考訳) 正確な3Dオブジェクトのポーズ推定は、困難なオブジェクトインタラクションを含む多くのロボットアプリケーションを実現するための鍵となる。
本研究では,3次元モデルを用いた物体の高精度かつロバストなポーズ推定に,最先端の放射場再構成法により生成された密度場が,非常に小さく,かつ反射面が困難な場合でも適していることを示す。
本研究では,ロボットアームに1台の手首搭載カメラを装着し,スクラッチからシーンをスキャンし,複数物体の6自由度ポーズ(DoF)を2分以内で検出・推定できる,完全な自動オブジェクトポーズ推定システムを提案する。
ボルトやナッツなどの小さな物体は1mmの精度で推定される。 Accurate 3D object pose estimation is key to enabling many robotic applications that involve challenging object interactions. In this work, we show that the density field created by a state-of-the-art efficient radiance field reconstruction method is suitable for highly accurate and robust pose estimation for objects with known 3D models, even when they are very small and with challenging reflective surfaces. We present a fully automatic object pose estimation system based on a robot arm with a single wrist-mounted camera, which can scan a scene from scratch, detect and estimate the 6-Degrees of Freedom (DoF) poses of multiple objects within a couple of minutes of operation. Small objects such as bolts and nuts are estimated with accuracy on order of 1mm. | 翻訳日:2024-01-05 14:32:23 公開日:2024-01-04 |
# カゴメ幾何学上のハイゼンベルク模型の変分量子解に対する行列積状態アンサッツ Matrix product state ansatz for the variational quantum solution of the Heisenberg model on Kagome geometries ( http://arxiv.org/abs/2401.02355v1 ) ライセンス: Link先を確認 | Younes Javanmard, Ugne Liaubaite, Tobias J. Osborne, Xusheng Xu, Man-Hong Yung | (参考訳) 変動量子固有解法(VQE)アルゴリズムは、ハミルトニアンの基底状態を見つけるために適用され、ノイズの多い中間スケール量子(NISQ)デバイスへの展開に特に適している。
本稿では,密度行列再正規化群(DMRG)アルゴリズムにインスパイアされた量子回路アンサッツを用いたVQEアルゴリズムを提案する。
ゼロノイズ外挿を用いた手法の性能に及ぼす現実的な雑音の影響を改善する。
我々のDMRG-VQEハイブリッドアルゴリズムは、現実的な誤差率で、強い相関関係を持つシステムに対して良い結果をもたらす。
我々は,カゴメ格子上のハイゼンベルクモデルを用いて,dmrg-vqeハイブリッド法がそのような系の基底状態の物理を同定し,忠実に表現できることを示す。
さらに、この研究で用いられるパラメータ化ansatz回路は深さが低く、比較的少ないパラメータを必要とするため、nisqデバイスでは効率的である。 The Variational Quantum Eigensolver (VQE) algorithm, as applied to finding the ground state of a Hamiltonian, is particularly well-suited for deployment on noisy intermediate-scale quantum (NISQ) devices. Here we utilize the VQE algorithm with a quantum circuit ansatz inspired by the Density Matrix Renormalization Group (DMRG) algorithm. To ameliorate the impact of realistic noise on the performance of the method we employ zero-noise extrapolation. We find that, with realistic error rates, our DMRG-VQE hybrid algorithm delivers good results for strongly correlated systems. We illustrate our approach with the Heisenberg model on a Kagome lattice patch and demonstrate that DMRG-VQE hybrid methods can locate, and faithfully represent the physics of, the ground state of such systems. Moreover, the parameterized ansatz circuit used in this work is low-depth and requires a reasonably small number of parameters, so is efficient for NISQ devices. | 翻訳日:2024-01-05 14:32:08 公開日:2024-01-04 |
# 単光子を用いたヤングのダブルスリット干渉デモ Young's Double-Slit Interference Demonstration with Single Photons ( http://arxiv.org/abs/2401.02351v1 ) ライセンス: Link先を確認 | Bill J. Luo (1), Leia Francis (1), Valeria Rodriguez-Fajardo (1), Farbod Khoshnoud (2) and Enrique J. Galvez (1) ((1) Department of Physics and Astronomy, Colgate University, (2) Electromechanical Engineering Technology Department, College of Engineering, California State Polytechnic University) | (参考訳) 二重スリットを通過する単一光子の干渉は、同じ実験における光の波動と粒子の性質の説得力のある実証である。
自発的パラメトリックダウン変換によって生成される単一光子は、この目的のために使用できる。
しかし、一貫性と解決の課題のため、特に実装は困難である。
本稿では,これらの課題を克服した学部教育機関に適した卓上実験室構成を提案する。
装置は、単一検出器を走査し、単一光子の干渉パターンを示すプロットを生成する。
本研究では, シート偏光子を用いた量子消去と同様に, 二重スリット・単スリット干渉を実演した実験データを含む。 The interference of single photons going through a double slit is a compelling demonstration of the wave and particle nature of light in the same experiment. Single photons produced by spontaneous parametric down-conversion can be used for this purpose. However, it is particularly challenging to implement due to coherency and resolution challenges. In this article, we present a tabletop laboratory arrangement suitable for the undergraduate instruction laboratory that overcomes these challenges. The apparatus scans a single detector to produce a plot showing the interference patterns of single photons. We include experimental data obtained using this setup demonstrating double-slit and single-slit interference as well as quantum erasing through the use of sheet polarizers. | 翻訳日:2024-01-05 14:31:41 公開日:2024-01-04 |
# 深層強化学習における一般化の分析 A Survey Analyzing Generalization in Deep Reinforcement Learning ( http://arxiv.org/abs/2401.02349v1 ) ライセンス: Link先を確認 | Ezgi Korkmaz | (参考訳) 強化学習研究は、深層ニューラルネットワークを利用して高次元の状態や動作空間の問題を解決することで、大きな成功と注目を集めた。
深層強化学習ポリシーは現在、医療アプリケーションから自動運転車まで、さまざまな分野に展開されているが、深層強化学習ポリシーの一般化能力について、この分野が答えようとしている疑問はまだ残っている。
本稿では,強化学習政策が強固性や一般化能力を制限する過剰適合問題に遭遇する根本的な理由について概説する。
さらに、一般化を促進するために多様なソリューションアプローチを形式化し、統一し、状態アクション値関数の過剰フィットを克服する。
本研究は,最近の深層強化学習の進歩に関する体系的統一的分析と,一般化能力の向上による強固な深層神経政策の構築を支援する。 Reinforcement learning research obtained significant success and attention with the utilization of deep neural networks to solve problems in high dimensional state or action spaces. While deep reinforcement learning policies are currently being deployed in many different fields from medical applications to self driving vehicles, there are still ongoing questions the field is trying to answer on the generalization capabilities of deep reinforcement learning policies. In this paper, we will outline the fundamental reasons why deep reinforcement learning policies encounter overfitting problems that limit their robustness and generalization capabilities. Furthermore, we will formalize and unify the diverse solution approaches to increase generalization, and overcome overfitting in state-action value functions. We believe our study can provide a compact systematic unified analysis for the current advancements in deep reinforcement learning, and help to construct robust deep neural policies with improved generalization abilities. | 翻訳日:2024-01-05 14:31:26 公開日:2024-01-04 |
# テキストオンリートレーニングによるゼロショットキャプションのための微視的画像テキストアライメント Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training ( http://arxiv.org/abs/2401.02347v1 ) ライセンス: Link先を確認 | Longtian Qiu, Shan Ning, Xuming He | (参考訳) 画像キャプションは、画像の記述的かつ意味のあるテキスト記述を生成し、幅広い視覚言語応用を可能にすることを目的としている。
コントラスト画像言語事前学習(CLIP)のパワーを活用することは、ゼロショットキャプションを達成するための有望なアプローチであり、高価なキャプションアノテーションを不要にすることを示した。
しかし、CLIPの潜在空間における広く観察されているモダリティギャップは、ペア画像テキスト特徴間のアライメントを壊すことで、ゼロショットキャプションの性能を損なう。
この問題に対処するために,クリップ潜在空間の分析を行い,2つの知見を導出する。
まず,CLIPによる画像サブリージョンの視覚的特徴は,テキスト記述に固有の情報損失のため,ペア字幕に近づきやすいことが観察された。
さらに,ペア画像テキスト間のモダリティギャップをゼロ平均ガウス分布として経験的にモデル化できることを示す。
そこで本研究では,モダリティギャップを低減すべく,テキストのみをトレーニングしたゼロショット画像キャプションフレームワークを提案する。
特に、局所領域情報を活用するためのサブリージョン機能アグリゲーションを導入し、テキスト表現にマッチするコンパクトな視覚表現を生成する。
さらに,キャプション性能を高めるため,ノイズ注入とCLIPリグレード戦略を取り入れた。
また、フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証しています。
MSCOCO,Flickr30k,VQAV2などの共通キャプションとVQAデータセットに関する広範な実験を通じて,本手法が優れた性能向上を実現することを示す。
コードはhttps://github.com/Artanic30/MacCapで入手できる。 Image captioning aims at generating descriptive and meaningful textual descriptions of images, enabling a broad range of vision-language applications. Prior works have demonstrated that harnessing the power of Contrastive Image Language Pre-training (CLIP) offers a promising approach to achieving zero-shot captioning, eliminating the need for expensive caption annotations. However, the widely observed modality gap in the latent space of CLIP harms the performance of zero-shot captioning by breaking the alignment between paired image-text features. To address this issue, we conduct an analysis on the CLIP latent space which leads to two findings. Firstly, we observe that the CLIP's visual feature of image subregions can achieve closer proximity to the paired caption due to the inherent information loss in text descriptions. In addition, we show that the modality gap between a paired image-text can be empirically modeled as a zero-mean Gaussian distribution. Motivated by the findings, we propose a novel zero-shot image captioning framework with text-only training to reduce the modality gap. In particular, we introduce a subregion feature aggregation to leverage local region information, which produces a compact visual representation for matching text representation. Moreover, we incorporate a noise injection and CLIP reranking strategy to boost captioning performance. We also extend our framework to build a zero-shot VQA pipeline, demonstrating its generality. Through extensive experiments on common captioning and VQA datasets such as MSCOCO, Flickr30k and VQAV2, we show that our method achieves remarkable performance improvements. Code is available at https://github.com/Artanic30/MacCap. | 翻訳日:2024-01-05 14:30:59 公開日:2024-01-04 |
# 視覚言語モデルのためのテキストのみによるプロンプト学習 Learning to Prompt with Text Only Supervision for Vision-Language Models ( http://arxiv.org/abs/2401.02418v1 ) ライセンス: Link先を確認 | Muhammad Uzair Khattak, Muhammad Ferjad Naeem, Muzammal Naseer, Luc Van Gool and Federico Tombari | (参考訳) CLIPのような基礎的なビジョン言語モデルは、優れた一般化能力のために、ビジョンの新しいパラダイムになりつつある。
しかし、その一般化を維持しながら下流タスクにこれらのモデルを適用することは依然として課題である。
文学では、ある分野の手法が視覚情報を用いてCLIPに適応する。
有効ではあるが、これらの作業の多くは実用的ではないラベル付きデータを必要とし、ソースデータへの過剰フィッティングのために新しいデータセットへの一般化に苦慮することが多い。
もうひとつのアプローチは、大規模言語モデル(LLM)からクラス記述を生成して、即時アンサンブルを実行する、トレーニングフリーな手法である。
しかし、これらの手法は、他のクラスに転送できないクラス固有のプロンプトをしばしば生成し、各クラスのLCM記述を別々に生成することで、より高いコストを発生させる。
本研究では,LLMから派生したテキストデータのみを用いてプロンプトを学習することで,これら2つの手法の強みを組み合わせることを提案する。
画像がないためにプロンプトの教師付き訓練は簡単ではないため、プロンプトがLLMデータからリッチな文脈知識を抽出する訓練手法を開発する。
さらに、学習したプロンプト内にLLMコンテキストデータをマッピングすることで、新しいクラスやデータセットへのプロンプトのゼロショット転送を可能にし、LLMプロンプトエンジニアリングコストを削減できる。
我々の知る限りでは、これはテキストのみのデータを用いて一般化されたプロンプトを学習する最初の作品である。
提案手法は,ラベル付き画像を利用するベンチマークと競合しながら,事前のセンシング作業よりも改善する4つのベンチマークで広範囲な評価を行う。
私たちのコードと事前トレーニングされたモデルは、https://github.com/muzairkhattak/protextで利用可能です。 Foundational vision-language models such as CLIP are becoming a new paradigm in vision, due to their excellent generalization abilities. However, adapting these models for downstream tasks while maintaining their generalization remains a challenge. In literature, one branch of methods adapts CLIP by learning prompts using visual information. While effective, most of these works require labeled data which is not practical, and often struggle to generalize towards new datasets due to over-fitting on the source data. An alternative approach resorts to training-free methods by generating class descriptions from large language models (LLMs) and perform prompt ensembling. However, these methods often generate class specific prompts that cannot be transferred to other classes, which incur higher costs by generating LLM descriptions for each class separately. In this work, we propose to combine the strengths of these both streams of methods by learning prompts using only text data derived from LLMs. As supervised training of prompts is not trivial due to absence of images, we develop a training approach that allows prompts to extract rich contextual knowledge from LLM data. Moreover, with LLM contextual data mapped within the learned prompts, it enables zero-shot transfer of prompts to new classes and datasets potentially cutting the LLM prompt engineering cost. To the best of our knowledge, this is the first work that learns generalized prompts using text only data. We perform extensive evaluations on 4 benchmarks where our method improves over prior ensembling works while being competitive to those utilizing labeled images. Our code and pre-trained models are available at https://github.com/muzairkhattak/ProText. | 翻訳日:2024-01-05 14:24:42 公開日:2024-01-04 |
# 自己教師付き自動音声認識の触媒としてのタスク指向対話 Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition ( http://arxiv.org/abs/2401.02417v1 ) ライセンス: Link先を確認 | David M. Chan, Shalini Ghosh, Hitesh Tulsiani, Ariya Rastrow, Bj\"orn Hoffmeister | (参考訳) 自動音声認識(ASR)システムにおける単語誤り率は常に低下しているが、自然言語理解(NLU)アプリケーションは、低品質な音声認識結果にかなりの失敗を犯している。
既存のアシスタントシステムはこれらの多くの不成功な相互作用を収集するが、これらのシステムは通常、オフラインの方法でもこれらの相互作用から学ばない。
本稿では,CLC: Contrastive Learning for Conversationsを紹介した。これは,自己教師型でモデルの微調整を行う手法のファミリーであり,アシスタントとの会話が失敗した場合に容易に検出可能なアーティファクトを利用する。
音声タスク指向対話の大規模半合成メタデータセットであるOD3上でのASRモデルの性能を最大19.2%向上させることができることを示す。
これらの成果は実世界のシステムにもたらされ、CLCがベースラインを最大6.7%上回るパフォーマンス向上に役立つことを示す。
od3をhttps://github.com/amazon-science/amazon-od3で公開しています。 While word error rates of automatic speech recognition (ASR) systems have consistently fallen, natural language understanding (NLU) applications built on top of ASR systems still attribute significant numbers of failures to low-quality speech recognition results. Existing assistant systems collect large numbers of these unsuccessful interactions, but these systems usually fail to learn from these interactions, even in an offline fashion. In this work, we introduce CLC: Contrastive Learning for Conversations, a family of methods for contrastive fine-tuning of models in a self-supervised fashion, making use of easily detectable artifacts in unsuccessful conversations with assistants. We demonstrate that our CLC family of approaches can improve the performance of ASR models on OD3, a new public large-scale semi-synthetic meta-dataset of audio task-oriented dialogues, by up to 19.2%. These gains transfer to real-world systems as well, where we show that CLC can help to improve performance by up to 6.7% over baselines. We make OD3 publicly available at https://github.com/amazon-science/amazon-od3 . | 翻訳日:2024-01-05 14:24:16 公開日:2024-01-04 |
# ODIN: 2次元と3次元の知覚のための単一モデル ODIN: A Single Model for 2D and 3D Perception ( http://arxiv.org/abs/2401.02416v1 ) ライセンス: Link先を確認 | Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki | (参考訳) ScanNetのような現代の3D知覚ベンチマークの最先端モデルは、認識されたマルチビューRGB-D画像のポスト処理によって得られたデータセットが提供する3Dポイントクラウドを消費する。
それらは通常、ドメイン内でトレーニングされ、大規模な2D事前トレーニングを前もって行われ、代わりに提案されたRGB-Dマルチビューイメージを出力する代替手段よりも優れている。
ポーズ画像の消費方法と後処理の3Dポイントクラウドのパフォーマンスの差は、2Dと3Dの知覚に異なるモデルアーキテクチャが必要であるという信念を後押ししている。
本稿では,2次元イントラビューと3次元クロスビュー情報の融合を交互に行うトランスフォーマーアーキテクチャを用いて,2次元rgb画像と3次元ポイントクラウドの両方を分割・ラベル付け可能なモデルであるodin(omni-dimensional instance segmentation)を提案する。
本モデルは,2次元パッチトークンの画素座標と3次元特徴トークンの3次元座標をキャプチャする,関連するトークンの位置エンコーディングによる2次元特徴演算と3次元特徴演算を区別する。
ODINは、ScanNet200、Matterport3D、AI2THORのインスタンスセグメンテーションベンチマークで最先端のパフォーマンスを達成し、ScanNet、S3DIS、COCO上での競合性能を達成している。
これは、3dメッシュからサンプリングされたポイントクラウドの代わりにセンスされた3dポイントクラウドを使用する場合、以前のすべての作業を大きく上回っている。
インストラクタブルなエンボディードエージェントアーキテクチャで3D知覚エンジンとして使用されると、TEAChアクション・トゥ・ダイアログ・ベンチマークに新たな最先端のテクノロジーが設定される。
私たちのコードとチェックポイントはプロジェクトのwebサイトにある。 State-of-the-art models on contemporary 3D perception benchmarks like ScanNet consume and label dataset-provided 3D point clouds, obtained through post processing of sensed multiview RGB-D images. They are typically trained in-domain, forego large-scale 2D pre-training and outperform alternatives that featurize the posed RGB-D multiview images instead. The gap in performance between methods that consume posed images versus post-processed 3D point clouds has fueled the belief that 2D and 3D perception require distinct model architectures. In this paper, we challenge this view and propose ODIN (Omni-Dimensional INstance segmentation), a model that can segment and label both 2D RGB images and 3D point clouds, using a transformer architecture that alternates between 2D within-view and 3D cross-view information fusion. Our model differentiates 2D and 3D feature operations through the positional encodings of the tokens involved, which capture pixel coordinates for 2D patch tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It outperforms all previous works by a wide margin when the sensed 3D point cloud is used in place of the point cloud sampled from 3D mesh. When used as the 3D perception engine in an instructable embodied agent architecture, it sets a new state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and checkpoints can be found at the project website: https://odin-seg.github.io. | 翻訳日:2024-01-05 14:23:56 公開日:2024-01-04 |
# LLaMA Pro: ブロック拡張によるプログレッシブなLLaMA LLaMA Pro: Progressive LLaMA with Block Expansion ( http://arxiv.org/abs/2401.02415v1 ) ライセンス: Link先を確認 | Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan | (参考訳) 人間は一般に古いスキルを損なうことなく新しいスキルを身につけるが、LLaMAからCodeLLaMAのようなLarge Language Models(LLM)は逆である。
そこで本稿では,Transformer ブロックの拡張による LLM の事前学習手法を提案する。
我々は,新しいコーパスのみを用いて拡張ブロックをチューニングし,破滅的な忘れることなくモデルの知識を効率的かつ効果的に改善する。
本稿では,LLaMA2-7Bから初期化した汎用基盤モデルであるLLaMA Pro-8.3Bをコードと数学のコーパスとして提案する。
LLaMA Proとその命令追従系(LLaMA Pro-Instruct)は、LLaMAファミリーの既存のオープンモデルよりも優れた性能を示し、知的エージェントとして様々なタスクを推論し対処する大きな可能性を示している。
本研究は自然言語とプログラミング言語の統合に関する貴重な知見を提供し,様々な環境において効果的に動作する先進的な言語エージェントを開発するための強固な基盤を構築した。 Humans generally acquire new skills without compromising the old; however, the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with an expansion of Transformer blocks. We tune the expanded blocks using only new corpus, efficiently and effectively improving the model's knowledge without catastrophic forgetting. In this paper, we experiment on the corpus of code and math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced performance among various benchmarks, demonstrating superiority over existing open models in the LLaMA family and the immense potential of reasoning and addressing diverse tasks as an intelligent agent. Our findings provide valuable insights into integrating natural and programming languages, laying a solid foundation for developing advanced language agents that operate effectively in various environments. | 翻訳日:2024-01-05 14:23:21 公開日:2024-01-04 |
# 拡散モデルにメトリック関数をもたらす Bring Metric Functions into Diffusion Models ( http://arxiv.org/abs/2401.02414v1 ) ライセンス: Link先を確認 | Jie An, Zhengyuan Yang, Jianfeng Wang, Linjie Li, Zicheng Liu, Lijuan Wang, Jiebo Luo | (参考訳) 本稿では, DPM(Denoising Diffusion Probabilistic Model)の改良を目的としたCascaded Diffusion Model(Cas-DM)を提案する。
LPIPS損失のようなメトリック関数は、スコアマッチングから導出される一貫性モデルにおいて非常に有効であることが証明されている。
しかし、拡散対について、余剰計量関数を加える方法と有効性は未だ不明である。
1つの大きな課題は、各ステップでDDPMによって予測されるノイズと、計量関数がうまく機能する所望のクリーンイメージとのミスマッチである。
この問題に対処するために,拡散モデルトレーニングにメトリック関数を効果的に適用するために2つのネットワークモジュールをカスケードするネットワークアーキテクチャであるCas-DMを提案する。
最初のモジュールは標準DDPMに似ているが、加算された雑音を予測し、計量関数の影響を受けない。
第2のカスケードモジュールはクリーンな画像を予測し、メトリック関数計算を容易にする。
実験結果から,提案した拡散モデルバックボーンはLPIPS損失の有効利用を可能にし,様々なベンチマークで最先端画像品質(FID, sFID, IS)が得られた。 We introduce a Cascaded Diffusion Model (Cas-DM) that improves a Denoising Diffusion Probabilistic Model (DDPM) by effectively incorporating additional metric functions in training. Metric functions such as the LPIPS loss have been proven highly effective in consistency models derived from the score matching. However, for the diffusion counterparts, the methodology and efficacy of adding extra metric functions remain unclear. One major challenge is the mismatch between the noise predicted by a DDPM at each step and the desired clean image that the metric function works well on. To address this problem, we propose Cas-DM, a network architecture that cascades two network modules to effectively apply metric functions to the diffusion model training. The first module, similar to a standard DDPM, learns to predict the added noise and is unaffected by the metric function. The second cascaded module learns to predict the clean image, thereby facilitating the metric function computation. Experiment results show that the proposed diffusion model backbone enables the effective use of the LPIPS loss, leading to state-of-the-art image quality (FID, sFID, IS) on various established benchmarks. | 翻訳日:2024-01-05 14:23:00 公開日:2024-01-04 |
# 量的回帰を用いたシミュレーションに基づく推論 Simulation-Based Inference with Quantile Regression ( http://arxiv.org/abs/2401.02413v1 ) ライセンス: Link先を確認 | He Jia | (参考訳) 条件付き量子化回帰に基づく新しいシミュレーションベース推論(SBI)手法であるニューラル量子化推定(NQE)を提案する。
nqeは、各後次元の個々の1次元分位数を自己回帰的に学習し、データとそれ以前の後次元に基づいて条件づけする。
単調な立方晶Hermiteスプラインを用いて予測量子化物を補間し, 尾部挙動と多モード分布を特異的に処理した。
局所累積密度関数 (cdf) を用いたベイズ信頼性領域の代替定義を導入し, 従来の最高後方密度領域 (hpdr) よりもかなり高速に評価できることを示す。
限られたシミュレーション予算と/または既知のモデルミススペクテーションの場合、後処理の拡張ステップをNQEに統合して、追加の計算コストが無視可能な後処理推定の不偏性を保証する。
提案手法は,様々なベンチマーク問題に対して最先端の性能を実現することを実証する。 We present Neural Quantile Estimation (NQE), a novel Simulation-Based Inference (SBI) method based on conditional quantile regression. NQE autoregressively learns individual one dimensional quantiles for each posterior dimension, conditioned on the data and previous posterior dimensions. Posterior samples are obtained by interpolating the predicted quantiles using monotonic cubic Hermite spline, with specific treatment for the tail behavior and multi-modal distributions. We introduce an alternative definition for the Bayesian credible region using the local Cumulative Density Function (CDF), offering substantially faster evaluation than the traditional Highest Posterior Density Region (HPDR). In case of limited simulation budget and/or known model misspecification, a post-processing broadening step can be integrated into NQE to ensure the unbiasedness of the posterior estimation with negligible additional computational cost. We demonstrate that the proposed NQE method achieves state-of-the-art performance on a variety of benchmark problems. | 翻訳日:2024-01-05 14:22:36 公開日:2024-01-04 |
# LLM拡張LDM: 組成による機能拡張 LLM Augmented LLMs: Expanding Capabilities through Composition ( http://arxiv.org/abs/2401.02412v1 ) ライセンス: Link先を確認 | Rachit Bansal, Bidisha Samanta, Siddharth Dalmia, Nitish Gupta, Shikhar Vashishth, Sriram Ganapathy, Abhishek Bapna, Prateek Jain, Partha Talukdar | (参考訳) 大量のデータコーパスで訓練された数十億のパラメータを持つ基礎モデルは、さまざまな領域において非自明なスキルを示している。
しかし、そのモノリシックな構造のため、その強化や新しいスキルの付与は困難で費用がかかる。
一方で、適応能力のため、これらのモデルのいくつかの新しいインスタンスは、新しいドメインとタスクに向けてトレーニングされています。
本研究では,既存の基礎モデルの効率的かつ実用的な構成問題と,新しい機能を実現するためのより具体的なモデルについて検討する。
この目的のために、我々は言語モデルの拡張のためのcalm-compositionを提案し、モデル間の相互接続を導入し、それらの表現を合成し、新しい機能を有効にする。
CALMの優れた特徴は次のとおりである。
i) 既存のLLMを'再利用'することで、新しいタスクでLLMをスケールアップし、いくつかのパラメータとデータを追加します。
(二)既存の模型重量はそのままに保たれ、それゆえ既存の能力が保たれること。
(iii)多様なドメインや設定を適用。
低リソース言語でトレーニングされたより小さなモデルによるpalm2-sの拡張は、英語への翻訳や低リソース言語の算術推論といったタスクにおいて、最大13\%の改善をもたらすことを実証する。
同様に、PaLM2-Sがコード固有のモデルで拡張されている場合、コード生成と説明タスクのベースモデルよりも40倍の相対的な改善が見られます。 Foundational models with billions of parameters which have been trained on large corpora of data have demonstrated non-trivial skills in a variety of domains. However, due to their monolithic structure, it is challenging and expensive to augment them or impart new skills. On the other hand, due to their adaptation abilities, several new instances of these models are being trained towards new domains and tasks. In this work, we study the problem of efficient and practical composition of existing foundation models with more specific models to enable newer capabilities. To this end, we propose CALM -- Composition to Augment Language Models -- which introduces cross-attention between models to compose their representations and enable new capabilities. Salient features of CALM are: (i) Scales up LLMs on new tasks by 're-using' existing LLMs along with a few additional parameters and data, (ii) Existing model weights are kept intact, and hence preserves existing capabilities, and (iii) Applies to diverse domains and settings. We illustrate that augmenting PaLM2-S with a smaller model trained on low-resource languages results in an absolute improvement of up to 13\% on tasks like translation into English and arithmetic reasoning for low-resource languages. Similarly, when PaLM2-S is augmented with a code-specific model, we see a relative improvement of 40\% over the base model for code generation and explanation tasks -- on-par with fully fine-tuned counterparts. | 翻訳日:2024-01-05 14:22:19 公開日:2024-01-04 |
# 3D GANで全てのピクセルを高密度でレンダリングする「GAN」 What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs ( http://arxiv.org/abs/2401.02411v1 ) ライセンス: Link先を確認 | Alex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano | (参考訳) 3D-Aware Generative Adversarial Networks (GANs) は、ニューラルボリュームレンダリングによる2D画像のコレクションから複数ビュー一貫性のある画像と3Dジオメトリを生成するための学習の著しい進歩を示している。
しかし、ボリュームレンダリングにおける高密度サンプリングの大幅なメモリと計算コストにより、3D GANはパッチベースのトレーニングを採用するか、後処理の2Dスーパー解像度で低解像度レンダリングを採用することを余儀なくされた。
そのため、3D GANは2D画像に存在するリッチな3D幾何学を完全に解けていない。
そこで本研究では,より高解像度なネイティブ2次元画像に対して,ニューラルボリュームレンダリングをスケールさせる手法を提案する。
提案手法では,最大5倍の深度サンプルを用いた3D GANトレーニングにおいて,ニューラルネットワークの高速化に学習ベースのサンプルを用いる。
これにより、2Dで超解像を後処理することなく、トレーニングや推論中に全解像度画像の「各ピクセル」を明示的にレンダリングできる。
高品質表面形状を学習する戦略と合わせて,高分解能3次元形状と厳密なビュー一貫性像を合成し,処理後の超解像度に依存するベースラインと同等の画質を維持する。
我々はFFHQとAFHQで最先端の3D幾何学的品質を示し、3D GANにおける3D形状の教師なし学習のための新しい標準を設定した。 3D-aware Generative Adversarial Networks (GANs) have shown remarkable progress in learning to generate multi-view-consistent images and 3D geometries of scenes from collections of 2D images via neural volume rendering. Yet, the significant memory and computational costs of dense sampling in volume rendering have forced 3D GANs to adopt patch-based training or employ low-resolution rendering with post-processing 2D super resolution, which sacrifices multiview consistency and the quality of resolved geometry. Consequently, 3D GANs have not yet been able to fully resolve the rich 3D geometry present in 2D images. In this work, we propose techniques to scale neural volume rendering to the much higher resolution of native 2D images, thereby resolving fine-grained 3D geometry with unprecedented detail. Our approach employs learning-based samplers for accelerating neural rendering for 3D GAN training using up to 5 times fewer depth samples. This enables us to explicitly "render every pixel" of the full-resolution image during training and inference without post-processing superresolution in 2D. Together with our strategy to learn high-quality surface geometry, our method synthesizes high-resolution 3D geometry and strictly view-consistent images while maintaining image quality on par with baselines relying on post-processing super resolution. We demonstrate state-of-the-art 3D gemetric quality on FFHQ and AFHQ, setting a new standard for unsupervised learning of 3D shapes in 3D GANs. | 翻訳日:2024-01-05 14:21:58 公開日:2024-01-04 |
# 空間課題に対するChatGPT-4, Bard, Claude-2, Copilotの精度比較 Correctness Comparison of ChatGPT-4, Bard, Claude-2, and Copilot for Spatial Tasks ( http://arxiv.org/abs/2401.02404v1 ) ライセンス: Link先を確認 | Hartwig H. Hochmair and Levente Juhasz and Takoda Kemp | (参考訳) 大規模言語モデル(LLM)を含む生成AIは、コーディング、空間計算、サンプルデータの生成、時系列予測、トポニム認識、画像分類など、汎用的なタスク解決機能を通じて、最近、地球科学コミュニティにおいて大きな関心を集めている。
これまでのところ、空間的タスクに対するllmの評価は、おそらく最も著名なaiチャットボットであるchatgptに重点を置いているが、他のチャットボットはあまり注目されていない。
本研究では,4つのチャットボット,すなわちChatGPT-4,Bard,Claude-2,Copilotに割り当てられた54の空間的タスクに対する応答の正当性を評価する。
全体として、チャットボットは空間リテラシー、GIS理論、プログラミングコードと与えられた関数の解釈に優れていたが、マッピング、コード生成、コード翻訳の弱点が明らかになった。
ChatGPT-4は多くのタスクカテゴリで他のチャットボットを上回った。 Generative AI including large language models (LLMs) have recently gained significant interest in the geo-science community through its versatile task-solving capabilities including coding, spatial computations, generation of sample data, time-series forecasting, toponym recognition, or image classification. So far, the assessment of LLMs for spatial tasks has primarily focused on ChatGPT, arguably the most prominent AI chatbot, whereas other chatbots received less attention. To narrow this research gap, this study evaluates the correctness of responses for a set of 54 spatial tasks assigned to four prominent chatbots, i.e., ChatGPT-4, Bard, Claude-2, and Copilot. Overall, the chatbots performed well on spatial literacy, GIS theory, and interpretation of programming code and given functions, but revealed weaknesses in mapping, code generation, and code translation. ChatGPT-4 outperformed other chatbots across most task categories. | 翻訳日:2024-01-05 14:21:29 公開日:2024-01-04 |
# 物理インフォームドニューラルネットワークを用いた金属添加物のリアルタイム2次元温度場予測 Real-Time 2D Temperature Field Prediction in Metal Additive Manufacturing Using Physics-Informed Neural Networks ( http://arxiv.org/abs/2401.02403v1 ) ライセンス: Link先を確認 | Pouyan Sajadi, Mostafa Rahmani Dehaghani, Yifan Tang, G. Gary Wang | (参考訳) 金属添加物製造(AM)プロセスの温度場を正確に予測することは、過熱の防止、プロセスパラメータの調整、プロセス安定性の確保に重要である。
物理ベースの計算モデルは精度を提供するが、反復設計シナリオにおけるリアルタイム予測やオンライン制御には適さないことが多い。
逆に、マシンラーニングモデルは高品質なデータセットに大きく依存しているため、メタルamドメイン内ではコストがかかり、困難になる可能性がある。
本研究は,金属AMの温度場予測に特化して設計された物理インフォームドニューラルネットワークフレームワークを導入することで,この問題に対処する。
このフレームワークには、物理情報入力、物理情報損失関数、畳み込み長短期記憶(ConvLSTM)アーキテクチャが含まれる。
プロセスからリアルタイムな温度データを利用することで、様々な地形、沈着パターン、プロセスパラメータにわたる将来のタイムスタンプの2次元温度場を予測する。
提案手法を2つのシナリオで検証し, 薄肉のフルフィールド温度予測と円筒部と立方体部の2次元温度予測を行い, それぞれ3%, 1%未満の誤差を示した。
提案フレームワークは,プロセスパラメータ,ジオメトリ,堆積パターンの異なる多様なシナリオにまたがって適用可能な柔軟性を示す。 Accurately predicting the temperature field in metal additive manufacturing (AM) processes is critical to preventing overheating, adjusting process parameters, and ensuring process stability. While physics-based computational models offer precision, they are often time-consuming and unsuitable for real-time predictions and online control in iterative design scenarios. Conversely, machine learning models rely heavily on high-quality datasets, which can be costly and challenging to obtain within the metal AM domain. Our work addresses this by introducing a physics-informed neural network framework specifically designed for temperature field prediction in metal AM. This framework incorporates a physics-informed input, physics-informed loss function, and a Convolutional Long Short-Term Memory (ConvLSTM) architecture. Utilizing real-time temperature data from the process, our model predicts 2D temperature fields for future timestamps across diverse geometries, deposition patterns, and process parameters. We validate the proposed framework in two scenarios: full-field temperature prediction for a thin wall and 2D temperature field prediction for cylinder and cubic parts, demonstrating errors below 3% and 1%, respectively. Our proposed framework exhibits the flexibility to be applied across diverse scenarios with varying process parameters, geometries, and deposition patterns. | 翻訳日:2024-01-05 14:21:12 公開日:2024-01-04 |
# 2d-3d視覚言語蒸留による3dオープンボカブラリーパンオプティクセグメンテーション 3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation ( http://arxiv.org/abs/2401.02402v1 ) ライセンス: Link先を確認 | Zihao Xiao, Longlong Jing, Shangxuan Wu, Alex Zihao Zhu, Jingwei Ji, Chiyu Max Jiang, Wei-Chih Hung, Thomas Funkhouser, Weicheng Kuo, Anelia Angelova, Yin Zhou, Shiwei Sheng | (参考訳) 3d panoptic segmentationは、シーン内の3dポイントのセマンティックアノテーションとインスタンスアノテーションの両方を予測することを目的とした、難しい知覚タスクである。
従来の3dパンオプティカルセグメンテーションアプローチはクローズドセットベンチマークで優れた性能を達成しているが、新しいカテゴリへの一般化は未解決の問題である。
未確認のオブジェクトカテゴリでは、2Dオープンボキャブラリセグメンテーションは、凍結したCLIPバックボーンにのみ依存し、複数の分類出力をアンサンブルする有望な結果を達成した。
しかし,これらの2dモデルを3dに拡張するだけでは,マスクごとの分類品質の低さから良好な性能が得られないことがわかった。
本稿では,3次元オープンボキャブラリパノプタセグメンテーションのための最初の手法を提案する。
本モデルは,学習可能なLiDAR特徴と高密度凍結視覚CLIP特徴との融合を利用して,ベースクラスと新規クラスの両方の予測を行う。
新規クラスの分類性能をさらに向上し,クリップモデルを活用するために,オブジェクトレベルの蒸留損失とボクセルレベルの蒸留損失という2つの新たな損失関数を提案する。
nuScenes と SemanticKITTI のデータセットを用いた実験により,本手法が強いベースラインをはるかに上回ることを示す。 3D panoptic segmentation is a challenging perception task, which aims to predict both semantic and instance annotations for 3D points in a scene. Although prior 3D panoptic segmentation approaches have achieved great performance on closed-set benchmarks, generalizing to novel categories remains an open problem. For unseen object categories, 2D open-vocabulary segmentation has achieved promising results that solely rely on frozen CLIP backbones and ensembling multiple classification outputs. However, we find that simply extending these 2D models to 3D does not achieve good performance due to poor per-mask classification quality on novel categories. In this paper, we propose the first method to tackle 3D open-vocabulary panoptic segmentation. Our model takes advantage of the fusion between learnable LiDAR features and dense frozen vision CLIP features, using a single classification head to make predictions for both base and novel classes. To further improve the classification performance on novel classes and leverage the CLIP model, we propose two novel loss functions: object-level distillation loss and voxel-level distillation loss. Our experiments on the nuScenes and SemanticKITTI datasets show that our method outperforms strong baselines by a large margin. | 翻訳日:2024-01-05 14:20:47 公開日:2024-01-04 |
# webの3d動物相を学ぶ Learning the 3D Fauna of the Web ( http://arxiv.org/abs/2401.02400v1 ) ライセンス: Link先を確認 | Zizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu | (参考訳) 地球上のすべての動物の3Dモデルを学ぶには、既存のソリューションを大規模にスケールアップする必要がある。
この究極の目標を念頭に、3D-Faunaを開発した。これは、100種以上の動物種に対して、パンカテゴリーで変形可能な3D動物モデルを学ぶアプローチである。
動物をモデリングする上で重要なボトルネックの1つは、トレーニングデータの可用性の制限です。
従来のカテゴリー固有の試みは,訓練画像に制限のある希少種に一般化できないことを示す。
この課題に対処するために、SBSM(Semantic Bank of Skinned Models)を導入し、幾何学的帰納的先行と意味的知識を、既成の自己監督的特徴抽出器によって暗黙的に捉えた意味的知識を組み合わせることで、基礎動物形状の小さな集合を自動的に発見する。
このようなモデルをトレーニングするために,多様な動物種の大規模データセットも提案する。
推定時, 四足歩行の1つの画像が与えられた場合, 我々のモデルは数秒で3Dメッシュをフィードフォワードで再構成する。 Learning 3D models of all animals on the Earth requires massively scaling up existing solutions. With this ultimate goal in mind, we develop 3D-Fauna, an approach that learns a pan-category deformable 3D animal model for more than 100 animal species jointly. One crucial bottleneck of modeling animals is the limited availability of training data, which we overcome by simply learning from 2D Internet images. We show that prior category-specific attempts fail to generalize to rare species with limited training images. We address this challenge by introducing the Semantic Bank of Skinned Models (SBSM), which automatically discovers a small set of base animal shapes by combining geometric inductive priors with semantic knowledge implicitly captured by an off-the-shelf self-supervised feature extractor. To train such a model, we also contribute a new large-scale dataset of diverse animal species. At inference time, given a single image of any quadruped animal, our model reconstructs an articulated 3D mesh in a feed-forward fashion within seconds. | 翻訳日:2024-01-05 14:20:19 公開日:2024-01-04 |
# ニューラル演算子のための合成データの生成 Generating synthetic data for neural operators ( http://arxiv.org/abs/2401.02398v1 ) ライセンス: Link先を確認 | Erisa Hasani, Rachel A. Ward | (参考訳) 近年の文献における多くの発展は、偏微分方程式(PDE)の数値解を現在の数値解法の範囲を超えて得る上で、深層学習の有望な可能性を示している。
ネットワークを訓練するために必要なデータは、有限差分や有限要素といった古典的な数値解法に依存する。
本稿では,PDEを数値的に解く必要のない合成機能トレーニングデータを生成するための新しい手法を提案する。
私たちは、基礎となる解空間(例えば、古典理論に従って解が存在することを知っている$h_0^1(\omega)$)から、独立かつ同一に分散した 'random function' $u_j$ を大量に引き出す。
次に、これらのランダム候補解を方程式に差し込み、方程式に対して対応する右辺関数 $f_j$ を得るとともに、基礎となる逆問題 $f \rightarrow u$ を学ぶための教師付きトレーニングデータとして $(f_j, u_j)_{j=1}^n$ を考える。
トレーニングデータを生成するための"backwards"アプローチは、数値PDEソルバを必要とする標準的な"forward"アプローチとは対照的に、デリバティブな計算しか必要とせず、そのようなデータポイントを迅速かつ効率的に生成することができる。
アイデアは単純だが,古典的な数値解法に依存しないニューラルPDE解法の開発の可能性を広げることを期待している。 Numerous developments in the recent literature show the promising potential of deep learning in obtaining numerical solutions to partial differential equations (PDEs) beyond the reach of current numerical solvers. However, data-driven neural operators all suffer from the same problem: the data needed to train a network depends on classical numerical solvers such as finite difference or finite element, among others. In this paper, we propose a new approach to generating synthetic functional training data that does not require solving a PDE numerically. The way we do this is simple: we draw a large number $N$ of independent and identically distributed `random functions' $u_j$ from the underlying solution space (e.g., $H_0^1(\Omega)$) in which we know the solution lies according to classical theory. We then plug each such random candidate solution into the equation and get a corresponding right-hand side function $f_j$ for the equation, and consider $(f_j, u_j)_{j=1}^N$ as supervised training data for learning the underlying inverse problem $f \rightarrow u$. This `backwards' approach to generating training data only requires derivative computations, in contrast to standard `forward' approaches, which require a numerical PDE solver, enabling us to generate a large number of such data points quickly and efficiently. While the idea is simple, we hope that this method will expand the potential for developing neural PDE solvers that do not depend on classical numerical solvers. | 翻訳日:2024-01-05 14:19:56 公開日:2024-01-04 |
# 2022年のブラジル総選挙におけるwhatsapp、twitter、kwiiの誤情報分析 Analyzing Misinformation Claims During the 2022 Brazilian General Election on WhatsApp, Twitter, and Kwai ( http://arxiv.org/abs/2401.02395v1 ) ライセンス: Link先を確認 | Scott A. Hale, Adriano Belisario, Ahmed Mostafa, and Chico Camargo | (参考訳) 2022年のブラジル総選挙におけるwhatsapp、twitter、kwiiの誤報を分析した。
選挙期間中の正確な情報の民主的重要性を考えると、複数のファクトチェック組織が協力してWhatsAppのチップラインを通じて誤情報を特定し、対応し、ブラジルの選挙当局であるTSEが運営するチャットボット内でファクトチェック機能を動かした。
WhatsAppはブラジルのスマートフォンの99%以上にインストールされている。
同じ時期に、Twitter(現在のX)とKwai(TikTokに似た人気ビデオ共有アプリ)からソーシャルメディアのデータを収集しました。
WhatsApp、Kwai、Twitterのデータとブラジルのファクトチェック機関のファクトチェックを使って、各プラットフォームに固有のクレームを見つけました。
同じ主張が異なるプラットフォームに存在する場合でも、形式、詳細、長さ、その他の特徴が異なることが多い。
本研究は,現状のクレームマッチングアルゴリズムによるプラットフォーム間のクレームマッチングの限界を浮き彫りにして,さらなるアルゴリズム開発のための領域を特定する。
最後に,画像,ビデオ,音声,テキスト)の形式と,一般的な誤情報主張の内容を記述的に分析する。 This study analyzes misinformation from WhatsApp, Twitter, and Kwai during the 2022 Brazilian general election. Given the democratic importance of accurate information during elections, multiple fact-checking organizations collaborated to identify and respond to misinformation via WhatsApp tiplines and power a fact-checking feature within a chatbot operated by Brazil's election authority, the TSE. WhatsApp is installed on over 99% of smartphones in Brazil, and the TSE chatbot was used by millions of citizens in the run-up to the elections. During the same period, we collected social media data from Twitter (now X) and Kwai (a popular video-sharing app similar to TikTok). Using the WhatsApp, Kwai, and Twitter data along with fact-checks from three Brazilian fact-checking organizations, we find unique claims on each platform. Even when the same claims are present on different platforms, they often differ in format, detail, length, or other characteristics. Our research highlights the limitations of current claim matching algorithms to match claims across platforms with such differences and identifies areas for further algorithmic development. Finally, we perform a descriptive analysis examining the formats (image, video, audio, text) and content themes of popular misinformation claims. | 翻訳日:2024-01-05 14:19:28 公開日:2024-01-04 |
# 多成分量子状態の近似:新しい応用による修正版 Approximation of multipartite quantum states: revised version with new applications ( http://arxiv.org/abs/2401.02388v1 ) ライセンス: Link先を確認 | M.E.Shirokov | (参考訳) 多元系無限次元量子システムの状態の異なる特性を解析するための特別な近似手法を提案し, $\pi$-entanglement の相対エントロピーとその正規化の研究に適用した。
特に、この手法を用いることで、正規化相対エントロピーの局所連続性(収束性)に対して$\pi$-絡み合いの単純な十分条件が得られる。
エンタングルメントの相対的エントロピーとその正規化に対する有限次元近似性を確立し、有限次元の設定で結果が証明された無限次元の場合を一般化する。
また、有限エネルギーを持つ任意の多部状態に対して、$\pi$-エンタングルメントの相対エントロピーの定義における無限小は有限エネルギーを持つ有限分解可能な$\pi$-セパブル状態の集合に乗じることができることを示す。 Special approximation technique for analysis of different characteristics of states of multipartite infinite-dimensional quantum systems is proposed and applied to the study of the relative entropy of $\pi$-entanglement and its regularisation. In particular, by using this technique we obtain simple sufficient conditions for local continuity (convergence) of the regularized relative entropy of $\pi$-entanglement. We establish a finite-dimensional approximation property for the relative entropy of entanglement and its regularization that allows us to generalize to the infinite-dimensional case the results proved in the finite-dimensional settings. We also show that for any multipartite state with finite energy the infimum in the definition of the relative entropy of $\pi$-entanglement can be taken over the set of finitely-decomposable $\pi$-separable states with finite energy. | 翻訳日:2024-01-05 14:19:04 公開日:2024-01-04 |
# コンパタンスサンプリングによるリワード, 最大優先度最適化の選好 Preference as Reward, Maximum Preference Optimization with Importance Sampling ( http://arxiv.org/abs/2312.16430v3 ) ライセンス: Link先を確認 | Zaifan Jiang, Xing Huang, Chao Wei | (参考訳) 優先度学習は、言語モデルと人間の価値を合わせるための重要な技術である。
人的フィードバックからの強化学習(rlhf)は、まず選好スコアに対して報奨モデルに適合し、次に報奨を最大化するためにオンポリシーppoアルゴリズムで生成ポリシーを最適化する、選好学習を最適化するモデルベースアルゴリズムである。
RLHFの処理は複雑で、時間がかかり、不安定である。
オフラインアルゴリズムを用いた直接選好最適化(DPO)アルゴリズムにより、生成ポリシーを直接最適化し、データ効率が高く安定した報酬モデルの必要性を排除する。
DPOはBradley-Terryモデルとログロスを使用し、決定論的に近い場合のKL正規化項を無視して優先データに過度に適合する。
IPOは、ルートフィンディングのペアワイズMSEロスを使用して、無視されるKL正規化問題を解決し、最適なポリシーを学ぶ。
しかし、IPOのペアワイズ損失は、KLレギュラー化をうまく動かせません。
本稿では,重要サンプリング視点から,簡便で直感的なオフポリシー選好最適化アルゴリズムを設計し,kl正規化を真に効果的にするオフポリシーkl正規化項を追加する。
学習プロセスの簡素化とメモリ使用量の削減のために,前もって正規化データを生成することができ,最適化段階における報酬モデルと参照ポリシーの両方の必要性を排除できる。 Preference learning is a key technology for aligning language models with human values. Reinforcement Learning from Human Feedback (RLHF) is a model based algorithm to optimize preference learning, which first fitting a reward model for preference score, and then optimizing generating policy with on-policy PPO algorithm to maximize the reward. The processing of RLHF is complex, time-consuming and unstable. Direct Preference Optimization (DPO) algorithm using off-policy algorithm to direct optimize generating policy and eliminating the need for reward model, which is data efficient and stable. DPO use Bradley-Terry model and log-loss which leads to over-fitting to the preference data at the expense of ignoring KL-regularization term when preference near deterministic. IPO uses a root-finding pairwise MSE loss to solve the ignoring KL-regularization problem, and learning an optimal policy. But IPO's pairwise loss still can't s make the KL-regularization to work. In this paper, we design a simple and intuitive off-policy preferences optimization algorithm from an importance sampling view, and add an off-policy KL-regularization term which makes KL-regularization truly effective. To simplify the learning process and save memory usage, we can generate regularization data in advance, which eliminate the needs for both reward model and reference policy in the stage of optimization. | 翻訳日:2024-01-05 12:33:28 公開日:2024-01-04 |
# 強相関系のためのスパース量子状態調製 Sparse Quantum State Preparation for Strongly Correlated Systems ( http://arxiv.org/abs/2311.03347v4 ) ライセンス: Link先を確認 | C. Feniou, O. Adjoua, B. Claudon, J. Zylberman, E. Giner, J.-P. Piquemal | (参考訳) 量子コンピューティングは、原則として、指数関数的にスケーリングする多電子波動関数を線形スケーリング量子ビットレジスタにエンコーディングすることを可能にし、従来の量子化学手法の限界を克服する有望な解決策を提供する。
基底状態量子アルゴリズムが実用的であるためには、量子ビットの初期化が要求される基底状態の高品質な近似に必須である。
量子状態準備 (qsp) は古典計算から得られる近似固有状態の合成を可能にするが、量子情報ではしばしば神託として扱われる。
本研究では,Hyperion GPU加速状態ベクトルエミュレータを用いて,28量子ビットの原型的強相関系の基底状態に対してQSPを行う。
様々な変分法と非変分法は、回路深さと古典的複雑性の観点から比較される。
その結果,最近開発された overlap-adapt-vqe アルゴリズムは,短期的アプリケーションにおいて最も有利な性能を示す。 Quantum Computing allows, in principle, the encoding of the exponentially scaling many-electron wave function onto a linearly scaling qubit register, offering a promising solution to overcome the limitations of traditional quantum chemistry methods. An essential requirement for ground state quantum algorithms to be practical is the initialisation of the qubits to a high-quality approximation of the sought-after ground state. Quantum State Preparation (QSP) allows the preparation of approximate eigenstates obtained from classical calculations, but it is frequently treated as an oracle in quantum information. In this study, we conduct QSP on the ground state of prototypical strongly correlated systems, up to 28 qubits, using the Hyperion GPU-accelerated state-vector emulator. Various variational and non-variational methods are compared in terms of their circuit depth and classical complexity. Our results indicate that the recently developed Overlap-ADAPT-VQE algorithm offers the most advantageous performance for near-term applications. | 翻訳日:2024-01-05 12:33:04 公開日:2024-01-04 |
# 量子格子ボルツマン・カールマンアルゴリズム Quantum Lattice Boltzmann-Carleman algorithm ( http://arxiv.org/abs/2310.17973v3 ) ライセンス: Link先を確認 | Claudio Sanavio and Sauro Succi | (参考訳) 本稿では,Lattice Boltzmann (LB) 法のカールマン線形化に基づく量子計算アルゴリズムを提案する。
まず, 古典的カールマン手続きを適度なレイノルズ数, すなわちコルモゴロフのような流れで収束することを示す。
次に、量子回路レイアウトを含む対応する量子アルゴリズムを定式化し、その計算可能性を分析する。
主な結論は、少なくとも穏やかなレイノルズ数 10 から 100 に対して、カールマン-LB の手続きは 2 次でうまく切り替わることができ、これは奨励的な結果である。
一方、関連する量子回路は、実際の形では、予測可能なあらゆる量子ハードウェア上で計算可能であるには、あまりにも深い。
改善の可能性と潜在的な方法は、簡単に議論され、コメントされる。 We present a quantum computing algorithm based on Carleman-linearization of the Lattice Boltzmann (LB) method. First, we demonstrate the convergence of the classical Carleman procedure at moderate Reynolds numbers, namely for Kolmogorov-like flows. Then, we proceed to formulate the corresponding quantum algorithm, including the quantum circuit layout, and analyse its computational viability. The main conclusion is twofold, on the one side, at least for mild Reynolds numbers between 10 and 100, the Carleman-LB procedure can be successfully truncated at second order, which is an encouraging result. On the other hand, the associated quantum circuit, in its actual form, is far too deep to be computationally viable on any foreseeable quantum hardware. Possible improvements and potential ways out are briefly discussed and commented on. | 翻訳日:2024-01-05 12:32:48 公開日:2024-01-04 |
# 脳腫瘍分離(BraTS)チャレンジ2023:小児(CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs)に焦点を当てて The Brain Tumor Segmentation (BraTS) Challenge 2023: Focus on Pediatrics (CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs) ( http://arxiv.org/abs/2305.17033v4 ) ライセンス: Link先を確認 | Anahita Fathi Kazerooni, Nastaran Khalili, Xinyang Liu, Debanjan Haldar, Zhifan Jiang, Syed Muhammed Anwar, Jake Albrecht, Maruf Adewole, Udunna Anazodo, Hannah Anderson, Sina Bagheri, Ujjwal Baid, Timothy Bergquist, Austin J. Borja, Evan Calabrese, Verena Chung, Gian-Marco Conte, Farouk Dako, James Eddy, Ivan Ezhov, Ariana Familiar, Keyvan Farahani, Shuvanjan Haldar, Juan Eugenio Iglesias, Anastasia Janas, Elaine Johansen, Blaise V Jones, Florian Kofler, Dominic LaBella, Hollie Anne Lai, Koen Van Leemput, Hongwei Bran Li, Nazanin Maleki, Aaron S McAllister, Zeke Meier, Bjoern Menze, Ahmed W Moawad, Khanak K Nandolia, Julija Pavaine, Marie Piraud, Tina Poussaint, Sanjay P Prabhu, Zachary Reitman, Andres Rodriguez, Jeffrey D Rudie, Ibraheem Salman Shaikh, Lubdha M. Shah, Nakul Sheth, Russel Taki Shinohara, Wenxin Tu, Karthik Viswanathan, Chunhao Wang, Jeffrey B Ware, Benedikt Wiestler, Walter Wiggins, Anna Zapaishchykova, Mariam Aboian, Miriam Bornhorst, Peter de Blank, Michelle Deutsch, Maryam Fouladi, Lindsey Hoffman, Benjamin Kann, Margot Lazow, Leonie Mikael, Ali Nabavizadeh, Roger Packer, Adam Resnick, Brian Rood, Arastoo Vossough, Spyridon Bakas, Marius George Linguraru | (参考訳) 小児の中枢神経系腫瘍は、小児のがん関連死の最も一般的な原因である。
小児の高次グリオーマに対する5年間の生存率は20\%未満である。
希少性のため、診断が遅れることが多く、治療は主に歴史的治療の概念に基づいており、臨床試験には複数施設の協力が必要である。
MICCAI Brain tumor Segmentation (BraTS) Challengeは、成人グリオーマのセグメンテーションと分析のための12年間の歴史を持つ、目覚ましいコミュニティベンチマークイベントである。
本稿では,小児の脳腫瘍に対する最初のbratsチャレンジであるcbtn-connect-dipgr-asnr-miccai brats-peds 2023 challengeについて述べる。
brats-peds 2023 チャレンジは、brats 2023 クラスタ全体で使用される標準化された定量的性能評価指標を用いて、小児脳グリオーマの体積分節化アルゴリズムの開発をベンチマークすることに焦点を当てている。
BraTS-PEDsマルチパラメトリック構造MRI(mpMRI)トレーニングデータから知識を得たモデルは、高次小児グリオーマの別個の検証と未確認検査mpMRIデータに基づいて評価される。
CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023チャレンジは、臨床治験に役立つ自動セグメンテーション技術の開発と、最終的には脳腫瘍の子どものケアにつながる。 Pediatric tumors of the central nervous system are the most common cause of cancer-related death in children. The five-year survival rate for high-grade gliomas in children is less than 20\%. Due to their rarity, the diagnosis of these entities is often delayed, their treatment is mainly based on historic treatment concepts, and clinical trials require multi-institutional collaborations. The MICCAI Brain Tumor Segmentation (BraTS) Challenge is a landmark community benchmark event with a successful history of 12 years of resource creation for the segmentation and analysis of adult glioma. Here we present the CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge, which represents the first BraTS challenge focused on pediatric brain tumors with data acquired across multiple international consortia dedicated to pediatric neuro-oncology and clinical trials. The BraTS-PEDs 2023 challenge focuses on benchmarking the development of volumentric segmentation algorithms for pediatric brain glioma through standardized quantitative performance evaluation metrics utilized across the BraTS 2023 cluster of challenges. Models gaining knowledge from the BraTS-PEDs multi-parametric structural MRI (mpMRI) training data will be evaluated on separate validation and unseen test mpMRI dataof high-grade pediatric glioma. The CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge brings together clinicians and AI/imaging scientists to lead to faster development of automated segmentation techniques that could benefit clinical trials, and ultimately the care of children with brain tumors. | 翻訳日:2024-01-05 12:32:34 公開日:2024-01-04 |
# 垂直的フェデレーション学習のためのデータ評価:モデルフリーかつプライバシ保護手法 Data Valuation for Vertical Federated Learning: A Model-free and Privacy-preserving Method ( http://arxiv.org/abs/2112.08364v3 ) ライセンス: Link先を確認 | Xiao Han and Leye Wang and Junjie Wu and Xiao Fang | (参考訳) Vertical Federated Learning(VFL)は、予測分析のための有望なパラダイムであり、複数のデータサプライヤー(すなわちデータパーティ)と分散的かつプライバシ保護的な方法でコラボレーションすることで、予測モデルを強化する組織(タスクパーティ)に権限を与える。
VFLへの関心が急速に高まっているにもかかわらず、データパーティが所有するデータの価値を評価する効果的なセキュアなツールが欠如していることは、ビジネスコンテキストにおけるVFLの適用を妨げる。
そこで本研究では,vflに対して,データバリュエーション指標とフェデレーション計算法からなる,プライバシを保護し,タスク固有だがモデルフリーのデータバリュエーション手法であるfeedvalueを提案する。
具体的には,まず,新しいデータ評価指標mshapley-cmiを紹介する。
このメトリクスは、機械学習モデルを実行する必要なく、予測分析タスクに対するデータパーティの貢献を評価し、VFLの現実的な応用に適している。
次に,各データパーティのMShapley-CMI値をプライバシ保護方式で計算する,革新的なフェデレーション計算手法を提案する。
6つの公開データセットで実施された大規模な実験は、VFLのコンテキストにおけるデータバリュエーションに対するFedValueの有効性を検証する。
さらに,フェデリックな映画レコメンデーションを取り入れたケーススタディで,FedValueの実用性について述べる。 Vertical Federated learning (VFL) is a promising paradigm for predictive analytics, empowering an organization (i.e., task party) to enhance its predictive models through collaborations with multiple data suppliers (i.e., data parties) in a decentralized and privacy-preserving way. Despite the fast-growing interest in VFL, the lack of effective and secure tools for assessing the value of data owned by data parties hinders the application of VFL in business contexts. In response, we propose FedValue, a privacy-preserving, task-specific but model-free data valuation method for VFL, which consists of a data valuation metric and a federated computation method. Specifically, we first introduce a novel data valuation metric, namely MShapley-CMI. The metric evaluates a data party's contribution to a predictive analytics task without the need of executing a machine learning model, making it well-suited for real-world applications of VFL. Next, we develop an innovative federated computation method that calculates the MShapley-CMI value for each data party in a privacy-preserving manner. Extensive experiments conducted on six public datasets validate the efficacy of FedValue for data valuation in the context of VFL. In addition, we illustrate the practical utility of FedValue with a case study involving federated movie recommendations. | 翻訳日:2024-01-05 12:32:03 公開日:2024-01-04 |
# 可視赤外人物再同定のための周波数領域モーダリティ不変特徴学習 Frequency Domain Modality-invariant Feature Learning for Visible-infrared Person Re-Identification ( http://arxiv.org/abs/2401.01839v2 ) ライセンス: Link先を確認 | Yulin Li, Tianzhu Zhang, Yongdong Zhang | (参考訳) 可視的赤外線人物再識別(VI-ReID)は、可視像と赤外線像との相違により困難である。
既存の手法では、複雑なネットワークアーキテクチャの設計や、モダリティ不変な特徴を学ぶためのメトリック学習の制約に焦点が当てられているが、画像のどの特定の要素がモダリティの不一致の原因かをしばしば見落としている。
本稿では,まず,可視画像と赤外線画像の振幅成分の差がモダリティ不一致の原因となる主要な要因であることを明らかにし,さらに,周波数領域の観点からのモダリティ不一致を低減するための新しい周波数領域モダリティ不変特徴学習フレームワーク(fdmnet)を提案する。
本フレームワークでは,適応振幅フィルタ(IAF)モジュールとPhrase-Preserving Normalization(PPNorm)モジュールという2つの新しいモジュールを導入し,モダリティ不変振幅成分の強化と,画像レベルと特徴レベルの両方においてモダリティ固有成分の抑制を行う。
SYSU-MM01とRegDBの2つの標準ベンチマークによる大規模な実験結果から、FDMNetの最先端手法に対する優れた性能を示す。 Visible-infrared person re-identification (VI-ReID) is challenging due to the significant cross-modality discrepancies between visible and infrared images. While existing methods have focused on designing complex network architectures or using metric learning constraints to learn modality-invariant features, they often overlook which specific component of the image causes the modality discrepancy problem. In this paper, we first reveal that the difference in the amplitude component of visible and infrared images is the primary factor that causes the modality discrepancy and further propose a novel Frequency Domain modality-invariant feature learning framework (FDMNet) to reduce modality discrepancy from the frequency domain perspective. Our framework introduces two novel modules, namely the Instance-Adaptive Amplitude Filter (IAF) module and the Phrase-Preserving Normalization (PPNorm) module, to enhance the modality-invariant amplitude component and suppress the modality-specific component at both the image- and feature-levels. Extensive experimental results on two standard benchmarks, SYSU-MM01 and RegDB, demonstrate the superior performance of our FDMNet against state-of-the-art methods. | 翻訳日:2024-01-05 12:26:25 公開日:2024-01-04 |
# hawkrover:マルチセンサー融合とディープラーニングを用いた自律mm波車両通信試験 HawkRover: An Autonomous mmWave Vehicular Communication Testbed with Multi-sensor Fusion and Deep Learning ( http://arxiv.org/abs/2401.01822v2 ) ライセンス: Link先を確認 | Ethan Zhu, Haijian Sun, Mingyue Ji | (参考訳) 接続された自動走行車(CAV)は、私たちの日常生活を変えるための変革的な技術になっています。
現在、ミリ波帯は有望なCAV接続ソリューションとして認識されている。
高いデータレートを提供するが、mm波信号の伝搬やモビリティ管理時の高減衰など、多くの課題に直面している。
既存のソリューションでは、パイロット信号を起動してチャネル情報を測定し、信号処理を適用して受信側端に向かって最善の狭いビームを計算し、十分な信号電力を確保する必要がある。
このプロセスにはかなりのオーバーヘッドと時間を要するため、車両には適さない。
本研究では,従来「自動化」に用いられてきたlidar(光検出と測位)やカメラ,超音波などのセンサデータを用いて,mm波の車両間通信を容易にするための自律的かつ低コストなテストベッドを提案する。
直感的には、これらのセンサーは車両の周りに3Dマップを構築することができ、信号伝達経路を推定することができる。
このマルチモーダルデータ融合は、AIとともに、‘コネクテッド’研究において大きな進歩をもたらすことが期待されている。 Connected and automated vehicles (CAVs) have become a transformative technology that can change our daily life. Currently, millimeter-wave (mmWave) bands are identified as the promising CAV connectivity solution. While it can provide high data rate, their realization faces many challenges such as high attenuation during mmWave signal propagation and mobility management. Existing solution has to initiate pilot signal to measure channel information, then apply signal processing to calculate the best narrow beam towards the receiver end to guarantee sufficient signal power. This process takes significant overhead and time, hence not suitable for vehicles. In this study, we propose an autonomous and low-cost testbed to collect extensive co-located mmWave signal and other sensors data such as LiDAR (Light Detection and Ranging), cameras, ultrasonic, etc, traditionally for ``automated'', to facilitate mmWave vehicular communications. Intuitively, these sensors can build a 3D map around the vehicle and signal propagation path can be estimated, eliminating iterative the process via pilot signals. This multimodal data fusion, together with AI, is expected to bring significant advances in ``connected'' research. | 翻訳日:2024-01-05 12:26:01 公開日:2024-01-04 |
# ハミルトニアンはテンソル積構造と3次元空間を決定するか? Does the Hamiltonian determine the tensor product structure and the 3d space? ( http://arxiv.org/abs/2401.01793v2 ) ライセンス: Link先を確認 | Ovidiu Cristinel Stoica | (参考訳) ヒルベルト空間のテンソル積構造は、ある条件を満たす多くの有限次元の場合においてハミルトンのスペクトルによって一意に決定される。
任意の方法が無限に多くのテンソル積構造をもたらすことを示す。
解の空間の次元は qudit の数で指数関数的に増加する。
さらに、結果が一意であっても、そのようなハミルトニアンは部分系を絡めない。
これらの結果は、ハミルトニアンから3次元空間を復元するいくつかの提案に影響する。 It was proposed that the tensor product structure of the Hilbert space is uniquely determined by the Hamiltonian's spectrum, for most finite-dimensional cases satisfying certain conditions. I show that any such method would lead to infinitely many tensor product structures. The dimension of the space of solutions grows exponentially with the number of qudits. In addition, even if the result were unique, such a Hamiltonian would not entangle subsystems. These results affect some proposals to recover the 3d space from the Hamiltonian. | 翻訳日:2024-01-05 12:25:43 公開日:2024-01-04 |
# 双曲保存則に対するフーリエニューラル作用素による数値フラックス近似 Approximating Numerical Flux by Fourier Neural Operators for the Hyperbolic Conservation Laws ( http://arxiv.org/abs/2401.01783v2 ) ライセンス: Link先を確認 | Taeyoung Kim and Myungjoo Kang | (参考訳) PDEを数値的に解くための古典的な数値スキームが存在し、近年はニューラルネットワークに基づく手法が開発されている。
しかし、PINNやニューラル演算子などのニューラルネットワークを用いた手法は、堅牢性と一般化力に欠ける。
このような欠点を補うために、古典的数値スキームと機械学習手法を組み合わせた多くの研究が、数値スキームのごく一部をニューラルネットワークに置き換えて行われている。
本研究では, 双曲保存法則に着目し, ニューラル演算子による数値スキームの数値フラックスを置き換える。
このため,保存法則とFNOによる近似数値フラックスの数値スキームによって動機付けられた損失を構築する。
実験により,本手法は,従来の手法と比較することにより,数値スキームとFNOの両方の利点を有することを示した。
例えば,本手法はロバスト性,分解能不変性,およびデータ駆動方式の実現性を示す。
特に本手法は,既存のニューラル演算子手法では解決が困難である分散サンプルに対して,連続的な時間予測と一般化能力を有する。 Classical numerical schemes exist for solving PDEs numerically, and recently, neural network-based methods have been developed. However, methodologies using neural networks, such as PINN and neural operators, lack robustness and generalization power. To compensate for such drawbacks, there are many types of research combining classical numerical schemes and machine learning methods by replacing a small portion of the numerical schemes with neural networks. In this work, we focus on hyperbolic conservation laws and replace numerical fluxes in the numerical schemes by neural operator. For this, we construct losses that are motivated by numerical schemes for conservation laws and approximate numerical flux by FNO. Through experiments, we show that our methodology has advantages of both numerical schemes and FNO by comparing with original methods. For instance, we demonstrate our method gains robustness, resolution invariance property, and feasibility of a data-driven method. Our method especially has the ability to predict continuously in time and generalization power on the out-of-distribution samples, which are challenges to be tackled for existing neural operator methods. | 翻訳日:2024-01-05 12:25:36 公開日:2024-01-04 |
# ターゲット解析的視点の爆発によるターゲット間距離検出 Cross-target Stance Detection by Exploiting Target Analytical Perspectives ( http://arxiv.org/abs/2401.01761v2 ) ライセンス: Link先を確認 | Daijun Ding, Rong Chen, Liwen Jing, Bowen Zhang, Xu Huang, Li Dong, Xiaowen Zhao, Ge Song | (参考訳) ターゲット間姿勢検出(ctsd)は、ターゲットからの注釈データを利用して目的地目標の姿勢を推定する重要な課題である。
CTSDにおける重要なアプローチの1つは、複数のターゲット間の知識ギャップを埋めるために、ドメイン不変の特徴を抽出することである。
しかし、非公式かつ短いテキスト構造と暗黙の表現の分析は、ドメイン不変知識の抽出を複雑にする。
本稿では,知識を伝達するブリッジとして解析的視点を用いたCTSDのためのMPPT(Multi-Perspective Prompt-Tuning)モデルを提案する。
まず,大規模言語モデル(llm)に基づく指示を定式化することにより,対象分析の視点を解明し,複数の視点から自然言語説明(nles)を提供する2段階の指導型連鎖思考法(tscot)を開発した。
次に,NLEを姿勢予測器に融合させるマルチパースペクティブ・プロンプトチューニングフレームワーク(MultiPLN)を提案する。
実験の結果,MPPTの最先端のベースライン法に対する優位性を示した。 Cross-target stance detection (CTSD) is an important task, which infers the attitude of the destination target by utilizing annotated data derived from the source target. One important approach in CTSD is to extract domain-invariant features to bridge the knowledge gap between multiple targets. However, the analysis of informal and short text structure, and implicit expressions, complicate the extraction of domain-invariant knowledge. In this paper, we propose a Multi-Perspective Prompt-Tuning (MPPT) model for CTSD that uses the analysis perspective as a bridge to transfer knowledge. First, we develop a two-stage instruct-based chain-of-thought method (TsCoT) to elicit target analysis perspectives and provide natural language explanations (NLEs) from multiple viewpoints by formulating instructions based on large language model (LLM). Second, we propose a multi-perspective prompt-tuning framework (MultiPLN) to fuse the NLEs into the stance predictor. Extensive experiments results demonstrate the superiority of MPPT against the state-of-the-art baseline methods. | 翻訳日:2024-01-05 12:25:15 公開日:2024-01-04 |
# マルチモーダル基礎モデルの少数ショット適応に関する調査 Few-shot Adaptation of Multi-modal Foundation Models: A Survey ( http://arxiv.org/abs/2401.01736v2 ) ライセンス: Link先を確認 | Fan Liu, Tianshu Zhang, Wenwen Dai, Wenwen Cai, Xiaocong Zhou, Delong Chen | (参考訳) CLIPのようなマルチモーダル(ヴィジュアル言語)モデルは、新しい世代の視覚基盤モデルとして、従来の教師付き事前訓練モデル(例えば、ImageNetベースの事前訓練モデル)を置き換える。
これらのモデルは、数十億のインターネット画像テキストペアから学んだ堅牢で整合したセマンティック表現を持ち、ゼロショットで様々な下流タスクに適用することができる。
しかしながら、医用イメージングやリモートセンシングのような細粒度ドメインでは、マルチモーダル基礎モデルの性能が要求されることが多い。
その結果、多くの研究者がこれらのモデルの少数ショット適応法を探求し始め、徐々に3つの主要な技術的アプローチを導き出した。
1)プロンプトベース手法,
2)アダプタベースの方法,及び
3)外部知識に基づく手法。
それにもかかわらず、この急速に発展する分野は、研究の進捗を体系的に整理するための総合的な調査を行なわずに、多くの成果を生み出している。
そこで本研究では, マルチモーダルモデルに対する少数ショット適応法, 一般的なデータセットと実験装置を要約し, 異なる手法の結果を比較し, 研究の進歩と分析を行った。
さらに,既存手法に対する信頼性の高い理論的サポートが欠如していることから,マルチモーダルモデルに対する少数ショット適応一般化誤差を導出する。
この定理は、マルチモーダル基礎モデルの一般化誤差が、ドメインギャップ、モデル容量、サンプルサイズという3つの要因によって制約されていることを示している。
これに基づいて、以下の3つの側面から可能な解決策を提案する。
1)適応型ドメイン一般化
2)適応型モデル選択、及び
3)適応的知識利用。 Multi-modal (vision-language) models, such as CLIP, are replacing traditional supervised pre-training models (e.g., ImageNet-based pre-training) as the new generation of visual foundation models. These models with robust and aligned semantic representations learned from billions of internet image-text pairs and can be applied to various downstream tasks in a zero-shot manner. However, in some fine-grained domains like medical imaging and remote sensing, the performance of multi-modal foundation models often leaves much to be desired. Consequently, many researchers have begun to explore few-shot adaptation methods for these models, gradually deriving three main technical approaches: 1) prompt-based methods, 2) adapter-based methods, and 3) external knowledge-based methods. Nevertheless, this rapidly developing field has produced numerous results without a comprehensive survey to systematically organize the research progress. Therefore, in this survey, we introduce and analyze the research advancements in few-shot adaptation methods for multi-modal models, summarizing commonly used datasets and experimental setups, and comparing the results of different methods. In addition, due to the lack of reliable theoretical support for existing methods, we derive the few-shot adaptation generalization error bound for multi-modal models. The theorem reveals that the generalization error of multi-modal foundation models is constrained by three factors: domain gap, model capacity, and sample size. Based on this, we propose three possible solutions from the following aspects: 1) adaptive domain generalization, 2) adaptive model selection, and 3) adaptive knowledge utilization. | 翻訳日:2024-01-05 12:24:56 公開日:2024-01-04 |
# BLADE: ディレクテッド拡張によるボックスレベル監視アモーダルセグメンテーション BLADE: Box-Level Supervised Amodal Segmentation through Directed Expansion ( http://arxiv.org/abs/2401.01642v2 ) ライセンス: Link先を確認 | Zhaochen Liu, Zhixuan Li, Tingting Jiang | (参考訳) 隠された物体の完全な形状を認識することは、人間と機械の知性にとって不可欠である。
アモーダルセグメンテーションタスクは、部分的に遮蔽されたオブジェクトの完全なマスクを予測することであるが、ピクセルレベルの基底真理アモーダルマスクに注釈をつけるのに時間と労力がかかる。
box-level supervised amodal segmentationはこの課題に対処し、基底真理バウンディングボックスとインスタンスクラスのみを監督として依存することで、徹底したピクセルレベルのアノテーションの必要性を軽減する。
しかしながら、現在のボックスレベルの方法論は、低解像度マスクと不正確な境界を生成する際の限界に直面する。
本稿では,目に見えるマスクから対応するアモーダルマスクへの拡張アプローチを導入することで,この問題に対処する新しいソリューションを提案する。
重なり合う領域 - 異なるインスタンスが交わる領域 - に基づいて、ハイブリッドなエンドツーエンドネットワークを構築する。
重なり合う領域と非重なり合う領域には, 異なる特徴により, 多様なセグメンテーション戦略を適用する。
可視マスクの拡張を導くために,重なり領域の接続損失を精巧に設計し,可視マスクとの相関を活用し,正確なアモーダルセグメンテーションを容易にする。
提案手法は,いくつかの難解なデータセット上で実験を行い,提案手法が既存の最先端手法を高いマージンで上回ることができることを示した。 Perceiving the complete shape of occluded objects is essential for human and machine intelligence. While the amodal segmentation task is to predict the complete mask of partially occluded objects, it is time-consuming and labor-intensive to annotate the pixel-level ground truth amodal masks. Box-level supervised amodal segmentation addresses this challenge by relying solely on ground truth bounding boxes and instance classes as supervision, thereby alleviating the need for exhaustive pixel-level annotations. Nevertheless, current box-level methodologies encounter limitations in generating low-resolution masks and imprecise boundaries, failing to meet the demands of practical real-world applications. We present a novel solution to tackle this problem by introducing a directed expansion approach from visible masks to corresponding amodal masks. Our approach involves a hybrid end-to-end network based on the overlapping region - the area where different instances intersect. Diverse segmentation strategies are applied for overlapping regions and non-overlapping regions according to distinct characteristics. To guide the expansion of visible masks, we introduce an elaborately-designed connectivity loss for overlapping regions, which leverages correlations with visible masks and facilitates accurate amodal segmentation. Experiments are conducted on several challenging datasets and the results show that our proposed method can outperform existing state-of-the-art methods with large margins. | 翻訳日:2024-01-05 12:24:31 公開日:2024-01-04 |
# ファンデーション購入モデルに向けて:トランザクションシーケンスの事前生成自己回帰 Towards a Foundation Purchasing Model: Pretrained Generative Autoregression on Transaction Sequences ( http://arxiv.org/abs/2401.01641v2 ) ライセンス: Link先を確認 | Piotr Skalski, David Sutton, Stuart Burrell, Iker Perez, Jason Wong | (参考訳) 機械学習モデルは、不正検出やチャーン予測といったユースケースのために、多くの現代的な金融システムを支える。
その多くは、ラベル付きデータの可用性に大きく依存する手作業による教師あり学習に基づいている。
大規模な自己監督型生成モデルは、自然言語処理とコンピュータビジョンにおいて大きな成功を収めていますが、今のところ、多変量時系列の金融取引に適応していません。
本稿では,金融取引のコンテクスト化された埋め込みを得るための生成的事前学習手法を提案する。
公開データセットのベンチマークは、ダウンストリームタスクで最先端の自己教師ありメソッドよりも優れていることを示している。
さらに、510億の取引を含む180の発行銀行のデータコーパスを用いて埋め込みモデルの大規模事前学習を行い、ホールドアウトデータセットのカード不正検出問題に適用する。
埋め込みモデルは精度の高いしきい値における値検出率を大幅に改善し、領域外分布によく移行する。 Machine learning models underpin many modern financial systems for use cases such as fraud detection and churn prediction. Most are based on supervised learning with hand-engineered features, which relies heavily on the availability of labelled data. Large self-supervised generative models have shown tremendous success in natural language processing and computer vision, yet so far they haven't been adapted to multivariate time series of financial transactions. In this paper, we present a generative pretraining method that can be used to obtain contextualised embeddings of financial transactions. Benchmarks on public datasets demonstrate that it outperforms state-of-the-art self-supervised methods on a range of downstream tasks. We additionally perform large-scale pretraining of an embedding model using a corpus of data from 180 issuing banks containing 5.1 billion transactions and apply it to the card fraud detection problem on hold-out datasets. The embedding model significantly improves value detection rate at high precision thresholds and transfers well to out-of-domain distributions. | 翻訳日:2024-01-05 12:24:06 公開日:2024-01-04 |
# ベトナムの詩生成と多言語詩翻訳の展望 Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation ( http://arxiv.org/abs/2401.01078v3 ) ライセンス: Link先を確認 | Triet Minh Huynh and Quan Le Bao | (参考訳) 詩生成は、言語、感情、スタイルのニュアンスを理解するためにモデルを必要とするため、自然言語処理の分野では難しい課題であった。
本稿では,自然言語プロンプトから多様なジャンルのベトナム詩を生成するために,大規模言語モデルを用いることにより,コンテンツ制御が強化された直感的なプロセスを実現することを提案する。
我々の最も効果的なモデルであるGPT-3 Babbageは、ベトナム詩の「ルークバット」ジャンルに特化して0.8のカスタム評価スコアを得る。
さらに、詩を通常の文章のプロンプトに言い換えるアイデアを探求し、「ルークバット」ジャンルの比較的高いスコアである0.781を得る。
本実験は, 詩文を入力として, 生成したコンテンツの完全制御を同時に維持しつつ, 詩文を交互に翻訳する可能性を示す。 Poetry generation has been a challenging task in the field of Natural Language Processing, as it requires the model to understand the nuances of language, sentiment, and style. In this paper, we propose using Large Language Models to generate Vietnamese poems of various genres from natural language prompts, thereby facilitating an intuitive process with enhanced content control. Our most efficacious model, the GPT-3 Babbage variant, achieves a custom evaluation score of 0.8, specifically tailored to the "luc bat" genre of Vietnamese poetry. Furthermore, we also explore the idea of paraphrasing poems into normal text prompts and yield a relatively high score of 0.781 in the "luc bat" genre. This experiment presents the potential for cross-Language poem-to-poem translation with translated poems as the inputs while concurrently maintaining complete control over the generated content. | 翻訳日:2024-01-05 12:23:48 公開日:2024-01-04 |
# 獣を飼う - Coyote C++による完全な自動ユニットテスト Taming the Beast: Fully Automated Unit Testing with Coyote C++ ( http://arxiv.org/abs/2401.01073v2 ) ライセンス: Link先を確認 | Sanghoon Rho, Philipp Martens, Seungcheol Shin and Yeoneo Kim | (参考訳) 本稿では,CとC++用の完全自動化ホワイトボックス単体テストツールであるCoyote C++を紹介する。
既存のツールは、C++でユニットテスト生成を実現するのに苦労しているが、Coyote C++は、1時間に1万以上のステートメントのテスト速度で、ユニットテスト生成から高いカバレッジ結果を生成することができる。
この素晴らしい成果は、強力なココリック実行エンジンと高度な自動テストハーネス生成を組み合わせることで実現されている。
さらに、Coyote C++のGUIは詳細なコードカバレッジの視覚化を表示し、カバー結果を手動で最適化したいユーザのためにさまざまな設定機能を提供する。
強力なワンクリック自動テストと手動微調整の豊富なサポートを組み合わせることで、Cyote C++は、産業アプリケーションで本当に実行可能なC++コードの自動テストを実現するのに十分な、最初の自動テストツールである。 In this paper, we present Coyote C++, a fully automated white-box unit testing tool for C and C++. Whereas existing tools have struggled to realize unit test generation for C++, Coyote C++ is able to produce high coverage results from unit test generation at a testing speed of over 10,000 statements per hour. This impressive feat is made possible by the combination of a powerful concolic execution engine with sophisticated automated test harness generation. Additionally, the GUI of Coyote C++ displays detailed code coverage visualizations and provides various configuration features for users seeking to manually optimize their coverage results. Combining potent one-click automated testing with rich support for manual tweaking, Coyote C++ is the first automated testing tool that is practical enough to make automated testing of C++ code truly viable in industrial applications. | 翻訳日:2024-01-05 12:23:34 公開日:2024-01-04 |
# 幾何学的平均に基づく多部交絡測度 Multipartite entanglement measures based on geometric mean ( http://arxiv.org/abs/2401.01014v2 ) ライセンス: Link先を確認 | Hui Li, Ting Gao, Fengli Yan | (参考訳) 本稿では、n$-partite量子系における$k$-partitionの全ての絡み合い値の幾何学的平均に基づいて、$k$-nonseparable $(2\leq k\leq n)$ 絡み合い測度について検討する。
多部系における$k$-非分離状態をすべて明示的に検出する$k$-GMコンカレンスと呼ばれる絡み合い尺度のクラスを定義する。
厳密には、$k$-GM の収束は絡み合い測度のすべての条件を満たすことが示される。
$k$-ME concurrence [\href{https://journals.aps.org/pra/abstract/10.1103/PhysRevA.86.062323} {Phys。
rev. a \textbf{86}, 062323 (2012)}] では、我々が提案した措置はいくつかの異なる側面を示し、それを具現化している。
(i) $k$-gm concurrence は絡み合いの違いを反映しうるが、$k$-me concurrence は時に失敗する。
(ii)$k$-GMコンカレンスは、測定されている純粋な状態が連続的に変化するときに急激なピークを生じないが、$k$-MEコンカレンスは不連続点として現れる。
(iii)絡み合いの順序が区別されることもある。
さらに、$k$-MEコンカレンスと$k$-GMコンカレンスの関係を確立し、量子状態の置換不変部分を利用して、$k$-GMコンカレンスに強い下界を導出する。
さらに、より一般化された絡み合い測度の2つのカテゴリ、$q$-$k$-gm concurrence $(q>1, 2\leq k\leq n)$と$\alpha$-$k$-gm concurrence $(0\leq\alpha<1, 2\leq k\leq n)$を得るために、$k$-gm concurrenceが持つ特性も満たすために、$k$-gm concurrenceをパラメータ化する。
さらに、真のマルチパートエンタングルメント測度の一種である$\alpha$-$2$-GM Concurrence $(0<\alpha<1)$は、マルチキュービット系における$W$状態よりもGHZ状態がより絡み合っているという要件を満たすことを詳細に証明している。 In this paper, we investigate $k$-nonseparable $(2\leq k\leq n)$ entanglement measures based on geometric mean of all entanglement values of $k$-partitions in $n$-partite quantum systems. We define a class of entanglement measures called $k$-GM concurrence which explicitly detect all $k$-nonseparable states in multipartite systems. It is rigorously shown that the $k$-GM concurrence complies with all the conditions of an entanglement measure. Compared to $k$-ME concurrence [\href{https://journals.aps.org/pra/abstract/10.1103/PhysRevA.86.062323} {Phys. Rev. A \textbf{86}, 062323 (2012)}], the measures proposed by us emerge several different aspects, embodying that (i) $k$-GM concurrence can reflect the differences in entanglement but $k$-ME concurrence fails at times, (ii) $k$-GM concurrence does not arise sharp peaks when the pure state being measured varies continuously, while $k$-ME concurrence appears discontinuity points, (iii) the entanglement order is sometimes distinct. In addition, we establish the relation between $k$-ME concurrence and $k$-GM concurrence, and further derive a strong lower bound on the $k$-GM concurrence by exploiting the permutationally invariant part of a quantum state. Furthermore, we parameterize $k$-GM concurrence to obtain two categories of more generalized entanglement measures, $q$-$k$-GM concurrence $(q>1, 2\leq k\leq n)$ and $\alpha$-$k$-GM concurrence $(0\leq\alpha<1, 2\leq k\leq n)$, which fulfill the properties possessed by $k$-GM concurrence as well. Moreover, $\alpha$-$2$-GM concurrence $(0<\alpha<1)$, as a type of genuine multipartite entanglement measures, is proven in detail satisfying the requirement that the GHZ state is more entangled than the $W$ state in multiqubit systems. | 翻訳日:2024-01-05 12:23:17 公開日:2024-01-04 |
# Deformable-DETR と Multi-Level Feature Fusion を用いた正確な白血球検出による血液疾患の診断支援 Accurate Leukocyte Detection Based on Deformable-DETR and Multi-Level Feature Fusion for Aiding Diagnosis of Blood Diseases ( http://arxiv.org/abs/2401.00926v2 ) ライセンス: Link先を確認 | Yifei Chen, Chenyan Zhang, Ben Chen, Yiyu Huang, Yifei Sun, Changmiao Wang, Xianjun Fu, Yuxing Dai, Feiwei Qin, Yong Peng, Yu Gao | (参考訳) 通常の病院血液検査では、医師は顕微鏡で患者の血液の顕微鏡画像から白血球を手動で分離する必要がある。
これらの単離白血球は、自動白血球分類器を介して分類され、血液サンプルに存在する異なる種類の白血球の割合と体積を判定し、疾患の診断を支援する。
この手法は時間と労力を消費するだけでなく、画像の品質や環境条件などの要因によるエラーの確率が高く、その後の分類や誤診断につながる可能性がある。
これらの課題に対処するために, マルチレベル機能融合と変形性自己注意型DETR (MFDS-DETR) を提案する。
白血球スケールの格差問題に対処するため,高レベルスクリーニング機能融合ピラミッド (hs-fpn) を設計し,マルチレベル融合を可能にした。
このモデルは、チャネルアテンションモジュールを介して低レベル特徴情報をフィルタリングし、スクリーニングされた情報を高レベル特徴とマージすることにより、モデルの特徴表現能力を向上する。
さらに,多スケールの変形可能な自己着脱モジュールをエンコーダに組み込んで,自己着脱および相互着脱可能な注意機構をデコーダに組み込むことで白血球特徴量不足の問題に対処し,白血球特徴マップの全体的特徴の抽出を支援する。
提案手法の有効性, 優位性, 一般化性は, プライベートWBCDD, パブリックLISC, BCCDデータセットを用いた他の最先端白血球検出モデルとの比較により確認した。
ソースコードとプライベートなWBCCDデータセットはhttps://github.com/JustlfC03/MFDS-DETRで公開されています。 In standard hospital blood tests, the traditional process requires doctors to manually isolate leukocytes from microscopic images of patients' blood using microscopes. These isolated leukocytes are then categorized via automatic leukocyte classifiers to determine the proportion and volume of different types of leukocytes present in the blood samples, aiding disease diagnosis. This methodology is not only time-consuming and labor-intensive, but it also has a high propensity for errors due to factors such as image quality and environmental conditions, which could potentially lead to incorrect subsequent classifications and misdiagnosis. To address these issues, this paper proposes an innovative method of leukocyte detection: the Multi-level Feature Fusion and Deformable Self-attention DETR (MFDS-DETR). To tackle the issue of leukocyte scale disparity, we designed the High-level Screening-feature Fusion Pyramid (HS-FPN), enabling multi-level fusion. This model uses high-level features as weights to filter low-level feature information via a channel attention module and then merges the screened information with the high-level features, thus enhancing the model's feature expression capability. Further, we address the issue of leukocyte feature scarcity by incorporating a multi-scale deformable self-attention module in the encoder and using the self-attention and cross-deformable attention mechanisms in the decoder, which aids in the extraction of the global features of the leukocyte feature maps. The effectiveness, superiority, and generalizability of the proposed MFDS-DETR method are confirmed through comparisons with other cutting-edge leukocyte detection models using the private WBCDD, public LISC and BCCD datasets. Our source code and private WBCCD dataset are available at https://github.com/JustlfC03/MFDS-DETR. | 翻訳日:2024-01-05 12:22:21 公開日:2024-01-04 |
# 効率を超越した大規模言語モデルに関する体系的調査 Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models ( http://arxiv.org/abs/2401.00625v2 ) ライセンス: Link先を確認 | Guangji Bai, Zheng Chai, Chen Ling, Shiyu Wang, Jiaying Lu, Nan Zhang, Tingwei Shi, Ziyang Yu, Mengdan Zhu, Yifei Zhang, Carl Yang, Yue Cheng, Liang Zhao | (参考訳) OpenAIのChatGPTのような洗練されたモデルで実証されたLLM(Large Language Models)の急成長は、人工知能の大きな進歩を表している。
しかし、これらのモデルは計算量、メモリ、エネルギー、金融資源、特に資源能力に乏しい環境での高消費において実質的な課題をもたらす。
本調査は, LLMの資源効率向上を目的とした幅広い手法を概観することにより, これらの課題を体系的に解決することを目的としている。
アーキテクチャ設計,事前トレーニング,微調整,システム設計など,llmライフサイクルのさまざまな段階における計算,メモリ,エネルギー,金融,ネットワークリソースとその適用可能性について,その最適化焦点に基づいて分類する。
さらに,それらの資源タイプによる資源効率技術のニュアンス分類を導入し,様々な資源間の複雑な関係とマッピングと対応する最適化手法を明らかにする。
評価指標とデータセットの標準化されたセットも提示され、さまざまなモデルとテクニックの一貫性と公正な比較を容易にする。
この調査は、現在のソタの包括的概要を提供し、オープンな研究経路を特定することによって、研究者や実践者にとって基礎となる基準となり、急速に発展するランドスケープにおいて、より持続的で効率的なLLMの開発を支援する。 The burgeoning field of Large Language Models (LLMs), exemplified by sophisticated models like OpenAI's ChatGPT, represents a significant advancement in artificial intelligence. These models, however, bring forth substantial challenges in the high consumption of computational, memory, energy, and financial resources, especially in environments with limited resource capabilities. This survey aims to systematically address these challenges by reviewing a broad spectrum of techniques designed to enhance the resource efficiency of LLMs. We categorize methods based on their optimization focus: computational, memory, energy, financial, and network resources and their applicability across various stages of an LLM's lifecycle, including architecture design, pretraining, finetuning, and system design. Additionally, the survey introduces a nuanced categorization of resource efficiency techniques by their specific resource types, which uncovers the intricate relationships and mappings between various resources and corresponding optimization techniques. A standardized set of evaluation metrics and datasets is also presented to facilitate consistent and fair comparisons across different models and techniques. By offering a comprehensive overview of the current sota and identifying open research avenues, this survey serves as a foundational reference for researchers and practitioners, aiding them in developing more sustainable and efficient LLMs in a rapidly evolving landscape. | 翻訳日:2024-01-05 12:21:51 公開日:2024-01-04 |
# TSGAN:光学ベースSAR時間シフト用光-SARデュアル条件GAN TSGAN: An Optical-to-SAR Dual Conditional GAN for Optical based SAR Temporal Shifting ( http://arxiv.org/abs/2401.00440v2 ) ライセンス: Link先を確認 | Moien Rangzan, Sara Attarchi, Richard Gloaguen, Seyed Kazem Alavipanah | (参考訳) 本研究は、SAR-to-Optical翻訳の精巧な研究分野とは対照的に、光-to-SAR翻訳のより少ない研究領域を探求する。
この複雑さは、単一の光学データがSARの視線幾何学に基づく複数のSAR表現を持つため生じる。
本稿では,異なる時間点からSARデータとともに所望のタイムスタンプから光データを入力し,その間における光データの変化マップを補完する新たなSAR時間シフト方式を提案する。
このモデルは、光学データで観測された変化に基づいてSARデータを修正し、所望のタイムスタンプに対してSARデータを生成する。
我々のモデルでは、時間シフトGAN(Temporal Shifting GAN)という名前の二重条件生成適応ネットワーク(GAN)が、生成器と識別器の両方にシアムエンコーダを組み込んでいる。
モデルが入力されたSARデータに過度に収まるのを防止するため、我々は変更重み付き損失関数を採用した。
提案手法は,GANのフィクション現象,特に変化のない地域では排除することにより,従来の翻訳手法を超越し,これらの領域ではSSIMやPSNRが向上する。
さらに、Pix2Pixアーキテクチャの変更とアテンション機構の追加により、データの全領域におけるモデルの性能が向上した。
この研究は、地球画像データの最も豊富で長期にわたる源であるレガシーな光学データセットを活用する方法となり、その用途をsarドメインと時間分析に拡張する。
さらなる研究を促進するために、コード、研究で使用されるデータセット、および新しい関心領域のためのペア化されたSAR-Opticalデータセットを生成するためのフレームワークを提供する。
これらのリソースはgithub.com/moienr/temporalganで入手できる。 In contrast to the well-investigated field of SAR-to-Optical translation, this study explores the lesser-investigated domain of Optical-to-SAR translation, a challenging field due to the ill-posed nature of this translation. The complexity arises as a single optical data can have multiple SAR representations based on the SAR viewing geometry. We propose a novel approach, termed SAR Temporal Shifting, which inputs an optical data from the desired timestamp along with a SAR data from a different temporal point but with a consistent viewing geometry as the expected SAR data, both complemented with a change map of optical data during the intervening period. This model modifies the SAR data based on the changes observed in optical data to generate the SAR data for the desired timestamp. Our model, a dual conditional Generative Adversarial Network (GAN), named Temporal Shifting GAN (TSGAN), incorporates a siamese encoder in both the Generator and the Discriminator. To prevent the model from overfitting on the input SAR data, we employed a change weighted loss function. Our approach surpasses traditional translation methods by eliminating the GAN's fiction phenomenon, particularly in unchanged regions, resulting in higher SSIM and PSNR in these areas. Additionally, modifications to the Pix2Pix architecture and the inclusion of attention mechanisms have enhanced the model's performance on all regions of the data. This research paves the way for leveraging legacy optical datasets, the most abundant and longstanding source of Earth imagery data, extending their use to SAR domains and temporal analyses. To foster further research, we provide the code, datasets used in our study, and a framework for generating paired SAR-Optical datasets for new regions of interest. These resources are available on github.com/moienr/TemporalGAN | 翻訳日:2024-01-05 12:21:16 公開日:2024-01-04 |
# バックプロパゲーションフリー光PINNトレーニングによる実時間FJ/MAC PDE解法 Real-Time FJ/MAC PDE Solvers via Tensorized, Back-Propagation-Free Optical PINN Training ( http://arxiv.org/abs/2401.00413v2 ) ライセンス: Link先を確認 | Yequan Zhao, Xian Xiao, Xinling Yu, Ziyue Liu, Zhixiong Chen, Geza Kurczveil, Raymond G. Beausoleil, Zheng Zhang | (参考訳) 偏微分方程式 (pdes) を数値的に解くには, 計算時間, エネルギーコスト, ハードウェア資源を必要とすることが多い。
これにより、エネルギー予算が制限され、ほぼリアルタイムな応答を必要とする多くのシナリオ(自律システムや超音速流など)での使用が制限されている。
光コンピューティングを活用した物理インフォームドニューラルネットワーク(PINN)のオンチップトレーニングフレームワークを開発し,fJ/MAC光電力消費と超低レイテンシで高次元PDEを解くことを目的とした。
光ニューラルネットワークの超高速にもかかわらず、(1)フォトニックデバイスの大型化、(2)バックプロパゲーション(BP)の中間結果を格納するスケーラブルな光メモリ装置の欠如により、光チップ上でPINNを訓練することは困難である。
本稿では,実際の光PINNトレーニングを実現するために,BPプロセスを回避するスケーラブルな手法を提案する。
また、光PINNトレーニングの収束性と拡張性を改善するために、テンソル圧縮方式を用いる。
このトレーニングフレームワークは、スケーラブルな推論アクセラレーションのためのテンソル化光学ニューラルネットワーク(TONN)と、 \textit{in-situ}最適化のためのMZI位相領域チューニングを用いて設計されている。
20dim HJB PDEによるシミュレーションの結果、我々のフォトニック加速器はMZIの数を1.17\times 10^3$で減らし、Jが1.36ドル、sが1.15ドルであることがわかった。
これは、高次元pdesの解法に応用できる最初の実サイズ光ピン訓練フレームワークである。 Solving partial differential equations (PDEs) numerically often requires huge computing time, energy cost, and hardware resources in practical applications. This has limited their applications in many scenarios (e.g., autonomous systems, supersonic flows) that have a limited energy budget and require near real-time response. Leveraging optical computing, this paper develops an on-chip training framework for physics-informed neural networks (PINNs), aiming to solve high-dimensional PDEs with fJ/MAC photonic power consumption and ultra-low latency. Despite the ultra-high speed of optical neural networks, training a PINN on an optical chip is hard due to (1) the large size of photonic devices, and (2) the lack of scalable optical memory devices to store the intermediate results of back-propagation (BP). To enable realistic optical PINN training, this paper presents a scalable method to avoid the BP process. We also employ a tensor-compressed approach to improve the convergence and scalability of our optical PINN training. This training framework is designed with tensorized optical neural networks (TONN) for scalable inference acceleration and MZI phase-domain tuning for \textit{in-situ} optimization. Our simulation results of a 20-dim HJB PDE show that our photonic accelerator can reduce the number of MZIs by a factor of $1.17\times 10^3$, with only $1.36$ J and $1.15$ s to solve this equation. This is the first real-size optical PINN training framework that can be applied to solve high-dimensional PDEs. | 翻訳日:2024-01-05 12:20:35 公開日:2024-01-04 |