このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231102となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# スマートコントラクトの品質保証に関する調査
Survey on Quality Assurance of Smart Contracts ( http://arxiv.org/abs/2311.00270v2 ) ライセンス: Link先を確認 | Zhiyuan Wei, Jing Sun, Zijian Zhang, Xianhao Zhang, Xiaoxuan Yang, Liehuang Zhu, | (参考訳) スマートコントラクトの採用の増加に伴い、セキュリティの確保が重要な問題となっている。
多くの脆弱性や攻撃が特定され、悪用され、経済的に大きな損失を被った。
これに対し、研究者はスマートコントラクトの脆弱性を特定し、予防するための様々なツールとテクニックを開発した。
本稿では,スマートコントラクトの品質保証について,脆弱性,攻撃,防御,ツールサポートについて,体系的に概説する。
既知の攻撃に基づいて脆弱性を分類することで、対処すべきパターンと共通の弱点を識別できる。
さらに、スマートコントラクトを効果的に保護するために、さまざまな脆弱性検出ツールを評価し、その有効性を比較するラベル付きデータセットを作成しました。
With the increasing adoption of smart contracts, ensuring their security has become a critical concern. Numerous vulnerabilities and attacks have been identified and exploited, resulting in significant financial losses. In response, researchers have developed various tools and techniques to identify and prevent vulnerabilities in smart contracts. In this survey, we present a systematic overview of the quality assurance of smart contracts, covering vulnerabilities, attacks, defenses, and tool support. By classifying vulnerabilities based on known attacks, we can identify patterns and common weaknesses that need to be addressed. Moreover, in order to effectively protect smart contracts, we have created a labeled dataset to evaluate various vulnerability detection tools and compare their effectiveness. | 翻訳日:2024-03-25 13:55:39 公開日:2023-11-02 |
# サプライチェーンのレコメンデーションシステム : プライバシ保護への挑戦
Reputation Systems for Supply Chains: The Challenge of Achieving Privacy Preservation ( http://arxiv.org/abs/2311.01060v1 ) ライセンス: Link先を確認 | Lennart Bader, Jan Pennekamp, Emildeon Thevaraj, Maria Spiß, Salil S. Kanhere, Klaus Wehrle, | (参考訳) 消費者は製品、サービス、配送を評価するためにしばしば評判システムと対話する。
過去の研究は、このようなシステムを安全かつプライバシー保護的に実現するための様々な概念的アプローチを幅広く研究してきたが、ビジネス・ビジネス環境ではまだ使われていない。
本稿では,(1) 不安定なサプライチェーンネットワークにおけるプライバシーに配慮した利害関係者の紹介,(2) プライバシ保護の評判システムとその特性の多様な展望の概要,(3) プライチェーン情報システムや暗号の確立した概念に基づいて,上記の課題を,完全同型暗号を利用して考慮する初期概念を提案する。
今後の課題として,サプライチェーン固有のプライバシと機密性のニーズに対処する新たなシステムを評価する必要性を明らかにする。
Consumers frequently interact with reputation systems to rate products, services, and deliveries. While past research extensively studied different conceptual approaches to realize such systems securely and privacy-preservingly, these concepts are not yet in use in business-to-business environments. In this paper, (1) we thus outline which specific challenges privacy-cautious stakeholders in volatile supply chain networks introduce, (2) give an overview of the diverse landscape of privacy-preserving reputation systems and their properties, and (3) based on well-established concepts from supply chain information systems and cryptography, we further propose an initial concept that accounts for the aforementioned challenges by utilizing fully homomorphic encryption. For future work, we identify the need of evaluating whether novel systems address the supply chain-specific privacy and confidentiality needs. | 翻訳日:2024-03-25 13:45:54 公開日:2023-11-02 |
# UTXO系ブロックチェーンにおけるコイン選択アルゴリズムの検討
A Survey on Coin Selection Algorithms in UTXO-based Blockchains ( http://arxiv.org/abs/2311.01113v1 ) ライセンス: Link先を確認 | Gholamreza Ramezan, Manvir Schneider, Mel McCann, | (参考訳) コイン選択アルゴリズムはブロックチェーン技術の基本コンポーネントである。
本稿では、未使用のトランザクション出力(UTXO)ベースのブロックチェーンで使用される既存のコイン選択アルゴリズムについて、包括的なレビューを行う。
所望の目的のリストを提供し、既存のアルゴリズムをプリミティブ、ベーシック、アドバンストの3つのタイプに分類する。
これにより、機能や制限に関する構造化された理解が可能になる。
また,既存のコイン選択アルゴリズムの性能評価を行った。
本研究の目的は,システム研究者や開発者に対して,現在のデザインのランドスケープを具体的に把握することである。
Coin selection algorithms are a fundamental component of blockchain technology. In this paper, we present a comprehensive review of the existing coin selection algorithms utilized in unspent transaction output (UTXO)-based blockchains. We provide a list of the desired objectives and categorize existing algorithms into three types: primitive, basic, and advanced algorithms. This allows for a structured understanding of their functionalities and limitations. We also evaluate the performance of existing coin selection algorithms. The aim of this paper is to provide system researchers and developers with a concrete view of the current design landscape. | 翻訳日:2024-03-25 13:45:54 公開日:2023-11-02 |
# マルチクラウド環境の創発的(In)セキュリティ
Emergent (In)Security of Multi-Cloud Environments ( http://arxiv.org/abs/2311.01247v1 ) ライセンス: Link先を確認 | Morgan Reece, Theodore Lander Jr., Sudip Mittal, Nidhi Rastogi, Josiah Dykstra, Andy Sampson, | (参考訳) 企業がますますクラウドサービスを使ってITインフラストラクチャをホストしているので、これらのクラウドホストサービスとシステム間でデータを共有する必要がある。
大部分のIT組織は、ワークロードをさまざまなクラウドサービスプロバイダに分散させ、マルチクラウド環境を拡大しています。
組織がマルチクラウド環境を成長させると、クラウドシステムやサービスの脅威ベクトルや脆弱性も大きくなる。
攻撃ベクトルの数の増加は、攻撃に対してマルチクラウド環境を最善に防御するために、緩和と対策を優先する方法の課題を生み出します。
複数の業界標準リスク分析ツールを用いて、特定された軽減策と対策の計算と優先順位付けを可能にするマルチクラウド脅威ベクトルの分析を行った。
分析による優先順位付けは、認証とアーキテクチャが脅威ベクトルの最も高いリスク領域であることを示した。
このデータを利用して、ITマネージャは、最も影響力のある緩和と対策を実施するために、より適切にサイバーセキュリティ支出を予算化することができる。
As organizations increasingly use cloud services to host their IT infrastructure, there is a need to share data among these cloud hosted services and systems. A majority of IT organizations have workloads spread across different cloud service providers, growing their multi-cloud environments. When an organization grows their multi-cloud environment, the threat vectors and vulnerabilities for their cloud systems and services grow as well. The increase in the number of attack vectors creates a challenge of how to prioritize mitigations and countermeasures to best defend a multi-cloud environment against attacks. Utilizing multiple industry standard risk analysis tools, we conducted an analysis of multi-cloud threat vectors enabling calculation and prioritization for the identified mitigations and countermeasures. The prioritizations from the analysis showed that authentication and architecture are the highest risk areas of threat vectors. Armed with this data, IT managers are able to more appropriately budget cybersecurity expenditure to implement the most impactful mitigations and countermeasures. | 翻訳日:2024-03-25 13:45:54 公開日:2023-11-02 |
# 重要なインフラにおける無線通信の確保 : 課題と機会
Securing Wireless Communication in Critical Infrastructure: Challenges and Opportunities ( http://arxiv.org/abs/2311.01338v1 ) ライセンス: Link先を確認 | Jörn Bodenhausen, Christian Sorgatz, Thomas Vogt, Kolja Grafflage, Sebastian Rötzel, Michael Rademacher, Martin Henze, | (参考訳) 重要なインフラがあらゆる社会の基盤となっている。
従来は専用のケーブルベースの通信にのみ依存していたが、このインフラは急速に高度にデジタル化され相互接続されたシステムへと変化し、無線通信に依存している。
特に簡単で安価でフレキシブルな多数の資産の相互接続が、より大きな地理的領域に広がるという大きなメリットに加えて、重要なインフラにおける無線通信もまた、ユニークなセキュリティ上の課題を提起している。
最も重要なことは、プライベートな有線ネットワークから、公開および共有ネットワーク上の異種無線通信への移行には、セキュリティ対策が大幅に必要であることだ。
本稿では,有線通信から無線通信への切り替えにおいても,重要なインフラにおける無線通信の利用による最も関連性の高い課題を特定し,重要なインフラのセキュリティ基準を維持するための,包括的かつ有望な機会の集合を特定する。
Critical infrastructure constitutes the foundation of every society. While traditionally solely relying on dedicated cable-based communication, this infrastructure rapidly transforms to highly digitized and interconnected systems which increasingly rely on wireless communication. Besides providing tremendous benefits, especially affording the easy, cheap, and flexible interconnection of a large number of assets spread over larger geographic areas, wireless communication in critical infrastructure also raises unique security challenges. Most importantly, the shift from dedicated private wired networks to heterogeneous wireless communication over public and shared networks requires significantly more involved security measures. In this paper, we identify the most relevant challenges resulting from the use of wireless communication in critical infrastructure and use those to identify a comprehensive set of promising opportunities to preserve the high security standards of critical infrastructure even when switching from wired to wireless communication. | 翻訳日:2024-03-25 13:45:54 公開日:2023-11-02 |
# VFCFinder: セキュリティアドバイザリとパッチをシームレスにペアリングする
VFCFinder: Seamlessly Pairing Security Advisories and Patches ( http://arxiv.org/abs/2311.01532v1 ) ライセンス: Link先を確認 | Trevor Dunlap, Elizabeth Lin, William Enck, Bradley Reaves, | (参考訳) セキュリティアドバイザリ(Security Advisories)は、オープンソースのソフトウェアの脆弱性を発見するための主要な通信チャネルである。
具体的には、脆弱性データベースレポートの63%が、脆弱性修正コミット(VFC)とも呼ばれるパッチリンクを欠いている。
本稿では,自然言語プログラミング言語(NL-PL)モデルを用いて,与えられたセキュリティアドバイザリに対して,上位5位のVFCを生成するツールであるVFCFinderを紹介する。
VFCFinderはトップ5のコミットで正しいVFCを見つけたことで96.6%のリコールを受け、トップ1のコミットでは80.0%のリコールを受ける。
VFCFinderは9つの異なるプログラミング言語に一般化し、Top-1リコールの点で最先端のアプローチを36ポイント上回っている。
実践的なコントリビューションとして、GitHub Security Advisory(GHSA)データベースに300以上の行方不明なVFCをバックフィルするために、VFCFinderを使用しました。
全てのVFCはGHSAデータベースに統合された。
VFCに対するセキュリティアドバイザリの実践的な組み合わせのデモンストレーションに加えて、当社のオープンソース実装では、脆弱性データベースのメンテナがデータ品質を大幅に改善し、ソフトウェアサプライチェーンの確保を支援します。
Security advisories are the primary channel of communication for discovered vulnerabilities in open-source software, but they often lack crucial information. Specifically, 63% of vulnerability database reports are missing their patch links, also referred to as vulnerability fixing commits (VFCs). This paper introduces VFCFinder, a tool that generates the top-five ranked set of VFCs for a given security advisory using Natural Language Programming Language (NL-PL) models. VFCFinder yields a 96.6% recall for finding the correct VFC within the Top-5 commits, and an 80.0% recall for the Top-1 ranked commit. VFCFinder generalizes to nine different programming languages and outperforms state-of-the-art approaches by 36 percentage points in terms of Top-1 recall. As a practical contribution, we used VFCFinder to backfill over 300 missing VFCs in the GitHub Security Advisory (GHSA) database. All of the VFCs were accepted and merged into the GHSA database. In addition to demonstrating a practical pairing of security advisories to VFCs, our general open-source implementation will allow vulnerability database maintainers to drastically improve data quality, supporting efforts to secure the software supply chain. | 翻訳日:2024-03-25 13:45:54 公開日:2023-11-02 |
# 乳癌検診の階層分類システム(HCSBC)-重症度と診断を特徴付けるエンド・ツー・エンドモデル Hierarchical Classification System for Breast Cancer Specimen Report (HCSBC) -- an end-to-end model for characterizing severity and diagnosis ( http://arxiv.org/abs/2312.12442v1 ) ライセンス: Link先を確認 | Thiago Santos, Harish Kamath, Christopher R. McAdams, Mary S. Newell, Marina Mosunjac, Gabriela Oprea-Ilies, Geoffrey Smith, Constance Lehman, Judy Gichoya, Imon Banerjee, Hari Trivedi | (参考訳) がん病理レポートの自動分類は、非構造化レポートから情報を抽出し、各レポートを構造化診断と重症度カテゴリに分類することができる。
これにより, 腫瘍登録の負担を軽減し, 臨床試験の登録を支援するとともに, 真の病理的基盤真理を用いた深層学習モデル開発のための大規模なデータセットを開発することができる。
しかし, 乳腺病理報告の内容は, 内容の言語的多様性が高く, 診断範囲が50以上多様であるため, 分類が困難である。
既存のNLPモデルは、主に乳がんの原発型(例えば、IDC、DCIS、ICC)と腫瘍の特徴の分類器の開発に焦点を当てており、がんサブタイプの稀な診断を無視している。
そこで我々は,トランスフォーマーの文脈保存型NLP手法の可能性を生かした階層型ハイブリットトランスフォーマーベースパイプライン(59ラベル)を開発した。
我々は、EUHデータに基づいてモデルをトレーニングし、2つの外部データセット(MGHとMayo Clinical)でモデルの性能を評価した。
Huggingface Spacesリポジトリの下で、コードとライブアプリケーションを公開しています。 Automated classification of cancer pathology reports can extract information from unstructured reports and categorize each report into structured diagnosis and severity categories. Thus, such system can reduce the burden for populating tumor registries, help registration for clinical trial as well as developing large dataset for deep learning model development using true pathologic ground truth. However, the content of breast pathology reports can be difficult for categorize due to the high linguistic variability in content and wide variety of potential diagnoses >50. Existing NLP models are primarily focused on developing classifier for primary breast cancer types (e.g. IDC, DCIS, ILC) and tumor characteristics, and ignore the rare diagnosis of cancer subtypes. We then developed a hierarchical hybrid transformer-based pipeline (59 labels) - Hierarchical Classification System for Breast Cancer Specimen Report (HCSBC), which utilizes the potential of the transformer context-preserving NLP technique and compared our model to several state of the art ML and DL models. We trained the model on the EUH data and evaluated our model's performance on two external datasets - MGH and Mayo Clinic. We publicly release the code and a live application under Huggingface spaces repository | 翻訳日:2024-01-15 13:12:05 公開日:2023-11-02 |
# ソーシャルグッズのためのデータサイエンス Data Science for Social Good ( http://arxiv.org/abs/2311.14683v1 ) ライセンス: Link先を確認 | Ahmed Abbasi and Roger H. L. Chiang and Jennifer J. Xu | (参考訳) データサイエンスは科学的発見の4番目のパラダイムとして説明されてきた。
機械学習と人工知能(ai)に関する最新のデータサイエンス研究の波は、指数関数的に成長し、毎年何百万もの引用を集めている。
しかし、この成長は社会的善の課題に重点が置かれている。分析の結果、社会善に焦点を当てたデータサイエンス研究の割合はかつてないほど低いことが判明した。
同時に、機械学習と生成AIの普及が、人間の繁栄、組織、社会のためのデータサイエンスに関連する社会技術的展望と課題に関する議論を引き起こしている。
この背景に対して,我々は,関連するデータサイエンス研究ジャンル,社会善の課題,社会技術的抽象化の異なるレベル間の相互作用を検討するdssg(data science for social good)研究の枠組みを提案する。
我々は,情報システム(および他の関連分野)におけるDSSGの作業の質を実証的に示すために文献の分析を行い,現在の障害を強調する。
次に,提案するフレームワークを用いて,特集記事の紹介を行う。
この記事と特集が今後のdssg研究に拍車を掛け、過去30年以上にわたるデータサイエンス研究の不安なトレンドを和らげることに役立てることを願っている。 Data science has been described as the fourth paradigm for scientific discovery. The latest wave of data science research, pertaining to machine learning and artificial intelligence (AI), is growing exponentially and garnering millions of annual citations. However, this growth has been accompanied by a diminishing emphasis on social good challenges - our analysis reveals that the proportion of data science research focusing on social good is less than it has ever been. At the same time, the proliferation of machine learning and generative AI have sparked debates about the socio-technical prospects and challenges associated with data science for human flourishing, organizations, and society. Against this backdrop, we present a framework for "data science for social good" (DSSG) research that considers the interplay between relevant data science research genres, social good challenges, and different levels of socio-technical abstraction. We perform an analysis of the literature to empirically demonstrate the paucity of work on DSSG in information systems (and other related disciplines) and highlight current impediments. We then use our proposed framework to introduce the articles appearing in the special issue. We hope that this article and the special issue will spur future DSSG research and help reverse the alarming trend across data science research over the past 30-plus years in which social good challenges are garnering proportionately less attention with each passing day. | 翻訳日:2023-12-03 14:05:24 公開日:2023-11-02 |
# 差分プライバシーにおける特異な非対称感性 Instance-Specific Asymmetric Sensitivity in Differential Privacy ( http://arxiv.org/abs/2311.14681v1 ) ライセンス: Link先を確認 | David Durfee | (参考訳) 基礎となるデータセットの硬度に適合する一般関数の差分プライベート推定のための新しいアルゴリズムフレームワークを提案する。
提案手法は, 指数関数的メカニズムによる出力選択のパラダイムを, 逆感度機構と呼ばれる, 基礎となるデータセットの近接度に基づいて構築するものである。
我々のフレームワークは、近接度メートル法をわずかに修正し、スパースベクトル技法の単純かつ効率的な応用を提供する。
逆感度機構はインスタンス最適であることが示されているが、最も可能性の高い結果が基礎となるデータと一致するような偏りのないメカニズムのクラスにのみ関係していた。
私たちはこの仮定を破って、バイアス分散トレードオフをより自然にナビゲートできるようにしています。
このトレードオフを考慮すると、基礎となるデータセットの距離が非対称である場合に、我々の技術が特に有効であることを示す強い直観と実証的な検証を提供する。
この非対称性は、分散などの基本的な統計や、分類と回帰タスクの両方で一般的に使用される機械学習のパフォーマンス指標など、さまざまな重要な問題に固有のものだ。
これらの問題に対してo(n)$の時間で効率的にメソッドをインスタンス化し,その手法が微分プライベート推定を大幅に改善することを示す。 We provide a new algorithmic framework for differentially private estimation of general functions that adapts to the hardness of the underlying dataset. We build upon previous work that gives a paradigm for selecting an output through the exponential mechanism based upon closeness of the inverse to the underlying dataset, termed the inverse sensitivity mechanism. Our framework will slightly modify the closeness metric and instead give a simple and efficient application of the sparse vector technique. While the inverse sensitivity mechanism was shown to be instance optimal, it was only with respect to a class of unbiased mechanisms such that the most likely outcome matches the underlying data. We break this assumption in order to more naturally navigate the bias-variance tradeoff, which will also critically allow for extending our method to unbounded data. In consideration of this tradeoff, we provide strong intuition and empirical validation that our technique will be particularly effective when the distances to the underlying dataset are asymmetric. This asymmetry is inherent to a range of important problems including fundamental statistics such as variance, as well as commonly used machine learning performance metrics for both classification and regression tasks. We efficiently instantiate our method in $O(n)$ time for these problems and empirically show that our techniques will give substantially improved differentially private estimations. | 翻訳日:2023-12-03 14:05:01 公開日:2023-11-02 |
# ユーティリティカーネルとデータ駆動パラメータを用いたRNA疑似ウリジンサイト予測モデル A novel RNA pseudouridine site prediction model using Utility Kernel and data-driven parameters ( http://arxiv.org/abs/2311.16132v1 ) ライセンス: Link先を確認 | Sourabh Patil, Archana Mathur, Raviprasad Aduri, Snehanshu Saha | (参考訳) RNAタンパク質相互作用(RPI)は生物学的システムにおいて重要な役割を果たす。
近年,RPIを残基レベルで列挙し,これらの相互作用における最小構造単位(MSU)を5つの残基(ヌクレオチド/アミノ酸)のストレッチとして解明している。
PseudouridineはRNAの最も頻繁に起こる修飾である。
ウリジンの擬ウリジンへの変換には、擬ウリジン合成酵素とRNAの相互作用が含まれる。
与えられたRNA配列における疑似ウリジン部位を予測する既存のモデルは、主にRNA配列のモノおよびジヌクレオチド合成/プロビエンスのようなユーザー定義の特徴に依存する。
疑似ウリジン部位の予測は、限られたデータ点を持つ非線形分類問題である。
ディープラーニングモデルは、データセットのサイズが適度に大きい場合の効率的な判別者であり、大量のデータがある場合(<1000$サンプル)に失敗する。
この問題を軽減するため,経済のユーティリティ理論に基づく支援ベクトルマシン(SVM)カーネルを提案し,データ駆動パラメータ(MSU)を特徴として用いた。
そこで我々は, 位置特異的なtri/quad/pentanucleotide composition/propensity (pspc/pspp) を用いた。
SVMは小さなデータ構造でうまく機能することが知られており、SVMのカーネルは非線形データを分類するために設計されている。
提案モデルでは,既存の最先端モデル(平均10%~15%)を著しく上回る性能を示した。 RNA protein Interactions (RPIs) play an important role in biological systems. Recently, we have enumerated the RPIs at the residue level and have elucidated the minimum structural unit (MSU) in these interactions to be a stretch of five residues (Nucleotides/amino acids). Pseudouridine is the most frequent modification in RNA. The conversion of uridine to pseudouridine involves interactions between pseudouridine synthase and RNA. The existing models to predict the pseudouridine sites in a given RNA sequence mainly depend on user-defined features such as mono and dinucleotide composition/propensities of RNA sequences. Predicting pseudouridine sites is a non-linear classification problem with limited data points. Deep Learning models are efficient discriminators when the data set size is reasonably large and fail when there is a paucity of data ($<1000$ samples). To mitigate this problem, we propose a Support Vector Machine (SVM) Kernel based on utility theory from Economics, and using data-driven parameters (i.e. MSU) as features. For this purpose, we have used position-specific tri/quad/pentanucleotide composition/propensity (PSPC/PSPP) besides nucleotide and dineculeotide composition as features. SVMs are known to work well in small data regimes and kernels in SVM are designed to classify non-linear data. The proposed model outperforms the existing state-of-the-art models significantly (10%-15% on average). | 翻訳日:2023-12-03 13:30:56 公開日:2023-11-02 |
# ProAgent: ロボットプロセス自動化からエージェントプロセス自動化へ ProAgent: From Robotic Process Automation to Agentic Process Automation ( http://arxiv.org/abs/2311.10751v1 ) ライセンス: Link先を確認 | Yining Ye, Xin Cong, Shizuo Tian, Jiannan Cao, Hao Wang, Yujia Qin, Yaxi Lu, Heyang Yu, Huadong Wang, Yankai Lin, Zhiyuan Liu, Maosong Sun | (参考訳) 古代の水車からロボットプロセス自動化(RPA)まで、自動化技術は歴史を通じて進化し、人間を困難な仕事から解放してきた。
しかし、RPAは人間のような知性を必要とするタスク、特にワークフロー構築の精巧な設計とワークフロー実行における動的意思決定に苦慮している。
大規模言語モデル (LLM) が人間のような知性を持つようになったため, 建設・実行に関連するエージェントに人的労働力をオフロードすることで, LLMをベースとしたエージェントによる高度な自動化のための基盤的自動化パラダイムである Agentic Process Automation (APA) を導入する。
そして、人間の指示からワークフローを作り、特殊エージェントを調整することで複雑な決定を下すように設計されたLLMベースのエージェントであるProAgentをインスタンス化する。
ワークフローの構築と実行手順を詳細に説明し、APAの実現可能性を示し、エージェントによって駆動される新しい自動化パラダイムの可能性を明らかにする実証実験を行った。
私たちのコードはhttps://github.com/openbmb/proagent.comで公開しています。 From ancient water wheels to robotic process automation (RPA), automation technology has evolved throughout history to liberate human beings from arduous tasks. Yet, RPA struggles with tasks needing human-like intelligence, especially in elaborate design of workflow construction and dynamic decision-making in workflow execution. As Large Language Models (LLMs) have emerged human-like intelligence, this paper introduces Agentic Process Automation (APA), a groundbreaking automation paradigm using LLM-based agents for advanced automation by offloading the human labor to agents associated with construction and execution. We then instantiate ProAgent, an LLM-based agent designed to craft workflows from human instructions and make intricate decisions by coordinating specialized agents. Empirical experiments are conducted to detail its construction and execution procedure of workflow, showcasing the feasibility of APA, unveiling the possibility of a new paradigm of automation driven by agents. Our code is public at https://github.com/OpenBMB/ProAgent. | 翻訳日:2023-11-27 00:46:10 公開日:2023-11-02 |
# スケールインストラクションを改善するための5つの説明責任の移動の測定 Measuring Five Accountable Talk Moves to Improve Instruction at Scale ( http://arxiv.org/abs/2311.10749v1 ) ライセンス: Link先を確認 | Ashlee Kupor, Candice Morgan, and Dorottya Demszky | (参考訳) 教師に一貫した個別のフィードバックを提供することで、生徒の学習結果を改善することができる。
このようなフィードバックは、オンラインプラットフォームで教鞭を執り、教職訓練に制限のある初心者のインストラクターに特に役立つ。
拡張性のある指導尺度を構築するために、RoBERTaとGPTモデルを微調整し、説明可能な会話理論に触発された5つの指導的講演の動きを識別する。
オンラインコンピュータサイエンスコース『Code in Place』において,小グループ指導の書き起こしから得られた2500のインストラクター発話の注釈付きデータセット上で,これらのモデルを微調整する。
GPT-3はRoBERTaよりも精度が高いが,リコールは著しく異なる。
我々は,各講演の指導者による使用状況と,学生の部会出席率,部会評価,課題完了率など,学生のエンゲージメントと満足感の指標とを関連づける。
講演の動きは、一般的に学生の成果と正の相関関係があり、学生のアイデアを結びつけることは、最もポジティブな影響を与える。
これらの結果は、説明可能な講演の動きの有効性に関する過去の研究と、これらのモデルを使用してインストラクターに有用でスケーラブルなフィードバックを提供するためのエキサイティングな道を提供するものである。 Providing consistent, individualized feedback to teachers on their instruction can improve student learning outcomes. Such feedback can especially benefit novice instructors who teach on online platforms and have limited access to instructional training. To build scalable measures of instruction, we fine-tune RoBERTa and GPT models to identify five instructional talk moves inspired by accountable talk theory: adding on, connecting, eliciting, probing and revoicing students' ideas. We fine-tune these models on a newly annotated dataset of 2500 instructor utterances derived from transcripts of small group instruction in an online computer science course, Code in Place. Although we find that GPT-3 consistently outperforms RoBERTa in terms of precision, its recall varies significantly. We correlate the instructors' use of each talk move with indicators of student engagement and satisfaction, including students' section attendance, section ratings, and assignment completion rates. We find that using talk moves generally correlates positively with student outcomes, and connecting student ideas has the largest positive impact. These results corroborate previous research on the effectiveness of accountable talk moves and provide exciting avenues for using these models to provide instructors with useful, scalable feedback. | 翻訳日:2023-11-27 00:45:45 公開日:2023-11-02 |
# ビデオ質問応答のためのモジュールブレンド注意ネットワーク Modular Blended Attention Network for Video Question Answering ( http://arxiv.org/abs/2311.12866v1 ) ライセンス: Link先を確認 | Mingjie Zhou | (参考訳) マルチモーダル機械学習タスクでは、ネットワーク構造が多くの場合、洗練された方法で組み立てられるという割り当ての複雑さが原因である。
全体的アーキテクチャは、モジュールが達成するために考案された各端に従って、いくつかの論理的部分に分けられる。
情報表現のモダリティの数が増えるにつれて、異なる情報種の融合を媒介しながらデータを分散したモダリティからデータを処理するアドホックサブネットワークの構築が困難で高価な問題となっている。
本稿では, 再利用可能な, 構成可能なニューラルユニットを用いて, 繰り返しあるいは並列にユニットを接続することで, マルチモーダル機械学習タスクを構成する頑健なネットワークを, より簡単な方法で実現することを提案する。
さらに、ユニット間のパラメータ共有(重み付けレプリケーション)により、空間の複雑さが大幅に低減される。
提案手法は,複数のビデオQAベースラインと比較して,優れた性能を発揮する。 In multimodal machine learning tasks, it is due to the complexity of the assignments that the network structure, in most cases, is assembled in a sophisticated way. The holistic architecture can be separated into several logical parts according to the respective ends that the modules are devised to achieve. As the number of modalities of information representation increases, constructing ad hoc subnetworks for processing the data from divergent modalities while mediating the fusion of different information types has become a cumbersome and expensive problem. In this paper, we present an approach to facilitate the question with a reusable and composable neural unit; by connecting the units in series or parallel, the arduous network constructing of multimodal machine learning tasks will be accomplished in a much straightforward way. Additionally, through parameter sharing (weights replication) among the units, the space complexity will be significantly reduced. We have conducted experiments on three commonly used datasets; our method achieves impressive performance compared to several video QA baselines. | 翻訳日:2023-11-27 00:22:16 公開日:2023-11-02 |
# 機械学習におけるECG信号処理のベストプラクティスを探る Exploring Best Practices for ECG Signal Processing in Machine Learning ( http://arxiv.org/abs/2311.04229v1 ) ライセンス: Link先を確認 | Amir Salimi, Sunil Vasu Kalmady, Abram Hindle, Osmar Zaiane, Padma Kaul | (参考訳) 本研究は心電図(ECG)信号の事前処理におけるベストプラクティスを探り,心臓疾患診断のためのより良い分類器の訓練を行う。
最先端の機械学習アルゴリズムは、心電図データを用いた心臓状態の分類において顕著な成果を上げているが、前処理のベストプラクティスには合意がないようだ。
異なる条件とアーキテクチャによるコンセンサス不足は、最適なパフォーマンスのために異なる処理ステップを必要とするか?
ディープラーニングモデルの現状が事前処理を不要にした可能性はあるのか?
本研究では,マルチラベル心電図データセットにダウンサンプリング,正規化,フィルタリング機能を適用し,その効果を3種類の高パフォーマンス時系列分類器に適用した。
サンプリングレートを50Hz以下にすると、一般的に使用される500Hzに匹敵する結果が得られる。
サンプリングレートが小さいとデータセットやモデルが小さくなり、トレーニングに要する時間とリソースが削減されるため、これは重要なことです。
さらに,min-max正規化は全体としてはやや不利であり,帯域通過は測定可能な差を生じないことがわかった。
マルチラベル分類のためのECGの事前処理に対する盲目的アプローチは,計算資源を確実に削減するサンプルレートの削減を除いて有効ではないが,精度は向上しない。 In this work we search for best practices in pre-processing of Electrocardiogram (ECG) signals in order to train better classifiers for the diagnosis of heart conditions. State of the art machine learning algorithms have achieved remarkable results in classification of some heart conditions using ECG data, yet there appears to be no consensus on pre-processing best practices. Is this lack of consensus due to different conditions and architectures requiring different processing steps for optimal performance? Is it possible that state of the art deep-learning models have rendered pre-processing unnecessary? In this work we apply down-sampling, normalization, and filtering functions to 3 different multi-label ECG datasets and measure their effects on 3 different high-performing time-series classifiers. We find that sampling rates as low as 50Hz can yield comparable results to the commonly used 500Hz. This is significant as smaller sampling rates will result in smaller datasets and models, which require less time and resources to train. Additionally, despite their common usage, we found min-max normalization to be slightly detrimental overall, and band-passing to make no measurable difference. We found the blind approach to pre-processing of ECGs for multi-label classification to be ineffective, with the exception of sample rate reduction which reliably reduces computational resources, but does not increase accuracy. | 翻訳日:2023-11-12 19:35:21 公開日:2023-11-02 |
# ECG分類におけるトポロジ的特徴抽出のためのグラフニューラルネットワーク Graph Neural Networks for Topological Feature Extraction in ECG Classification ( http://arxiv.org/abs/2311.04228v1 ) ライセンス: Link先を確認 | Kamyar Zeinalipour, Marco Gori | (参考訳) 心電図 (ECG) は、心血管系の機能を評価するための信頼性の高い装置である。
最近、ECGの正確な分類に重点が置かれている。
ECGの状況は多くの類似点があるが、グラフニューラルネットワークを用いてECGを分類するのにはほとんど注意が払われている。
本研究では,深部グラフニューラルネットワークを用いて心電図信号を正確に分類する3つの異なる手法を提案する。
異なる手法を用いてecg信号から位相的特徴を抽出し、グラフ同型ネットワークと呼ばれるグラフニューラルネットワークの分岐を用いてecgを分類する方法を提案する。
PTB診断データセットを用いて,提案手法の検証を行った。
その結果, 99.38, 98.76, 91.93%の精度で不整脈分類を予測できることがわかった。 The electrocardiogram (ECG) is a dependable instrument for assessing the function of the cardiovascular system. There has recently been much emphasis on precisely classifying ECGs. While ECG situations have numerous similarities, little attention has been paid to categorizing ECGs using graph neural networks. In this study, we offer three distinct techniques for classifying heartbeats using deep graph neural networks to classify the ECG signals accurately. We suggest using different methods to extract topological features from the ECG signal and then using a branch of the graph neural network named graph isomorphism network for classifying the ECGs. On the PTB Diagnostics data set, we tested the three proposed techniques. According to the findings, the three proposed techniques are capable of making arrhythmia classification predictions with the accuracy of 99.38, 98.76, and 91.93 percent, respectively. | 翻訳日:2023-11-12 19:35:00 公開日:2023-11-02 |
# 推薦空間における共同創設者の因果構造表現学習 Causal Structure Representation Learning of Confounders in Latent Space for Recommendation ( http://arxiv.org/abs/2311.03382v1 ) ライセンス: Link先を確認 | Hangtong Xu and Yuanbo Xu and Yongjian Yang | (参考訳) ユーザの過去のフィードバックからユーザの好みを推測することは,レコメンデーションシステムにおいて重要な問題である。
従来のアプローチでは、フィードバックデータのユーザの好みは、追加のノイズのない実際のユーザの好みと等価であると仮定することが多いため、問題モデリングが単純化される。
しかし、天気やレコメンデーションシステムなど、ユーザとイテムのインタラクションの間には、さまざまな共同創設者がいる。
したがって、共同創設者の影響を無視すると、モデルのユーザの嗜好や準最適性能が不正確になる。
さらに、共同創設者の不可観測性は、問題をさらに解決する上での課題である。
これらの問題に対処するため,我々は問題を洗練し,より合理的な解決法を提案する。
具体的には、共同創設者の影響を考慮し、潜伏空間におけるユーザー嗜好から切り離し、因果グラフを用いて特定のラベルなしで相互依存性をモデル化する。
ローカルグラフとグローバル因果グラフを巧みに組み合わせることで、共同設立者のユーザ固有性をユーザの好みに基づいて捉える。
理論上,得られた因果グラフの識別可能性を示す。
最後に,共起者の因果構造表現学習(causal structure representation learning of confounders in latent space, csc)という,変分オートエンコーダに基づくモデルを提案する。
我々は,1つの合成データセットと5つの実世界のデータセットについて広範な実験を行い,モデルの優越性を示した。
さらに,共同設立者の学習因果表現は制御可能であり,学習因果グラフを用いて推薦リストの目的を詳細に制御できる可能性が示唆された。 Inferring user preferences from the historical feedback of users is a valuable problem in recommender systems. Conventional approaches often rely on the assumption that user preferences in the feedback data are equivalent to the real user preferences without additional noise, which simplifies the problem modeling. However, there are various confounders during user-item interactions, such as weather and even the recommendation system itself. Therefore, neglecting the influence of confounders will result in inaccurate user preferences and suboptimal performance of the model. Furthermore, the unobservability of confounders poses a challenge in further addressing the problem. To address these issues, we refine the problem and propose a more rational solution. Specifically, we consider the influence of confounders, disentangle them from user preferences in the latent space, and employ causal graphs to model their interdependencies without specific labels. By cleverly combining local and global causal graphs, we capture the user-specificity of confounders on user preferences. We theoretically demonstrate the identifiability of the obtained causal graph. Finally, we propose our model based on Variational Autoencoders, named Causal Structure representation learning of Confounders in latent space (CSC). We conducted extensive experiments on one synthetic dataset and five real-world datasets, demonstrating the superiority of our model. Furthermore, we demonstrate that the learned causal representations of confounders are controllable, potentially offering users fine-grained control over the objectives of their recommendation lists with the learned causal graphs. | 翻訳日:2023-11-12 19:33:52 公開日:2023-11-02 |
# 潜在共同創設者の分離と学習によるユーザの選好モデリングの強化 Separating and Learning Latent Confounders to Enhancing User Preferences Modeling ( http://arxiv.org/abs/2311.03381v1 ) ライセンス: Link先を確認 | Hangtong Xu and Yuanbo Xu and Yongjian Yang | (参考訳) Recommenderモデルは、過去のフィードバックからユーザの好みを捉え、候補アイテムに対してユーザ固有のフィードバックを予測することを目的としている。
しかし、様々な未測定の共同創設者の存在は、過去のフィードバックにおけるユーザの好みと真の好みの間に偏りを生じさせ、モデルが期待された性能を満たさない結果となる。
既存のデバイアスモデルでは,(1)特定のバイアスの解決に特化しているか,(2)学習した好みが真のユーザの好みであるか,あるいは計測されていない共同創設者と混在しているかを判断できない,ユーザの履歴フィードバックから直接補助情報を取得する。
また, 前者の推薦システムは, 未測定の共同設立者の後継者であるだけでなく, 従来から無視されてきた, ユーザの嗜好モデリングに影響を及ぼす非測定の共同設立者としての役割も担っていることがわかった。
この目的のために、前者の推薦システムの効果を取り入れ、未測定の共同設立者全員の代理として扱う。
提案手法は,ユーザの選好や不測の共起者を否定することで,反事実フィードバックを識別するために,未測定の共起者の表現を得るとともに,ユーザの真の選好を捉えるためにターゲットモデルをガイドするものである。
5つの実世界のデータセットにおける広範囲な実験は、この方法の利点を検証する。 Recommender models aim to capture user preferences from historical feedback and then predict user-specific feedback on candidate items. However, the presence of various unmeasured confounders causes deviations between the user preferences in the historical feedback and the true preferences, resulting in models not meeting their expected performance. Existing debias models either (1) specific to solving one particular bias or (2) directly obtain auxiliary information from user historical feedback, which cannot identify whether the learned preferences are true user preferences or mixed with unmeasured confounders. Moreover, we find that the former recommender system is not only a successor to unmeasured confounders but also acts as an unmeasured confounder affecting user preference modeling, which has always been neglected in previous studies. To this end, we incorporate the effect of the former recommender system and treat it as a proxy for all unmeasured confounders. We propose a novel framework, \textbf{S}eparating and \textbf{L}earning Latent Confounders \textbf{F}or \textbf{R}ecommendation (\textbf{SLFR}), which obtains the representation of unmeasured confounders to identify the counterfactual feedback by disentangling user preferences and unmeasured confounders, then guides the target model to capture the true preferences of users. Extensive experiments in five real-world datasets validate the advantages of our method. | 翻訳日:2023-11-12 19:33:29 公開日:2023-11-02 |
# 変分オートエンコーダの潜在空間から新しいブリッジ型を生成する試み An attempt to generate new bridge types from latent space of variational autoencoder ( http://arxiv.org/abs/2311.03380v1 ) ライセンス: Link先を確認 | Hongjun Zhang | (参考訳) 生成人工知能技術を用いた新しいブリッジタイプの作成。
3dsMaxアニメーションソフトウェアを用いて橋梁ファサードのグレースケール画像をレンダリングし,OpenCVモジュールが適切な幾何変換(回転,水平スケール,垂直スケール)を行い,3本の梁橋,アーチブリッジ,ケーブルステイドブリッジ,サスペンションブリッジの画像データセットを得た。
Pythonプログラミング言語、TensorFlow、Kerasのディープラーニングプラットフォームフレームワークに基づいて、可変オートエンコーダを構築し、訓練し、ベクトル演算に便利な低次元ブリッジ型潜在空間を得た。
変分オートエンコーダは、人間のオリジナルに基づいて2つのブリッジタイプを新しいブリッジタイプに結合することができる。
生成型人工知能技術は橋梁型イノベーションの橋梁設計を支援し、コピロットとして使用できる。 Try to generate new bridge types using generative artificial intelligence technology. The grayscale images of the bridge facade with the change of component width was rendered by 3dsMax animation software, and then the OpenCV module performed an appropriate amount of geometric transformation (rotation, horizontal scale, vertical scale) to obtain the image dataset of three-span beam bridge, arch bridge, cable-stayed bridge and suspension bridge. Based on Python programming language, TensorFlow and Keras deep learning platform framework, variational autoencoder was constructed and trained, and low-dimensional bridge-type latent space that is convenient for vector operations was obtained. Variational autoencoder can combine two bridge types on the basis of the original of human into one that is a new bridge type. Generative artificial intelligence technology can assist bridge designers in bridge-type innovation, and can be used as copilot. | 翻訳日:2023-11-12 19:33:01 公開日:2023-11-02 |
# 人のフィードバックからの強化学習における選好合意の影響:要約を事例として The Impact of Preference Agreement in Reinforcement Learning from Human Feedback: A Case Study in Summarization ( http://arxiv.org/abs/2311.04919v1 ) ライセンス: Link先を確認 | Sian Gooding and Hassan Mansoor | (参考訳) RLHF(Reinforcement Learning from Human Feedback)は、テキスト生成品質の複雑でニュアンスな特性を捉えるために用いられる。
その結果,テキスト要約作業は,このプロセスの優れた候補として認識されている。
本稿では,RLHFの優先合意が要約効果に与える影響について検討する。
その結果,人間の好みをサンプリングすることで,(1)高い精度の報酬モデルが得られ,(2)取得した品質の特性が変化することがわかった。
さらに,様々な選好合意で訓練された報酬モデルを使用する場合の下流世代の改善を示す。
コントリビューションは、合成データセットの設計と、比較に基づくデータの品質差を考慮することの重要性に影響を及ぼす。 Reinforcement Learning from Human Feedback (RLHF) can be used to capture complex and nuanced properties of text generation quality. As a result, the task of text summarization has been identified as a good candidate for this process. In this paper, we explore how preference agreement impacts the efficacy of RLHF for summarization. We show that sampling human preferences to include a range of annotator agreement results in (1) higher accuracy reward models and (2) alters the characteristics of quality captured. We additionally show improvements in downstream generation when using a reward model trained with a range of preference agreements. Our contributions have implications for the design of synthetic datasets as well as the importance of considering quality differentials in comparison-based data. | 翻訳日:2023-11-12 19:19:52 公開日:2023-11-02 |
# 低リソース名前付きエンティティ認識: AUCの最大化は有効か? Low-Resource Named Entity Recognition: Can One-vs-All AUC Maximization Help? ( http://arxiv.org/abs/2311.04918v1 ) ライセンス: Link先を確認 | Ngoc Dang Nguyen, Wei Tan, Lan Du, Wray Buntine, Richard Beare, Changyou Chen | (参考訳) 名前付きエンティティ認識(NER)は、個人や組織などの名前付きエンティティをテキストから識別し分類するタスクであり、伝統的に複数のクラスに分類される。
しかし、このアプローチは、特にバイオメディカルNER(bioNER)のような特定のNERコンテキストで一般的な低リソース設定において、不均衡なラベル分布の問題を見落としていることが多い。
これらの問題に対処するために,単元vs-all(ova)学習問題としての多クラス問題の革新的再構成を提案し,受信者の動作特性曲線(auc)の下の領域に基づく損失関数を導入する。
OVAに基づくアプローチの効率を高めるために,類似した言語特性を持つグループラベルとメタラーニングを用いた2つのトレーニング戦略を提案する。
提案手法の優位性は,NER設定の異なる従来のNER学習を上回る性能で確認される。 Named entity recognition (NER), a task that identifies and categorizes named entities such as persons or organizations from text, is traditionally framed as a multi-class classification problem. However, this approach often overlooks the issues of imbalanced label distributions, particularly in low-resource settings, which is common in certain NER contexts, like biomedical NER (bioNER). To address these issues, we propose an innovative reformulation of the multi-class problem as a one-vs-all (OVA) learning problem and introduce a loss function based on the area under the receiver operating characteristic curve (AUC). To enhance the efficiency of our OVA-based approach, we propose two training strategies: one groups labels with similar linguistic characteristics, and another employs meta-learning. The superiority of our approach is confirmed by its performance, which surpasses traditional NER learning in varying NER settings. | 翻訳日:2023-11-12 19:19:39 公開日:2023-11-02 |
# フェイクニュース検出を大規模言語モデル時代に適用する Adapting Fake News Detection to the Era of Large Language Models ( http://arxiv.org/abs/2311.04917v1 ) ライセンス: Link先を確認 | Jinyan Su, Claire Cardie, Preslav Nakov | (参考訳) 大規模言語モデル(LLM)の時代とAIによるコンテンツ制作の普及により、情報の普及の展望はパラダイムシフトを目の当たりにした。
人間による記事と機械によるニュースと偽ニュースの両方の拡散により、ニュース記事の正確さを堅牢かつ効果的に識別することは、複雑な課題となっている。
重大な研究は偽ニュースの検出に向けられているが、これは全てのニュース記事が人間によって書かれたと仮定するか、突然、すべての機械生成ニュースが偽ニュースであると仮定する。
したがって、機械による(言い換えられた)リアルニュース、機械生成のフェイクニュース、人書きのフェイクニュース、人間書きのリアルニュースとの相互作用を理解する上で、大きなギャップが存在する。
本稿では,様々なシナリオで訓練された偽ニュース検出器の包括的評価を行い,このギャップについて検討する。
LLMの時代に偽ニュース検出器をどのように適応させるか?
我々の実験では、人書き記事のみに特化して訓練された検知器が、機械が生成した偽ニュースを検出することができる興味深いパターンを明らかにしました。
さらに、機械生成テキストに対する検出器のバイアスが原因で、テストセットよりも機械生成ニュース比が低いデータセットでトレーニングすべきである。
本研究の成果に基づき,堅牢な偽ニュース検知装置の開発のための実践的戦略を提供する。 In the age of large language models (LLMs) and the widespread adoption of AI-driven content creation, the landscape of information dissemination has witnessed a paradigm shift. With the proliferation of both human-written and machine-generated real and fake news, robustly and effectively discerning the veracity of news articles has become an intricate challenge. While substantial research has been dedicated to fake news detection, this either assumes that all news articles are human-written or abruptly assumes that all machine-generated news are fake. Thus, a significant gap exists in understanding the interplay between machine-(paraphrased) real news, machine-generated fake news, human-written fake news, and human-written real news. In this paper, we study this gap by conducting a comprehensive evaluation of fake news detectors trained in various scenarios. Our primary objectives revolve around the following pivotal question: How to adapt fake news detectors to the era of LLMs? Our experiments reveal an interesting pattern that detectors trained exclusively on human-written articles can indeed perform well at detecting machine-generated fake news, but not vice versa. Moreover, due to the bias of detectors against machine-generated texts \cite{su2023fake}, they should be trained on datasets with a lower machine-generated news ratio than the test set. Building on our findings, we provide a practical strategy for the development of robust fake news detectors. | 翻訳日:2023-11-12 19:19:22 公開日:2023-11-02 |
# グラフニューラルネットワークによるイスラム教に対するヘイトスピーチの特定 Explainable Identification of Hate Speech towards Islam using Graph Neural Networks ( http://arxiv.org/abs/2311.04916v1 ) ライセンス: Link先を確認 | Azmine Toushik Wasi | (参考訳) islamophobic languageは、オンラインソーシャルインタラクションプラットフォームにおける一般的な課題である。
このような憎しみの特定と排除は、調和と平和の未来への重要な一歩である。
本研究では,グラフニューラルネットワークを用いて,イスラム教に対するヘイトスピーチを識別し,説明するための新しいパラダイムを提案する。
グラフニューラルネットワークの本質的な能力を利用して、異なるデータポイント間の関係を探索、抽出、使用することにより、我々のモデルは、基礎となる相関関係と因果関係の説明を提供しながら、一貫して優れた性能を達成する。 Islamophobic language is a prevalent challenge on online social interaction platforms. Identifying and eliminating such hatred is a crucial step towards a future of harmony and peace. This study presents a novel paradigm for identifying and explaining hate speech towards Islam using graph neural networks. Utilizing the intrinsic ability of graph neural networks to find, extract, and use relationships across disparate data points, our model consistently achieves outstanding performance while offering explanations for the underlying correlations and causation. | 翻訳日:2023-11-12 19:18:55 公開日:2023-11-02 |
# 共感の連鎖--精神療法モデルに基づく大規模言語モデルの共感応答の増強 Chain of Empathy: Enhancing Empathetic Response of Large Language Models Based on Psychotherapy Models ( http://arxiv.org/abs/2311.04915v1 ) ライセンス: Link先を確認 | Yoon Kyung Lee, Inju Lee, Minjung Shin, Seoyeon Bae, Sowon Hahn | (参考訳) 本稿では,心理療法の知見を活かして,大規模言語モデル(LLM)を誘導し,人間の感情状態を理解する新しい方法である共感の連鎖(CoE)を提案する。
この方法は、認知行動療法(CBT)、弁証的行動療法(DBT)、人中心療法(PCT)、現実療法(RT)といった様々な心理療法のアプローチにインスパイアされ、それぞれがクライアントの精神状態を解釈する様々なパターンへと導かれる。
推論のないLLMは、主に探索的な応答を生み出した。
しかし, LLMがCoE推論を用いた場合, それぞれの心理療法モデルの異なる推論パターンに合わせた, より包括的な共感反応が認められた。
CBTをベースとしたCoEは最もバランスの取れた共感反応を生み出した。
この調査結果は、感情的文脈を理解することの重要性と、それが人間とAIコミュニケーションにどのように影響するかを強調している。
我々の研究は、精神療法モデルをLLMに組み込む方法の理解に寄与し、文脈固有の、より安全で共感的なAIの開発を促進する。 We present a novel method, the Chain of Empathy (CoE) prompting, that utilizes insights from psychotherapy to induce Large Language Models (LLMs) to reason about human emotional states. This method is inspired by various psychotherapy approaches including Cognitive Behavioral Therapy (CBT), Dialectical Behavior Therapy (DBT), Person Centered Therapy (PCT), and Reality Therapy (RT), each leading to different patterns of interpreting clients' mental states. LLMs without reasoning generated predominantly exploratory responses. However, when LLMs used CoE reasoning, we found a more comprehensive range of empathetic responses aligned with the different reasoning patterns of each psychotherapy model. The CBT based CoE resulted in the most balanced generation of empathetic responses. The findings underscore the importance of understanding the emotional context and how it affects human and AI communication. Our research contributes to understanding how psychotherapeutic models can be incorporated into LLMs, facilitating the development of context-specific, safer, and empathetic AI. | 翻訳日:2023-11-12 19:18:45 公開日:2023-11-02 |
# BERTは盲目か?
視覚・言語事前学習が視覚言語理解に及ぼす影響の検討 Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining on Visual Language Understanding ( http://arxiv.org/abs/2303.12513v2 ) ライセンス: Link先を確認 | Morris Alper, Michael Fiman, Hadar Averbuch-Elor | (参考訳) ほとんどの人間は視覚的な想像力を使って言語を理解し、推論するが、bert reasonのようなモデルは、テキストのみの事前学習中に獲得した知識を使って言語について考える。
本研究では,視覚的・言語的事前学習が,暗黙的な視覚的推論を伴うテキストのみのタスクの性能を向上させるかどうかを検討する。
本稿では,テキストエンコーダモデルの視覚的推論能力を検証するための視覚的言語理解(VLU)タスクと,比較のための視覚的自然言語理解(NLU)タスクを提案する。
また,テキストのみのタスクにクリップなどのモデルを適用するための,bertなどのモデルのマスキング言語モデルヘッドのような予測ヘッドを必要とせずに,新たなゼロショット知識探索手法であるstroop probingを提案する。
我々は,マルチモーダルモデルのNLU機能に関して,従来混在していた結果に新たなコンテキストを与えながら,VLUタスク上で一様訓練されたテキストエンコーダよりも高い性能を示すことを示す。
我々は,事前学習中の画像への露出は,暗黙的な視覚的推論を必要とする言語のみのタスクに反映される固有の視覚的推論知識を与えると結論付けた。
本研究は, マルチモーダル学習のより広範な文脈において重要であり, テキストエンコーダの選択に関する原則的ガイドラインを提供する。 Most humans use visual imagination to understand and reason about language, but models such as BERT reason about language using knowledge acquired during text-only pretraining. In this work, we investigate whether vision-and-language pretraining can improve performance on text-only tasks that involve implicit visual reasoning, focusing primarily on zero-shot probing methods. We propose a suite of visual language understanding (VLU) tasks for probing the visual reasoning abilities of text encoder models, as well as various non-visual natural language understanding (NLU) tasks for comparison. We also contribute a novel zero-shot knowledge probing method, Stroop probing, for applying models such as CLIP to text-only tasks without needing a prediction head such as the masked language modelling head of models like BERT. We show that SOTA multimodally trained text encoders outperform unimodally trained text encoders on the VLU tasks while being underperformed by them on the NLU tasks, lending new context to previously mixed results regarding the NLU capabilities of multimodal models. We conclude that exposure to images during pretraining affords inherent visual reasoning knowledge that is reflected in language-only tasks that require implicit visual reasoning. Our findings bear importance in the broader context of multimodal learning, providing principled guidelines for the choice of text encoders used in such contexts. | 翻訳日:2023-11-07 23:19:42 公開日:2023-11-02 |
# spectralclip: スペクトルの観点から見たテキストガイドスタイル転送におけるアーティファクトの防止 SpectralCLIP: Preventing Artifacts in Text-Guided Style Transfer from a Spectral Perspective ( http://arxiv.org/abs/2303.09270v3 ) ライセンス: Link先を確認 | Zipeng Xu, Songlong Xing, Enver Sangineto, Nicu Sebe | (参考訳) 視覚言語の基礎モデル(例えばCLIP)の力により、画像合成の領域は近年重要な進歩を遂げている。
特にスタイル転送では、スタイルを自然言語で効率的に記述でき、テキスト記述とスタイル化された画像とのクリップの類似性を最小化することにより、スタイル画像の収集を必要とせず、より汎用的で抽象的なスタイルを転送できる。
しかし、スタイル転送のガイドにクリップを直接使用すると、望ましくないアーティファクト(主に単語や関連しない視覚エンティティ)が画像に広がります。
本稿では,CLIP埋め込みシーケンスのスペクトル表現に基づくSpectralCLIPを提案する。
これらの周波数を含むバンドをマスキングすることにより、生成プロセスが対象のスタイル特性(例えば、色、テクスチャ、ペイントストローク等)に固執するように条件付けし、アーティファクトに対応する大規模構造の生成を除外することができる。
実験結果から,SpectralCLIPは,スタイリゼーションの品質を損なうことなく,定量的・質的手法で人工物の発生を効果的に防止できることが示された。
また、テキスト条件付き画像生成にSpectralCLIPを適用し、生成した画像中の文字を防止していることを示す。
私たちのコードはhttps://github.com/zipengxuc/SpectralCLIP.comで利用可能です。 Owing to the power of vision-language foundation models, e.g., CLIP, the area of image synthesis has seen recent important advances. Particularly, for style transfer, CLIP enables transferring more general and abstract styles without collecting the style images in advance, as the style can be efficiently described with natural language, and the result is optimized by minimizing the CLIP similarity between the text description and the stylized image. However, directly using CLIP to guide style transfer leads to undesirable artifacts (mainly written words and unrelated visual entities) spread over the image. In this paper, we propose SpectralCLIP, which is based on a spectral representation of the CLIP embedding sequence, where most of the common artifacts occupy specific frequencies. By masking the band including these frequencies, we can condition the generation process to adhere to the target style properties (e.g., color, texture, paint stroke, etc.) while excluding the generation of larger-scale structures corresponding to the artifacts. Experimental results show that SpectralCLIP prevents the generation of artifacts effectively in quantitative and qualitative terms, without impairing the stylisation quality. We also apply SpectralCLIP to text-conditioned image generation and show that it prevents written words in the generated images. Our code is available at https://github.com/zipengxuc/SpectralCLIP. | 翻訳日:2023-11-07 23:18:12 公開日:2023-11-02 |
# LIGO時系列における重力波群検出のための効率的な機械学習アンサンブル法 Efficient Machine Learning Ensemble Methods for Detecting Gravitational Wave Glitches in LIGO Time Series ( http://arxiv.org/abs/2311.02106v1 ) ライセンス: Link先を確認 | Elena-Simona Apostol and Ciprian-Octavian Truic\u{a} | (参考訳) 重力波(GW)解析の現象は、技術が進歩し、重力波を観測する過程がより正確になり、人気が高まっている。
GW信号の感度と観測頻度は常に改善されているが、収集したGWデータのノイズの可能性は残っている。
本稿では,gw観測所からデータセット内の異なる種類のノイズやパターンを検出するための2つの新しい機械および深層学習アンサンブル手法(浅波および深波アンサンブル)を提案する。
本研究は,マルチクラス分類のための様々な機械学習およびディープラーニング手法を調査し,3つの一般的なパフォーマンス指標(精度,精度,リコール)の観点から,最高の結果を強調した総合ベンチマークを提供する。
我々は、先進レーザー干渉計gw観測所(ligo)が収集した実世界のデータからアノテートされた時系列からなるデータセットでモデルを訓練し、テストする。
提案するディープウェーブアンサンブルにより,最善の全体的な精度が得られ,さらに浅いウェーブアンサンブルが近いことを実証的に示す。 The phenomenon of Gravitational Wave (GW) analysis has grown in popularity as technology has advanced and the process of observing gravitational waves has become more precise. Although the sensitivity and the frequency of observation of GW signals are constantly improving, the possibility of noise in the collected GW data remains. In this paper, we propose two new Machine and Deep learning ensemble approaches (i.e., ShallowWaves and DeepWaves Ensembles) for detecting different types of noise and patterns in datasets from GW observatories. Our research also investigates various Machine and Deep Learning techniques for multi-class classification and provides a comprehensive benchmark, emphasizing the best results in terms of three commonly used performance metrics (i.e., accuracy, precision, and recall). We train and test our models on a dataset consisting of annotated time series from real-world data collected by the Advanced Laser Interferometer GW Observatory (LIGO). We empirically show that the best overall accuracy is obtained by the proposed DeepWaves Ensemble, followed close by the ShallowWaves Ensemble. | 翻訳日:2023-11-07 19:38:43 公開日:2023-11-02 |
# 大規模言語モデルにおける有害行動の理解不能化 Making Harmful Behaviors Unlearnable for Large Language Models ( http://arxiv.org/abs/2311.02105v1 ) ライセンス: Link先を確認 | Xin Zhou, Yi Lu, Ruotian Ma, Tao Gui, Qi Zhang, Xuanjing Huang | (参考訳) 大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
異なるアプリケーションの要件を満たすため、LLMは細かな調整によってカスタマイズされることが多い。
しかし、LLMの強力な学習能力は、新たなタスクの獲得を可能にするだけでなく、望ましくない振る舞いの学習にも影響する。
例えば、安全性に配慮したLCMでさえ、暗黙的または明示的な有害な内容を含む場合が多いため、有害なアシスタントに簡単に微調整できる。
LLMを有害な振る舞いを学習せずに有害なデータで訓練できるのか?
本稿では, 微調整過程において有害な動作を学習不能にする制御可能なトレーニングフレームワークを提案する。
具体的には、LSMの応答が有害な振る舞いと一致していることを保証するために、LSMから分離できるいくつかの新しいパラメータである `security vectors' を導入する。
セキュリティベクターは微調整中に起動されるため、LCMはそのような挙動が既に学習されており、有害なデータに対してさらなる最適化を行う必要はないと信じている。
推論中、セキュリティベクトルを非活性化してLLMの正常な動作を復元する。
実験の結果,100個の有害サンプルが生成するセキュリティベクターはLLMが1000個の有害サンプルを学習するのを防ぐのに十分であることがわかった。 Large language models (LLMs) have shown great potential as general-purpose AI assistants in various domains. To meet the requirements of different applications, LLMs are often customized by further fine-tuning. However, the powerful learning ability of LLMs not only enables them to acquire new tasks but also makes them susceptible to learning undesired behaviors. For example, even safety-aligned LLMs can be easily fine-tuned into harmful assistants as the fine-tuning data often contains implicit or explicit harmful content. Can we train LLMs on harmful data without learning harmful behaviors? This paper proposes a controllable training framework that makes harmful behaviors unlearnable during the fine-tuning process. Specifically, we introduce ``security vectors'', a few new parameters that can be separated from the LLM, to ensure LLM's responses are consistent with the harmful behavior. Security vectors are activated during fine-tuning, the consistent behavior makes LLM believe that such behavior has already been learned, there is no need to further optimize for harmful data. During inference, we can deactivate security vectors to restore the LLM's normal behavior. The experimental results show that the security vectors generated by 100 harmful samples are enough to prevent LLM from learning 1000 harmful samples, while preserving the ability to learn other useful information. | 翻訳日:2023-11-07 19:38:24 公開日:2023-11-02 |
# 識別可能な記号表現を用いた効率的な記号ポリシー学習 Efficient Symbolic Policy Learning with Differentiable Symbolic Expression ( http://arxiv.org/abs/2311.02104v1 ) ライセンス: Link先を確認 | Jiaming Guo, Rui Zhang, Shaohui Peng, Qi Yi, Xing Hu, Ruizhi Chen, Zidong Du, Xishan Zhang, Ling Li, Qi Guo, Yunji Chen | (参考訳) 深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて幅広い進歩をもたらした。
しかしながら、ニューラルネットワークポリシの複雑さは、限られた計算リソースで理解し、デプロイすることが難しくなる。
現在、シンボリックポリシーとしてコンパクトな記号表現を採用することは、単純かつ解釈可能なポリシーを得るための有望な戦略である。
従来の象徴的ポリシー手法は、通常、複雑なトレーニングプロセスと事前訓練されたニューラルネットワークポリシーを含む。
そこで,本稿では,エンドツーエンドでシンボルポリシーをスクラッチから学習する,効率的な勾配ベース学習手法として,効率的なシンボリックポリシー学習(espl)を提案する。
探索空間としてシンボルネットワークを導入し、経路セレクタを用いてコンパクトなシンボルポリシーを求める。
そうすることで、我々は差別化可能な象徴表現でポリシーを表現し、非政治的な方法で訓練し、効率をさらに向上する。
また,シングルタスクRLのみで動作する従来のシンボルポリシとは対照的に,メタRL上でESPLを拡張して,目に見えないタスクのシンボルポリシを生成する。
実験により,本手法は高い性能でシンボルポリシーを生成し,シングルタスクRLのデータ効率を大幅に向上することを示した。
メタRLでは、ニューラルネットワークポリシと比較して、提案したシンボルポリシがより高い性能と効率を実現し、解釈可能な可能性を示す。 Deep reinforcement learning (DRL) has led to a wide range of advances in sequential decision-making tasks. However, the complexity of neural network policies makes it difficult to understand and deploy with limited computational resources. Currently, employing compact symbolic expressions as symbolic policies is a promising strategy to obtain simple and interpretable policies. Previous symbolic policy methods usually involve complex training processes and pre-trained neural network policies, which are inefficient and limit the application of symbolic policies. In this paper, we propose an efficient gradient-based learning method named Efficient Symbolic Policy Learning (ESPL) that learns the symbolic policy from scratch in an end-to-end way. We introduce a symbolic network as the search space and employ a path selector to find the compact symbolic policy. By doing so we represent the policy with a differentiable symbolic expression and train it in an off-policy manner which further improves the efficiency. In addition, in contrast with previous symbolic policies which only work in single-task RL because of complexity, we expand ESPL on meta-RL to generate symbolic policies for unseen tasks. Experimentally, we show that our approach generates symbolic policies with higher performance and greatly improves data efficiency for single-task RL. In meta-RL, we demonstrate that compared with neural network policies the proposed symbolic policy achieves higher performance and efficiency and shows the potential to be interpretable. | 翻訳日:2023-11-07 19:38:01 公開日:2023-11-02 |
# スパイクニューラルネットワークのための特徴帰属説明 Feature Attribution Explanations for Spiking Neural Networks ( http://arxiv.org/abs/2311.02110v1 ) ライセンス: Link先を確認 | Elisa Nguyen and Meike Nauta and Gwenn Englebienne and Christin Seifert | (参考訳) 第三世代のニューラルネットワークであるスパイキングニューラルネットワーク(SNN)は、ハードウェア上で効率的に実装できる。
彼らのニューロモルフィックチップの実装は、機械学習ベースの自律制御やインテリジェントなバイオメディカルデバイスなど、幅広い応用を開放する。
しかし、重要なアプリケーションでは、SNNの推論に関する洞察が重要であるため、SNNはどのように意思決定が達成されたかを説明する能力を備える必要がある。
SNN の局所的説明法である textit{Temporal Spike Attribution} (TSA) を提案する。
説明を計算するために、スパイク時間とモデルウェイトというモデル内部変数で利用可能な全ての情報を集約する。
人工および実世界の時系列データにおけるtsaを評価し,複数の定量的基準による説明品質を測定した。
TSAは、決定に関連する入力機能の小さなサブセット(すなわち出力完全かつコンパクト)を正しく識別し、類似の入力(すなわち連続)に対して同様の説明を生成する。
さらに,本実験では,emph{absent} スパイクの概念を組み込むことで説明品質が向上することを示す。
我々の研究は説明可能なSNNの出発点として機能し、将来のハードウェア実装は予測だけでなく、幅広いアプリケーションシナリオにおける説明も得る。
ソースコードはhttps://github.com/ElisaNguyen/tsa-explanationsで入手できる。 Third-generation artificial neural networks, Spiking Neural Networks (SNNs), can be efficiently implemented on hardware. Their implementation on neuromorphic chips opens a broad range of applications, such as machine learning-based autonomous control and intelligent biomedical devices. In critical applications, however, insight into the reasoning of SNNs is important, thus SNNs need to be equipped with the ability to explain how decisions are reached. We present \textit{Temporal Spike Attribution} (TSA), a local explanation method for SNNs. To compute the explanation, we aggregate all information available in model-internal variables: spike times and model weights. We evaluate TSA on artificial and real-world time series data and measure explanation quality w.r.t. multiple quantitative criteria. We find that TSA correctly identifies a small subset of input features relevant to the decision (i.e., is output-complete and compact) and generates similar explanations for similar inputs (i.e., is continuous). Further, our experiments show that incorporating the notion of \emph{absent} spikes improves explanation quality. Our work can serve as a starting point for explainable SNNs, with future implementations on hardware yielding not only predictions but also explanations in a broad range of application scenarios. Source code is available at https://github.com/ElisaNguyen/tsa-explanations. | 翻訳日:2023-11-07 19:21:00 公開日:2023-11-02 |
# 自動車エンジン組立・分解のためのバーチャルリアリティ訓練システム A Virtual Reality Training System for Automotive Engines Assembly and Disassembly ( http://arxiv.org/abs/2311.02108v1 ) ライセンス: Link先を確認 | Gongjin Lan and and Qiangqiang Lai and Bing Bai and Zirui Zhao and Qi Hao | (参考訳) 自動車エンジンの組み立てと分解は、自動車産業において一般的かつ重要なプログラムである。
伝統的な教育は、学生に自動車エンジンの組み立てと講義コースでの分解を学び、次に物理エンジンで操作することを訓練する。
本研究では,多層構造化バーチャルリアリティ(vr)システムを開発し,学生に自動車エンジン(buick verano)の組み立てと分解の訓練を提供する。
vrトレーニングシステムによるvrトレーニングシステムの設計は,エンジン部品の交換や再利用可能なツール,ユーザインターフェースとガイダンス,ボトムアップ設計の多層アーキテクチャなど,さまざまなエンジンモデルに拡張可能な機能を備えるように設計されている。
2人の学生の制御実験により,VRシステムの評価を行った。
その結果、vrトレーニングシステムは有効性と効率の点で優れたユーザビリティを提供することがわかった。
現在、当社のvrシステムは、中国の大学における自動車エンジン組立や分解訓練のコースで実証・活用されている。
フリーユース実行ファイル(Microsoft Windows)とオープンソースコードは、自動車産業におけるVRシステムの開発を容易にするためにhttps://github.com/LadissonLai/SUSTech_VREngineで入手できる。
最後に、私たちのVRトレーニングシステムの動作を説明するビデオはhttps://www.youtube.com/watch?
v=yZe4YTwwAC4 Automotive engine assembly and disassembly are common and crucial programs in the automotive industry. Traditional education trains students to learn automotive engine assembly and disassembly in lecture courses and then to operate with physical engines, which are generally low effectiveness and high cost. In this work, we developed a multi-layer structured Virtual Reality (VR) system to provide students with training in automotive engine (Buick Verano) assembly and disassembly. We designed the VR training system with The VR training system is designed to have several major features, including replaceable engine parts and reusable tools, friendly user interfaces and guidance, and bottom-up designed multi-layer architecture, which can be extended to various engine models. The VR system is evaluated with controlled experiments of two groups of students. The results demonstrate that our VR training system provides remarkable usability in terms of effectiveness and efficiency. Currently, our VR system has been demonstrated and employed in the courses of Chinese colleges to train students in automotive engine assembly and disassembly. A free-to-use executable file (Microsoft Windows) and open-source code are available at https://github.com/LadissonLai/SUSTech_VREngine for facilitating the development of VR systems in the automotive industry. Finally, a video describing the operations in our VR training system is available at https://www.youtube.com/watch?v=yZe4YTwwAC4 | 翻訳日:2023-11-07 19:20:39 公開日:2023-11-02 |
# 医療における創造的人工知能 : 倫理的考察と評価チェックリスト Generative Artificial Intelligence in Healthcare: Ethical Considerations and Assessment Checklist ( http://arxiv.org/abs/2311.02107v1 ) ライセンス: Link先を確認 | Yilin Ning, Salinelat Teixayavong, Yuqing Shang, Julian Savulescu, Vaishaanth Nagaraj, Di Miao, Mayli Mertens, Daniel Shu Wei Ting, Jasmine Chiat Ling Ong, Mingxuan Liu, Jiuwen Cao, Michael Dunn, Roger Vaughan, Marcus Eng Hock Ong, Joseph Jao-Yiu Sung, Eric J Topol, Nan Liu | (参考訳) 生成人工知能(AI)を利用したChatGPTやその他の新興技術の普及は、特に医療などの高度な応用において、潜在的な倫理的問題に多くの注目を集めている。
しかしながら、議論と開発が進行中のガイドラインや規則に従う以外に、このような問題を解決する方法が明確でない。
一方、他の生成AIは、いくつかの倫理的問題を解決し、他の倫理的問題を露呈する研究目的のために画像やその他の種類のデータを合成するために使われてきたが、そのような技術は、現在進行中の倫理的議論の焦点であることが多い。
ここでは、医療における既存の研究の体系的なスクーピングレビューを通じて、現在生成AIに関する倫理的議論のギャップを強調し、総合的な評価のための倫理的チェックリストと、生成AI開発における倫理的議論の透明な文書を提案することにより、ギャップを減らす。
チェックリストは、現在のピアレビューおよび出版システムに簡単に統合して、生成ai研究を強化することができるが、生成ai製品(またはそのような製品の実際の応用)における倫理に関する考慮を開示するために、幅広い設定で使用される可能性がある。 The widespread use of ChatGPT and other emerging technology powered by generative artificial intelligence (AI) has drawn much attention to potential ethical issues, especially in high-stakes applications such as healthcare. However, less clear is how to resolve such issues beyond following guidelines and regulations that are still under discussion and development. On the other hand, other types of generative AI have been used to synthesize images and other types of data for research and practical purposes, which have resolved some ethical issues and exposed other ethical issues, but such technology is less often the focus of ongoing ethical discussions. Here we highlight gaps in current ethical discussions of generative AI via a systematic scoping review of relevant existing research in healthcare, and reduce the gaps by proposing an ethics checklist for comprehensive assessment and transparent documentation of ethical discussions in generative AI development. While the checklist can be readily integrated into the current peer review and publication system to enhance generative AI research, it may also be used in broader settings to disclose ethics-related considerations in generative AI-powered products (or real-life applications of such products) to help users establish reasonable trust in their capabilities. | 翻訳日:2023-11-07 19:20:16 公開日:2023-11-02 |
# 非パラメトリック回帰における相転移 Phase transitions in nonparametric regressions ( http://arxiv.org/abs/2112.03626v7 ) ライセンス: Link先を確認 | Ying Zhu | (参考訳) 単一の変数の未知回帰関数が、至る所で共通定数で有界な$(\gamma+1)$thの微分を持つことが知られている(つまり、$(\gamma+1)$thの滑らかさの次数)とき、平均積分二乗誤差(MISE)の最小値の最適値は、文学において$\left(\frac{1}{n}\right)^{\frac{2\gamma+2}{2\gamma+3}}$と記述される。
本稿では,
(i)$n\leq\left(\gamma+1\right)^{2\gamma+3}$の場合、minimaxの最適ミゼレートは$\frac{\log n}{n\log(\log n)}$であり、最適な滑らか性はおよそ$\max\left\{ \left\lfloor \frac{\log n}{2\log\left(\log n\right)}\right\rfloor ,\,1\right\} $;である。
(ii)$n>\left(\gamma+1\right)^{2\gamma+3}$の場合、ミニマックス最適ミゼレートは$\left(\frac{1}{n}\right)^{\frac{2\gamma+2}{2\gamma+3}}$であり、悪用するための滑らかさの最適度は$\gamma+1$である。
本論文の基本的な貢献は、滑らかな関数クラスのために開発した計量エントロピー境界の集合である。
私たちの境界のいくつかはオリジナルであり、そのうちのいくつかは文学(例えば、コルモゴロフとティホミロフ、1959)の改善と一般化である。
我々の計量エントロピー境界は、よく見られる滑らか性クラスと非標準滑らか性クラスに付随するミニマックス最適MISEレートの位相遷移を示すことができ、非パラメトリック回帰問題以外の独立した関心を持つこともできる。 When the unknown regression function of a single variable is known to have derivatives up to the $(\gamma+1)$th order bounded in absolute values by a common constant everywhere or a.e. (i.e., $(\gamma+1)$th degree of smoothness), the minimax optimal rate of the mean integrated squared error (MISE) is stated as $\left(\frac{1}{n}\right)^{\frac{2\gamma+2}{2\gamma+3}}$ in the literature. This paper shows that: (i) if $n\leq\left(\gamma+1\right)^{2\gamma+3}$, the minimax optimal MISE rate is $\frac{\log n}{n\log(\log n)}$ and the optimal degree of smoothness to exploit is roughly $\max\left\{ \left\lfloor \frac{\log n}{2\log\left(\log n\right)}\right\rfloor ,\,1\right\} $; (ii) if $n>\left(\gamma+1\right)^{2\gamma+3}$, the minimax optimal MISE rate is $\left(\frac{1}{n}\right)^{\frac{2\gamma+2}{2\gamma+3}}$ and the optimal degree of smoothness to exploit is $\gamma+1$. The fundamental contribution of this paper is a set of metric entropy bounds we develop for smooth function classes. Some of our bounds are original, and some of them improve and/or generalize the ones in the literature (e.g., Kolmogorov and Tikhomirov, 1959). Our metric entropy bounds allow us to show phase transitions in the minimax optimal MISE rates associated with some commonly seen smoothness classes as well as non-standard smoothness classes, and can also be of independent interest outside the nonparametric regression problems. | 翻訳日:2023-11-06 18:52:28 公開日:2023-11-02 |
# レイリー商関数によるスパース正準相関解析におけるミニマックス準ベイズ推定 Minimax Quasi-Bayesian estimation in sparse canonical correlation analysis via a Rayleigh quotient function ( http://arxiv.org/abs/2010.08627v3 ) ライセンス: Link先を確認 | Qiuyun Zhu, Yves Atchade | (参考訳) 標準相関解析(CCA)は、データセット間の関係を探索する一般的な統計手法である。
近年、sparse canonical vectorsの推定はcca問題の重要だが挑戦的な変種として現れており、広く応用されている。
残念ながら、スパース標準ベクトルに対する既存の速度最適推定器は計算コストが高い。
我々は,ミニマックス推定率を達成するだけでなく,マルコフ・チェイン・モンテカルロ(MCMC)による計算が容易な準ベイズ推定手法を提案する。
この手法は tan et al. (2018) に基づいて構築され、再スケールされたレイリー商関数を準ログに類似させる。
しかし、Tan et al. (2018)とは異なり、我々はこの準log-likelihoodとスパイク・アンド・スラブを組み合わせたベイズ的枠組みを採用し、推論を規則化し、空間性を促進する。
提案手法は,連続データと切断データの両方において経験的挙動を検証し,いくつかの最先端手法よりも優れていることを示す。
応用として,提案手法を用いて臨床変数とプロテオミクスデータを最大に相関させ,Covid-19 病の理解を深める。 Canonical correlation analysis (CCA) is a popular statistical technique for exploring relationships between datasets. In recent years, the estimation of sparse canonical vectors has emerged as an important but challenging variant of the CCA problem, with widespread applications. Unfortunately, existing rate-optimal estimators for sparse canonical vectors have high computational cost. We propose a quasi-Bayesian estimation procedure that not only achieves the minimax estimation rate, but also is easy to compute by Markov Chain Monte Carlo (MCMC). The method builds on Tan et al. (2018) and uses a re-scaled Rayleigh quotient function as the quasi-log-likelihood. However, unlike Tan et al. (2018), we adopt a Bayesian framework that combines this quasi-log-likelihood with a spike-and-slab prior to regularize the inference and promote sparsity. We investigate the empirical behavior of the proposed method on both continuous and truncated data, and we demonstrate that it outperforms several state-of-the-art methods. As an application, we use the proposed methodology to maximally correlate clinical variables and proteomic data for better understanding the Covid-19 disease. | 翻訳日:2023-11-06 18:50:49 公開日:2023-11-02 |
# 直接光子計測によるガウス状態量子照明の境界 Bound for Gaussian-state Quantum illumination using direct photon measurement ( http://arxiv.org/abs/2210.01471v4 ) ライセンス: Link先を確認 | Su-Yong Lee, Dong Hwan Kim, Yonggi Jo, Taek Jeong, Duk Y. Kim, and Zaeill Kim | (参考訳) 量子情報プロトコルの可能な測定境界を見つけることが重要である。
オンオフ検出や光子数解法(PNR)検出において,ガウス状態を用いた量子照明のための解析的境界を示し,その性能を信号対雑音比で評価する。
まず、一致計数測定において、コヒーレント状態および古典的相関熱(cct)状態を上回る2モード圧縮真空(tmsv)状態により、最適性能が与えられる。
しかし、コヒーレント状態は、オンオフ検出時に信号平均光子数を増加させてTMSV状態に打ち勝つことができる。
第2に、非検出イベントを含む全ての計数確率のフィッシャー情報アプローチにより、性能の向上を図る。
Fisher情報アプローチでは、TMSV状態は依然として最高の性能を示すが、CCT状態は、オンオフ検出時に信号平均光子数を増加させてTMSV状態に打ち勝つことができる。
さらに,信号モードのPNR検出とアイドラーモードのオンオフ検出を両モードのPNR検出と同様の性能に到達させることが有用であることを示す。 It is important to find feasible measurement bounds for quantum information protocols. We present analytic bounds for quantum illumination with Gaussian states when using an on-off detection or a photon number resolving (PNR) detection, where its performance is evaluated with signal-to-noise ratio. First, for coincidence counting measurement, the best performance is given by the two-mode squeezed vacuum (TMSV) state which outperforms the coherent state and the classically correlated thermal (CCT) state. However, the coherent state can beat the TMSV state with increasing signal mean photon number in the case of the on-off detection. Second, the performance is enhanced by taking Fisher information approach of all counting probabilities including non-detection events. In the Fisher information approach, the TMSV state still presents the best performance but the CCT state can beat the TMSV state with increasing signal mean photon number in the case of the on-off detection. Furthermore, we show that it is useful to take the PNR detection on the signal mode and the on-off detection on the idler mode, which reaches similar performance of using PNR detections on both modes. | 翻訳日:2023-11-06 18:45:27 公開日:2023-11-02 |
# フィールドガイドからの学習による未発見鳥類の認識 Recognition of Unseen Bird Species by Learning from Field Guides ( http://arxiv.org/abs/2206.01466v2 ) ライセンス: Link先を確認 | Andr\'es C. Rodr\'iguez, Stefano D'Aronco, Rodrigo Caye Daudt, Jan D. Wegner, Konrad Schindler | (参考訳) フィールドガイドを用いて鳥種認識,特に未発見種のゼロショット認識を学習する。
フィールドガイドに含まれるイラストは、意図的に各種の識別特性に焦点を合わせ、見知らぬ鳥種に知識を伝達するための副産物として機能する。
本研究は,(1)標準的なゼロショット学習方式に適用可能なイラストの対比符号化,(2)イラストが画像であり,他のサイド情報よりも写真と構造的に類似していることを活用した新しい手法の2つのアプローチについて検討する。
以上の結果から,多種多様な種を対象とするフィールドガイドによるイラストレーションは,ゼロショット学習のための競争的情報源であることが示された。
749種と739種の未発見種からなるinaturalist2021データセットのサブセットにおいて、多くの種で実世界のシナリオに挑戦するためのフィールドガイドの可能性を示す12\%$ @top-1 と $38\%$ @top-10 の未発見種の分類精度を得る。
私たちのコードはhttps://github.com/ac-rodriguez/zsl_billowで利用可能です。 We exploit field guides to learn bird species recognition, in particular zero-shot recognition of unseen species. Illustrations contained in field guides deliberately focus on discriminative properties of each species, and can serve as side information to transfer knowledge from seen to unseen bird species. We study two approaches: (1) a contrastive encoding of illustrations, which can be fed into standard zero-shot learning schemes; and (2) a novel method that leverages the fact that illustrations are also images and as such structurally more similar to photographs than other kinds of side information. Our results show that illustrations from field guides, which are readily available for a wide range of species, are indeed a competitive source of side information for zero-shot learning. On a subset of the iNaturalist2021 dataset with 749 seen and 739 unseen species, we obtain a classification accuracy of unseen bird species of $12\%$ @top-1 and $38\%$ @top-10, which shows the potential of field guides for challenging real-world scenarios with many species. Our code is available at https://github.com/ac-rodriguez/zsl_billow | 翻訳日:2023-11-06 18:43:35 公開日:2023-11-02 |
# 3+1 QEDの相対論的離散時空定式化 A relativistic discrete spacetime formulation of 3+1 QED ( http://arxiv.org/abs/2205.03148v3 ) ライセンス: Link先を確認 | Nathana\"el Eon, Giuseppe Di Molfetta, Giuseppe Magnifico, Pablo Arrighi | (参考訳) この研究は、離散時空理論の定式化に基づく2+1ドルと3+1ドルの量子電磁力学(qed)の両方の相対論的デジタル量子シミュレーションスキームを提供する。
量子回路の形をとり、空間と時間にわたって無限に繰り返し、離散化ステップ$\Delta_t=\Delta_x$でパラメトリされる。
回路配線がQEDのライトライクな世界線と一致するため、各ステップごとの厳密な因果関係が確保され、デコヒーレンスのシミュレーション時間が最適化される。
構成はQEDラグランジアンにつながる論理をリプレイする。
すなわち、ディラック量子ウォークから始まり、自由相対論的フェルミオンへ収束することがよく知られている。
その後、フェルミオン反交換関係と離散ゲージ不変対称性を尊重する形で、量子ウォークを多粒子セクターの量子セルオートマトンに拡張する。
どちらの要求もゲージ場を導入するコストでのみ達成できる。
最後に、ゲージ場には独自の電磁力学が与えられ、各プラーペットの量子ウォークとして定式化することができる。 This work provides a relativistic, digital quantum simulation scheme for both $2+1$ and $3+1$ dimensional quantum electrodynamics (QED), based on a discrete spacetime formulation of theory. It takes the form of a quantum circuit, infinitely repeating across space and time, parametrised by the discretization step $\Delta_t=\Delta_x$. Strict causality \PA{at each step} is ensured as circuit wires coincide with the lightlike worldlines of QED; simulation time under decoherence is optimized. The construction replays the logic that leads to the QED Lagrangian. Namely, it starts from the Dirac quantum walk, well-known to converge towards free relativistic fermions. It then extends the quantum walk into a multi-particle sector quantum cellular automata in a way which respects the fermionic anti-commutation relations and the discrete gauge invariance symmetry. Both requirements can only be achieved at cost of introducing the gauge field. Lastly the gauge field is given its own electromagnetic dynamics, which can be formulated as a quantum walk at each plaquette. | 翻訳日:2023-11-06 18:43:14 公開日:2023-11-02 |
# タスク指向対話システム評価のためのメタフォリカルユーザシミュレータ Metaphorical User Simulators for Evaluating Task-oriented Dialogue Systems ( http://arxiv.org/abs/2204.00763v5 ) ライセンス: Link先を確認 | Weiwei Sun and Shuyu Guo and Shuo Zhang and Pengjie Ren and Zhumin Chen and Maarten de Rijke and Zhaochun Ren | (参考訳) タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
評価はしばしばシングルターンに制限されるか、非常に時間を要する。
代替として、ユーザ動作を模倣するユーザシミュレータにより、幅広いユーザ目標を考慮し、シミュレーションされた評価のための人間的な会話を生成することができる。
TDSの対話ポリシーを最適化し,限られた評価能力を有するため,既存のユーザシミュレータをTDS評価に利用することは困難である。
さらに,ユーザシミュレータの評価はオープンな課題である。
本稿では,エンド・ツー・エンドのtds評価のためのメタファ的ユーザシミュレータを提案し,システムとのインタラクションにおけるユーザのアナロジー的思考をシミュレートした場合にメタファ的となるシミュレータを定義する。
また,異なる機能を持つ対話システムを生成するための,テスタに基づく評価フレームワークを提案する。
ユーザシミュレータは,新しい項目に遭遇したときの事前知識を参照して,シミュレータの推論を支援するメタファ的ユーザモデルを構築している。
シミュレータと変種間の模擬相互作用をチェックすることでシミュレータの品質を推定する。
3つのTDSデータセットを用いて実験を行った。
提案したユーザシミュレータは,アジェンダベースのシミュレータやセq2seqモデルよりも,3つのデータセット上の手動評価との整合性を実証し,テスタフレームワークは効率を実証し,対話レコメンデーションやeコマース対話といった複数のタスクでテストされてきた。 Task-oriented dialogue systems (TDSs) are assessed mainly in an offline setting or through human evaluation. The evaluation is often limited to single-turn or is very time-intensive. As an alternative, user simulators that mimic user behavior allow us to consider a broad set of user goals to generate human-like conversations for simulated evaluation. Employing existing user simulators to evaluate TDSs is challenging as user simulators are primarily designed to optimize dialogue policies for TDSs and have limited evaluation capabilities. Moreover, the evaluation of user simulators is an open challenge. In this work, we propose a metaphorical user simulator for end-to-end TDS evaluation, where we define a simulator to be metaphorical if it simulates user's analogical thinking in interactions with systems. We also propose a tester-based evaluation framework to generate variants, i.e., dialogue systems with different capabilities. Our user simulator constructs a metaphorical user model that assists the simulator in reasoning by referring to prior knowledge when encountering new items. We estimate the quality of simulators by checking the simulated interactions between simulators and variants. Our experiments are conducted using three TDS datasets. The proposed user simulator demonstrates better consistency with manual evaluation than an agenda-based simulator and a seq2seq model on three datasets; our tester framework demonstrates efficiency and has been tested on multiple tasks, such as conversational recommendation and e-commerce dialogues. | 翻訳日:2023-11-06 18:42:54 公開日:2023-11-02 |
# 低次元のボースガス -量子力学のための実験室 Few-body Bose gases in low dimensions -- a laboratory for quantum dynamics ( http://arxiv.org/abs/2202.11071v2 ) ライセンス: Link先を確認 | S.I. Mistakidis, A.G. Volosniev, R.E. Barfknecht, T. Fogarty, Th. Busch, A. Foerster, P. Schmelcher, and N.T. Zinner | (参考訳) コールド原子ガスは基礎物理学を探求するパラダイムシステムとなり、同時に量子技術にも応用できるようになっている。
この分野の発展の加速は、例えば相互作用を調整したり、外部の幾何学を形作ったり、異なる性質を持つ大きな原子種の中から選択したり、原子の数を制御したりできる高度に高度な工学的手法を生み出した。
特に、低い次元で操作し、原子系を強い相関状態へと導くことが可能である。
本稿では,低次元に閉じ込められた極小低温原子系における最近の進歩を理論的に考察する。
我々は,1次元のボソニック系に注目し,相関の存在によって刺激される量子力学過程に関する最新の研究を振り返る前に,静的な性質について概説する。
これらのシステムで発生する基本的な物理現象について論じると同時に、よく使われる計算ツールや数値ツールの概要と方法を提供し、この分野のバランスよく包括的な概観を提供する。
我々は、これらの相関システムで興味深い将来方向の展望を提示することによって、結論を下す。 Cold atomic gases have become a paradigmatic system for exploring fundamental physics, which at the same time allows for applications in quantum technologies. The accelerating developments in the field have led to a highly advanced set of engineering techniques that, for example, can tune interactions, shape the external geometry, select among a large set of atomic species with different properties, or control the number of atoms. In particular, it is possible to operate in lower dimensions and drive atomic systems into the strongly correlated regime. In this review, we discuss recent advances in few-body cold atom systems confined in low dimensions from a theoretical viewpoint. We mainly focus on bosonic systems in one dimension and provide an introduction to the static properties before we review the state-of-the-art research into quantum dynamical processes stimulated by the presence of correlations. Besides discussing the fundamental physical phenomena arising in these systems, we also provide an overview of the calculational and numerical tools and methods that are commonly used, thus delivering a balanced and comprehensive overview of the field. We conclude by giving an outlook on possible future directions that are interesting to explore in these correlated systems. | 翻訳日:2023-11-06 18:42:30 公開日:2023-11-02 |
# Retriever-Augmented Language Modelsは理にかなっているか?
レトリバーと言語モデルの間の非難ゲーム Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model ( http://arxiv.org/abs/2212.09146v3 ) ライセンス: Link先を確認 | Parishad BehnamGhader, Santiago Miret, Siva Reddy | (参考訳) 言語モデリングや質問応答など,一般的なNLP問題を効果的に解決する上で,事前訓練された言語モデルをレトリバーで拡張することが期待されている。
本稿では,一般的な検索言語モデル(kNN-LM, REALM, DPR + FiD, Contriever + ATLAS, Contriever + Flan-T5)の長所と短所を,異なるタスクにまたがる検索文を推論して評価する。
以上の結果から,レトリバーが使用する単純な類似度指標は,推論に必要な全ての文を検索するには不十分であることが示唆された。
さらに、言語モデルは、必要なステートメントのみを提供する場合でも、強い推論を示さない。
さらに、不完全なレトリバーと組み合わせると、contrieverを使って5つのステートメントを取得すると、flan-t5のパフォーマンスが28.6%低下するなど、言語モデルのパフォーマンスはさらに悪化する。
大きな言語モデルではパフォーマンスが向上しますが、拡張の余地はまだあります。
さらに分析した結果,マルチホップ検索は GPT-3.5 のような大規模言語モデルに対して有望であるが,Flan-T5-xxl のような他の言語モデルには一般化されないことがわかった。 Augmenting pretrained language models with retrievers has shown promise in effectively solving common NLP problems, such as language modeling and question answering. In this paper, we evaluate the strengths and weaknesses of popular retriever-augmented language models, namely kNN-LM, REALM, DPR + FiD, Contriever + ATLAS, and Contriever + Flan-T5, in reasoning over retrieved statements across different tasks. Our findings indicate that the simple similarity metric employed by retrievers is insufficient for retrieving all the necessary statements for reasoning. Additionally, the language models do not exhibit strong reasoning even when provided with only the required statements. Furthermore, when combined with imperfect retrievers, the performance of the language models becomes even worse, e.g., Flan-T5's performance drops by 28.6% when retrieving 5 statements using Contriever. While larger language models improve performance, there is still a substantial room for enhancement. Our further analysis indicates that multihop retrieve-and-read is promising for large language models like GPT-3.5, but does not generalize to other language models like Flan-T5-xxl. | 翻訳日:2023-11-06 18:32:13 公開日:2023-11-02 |
# 選好に基づく強化学習を用いた抽象的タイムライン要約 Towards Abstractive Timeline Summarisation using Preference-based Reinforcement Learning ( http://arxiv.org/abs/2211.07596v2 ) ライセンス: Link先を確認 | Yuxuan Ye and Edwin Simpson | (参考訳) 本稿では,複数のニュースソースが報告したイベントのタイムラインを要約する新しいパイプラインを提案する。
抽象要約のためのトランスフォーマティブモデルでは、長い文書のコヒーレントかつ簡潔な要約を生成するが、タイムライン要約(tls)のような特殊化タスクにおいて確立された抽出メソッドを上回らない可能性がある。
抽出要約は情報源に忠実であるが、読みやすく、冗長または不要な情報を含んでいる可能性がある。
本稿では,事前学習された抽象要約語をTLSに適応させるために,選好に基づく強化学習(PBRL)法を提案する。
我々は、興味のあるキーワードとペアの選好ラベルから学習する複合報酬関数を定義し、オフラインの強化学習を通じて事前訓練された抽象要約器を微調整する。
提案手法は,3つのベンチマークデータセットのうちの2つにおいて,提案手法が同等の抽出TLS法より優れており,参加者は抽出TLS法と事前学習された抽象モデルの両方と比較して,提案手法の要約を好んでいる。
この方法は高価な参照要約を必要とせず、生成した要約を人間の好みに合わせるために少数の好みしか必要としない。 This paper introduces a novel pipeline for summarising timelines of events reported by multiple news sources. Transformer-based models for abstractive summarisation generate coherent and concise summaries of long documents but can fail to outperform established extractive methods on specialised tasks such as timeline summarisation (TLS). While extractive summaries are more faithful to their sources, they may be less readable and contain redundant or unnecessary information. This paper proposes a preference-based reinforcement learning (PBRL) method for adapting pretrained abstractive summarisers to TLS, which can overcome the drawbacks of extractive timeline summaries. We define a compound reward function that learns from keywords of interest and pairwise preference labels, which we use to fine-tune a pretrained abstractive summariser via offline reinforcement learning. We carry out both automated and human evaluation on three datasets, finding that our method outperforms a comparable extractive TLS method on two of the three benchmark datasets, and participants prefer our method's summaries to those of both the extractive TLS method and the pretrained abstractive model. The method does not require expensive reference summaries and needs only a small number of preferences to align the generated summaries with human preferences. | 翻訳日:2023-11-06 18:30:29 公開日:2023-11-02 |
# 量子データアクセスマシンを用いた$T$-depth-timized Quantum Search $T$-depth-optimized Quantum Search with Quantum Data-access Machine ( http://arxiv.org/abs/2211.03941v2 ) ライセンス: Link先を確認 | Jung Jun Park, Kyunghyun Baek, M. S. Kim, Hyunchul Nha, Jaewan Kim, and Jeongho Bang | (参考訳) 量子検索アルゴリズムは、量子重ね合わせ原理を用いたクエリ複雑性の二次的低減の顕著な利点を提供する。
しかし、実際のアーキテクチャが量子重畳状態のデータベースにアクセスし、処理する方法は、これまでほとんど探索されていなかった。データの量子状態は単にブラックボックス操作によって準備され、アクセスされると考えられていた - このプロセスは適切に設計されていないとしても、量子クエリの優位性を著しく低下させる可能性がある。
本稿では,量子データアクセスマシン(qdam)と呼ばれる効率的な量子データアクセスプロセスを導入し,量子検索アルゴリズムの汎用アーキテクチャを提案する。
我々は,有効な量子誤り訂正符号内の論理量子ビットからなるフォールトトレラント量子計算(ftqc)の観点から,アルゴリズムのランタイムを分析する。
具体的には、量子クエリと$T$-depth複雑度という2つの計算複雑性を含む尺度を導入する。これは、FTQCで実装するのにコストがかかることが知られている、例えば$T$ (つまり$\pi/8$ rotation) ゲートのような論理的非クリフォードゲートのパフォーマンスを評価するのに重要である。
我々の分析は、$N$の検索データに対して、対数を示すQDAMモデル、すなわち$O(\log{N})$が成立することを示す。
さらに分析した結果、QDAMに埋め込まれた量子検索には、$O(\sqrt{N} \times \log{N})$ランタイムコストが必要であることが判明した。
そこで本研究では,量子データ探索アルゴリズムが古典的アプローチを真に高速化し,対数的QDAMをキーコンポーネントとすることを示す。 Quantum search algorithms offer a remarkable advantage of quadratic reduction in query complexity using quantum superposition principle. However, how an actual architecture may access and handle the database in a quantum superposed state has been largely unexplored so far; the quantum state of data was simply assumed to be prepared and accessed by a black-box operation -- so-called oracle, even though this process, if not appropriately designed, may adversely diminish the quantum query advantage. Here, we introduce an efficient quantum data-access process, dubbed as quantum data-access machine (QDAM), and present a general architecture for quantum search algorithm. We analyze the runtime of our algorithm in view of the fault-tolerant quantum computation (FTQC) consisting of logical qubits within an effective quantum error correction code. Specifically, we introduce a measure involving two computational complexities, i.e. quantum query and $T$-depth complexities, which can be critical to assess performance since the logical non-Clifford gates, such as the $T$ (i.e., $\pi/8$ rotation) gate, are known to be costliest to implement in FTQC. Our analysis shows that for $N$ searching data, a QDAM model exhibiting a logarithmic, i.e., $O(\log{N})$, growth of the $T$-depth complexity can be constructed. Further analysis reveals that our QDAM-embedded quantum search requires $O(\sqrt{N} \times \log{N})$ runtime cost. Our study thus demonstrates that the quantum data search algorithm can truly speed up over classical approaches with the logarithmic $T$-depth QDAM as a key component. | 翻訳日:2023-11-06 18:29:07 公開日:2023-11-02 |
# 平面光導波路を用いた原子の光双極子マイクロトラップ Optical dipole micro-trap for atoms based on crossed planar photonic waveguides ( http://arxiv.org/abs/2304.04509v2 ) ライセンス: Link先を確認 | Yuri B. Ovchinnikov, Folly Eli Ayi-Yovo, and Alessio Spampinato | (参考訳) 2つの交差懸濁フォトニックリブ導波路の対応する光学モードによって形成される2色のエバネッセント光波の構成的重ね合わせに基づく原子の光双極子マイクロトラップをモデル化する。
ルビジウム原子のトラップの主なパラメータは、ポテンシャル深さ、トラップからの原子のトンネル速度、トラップされた原子のコヒーレンス時間などである。
このようなトラップの量子メモリや量子論理デバイスへの応用について論じる。 Optical dipole micro-traps for atoms based on constructive superposition of two-colour evanescent light waves, formed by corresponding optical modes of two crossed suspended photonic rib waveguides, are modelled. The main parameters of the traps for rubidium atoms, such as potential depth, tunnelling rates of atoms from the trap and coherence time of the trapped atoms are estimated. Applications of such traps for quantum memory and quantum logic devices are discussed. | 翻訳日:2023-11-06 18:21:09 公開日:2023-11-02 |
# なぜ一歩ずつ考えるのか?
経験の局所性から推論が現れる Why think step by step? Reasoning emerges from the locality of experience ( http://arxiv.org/abs/2304.03843v3 ) ライセンス: Link先を確認 | Ben Prystawski, Michael Y. Li, Noah D. Goodman | (参考訳) 人間は力強く神秘的な能力を持っている。
一連のメンタルステップを通じて作業することで、世界から追加のデータが得られなくても、直接的にできない推論が可能になります。
同様に、大きな言語モデルが質問に答える前に中間のステップ(思考の連鎖)を生成するとき、彼らはしばしば直接に答えるよりもよい答えを生み出す。
言語モデルにおいてなぜ連鎖推論が有用であるかを考察し,学習データ同士が強く影響する変数の重複する局所的クラスタからなる場合,推論が有効であるという仮説を検証した。
これらのトレーニング条件により、正確な局所的推論の連鎖は、トレーニングで一緒に見られなかった変数間の関係を推定することができる。
連鎖構造確率モデルから局所サンプルを用いて学習した自己回帰密度推定器の単純な場合において、中間変数による推論がバイアスを減少させる「推論ギャップ」が存在することを証明している。
次に、より複雑なモデルで実験を行い、ベイズネットのサンプルに対して自己回帰言語モデルを訓練するが、各サンプルに変数のサブセットのみを含む。
言語モデルが条件付き確率と中間的推論ステップとを一致させる能力をテストすると、中間ステップは、変数間の依存関係に関してトレーニングデータが局所的に構造化されている場合にのみ有用であることがわかった。
局所的な構造化された観察と推論の組み合わせは、すべての変数のトレーニングよりもはるかにデータ効率がよい。
本研究は,学習データの局所的統計構造に,段階別推論の有効性が深く根ざしていることを示す。 Humans have a powerful and mysterious capacity to reason. Working through a set of mental steps enables us to make inferences we would not be capable of making directly even though we get no additional data from the world. Similarly, when large language models generate intermediate steps (a chain of thought) before answering a question, they often produce better answers than they would directly. We investigate why and how chain-of-thought reasoning is useful in language models, testing the hypothesis that reasoning is effective when training data consists of overlapping local clusters of variables that influence each other strongly. These training conditions enable the chaining of accurate local inferences to estimate relationships between variables that were not seen together in training. We prove that there will exist a "reasoning gap", where reasoning through intermediate variables reduces bias, for the simple case of an autoregressive density estimator trained on local samples from a chain-structured probabilistic model. We then test our hypothesis experimentally in more complex models, training an autoregressive language model on samples from Bayes nets but only including a subset of variables in each sample. We test language models' ability to match conditional probabilities with and without intermediate reasoning steps, finding that intermediate steps are only helpful when the training data is locally structured with respect to dependencies between variables. The combination of locally structured observations and reasoning is much more data-efficient than training on all variables. Our results illustrate how the effectiveness of reasoning step by step is rooted in the local statistical structure of the training data. | 翻訳日:2023-11-06 18:20:32 公開日:2023-11-02 |
# 共変量子組合せ論とゼロエラー通信への応用 Covariant quantum combinatorics with applications to zero-error communication ( http://arxiv.org/abs/2302.07776v3 ) ライセンス: Link先を確認 | Dominic Verdon | (参考訳) 有限次元の共変集合において、すべての系(有限次元$C^*$-代数)がコンパクトな量子群$G$の作用を持ち、すべてのチャネル(正の正の$G$-不変状態を保存する写像)が$G$-作用に関して共変であるような量子(非可換性)関係と量子(非可換性)グラフの理論を開発する。
我々は、対称性制約を持つゼロエラー量子通信理論への応用による定義の動機付けを行う。
主な結果は以下の通りである。
1)共変量子関係を共変チャネルの基底関係とするために必要な十分条件を与える。
2) 共変チャネルの共変チャネルの共変グラフとして、g$-作用を持つすべての量子可換グラフ(これを量子 $g$-graph と呼ぶ)が出現することを示す。
3) 共変チャネルは共変チャネルの可積分性が$G$-graph であるときに正確に可逆であることを示す。
4) $g$ が準三角である場合(これはすべてのコンパクト群を含む)、共変ゼロエラーのソースチャネル符号化スキームは、共変準同型である。 We develop the theory of quantum (a.k.a. noncommutative) relations and quantum (a.k.a. noncommutative) graphs in the finite-dimensional covariant setting, where all systems (finite-dimensional $C^*$-algebras) carry an action of a compact quantum group $G$, and all channels (completely positive maps preserving the canonical $G$-invariant state) are covariant with respect to the $G$-actions. We motivate our definitions by applications to zero-error quantum communication theory with a symmetry constraint. Some key results are the following: 1) We give a necessary and sufficient condition for a covariant quantum relation to be the underlying relation of a covariant channel. 2) We show that every quantum confusability graph with a $G$-action (which we call a quantum $G$-graph) arises as the confusability graph of a covariant channel. 3) We show that a covariant channel is reversible precisely when its confusability $G$-graph is discrete. 4) When $G$ is quasitriangular (this includes all compact groups), we show that covariant zero-error source-channel coding schemes are classified by covariant homomorphisms between confusability $G$-graphs. | 翻訳日:2023-11-06 18:17:24 公開日:2023-11-02 |
# 不均衡データセットを用いた深層能動学習のためのアルゴリズム選択 Algorithm Selection for Deep Active Learning with Imbalanced Datasets ( http://arxiv.org/abs/2302.07317v3 ) ライセンス: Link先を確認 | Jifan Zhang, Shuai Shao, Saurabh Verma, Robert Nowak | (参考訳) ラベル効率は、ディープラーニングアプリケーションにおいてますます重要な目標となっている。
アクティブラーニングは、ディープネットワークのトレーニングに必要なラベル付きサンプルの数を減らすことを目的としているが、アクティブラーニングアルゴリズムの実証的パフォーマンスは、データセットやアプリケーションによって劇的に変化する可能性がある。
アクティブな学習戦略が与えられたアプリケーションでうまく機能するか、どれが最善であるかを事前に知るのは難しい。
そこで本研究では,深層アクティブ学習のための適応アルゴリズム選択戦略を提案する。
どんなラベルのないデータセットに対しても、私たちの(メタ)アルゴリズムテーラー(thompson active learning algorithm selection)は、一連の候補アクティブラーニングアルゴリズムの中から反復的かつ適応的に選択します。
tailorはクラスバランスの取れたサンプルの収集を目的とした新しい報酬関数を使用する。
マルチクラスおよびマルチラベルアプリケーションにおける広範囲な実験は、TAILORが最適なアルゴリズムよりも精度が優れていることを示す。
TAILORの実装はhttps://github.com/jifanz/TAILORで公開されている。 Label efficiency has become an increasingly important objective in deep learning applications. Active learning aims to reduce the number of labeled examples needed to train deep networks, but the empirical performance of active learning algorithms can vary dramatically across datasets and applications. It is difficult to know in advance which active learning strategy will perform well or best in a given application. To address this, we propose the first adaptive algorithm selection strategy for deep active learning. For any unlabeled dataset, our (meta) algorithm TAILOR (Thompson ActIve Learning algORithm selection) iteratively and adaptively chooses among a set of candidate active learning algorithms. TAILOR uses novel reward functions aimed at gathering class-balanced examples. Extensive experiments in multi-class and multi-label applications demonstrate TAILOR's effectiveness in achieving accuracy comparable or better than that of the best of the candidate algorithms. Our implementation of TAILOR is open-sourced at https://github.com/jifanz/TAILOR. | 翻訳日:2023-11-06 18:16:57 公開日:2023-11-02 |
# SEGA:Semantic Guidanceを用いたテキスト・画像モデルの指導 SEGA: Instructing Text-to-Image Models using Semantic Guidance ( http://arxiv.org/abs/2301.12247v2 ) ライセンス: Link先を確認 | Manuel Brack, Felix Friedrich, Dominik Hintersdorf, Lukas Struppek, Patrick Schramowski, Kristian Kersting | (参考訳) テキストから画像への拡散モデルは最近、テキストのみから高精細な画像を生成するという驚くべき能力で多くの関心を集めている。
しかし、ユーザの意図に沿ったワンショット生成を実現することはほぼ不可能であるが、入力プロンプトの小さな変更は、しばしば非常に異なる画像をもたらす。
これによりユーザはセマンティックコントロールがほとんどなくなる。
ユーザを制御するために、拡散プロセスと対話して、セマンティックな方向に沿って柔軟に操る方法を示す。
このセマンティックガイダンス(SEGA)は、分類器フリーガイダンスを使用して、任意の生成アーキテクチャに一般化する。
さらに重要なことは、微妙で広範囲な編集、構成やスタイルの変更、全体的な芸術的概念の最適化を可能にすることだ。
安定拡散,パエラ,DeepFloyd-IFなどの潜伏拡散モデルおよび画素拡散モデルにおけるSEGAの有効性を,様々なタスクを用いて実証し,その汎用性,柔軟性,既存手法よりも向上したことを示す。 Text-to-image diffusion models have recently received a lot of interest for their astonishing ability to produce high-fidelity images from text only. However, achieving one-shot generation that aligns with the user's intent is nearly impossible, yet small changes to the input prompt often result in very different images. This leaves the user with little semantic control. To put the user in control, we show how to interact with the diffusion process to flexibly steer it along semantic directions. This semantic guidance (SEGA) generalizes to any generative architecture using classifier-free guidance. More importantly, it allows for subtle and extensive edits, changes in composition and style, as well as optimizing the overall artistic conception. We demonstrate SEGA's effectiveness on both latent and pixel-based diffusion models such as Stable Diffusion, Paella, and DeepFloyd-IF using a variety of tasks, thus providing strong evidence for its versatility, flexibility, and improvements over existing methods. | 翻訳日:2023-11-06 18:16:27 公開日:2023-11-02 |
# 連続および離散変数デバイス間の量子モード転送 Qumode transfer between continuous and discrete variable devices ( http://arxiv.org/abs/2305.03179v3 ) ライセンス: Link先を確認 | Alexandru Macridin and Andy C. Y. Li and Panagiotis Spentzouris | (参考訳) 異なる種類の量子ハードウェア間で量子情報を転送することは、統合量子技術にとって不可欠である。
特に、連続変数(cv)と離散変数(dv)間の情報変換は、量子ネットワーク、量子センシング、量子機械学習、量子コンピューティングにおいて多くの応用を可能にする。
本稿では,CVとDVデバイス間のCV符号化情報の転送について述べる。
本稿では,DVデバイス上でCV状態を符号化し,CVゲートを実装するための資源効率の高い手法と,CVとDVデバイス間でCV状態を転送するための2つの測定プロトコルを提案する。
転送プロトコルの成功確率は測定結果に依存するため、DVデバイスに補助量子ビットを追加することにより、ほぼ決定論的値に増大することができる。 Transferring quantum information between different types of quantum hardware is crucial for integrated quantum technology. In particular, converting information between continuous-variable (CV) and discrete-variable (DV) devices enables many applications in quantum networking, quantum sensing, quantum machine learning, and quantum computing. This paper addresses the transfer of CV-encoded information between CV and DV devices. We present a resource-efficient method for encoding CV states and implementing CV gates on DV devices, as well as two measurement-based protocols for transferring CV states between CV and DV devices. The success probability of the transfer protocols depends on the measurement outcome and can be increased to near-deterministic values by adding ancillary qubits to the DV devices. | 翻訳日:2023-11-06 18:04:56 公開日:2023-11-02 |
# DIN-SQL: 自己補正によるテキストからSQLへのインコンテキスト学習 DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction ( http://arxiv.org/abs/2304.11015v3 ) ライセンス: Link先を確認 | Mohammadreza Pourreza, Davood Rafiei | (参考訳) 現時点では、spiderのようなデータセットで評価されるように、微調整されたモデルのパフォーマンスと、テキストからsqlへの挑戦的なタスクで大規模言語モデル(llm)を使用するアプローチの間に大きなギャップがある。
推論過程におけるLLMの性能向上のために,タスクを小さなサブタスクに分解する方法を検討する。
特に,生成問題を部分問題に分解し,それらの部分問題の解をllmに供給することは,その性能を著しく向上させる効果的なアプローチであることを示す。
3つのLLMを用いた実験により,本手法は単純小ショット性能を約10%向上させ,SOTAの精度を向上させるか,それを超えるかを示す。
クモのホールドアウトテストセットでは、実行精度の点でsotaは79.9で、この記事執筆時の新しいsotaは85.3であった。
コンテキスト内学習によるアプローチは、多くの微調整されたモデルを少なくとも5%上回っています。
さらに、birdベンチマークで評価すると、55.9%の実行精度を達成し、ホールドアウトテストセットに新しいsomaを設定した。 There is currently a significant gap between the performance of fine-tuned models and prompting approaches using Large Language Models (LLMs) on the challenging task of text-to-SQL, as evaluated on datasets such as Spider. To improve the performance of LLMs in the reasoning process, we study how decomposing the task into smaller sub-tasks can be effective. In particular, we show that breaking down the generation problem into sub-problems and feeding the solutions of those sub-problems into LLMs can be an effective approach for significantly improving their performance. Our experiments with three LLMs show that this approach consistently improves their simple few-shot performance by roughly 10%, pushing the accuracy of LLMs towards SOTA or surpassing it. On the holdout test set of Spider, the SOTA, in terms of execution accuracy, was 79.9 and the new SOTA at the time of this writing using our approach is 85.3. Our approach with in-context learning beats many heavily fine-tuned models by at least 5%. Additionally, when evaluated on the BIRD benchmark, our approach achieved an execution accuracy of 55.9%, setting a new SOTA on its holdout test set. | 翻訳日:2023-11-06 18:04:10 公開日:2023-11-02 |
# ダブルロバストなセルフトレーニング Doubly Robust Self-Training ( http://arxiv.org/abs/2306.00265v3 ) ライセンス: Link先を確認 | Banghua Zhu, Mingyu Ding, Philip Jacobson, Ming Wu, Wei Zhan, Michael Jordan, Jiantao Jiao | (参考訳) 自己学習は半教師付き学習問題を解決する重要な手法である。
擬似ラベルを生成して、限定ラベル付きデータセットと組み合わせてトレーニングすることで、ラベルのないデータを活用する。
自己学習の有効性は、これらの擬似ラベルの精度に大きく依存する。
本稿では,2つのエクストリーム間のバランスを確実に表す新しい半教師付きアルゴリズムである,二重頑健な自己学習を提案する。
擬似ラベルが完全に正しくない場合、ラベル付きデータのみを使用してトレーニングプロセスに還元する。
逆に、擬似ラベルが完全に正確である場合には、擬似ラベル付きデータとラベル付きデータを利用するトレーニングプロセスに変換し、有効サンプルサイズを増大させる。
画像分類のためのImageNetデータセットと3次元オブジェクト検出のためのnuScenes自律走行データセットの両方に関する実証的な評価を通じて、標準の自己学習ベースラインよりも2倍頑健な損失が優れていることを示す。 Self-training is an important technique for solving semi-supervised learning problems. It leverages unlabeled data by generating pseudo-labels and combining them with a limited labeled dataset for training. The effectiveness of self-training heavily relies on the accuracy of these pseudo-labels. In this paper, we introduce doubly robust self-training, a novel semi-supervised algorithm that provably balances between two extremes. When the pseudo-labels are entirely incorrect, our method reduces to a training process solely using labeled data. Conversely, when the pseudo-labels are completely accurate, our method transforms into a training process utilizing all pseudo-labeled data and labeled data, thus increasing the effective sample size. Through empirical evaluations on both the ImageNet dataset for image classification and the nuScenes autonomous driving dataset for 3D object detection, we demonstrate the superiority of the doubly robust loss over the standard self-training baseline. | 翻訳日:2023-11-06 17:56:08 公開日:2023-11-02 |
# 拡散モデルは視覚・言語共振器か? Are Diffusion Models Vision-And-Language Reasoners? ( http://arxiv.org/abs/2305.16397v3 ) ライセンス: Link先を確認 | Benno Krojer, Elinor Poole-Dayan, Vikram Voleti, Christopher Pal, Siva Reddy | (参考訳) テキスト条件付き画像生成モデルは最近、ノイズ拡散プロセスを用いて膨大な定性的成功を示している。
しかし、識別的視覚・言語モデルとは異なり、これらの拡散に基づく生成モデルを用いて合成性などの高レベル現象の自動細粒度定量的評価を行うことは非自明な課題である。
この目標に向けて、私たちは2つのイノベーションを実行します。
まず、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対して拡散モデル(この場合、安定拡散)を変換する。
第2に,7つの複雑な視覚言語タスク,バイアス評価,詳細な分析を備えた生成的判別評価ベンチマーク(gdbench)ベンチマークを紹介する。
安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。
生成能力を保ちながらMS-COCOを微調整し, 転送設定により構成性能をさらに向上する。
また, 拡散モデルにおける定型バイアスを測定し, 安定拡散2.1は, ほとんどが安定拡散1.5よりも偏りが少ないことを見出した。
全体として,本研究の結果は,差別的・生成的モデル評価を近づけるエキサイティングな方向を示している。
間もなくコードとベンチマークのセットアップをリリースします。 Text-conditioned image generation models have recently shown immense qualitative success using denoising diffusion processes. However, unlike discriminative vision-and-language models, it is a non-trivial task to subject these diffusion-based generative models to automatic fine-grained quantitative evaluation of high-level phenomena such as compositionality. Towards this goal, we perform two innovations. First, we transform diffusion-based models (in our case, Stable Diffusion) for any image-text matching (ITM) task using a novel method called DiffusionITM. Second, we introduce the Generative-Discriminative Evaluation Benchmark (GDBench) benchmark with 7 complex vision-and-language tasks, bias evaluation and detailed analysis. We find that Stable Diffusion + DiffusionITM is competitive on many tasks and outperforms CLIP on compositional tasks like like CLEVR and Winoground. We further boost its compositional performance with a transfer setup by fine-tuning on MS-COCO while retaining generative capabilities. We also measure the stereotypical bias in diffusion models, and find that Stable Diffusion 2.1 is, for the most part, less biased than Stable Diffusion 1.5. Overall, our results point in an exciting direction bringing discriminative and generative model evaluation closer. We will release code and benchmark setup soon. | 翻訳日:2023-11-06 17:54:27 公開日:2023-11-02 |
# データ再構築のデコンストラクション:マルチクラス、軽量化、一般的な損失 Deconstructing Data Reconstruction: Multiclass, Weight Decay and General Losses ( http://arxiv.org/abs/2307.01827v2 ) ライセンス: Link先を確認 | Gon Buzaglo, Niv Haim, Gilad Yehudai, Gal Vardi, Yakir Oz, Yaniv Nikankin and Michal Irani | (参考訳) トレーニングデータの記憶は活発な研究分野であるが、ニューラルネットワークの内部動作に関する我々の理解はまだ初期段階にある。
近年,haimら (2022) は多層型パーセプトロンバイナリ分類器からトレーニングサンプルを再構成する手法を提案し,トレーニングサンプルの大部分がそのようなネットワークのパラメータにエンコードされていることを効果的に証明した。
本研究では,マルチクラスニューラルネットワークや畳み込みニューラルネットワークからの再構成など,その知見をいくつかの方向に拡張する。
回帰損失のようなより広い範囲の損失関数に適用可能な、より一般的な再構成スキームを導出する。
さらに,ネットワークがそのような再構築計画に感受性を及ぼす様々な要因について検討した。
興味深いことに、トレーニング中に重量減少を使用することで、量と品質の両面で復元性が向上する。
さらに, トレーニング標本数に対するニューロン数の影響について検討した。
コード: https://github.com/gonbuzaglo/decoreco Memorization of training data is an active research area, yet our understanding of the inner workings of neural networks is still in its infancy. Recently, Haim et al. (2022) proposed a scheme to reconstruct training samples from multilayer perceptron binary classifiers, effectively demonstrating that a large portion of training samples are encoded in the parameters of such networks. In this work, we extend their findings in several directions, including reconstruction from multiclass and convolutional neural networks. We derive a more general reconstruction scheme which is applicable to a wider range of loss functions such as regression losses. Moreover, we study the various factors that contribute to networks' susceptibility to such reconstruction schemes. Intriguingly, we observe that using weight decay during training increases reconstructability both in terms of quantity and quality. Additionally, we examine the influence of the number of neurons relative to the number of training samples on the reconstructability. Code: https://github.com/gonbuzaglo/decoreco | 翻訳日:2023-11-06 17:42:14 公開日:2023-11-02 |
# 短距離2体相互作用を有するスピン鎖におけるスケーラブル多体ベル相関の生成 Generation of scalable many-body Bell correlations in spin chains with short-range two-body interactions ( http://arxiv.org/abs/2306.06173v2 ) ライセンス: Link先を確認 | Marcin P{\l}odzie\'n, Tomasz Wasak, Emilia Witkowska, Maciej Lewenstein, Jan Chwede\'nczuk | (参考訳) 多体エンタングルメントやベル相関のような強いスケーラブルな量子資源の動的生成は、一軸ツイストプロトコルを実現する定常相互作用強度やパワー-ロー崩壊ポテンシャルのいずれにおいても、全対全相互作用で可能である。
しかしながら、そのような量子資源は、有限範囲の相互作用で動的に生成されることも示している。
必要な臨界範囲を特定し、スケーラブルな量子相関が現れる臨界時間を示す。
最後に,現代の量子シミュレータプラットフォームでは,生成状態の認証が可能であることを示す。 Dynamical generation of strong and scalable quantum resources, like many-body entanglement and Bell correlations, in spin-$1/2$ chains, is possible with all-to-all interactions, either for constant interaction strength realizing one-axis twisting protocol or for power-law decaying potentials. We show, however, that such quantum resources can also be dynamically generated with a finite range of interactions. We identify a necessary critical range and indicate a critical time when scalable quantum correlations appear. Finally, we show that the certification of generated states is accessible in the modern quantum simulator platforms. | 翻訳日:2023-11-06 17:39:07 公開日:2023-11-02 |
# アドバンテージ誘導型ポリシーアライメントを用いた微調整言語モデル Fine-Tuning Language Models with Advantage-Induced Policy Alignment ( http://arxiv.org/abs/2306.02231v3 ) ライセンス: Link先を確認 | Banghua Zhu, Hiteshi Sharma, Felipe Vieira Frujeri, Shi Dong, Chenguang Zhu, Michael I. Jordan, Jiantao Jiao | (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるための信頼性の高いアプローチとして現れている。
多くのrlhf技術の中で、近位政策最適化(proximal policy optimization, ppo)は最も広く使われている手法である。
しかし、その人気にもかかわらず、PPOはモード崩壊、不安定、サンプル効率の低下に悩まされる。
提案手法は,提案手法の利点を活かした2乗誤差損失関数を応用した,Advantage-induced Policy Alignment (APA) と呼ばれる新しいアルゴリズムによって緩和可能であることを示す。
我々は,APAが言語タスクにおいて,個別の報酬モデルを用いて評価を行う場合,PPOをはるかに上回っていることを示す。
さらに、PPOと比較して、APAはモデルの初期ポリシーからの逸脱をより安定した制御形態を提供し、決定論的出力に崩壊することなく、モデルの性能を向上させる。
実験結果に加えて,損失関数の設計を支援する理論的正当性も提供する。 Reinforcement learning from human feedback (RLHF) has emerged as a reliable approach to aligning large language models (LLMs) to human preferences. Among the plethora of RLHF techniques, proximal policy optimization (PPO) is of the most widely used methods. Despite its popularity, however, PPO may suffer from mode collapse, instability, and poor sample efficiency. We show that these issues can be alleviated by a novel algorithm that we refer to as Advantage-Induced Policy Alignment (APA), which leverages a squared error loss function based on the estimated advantages. We demonstrate empirically that APA consistently outperforms PPO in language tasks by a large margin, when a separate reward model is employed as the evaluator. In addition, compared with PPO, APA offers a more stable form of control over the deviation from the model's initial policy, ensuring that the model improves its performance without collapsing to deterministic output. In addition to empirical results, we also provide a theoretical justification supporting the design of our loss function. | 翻訳日:2023-11-06 17:38:41 公開日:2023-11-02 |
# 深層学習ネットワークは画像生成に必要か? Is Deep Learning Network Necessary for Image Generation? ( http://arxiv.org/abs/2308.13612v2 ) ライセンス: Link先を確認 | Chenqiu Zhao, Guanfang Dong, Anup Basu | (参考訳) 近年、画像は高次元分布のサンプルと見なされ、深層学習は画像生成とほぼ同義語になっている。
しかし、画像生成には深層学習ネットワークが本当に必要か?
本稿では,画像が高次元分布に従うという仮定を検証することによって,ディープラーニングネットワークを用いずに画像生成の可能性を検討する。
画像はそのような分布からのサンプルであると仮定するため,ガウス混合モデル(GMM)を用いて記述する。
特に,最近の分布学習手法であるmontal-carlo marginalizationを用いて,gmmのパラメータを画像サンプルに基づいて捉える。
さらに,次元減少のためにSingular Value Decomposition (SVD) を用いて計算複雑性を低減する。
評価実験では,まず,画像サンプルの分布を直接モデル化して,画像が真の分布に従うという仮定を検証する。
次に, SVD を用いて次元還元を行う。
主要なコンポーネントは、生の画像データではなく、分散学習に使用される。
ディープラーニングネットワークに依存する手法と比較して,このアプローチはより説明可能であり,その性能は有望である。
実験により,可変オートエンコーダが生成する画像に比べてfid値が低く,深層学習ネットワークを介さずに画像生成が可能となった。 Recently, images are considered samples from a high-dimensional distribution, and deep learning has become almost synonymous with image generation. However, is a deep learning network truly necessary for image generation? In this paper, we investigate the possibility of image generation without using a deep learning network, motivated by validating the assumption that images follow a high-dimensional distribution. Since images are assumed to be samples from such a distribution, we utilize the Gaussian Mixture Model (GMM) to describe it. In particular, we employ a recent distribution learning technique named as Monte-Carlo Marginalization to capture the parameters of the GMM based on image samples. Moreover, we also use the Singular Value Decomposition (SVD) for dimensionality reduction to decrease computational complexity. During our evaluation experiment, we first attempt to model the distribution of image samples directly to verify the assumption that images truly follow a distribution. We then use the SVD for dimensionality reduction. The principal components, rather than raw image data, are used for distribution learning. Compared to methods relying on deep learning networks, our approach is more explainable, and its performance is promising. Experiments show that our images have a lower FID value compared to those generated by variational auto-encoders, demonstrating the feasibility of image generation without deep learning networks. | 翻訳日:2023-11-06 17:31:30 公開日:2023-11-02 |
# landscape surrogate: 部分的情報に基づく数学的最適化のための学習決定損失 Landscape Surrogate: Learning Decision Losses for Mathematical Optimization Under Partial Information ( http://arxiv.org/abs/2307.08964v2 ) ライセンス: Link先を確認 | Arman Zharmagambetov, Brandon Amos, Aaron Ferber, Taoan Huang, Bistra Dilkina, Yuandong Tian | (参考訳) 学習統合最適化に関する最近の研究は、最適化問題が部分的にしか観察されていない場合や、汎用最適化が専門的なチューニングなしではうまく機能しない場合において、期待が持たれている。
目的として$f$でこれらの困難な問題に取り組むために最適化器$\mathbf{g}$を学習することで、過去の経験を活用することで最適化プロセスを大幅に加速することができる。
最適化子は、既知の最適解の監督や、複合関数 $f\circ \mathbf{g}$ を最適化することで暗黙的に訓練することができる。
暗黙のアプローチはラベルとして最適なソリューションを必要としないため、問題の不確実性を扱うことができるが、トレーニングとテストの両方において、Optimator $\mathbf{g}$を頻繁に呼び出すため、トレーニングとデプロイが遅い。
この訓練はさらに$\mathbf{g}$のスパース勾配、特に組合せ解法に対して挑戦される。
これらの課題に対処するため、スムーズで学習可能なランドスケープサロゲート$M$を$f\circ \mathbf{g}$の代替として提案する。
このサロゲートはニューラルネットワークによって学習可能で、ソルバ$\mathbf{g}$より高速に計算でき、トレーニング中に密度が高く滑らかな勾配を提供し、目に見えない最適化問題に一般化でき、交互最適化によって効率的に学習される。
我々は,最短経路と多次元クナップサックを含む合成問題と,ポートフォリオ最適化のような実世界の問題,最先端のベースラインと比較して同等あるいは優れた目標値を達成すること,およびコール数を$\mathbf{g}$に削減すること,の両方法を試行する。
特に,計算コストの高い高次元問題に対する既存の手法を上回っている。 Recent works in learning-integrated optimization have shown promise in settings where the optimization problem is only partially observed or where general-purpose optimizers perform poorly without expert tuning. By learning an optimizer $\mathbf{g}$ to tackle these challenging problems with $f$ as the objective, the optimization process can be substantially accelerated by leveraging past experience. The optimizer can be trained with supervision from known optimal solutions or implicitly by optimizing the compound function $f\circ \mathbf{g}$. The implicit approach may not require optimal solutions as labels and is capable of handling problem uncertainty; however, it is slow to train and deploy due to frequent calls to optimizer $\mathbf{g}$ during both training and testing. The training is further challenged by sparse gradients of $\mathbf{g}$, especially for combinatorial solvers. To address these challenges, we propose using a smooth and learnable Landscape Surrogate $M$ as a replacement for $f\circ \mathbf{g}$. This surrogate, learnable by neural networks, can be computed faster than the solver $\mathbf{g}$, provides dense and smooth gradients during training, can generalize to unseen optimization problems, and is efficiently learned via alternating optimization. We test our approach on both synthetic problems, including shortest path and multidimensional knapsack, and real-world problems such as portfolio optimization, achieving comparable or superior objective values compared to state-of-the-art baselines while reducing the number of calls to $\mathbf{g}$. Notably, our approach outperforms existing methods for computationally expensive high-dimensional problems. | 翻訳日:2023-11-06 17:28:39 公開日:2023-11-02 |
# 変数の代替:リスク-逆ポリシー勾配に対するジーニ偏差 An Alternative to Variance: Gini Deviation for Risk-averse Policy Gradient ( http://arxiv.org/abs/2307.08873v3 ) ライセンス: Link先を確認 | Yudong Luo, Guiliang Liu, Pascal Poupart, Yangchen Pan | (参考訳) 政策の回帰の分散を制限することは、その明確な数学的定義と容易に解釈できるため、リスク回避強化学習(RL)において一般的な選択である。
従来の手法では、全戻り値の分散を直接制限する。
最近の方法は、プロキシとしてのステップごとの報酬分散を制限する。
数値スケールに対する感受性や政策学習の妨げなど,これらの分散に基づく手法の限界を徹底的に検討し,代替リスク尺度であるジーニ偏差を代替手段として用いることを提案する。
我々は,この新しいリスク尺度の諸特性を調査し,その最小化のための政策勾配アルゴリズムを導出する。
リスク回避が明確に定義できる領域における経験的評価から,本アルゴリズムは分散に基づくリスク対策の限界を緩和し,他者が合理的な方針を学習できない場合,分散やgini偏差の面で低いリスクで高いリターンを達成することができることを示した。 Restricting the variance of a policy's return is a popular choice in risk-averse Reinforcement Learning (RL) due to its clear mathematical definition and easy interpretability. Traditional methods directly restrict the total return variance. Recent methods restrict the per-step reward variance as a proxy. We thoroughly examine the limitations of these variance-based methods, such as sensitivity to numerical scale and hindering of policy learning, and propose to use an alternative risk measure, Gini deviation, as a substitute. We study various properties of this new risk measure and derive a policy gradient algorithm to minimize it. Empirical evaluation in domains where risk-aversion can be clearly defined, shows that our algorithm can mitigate the limitations of variance-based risk measures and achieves high return with low risk in terms of variance and Gini deviation when others fail to learn a reasonable policy. | 翻訳日:2023-11-06 17:28:05 公開日:2023-11-02 |
# 量子メモリ: 量子コンピューティングユニットの欠落部分 Quantum Memory: A Missing Piece in Quantum Computing Units ( http://arxiv.org/abs/2309.14432v2 ) ライセンス: Link先を確認 | Chenxu Liu, Meng Wang, Samuel A. Stein, Yufei Ding, Ang Li | (参考訳) メモリは古典コンピューティングシステムにおいて必須のコンポーネントである。
量子コンピューティングの開発はまだ初期段階だが、現在の量子処理ユニットは主に量子レジスタとして機能する。
したがって、将来の量子コンピューティングアーキテクチャにおける量子メモリの実際の役割は未だ不明である。
量子ビットの急速なスケーリングにより、異なる基板デバイス技術とアプリケーションシナリオにわたる量子メモリの可能性と実現可能性を探ることが必須である。
本稿では、量子メモリの完全な設計スタックビューを提供する。
まず、量子メモリデバイス、量子メモリセルの基本コンポーネントから始めます。
量子メモリセルへの抽象化を提供し、物理プラットフォームのパフォーマンスを測定するためのメトリクスを定義します。
アドレス指定機能と組み合わせることで、ランダムアクセス量子メモリ(raqm)と量子ランダムアクセスメモリ(qram)の2種類の量子メモリデバイスをレビューする。
これらのデバイス上に構築された量子メモリユニットは、量子メモリユニットの構築、量子キャッシュ、量子バッファ、量子入出力モジュールのQRAMの使用など、コンピューティングアーキテクチャにおける量子メモリユニットである。
さらに,量子メモリユニットのプログラミングモデルを提案し,その応用可能性について考察する。
本研究は、量子情報科学(QIS)と古典記憶コミュニティの両方の研究者を惹きつけ、この新興でエキサイティングな分野に参入させることを目的としている。 Memory is an indispensable component in classical computing systems. While the development of quantum computing is still in its early stages, current quantum processing units mainly function as quantum registers. Consequently, the actual role of quantum memory in future advanced quantum computing architectures remains unclear. With the rapid scaling of qubits, it is opportune to explore the potential and feasibility of quantum memory across different substrate device technologies and application scenarios. In this paper, we provide a full design stack view of quantum memory. We start from the elementary component of a quantum memory device, quantum memory cells. We provide an abstraction to a quantum memory cell and define metrics to measure the performance of physical platforms. Combined with addressing functionality, we then review two types of quantum memory devices: random access quantum memory (RAQM) and quantum random access memory (QRAM). Building on top of these devices, quantum memory units in the computing architecture, including building a quantum memory unit, quantum cache, quantum buffer, and using QRAM for the quantum input-output module, are discussed. We further propose the programming model for the quantum memory units and discuss their possible applications. By presenting this work, we aim to attract more researchers from both the Quantum Information Science (QIS) and classical memory communities to enter this emerging and exciting area. | 翻訳日:2023-11-06 17:18:06 公開日:2023-11-02 |
# egofalls - エゴセントリックカメラを用いた視覚聴覚データセットと転倒検出ベンチマーク EGOFALLS: A visual-audio dataset and benchmark for fall detection using egocentric cameras ( http://arxiv.org/abs/2309.04579v3 ) ライセンス: Link先を確認 | Xueyi Wang | (参考訳) 転倒は重大であり、高齢者のような脆弱な人口にとって致命的である。
これまでの研究は、単一のセンサー、画像、加速度計によるデータキャプチャによるフォールの検出に対処してきた。
本研究では,エゴセントリックカメラで撮影した映像から抽出したマルチモーダルディスクリプタを利用する。
提案手法は,抽出した記述子上に構築した遅延決定融合層を含む。
さらに,提案手法を評価するためのデータセットを新たに収集した。
この種の公開データセットとしてはこれが初めてのものだと考えています。
データセットは、14人の被験者による10,948のビデオサンプルからなる。
個々の特徴抽出器の性能,視覚情報の融合,視覚情報と音声情報の融合を評価するため,アブレーション実験を行った。
さらに,内部および外部のクロスバリデーション実験を行った。
その結果,遅延決定融合による音声情報と視覚情報の融合により検出性能が向上し,転倒防止・緩和に有望なツールとなることが示された。 Falls are significant and often fatal for vulnerable populations such as the elderly. Previous works have addressed the detection of falls by relying on data capture by a single sensor, images or accelerometers. In this work, we rely on multimodal descriptors extracted from videos captured by egocentric cameras. Our proposed method includes a late decision fusion layer that builds on top of the extracted descriptors. Furthermore, we collect a new dataset on which we assess our proposed approach. We believe this is the first public dataset of its kind. The dataset comprises 10,948 video samples by 14 subjects. We conducted ablation experiments to assess the performance of individual feature extractors, fusion of visual information, and fusion of both visual and audio information. Moreover, we experimented with internal and external cross-validation. Our results demonstrate that the fusion of audio and visual information through late decision fusion improves detection performance, making it a promising tool for fall prevention and mitigation. | 翻訳日:2023-11-06 17:15:36 公開日:2023-11-02 |
# MRIにおける教師なし異常分節に対する仮設条件拡散を伴うモードサイクル Modality Cycles with Masked Conditional Diffusion for Unsupervised Anomaly Segmentation in MRI ( http://arxiv.org/abs/2308.16150v3 ) ライセンス: Link先を確認 | Ziyun Liang, Harry Anthony, Felix Wagner, Konstantinos Kamnitsas | (参考訳) 教師なし異常分割(unsupervised anomaly segmentation)は、トレーニング中に処理されたパターンとは別のパターンを検出することを目的としている。
デプロイメント中の異常はモデル障害を引き起こす可能性があるため、異常の検出はモデルの信頼性を高めることができ、医療画像のようなリスクの高い領域で有用である。
本稿では,マルチモーダルMRIにおける様々なパターンにまたがる異常のセグメンテーションを可能にするMMCCD(Masked Modality Cycles with Conditional Diffusion)を提案する。
この方法は2つの基本的な考え方に基づいている。
まず, 異常検出を可能にするメカニズムとして循環様相変換を用いることを提案する。
画像翻訳モデルは、組織生理学の特徴である組織特異的モダリティマッピングを学習する。
したがって、これらの学習されたマッピングは、トレーニング中に遭遇したことのない組織や画像パターンの変換に失敗し、エラーによってセグメンテーションが可能になる。
さらに、画像翻訳とマスク付き条件拡散モデルを組み合わせることで、マスク付き領域下に存在する組織を「想像」し、生成モデルがそれらを再現できないため、未知のパターンを明らかにする。
我々は,BraTS2021多モードMRIの健全なスライスをトレーニングし,腫瘍のあるスライスを試験することにより,プロキシタスクにおける手法の評価を行った。
本稿では,画像再構成とデノナイズに基づく教師なし手法と,オートエンコーダや拡散モデルとの比較を行った。 Unsupervised anomaly segmentation aims to detect patterns that are distinct from any patterns processed during training, commonly called abnormal or out-of-distribution patterns, without providing any associated manual segmentations. Since anomalies during deployment can lead to model failure, detecting the anomaly can enhance the reliability of models, which is valuable in high-risk domains like medical imaging. This paper introduces Masked Modality Cycles with Conditional Diffusion (MMCCD), a method that enables segmentation of anomalies across diverse patterns in multimodal MRI. The method is based on two fundamental ideas. First, we propose the use of cyclic modality translation as a mechanism for enabling abnormality detection. Image-translation models learn tissue-specific modality mappings, which are characteristic of tissue physiology. Thus, these learned mappings fail to translate tissues or image patterns that have never been encountered during training, and the error enables their segmentation. Furthermore, we combine image translation with a masked conditional diffusion model, which attempts to `imagine' what tissue exists under a masked area, further exposing unknown patterns as the generative model fails to recreate them. We evaluate our method on a proxy task by training on healthy-looking slices of BraTS2021 multi-modality MRIs and testing on slices with tumors. We show that our method compares favorably to previous unsupervised approaches based on image reconstruction and denoising with autoencoders and diffusion models. | 翻訳日:2023-11-06 17:14:34 公開日:2023-11-02 |
# 『Kelly is a Warm Person, Joseph is a Role Model』 LLM-Generated Reference Letters におけるジェンダーバイアス "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters ( http://arxiv.org/abs/2310.09219v4 ) ライセンス: Link先を確認 | Yixin Wan, George Pu, Jiao Sun, Aparna Garimella, Kai-Wei Chang, Nanyun Peng | (参考訳) 大規模言語モデル(LLM)は、リコメンデーションレターなどの専門文書など、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
利便性をもたらすが、このアプリケーションには前例のない公平性の懸念もある。
モデル生成参照文字は、プロのシナリオでユーザーが直接使用することもある。
これらのモデル構築された文字に根底にあるバイアスが存在する場合、精査なしで使用すると、女性の応募者にとってのアプリケーション成功率を妨害するなど、直接的な社会的害につながる可能性がある。
この差し迫った問題を踏まえると、この実世界のユースケースにおいて公平性の問題と関連する損害を包括的に研究する必要がある。
本稿では,llm生成基準文字における性別バイアスを批判的に検討する。
社会科学の知見からインスピレーションを得て,(1)言語スタイルバイアス,(2)語彙コンテンツバイアスという2次元のバイアスを顕示する評価手法を設計した。
さらに,モデルの幻覚バイアスを解析することにより,バイアス伝播の程度について検討する。
2つのLLMsChatGPTとAlpacaのベンチマーク評価により,LLM生成レコメンデーションレコメンデーションレターに有意な性別バイアスが認められた。
本研究は, LLM の使用を精査せずに警告するだけでなく, LLM 生成専門文書における隠れバイアスや害を徹底的に研究することの重要性も明らかにした。 Large Language Models (LLMs) have recently emerged as an effective tool to assist individuals in writing various types of content, including professional documents such as recommendation letters. Though bringing convenience, this application also introduces unprecedented fairness concerns. Model-generated reference letters might be directly used by users in professional scenarios. If underlying biases exist in these model-constructed letters, using them without scrutinization could lead to direct societal harms, such as sabotaging application success rates for female applicants. In light of this pressing issue, it is imminent and necessary to comprehensively study fairness issues and associated harms in this real-world use case. In this paper, we critically examine gender biases in LLM-generated reference letters. Drawing inspiration from social science findings, we design evaluation methods to manifest biases through 2 dimensions: (1) biases in language style and (2) biases in lexical content. We further investigate the extent of bias propagation by analyzing the hallucination bias of models, a term that we define to be bias exacerbation in model-hallucinated contents. Through benchmarking evaluation on 2 popular LLMs- ChatGPT and Alpaca, we reveal significant gender biases in LLM-generated recommendation letters. Our findings not only warn against using LLMs for this application without scrutinization, but also illuminate the importance of thoroughly studying hidden biases and harms in LLM-generated professional documents. | 翻訳日:2023-11-06 17:07:25 公開日:2023-11-02 |
# observatory:リレーショナルテーブルの埋め込みを特徴付ける Observatory: Characterizing Embeddings of Relational Tables ( http://arxiv.org/abs/2310.07736v2 ) ライセンス: Link先を確認 | Tianji Cong, Madelon Hulsebos, Zhenjie Sun, Paul Groth, H. V. Jagadish | (参考訳) 言語モデルと特殊なテーブル埋め込みモデルは最近、表データよりも多くのタスクで強いパフォーマンスを示している。
研究者や実践者は、これらのモデルを多くの新しいアプリケーションコンテキストで活用したいと熱心に考えている。しかし、これらのモデルの強みと弱さ、そしてそれらが生成するテーブル表現について、試行錯誤に依存するタスクに適したモデルを見つけるプロセスは限られている。
下流利用における非効率性と失敗を最小限に抑えるために、これらのモデルの包括的な理解を得る必要がある。
そこで本稿では,関係表の埋め込み表現を体系的に解析する形式的フレームワークであるobservationを提案する。
関係データモデルの不変性とデータ分布に関する統計的考察の両方により動機づけられた8つの原始的性質と、これらの性質の表埋め込みを定量的に特徴付けるための対応する尺度を定義する。
これらの特性に基づき、言語および表埋め込みモデルを評価する拡張可能なフレームワークを定義する。
データセットの集合を収集し合成し、オブザーバを使用して9つのモデルを分析します。
我々の分析は、テーブル上の学習表現の強みと弱みに関する洞察を提供する。
例えば、列の順序のようなテーブル構造に敏感なモデルもあり、機能的依存関係は埋め込みにはほとんど反映されず、特殊なテーブル埋め込みモデルは比較的低いサンプル忠実度を持つ。
このような洞察は、研究者や実践者がモデルの振る舞いをよりよく予測し、下流のタスクに適したモデルを選択するのに役立つ。 Language models and specialized table embedding models have recently demonstrated strong performance on many tasks over tabular data. Researchers and practitioners are keen to leverage these models in many new application contexts; but limited understanding of the strengths and weaknesses of these models, and the table representations they generate, makes the process of finding a suitable model for a given task reliant on trial and error. There is an urgent need to gain a comprehensive understanding of these models to minimize inefficiency and failures in downstream usage. To address this need, we propose Observatory, a formal framework to systematically analyze embedding representations of relational tables. Motivated both by invariants of the relational data model and by statistical considerations regarding data distributions, we define eight primitive properties, and corresponding measures to quantitatively characterize table embeddings for these properties. Based on these properties, we define an extensible framework to evaluate language and table embedding models. We collect and synthesize a suite of datasets and use Observatory to analyze nine such models. Our analysis provides insights into the strengths and weaknesses of learned representations over tables. We find, for example, that some models are sensitive to table structure such as column order, that functional dependencies are rarely reflected in embeddings, and that specialized table embedding models have relatively lower sample fidelity. Such insights help researchers and practitioners better anticipate model behaviors and select appropriate models for their downstream tasks, while guiding researchers in the development of new models. | 翻訳日:2023-11-06 17:05:19 公開日:2023-11-02 |
# データ駆動型凸非凸規則化の可能性 Provably Convergent Data-Driven Convex-Nonconvex Regularization ( http://arxiv.org/abs/2310.05812v2 ) ライセンス: Link先を確認 | Zakhar Shumaylov, Jeremy Budd, Subhadip Mukherjee, Carola-Bibiane Sch\"onlieb | (参考訳) 逆問題を解く新しいパラダイムは、データから正規化子を学ぶためにディープラーニングを利用することである。
これは高品質な結果をもたらすが、しばしば証明可能な保証のコストがかかる。
本研究では,逆問題に対する凸凸非凸(CNC)フレームワークにおいて,正則性および収束正則性がどのように生じるかを示す。
我々は,CNCフレームワークに学習逆正則化の手法を適用するために,新しい入力弱凸ニューラルネットワーク(IWCNN)を導入する。
経験的に,本手法は先行手法の数値的問題を克服することを示す。 An emerging new paradigm for solving inverse problems is via the use of deep learning to learn a regularizer from data. This leads to high-quality results, but often at the cost of provable guarantees. In this work, we show how well-posedness and convergent regularization arises within the convex-nonconvex (CNC) framework for inverse problems. We introduce a novel input weakly convex neural network (IWCNN) construction to adapt the method of learned adversarial regularization to the CNC framework. Empirically we show that our method overcomes numerical issues of previous adversarial methods. | 翻訳日:2023-11-06 17:04:18 公開日:2023-11-02 |
# パーソナライズされたオウムはより危険か?
対話システムにおけるペルソナバイアスの評価 Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona Biases in Dialogue Systems ( http://arxiv.org/abs/2310.05280v5 ) ライセンス: Link先を確認 | Yixin Wan, Jieyu Zhao, Aman Chadha, Nanyun Peng, Kai-Wei Chang | (参考訳) 大規模言語モデルの最近の進歩は、会話における一般的な人格や特定の人格を模倣するなど、フリーフォームの指示に従うことを可能にする。
一般のペルソナを「アジア人」などの人口集団を表すものとして定義する一方、特定のペルソナは「弓」のような特定のアジア名の形をとることがある。
ペルソナの採用は対話システムをより魅力的にし、親しみやすくすることでユーザエクスペリエンスを高める一方で、モデル応答内の社会的バイアスを悪化させ、ユーザとのインタラクションを通じて社会的な危害をもたらすことにより、潜在的なリスクの影を形作る。
本稿では,対話モデルの有害な行動が,その行動に適応する人格に対する感受性として定義する「人格バイアス」を体系的に研究する。
我々は,人格バイアスを有害な表現と有害な合意のバイアスに分類し,攻撃性,有害継続性,関連性,ステレオタイプ合意,および有害合意の5つの側面において人格バイアスを測定する包括的な評価枠組みを確立する。
さらに,多種多様なモデルペルソナを包含するシステム構築型ペルソナデータセットであるuniversalpersonaを用いて,パーソナバイアスの調査を行う。
blender、chatgpt、alpaca、vicunaを含む4つの異なるモデルのベンチマークによって、対話システムにおける重要なペルソナバイアスが明らかになった。
また,対話エージェントにおけるペルソナの使用を再検討し,安全なアプリケーションを確保する必要性についても考察した。 Recent advancements in Large Language Models empower them to follow freeform instructions, including imitating generic or specific demographic personas in conversations. We define generic personas to represent demographic groups, such as "an Asian person", whereas specific personas may take the form of specific popular Asian names like "Yumi". While the adoption of personas enriches user experiences by making dialogue systems more engaging and approachable, it also casts a shadow of potential risk by exacerbating social biases within model responses, thereby causing societal harm through interactions with users. In this paper, we systematically study "persona biases", which we define to be the sensitivity of dialogue models' harmful behaviors contingent upon the personas they adopt. We categorize persona biases into biases in harmful expression and harmful agreement, and establish a comprehensive evaluation framework to measure persona biases in five aspects: Offensiveness, Toxic Continuation, Regard, Stereotype Agreement, and Toxic Agreement. Additionally, we propose to investigate persona biases by experimenting with UNIVERSALPERSONA, a systematically constructed persona dataset encompassing various types of both generic and specific model personas. Through benchmarking on four different models -- including Blender, ChatGPT, Alpaca, and Vicuna -- our study uncovers significant persona biases in dialogue systems. Our findings also underscore the pressing need to revisit the use of personas in dialogue agents to ensure safe application. | 翻訳日:2023-11-06 17:03:30 公開日:2023-11-02 |
# パラメータ化マニピュレーションプリミティブによる外部デキスタリティの学習 Learning Extrinsic Dexterity with Parameterized Manipulation Primitives ( http://arxiv.org/abs/2310.17785v2 ) ライセンス: Link先を確認 | Shih-Min Yang, Martin Magnusson, Johannes A. Stork, Todor Stoyanov | (参考訳) 実際には関連する多くのロボット把持問題は、例えば環境によって、すべての把持がオクルードされる対象オブジェクトを特徴としている。
このようなシナリオでは、シングルショットの把握計画が必ず失敗する。
代わりに、まずオブジェクトを把握可能な構成に操作する必要があります。
環境を利用してオブジェクトのポーズを変える一連のアクションを学習することで、この問題を解決する。
具体的には,階層的強化学習を用いて,学習パラメータ化操作プリミティブの列を合成する。
低レベルの操作ポリシーを学習することにより、オブジェクト、グリップ、環境間の相互作用を利用してオブジェクトの状態を制御することができる。
このような複雑な振る舞いを解析的に設計することは、相互作用と接触ダイナミクスの正確な物理的モデリングを必要とするため、制御不能な条件下では不可能である。
対照的に,対象検出やポーズ推定,コントローラの手動設計を必要とせず,深度知覚データに基づいて直接動作する階層的ポリシモデルを学ぶ。
制約のあるテーブルトップワークスペースから, 様々な重量, 形状, 摩擦特性を有する箱型物体を選定するアプローチを評価した。
提案手法は実際のロボットに移動し,98 %の実験実験で対象物抽出作業の完了を達成できる。 Many practically relevant robot grasping problems feature a target object for which all grasps are occluded, e.g., by the environment. Single-shot grasp planning invariably fails in such scenarios. Instead, it is necessary to first manipulate the object into a configuration that affords a grasp. We solve this problem by learning a sequence of actions that utilize the environment to change the object's pose. Concretely, we employ hierarchical reinforcement learning to combine a sequence of learned parameterized manipulation primitives. By learning the low-level manipulation policies, our approach can control the object's state through exploiting interactions between the object, the gripper, and the environment. Designing such a complex behavior analytically would be infeasible under uncontrolled conditions, as an analytic approach requires accurate physical modeling of the interaction and contact dynamics. In contrast, we learn a hierarchical policy model that operates directly on depth perception data, without the need for object detection, pose estimation, or manual design of controllers. We evaluate our approach on picking box-shaped objects of various weight, shape, and friction properties from a constrained table-top workspace. Our method transfers to a real robot and is able to successfully complete the object picking task in 98\% of experimental trials. | 翻訳日:2023-11-06 16:55:33 公開日:2023-11-02 |
# CATEモデル選択のための因果Q-集約 Causal Q-Aggregation for CATE Model Selection ( http://arxiv.org/abs/2310.16945v3 ) ライセンス: Link先を確認 | Hui Lan, Vasilis Syrgkanis | (参考訳) 条件平均治療効果(CATE)の正確な推定は、パーソナライズされた意思決定の中核にある。
CATE推定には多くのモデルが存在するが、因果推論の根本的な問題のため、モデル選択は非自明な作業である。
最近の実証研究は、二重ロバストな特性を持つプロキシ損失メトリクスとモデルアンサンブルを支持する証拠を提供する。
しかし、理論的な理解は不足している。
事前の理論的研究の直接適用は、モデル選択問題の非凸性に起因する最適オラクルモデル選択率につながる。
我々は,既存の主要なcate ensemblingアプローチに対する後悔率を提供し,二重ロバストな損失を用いたq集約に基づく新しいcate モデル ensemblingアプローチを提案する。
本結果から, 因果Q-集約は, 誤差関数の積に関する高次推定誤差項を付加することにより, 統計的に最適なオラクルモデル選択残差率$\frac{\log(M)}{n}$(M$モデルと$n$サンプルを含む)が得られることを示した。
重要なことは、我々の後悔率は、どの候補CATEモデルも真実に近いものを必要としない。
我々は、多くの半合成データセットで新しい手法を検証するとともに、モデル選択をインストゥルメンタル変数と非オブザーブドコンファウンディングで分類する作業の拡張も提供する。 Accurate estimation of conditional average treatment effects (CATE) is at the core of personalized decision making. While there is a plethora of models for CATE estimation, model selection is a nontrivial task, due to the fundamental problem of causal inference. Recent empirical work provides evidence in favor of proxy loss metrics with double robust properties and in favor of model ensembling. However, theoretical understanding is lacking. Direct application of prior theoretical work leads to suboptimal oracle model selection rates due to the non-convexity of the model selection problem. We provide regret rates for the major existing CATE ensembling approaches and propose a new CATE model ensembling approach based on Q-aggregation using the doubly robust loss. Our main result shows that causal Q-aggregation achieves statistically optimal oracle model selection regret rates of $\frac{\log(M)}{n}$ (with $M$ models and $n$ samples), with the addition of higher-order estimation error terms related to products of errors in the nuisance functions. Crucially, our regret rate does not require that any of the candidate CATE models be close to the truth. We validate our new method on many semi-synthetic datasets and also provide extensions of our work to CATE model selection with instrumental variables and unobserved confounding. | 翻訳日:2023-11-06 16:54:31 公開日:2023-11-02 |
# CP$^{\infty}$ and beyond: 2-カテゴリー拡張理論 CP$^{\infty}$ and beyond: 2-categorical dilation theory ( http://arxiv.org/abs/2310.15776v2 ) ライセンス: Link先を確認 | Robert Allen and Dominic Verdon | (参考訳) カテゴリー量子力学の洞察と技法を無限次元系に拡張する問題は (coecke and heunen, 2016) で検討された。
その仕事において、ヒルベルト空間と有界線型写像の圏からヒルベルト空間と量子演算の圏を復元する$\mathrm{CP}^{\infty}$-コンストラクションが定義された。
ここで、$\mathrm{cp}^{\infty}$-コンストラクションの‘ホリゾンタル分類’によって、フォン・ノイマン代数、双加群、インタートウィナーの2-圏 $[w^*]$ からすべてのフォン・ノイマン代数とチャネル(正規ユニタリ正の写像)の圏を回復できることを示す。
応用として、チェーの有限次元行列代数間の極端チャネルのキャラクタリゼーションを任意のフォン・ノイマン代数間の極端チャネルのキャラクタリゼーションに拡張する。 The problem of extending the insights and techniques of categorical quantum mechanics to infinite-dimensional systems was considered in (Coecke and Heunen, 2016). In that work the $\mathrm{CP}^{\infty}$-construction, which recovers the category of Hilbert spaces and quantum operations from the category of Hilbert spaces and bounded linear maps, was defined. Here we show that by a `horizontal categorification' of the $\mathrm{CP}^{\infty}$-construction, one can recover the category of all von Neumann algebras and channels (normal unital completely positive maps) from the 2-category $[W^*]$ of von Neumann algebras, bimodules and intertwiners. As an application, we extend Choi's characterisation of extremal channels between finite-dimensional matrix algebras to a characterisation of extremal channels between arbitrary von Neumann algebras. | 翻訳日:2023-11-06 16:52:31 公開日:2023-11-02 |
# CapsFusion: スケールでのイメージテキストデータの再考 CapsFusion: Rethinking Image-Text Data at Scale ( http://arxiv.org/abs/2310.20550v2 ) ライセンス: Link先を確認 | Qiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Yue Cao, Xinlong Wang, Jingjing Liu | (参考訳) 大規模なマルチモーダルモデルは、ゼロショット方式で多様なマルチモーダルタスクを実行する驚くべき一般性を示す。
大規模なWebベースの画像テキストペアはこの成功に基本的に寄与するが、過度なノイズに悩まされる。
最近の研究では、キャプションモデルによって合成された代替キャプションを使用し、顕著なベンチマーク性能を実現している。
しかし,本実験では,合成キャプションで学習したモデルにおいて,スケーラビリティの低下や世界的知識喪失の問題が明らかにされている。
より詳しく調べると、根本原因を過剰に単純化された言語構造と既存の合成キャプションにおける知識の欠如として同定する。
高品質でスケーラブルなマルチモーダル事前学習データを提供するために,Web ベースの画像テキストペアと合成キャプションの両方から情報を統合・洗練するために,大規模言語モデルを活用する高度なフレームワーク CapsFusion を提案する。
大規模な実験により、CapsFusionキャプションは、モデル性能(例えば、COCOとNoCapsにおけるCIDErスコアの改善18.8と18.3)、サンプル効率(ベースラインよりも11~16倍少ない計算量)、世界知識深度、拡張性において、既存のキャプションよりも大幅に優れていることが示された。
これらの効率性、効率性、スケーラビリティの利点は、CapsFusionを将来のLMMトレーニングのスケーリング候補として位置づけている。 Large multimodal models demonstrate remarkable generalist ability to perform diverse multimodal tasks in a zero-shot manner. Large-scale web-based image-text pairs contribute fundamentally to this success, but suffer from excessive noise. Recent studies use alternative captions synthesized by captioning models and have achieved notable benchmark performance. However, our experiments reveal significant Scalability Deficiency and World Knowledge Loss issues in models trained with synthetic captions, which have been largely obscured by their initial benchmark success. Upon closer examination, we identify the root cause as the overly-simplified language structure and lack of knowledge details in existing synthetic captions. To provide higher-quality and more scalable multimodal pretraining data, we propose CapsFusion, an advanced framework that leverages large language models to consolidate and refine information from both web-based image-text pairs and synthetic captions. Extensive experiments show that CapsFusion captions exhibit remarkable all-round superiority over existing captions in terms of model performance (e.g., 18.8 and 18.3 improvements in CIDEr score on COCO and NoCaps), sample efficiency (requiring 11-16 times less computation than baselines), world knowledge depth, and scalability. These effectiveness, efficiency and scalability advantages position CapsFusion as a promising candidate for future scaling of LMM training. | 翻訳日:2023-11-06 16:42:13 公開日:2023-11-02 |
# 観察研究による行動変化の計測 : 概観 Measuring Behavior Change with Observational Studies: a Review ( http://arxiv.org/abs/2310.19951v2 ) ライセンス: Link先を確認 | Arianna Pera, Gianmarco de Francisci Morales, Luca Maria Aiello | (参考訳) デジタル時代の行動変化を探求することは、21世紀の課題の文脈における社会的進歩に不可欠である。
128の論文(2000-2023)を分析し,オンライン行動変化を特徴付ける行動と変化検出方法論,参照プラットフォーム,理論的枠組みを分類するマップを構築した。
私たちの発見は、感情の変化、API制限されたプラットフォームへの重点、理論の統合に焦点を合わせました。
オンライン行動変化の研究において、より幅広い行動タイプ、多様なデータソース、より強力な理論・実践的アライメントを捉えることができる方法論を提唱する。 Exploring behavioral change in the digital age is imperative for societal progress in the context of 21st-century challenges. We analyzed 148 articles (2000-2023) and built a map that categorizes behaviors and change detection methodologies, platforms of reference, and theoretical frameworks that characterize online behavior change. Our findings uncover a focus on sentiment shifts, an emphasis on API-restricted platforms, and limited theory integration. We call for methodologies able to capture a wider range of behavioral types, diverse data sources, and stronger theory-practice alignment in the study of online behavioral change. | 翻訳日:2023-11-06 16:39:20 公開日:2023-11-02 |
# 電子構造計算を加速する拡散モデルの挙動に関する研究 Investigating the Behavior of Diffusion Models for Accelerating Electronic Structure Calculations ( http://arxiv.org/abs/2311.01491v1 ) ライセンス: Link先を確認 | Daniel Rothchild, Andrew S. Rosen, Eric Taw, Connie Robinson, Joseph E. Gonzalez, Aditi S. Krishnapriyan | (参考訳) 本稿では,分子生成のための拡散モデルの研究を行い,それらの予測と物理計算結果との比較について考察する。
これらのモデルの調査は、原子間ポテンシャルのトレーニングに高価な第一原理データセットを必要とすることなく、機械学習を用いて電子構造計算を著しく高速化する可能性によって進められている。
de novo分子生成のための一般的な拡散モデルの推論過程は、モデルが原子種を選択する探索段階と、低エネルギー幾何を見つけるために原子座標を調整する緩和段階に分けられる。
学習が進むにつれて、まずモデルがポテンシャルエネルギー面の1次構造について学び、その後高次構造について学習することを示す。
また, 拡散モデルの緩和相は, 配座上のボルツマン分布をサンプリングし, 構造緩和を行うために再利用できることがわかった。
構造緩和のために、このモデルは小さな有機分子の古典的な力場によって生成されるものよりも約10倍低いエネルギーのジオメトリを見つける。
拡散生成構造における密度汎関数理論(DFT)緩和の初期化は、古典的な力場で緩和された構造における初期化と比較して、DFT緩和に対する >2x スピードアップをもたらす。 We present an investigation into diffusion models for molecular generation, with the aim of better understanding how their predictions compare to the results of physics-based calculations. The investigation into these models is driven by their potential to significantly accelerate electronic structure calculations using machine learning, without requiring expensive first-principles datasets for training interatomic potentials. We find that the inference process of a popular diffusion model for de novo molecular generation is divided into an exploration phase, where the model chooses the atomic species, and a relaxation phase, where it adjusts the atomic coordinates to find a low-energy geometry. As training proceeds, we show that the model initially learns about the first-order structure of the potential energy surface, and then later learns about higher-order structure. We also find that the relaxation phase of the diffusion model can be re-purposed to sample the Boltzmann distribution over conformations and to carry out structure relaxations. For structure relaxations, the model finds geometries with ~10x lower energy than those produced by a classical force field for small organic molecules. Initializing a density functional theory (DFT) relaxation at the diffusion-produced structures yields a >2x speedup to the DFT relaxation when compared to initializing at structures relaxed with a classical force field. | 翻訳日:2023-11-06 16:30:25 公開日:2023-11-02 |
# コード説明の生成を促す場合の大規模言語モデルの振る舞い The Behavior of Large Language Models When Prompted to Generate Code Explanations ( http://arxiv.org/abs/2311.01490v1 ) ライセンス: Link先を確認 | Priti Oli, Rabin Banjade, Jeevan Chapagain, Vasile Rus | (参考訳) 本稿では,Large Language Models (LLMs) が,イントロプログラミングコースで使用されるタイプのコード例をどう生成するかを,体系的に検討する。
我々が示すように、llmが生成するコード説明の性質は、プロンプトの単語化、説明対象のコード例、プログラミング言語、温度パラメータ、llmのバージョンによって大きく異なる。
それにもかかわらず、それらはJavaとPythonの2つの主要な点で一貫性がある: 可読性レベルは7-8グレードにホバリングし、語彙密度、すなわち、意味のある単語の総説明サイズに対する相対的なサイズである。
さらに、説明は正確性が非常に高いが、完全性、簡潔性、文脈化の3つの他の指標よりも低い。 This paper systematically explores how Large Language Models (LLMs) generate explanations of code examples of the type used in intro-to-programming courses. As we show, the nature of code explanations generated by LLMs varies considerably based on the wording of the prompt, the target code examples being explained, the programming language, the temperature parameter, and the version of the LLM. Nevertheless, they are consistent in two major respects for Java and Python: the readability level, which hovers around 7-8 grade, and lexical density, i.e., the relative size of the meaningful words with respect to the total explanation size. Furthermore, the explanations score very high in correctness but less on three other metrics: completeness, conciseness, and contextualization. | 翻訳日:2023-11-06 16:30:02 公開日:2023-11-02 |
# 一般化政策のための不変因果模倣学習 Invariant Causal Imitation Learning for Generalizable Policies ( http://arxiv.org/abs/2311.01489v1 ) ライセンス: Link先を確認 | Ioana Bica, Daniel Jarrett, Mihaela van der Schaar | (参考訳) 複数の環境から実演行動に基づいて模倣ポリシーを学習し、目に見えない環境での展開に目を向ける。
各設定から観測可能な特徴が異なる可能性があるため、個々のポリシーを直接学習して、特徴から行動へのマッピングを学習することは、素早い相関関係になりがちであり、うまく一般化できない。
しかしながら、専門家のポリシーは、しばしば、設定間で不変な観測可能な機能を支える共有潜在構造の機能である。
本研究では,複数の環境から得られたデータを活用することで,専門家の行動に適合する模倣ポリシーを学習し,ドメイン間で不変な特徴表現を学習する新しい手法である,不変因果模倣学習(icil)を提案する。
遷移力学のミスマッチに対処するため、ICILはノイズ変数の特定の表現(それぞれの環境)から切り離された因果的特徴の共有表現(すべての訓練環境)を学習する。
さらに、学習した政策が専門家の政策の観測分布と一致することを保証するため、イシルは専門家の観測のエネルギーを推定し、模倣者の政策の次の状態エネルギーを最小化する正規化項を用いる。
実験では,本手法をコントロール課題と医療課題のベンチマークと比較し,非知覚環境に一般化可能な模倣政策を学習する上での有効性を示す。 Consider learning an imitation policy on the basis of demonstrated behavior from multiple environments, with an eye towards deployment in an unseen environment. Since the observable features from each setting may be different, directly learning individual policies as mappings from features to actions is prone to spurious correlations -- and may not generalize well. However, the expert's policy is often a function of a shared latent structure underlying those observable features that is invariant across settings. By leveraging data from multiple environments, we propose Invariant Causal Imitation Learning (ICIL), a novel technique in which we learn a feature representation that is invariant across domains, on the basis of which we learn an imitation policy that matches expert behavior. To cope with transition dynamics mismatch, ICIL learns a shared representation of causal features (for all training environments), that is disentangled from the specific representations of noise variables (for each of those environments). Moreover, to ensure that the learned policy matches the observation distribution of the expert's policy, ICIL estimates the energy of the expert's observations and uses a regularization term that minimizes the imitator policy's next state energy. Experimentally, we compare our methods against several benchmarks in control and healthcare tasks and show its effectiveness in learning imitation policies capable of generalizing to unseen environments. | 翻訳日:2023-11-06 16:29:50 公開日:2023-11-02 |
# 視覚的な指示に何が役立つのか?
ビジュアルインストラクションチューニングのための複合視覚推論命令の合成 What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning ( http://arxiv.org/abs/2311.01487v1 ) ライセンス: Link先を確認 | Yifan Du, Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Jinpeng Wang, Chuyuan Wang, Mingchen Cai, Ruihua Song, Ji-Rong Wen | (参考訳) マルチモーダル大規模言語モデル(MLLM)のゼロショット一般化能力を改善するために,視覚的命令チューニングが不可欠である。
様々な焦点と特徴を持つ視覚的命令データセットの急増が近年提案されており、MLLMは評価ベンチマークにおいて驚くべき結果を得ることができる。
本稿では,より有能なMLLMを開発するために,より根本的課題である「よい視覚的指示には何をもたらすのか?」について検討する。
総合的な実証研究により、複雑な視覚的推論タスクに焦点を当てた指示が、評価ベンチマークにおけるMLLMの性能向上に特に有効であることが判明した。
この発見に基づいて、我々は、高品質な複雑な視覚的推論命令を自動生成するための体系的なアプローチを設計する。
提案手法では,複数の段階を組み合わせることで,品質を保証しながら命令の複雑さを徐々に高めていく。
このアプローチに基づいて,32K例,すなわち ComVint とファインチューン 4 MLLM からなる合成視覚推論命令データセットを作成する。
その結果,MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%,28.8%向上した。
私たちのコードとデータはリンクで公開されています。 Visual instruction tuning is an essential approach to improving the zero-shot generalization capability of Multi-modal Large Language Models (MLLMs). A surge of visual instruction datasets with various focuses and characteristics have been proposed recently, enabling MLLMs to achieve surprising results on evaluation benchmarks. To develop more capable MLLMs, in this paper, we aim to investigate a more fundamental question: ``what makes for good visual instructions?''. By conducting a comprehensive empirical study, we find that instructions focused on complex visual reasoning tasks are particularly effective in improving the performance of MLLMs on evaluation benchmarks. Building upon this finding, we design a systematic approach to automatically creating high-quality complex visual reasoning instructions. Our approach employs a synthesis-complication-reformulation paradigm, leveraging multiple stages to gradually increase the complexity of the instructions while guaranteeing quality. Based on this approach, we create the synthetic visual reasoning instruction dataset consisting of 32K examples, namely ComVint, and fine-tune four MLLMs on it. Experimental results demonstrate that our dataset consistently enhances the performance of all the compared MLLMs, e.g., improving the performance of MiniGPT-4 and BLIP-2 on MME-Cognition by 32.6% and 28.8%, respectively. Our code and data are publicly available at the link: https://github.com/RUCAIBox/ComVint. | 翻訳日:2023-11-06 16:29:27 公開日:2023-11-02 |
# FedSN: LEO衛星ネットワーク上の一般的なフェデレーション学習フレームワーク FedSN: A General Federated Learning Framework over LEO Satellite Networks ( http://arxiv.org/abs/2311.01483v1 ) ライセンス: Link先を確認 | Zheng Lin, Zhe Chen, Zihan Fang, Xianhao Chen, Xiong Wang, and Yue Gao | (参考訳) 最近、SpaceXなどの商業企業によって、多くの低軌道軌道(LEO)衛星が打ち上げられ、宇宙展開に成功している。
LEO衛星に搭載されたマルチモーダルセンサにより、通信だけでなく、空間変調認識やリモートセンシング画像分類など、さまざまな機械学習アプリケーションにも使用される。
しかし、地上局(gs)は、leo衛星との接触時間(例えば5分)が限られているため、集中型モデルトレーニングのためにそのような大量の生センシングデータをダウンロードできない可能性がある。
そのため、デバイス上でのトレーニングを通じてこの問題に対処するための有望なソリューションとして、連合学習(federated learning:fl)が登場した。
残念ながら、LEO衛星でFLを有効にするには、我々は3つの重要な課題に直面している。
一 異種計算及び記憶能力
二 アップリンク率の制限、及び
iii)モデル停滞。
この目的のために,これらの課題に対処するための一般FLフレームワークとしてFedSNを提案し,LEO衛星上でのデータ多様性について検討する。
具体的には,leo衛星上での異なる計算,メモリ,通信制約を考慮したヘテロジニアスな局所モデルトレーニングを実現するための新しいサブ構造スキームを提案する。
さらに,モデルステイレネスを補償するためのモデルアグリゲーションを動的にスケジュールする擬似同期モデルアグリゲーション戦略を提案する。
FedSNの有効性をさらに実証するため,実世界の衛星ネットワークのデータを活用し,空間変調認識とリモートセンシング画像分類タスクを用いて評価を行った。
大規模な実験結果から,FedSNフレームワークは最先端ベンチマークよりも高い精度,低演算,通信オーバーヘッドを実現し,各コンポーネントの有効性が示された。 Recently, a large number of Low Earth Orbit (LEO) satellites have been launched and deployed successfully in space by commercial companies, such as SpaceX. Due to multimodal sensors equipped by the LEO satellites, they serve not only for communication but also for various machine learning applications, such as space modulation recognition, remote sensing image classification, etc. However, the ground station (GS) may be incapable of downloading such a large volume of raw sensing data for centralized model training due to the limited contact time with LEO satellites (e.g. 5 minutes). Therefore, federated learning (FL) has emerged as the promising solution to address this problem via on-device training. Unfortunately, to enable FL on LEO satellites, we still face three critical challenges that are i) heterogeneous computing and memory capabilities, ii) limited uplink rate, and iii) model staleness. To this end, we propose FedSN as a general FL framework to tackle the above challenges, and fully explore data diversity on LEO satellites. Specifically, we first present a novel sub-structure scheme to enable heterogeneous local model training considering different computing, memory, and communication constraints on LEO satellites. Additionally, we propose a pseudo-synchronous model aggregation strategy to dynamically schedule model aggregation for compensating model staleness. To further demonstrate the effectiveness of the FedSN, we evaluate it using space modulation recognition and remote sensing image classification tasks by leveraging the data from real-world satellite networks. Extensive experimental results demonstrate that FedSN framework achieves higher accuracy, lower computing, and communication overhead than the state-of-the-art benchmarks and the effectiveness of each components in FedSN. | 翻訳日:2023-11-06 16:29:03 公開日:2023-11-02 |
# 時間依存非可換背景における調和振動子の量子理論 Quantum theory of a harmonic oscillator in a time dependent noncommutative background ( http://arxiv.org/abs/2311.01482v1 ) ライセンス: Link先を確認 | Manjari Dutta, Shreemoyee Ganguly, Sunandan Gangopadhyay | (参考訳) 本研究は,非可換高調波発振器の時間依存背景における挙動について検討するものである。
は「Dey」の略。
具体的には、最近 \cite{spb} によって導入された標準bopp-shift関係の一般化形式を用いて、可換変数で表現されたシステムを調べる。
我々は時間依存系を解き、非線型微分方程式 Ermakov-Pinney 方程式と関連するルイスの不変量法を用いて固有関数の解析形式を得た。
そして、Ermakov-Pinney方程式の正確な解析解セットを明示的に提供した。
次に,エネルギー期待値のダイナミクスを解析的に計算し,量子数の特定の選択に関連するエルマコフ・ペニー方程式の様々な解集合に対する図形表現を探索した。
最後に,可換かつ非可換な場合の作用素間の不確実性等式関係の一般化形式を決定した。
予想通り、我々の研究は、特に座標写像関係が標準bopp-シフト関係に減少する特定の極限において、 \cite{dey} の知見と一致している。 This work explores the behaviour of a noncommutative harmonic oscillator in a time-dependent background, as previously investigated by Dey {\it et al.}\,\cite{Dey}. Specifically, we examine the system when expressed in terms of commutative variables, utilizing a generalized form of the standard Bopp-shift relations recently introduced by \cite{spb}. We solved the time dependent system and obtained the analytical form of the eigenfunction using Lewis' method of invariants, which is associated with the Ermakov-Pinney equation, a non-linear differential equation. We then explicitly provided the exact analytical solution set for the Ermakov-Pinney equation. Then, we computed the dynamics of the energy expectation value analytically and explored their graphical representations for various solution sets of the Ermakov-Pinney equation, associated with a particular choice of quantum number. Finally, we determined the generalized form of the uncertainty equality relations among the operators for both commutative and noncommutative cases. Expectedly, our study is consistent with the findings in \cite{Dey}, specifically in a particular limit where the coordinate mapping relations reduce to the standard Bopp-shift relations. | 翻訳日:2023-11-06 16:28:35 公開日:2023-11-02 |
# 神経崩壊のレンズによるアウトオブディストリビューションの検出 Detecting Out-of-Distribution Through the Lens of Neural Collapse ( http://arxiv.org/abs/2311.01479v1 ) ライセンス: Link先を確認 | Litian Liu, Yao Qin | (参考訳) アウト・オブ・ディストリビューション(OOD)検出は、AIの安全なデプロイに不可欠である。
特に、OOD検出器は様々なシナリオで効果的に一般化されるべきである。
既存のOOD検出器の一般化性を改善するために,Neural Collapse inspired OOD detector (NC-OOD) と呼ばれる多機能なOOD検出器を導入する。
我々は、OOD特徴が遠くにあるのに対して、ID特徴がクラスターを形成する傾向にあるという一般的な観察を拡張した。
特に、最近のニューラル・コラプス(Neural Collapse)の観測から、ID特徴が重みベクトルに近接する傾向にあることを示す。
拡張観測から,重みベクトルに近接する特徴量に基づいてOODを検出することを提案する。
さらにOODのサンプルを除外するために、OODの特徴がIDの特徴よりも起源に近い傾向にあるという観察を活用する。
大規模な実験により,本手法は既存の作業の一般化可能性を高め,様々な分類タスク,トレーニング損失,モデルアーキテクチャに対して,幅広いOODベンチマークの最先端OOD検出性能を一貫して達成できることが示されている。 Out-of-distribution (OOD) detection is essential for the safe deployment of AI. Particularly, OOD detectors should generalize effectively across diverse scenarios. To improve upon the generalizability of existing OOD detectors, we introduce a highly versatile OOD detector, called Neural Collapse inspired OOD detector (NC-OOD). We extend the prevalent observation that in-distribution (ID) features tend to form clusters, whereas OOD features are far away. Particularly, based on the recent observation, Neural Collapse, we further demonstrate that ID features tend to cluster in proximity to weight vectors. From our extended observation, we propose to detect OOD based on feature proximity to weight vectors. To further rule out OOD samples, we leverage the observation that OOD features tend to reside closer to the origin than ID features. Extensive experiments show that our approach enhances the generalizability of existing work and can consistently achieve state-of-the-art OOD detection performance across a wide range of OOD Benchmarks over different classification tasks, training losses, and model architectures. | 翻訳日:2023-11-06 16:28:15 公開日:2023-11-02 |
# ヒト中心知覚機構による自律走行における逆MLレジリエンス Adversary ML Resilience in Autonomous Driving Through Human Centered Perception Mechanisms ( http://arxiv.org/abs/2311.01478v1 ) ライセンス: Link先を確認 | Aakriti Shah | (参考訳) 道路標識に対する物理的敵対攻撃は、現代の自動運転車(AV)の脆弱性を継続的に活用し、彼らが遭遇する道路標識の種類を正しく分類する能力を妨げる。
現在のモデルは入力データをうまく一般化できないため、オーバーフィッティングやオーバーフィッティングが発生する。
オーバーフィッティングでは、モデルは入力データを記憶するが、新しいシナリオに一般化することはできない。
アンダーフィッティングにおいて、モデルはこれらの道路標識を正確に分類するのに十分な入力データを学ばない。
本稿では,物体分類器を対象とする3つの物理的攻撃(テープ,落書き,照明)に対する自律走行システムのレジリエンスについて検討する。
いくつかの機械学習モデルは、道路標識(停止標識、速度制限標識、信号機、歩行者横断歩道標識)と幾何学的形状(八角形、円、四角形、三角形)の2つの異なるデータセットで開発、評価された。
研究は、クリーンで敵対的なトレーニングやこれらのデータセットのテストを含む、異なる条件下でのアルゴリズムのパフォーマンスを比較した。
攻撃に対する堅牢性を高めるため、敵対的訓練や転校学習といった防御技術が実装された。
その結果、データセットが全く異なるにもかかわらず、形状訓練から得られる知識を道路標識分類の一般化性を向上させることにより、伝達学習モデルが性能において重要な役割を果たすことを示した。
この論文は、人間のループ検証、セキュリティ分析、現実世界のテスト、透明性のための説明可能なAIなど、将来の研究方向性を提案する。
本研究の目的は、自動運転車におけるオブジェクト分類器の安全性と堅牢性の向上と、運転システムに対する敵対的事例の緩和である。 Physical adversarial attacks on road signs are continuously exploiting vulnerabilities in modern day autonomous vehicles (AVs) and impeding their ability to correctly classify what type of road sign they encounter. Current models cannot generalize input data well, resulting in overfitting or underfitting. In overfitting, the model memorizes the input data but cannot generalize to new scenarios. In underfitting, the model does not learn enough of the input data to accurately classify these road signs. This paper explores the resilience of autonomous driving systems against three main physical adversarial attacks (tape, graffiti, illumination), specifically targeting object classifiers. Several machine learning models were developed and evaluated on two distinct datasets: road signs (stop signs, speed limit signs, traffic lights, and pedestrian crosswalk signs) and geometric shapes (octagons, circles, squares, and triangles). The study compared algorithm performance under different conditions, including clean and adversarial training and testing on these datasets. To build robustness against attacks, defense techniques like adversarial training and transfer learning were implemented. Results demonstrated transfer learning models played a crucial role in performance by allowing knowledge gained from shape training to improve generalizability of road sign classification, despite the datasets being completely different. The paper suggests future research directions, including human-in-the-loop validation, security analysis, real-world testing, and explainable AI for transparency. This study aims to contribute to improving security and robustness of object classifiers in autonomous vehicles and mitigating adversarial example impacts on driving systems. | 翻訳日:2023-11-06 16:27:54 公開日:2023-11-02 |
# FAITHSCORE:大規模視覚言語モデルにおける幻覚の評価 FAITHSCORE: Evaluating Hallucinations in Large Vision-Language Models ( http://arxiv.org/abs/2311.01477v1 ) ライセンス: Link先を確認 | Liqiang Jing and Ruosen Li and Yunmo Chen and Mengzhao Jia and Xinya Du | (参考訳) FAITHSCORE(Faithfulness to Atomic Image Facts Score)は,大規模視覚言語モデル(LVLM)から生成した自由形式の回答の忠実度を測定する基準フリーできめ細かな評価指標である。
FAITHSCOREの評価は、まず検証が必要な記述文を含むサブ文を特定し、次にこれらのサブ文から包括的な原子事実のリストを抽出し、最後に粒度の細かい原子事実と入力画像との整合性検証を行う。
メタ評価は、我々の測定基準が人間の忠実さの判断と高い相関性を示している。
LVLMの指示追従幻覚を評価するために2つのベンチマークデータセット(LLaVA-1kとMSCOCO-Cap)を収集する。
現状のLVLMにおける幻覚を,データセット上でFAITHSCOREを用いて測定する。
その結果、現在のシステムは画像に反する幻覚コンテンツを生成する傾向にあり、将来の改善の余地は残されていることが明らかになった。
さらに、現在のLVLMは色や数え方に優れていますが、長い答えや関係、複数のオブジェクトに苦戦しています。 We introduce FAITHSCORE (Faithfulness to Atomic Image Facts Score), a reference-free and fine-grained evaluation metric that measures the faithfulness of the generated free-form answers from large vision-language models (LVLMs). The FAITHSCORE evaluation first identifies sub-sentences containing descriptive statements that need to be verified, then extracts a comprehensive list of atomic facts from these sub-sentences, and finally conducts consistency verification between fine-grained atomic facts and the input image. Meta-evaluation demonstrates that our metric highly correlates with human judgments of faithfulness. We collect two benchmark datasets (i.e. LLaVA-1k and MSCOCO-Cap) for evaluating LVLMs instruction-following hallucinations. We measure hallucinations in state-of-the-art LVLMs with FAITHSCORE on the datasets. Results reveal that current systems are prone to generate hallucinated content unfaithful to the image, which leaves room for future improvements. Further, we find that current LVLMs despite doing well on color and counting, still struggle with long answers, relations, and multiple objects. | 翻訳日:2023-11-06 16:27:25 公開日:2023-11-02 |
# 位相遷移によるトポロジカル量子計算 Topological quantum computation assisted by phase transitions ( http://arxiv.org/abs/2311.00103v2 ) ライセンス: Link先を確認 | Yuanjie Ren and Peter Shor | (参考訳) 本稿では,サブフェーズと位相遷移によるトポロジカル量子計算について検討する。
任意の任意の有限群 $g$ に対して、量子二重モデル $\mathcal{d}(g)$ の部分相間で、anyon tunneling map を調べることによって開始する。
その後、$\varphi$とFloquetコードの関係を調べ、Abelian Floquetコードを非アーベルケースを含むように拡張します。
モジュラーテンソル圏によって記述される一般位相的順序に対する位相ゲートの多様性を,時間的および空間的方向の相転移がいかに高めるかを示すことによって結論づける。 In this paper, we explore topological quantum computation augmented by subphases and phase transitions. We commence by investigating the anyon tunneling map, denoted as $\varphi$, between subphases of the quantum double model $\mathcal{D}(G)$ for any arbitrary finite group $G$. Subsequently, we delve into the relationship between $\varphi$ and the Floquet code, and extend the Abelian Floquet code to encompass non-abelian cases. We conclude by demonstrating how phase transitions in both the temporal and spatial directions can enhance the diversity of topological gates for general topological orders described by modular tensor categories. | 翻訳日:2023-11-06 16:25:09 公開日:2023-11-02 |
# 相互作用中の機械的特性を用いたオープンセット物体認識 Open-Set Object Recognition Using Mechanical Properties During Interaction ( http://arxiv.org/abs/2311.01540v1 ) ライセンス: Link先を確認 | Pakorn Uttayopas, Xiaoxiao Cheng, Etienne Burdet | (参考訳) 触覚ロボットのほとんどがクローズセット条件で操作されているが、テスト対象がロボットの知識を超えているオープンセット条件では運用が困難である。
そこで我々は,機械特性を用いたオープンセット認識フレームワークを提案し,既知の物体を推定し,新しい物体を漸進的にラベル付けする。
主な貢献は、ランダムに選択する典型的なアルゴリズムとは異なり、既知のオブジェクトの知識を利用してクラスタの中心とサイズを推定するクラスタリングアルゴリズムである。
このフレームワークは、相互作用中に実際の物体から推定される機械的特性で検証される。
その結果, このフレームワークは, 新規検出器が提案する代替手法よりも, 物体を認識できることがわかった。
我々のクラスタリングアルゴリズムは他の手法よりも優れたクラスタリング性能が得られる。
さらに、ハイパーパラメーターの研究により、クラスタリング結果にはクラスタサイズが重要であり、適切に調整する必要があることが示された。 while most of the tactile robots are operated in close-set conditions, it is challenging for them to operate in open-set conditions where test objects are beyond the robots' knowledge. We proposed an open-set recognition framework using mechanical properties to recongise known objects and incrementally label novel objects. The main contribution is a clustering algorithm that exploits knowledge of known objects to estimate cluster centre and sizes, unlike a typical algorithm that randomly selects them. The framework is validated with the mechanical properties estimated from a real object during interaction. The results show that the framework could recognise objects better than alternative methods contributed by the novelty detector. Importantly, our clustering algorithm yields better clustering performance than other methods. Furthermore, the hyperparameters studies show that cluster size is important to clustering results and needed to be tuned properly. | 翻訳日:2023-11-06 16:17:17 公開日:2023-11-02 |
# 解釈可能な分布比較のための最大平均差の変数選択 Variable Selection in Maximum Mean Discrepancy for Interpretable Distribution Comparison ( http://arxiv.org/abs/2311.01537v1 ) ライセンス: Link先を確認 | Kensuke Mitsuzawa, Motonobu Kanagawa, Stefano Bortoli, Margherita Grossi and Paolo Papotti | (参考訳) 2サンプルテストは、2つのデータセットが同じ分布から生成されるかどうかを決定する。
本稿では,2サンプルテストにおける変数選択について検討し,2つの分布の相違の原因となる変数(あるいは次元)を同定する。
このタスクは、データセットシフト適応、因果推論、モデル検証など、パターン分析と機械学習の多くの問題に関係している。
提案手法は,最大平均偏差(mmd)に基づく2サンプルテストに基づいている。
個々の変数に対して定義される自動相関検出(ard)重みを最適化し、mmdベースのテストのパワーを最大化する。
この最適化のために、スパース正規化を導入し、適切な正規化パラメータを選択するための2つの方法を提案する。
1つのメソッドはデータ駆動方式で正規化パラメータを決定し、もう1つは異なる正規化パラメータの結果を集約する。
提案手法をベースライン法と体系的に比較して妥当性を確認し,高次元トラヒックシミュレーションデータの探索的解析における有用性を示す。
2つのサンプルテストのための変数選択の厳密な定義を含む予備的な理論解析も提供されている。 Two-sample testing decides whether two datasets are generated from the same distribution. This paper studies variable selection for two-sample testing, the task being to identify the variables (or dimensions) responsible for the discrepancies between the two distributions. This task is relevant to many problems of pattern analysis and machine learning, such as dataset shift adaptation, causal inference and model validation. Our approach is based on a two-sample test based on the Maximum Mean Discrepancy (MMD). We optimise the Automatic Relevance Detection (ARD) weights defined for individual variables to maximise the power of the MMD-based test. For this optimisation, we introduce sparse regularisation and propose two methods for dealing with the issue of selecting an appropriate regularisation parameter. One method determines the regularisation parameter in a data-driven way, and the other aggregates the results of different regularisation parameters. We confirm the validity of the proposed methods by systematic comparisons with baseline methods, and demonstrate their usefulness in exploratory analysis of high-dimensional traffic simulation data. Preliminary theoretical analyses are also provided, including a rigorous definition of variable selection for two-sample testing. | 翻訳日:2023-11-06 16:17:04 公開日:2023-11-02 |
# 大規模地図を用いたオンデマンド都市モビリティ問題に対する近似マルチエージェント強化学習(拡張版) Approximate Multiagent Reinforcement Learning for On-Demand Urban Mobility Problem on a Large Map (extended version) ( http://arxiv.org/abs/2311.01534v1 ) ライセンス: Link先を確認 | Daniel Garces, Sushmita Bhattacharya, Dimitri Bertsekas, Stephanie Gil | (参考訳) 本稿では,将来の乗車要求の場所や回数が不明な大規模都市環境における自律型マルチエージェントタクシー経路問題に着目し,推定実験分布について考察する。
最近の理論では、ベースポリシーが安定ならば、そのようなベースポリシーを持つロールアウトベースのアルゴリズムは、ほぼ最適の安定ポリシーを生成する。
ロールアウト型アプローチは, 今後の需要を考慮した協調マルチエージェント政策の学習に適しているが, 大規模都市環境への適用には計算コストがかかる可能性がある。
大きな環境には大量の要求があり、それゆえ安定性を保証するために大量のタクシーが必要となる。
本稿では,エージェント数で計算複雑性が線形に増加するマルチエージェント(ワン・ア・ア・タイム)ロールアウトの計算ボトルネックに対処することを目的とする。
そこで本研究では, 計算コストを低減しつつ, 安定な近似近似近似的ロールアウトに基づく二相アルゴリズムを提案する。
当社のアプローチでは,予測された需要と,ワン・ア・ア・タイム・ロールアウトアプローチを用いて計画可能な最大エージェント数に基づいて,グラフをセクターに分割する。
このアルゴリズムは、セクタ間のタクシーの再バランスと、セクタ毎に並列に実行されるセクタ全体のワン・ア・タイム・ロールアウトアルゴリズムに即時割り当て(ia)を適用する。
我々は、iaベースポリシーが安定するためには十分であるタクシーの数m$を特徴付け、時間が経つにつれてm$で必要な条件を導出する。
数値解析の結果,理論条件を満たす$m$の安定性が得られた。
また,提案した2相アルゴリズムは,マップ全体のワン・ア・ア・タイム・ロールアウトに匹敵する性能を持つが,実行時間が大幅に低いことを示す。 In this paper, we focus on the autonomous multiagent taxi routing problem for a large urban environment where the location and number of future ride requests are unknown a-priori, but follow an estimated empirical distribution. Recent theory has shown that if a base policy is stable then a rollout-based algorithm with such a base policy produces a near-optimal stable policy. Although, rollout-based approaches are well-suited for learning cooperative multiagent policies with considerations for future demand, applying such methods to a large urban environment can be computationally expensive. Large environments tend to have a large volume of requests, and hence require a large fleet of taxis to guarantee stability. In this paper, we aim to address the computational bottleneck of multiagent (one-at-a-time) rollout, where the computational complexity grows linearly in the number of agents. We propose an approximate one-at-a-time rollout-based two-phase algorithm that reduces the computational cost, while still achieving a stable near-optimal policy. Our approach partitions the graph into sectors based on the predicted demand and an user-defined maximum number of agents that can be planned for using the one-at-a-time rollout approach. The algorithm then applies instantaneous assignment (IA) for re-balancing taxis across sectors and a sector-wide one-at-a-time rollout algorithm that is executed in parallel for each sector. We characterize the number of taxis $m$ that is sufficient for IA base policy to be stable, and derive a necessary condition on $m$ as time goes to infinity. Our numerical results show that our approach achieves stability for an $m$ that satisfies the theoretical conditions. We also empirically demonstrate that our proposed two-phase algorithm has comparable performance to the one-at-a-time rollout over the entire map, but with significantly lower runtimes. | 翻訳日:2023-11-06 16:16:47 公開日:2023-11-02 |
# 量子信号処理の定式化に向けて Towards Dequantizing Quantum Signal Processing ( http://arxiv.org/abs/2311.01533v1 ) ライセンス: Link先を確認 | Gumaro Rendon | (参考訳) ここでの作業は、${\rm polylog} (1/\epsilon)$のスケーリングと、$\epsilon$がアルゴリズムエラーである余分なブロックエンコーディングキュービットを保ちながら、$t$の準線形コストスケーリングを可能にする。
この研究は、ギブス現象を回避し係数に1ドルノルムの少ない低重量フーリエ展開を用いて、信号処理をオフロードする可能性を開く。 The work here enables quasi-linear cost-scaling with $t$ while keeping ${\rm polylog} (1/\epsilon)$ scaling and no extra block-encoding qubits, where $\epsilon$ is the algorithmic error. This work opens up the possibility for off-loading signal processing with the use of low-weight Fourier expansion which avoids the Gibbs phenomenon and has low $1$-norm on the coefficients. | 翻訳日:2023-11-06 16:16:13 公開日:2023-11-02 |
# 非線形および多次元偏微分方程式の量子変分解法 Quantum Variational Solving of Nonlinear and Multi-Dimensional Partial Differential Equations ( http://arxiv.org/abs/2311.01531v1 ) ライセンス: Link先を確認 | Abhijat Sarma, Thomas W. Watts, Mudassir Moosa, Yilian Liu, Peter L. McMahon | (参考訳) 量子コンピュータ上の偏微分方程式(PDE)を数値解析するための変分量子アルゴリズムがLubschらによって提案された。
本稿では,lubaschらによって導入された非線形pdesと多次元pdesの広いクラスをカバーする手法を一般化し,いくつかの例の方程式における変分量子アルゴリズムの性能について検討する。
具体的には,非自明な非線形ボラティリティモデル,ダブルアセット・ブラック・ショルズ方程式,バックマスター方程式,決定論的カルダル・パリシ・ジャング方程式を用いて,アルゴリズムが一組のブラックシェール方程式の例を解くことができることを数値シミュレーションにより示す。
シミュレーションではn=12$ ansatz qubitsまで使用し、pdeソリューションを2^n$グリッドポイントで計算しました。
We also performed proof-of-concept experiments with a trapped-ion quantum processor from IonQ, showing accurate computation of two representative expectation values needed for the calculation of a single timestep of the nonlinear Black--Scholes equation. Through our classical simulations and experiments on quantum hardware, we have identified -- and we discuss -several open challenges for using quantum variational methods to solve PDEs in a regime with a large number ($\gg 2^{20}$) of grid points, but also a practical number of gates per circuit and circuit shots. A variational quantum algorithm for numerically solving partial differential equations (PDEs) on a quantum computer was proposed by Lubasch et al. In this paper, we generalize the method introduced by Lubasch et al. to cover a broader class of nonlinear PDEs as well as multidimensional PDEs, and study the performance of the variational quantum algorithm on several example equations. Specifically, we show via numerical simulations that the algorithm can solve instances of the Single-Asset Black-Scholes equation with a nontrivial nonlinear volatility model, the Double-Asset Black-Scholes equation, the Buckmaster equation, and the deterministic Kardar-Parisi-Zhang equation. Our simulations used up to $n=12$ ansatz qubits, computing PDE solutions with $2^n$ grid points. We also performed proof-of-concept experiments with a trapped-ion quantum processor from IonQ, showing accurate computation of two representative expectation values needed for the calculation of a single timestep of the nonlinear Black--Scholes equation. Through our classical simulations and experiments on quantum hardware, we have identified -- and we discuss -- several open challenges for using quantum variational methods to solve PDEs in a regime with a large number ($\gg 2^{20}$) of grid points, but also a practical number of gates per circuit and circuit shots. | 翻訳日:2023-11-06 16:16:03 公開日:2023-11-02 |
# NOD-TAMP:ニューラルオブジェクト記述子を用いたマルチステップ操作計画 NOD-TAMP: Multi-Step Manipulation Planning with Neural Object Descriptors ( http://arxiv.org/abs/2311.01530v1 ) ライセンス: Link先を確認 | Shuo Cheng, Caelan Garrett, Ajay Mandlekar, Danfei Xu | (参考訳) 家庭や工場での複雑な操作タスクのためのインテリジェントロボットの開発は、長いホリゾン作業、接触の多い操作、さまざまなオブジェクト形状やシーンレイアウトを一般化する必要性などにより、依然として困難である。
task and motion planning(tamp)は有望なソリューションを提供するが、kinodynamicモデルのような仮定は、新しいコンテキストにおける適用可能性を制限する。
neural object descriptor(nod)は、オブジェクトとシーンの一般化においてpromiseを示しているが、より広いタスクに対処する上での制限に直面している。
提案するTAMPベースのフレームワークであるNOD-TAMPは、少数の人間のデモから短い操作軌跡を抽出し、NOD特徴を用いてこれらの軌跡を適応し、より広い長期タスクを解くために構成する。
シミュレーション環境で検証されたNOD-TAMPは、様々な課題に効果的に取り組み、既存の手法より優れている。
ビデオやその他の補足資料については、プロジェクトのWebサイトを参照してください。 Developing intelligent robots for complex manipulation tasks in household and factory settings remains challenging due to long-horizon tasks, contact-rich manipulation, and the need to generalize across a wide variety of object shapes and scene layouts. While Task and Motion Planning (TAMP) offers a promising solution, its assumptions such as kinodynamic models limit applicability in novel contexts. Neural object descriptors (NODs) have shown promise in object and scene generalization but face limitations in addressing broader tasks. Our proposed TAMP-based framework, NOD-TAMP, extracts short manipulation trajectories from a handful of human demonstrations, adapts these trajectories using NOD features, and composes them to solve broad long-horizon tasks. Validated in a simulation environment, NOD-TAMP effectively tackles varied challenges and outperforms existing methods, establishing a cohesive framework for manipulation planning. For videos and other supplemental material, see the project website: https://sites.google.com/view/nod-tamp/. | 翻訳日:2023-11-06 16:15:39 公開日:2023-11-02 |
# atgnn:音声タグ付きグラフニューラルネットワーク ATGNN: Audio Tagging Graph Neural Network ( http://arxiv.org/abs/2311.01526v1 ) ライセンス: Link先を確認 | Shubhr Singh, Christian J. Steinmetz, Emmanouil Benetos, Huy Phan, Dan Stowell | (参考訳) CNNやTransformerといったディープラーニングモデルは、エンドツーエンドのオーディオタグ付けに優れたパフォーマンスを実現している。
最近の研究によると、複数の層が積み重ねられているにもかかわらず、CNNの受容野は依然として著しく制限されている。
一方、トランスフォーマーは、自己アテンションを通してグローバルなコンテキストをマッピングできるが、スペクトログラムを不規則なオーディオオブジェクトをキャプチャするのに十分な柔軟性のないパッチのシーケンスとして扱う。
本研究では,この分光図をグラフ構造として考慮し,ATGNNと呼ばれる新しいグラフニューラルアーキテクチャで処理することにより,よりフレキシブルな方法で処理する。
ATGNNは、CNNの能力とグラフニューラルネットワークのグローバル情報共有能力を組み合わせるだけでなく、学習可能なクラス埋め込みと対応する分光図領域間の意味関係をマッピングする。
そこではFSD50Kデータセットで0.585 mAP,AudioSetバランスデータセットで0.335 mAPを達成し,学習可能なパラメータを著しく少なくしたTransformerベースモデルに匹敵する結果を得た。 Deep learning models such as CNNs and Transformers have achieved impressive performance for end-to-end audio tagging. Recent works have shown that despite stacking multiple layers, the receptive field of CNNs remains severely limited. Transformers on the other hand are able to map global context through self-attention, but treat the spectrogram as a sequence of patches which is not flexible enough to capture irregular audio objects. In this work, we treat the spectrogram in a more flexible way by considering it as graph structure and process it with a novel graph neural architecture called ATGNN. ATGNN not only combines the capability of CNNs with the global information sharing ability of Graph Neural Networks, but also maps semantic relationships between learnable class embeddings and corresponding spectrogram regions. We evaluate ATGNN on two audio tagging tasks, where it achieves 0.585 mAP on the FSD50K dataset and 0.335 mAP on the AudioSet-balanced dataset, achieving comparable results to Transformer based models with significantly lower number of learnable parameters. | 翻訳日:2023-11-06 16:15:19 公開日:2023-11-02 |
# 機械学習と現実的なシミュレーションを用いた水中ドッキングの効率的な検出制御システム:包括的アプローチ An Efficient Detection and Control System for Underwater Docking using Machine Learning and Realistic Simulation: A Comprehensive Approach ( http://arxiv.org/abs/2311.01522v1 ) ライセンス: Link先を確認 | Jalil Chavez-Galaviz, Jianwen Li, Matthew Bergman, Miras Mengdibayev | (参考訳) 水中ドッキングは、自律水中車両(AUV)の持続的な運用を可能にするために重要である。
そのため、AUVは、非常にダイナミックな海底環境のために複雑であるドッキングステーションを検出し、位置を特定できなければならない。
イメージベースのソリューションは、この環境に適応するための高い獲得率と多用途な代替手段を提供するが、水中環境は、視認性、高い濁度、歪みといった課題を呈する。
これに加えて、水中ドッキング能力を検証するフィールド実験は、実験を行うのに必要な特別な機器と安全上の考慮のために、コストと危険が伴う。
この研究は、異なるディープラーニングアーキテクチャを比較し、水中ドッキング検出と分類を行う。
最高の性能を持つアーキテクチャは、教師-学生パラダイムの下で知識蒸留を用いて圧縮され、ネットワークのメモリフットプリントを削減し、リアルタイムの実装を可能にする。
シミュレーションと現実のギャップを低減するため、GAN(Generative Adversarial Network)を用いて画像間変換を行い、ガゼボシミュレーション画像をリアルな水中画像に変換する。
得られた画像は水中画像形成モデルを用いて処理され、異なる水面下での画像減衰をシミュレートする。
提案手法はAUVドッキング成功率に応じて評価され,古典的視覚法と比較された。
シミュレーションの結果,水中の潮流によらず,高濁度シナリオでは20%の改善が見られた。
さらに,市販のAUV Iver3に実験結果を示すことにより,提案手法の性能を示す。 Underwater docking is critical to enable the persistent operation of Autonomous Underwater Vehicles (AUVs). For this, the AUV must be capable of detecting and localizing the docking station, which is complex due to the highly dynamic undersea environment. Image-based solutions offer a high acquisition rate and versatile alternative to adapt to this environment; however, the underwater environment presents challenges such as low visibility, high turbidity, and distortion. In addition to this, field experiments to validate underwater docking capabilities can be costly and dangerous due to the specialized equipment and safety considerations required to conduct the experiments. This work compares different deep-learning architectures to perform underwater docking detection and classification. The architecture with the best performance is then compressed using knowledge distillation under the teacher-student paradigm to reduce the network's memory footprint, allowing real-time implementation. To reduce the simulation-to-reality gap, a Generative Adversarial Network (GAN) is used to do image-to-image translation, converting the Gazebo simulation image into a realistic underwater-looking image. The obtained image is then processed using an underwater image formation model to simulate image attenuation over distance under different water types. The proposed method is finally evaluated according to the AUV docking success rate and compared with classical vision methods. The simulation results show an improvement of 20% in the high turbidity scenarios regardless of the underwater currents. Furthermore, we show the performance of the proposed approach by showing experimental results on the off-the-shelf AUV Iver3. | 翻訳日:2023-11-06 16:14:59 公開日:2023-11-02 |
# 4Dフォーマー:マルチモーダル4Dパノプティカルセグメンテーション 4D-Former: Multimodal 4D Panoptic Segmentation ( http://arxiv.org/abs/2311.01520v1 ) ライセンス: Link先を確認 | Ali Athar, Enxu Li, Sergio Casas, Raquel Urtasun | (参考訳) 4Dパノプティックセグメンテーションは、意味クラスラベルに割り当てられるLiDARポイントクラウドシーケンスのすべてのポイントと、時間とともにセグメント化され、追跡される個々のオブジェクトを必要とする、困難だが実用的なタスクである。
既存のアプローチでは、ポイント間隔のある領域で限られた情報を伝えるLiDAR入力のみを使用する。
しかし、この問題は、幾何学に基づくLiDAR機能を強化する外観情報を提供するRGBカメラ画像を利用することで緩和することができる。
そこで本研究では4D-Formerを提案する。LiDARと画像モダリティを両立させ,セマンティックマスクと時間的に一貫したオブジェクトマスクを入力ポイントクラウドシーケンスに対して予測する4D-Formerを提案する。
両データモダリティの特徴情報を吸収する一連の簡潔なクエリを用いて,セマンティッククラスとオブジェクトをエンコードする。
さらに,物体の軌跡を時間とともに関連付ける学習機構を提案する。
4D-FormerをnuScenesおよびSemanticKITTIデータセットに適用し、最先端の結果を得る。 4D panoptic segmentation is a challenging but practically useful task that requires every point in a LiDAR point-cloud sequence to be assigned a semantic class label, and individual objects to be segmented and tracked over time. Existing approaches utilize only LiDAR inputs which convey limited information in regions with point sparsity. This problem can, however, be mitigated by utilizing RGB camera images which offer appearance-based information that can reinforce the geometry-based LiDAR features. Motivated by this, we propose 4D-Former: a novel method for 4D panoptic segmentation which leverages both LiDAR and image modalities, and predicts semantic masks as well as temporally consistent object masks for the input point-cloud sequence. We encode semantic classes and objects using a set of concise queries which absorb feature information from both data modalities. Additionally, we propose a learned mechanism to associate object tracks over time which reasons over both appearance and spatial location. We apply 4D-Former to the nuScenes and SemanticKITTI datasets where it achieves state-of-the-art results. | 翻訳日:2023-11-06 16:14:34 公開日:2023-11-02 |
# 散逸性量子カオスのシグナチャ Signatures of dissipative quantum chaos ( http://arxiv.org/abs/2311.01518v1 ) ライセンス: Link先を確認 | Lucas S\'a | (参考訳) 散逸とデコヒーレンスがユニタリダイナミクスと共存する散逸量子システムの平衡ダイナミクスを理解することは、膨大な報酬を伴う大きな挑戦である。
しばしば現実的なアプローチは、多くの異なる、しかし十分に類似した複雑なシステムの集合によって共有される普遍的な行動のサインを詳細に記述することである。
量子カオス(quantum chaos)は、この問題に対処するための強力な統計フレームワークを提供する。
この論文は、2つの相補的な線に沿って進行する、散逸を伴うカオスの解決方法を検討する。
第1部では、マルコフ散逸を伴う開量子系に非エルミート的ランダム行列理論を適用し、物理関連性の増大を示す3つの代表的な例(単粒子リンドブラディアン写像とクラウス写像、自由フェルミオン、散逸的サハデフ・イェーキタエフモデル)の緩和時間スケールと定常状態について議論する。
パートIIでは、多体開量子系の対称性、相関、普遍性を考察し、散逸性量子物質のモデルをいくつか分類する。
理論的観点からは、この論文は現実的、カオス的、散逸的量子システムの普遍的性質の研究のための一般的な枠組みである。
現実的な観点から、これは対称性に制約された動的散逸進化の具体的な構築ブロックを提供し、複雑な量子構造の生成に潜在的に技術的な影響を与える。
(論文では概説する。) Understanding the far-from-equilibrium dynamics of dissipative quantum systems, where dissipation and decoherence coexist with unitary dynamics, is an enormous challenge with immense rewards. Often, the only realistic approach is to forgo a detailed microscopic description and search for signatures of universal behavior shared by collections of many distinct, yet sufficiently similar, complex systems. Quantum chaos provides a powerful statistical framework for addressing this question, relying on symmetries to obtain information not accessible otherwise. This thesis examines how to reconcile chaos with dissipation, proceeding along two complementary lines. In Part I, we apply non-Hermitian random matrix theory to open quantum systems with Markovian dissipation and discuss the relaxation timescales and steady states of three representative examples of increasing physical relevance: single-particle Lindbladians and Kraus maps, open free fermions, and dissipative Sachdev-Ye-Kitaev (SYK) models. In Part II, we investigate the symmetries, correlations, and universality of many-body open quantum systems, classifying several models of dissipative quantum matter. From a theoretical viewpoint, this thesis lays out a generic framework for the study of the universal properties of realistic, chaotic, and dissipative quantum systems. From a practical viewpoint, it provides the concrete building blocks of dynamical dissipative evolution constrained by symmetry, with potential technological impact on the fabrication of complex quantum structures. (Full abstract in the thesis.) | 翻訳日:2023-11-06 16:14:12 公開日:2023-11-02 |
# 量子ホログラフィのボソニックモデル A Bosonic Model of Quantum Holography ( http://arxiv.org/abs/2311.01516v1 ) ライセンス: Link先を確認 | Brian Swingle, Michael Winer | (参考訳) 我々は、フェルミオン型 Sachdev-Ye-Kitaev (SYK) モデルに類似した創発的な量子重力記述を持つ量子ビットのモデルを分析する。
私たちが考えるモデルは量子$q$-スピンモデル(quantum $q$-spin model)として知られている。
以前は量子スピンガラスのモデルとして研究され、このモデルは$q=2$,$q=3$でガラス色であり、おそらく$q=4$でガラス色であることが判明したが、焼成された自由エネルギーの予想外のSYK様挙動が$q \geq 5$で最低温度まで下がった証拠も見つかった。
このSYKライクな物理は、パワー-ロー相関関数と広範な低温エントロピーを含むので、スピンSYKと呼ばれるモデルを参照する。
このモデルは、可能なすべての$q$-bodyカップリングを含み、ほとんどの対称性が欠如しており、空間構造が存在しないため、この結果は多体相互作用に支配されるシステムにおいて量子ホログラフィーのある種のユビキティを確立するものとして解釈できる。
さらに、スピンSYKを含む一般化されたモデルの族について論じ、大きな局所ヒルベルト空間次元の可解極限においてSYKライクな物理を証明できる。
また, ホログラフィ, ハミルトン複雑性, および関連するトピックの研究において, syk のような性質をもつボソニック系の意義について考察する。 We analyze a model of qubits which we argue has an emergent quantum gravitational description similar to the fermionic Sachdev-Ye-Kitaev (SYK) model. The model we consider is known as the quantum $q$-spin model because it features $q$-local interactions between qubits. It was previously studied as a model of a quantum spin glass, and while we find that the model is glassy for $q=2$, $q=3$, and likely $q=4$, we also find evidence for previously unexpected SYK-like behavior for the quenched free energy down to the lowest temperatures for $q \geq 5$. This SYK-like physics includes power-law correlation functions and an extensive low temperature entropy, so we refer to the model as Spin SYK. The model is generic in that it includes all possible $q$-body couplings, lacks most symmetries, and has no spatial structure, so our results can be construed as establishing a certain ubiquity of quantum holography in systems dominated by many-body interactions. Furthermore, we discuss a generalized family of models which includes Spin SYK and which provably exhibit SYK-like physics in the solvable limit of large local Hilbert space dimension. We also comment on implications of a bosonic system with SYK-like properties for the study of holography, Hamiltonian complexity, and related topics. | 翻訳日:2023-11-06 16:13:45 公開日:2023-11-02 |
# 高次演算を用いたベイズ量子パラメータ推定における最適プロトコルの設計 Designing optimal protocols in Bayesian quantum parameter estimation with higher-order operations ( http://arxiv.org/abs/2311.01513v1 ) ライセンス: Link先を確認 | Jessica Bavaresco, Patryk Lipka-Bartosik, Pavel Sekatski, Mohammad Mehboudi | (参考訳) センサやプローブとして量子システムを使用することで、絡み合いなどのユニークな量子特徴を利用してパラメータ推定の精度を大幅に向上することが示されている。
量子センシングの主要な課題は、最適なプロトコル、すなわち最も正確なプロトコルを設計することである。
この問題の特定の事例については解決されていないが、一般には数値的な方法さえ分かっていない。
ここでは, プローブの最適初期状態(補助系と絡み合うことができる), 最適測定値, 最適推定関数を求めることを目標とする, 単発ベイズ設定に着目した。
我々は高階演算の定式化を利用して、任意の精度で最適値に近いプロトコルを見つける半定値プログラミングに基づく手法を開発する。
重要な点として,本手法は特定の量子進化やコスト関数,事前分布に制限されず,任意の推定問題に適用可能である。
さらに、シングルパラメータとマルチパラメータの両方の見積もりタスクにも適用できる。
本手法は,ユニタリ位相推定,ボソニック浴における温度測定,su(2)変換のマルチパラメータ推定の3つの例を用いて実証する。
提案手法の展開により,文献からいくつかの結果が得られた。
例えば、温度測定の場合、任意の有限時間で最適なプロトコルを見つけ、絡み合いの有用性を定量化する。
さらに,コスト関数が平均二乗誤差である場合,射影計測が推定に最適であることを示す。 Using quantum systems as sensors or probes has been shown to greatly improve the precision of parameter estimation by exploiting unique quantum features such as entanglement. A major task in quantum sensing is to design the optimal protocol, i.e., the most precise one. It has been solved for some specific instances of the problem, but in general even numerical methods are not known. Here, we focus on the single-shot Bayesian setting, where the goal is to find the optimal initial state of the probe (which can be entangled with an auxiliary system), the optimal measurement, and the optimal estimator function. We leverage the formalism of higher-order operations to develop a method based on semidefinite programming that finds a protocol that is close to the optimal one with arbitrary precision. Crucially, our method is not restricted to any specific quantum evolution, cost function or prior distribution, and thus can be applied to any estimation problem. Moreover, it can be applied to both single or multiparameter estimation tasks. We demonstrate our method with three examples, consisting of unitary phase estimation, thermometry in a bosonic bath, and multiparameter estimation of an SU(2) transformation. Exploiting our methods, we extend several results from the literature. For example, in the thermometry case, we find the optimal protocol at any finite time and quantify the usefulness of entanglement. Additionally, we show that when the cost function is the mean squared error, projective measurements are optimal for estimation. | 翻訳日:2023-11-06 16:13:15 公開日:2023-11-02 |
# 状態ベクトルと密度行列の分散シミュレーション Distributed Simulation of Statevectors and Density Matrices ( http://arxiv.org/abs/2311.01512v1 ) ライセンス: Link先を確認 | Tyson Jones, B\'alint Koczor, Simon C. Benjamin | (参考訳) 量子コンピュータの古典的シミュレーションは、量子アルゴリズムの設計において取り替えられないステップである。
指数関数的シミュレーションコストは、高性能コンピューティング技術、特に分散技術の使用を要求するため、量子状態記述は、約30キュービット以上の正確なシミュレーションに必要な、協調するコンピュータのネットワークに分割される。
分散コンピューティングは悪名高い難題であり、量子シミュレーターの効用を制限するように思える、異なるリソースを考慮した直列のアルゴリズムと類似したアルゴリズムを必要とする。
本論文は,デジタル量子コンピュータにおけるゲート,演算子,ノイズチャネル,その他の計算の分散フルステートシミュレーションのための新しいアルゴリズムを多数提示する。
単純な分布モデルによって,パウリガジェット,多目的汎用ユニタリ,密度行列,一般デコヒーレンスチャネル,部分的トレースなど,高度な機能セットが実際に利用可能になることを示す。
これらのアルゴリズムには漸近的、多項式的に改良されたエキゾチックゲートのシミュレーション、非分散シミュレータにも役立つ高性能コンピューティング技術の徹底した動機が含まれる。
結果は,量子情報理論の聴衆に親しみやすい言語で導出され,科学的シミュレーションコミュニティのために形式化されたアルゴリズムである。
ここではすべてのアルゴリズムを、孤立した最小限のc++プロジェクトとして実装し、寛容なmitライセンスでgithubにオープンソースをホストし、広範囲なテストを行いました。
この原稿は、利用可能な高性能量子シミュレーションツールを大幅に改善することを目的としており、フルステートシミュレーション技術の徹底的な紹介と導出を提供する。 Classical simulation of quantum computers is an irreplaceable step in the design of quantum algorithms. Exponential simulation costs demand the use of high-performance computing techniques, and in particular distribution, whereby the quantum state description is partitioned between a network of cooperating computers - necessary for the exact simulation of more than approximately 30 qubits. Distributed computing is notoriously difficult, requiring bespoke algorithms dissimilar to their serial counterparts with different resource considerations, and which appear to restrict the utilities of a quantum simulator. This manuscript presents a plethora of novel algorithms for distributed full-state simulation of gates, operators, noise channels and other calculations in digital quantum computers. We show how a simple, common but seemingly restrictive distribution model actually permits a rich set of advanced facilities including Pauli gadgets, many-controlled many-target general unitaries, density matrices, general decoherence channels, and partial traces. These algorithms include asymptotically, polynomially improved simulations of exotic gates, and thorough motivations for high-performance computing techniques which will be useful for even non-distributed simulators. Our results are derived in language familiar to a quantum information theory audience, and our algorithms formalised for the scientific simulation community. We have implemented all algorithms herein presented into an isolated, minimalist C++ project, hosted open-source on Github with a permissive MIT license, and extensive testing. This manuscript aims both to significantly improve the high-performance quantum simulation tools available, and offer a thorough introduction to, and derivation of, full-state simulation techniques. | 翻訳日:2023-11-06 16:12:52 公開日:2023-11-02 |
# 開量子系における光子分解フロケ理論 Photon-resolved Floquet theory in open quantum systems ( http://arxiv.org/abs/2311.01509v1 ) ライセンス: Link先を確認 | G. Engelhardt, JunYan Luo, V. M. Bastidas, and G. Platero | (参考訳) 光子分解フロケ理論は、コヒーレントな駆動場を持つ量子系の光子交換を追跡する。
したがって、不整合光子モードと交換される光子数をカウントする標準フルカウンティング統計を補完し、散逸を引き起こす。
本稿では,両状況を記述する統一フレームワークを提案する。
フォトニック確率分布の低次累積値の解析的評価に適した方法を開発した。
この枠組みの中で、二モードjaynes-cummingsモデルを分析し、光子分解フロッケ理論と標準フルカウンティング統計が一貫した統計予測を行うことを示す。
興味深いことに、光子流束変動は、駆動物系と駆動場との間の絡み合い効果に関係し得る散逸を解消するために分岐する。
提案手法は,高信号対雑音比を特徴とするac駆動ラムダ系において,効率的なフォトンアップ変換を記述するためのフレームワークである。
フレームワークは非摂動的であり、揺らぎを予測するため、非摂動分光への道を開いた。 Photon-resolved Floquet theory keeps track of the photon exchange of a quantum system with a coherent driving field. It thus complements the standard full-counting statistics that counts the number of photons exchanged with incoherent photon modes giving rise to dissipation. In this paper, we introduce a unifying framework describing both situations. We develop methods suitable for an analytical evaluation of low-order cumulants of photonic probability distributions. Within this framework we analyze the two-mode Jaynes-Cummings model to demonstrate that the Photon-resolved Floquet theory and the standard full-counting statistics make consistent statistical predictions. Interestingly, we find that the photon-flux fluctuations diverge for vanishing dissipation, which can be related to an entanglement effect between the driven matter system and the driving field. To substantiate our results, we use our framework to describe efficient photon up-conversion in an ac-driven lambda system, that is characterized by a high signal-to-noise ratio. As the framework is non-perturbative and predicts fluctuations, it paves the way towards non-perturbative spectroscopy, which will assist to improve metrological methods. | 翻訳日:2023-11-06 16:12:25 公開日:2023-11-02 |
# E(2)ロバスト銀河形態分類のための同変ニューラルネットワーク E(2) Equivariant Neural Networks for Robust Galaxy Morphology Classification ( http://arxiv.org/abs/2311.01500v1 ) ライセンス: Link先を確認 | Sneh Pandya, Purvik Patel, Franc O, Jonathan Blazek | (参考訳) 本研究では,銀河画像に含まれるデータの対称性をインダクティブバイアスとして利用することにより,銀河形態分類の課題として,2次元ユークリッド群と等価なグループ畳み込みニューラルネットワークアーキテクチャ (gcnns) の利用を提案する。
本研究では,poissonノイズ挿入と1画素逆攻撃による人工摂動を導入することで,観測能力の制限による影響をシミュレートし,ロバスト性の研究を行う。
我々は、ギャラクシー10デカルスデータセット上の順序の巡回群および二面体群である $e(2)$ の離散部分群に対して、gcnn を訓練、検証、テストし、gcnn が分類精度が高く、非同値な部分群よりも一貫して頑健であることを見出し、$d_{16}$ のグループに同変したアーキテクチャで 9.52 \pm 0.18\%$ テストセット精度を達成する。
また、50\%$-noiseデータセットでは、モデルが$<6\%$の精度を失い、すべてのGCNNは、同一に構築されたCNNよりも1ピクセルの摂動の影響を受けにくいことがわかった。
私たちのコードはhttps://github.com/snehjp2/gcnnmorphologyで公開されています。 We propose the use of group convolutional neural network architectures (GCNNs) equivariant to the 2D Euclidean group, $E(2)$, for the task of galaxy morphology classification by utilizing symmetries of the data present in galaxy images as an inductive bias in the architecture. We conduct robustness studies by introducing artificial perturbations via Poisson noise insertion and one-pixel adversarial attacks to simulate the effects of limited observational capabilities. We train, validate, and test GCNNs equivariant to discrete subgroups of $E(2)$ - the cyclic and dihedral groups of order $N$ - on the Galaxy10 DECals dataset and find that GCNNs achieve higher classification accuracy and are consistently more robust than their non-equivariant counterparts, with an architecture equivariant to the group $D_{16}$ achieving a $95.52 \pm 0.18\%$ test-set accuracy. We also find that the model loses $<6\%$ accuracy on a $50\%$-noise dataset and all GCNNs are less susceptible to one-pixel perturbations than an identically constructed CNN. Our code is publicly available at https://github.com/snehjp2/GCNNMorphology. | 翻訳日:2023-11-06 16:12:06 公開日:2023-11-02 |
# MetaReVision: ビジュアルグラウンド構成概念獲得のための検索付きメタラーニング MetaReVision: Meta-Learning with Retrieval for Visually Grounded Compositional Concept Acquisition ( http://arxiv.org/abs/2311.01580v1 ) ライセンス: Link先を確認 | Guangyue Xu, Parisa Kordjamshidi, Joyce Chai | (参考訳) 人間は過去の経験から得られた原始概念を思い出し、一般化することで、新しい構成概念を学ぶことができる。
本稿では,メタレヴィジョン(MetaReVision)を提案する。メタレヴィジョン(MetaReVision)は,視覚的に基礎を成す合成概念学習問題に対処するためのメタ学習モデルである。
提案するメタリビジョンは、検索モジュールと、検索された原始概念を基底構成概念認識のためのメタトレーニングヴィジュアルアンゲージモデルへの支援セットとして組み込むように設計されたメタ学習モジュールから構成される。
検索者が構築したエピソードからのメタ学習を通じて、MetaReVisionは、新しい構成概念を認識するために素早く更新できる一般的な構成表現を学ぶ。
CompCOCOとCompFlickrを作成し、基礎となる合成概念学習をベンチマークする。
実験の結果,MetaReVisionは他の競争的ベースラインよりも優れており,この合成学習プロセスにおいて,検索モジュールが重要な役割を果たすことがわかった。 Humans have the ability to learn novel compositional concepts by recalling and generalizing primitive concepts acquired from past experiences. Inspired by this observation, in this paper, we propose MetaReVision, a retrieval-enhanced meta-learning model to address the visually grounded compositional concept learning problem. The proposed MetaReVision consists of a retrieval module and a meta-learning module which are designed to incorporate retrieved primitive concepts as a supporting set to meta-train vision-anguage models for grounded compositional concept recognition. Through meta-learning from episodes constructed by the retriever, MetaReVision learns a generic compositional representation that can be fast updated to recognize novel compositional concepts. We create CompCOCO and CompFlickr to benchmark the grounded compositional concept learning. Our experimental results show that MetaReVision outperforms other competitive baselines and the retrieval module plays an important role in this compositional learning process. | 翻訳日:2023-11-06 16:03:40 公開日:2023-11-02 |
# エンコーダ専用浅層変圧器の収束について On the Convergence of Encoder-only Shallow Transformers ( http://arxiv.org/abs/2311.01575v1 ) ライセンス: Link先を確認 | Yongtao Wu, Fanghui Liu, Grigorios G Chrysos, Volkan Cevher | (参考訳) 本稿では, エンコーダのみの浅層変圧器の大域収束理論を, アーキテクチャ, 初期化, スケーリングの観点から, 有限幅環境下で構築することを目的としている。
難しいのは、Transformerのコア要素である自己保持メカニズムにおけるソフトマックスに取り組む方法にある。
特に、スケーリングスキームを診断し、softmaxの入出力に慎重に取り組み、実際よく使われるhe/lecun初期化条件下での浅層変圧器のグローバル収束には二次過パラメータ化が十分であることを示す。
さらに、神経タンジェントカーネル(NTK)に基づく解析も行われ、包括的な比較を容易にする。
本理論は,異なるスケーリングスキームと初期化の重要性を分離するものである。
私たちは、現代のトランスフォーマー、特にトレーニングダイナミクスの理解を深める道を開くことができると信じています。 In this paper, we aim to build the global convergence theory of encoder-only shallow Transformers under a realistic setting from the perspective of architectures, initialization, and scaling under a finite width regime. The difficulty lies in how to tackle the softmax in self-attention mechanism, the core ingredient of Transformer. In particular, we diagnose the scaling scheme, carefully tackle the input/output of softmax, and prove that quadratic overparameterization is sufficient for global convergence of our shallow Transformers under commonly-used He/LeCun initialization in practice. Besides, neural tangent kernel (NTK) based analysis is also given, which facilitates a comprehensive comparison. Our theory demonstrates the separation on the importance of different scaling schemes and initialization. We believe our results can pave the way for a better understanding of modern Transformers, particularly on training dynamics. | 翻訳日:2023-11-06 16:03:23 公開日:2023-11-02 |
# マルチラベルアプローチによるFDG-18全体PET/CTスキャンにおける病変セグメンテーションの改善:オートPETIIの課題 Improving Lesion Segmentation in FDG-18 Whole-Body PET/CT scans using Multilabel approach: AutoPET II challenge ( http://arxiv.org/abs/2311.01574v1 ) ライセンス: Link先を確認 | Gowtham Krishnan Murugesan, Diana McCrumb, Eric Brunner, Jithendra Kumar, Rahul Soni, Vasily Grigorash, Stephen Moore, and Jeff Van Oss | (参考訳) 深層学習モデルを用いたFDG-18全体PET/CTスキャンにおける病変の自動分離は、治療反応の判定、ドシメトリの最適化、腫瘍学における脳新生の応用の進展に有効である。
しかし、肝臓、脾臓、脳、膀胱などの放射線吸収が増加する臓器の存在は、これらの領域が深層学習モデルによる病変と誤認されることがしばしばあるため、しばしば課題となる。
そこで本研究では,臓器と病変の両方を分節する新たなアプローチを提案し,自動的病変分節法の性能向上を目指した。
本研究では1014名の被験者からなるAutoPET IIチャレンジデータセットを用いて,提案手法の有効性を検討した。
モデルのセグメンテーション性能におけるラベルとデータの追加が与える影響について検討した。
専門的病変ラベルに加えて,肝,腎臓,膀胱,脾臓,肺,脳,心臓,胃の8つの臓器ラベルを導入した。
これらのラベルはデータセットに統合され、3D UNETモデルはnnUNetフレームワーク内でトレーニングされた。
その結果,本手法はfdg-18全身pet/ctスキャンにおける病変分画精度を著しく向上させる可能性があり,最終的にがん患者に利益をもたらし,臨床実践の進展に繋がる可能性が示唆された。 Automatic segmentation of lesions in FDG-18 Whole Body (WB) PET/CT scans using deep learning models is instrumental for determining treatment response, optimizing dosimetry, and advancing theranostic applications in oncology. However, the presence of organs with elevated radiotracer uptake, such as the liver, spleen, brain, and bladder, often leads to challenges, as these regions are often misidentified as lesions by deep learning models. To address this issue, we propose a novel approach of segmenting both organs and lesions, aiming to enhance the performance of automatic lesion segmentation methods. In this study, we assessed the effectiveness of our proposed method using the AutoPET II challenge dataset, which comprises 1014 subjects. We evaluated the impact of inclusion of additional labels and data in the segmentation performance of the model. In addition to the expert-annotated lesion labels, we introduced eight additional labels for organs, including the liver, kidneys, urinary bladder, spleen, lung, brain, heart, and stomach. These labels were integrated into the dataset, and a 3D UNET model was trained within the nnUNet framework. Our results demonstrate that our method achieved the top ranking in the held-out test dataset, underscoring the potential of this approach to significantly improve lesion segmentation accuracy in FDG-18 Whole-Body PET/CT scans, ultimately benefiting cancer patients and advancing clinical practice. | 翻訳日:2023-11-06 16:03:08 公開日:2023-11-02 |
# 視覚言語駆動型画像拡張による公平性向上 Improving Fairness using Vision-Language Driven Image Augmentation ( http://arxiv.org/abs/2311.01573v1 ) ライセンス: Link先を確認 | Moreno D'Inc\`a, Christos Tzelepis, Ioannis Patras, Nicu Sebe | (参考訳) ディープラーニングの識別モデル、特に顔領域のトレーニングでは、公平さが重要です。
モデルは、特定の特性(年齢や肌の色など)と非関連属性(ダウンストリームタスク)を関連付ける傾向があり、その結果、現実と一致しないバイアスが生じる。
これらの相関関係がデータの中に存在し、トレーニング中にモデルに転送されることは一般的な知識である。
本稿では,これらの相関を緩和して公平性を改善する手法を提案する。
そこで我々は,事前学習した拡散モデル (DiffAE) の意味空間にある解釈可能な意味的な経路を学習する。
つまり、保護された特徴(年齢と肌の色)を編集することを学ぶ。
これらのパスは、与えられたデータセットの公平性を改善するために拡張イメージに適用される。
CelebA-HQ と UTKFace では,年齢と肌の色を保護特性とする複数の下流課題に対して提案手法を検証した。
公平さの指標として,保護された特性に関して精度の差を計算する。
定量的な結果は、拡張画像がモデル全体の精度、上記の指標、および同機会の格差を改善するのにどのように役立つかを示す。
コードは、https://github.com/Moreno98/Vision-Language-Bias-Controlで入手できる。 Fairness is crucial when training a deep-learning discriminative model, especially in the facial domain. Models tend to correlate specific characteristics (such as age and skin color) with unrelated attributes (downstream tasks), resulting in biases which do not correspond to reality. It is common knowledge that these correlations are present in the data and are then transferred to the models during training. This paper proposes a method to mitigate these correlations to improve fairness. To do so, we learn interpretable and meaningful paths lying in the semantic space of a pre-trained diffusion model (DiffAE) -- such paths being supervised by contrastive text dipoles. That is, we learn to edit protected characteristics (age and skin color). These paths are then applied to augment images to improve the fairness of a given dataset. We test the proposed method on CelebA-HQ and UTKFace on several downstream tasks with age and skin color as protected characteristics. As a proxy for fairness, we compute the difference in accuracy with respect to the protected characteristics. Quantitative results show how the augmented images help the model improve the overall accuracy, the aforementioned metric, and the disparity of equal opportunity. Code is available at: https://github.com/Moreno98/Vision-Language-Bias-Control. | 翻訳日:2023-11-06 16:02:41 公開日:2023-11-02 |
# 大規模言語モデルの統合アンサンブルを用いた長期臨床テキストの知識の保存 Preserving the knowledge of long clinical texts using aggregated ensembles of large language models ( http://arxiv.org/abs/2311.01571v1 ) ライセンス: Link先を確認 | Mohammad Junayed Hasan, Suhra Noor and Mohammad Ashrafuzzaman Khan | (参考訳) 入院記、退院記、進歩記などの臨床テキストには、様々な臨床結果予測タスクに使用できる豊富で価値のある情報が含まれている。
しかし、BERTベースのモデルのような大きな言語モデルを臨床テキストに適用すると、入力長の制限とデータソースの多様性という2つの大きな課題が生じる。
本稿では, 大規模言語モデルの統合アンサンブルを用いて, 長期臨床テキストの知識を保存できる新しい手法を提案する。
モデルアンサンブル法やテキストアグリゲーション法を別々に用いた従来の研究とは異なり、アンサンブル学習をテキストアグリゲーションと組み合わせ、複数の大規模言語モデルを2つの臨床結果のタスク、すなわち死亡予測と滞在予測の長さで訓練する。
提案手法は,ベースラインやアンサンブル,アグリゲーションを個別に行うよりも優れた結果が得られ,長い入力や多様なデータセットを処理しながら,大規模言語モデルの性能を向上させることができることを示す。
本研究は,MIMIC-III 臨床データベースから,複数の非構造化データセットと高次元データセットを組み合わせ,提案手法の有効性と既存手法よりも優れていることを示す。
また,本手法の応用と臨床医療分野における今後の研究への限界を強調し,総合的な分析と考察を行った。
本研究の結果と分析は, 長文入力や多種多様なデータセットの課題を克服し, 堅牢なパフォーマンスで臨床意思決定を可能にすることで, 臨床医療システムにおける支援手法を裏付けるものである。 Clinical texts, such as admission notes, discharge summaries, and progress notes, contain rich and valuable information that can be used for various clinical outcome prediction tasks. However, applying large language models, such as BERT-based models, to clinical texts poses two major challenges: the limitation of input length and the diversity of data sources. This paper proposes a novel method to preserve the knowledge of long clinical texts using aggregated ensembles of large language models. Unlike previous studies which use model ensembling or text aggregation methods separately, we combine ensemble learning with text aggregation and train multiple large language models on two clinical outcome tasks: mortality prediction and length of stay prediction. We show that our method can achieve better results than baselines, ensembling, and aggregation individually, and can improve the performance of large language models while handling long inputs and diverse datasets. We conduct extensive experiments on the admission notes from the MIMIC-III clinical database by combining multiple unstructured and high-dimensional datasets, demonstrating our method's effectiveness and superiority over existing approaches. We also provide a comprehensive analysis and discussion of our results, highlighting our method's applications and limitations for future research in the domain of clinical healthcare. The results and analysis of this study is supportive of our method assisting in clinical healthcare systems by enabling clinical decision-making with robust performance overcoming the challenges of long text inputs and varied datasets. | 翻訳日:2023-11-06 16:02:22 公開日:2023-11-02 |
# データセット蒸留のための逐次サブセットマッチング Sequential Subset Matching for Dataset Distillation ( http://arxiv.org/abs/2311.01570v1 ) ライセンス: Link先を確認 | Jiawei Du, Qin Shi, Joey Tianyi Zhou | (参考訳) データセットの蒸留は、データストレージの削減とモデルのトレーニングコストの削減のために、ディープニューラルネットワーク(DNN)のトレーニングに使用される小さなデータセットを合成する、新たなタスクである。
合成データセットは、実世界のデータセットに含まれる知識の本質をキャプチャし、前者が後者と同様のパフォーマンスが得られることが期待される。
近年の蒸留法の進歩は、合成データセットの生成に顕著な改善をもたらした。
しかし、現在の最先端の手法では、合成データセット全体を統一エンティティとして扱い、各合成インスタンスを等しく最適化する。
この静的最適化アプローチは、データセット蒸留の性能劣化につながる可能性がある。
具体的には、特に大量の合成データが最適化されている場合、静的な最適化は合成データ内のカップリング問題を引き起こす可能性があると論じる。
この結合問題は、後に深層ニューラルネットワーク(dnn)によって学習された高レベルな特徴を抽出するために蒸留データセットが故障する原因となる。
本研究では,データセット蒸留における知識の逐次獲得を促進するために,合成データを適応的に最適化することでこの問題に対処するSeqMatchと呼ばれる新しいデータセット蒸留戦略を提案する。
解析の結果,SeqMatchは合成インスタンスを逐次生成することで結合問題を効果的に解決し,性能を著しく向上した。
提案するSeqMatchは,SVNH, CIFAR-10, CIFAR-100, Tiny ImageNetなど,様々なデータセットで最先端の手法より優れている。
私たちのコードはhttps://github.com/shqii1j/seqmatchで利用可能です。 Dataset distillation is a newly emerging task that synthesizes a small-size dataset used in training deep neural networks (DNNs) for reducing data storage and model training costs. The synthetic datasets are expected to capture the essence of the knowledge contained in real-world datasets such that the former yields a similar performance as the latter. Recent advancements in distillation methods have produced notable improvements in generating synthetic datasets. However, current state-of-the-art methods treat the entire synthetic dataset as a unified entity and optimize each synthetic instance equally. This static optimization approach may lead to performance degradation in dataset distillation. Specifically, we argue that static optimization can give rise to a coupling issue within the synthetic data, particularly when a larger amount of synthetic data is being optimized. This coupling issue, in turn, leads to the failure of the distilled dataset to extract the high-level features learned by the deep neural network (DNN) in the latter epochs. In this study, we propose a new dataset distillation strategy called Sequential Subset Matching (SeqMatch), which tackles this problem by adaptively optimizing the synthetic data to encourage sequential acquisition of knowledge during dataset distillation. Our analysis indicates that SeqMatch effectively addresses the coupling issue by sequentially generating the synthetic instances, thereby enhancing its performance significantly. Our proposed SeqMatch outperforms state-of-the-art methods in various datasets, including SVNH, CIFAR-10, CIFAR-100, and Tiny ImageNet. Our code is available at https://github.com/shqii1j/seqmatch. | 翻訳日:2023-11-06 16:01:54 公開日:2023-11-02 |
# 政策優先による任意の競争力強化学習 Anytime-Competitive Reinforcement Learning with Policy Prior ( http://arxiv.org/abs/2311.01568v1 ) ライセンス: Link先を確認 | Jianyi Yang, Pengfei Li, Tongxin Li, Adam Wierman, Shaolei Ren | (参考訳) 本稿では,A-CMDP(Anytime-Competitive Markov Decision Process)の問題について検討する。
既存のCMDP(Constrained Markov Decision Processs)の作業は、期待されるコストをランダムなダイナミクスに制限しながら、期待される報酬を最適化することを目的としているが、特定のエピソードのコストは不満足に高い。
対照的に、A-CMDPの目標は、期待される報酬を最適化し、前回のポリシーに対して各エピソードのラウンドのバウンドコストを保証することである。
我々は,anytime-competitive reinforcement learning (acrl) と呼ばれる新しいアルゴリズムを提案する。
後悔の分析は、ポリシーが常に競争上の制約の下で達成可能な最適報酬に漸近的に一致することを示している。
炭素インテリジェントコンピューティングの適用実験は、ACRLの報酬性能とコスト制約保証を検証する。 This paper studies the problem of Anytime-Competitive Markov Decision Process (A-CMDP). Existing works on Constrained Markov Decision Processes (CMDPs) aim to optimize the expected reward while constraining the expected cost over random dynamics, but the cost in a specific episode can still be unsatisfactorily high. In contrast, the goal of A-CMDP is to optimize the expected reward while guaranteeing a bounded cost in each round of any episode against a policy prior. We propose a new algorithm, called Anytime-Competitive Reinforcement Learning (ACRL), which provably guarantees the anytime cost constraints. The regret analysis shows the policy asymptotically matches the optimal reward achievable under the anytime competitive constraints. Experiments on the application of carbon-intelligent computing verify the reward performance and cost constraint guarantee of ACRL. | 翻訳日:2023-11-06 16:01:29 公開日:2023-11-02 |
# 心エコー画像生成のための画像拡散モデルのハイパーパラメータ空間の探索 Exploring the Hyperparameter Space of Image Diffusion Models for Echocardiogram Generation ( http://arxiv.org/abs/2311.01567v1 ) ライセンス: Link先を確認 | Hadrien Reynaud and Bernhard Kainz | (参考訳) 本研究は,エコー心電図生成のための画像拡散モデルに対する広範なハイパーパラメータ探索を提案する。
本研究の目的は,超音波画像と映像生成の領域内での基礎的ベンチマークを確立し,ガイドラインを提供することである。
この研究は最先端のモデルアーキテクチャやトレーニング方法論を含む最新の進歩を基盤としている。
また, 実データと実データ間の分布変化について検討し, 効率的なモデルの構築に不可欠である可能性を検討した。
最適FIDスコアは、我々の研究問題に対して0.88ドル、FIDスコアは2.60ドルである。
本研究は,超音波画像とビデオ生成の専門分野におけるさらなる発展への参考として,貴重な知見の提供を目的としている。 This work presents an extensive hyperparameter search on Image Diffusion Models for Echocardiogram generation. The objective is to establish foundational benchmarks and provide guidelines within the realm of ultrasound image and video generation. This study builds over the latest advancements, including cutting-edge model architectures and training methodologies. We also examine the distribution shift between real and generated samples and consider potential solutions, crucial to train efficient models on generated data. We determine an Optimal FID score of $0.88$ for our research problem and achieve an FID of $2.60$. This work is aimed at contributing valuable insights and serving as a reference for further developments in the specialized field of ultrasound image and video generation. | 翻訳日:2023-11-06 16:01:13 公開日:2023-11-02 |
# 大域対称性を持たない非エルミート系におけるロバスト零モード Robust zero modes in non-Hermitian systems without global symmetries ( http://arxiv.org/abs/2311.01566v1 ) ライセンス: Link先を確認 | Jose D. H. Rivero, Courtney Fleming, Bingkun Qi, Liang Feng, Li Ge | (参考訳) 我々は, バルクの対称性や位相に依存しない格子モデルにおいてゼロモードを達成するための手法を提案する。
このような対称性のないゼロモード(SFZMs)は、格子全体に広がる「核」として機能する、バルクにゼロモードを持つ単一サイトまたは小さなクラスタをアタッチすることで形成される。
この境界とバルクの間の結合に関する要件を特定し、このアプローチが本質的に非エルミート的であることを明らかにする。
次に、任意のバルクまたは構造化されたバルクを持ついくつかの例を示し、バルク連続体、ミッドギャップゼロモードにスペクトル埋め込みゼロモードを形成し、結合状態や不規則シフトされた位相的コーナー状態の「ゼロネス」を復元する。
フォトニック格子を用いて実現可能な実現性に着目し,光利得が境界に適用された場合のSFZMを単一ラシングモードとして観測できることを示す。 We present an approach to achieve zero modes in lattice models that do not rely on any symmetry or topology of the bulk, which are robust against disorder in the bulk of any type and strength. Such symmetry-free zero modes (SFZMs) are formed by attaching a single site or small cluster with zero mode(s) to the bulk, which serves as the "nucleus" that expands to the entire lattice. We identify the requirements on the couplings between this boundary and the bulk, which reveals that this approach is intrinsically non-Hermitian. We then provide several examples with either an arbitrary or structured bulk, forming spectrally embedded zero modes in the bulk continuum, midgap zero modes, and even restoring the "zeroness" of coupling or disorder-shifted topological corner states. Focusing on viable realizations using photonic lattices, we show that the resulting SFZM can be observed as the single lasing mode when optical gain is applied to the boundary. | 翻訳日:2023-11-06 16:01:04 公開日:2023-11-02 |
# アシストは目標と同じくらい重要だ - モデルのロバストな予測を支援するイメージの復活 Assist Is Just as Important as the Goal: Image Resurfacing to Aid Model's Robust Prediction ( http://arxiv.org/abs/2311.01563v1 ) ライセンス: Link先を確認 | Abhijith Sharma, Phil Munz, Apurva Narayan | (参考訳) 敵対的パッチは、現実世界のビジュアルAIモデルを脅かす。
パッチ攻撃のパッチの数は可変であり、特定の環境における攻撃の能力を決定する。
既存の防御の多くは、シーン内で1つのパッチを想定しており、複数のパッチシナリオがそれらを克服するように示されています。
本稿では,tvr(total variation for image resurfacing)に基づくパッチ攻撃に対するモデル非依存防御について述べる。
TVRは画像のクレンジング手法で、画像を処理することで、起こりうる敵領域を除去する。
TVRは、防御されたモデルでのみ利用または拡張することができ、堅牢な予測のためのマルチレベルセキュリティを提供する。
TVRは、シーン内のパッチ数に対する事前の仮定なしに、単一のイメージスキャンにおけるパッチの影響を無効にする。
我々は、ImageNet-Patchベンチマークデータセットと現実世界の物理オブジェクトを用いてTVRを検証する。 Adversarial patches threaten visual AI models in the real world. The number of patches in a patch attack is variable and determines the attack's potency in a specific environment. Most existing defenses assume a single patch in the scene, and the multiple patch scenarios are shown to overcome them. This paper presents a model-agnostic defense against patch attacks based on total variation for image resurfacing (TVR). The TVR is an image-cleansing method that processes images to remove probable adversarial regions. TVR can be utilized solely or augmented with a defended model, providing multi-level security for robust prediction. TVR nullifies the influence of patches in a single image scan with no prior assumption on the number of patches in the scene. We validate TVR on the ImageNet-Patch benchmark dataset and with real-world physical objects, demonstrating its ability to mitigate patch attack. | 翻訳日:2023-11-06 16:00:45 公開日:2023-11-02 |
# 並列量子強調センシング Parallel Quantum-Enhanced Sensing ( http://arxiv.org/abs/2311.01560v1 ) ライセンス: Link先を確認 | Mohammadjavad Dowran, Aye L. Win, Umang Jain, Ashok Kumar, Benjamin J. Lawrie, Raphael C. Pooser, and Alberto M. Marino | (参考訳) 量子距離論は、量子相関を利用して、ショットノイズ限界によって与えられる基本的な古典的限界を超えて、センサーや計測技術の感度を高める。
光の量子状態に存在する時間的および空間的相関は、量子エンハンスされたセンシングを、センサーの配列を同時に探索したり、複数のパラメータを独立に測定する並列な構成に拡張することができる。
この目的のために,量子時間相関に加えて独立した量子相関空間部分領域を特徴とする多重空間モード双対光ビームを用いて4センサ四角形プラズモニックアレイを探索する。
そこで本研究では,4センサの局所的な屈折率変化を独立に同時に測定し,古典的構成に対して22 %から24 %の範囲で感度を量子的に高めることができることを示す。
これらの結果は、高度に並列な空間分解された量子エンハンスセンシング技術への第一歩となり、より複雑な量子センシングと量子イメージングプラットフォームへの道を開く。 Quantum metrology takes advantage of quantum correlations to enhance the sensitivity of sensors and measurement techniques beyond their fundamental classical limit given by the shot noise limit. The use of both temporal and spatial correlations present in quantum states of light can extend quantum-enhanced sensing to a parallel configuration that can simultaneously probe an array of sensors or independently measure multiple parameters. To this end, we use multi-spatial mode twin beams of light, which are characterized by independent quantum-correlated spatial subregions in addition to quantum temporal correlations, to probe a four-sensor quadrant plasmonic array. We show that it is possible to independently and simultaneously measure local changes in refractive index for all four sensors with a quantum enhancement in sensitivity in the range of $22\%$ to $24\%$ over the corresponding classical configuration. These results provide a first step towards highly parallel spatially resolved quantum-enhanced sensing techniques and pave the way toward more complex quantum sensing and quantum imaging platforms. | 翻訳日:2023-11-06 16:00:33 公開日:2023-11-02 |
# MemorySeg: 遅延メモリを備えたオンラインLiDARセマンティックセマンティックセグメンテーション MemorySeg: Online LiDAR Semantic Segmentation with a Latent Memory ( http://arxiv.org/abs/2311.01556v1 ) ライセンス: Link先を確認 | Enxu Li, Sergio Casas, Raquel Urtasun | (参考訳) LiDAR点雲のセマンティックセグメンテーションは近年広く研究されており、既存のほとんどの手法は環境の単一スキャンを用いてこの課題に取り組むことに焦点を当てている。
しかし、時間的な観察の流れを活用することで、シーンの領域についての非常に豊かな文脈情報(例えば、オクルージョン)やスパース観測(例えば、長い範囲で)が得られ、フレーム後の冗長な計算フレームを減らすのに役立つ。
本稿では,過去のフレームからの情報を活用し,現在のフレームの予測をオンライン形式で改善するという課題に挑戦する。
この課題に対処するために,メモリネットワークを利用して過去の情報を保存,更新,検索する,LDARポイントクラウドの時間的シーケンスのセグメンテーションのための新しいフレームワークを提案する。
当社のフレームワークには、ポイントクラウド近傍の予測変動をペナライズするレギュレータも含まれています。
先行研究は、セマンティックセグメンテーションのための範囲ビュー表現にメモリを組み込もうとしたが、これらの手法はオクルージョンの処理に失敗し、周囲のエージェントが移動するにつれてシーンの範囲ビュー表現が劇的に変化する。
提案するフレームワークは, 周囲の粗い3次元潜在表現を構築することで, これらの制約を克服する。
我々はSemanticKITTI, nuScenes, PandaSetについて検討した。
提案手法の有効性を,最先端のフレームワークと比較して実証した。 Semantic segmentation of LiDAR point clouds has been widely studied in recent years, with most existing methods focusing on tackling this task using a single scan of the environment. However, leveraging the temporal stream of observations can provide very rich contextual information on regions of the scene with poor visibility (e.g., occlusions) or sparse observations (e.g., at long range), and can help reduce redundant computation frame after frame. In this paper, we tackle the challenge of exploiting the information from the past frames to improve the predictions of the current frame in an online fashion. To address this challenge, we propose a novel framework for semantic segmentation of a temporal sequence of LiDAR point clouds that utilizes a memory network to store, update and retrieve past information. Our framework also includes a regularizer that penalizes prediction variations in the neighborhood of the point cloud. Prior works have attempted to incorporate memory in range view representations for semantic segmentation, but these methods fail to handle occlusions and the range view representation of the scene changes drastically as agents nearby move. Our proposed framework overcomes these limitations by building a sparse 3D latent representation of the surroundings. We evaluate our method on SemanticKITTI, nuScenes, and PandaSet. Our experiments demonstrate the effectiveness of the proposed framework compared to the state-of-the-art. | 翻訳日:2023-11-06 16:00:17 公開日:2023-11-02 |
# 大規模な言語モデルでゼロショットランチャーを効率化するインストラクション蒸留 Instruction Distillation Makes Large Language Models Efficient Zero-shot Rankers ( http://arxiv.org/abs/2311.01555v1 ) ライセンス: Link先を確認 | Weiwei Sun and Zheng Chen and Xinyu Ma and Lingyong Yan and Shuaiqiang Wang and Pengjie Ren and Zhumin Chen and Dawei Yin and Zhaochun Ren | (参考訳) 近年,Large Language Models (LLMs) がゼロショットレバレンスローダとして機能する可能性を示している。
典型的なアプローチは、文書のペアまたはリストの比較である。
有効ではあるが、これらのリストワイドとペアワイドの手法は効率的ではなく、複雑なプロンプト工学に依存している。
そこで本研究では,新しい蒸留法を提案する。
重要なアイデアは、オープンソースllmのペアワイズランキング能力を、よりシンプルで効率的なポイントワイズランキングに絞り込むことだ。
具体的には、同じllmを与えられた場合、まず、複雑な命令を伴う効果的なペアワイズアプローチを用いてドキュメントをランク付けし、次に教師予測をより単純な指示でポイントワイズアプローチに絞り込む。
BEIR, TREC, およびReDialデータセットの評価結果は, 命令蒸留により10倍から100倍の効率が向上し, LLMのランク付け性能が向上することを示した。
さらに,本手法はMonoT5のような既存の教師付き手法よりも優れ,最先端のゼロショット方式と同等である。
結果を再現するコードはwww.github.com/sunnweiwei/RankGPTで入手できる。 Recent studies have demonstrated the great potential of Large Language Models (LLMs) serving as zero-shot relevance rankers. The typical approach involves making comparisons between pairs or lists of documents. Although effective, these listwise and pairwise methods are not efficient and also heavily rely on intricate prompt engineering. To tackle this problem, we introduce a novel instruction distillation method. The key idea is to distill the pairwise ranking ability of open-sourced LLMs to a simpler but more efficient pointwise ranking. Specifically, given the same LLM, we first rank documents using the effective pairwise approach with complex instructions, and then distill the teacher predictions to the pointwise approach with simpler instructions. Evaluation results on the BEIR, TREC, and ReDial datasets demonstrate that instruction distillation can improve efficiency by 10 to 100x and also enhance the ranking performance of LLMs. Furthermore, our approach surpasses the performance of existing supervised methods like monoT5 and is on par with the state-of-the-art zero-shot methods. The code to reproduce our results is available at www.github.com/sunnweiwei/RankGPT. | 翻訳日:2023-11-06 15:59:51 公開日:2023-11-02 |
# ファンデーションモデルにおける市場集中の意義 Market Concentration Implications of Foundation Models ( http://arxiv.org/abs/2311.01550v1 ) ライセンス: Link先を確認 | Jai Vipra, Anton Korinek | (参考訳) 本稿では,ChatGPTや下流利用に適応可能な大規模AIモデルなどの基盤モデルの市場構造を分析し,競争政策や規制の影響について検討する。
我々は、最も有能なモデルは自然の独占に傾向があり、潜在的に巨大な市場を持つ可能性があることを観察する。
これは2段階の規制対応を要求する。
(i)反トラスト当局は、特に独占が下流の用途に垂直に伝播しないことを保証することにより、戦略的行動に取り組むことにより、市場の競争性を確保する必要がある。
(二)市場規律の弱体化により、最も有能なモデルが社会福祉に最大限貢献するために十分な品質基準(安全、プライバシー、非差別、信頼性及び相互運用性基準を含む)を満たすことを保証する役割がある。
また、レギュレータは、経済のあらゆる分野におけるAIと非AIアプリケーションの間のレベル規制のフィールドを確保する必要がある。
フロンティアの背後にあるモデルでは、競争は非常に激しく、競争政策におけるより限定的な役割を示唆するが、規制の役割は依然として残っている。 We analyze the structure of the market for foundation models, i.e., large AI models such as those that power ChatGPT and that are adaptable to downstream uses, and we examine the implications for competition policy and regulation. We observe that the most capable models will have a tendency towards natural monopoly and may have potentially vast markets. This calls for a two-pronged regulatory response: (i) Antitrust authorities need to ensure the contestability of the market by tackling strategic behavior, in particular by ensuring that monopolies do not propagate vertically to downstream uses, and (ii) given the diminished potential for market discipline, there is a role for regulators to ensure that the most capable models meet sufficient quality standards (including safety, privacy, non-discrimination, reliability and interoperability standards) to maximally contribute to social welfare. Regulators should also ensure a level regulatory playing field between AI and non-AI applications in all sectors of the economy. For models that are behind the frontier, we expect competition to be quite intense, implying a more limited role for competition policy, although a role for regulation remains. | 翻訳日:2023-11-06 15:59:31 公開日:2023-11-02 |
# Divergent Token Metrics: LLMコンポーネントを起点とする劣化の測定と量子化の最適化 Divergent Token Metrics: Measuring degradation to prune away LLM components -- and optimize quantization ( http://arxiv.org/abs/2311.01544v1 ) ライセンス: Link先を確認 | Bj\"orn Deiseroth, Max Meuer, Nikolas Gritsch, Constantin Eichenberg, Patrick Schramowski, Matthias A{\ss}enmacher, Kristian Kersting | (参考訳) 大きな言語モデル(LLM)は、その印象的な能力で自然言語処理を再構築した。
しかし、その規模は増え続けており、効果的デプロイとLLM圧縮の必要性への懸念が高まった。
本研究は, テキスト生成品質を正確に反映できない難易度などの従来の尺度の限界に対処する, 圧縮LDMの新たな評価手法であるDTMを紹介した。
DTMはトークンの発散に注目し、モデル圧縮の微妙さに関する深い洞察を提供する。
以上の結果から,テキスト生成品質を損なうことなく高い精度とスパーシティを実現することができた。
さらに、DTMは個々のコンポーネントへの影響をより正確に評価する。
モデルスペーシフィケーションにFDTM(First Divergent Token metric)を用いることで、すべてのコンポーネントの20%近くを90%以上にわたって刈り取ることができることが明らかになった。
量子化に関しては、FDTMはパラメータの80%以上を特別な外部管理なしで直接int8に変換することを示唆している。 Large Language Models (LLMs) have reshaped natural language processing with their impressive capabilities. Their ever-increasing size, however, raised concerns about their effective deployment and the need for LLM compressions. This study introduces the Divergent Token metrics (DTMs), a novel approach for assessing compressed LLMs, addressing the limitations of traditional measures like perplexity that fail to accurately reflect text generation quality. DTMs focus on token divergence, providing deeper insights into the subtleties of model compression. Our results indicate that significant levels of precision and sparsity can be achieved without compromising text generation quality. Moreover, DTMs offers a more precise evaluation of each component's impact individually. Utilizing the First Divergent Token metric (FDTM) in model sparsification reveals that nearly 20% of all components can be pruned over 90%. In terms of quantization, the FDTM suggests that over 80% of parameters can be straightforwardly transformed to int8 without special outlier management. | 翻訳日:2023-11-06 15:59:10 公開日:2023-11-02 |
# ハイパースペクトル画像分類のためのアテンションベースデュアルブランチ複合特徴核融合ネットワーク Attention based Dual-Branch Complex Feature Fusion Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2311.01624v1 ) ライセンス: Link先を確認 | Mohammed Q. Alkhatib, Mina Al-Saad, Nour Aburaed, M. Sami Zitouni, Hussain Al Ahmad | (参考訳) 本研究では,高スペクトル画像分類のための新しい二分岐モデルを提案する。一方は実値ニューラルネットワーク(RVNN)を用いた標準ハイパースペクトルパッチ処理と,他方は複素値ニューラルネットワーク(CVNN)を用いた対応するフーリエ変換処理である。
提案モデルはパヴィア大学とサリナスのデータセットで評価される。
その結果,提案手法は全体の精度,平均精度,Kappaにおいて,最先端の手法よりも優れていた。
第2ストリームにフーリエ変換を組み込むことにより、第1ストリームによって抽出された空間情報を補完する周波数情報を抽出することができる。
これら2つのストリームを組み合わせることで、モデル全体のパフォーマンスが向上する。
さらに、モデル性能を向上させるために、Squeeze and Excitation(SE)機構が使用されている。
実験的な証拠はSEブロックがモデル全体の精度をほぼ1\%改善していることを示している。 This research work presents a novel dual-branch model for hyperspectral image classification that combines two streams: one for processing standard hyperspectral patches using Real-Valued Neural Network (RVNN) and the other for processing their corresponding Fourier transforms using Complex-Valued Neural Network (CVNN). The proposed model is evaluated on the Pavia University and Salinas datasets. Results show that the proposed model outperforms state-of-the-art methods in terms of overall accuracy, average accuracy, and Kappa. Through the incorporation of Fourier transforms in the second stream, the model is able to extract frequency information, which complements the spatial information extracted by the first stream. The combination of these two streams improves the overall performance of the model. Furthermore, to enhance the model performance, the Squeeze and Excitation (SE) mechanism has been utilized. Experimental evidence show that SE block improves the models overall accuracy by almost 1\%. | 翻訳日:2023-11-06 15:51:54 公開日:2023-11-02 |
# ACQUIRED:実生活の動画で相手の質問に答えるデータセット ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life Videos ( http://arxiv.org/abs/2311.01620v1 ) ライセンス: Link先を確認 | Te-Lin Wu, Zi-Yi Dou, Qingyuan Hu, Yu Hou, Nischal Reddy Chandra, Marjorie Freedman, Ralph M. Weischedel, Nanyun Peng | (参考訳) マルチモーダルカウンターファクト推論は、AIシステムにとって不可欠だが困難な能力である。
視覚と言語入力に基づいて仮説的状況の結果を予測することを含み、AIモデルは失敗から学び、仮説的シナリオを探索することができる。
その重要性にもかかわらず、マルチモーダルモデルの反実的推論能力をターゲットにしたデータセットはわずかである。
それらのうち、合成環境や特定の種類のイベント(交通衝突など)の推論のみをカバーするため、様々な現実世界のシナリオや推論次元においてモデルの一般化能力を確実にベンチマークすることは困難である。
この制約を克服するため,我々は3.9kの注釈付きビデオで構成され,多種多様なイベントタイプを包含し,第1者視点と第3者視点の両方を取り入れ,実世界の多様性に焦点をあてたビデオ質問応答データセットを開発した。
さらに、各ビデオは、物理的、社会的、時間的を含む3つの異なる推論の次元にまたがる質問で注釈付けされ、複数の側面に沿ってモデル反事実能力を包括的に評価することができる。
我々は,最先端言語のみおよびマルチモーダルモデルに対してデータセットをベンチマークし,実験結果から,モデルと人間の間に有意な性能差(>13%)が示された。
この結果は、マルチモーダルな反ファクト推論は依然としてオープンな課題であり、ACQUIREDは今後の研究を刺激するための総合的で信頼性の高いベンチマークであることを示している。 Multimodal counterfactual reasoning is a vital yet challenging ability for AI systems. It involves predicting the outcomes of hypothetical circumstances based on vision and language inputs, which enables AI models to learn from failures and explore hypothetical scenarios. Despite its importance, there are only a few datasets targeting the counterfactual reasoning abilities of multimodal models. Among them, they only cover reasoning over synthetic environments or specific types of events (e.g. traffic collisions), making them hard to reliably benchmark the model generalization ability in diverse real-world scenarios and reasoning dimensions. To overcome these limitations, we develop a video question answering dataset, ACQUIRED: it consists of 3.9K annotated videos, encompassing a wide range of event types and incorporating both first and third-person viewpoints, which ensures a focus on real-world diversity. In addition, each video is annotated with questions that span three distinct dimensions of reasoning, including physical, social, and temporal, which can comprehensively evaluate the model counterfactual abilities along multiple aspects. We benchmark our dataset against several state-of-the-art language-only and multimodal models and experimental results demonstrate a significant performance gap (>13%) between models and humans. The findings suggest that multimodal counterfactual reasoning remains an open challenge and ACQUIRED is a comprehensive and reliable benchmark for inspiring future research in this direction. | 翻訳日:2023-11-06 15:51:24 公開日:2023-11-02 |
# InsPLAD:UAV画像における電力線アセット検査のためのデータセットとベンチマーク InsPLAD: A Dataset and Benchmark for Power Line Asset Inspection in UAV Images ( http://arxiv.org/abs/2311.01619v1 ) ライセンス: Link先を確認 | Andr\'e Luiz Buarque Vieira e Silva, Heitor de Castro Felix, Franscisco Paulo Magalh\~aes Sim\~oes, Veronica Teichrieb, Michel Mozinho dos Santos, Hemir Santiago, Virginia Sgotti and Henrique Lott Neto | (参考訳) 電力系統の維持と検査は、電力供給の中断を避けるために不可欠であり、その社会的・経済的影響は年々減少している。
電力線ビジュアルインスペクションの自動化は、電力線コンポーネントのパブリックな現実世界データセットの欠如と、新しい研究を育むための様々な欠陥により、業界にとって重要なオープンな問題である。
本稿では,10,607台の高分解能無人航空機カラー画像を含む電力線資産検査データセットinspladとベンチマークを紹介する。
このデータセットには、17のユニークな電力線資産が含まれている。
さらに5つの資産には6つの欠陥があり、4つは腐食、1つは壊れた部品、1つは鳥の巣の存在である。
すべての資産は、正常または欠陥名のいずれかの条件に従ってラベル付けされた。
我々は、InsPLADがカバーする3つの画像レベルのコンピュータビジョンタスクに対して、APメトリックによるオブジェクト検出、バランス精度による欠陥分類、AUROCメトリックによる異常検出の3つについて、最先端および一般的な手法を徹底的に評価した。
InsPLADは、マルチスケールオブジェクト、マルチサイズクラスインスタンス、画像ごとの複数のオブジェクト、クラス内の変動、散らかった背景、視点歪み、閉塞、様々な照明条件など、制御されていない環境から様々な視覚課題を提供する。
我々の知る限り、InsPLADは、複数のコンポーネントと様々なコンピュータビジョンタスクの欠陥による電力線資産検査のための最初の大規模な実世界のデータセットとベンチマークであり、この分野における最先端の手法を改善するための潜在的影響がある。
完全性はリポジトリ上で公開され、詳細な説明が提供される。
https://github.com/andreluizbvs/InsPLADで見ることができる。 Power line maintenance and inspection are essential to avoid power supply interruptions, reducing its high social and financial impacts yearly. Automating power line visual inspections remains a relevant open problem for the industry due to the lack of public real-world datasets of power line components and their various defects to foster new research. This paper introduces InsPLAD, a Power Line Asset Inspection Dataset and Benchmark containing 10,607 high-resolution Unmanned Aerial Vehicles colour images. The dataset contains seventeen unique power line assets captured from real-world operating power lines. Additionally, five of those assets present six defects: four of which are corrosion, one is a broken component, and one is a bird's nest presence. All assets were labelled according to their condition, whether normal or the defect name found on an image level. We thoroughly evaluate state-of-the-art and popular methods for three image-level computer vision tasks covered by InsPLAD: object detection, through the AP metric; defect classification, through Balanced Accuracy; and anomaly detection, through the AUROC metric. InsPLAD offers various vision challenges from uncontrolled environments, such as multi-scale objects, multi-size class instances, multiple objects per image, intra-class variation, cluttered background, distinct point-of-views, perspective distortion, occlusion, and varied lighting conditions. To the best of our knowledge, InsPLAD is the first large real-world dataset and benchmark for power line asset inspection with multiple components and defects for various computer vision tasks, with a potential impact to improve state-of-the-art methods in the field. It will be publicly available in its integrity on a repository with a thorough description. It can be found at https://github.com/andreluizbvs/InsPLAD. | 翻訳日:2023-11-06 15:50:58 公開日:2023-11-02 |
# 視覚課題の連続学習のためのルックアヘッド選択塑性 Look-Ahead Selective Plasticity for Continual Learning of Visual Tasks ( http://arxiv.org/abs/2311.01617v1 ) ライセンス: Link先を確認 | Rouzbeh Meshkinnejad, Jie Mei, Daniel Lizotte, Yalda Mohsenzadeh | (参考訳) コントラスト表現学習は、破滅的な忘れ込みに頑健な表現を学習し、目に見えない未来のタスクにうまく一般化することができるため、継続的な学習のための有望な技術として現れてきた。
継続的学習における以前の作業は、以前のタスクデータとトレーニングされたモデルを使用することによる忘れ方に対処するものだった。
脳内で生成されたイベントモデルに着想を得て,タスク境界,すなわちひとつのタスクが終了し,別のタスクが起動する時に発生する新たなメカニズムを提案する。
ニューラルネットワークの出力に対照的な損失をもたらす冗長性を観察することにより、新しいタスクの最初の少数のサンプルを利用して、ニューラルネットワークの転送能力に最も寄与するパラメータを特定し、保持し、ネットワークの残りの部分を解放し、新しい特徴を学習する。
提案手法をcifar10とtinyimagenetを含むベンチマークコンピュータビジョンデータセットで評価し,タスクインクリメンタル,クラスインクリメンタル,ドメインインクリメンタルの連続学習シナリオにおける最先端の性能を示す。 Contrastive representation learning has emerged as a promising technique for continual learning as it can learn representations that are robust to catastrophic forgetting and generalize well to unseen future tasks. Previous work in continual learning has addressed forgetting by using previous task data and trained models. Inspired by event models created and updated in the brain, we propose a new mechanism that takes place during task boundaries, i.e., when one task finishes and another starts. By observing the redundancy-inducing ability of contrastive loss on the output of a neural network, our method leverages the first few samples of the new task to identify and retain parameters contributing most to the transfer ability of the neural network, freeing up the remaining parts of the network to learn new features. We evaluate the proposed methods on benchmark computer vision datasets including CIFAR10 and TinyImagenet and demonstrate state-of-the-art performance in the task-incremental, class-incremental, and domain-incremental continual learning scenarios. | 翻訳日:2023-11-06 15:50:26 公開日:2023-11-02 |
# FLAP: 高速言語監査事前トレーニング FLAP: Fast Language-Audio Pre-training ( http://arxiv.org/abs/2311.01615v1 ) ライセンス: Link先を確認 | Ching-Feng Yeh, Po-Yao Huang, Vasu Sharma, Shang-Wen Li and Gargi Gosh | (参考訳) 我々は,マスキング,コントラスト学習,再構築を通じて協調した音声および言語表現を効果的かつ効果的に学習する自己教師型アプローチであるFast Language-Audio Pre-training (FLAP)を提案する。
効率性のために、FLAPは音声スペクトログラムトークンをランダムにドロップし、残りのトークンのみをセルフスーパービジョンにフォーカスする。
モーダル間のコントラスト学習を通じて、flapはペアオーディオとテキストの表現を共有潜在空間で調整することを学ぶ。
特にFLAPは、モーダルコントラストのマスキングによって複数の拡張ビューを活用し、音声トークンのマスキング部分の再構築を学ぶ。
さらに、FLAPは大きな言語モデル(LLM)を活用してテキスト入力を強化し、パフォーマンスの向上に貢献している。
これらのアプローチにより、FLAPはAudioCaps(53.0% R@1)とCloso(25.5% R@1)のオーディオテキスト検索タスクにおいて、より堅牢で情報的なオーディオテキスト表現を実現することができる。 We propose Fast Language-Audio Pre-training (FLAP), a self-supervised approach that efficiently and effectively learns aligned audio and language representations through masking, contrastive learning and reconstruction. For efficiency, FLAP randomly drops audio spectrogram tokens, focusing solely on the remaining ones for self-supervision. Through inter-modal contrastive learning, FLAP learns to align paired audio and text representations in a shared latent space. Notably, FLAP leverages multiple augmented views via masking for inter-modal contrast and learns to reconstruct the masked portion of audio tokens. Moreover, FLAP leverages large language models (LLMs) to augment the text inputs, contributing to improved performance. These approaches lead to more robust and informative audio-text representations, enabling FLAP to achieve state-of-the-art (SoTA) performance on audio-text retrieval tasks on AudioCaps (achieving 53.0% R@1) and Clotho (achieving 25.5% R@1). | 翻訳日:2023-11-06 15:50:06 公開日:2023-11-02 |
# 責任ある創発的マルチエージェント行動 Responsible Emergent Multi-Agent Behavior ( http://arxiv.org/abs/2311.01609v1 ) ライセンス: Link先を確認 | Niko A. Grupen | (参考訳) 責任あるAIは、AI研究コミュニティの最前線に現れている。
ニューラルネットワークベースの学習アルゴリズムが現実世界のアプリケーションに浸透し続けている中、Responsible AIの分野は、そのようなシステムが高いレベルの人間互換性を維持するために大きな役割を果たしてきた。
この進歩にもかかわらず、Responsible AIの最先端技術は1つの重要なポイントを無視している。
優位なアプローチは、主に単一のAIシステムのパフォーマンスを単独で検討するが、人間の問題は、本質的にはマルチエージェントである。
交通の推進から経済政策の交渉まで、人間の問題解決は相互作用と複数の個人の行動と動機の相互作用を伴う。
この論文は、責任あるaiの3つの柱である解釈可能性、公平性、堅牢性に関して、研究者や実践者がマルチエージェント学習をよりよく理解し、形作る方法を示す、責任ある創発的なマルチエージェント行動の研究を発展させている。
まず,複数の粒度における創発的マルチエージェントの挙動を理解するための新しい手法を提案する。
低レベルの解釈可能性について,多エージェント集団における協調支援として暗黙的なコミュニケーションが出現する程度について検討する。
本稿では, 高度調整戦略を学習する複数エージェントチームが, より少ない協調エージェントよりも暗黙的な信号を介して, はるかに多くの情報を交換する位置に基づく社会的影響の尺度を提示する。
そして,マルチエージェント学習の文脈において,概念に基づく解釈可能性について検討する。
本論では,本質的に解釈可能な概念に基づく政策の学習方法を提案する。 Responsible AI has risen to the forefront of the AI research community. As neural network-based learning algorithms continue to permeate real-world applications, the field of Responsible AI has played a large role in ensuring that such systems maintain a high-level of human-compatibility. Despite this progress, the state of the art in Responsible AI has ignored one crucial point: human problems are multi-agent problems. Predominant approaches largely consider the performance of a single AI system in isolation, but human problems are, by their very nature, multi-agent. From driving in traffic to negotiating economic policy, human problem-solving involves interaction and the interplay of the actions and motives of multiple individuals. This dissertation develops the study of responsible emergent multi-agent behavior, illustrating how researchers and practitioners can better understand and shape multi-agent learning with respect to three pillars of Responsible AI: interpretability, fairness, and robustness. First, I investigate multi-agent interpretability, presenting novel techniques for understanding emergent multi-agent behavior at multiple levels of granularity. With respect to low-level interpretability, I examine the extent to which implicit communication emerges as an aid to coordination in multi-agent populations. I introduce a novel curriculum-driven method for learning high-performing policies in difficult, sparse reward environments and show through a measure of position-based social influence that multi-agent teams that learn sophisticated coordination strategies exchange significantly more information through implicit signals than lesser-coordinated agents. Then, at a high-level, I study concept-based interpretability in the context of multi-agent learning. I propose a novel method for learning intrinsically interpretable, concept-based policies and show that it enables... | 翻訳日:2023-11-06 15:49:44 公開日:2023-11-02 |
# 4レベルLandau-Zener-St{\"u}ckelberg-Majorana干渉による電気双極子スピン共鳴のサブハーモニクスにおける制御可能な単一スピン進化 Controllable single spin evolution at sub-harmonics of electric dipole spin resonance enhanced by four-level Landau-Zener-St{\"u}ckelberg-Majorana interference ( http://arxiv.org/abs/2311.01607v1 ) ライセンス: Link先を確認 | D.V. Khomitsky, M.V. Bastrakova, V.O. Munyaev, N.A. Zaprudnov, S.A. Studenikin | (参考訳) Landau-Zener-St{\"u}ckelberg-Majorana(LZSM)トンネル遷移を介する電気双極子スピン共鳴(EDSR)のサブハーモニックスを、例えば単一ホール状態のGaAs系二重量子ドットにおいて、強いスピン軌道結合を持つゼーマンスプリット4レベルシステムで数値的および解析的に研究する。
スピンキュービットは1つのドットに形成され、2番目のドットはスピンキュービットの機能を高める補助要素として使用される。
特に、主EDSR周波数と高調波における補助点とのトンネル結合によりスピン回転率が本質的に向上し、コヒーレントスピンが10-nsの時間スケールで$\pi$-rotationsとなることが判明した。
高調波のスピン操作は、ハードウェアの制限により主調波が到達不能な高磁場で動作する量子ビットデバイスにおいて、スピン制御と読み出しの新しい時間効率のスキームを約束する。 Sub-harmonics of electric dipole spin resonance (EDSR) mediated by Landau-Zener-St{\"u}ckelberg-Majorana (LZSM) tunneling transitions are studied numerically and analytically in a Zeeman-split four level system with strong spin-orbit coupling that can be realized, for example, in a GaAs-based double quantum dot in a single-hole regime. The spin qubit is formed in one of the dots and the second dot is used as an auxiliary element to enhance functionality of the spin qubit. In particular, it is found that the spin rotation rate can be essentially enhanced due to the tunnel coupling with the auxiliary dot on both the main EDSR frequency and at its high sub-harmonics allowing the coherent spin $\pi$-rotations on a 10-ns time scale. Spin manipulation on high sub-harmonics is promising for new time-efficient schemes of the spin control and readout in qubit devices operating at high magnetic fields where the main harmonic is inaccessible due to hardware limitations. | 翻訳日:2023-11-06 15:49:12 公開日:2023-11-02 |
# DRNet: 深層強化学習による自律車線変更のための意思決定手法 DRNet: A Decision-Making Method for Autonomous Lane Changingwith Deep Reinforcement Learning ( http://arxiv.org/abs/2311.01602v1 ) ライセンス: Link先を確認 | Kunpeng Xu, Lifei Chen, Shengrui Wang | (参考訳) 機械学習技術は、自動運転車における多くのルールベースの意思決定方法よりも優れています。
近年の努力にもかかわらず、車線変更は複雑な運転シナリオと周囲の車両の社会的行動の変化のため、依然として大きな課題である。
そこで,本研究では,La\underline{NE} の実践レベルでの変化に対して,新たな 'underline{D}eep \underline{R}eep \underline{R}einforcement Learning (DRL) アプローチを活用することを提案する。
この目的のために、DRLエージェントが任意の車線数でシミュレートされた高速道路上で適切な車線変更を実行し、周囲の車両の運転スタイルを考慮し、より良い意思決定を行うことができる、新規で効率的なDRLベースのフレームワーク「DRNet」を提案する。
さらに、意思決定のための安全なポリシーを達成するために、DRNetは、自動運転の最も重要なコンポーネントである安全検証のアイデアを取り入れ、安全行動のみが常に選択されることを保証する。
我々の状態表現と報酬関数の設定により、訓練されたエージェントは現実世界のようなシミュレーターで適切な行動をとることができる。
我々のDRLエージェントは、衝突を引き起こすことなく所望のタスクを学習でき、DDQNや他のベースラインモデルより優れている。 Machine learning techniques have outperformed numerous rule-based methods for decision-making in autonomous vehicles. Despite recent efforts, lane changing remains a major challenge, due to the complex driving scenarios and changeable social behaviors of surrounding vehicles. To help improve the state of the art, we propose to leveraging the emerging \underline{D}eep \underline{R}einforcement learning (DRL) approach for la\underline{NE} changing at the \underline{T}actical level. To this end, we present "DRNet", a novel and highly efficient DRL-based framework that enables a DRL agent to learn to drive by executing reasonable lane changing on simulated highways with an arbitrary number of lanes, and considering driving style of surrounding vehicles to make better decisions. Furthermore, to achieve a safe policy for decision-making, DRNet incorporates ideas from safety verification, the most important component of autonomous driving, to ensure that only safe actions are chosen at any time. The setting of our state representation and reward function enables the trained agent to take appropriate actions in a real-world-like simulator. Our DRL agent has the ability to learn the desired task without causing collisions and outperforms DDQN and other baseline models. | 翻訳日:2023-11-06 15:48:45 公開日:2023-11-02 |
# 可変長量子鍵分布のセキュリティ証明 Security Proof for Variable-Length Quantum Key Distribution ( http://arxiv.org/abs/2311.01600v1 ) ライセンス: Link先を確認 | Devashish Tupkary, Ernest Y.-Z. Tan, Norbert Lutkenhaus | (参考訳) 本稿では,IID集団攻撃に対するLennerフレームワークにおける可変長QKDのセキュリティ証明を提案する。
我々の証明は,ポストセレクション手法を用いてコヒーレントアタックに引き上げることができる。
最初の主要な結果は、一定の条件を満たす固定長プロトコルの一連のセキュリティ証明を可変長プロトコルのセキュリティ証明に変換する定理である。
この変換は、新しい計算を必要とせず、最終鍵の長さやエラー訂正情報の変更は必要とせず、セキュリティパラメータを最大で2倍にする。
第2の成果は、QKDプロトコルの実行前にユーザを接続するチャネルの正直な動作を特徴付ける必要のない、より一般的な可変長QKDプロトコルのクラスの記述とセキュリティ証明である。
代わりに、これらのプロトコルはプロトコル中に行われた観察に基づいて、最終鍵の長さとエラー訂正に使用する情報量を適応的に決定する。
これらの結果をqubit BB84プロトコルに適用し、可変長実装が固定長実装よりも高い期待キーレートをもたらすことを示す。 We present a security proof for variable-length QKD in the Renner framework against IID collective attacks. Our proof can be lifted to coherent attacks using the postselection technique. Our first main result is a theorem to convert a series of security proofs for fixed-length protocols satisfying certain conditions to a security proof for a variable-length protocol. This conversion requires no new calculations, does not require any changes to the final key lengths or the amount of error-correction information, and at most doubles the security parameter. Our second main result is the description and security proof of a more general class of variable-length QKD protocols, which does not require characterizing the honest behaviour of the channel connecting the users before the execution of the QKD protocol. Instead, these protocols adaptively determine the length of the final key, and the amount of information to be used for error-correction, based upon the observations made during the protocol. We apply these results to the qubit BB84 protocol, and show that variable-length implementations lead to higher expected key rates than the fixed-length implementations. | 翻訳日:2023-11-06 15:48:18 公開日:2023-11-02 |
# 局所ボルスク・ウラム, 安定性, 再現性 Local Borsuk-Ulam, Stability, and Replicability ( http://arxiv.org/abs/2311.01599v1 ) ライセンス: Link先を確認 | Zachary Chase, Bogdan Chornomaz, Shay Moran, Amir Yehudayoff | (参考訳) 我々はボルスク・ウラムの定理をトポロジーから適用し、リスト複製とグローバルに安定な学習アルゴリズムの限界を導出する。
さらに, コンビネータ・トポロジーにおける手法の適用性を示す。
自明なケースの他に,PAC設定ではリスト再現性やグローバルな安定学習は不可能であることを示す。
これは、有限小石次元を持つ任意のクラスがそのようなアルゴリズムによって学習できることが知られているような実現可能な場合とは対照的である。
実現可能なPAC設定では、従来の不可能な結果をシャープにし、スコープを広げる。
具体的には,有限クラスにおけるリスト再現性と大域的安定性数に対する最適境界を定式化する。
これは以前の作品よりも指数関数的に改善され、リトルストーン次元から指数関数的な分離を意味する。
さらに,弱い学習者,すなわちランダムな推測よりもわずかによい学習者に対して,下限を導入する。
以前の作品の下位境界は、より強い学習者にのみ適用される。
位相的アプローチをより広く包括的に見るために、トポロジーにおいてボルスク・ウラムの定理の局所的変種を証明し、クネーサー彩色に関する組合せ論の結果を得る。
組合せ論において、$c$ が$[n]$ の空でないすべての部分集合の色付けであり、不連結集合が異なる色を持つならば、少なくとも 1+ \lfloor n/2\rfloor$ 色を受け取る部分集合の連鎖が存在する(この境界はシャープである)。
例えば、$d$-次元球面の任意の開反ポッドフリー被覆に対して、少なくとも$t=\lceil\frac{d+3}{2}\rceil$集合に属する点$x$が存在することを証明している。 We use and adapt the Borsuk-Ulam Theorem from topology to derive limitations on list-replicable and globally stable learning algorithms. We further demonstrate the applicability of our methods in combinatorics and topology. We show that, besides trivial cases, both list-replicable and globally stable learning are impossible in the agnostic PAC setting. This is in contrast with the realizable case where it is known that any class with a finite Littlestone dimension can be learned by such algorithms. In the realizable PAC setting, we sharpen previous impossibility results and broaden their scope. Specifically, we establish optimal bounds for list replicability and global stability numbers in finite classes. This provides an exponential improvement over previous works and implies an exponential separation from the Littlestone dimension. We further introduce lower bounds for weak learners, i.e., learners that are only marginally better than random guessing. Lower bounds from previous works apply only to stronger learners. To offer a broader and more comprehensive view of our topological approach, we prove a local variant of the Borsuk-Ulam theorem in topology and a result in combinatorics concerning Kneser colorings. In combinatorics, we prove that if $c$ is a coloring of all non-empty subsets of $[n]$ such that disjoint sets have different colors, then there is a chain of subsets that receives at least $1+ \lfloor n/2\rfloor$ colors (this bound is sharp). In topology, we prove e.g. that for any open antipodal-free cover of the $d$-dimensional sphere, there is a point $x$ that belongs to at least $t=\lceil\frac{d+3}{2}\rceil$ sets. | 翻訳日:2023-11-06 15:48:03 公開日:2023-11-02 |
# 不完全モデルの局所ベイズ型ディリクレ混合 Local Bayesian Dirichlet mixing of imperfect models ( http://arxiv.org/abs/2311.01596v1 ) ライセンス: Link先を確認 | Vojtech Kejzlar, L\'eo Neufcourt, Witold Nazarewicz | (参考訳) 実験的に未知の領域における複雑な計算モデルの予測可能性を改善するために,ディリクレ分布を用いたベイズ統計機械学習フレームワークを提案する。
この枠組みはベイズ的積み重ねの拡張と見なすことができる。
この方法を説明するために, ベイズ模型平均化法と混合法が核質量を採掘する能力について検討した。
予測精度と不確かさの定量化の両方において,大域的および局所的な混合モデルが優れた性能に達し,古典ベイズ平均モデルよりも好ましいことを示した。
さらに,修正モデルの混合よりも混合によるモデル予測の改善が,より堅牢な外挿につながることを示す。 To improve the predictability of complex computational models in the experimentally-unknown domains, we propose a Bayesian statistical machine learning framework utilizing the Dirichlet distribution that combines results of several imperfect models. This framework can be viewed as an extension of Bayesian stacking. To illustrate the method, we study the ability of Bayesian model averaging and mixing techniques to mine nuclear masses. We show that the global and local mixtures of models reach excellent performance on both prediction accuracy and uncertainty quantification and are preferable to classical Bayesian model averaging. Additionally, our statistical analysis indicates that improving model predictions through mixing rather than mixing of corrected models leads to more robust extrapolations. | 翻訳日:2023-11-06 15:47:32 公開日:2023-11-02 |
# 申し訳ないが、fair gnnのための逆行的欠落データインプテーション Better Fair than Sorry: Adversarial Missing Data Imputation for Fair GNNs ( http://arxiv.org/abs/2311.01591v1 ) ライセンス: Link先を確認 | Debolina Halder Lina and Arlei Silva | (参考訳) 本稿では,グラフニューラルネットワーク(GNN)を保護属性の欠如下で学習する問題に対処する。
GNNは、決定が特定のコミュニティに不均等に影響を及ぼす可能性のある多くの関連タスクにおいて、最先端の結果を達成した。
しかし、fair gnnsに関する既存の研究は、保護された属性が完全に保存されているか、欠落したデータインプテーションが公正であると仮定している。
実際、インプテーションのバイアスはモデルの結果に伝達され、予測の公平さを過大評価することになる。
私たちは、fair gnnが使用する保護属性に対する公正なデータインプテーションモデルであるbetter fair than sorry (bfts)を提案することで、この課題に対処します。
BFtSの鍵となる設計原理は、公正さを最適化することが最も難しいとき、公正なGNNの最悪のシナリオを近似すべきであるということである。
2人の敵がfair gnnと協力する3人のプレイヤーによる敵対的スキームを用いて、このアイデアを実装した。
合成データと実データを用いた実験は、bftsが既存の代替品よりも公平性が良いことをしばしば示している。 This paper addresses the problem of learning fair Graph Neural Networks (GNNs) under missing protected attributes. GNNs have achieved state-of-the-art results in many relevant tasks where decisions might disproportionately impact specific communities. However, existing work on fair GNNs assumes that either protected attributes are fully-observed or that the missing data imputation is fair. In practice, biases in the imputation will be propagated to the model outcomes, leading them to overestimate the fairness of their predictions. We address this challenge by proposing Better Fair than Sorry (BFtS), a fair missing data imputation model for protected attributes used by fair GNNs. The key design principle behind BFtS is that imputations should approximate the worst-case scenario for the fair GNN -- i.e. when optimizing fairness is the hardest. We implement this idea using a 3-player adversarial scheme where two adversaries collaborate against the fair GNN. Experiments using synthetic and real datasets show that BFtS often achieves a better fairness $\times$ accuracy trade-off than existing alternatives. | 翻訳日:2023-11-06 15:47:19 公開日:2023-11-02 |
# マルチタスク模倣学習における表現伝達の統計的保証 A Statistical Guarantee for Representation Transfer in Multitask Imitation Learning ( http://arxiv.org/abs/2311.01589v1 ) ライセンス: Link先を確認 | Bryan Chan, Karime Pereida, and James Bergstra | (参考訳) マルチタスク模倣学習の伝達表現は、スクラッチからの学習と比較して、新しいタスクの学習においてサンプル効率を向上させる可能性がある。
本研究では,多種多様なソースタスクを用いて表現を訓練した場合,対象タスクのサンプル効率が向上することを示す統計的保証を提供する。
我々の理論的結果は、現実的な仮定でよく使われるニューラルネットワークアーキテクチャを考慮して容易に拡張できる。
我々は,4つのシミュレーション環境における理論的知見と一致する実験分析を行い,特にソースタスクからより多くのデータを活用することで,新しいタスクにおける学習におけるサンプル効率を向上させることができることを示した。 Transferring representation for multitask imitation learning has the potential to provide improved sample efficiency on learning new tasks, when compared to learning from scratch. In this work, we provide a statistical guarantee indicating that we can indeed achieve improved sample efficiency on the target task when a representation is trained using sufficiently diverse source tasks. Our theoretical results can be readily extended to account for commonly used neural network architectures with realistic assumptions. We conduct empirical analyses that align with our theoretical findings on four simulated environments$\unicode{x2014}$in particular leveraging more data from source tasks can improve sample efficiency on learning in the new task. | 翻訳日:2023-11-06 15:46:58 公開日:2023-11-02 |
# 複数のデータセットにまたがる宇宙パラメータを制約するドメイン適応グラフニューラルネットワーク Domain Adaptive Graph Neural Networks for Constraining Cosmological Parameters Across Multiple Data Sets ( http://arxiv.org/abs/2311.01588v1 ) ライセンス: Link先を確認 | Andrea Roncoli, Aleksandra \'Ciprijanovi\'c, Maggie Voetberg, Francisco Villaescusa-Navarro, Brian Nord | (参考訳) 深層学習モデルは、複雑な宇宙データから情報を取り出す際に、パワースペクトルのような要約統計に依存する方法よりも優れていることが示されている。
しかし、サブグリッド物理学の実装と異なるシミュレーションスイートの数値近似の違いから、ある宇宙論シミュレーションのデータに基づいて訓練されたモデルは、別のシミュレーションでテストした場合のパフォーマンス低下を示す。
同様に、シミュレーションでトレーニングされたモデルも、観測データに適用するとパフォーマンスが低下する可能性がある。
CAMELS流体力学シミュレーションの2つの異なるスイートからのデータを学習し、ドメイン適応グラフニューラルネットワーク(DA-GNN)の一般化能力について検討する。
GNNを利用することで、銀河分布から構造化された無スケール宇宙情報を取得する能力に乗じる。
さらに,MMD(Maximum Mean Discrepancy)による教師なしドメイン適応を組み込むことで,ドメイン不変の特徴を抽出することができる。
DA-GNNは、データセット間のタスクにおいて高い精度とロバスト性を達成する(最大28 % の相対誤差と、ほぼ1 桁の約$\chi^2$)。
データ可視化を用いて,適切な潜在空間データアライメントに対する領域適応の効果を示す。
このことは、DA-GNNがドメインに依存しない宇宙情報抽出の有望な方法であり、実際の宇宙調査データに対する堅牢な深層学習に向けた重要なステップであることを示している。 Deep learning models have been shown to outperform methods that rely on summary statistics, like the power spectrum, in extracting information from complex cosmological data sets. However, due to differences in the subgrid physics implementation and numerical approximations across different simulation suites, models trained on data from one cosmological simulation show a drop in performance when tested on another. Similarly, models trained on any of the simulations would also likely experience a drop in performance when applied to observational data. Training on data from two different suites of the CAMELS hydrodynamic cosmological simulations, we examine the generalization capabilities of Domain Adaptive Graph Neural Networks (DA-GNNs). By utilizing GNNs, we capitalize on their capacity to capture structured scale-free cosmological information from galaxy distributions. Moreover, by including unsupervised domain adaptation via Maximum Mean Discrepancy (MMD), we enable our models to extract domain-invariant features. We demonstrate that DA-GNN achieves higher accuracy and robustness on cross-dataset tasks (up to $28\%$ better relative error and up to almost an order of magnitude better $\chi^2$). Using data visualizations, we show the effects of domain adaptation on proper latent space data alignment. This shows that DA-GNNs are a promising method for extracting domain-independent cosmological information, a vital step toward robust deep learning for real cosmic survey data. | 翻訳日:2023-11-06 15:46:49 公開日:2023-11-02 |
# rtp:メモリ重複によるテンソル並列性再考 RTP: Rethinking Tensor Parallelism with Memory Deduplication ( http://arxiv.org/abs/2311.01635v1 ) ライセンス: Link先を確認 | Cheng Luo, Tianle Zhong, Geoffrey Fox | (参考訳) ニューラルネットワークモデルの進化する状況において、注目すべき課題は、トレーニングの拡張モデルに関連する大きなメモリオーバーヘッドである。
この課題に対処するため、この研究はRTP(Rotated Tensor Parallelism)を深く掘り下げた。
RTPは、分散トレーニング環境におけるメモリ重複を戦略的に重視する革新的なアプローチである。
カスタマイズされたコミュニケーションプリミティブやflyweightパターンの初期化など、ユニークな機能を備えている。
さらに、RTPはパーティション計算とパーティションウェイト通信のシームレスな重複を保証し、トレーニングプロセスを最適化する。
実験結果から,rtpの効率性が評価され,分散システムトレーニング時のメモリ消費量は,単一マシンのメモリオーバヘッドを均等に複数のマシンに分散する最適値に極めて近いことが明らかとなった。
実験の結果、RTPは分散データ並列に匹敵する性能を達成できると同時に、メモリの面でほぼ直線的なスケーラビリティを持つ、はるかに大きなモデルをサポートすることが示された。
rtpのコードはhttps://github.com/wdlctc/rtpで入手できる。 In the evolving landscape of neural network models, one prominent challenge stand out: the significant memory overheads associated with training expansive models. Addressing this challenge, this study delves deep into the Rotated Tensor Parallelism (RTP). RTP is an innovative approach that strategically focuses on memory deduplication in distributed training environments. It boasts of unique features like a customized communication primitive and the Flyweight Pattern initialization. Furthermore, RTP ensures a seamless overlap between partition computation and partition weight communication, optimizing the training process. Our empirical evaluations underscore RTP's efficiency, revealing that its memory consumption during distributed system training is remarkably close to the optimal - distributing the memory overhead of a single machine equitably among multiple machines. The experimental results demonstrate that RTP is capable of achieving comparable performance to Distributed Data Parallel while providing support for significantly larger models with near-linear scalability in terms of memory. Code of RTP is available at https://github.com/wdlctc/rtp. | 翻訳日:2023-11-06 15:34:45 公開日:2023-11-02 |
# 「クローズ...しかし教育者ほど良くない」 -- chatgptを使って、大規模共同学習における形成的フィードバックを提供する "Close...but not as good as an educator." -- Using ChatGPT to provide formative feedback in large-class collaborative learning ( http://arxiv.org/abs/2311.01634v1 ) ライセンス: Link先を確認 | Cory Dal Ponte, Sathana Dushyanthen and Kayley Lyons | (参考訳) 短時間で複数の問題ベースの学習グループに、パーソナライズされたフォーマティブなフィードバックを提供することは、ほぼ不可能である。
われわれはChatGPTを用いて、デジタルヘルスイニシアチブの評価計画を定式化する方法を医療専門家に教える1時間のZoomブレークアウトルーム活動において、個人化された形式的フィードバックを提供する。
Likert尺度と分析対象のオープンエンド質問を含む評価調査を完了した。
44の回答者のうち半数がChatGPTを使ったことがなかった。
全体として、フィードバックは好意的で、幅広いグループダイナミクスを記述し、フィードバックに対して適応的な反応を示したが、評価計画を改善するためにフィードバックループを使用したのは3グループだけだった。
将来の教育者は、エンジニアリングプロンプト、ChatGPTの使用方法の指示、ChatGPTとの最適なグループインタラクションの足場を提供するなど、私たちの経験から学ぶことができる。
今後の研究者は、ChatGPTがグループダイナミクスに与える影響を探求し、協調学習におけるChatGPTの使用に関する設計原則を導出する必要がある。 Delivering personalised, formative feedback to multiple problem-based learning groups in a short time period can be almost impossible. We employed ChatGPT to provide personalised formative feedback in a one-hour Zoom break-out room activity that taught practicing health professionals how to formulate evaluation plans for digital health initiatives. Learners completed an evaluation survey that included Likert scales and open-ended questions that were analysed. Half of the 44 survey respondents had never used ChatGPT before. Overall, respondents found the feedback favourable, described a wide range of group dynamics, and had adaptive responses to the feedback, yet only three groups used the feedback loop to improve their evaluation plans. Future educators can learn from our experience including engineering prompts, providing instructions on how to use ChatGPT, and scaffolding optimal group interactions with ChatGPT. Future researchers should explore the influence of ChatGPT on group dynamics and derive design principles for the use of ChatGPT in collaborative learning. | 翻訳日:2023-11-06 15:34:28 公開日:2023-11-02 |
# 量子制御のための最適Zenoドラッグ:アクションベーススケジューリング最適化によるZenoへのショートカット Optimal Zeno Dragging for Quantum Control: A Shortcut to Zeno with Action-based Scheduling Optimization ( http://arxiv.org/abs/2311.01631v1 ) ライセンス: Link先を確認 | Philippe Lewalle, Yipei Zhang, K. Birgitta Whaley | (参考訳) 量子ゼノ効果は、量子測定が「崩壊」現象が十分に強く頻繁な場合の同時ユニタリダイナミクスを阻害していると主張する。
これは強い連続測定や散逸の限界に当てはまる。
観測可能な観測値を動的に変化させることにより、「ゼノ・ドラグング」と呼ばれる散逸制御を実装することができ、したがって、ゼノダイナミクスの下でアトラクタとなる固有状態も実装できる。
これは、測定速度と比較して固有状態変化の速度が遅いときに、Zenoドラッグフィリティが最も高いという断熱過程と似ている。
本稿では,量子系の制御を実現するために,そのようなダイナミクスを利用する2つの方法を示す。
最初に「ゼノのショートカット」と呼ぶのは、ユニタリな断熱的進化を加速するために頻繁に使用される断熱性(断熱的駆動)への近道と類似している。
第2のアプローチでは、chantasri dressel jordan (2013, cdj) 確率的動作を適用し、これに由来する極値確率の読み出しパスが、ゼノドラッグングスケジュールのポントリャーギンスタイルの最適化を設定するのに適していることを示す。
これらの手法を量子ビットのZenoドラッグングに実装すると、どちらの手法も同じ解が得られること、すなわち最適制御がZenoモニタされた固有状態の運動に一致するユニタリであることが分かる。
これらの手法は、散逸安定量子演算を実現するために、ゼノ部分空間の動的制御を体系的に開発するための新しい経路を開く。 The quantum Zeno effect asserts that quantum measurements inhibit simultaneous unitary dynamics when the "collapse" events are sufficiently strong and frequent. This applies in the limit of strong continuous measurement or dissipation. It is possible to implement a dissipative control that is known as "Zeno Dragging", by dynamically varying the monitored observable, and hence also the eigenstates which are attractors under Zeno dynamics. This is similar to adiabatic processes, in that the Zeno dragging fidelity is highest when the rate of eigenstate change is slow compared to the measurement rate. We demonstrate here two methods for using such dynamics to achieve control of quantum systems. The first, which we shall refer to as "shortcut to Zeno", is analogous to the shortcuts to adiabaticity (counterdiabatic driving) that are frequently used to accelerate unitary adiabatic evolution. In the second approach we apply the Chantasri Dressel Jordan (2013, CDJ) stochastic action, and demonstrate that the extremal-probability readout paths derived from this are well suited to setting up a Pontryagin-style optimization of the Zeno dragging schedule. Implementing these methods on the Zeno dragging of a qubit, we find that both approaches yield the same solution, namely, that the optimal control is a unitary that matches the motion of the Zeno-monitored eigenstate. These methods open up new pathways toward systematically developing dynamic control of Zeno subspaces to realize dissipatively-stabilized quantum operations. | 翻訳日:2023-11-06 15:34:07 公開日:2023-11-02 |
# コラボレーションAIの根と要件 Roots and Requirements for Collaborative AIs ( http://arxiv.org/abs/2303.12040v4 ) ライセンス: Link先を確認 | Mark Stefik | (参考訳) AI協力者のビジョンは、長い間物語やSFの主役であり、人工エージェントはコラボレーションと人間のコミュニケーションのニュアンスを理解する。
彼らは人間のパートナーやチームを支援し、特別な才能を持っている。
AIの政府諮問グループとリーダーは、AIは人間互換で効果的な協力者であるべきだと長年主張してきた。
それでも、才能のある人たちのように協力する堅牢なAIは、まだ手の届かないままだ。
人間の知能を増強する効果的な情報ツールというより単純な夢は、1960年代にルーツを持ち、情報技術革命を推進した。
新型コロナウイルス(COVID-19)のパンデミック以降、ハイブリッドワークとリモートワークの大幅な増加に伴い、より良いコーディネーション、コラボレーション、コミュニケーションのためのメリットと要件が職場に焦点が当てられている。
多くの要因(例えば、職場近くの住宅のコストなど)が、オフィスでの個人の仕事への大量復帰を妨げる。
人間のようなAIチームメイトはソリューションの一部か?
コラボレーションのためのより良いツールが必要な場合、ai(artificially intelligent)はどのようになり得るのでしょうか。
このポジションペーパーは、テクノロジーの弧をレビューし、人間と機械のチームづくりを他人に呼びかける。
心理学や社会科学において、人間のようなコラボレーションが本当に必要とするものについて研究している。
本稿は、現在の主流AIは、堅牢でインテリジェントで、人間互換のコラボレータを生成できない、と論じる。
回復力があり、インテリジェントで、人間と互換性のあるAIを作るための技術と方法論の急激なシフトを探求する第2の論文(Stefik & Price, 2023)のコンテキストを定めている。
願望的な目標は、そのようなAIが学び、学んだことを共有し、高い標準を達成するために協力することだ。 The vision of AI collaborators has long been a staple of stories and science fiction, where artificial agents understand nuances of collaboration and human communication. They assist their human partners and teams and have special talents. Government advisory groups and leaders in AI have advocated for years that AIs should be human compatible and effective collaborators. Nonetheless, robust AIs that collaborate like talented people remain out of reach. The simpler dream of effective information tools that augment human intelligence (IA) has its roots in the 1960s and helped to drive an information technology revolution. With the vast increase in hybrid and remote work since the COVID pandemic, the benefits and requirements for better coordination, collaboration, and communication are in focus for the workplace. Many factors (such as the costs of homes near work) are impeding a mass return to in-person work at the office. Are human-like AI teammates part of a solution? If we just need better tools for collaboration, how artificially intelligent (AI) could and should these tools be? This position paper reviews the arc of technology and calls by others for human-machine teaming. It draws on earlier research in psychology and the social sciences about what human-like collaboration actually requires. This paper argues that current mainstream AI cannot produce robust, intelligent, and human-compatible collaborators. It sets a context for a second paper that proposes exploring a radical shift in technology and methodology for creating resilient, intelligent, and human-compatible AIs (Stefik & Price, 2023). The aspirational goal is that such AIs would learn, share what they learn, and collaborate to achieve high standards. | 翻訳日:2023-11-06 11:31:09 公開日:2023-11-02 |
# 位置ゲームとQBF:ポーランド語エンコーディング Positional Games and QBF: A Polished Encoding ( http://arxiv.org/abs/2005.05098v2 ) ライセンス: Link先を確認 | Valentin Mayer-Eichberger, Abdallah Saffidine | (参考訳) 位置ゲームは、Tic-tac-toeとその一般化を含む2人プレイヤゲームの数学的クラスである。
本稿では,これらのゲームが量子ブール式 (QBF) に符号化され,対応する公式が真である場合に限り,ゲームインスタンスが第1のプレーヤの勝利戦略を認めることを提案する。
本手法は,従来のqbfエンコーディングを複数の方法で改善する。
まず、これはジェネリックであり、hexのような他の位置ゲームもエンコードできます。
第二に、位置ゲームの構造特性は、不正な動きを慎重に扱うとともに、最先端のQBFソルバによってより高速に解けるよりコンパクトなインスタンスを生成する。
我々は広範な実験を通じて後者の事実を確立する。
最後に、新しいエンコーディングのコンパクトさにより、現実的なゲーム問題への翻訳が可能になった。
歴史的に重要な問題をいくつか特定し,難易度向上のマイルストーンとして,QBFコミュニティに先駆けた。 Positional games are a mathematical class of two-player games comprising Tic-tac-toe and its generalizations. We propose a novel encoding of these games into Quantified Boolean Formulas (QBFs) such that a game instance admits a winning strategy for the first player if and only if the corresponding formula is true. Our approach improves over previous QBF encodings of games in multiple ways. First, it is generic and lets us encode other positional games, such as Hex. Second, the structural properties of positional games, together with careful treatment of illegal moves, let us generate more compact instances that can be solved faster by state-of-the-art QBF solvers. We establish the latter fact through extensive experiments. Finally, the compactness of our new encoding makes it feasible to translate realistic game problems. We identify a few such problems of historical significance and put them forward to the QBF community as milestones of increasing difficulty. | 翻訳日:2023-11-03 18:55:13 公開日:2023-11-02 |
# 圧縮センシング磁気共鳴画像再構成のためのニューラルネットワーク探索 Neural Architecture Search for Compressed Sensing Magnetic Resonance Image Reconstruction ( http://arxiv.org/abs/2002.09625v7 ) ライセンス: Link先を確認 | Jiangpeng Yan, Shuo Chen, Yongbing Zhang and Xiu Li | (参考訳) 近年の研究では、サブサンプルk空間データからMR画像を再構成することにより、深層学習(DL)に基づく圧縮センシング(CS)の実装がMRイメージングを加速できることが示されている。
しかし、従来の手法で採用されていたネットワークアーキテクチャはすべて手作業で設計されている。
neural architecture search (nas)アルゴリズムは、複数のビジョンタスクにおいて、人間が設計したものを上回るニューラルネットワークアーキテクチャを自動構築することができる。
そこで本研究では,手作業ではなくNASによるMR画像再構成問題に対する,新規で効率的なネットワークを提案する。
特に,モデル駆動型mr再構成パイプラインに組み込まれた特定の細胞構造は,柔軟に定義された操作探索空間から微分可能な方法で自動的に探索された。
実験の結果,psnrとssimでは4~6倍少ない計算資源で,従来手法と比較して検索したネットワークの復元性能が向上した。
過度パラメータが再建性能と探索構造に与える影響を解析するための大規模な実験を行った。
探索されたアーキテクチャの一般化可能性についても,臓器MRデータセットを用いて評価した。
提案手法は,mr再構成問題に対する計算コストと再構成性能とのトレードオフが向上し,他の医用画像アプリケーションのためのニューラルネットワーク設計への洞察が得られる。
評価コードはhttps://github.com/yjump/NAS-for-CSMRIで入手できる。 Recent works have demonstrated that deep learning (DL) based compressed sensing (CS) implementation can accelerate Magnetic Resonance (MR) Imaging by reconstructing MR images from sub-sampled k-space data. However, network architectures adopted in previous methods are all designed by handcraft. Neural Architecture Search (NAS) algorithms can automatically build neural network architectures which have outperformed human designed ones in several vision tasks. Inspired by this, here we proposed a novel and efficient network for the MR image reconstruction problem via NAS instead of manual attempts. Particularly, a specific cell structure, which was integrated into the model-driven MR reconstruction pipeline, was automatically searched from a flexible pre-defined operation search space in a differentiable manner. Experimental results show that our searched network can produce better reconstruction results compared to previous state-of-the-art methods in terms of PSNR and SSIM with 4-6 times fewer computation resources. Extensive experiments were conducted to analyze how hyper-parameters affect reconstruction performance and the searched structures. The generalizability of the searched architecture was also evaluated on different organ MR datasets. Our proposed method can reach a better trade-off between computation cost and reconstruction performance for MR reconstruction problem with good generalizability and offer insights to design neural networks for other medical image applications. The evaluation code will be available at https://github.com/yjump/NAS-for-CSMRI. | 翻訳日:2023-11-03 18:54:59 公開日:2023-11-02 |
# LocoGAN -- ローカルに進化したGAN LocoGAN -- Locally Convolutional GAN ( http://arxiv.org/abs/2002.07897v2 ) ライセンス: Link先を確認 | {\L}ukasz Struski, Szymon Knop, Jacek Tabor, Wiktor Daniec, Przemys{\l}aw Spurek | (参考訳) 論文では、LocGANという完全な畳み込みGANモデルを構築し、遅延空間は、おそらく異なる解像度のノイズライクな画像によって与えられる。
学習は局所的であり、ノイズのようなイメージ全体ではなく、一定のサイズのサブイメージを処理する。
その結果、LocoGANはLSUN寝室データセットのような任意の次元の画像を生成することができる。
このアプローチのもう1つの利点は、完全に周期的な(例えば円筒状のパノラマ画像)もしくはほぼ周期的な、無限に長い(例えば壁紙)画像を生成することができる位置チャネルを使うことにある。 In the paper we construct a fully convolutional GAN model: LocoGAN, which latent space is given by noise-like images of possibly different resolutions. The learning is local, i.e. we process not the whole noise-like image, but the sub-images of a fixed size. As a consequence LocoGAN can produce images of arbitrary dimensions e.g. LSUN bedroom data set. Another advantage of our approach comes from the fact that we use the position channels, which allows the generation of fully periodic (e.g. cylindrical panoramic images) or almost periodic ,,infinitely long" images (e.g. wall-papers). | 翻訳日:2023-11-03 18:54:36 公開日:2023-11-02 |
# EVBattery:バッテリーの健康と容量推定のための大規模電気自動車データセット EVBattery: A Large-Scale Electric Vehicle Dataset for Battery Health and Capacity Estimation ( http://arxiv.org/abs/2201.12358v3 ) ライセンス: Link先を確認 | Haowei He, Jingzhao Zhang, Yanan Wang, Benben Jiang, Shaobo Huang, Chen Wang, Yang Zhang, Gengang Xiong, Xuebing Han, Dongxu Guo, Guannan He, Minggao Ouyang | (参考訳) 電気自動車(ev)は二酸化炭素排出量を減らす上で重要な役割を果たす。
EVの採用が加速するにつれ、EVバッテリーによる安全性の問題が重要な研究トピックとなっている。
この課題に対して,データ駆動方式のベンチマークと開発を行うため,EVバッテリの大規模かつ包括的なデータセットを導入する。
私たちのデータセットには、数年前に3つのメーカーから数百台のEVから収集された充電記録が含まれています。
我々のデータセットは、実世界のバッテリーデータに関する最初の大規模な公開データセットであり、既存のデータには数台の車両しか含まれていないか、実験室で収集されている。
一方で当社のデータセットには,バッテリの健康状態推定とバッテリ容量推定という,2つの重要なタスクに対応するラベルが2つ含まれています。
このタスクに既存のディープラーニングアルゴリズムをどのように適用できるかを示すことに加えて、バッテリシステムのデータ構造を利用するアルゴリズムを更に開発する。
提案アルゴリズムは,より優れた結果を得るとともに,カスタマイズした手法がモデル性能を向上させることを示す。
この公開データセットが、研究者、政策立案者、業界専門家に貴重なリソースを提供し、EVバッテリーの老朽化のダイナミクスをよりよく理解し、持続可能な輸送システムへの移行を支援することを願っている。 Electric vehicles (EVs) play an important role in reducing carbon emissions. As EV adoption accelerates, safety issues caused by EV batteries have become an important research topic. In order to benchmark and develop data-driven methods for this task, we introduce a large and comprehensive dataset of EV batteries. Our dataset includes charging records collected from hundreds of EVs from three manufacturers over several years. Our dataset is the first large-scale public dataset on real-world battery data, as existing data either include only several vehicles or is collected in the lab environment. Meanwhile, our dataset features two types of labels, corresponding to two key tasks - battery health estimation and battery capacity estimation. In addition to demonstrating how existing deep learning algorithms can be applied to this task, we further develop an algorithm that exploits the data structure of battery systems. Our algorithm achieves better results and shows that a customized method can improve model performances. We hope that this public dataset provides valuable resources for researchers, policymakers, and industry professionals to better understand the dynamics of EV battery aging and support the transition toward a sustainable transportation system. | 翻訳日:2023-11-03 18:49:32 公開日:2023-11-02 |
# ニューラルネットワークにおける最適経路探索とタスク依存学習の併用 Combining Optimal Path Search With Task-Dependent Learning in a Neural Network ( http://arxiv.org/abs/2201.11104v6 ) ライセンス: Link先を確認 | Tomas Kulvicius, Minija Tamosiunaite and Florentin W\"org\"otter | (参考訳) 連結グラフの最適経路を見つけるには、グラフの端を移動する際の最小の総コストを決定する必要がある。
この問題は、通常すべてのエッジに対してコストが予め定義された古典的なアルゴリズムによって解決できる。
従来の計画手法は、通常、あるタスクの要求に従う適応的な方法でコストを変更したい場合、使用できない。
ここでは、コスト値をシナプス重みに変換することで、経路探索問題のニューラルネットワーク表現を定義できることを示し、ネットワーク学習機構を用いたオンラインウェイト適応を可能にする。
このネットワークの最初のアクティビティ値から始めると、このネットワークにおけるアクティビティの伝播は、ベルマン・フォードのアルゴリズムで見られるのと同じ解をもたらす。
ニューラルネットワークはBellman-Fordと同じアルゴリズムの複雑さを持ち、さらに、ネットワーク学習機構(例えばHebbian Learning)が、ネットワーク内の重みを手作業に応じて強化できることを示すことができる。
障害のある環境でのナビゲーションの学習や,特定の経路ノードのシーケンスに従う学習によってこれを実証する。
したがって、この表現された新しいアルゴリズムは、経路拡張(学習による)が自然な方法で経路発見と直接結合される、異なるタイプのアプリケーションを開くことができる。 Finding optimal paths in connected graphs requires determining the smallest total cost for traveling along the graph's edges. This problem can be solved by several classical algorithms where, usually, costs are predefined for all edges. Conventional planning methods can, thus, normally not be used when wanting to change costs in an adaptive way following the requirements of some task. Here we show that one can define a neural network representation of path finding problems by transforming cost values into synaptic weights, which allows for online weight adaptation using network learning mechanisms. When starting with an initial activity value of one, activity propagation in this network will lead to solutions, which are identical to those found by the Bellman-Ford algorithm. The neural network has the same algorithmic complexity as Bellman-Ford and, in addition, we can show that network learning mechanisms (such as Hebbian learning) can adapt the weights in the network augmenting the resulting paths according to some task at hand. We demonstrate this by learning to navigate in an environment with obstacles as well as by learning to follow certain sequences of path nodes. Hence, the here-presented novel algorithm may open up a different regime of applications where path-augmentation (by learning) is directly coupled with path finding in a natural way. | 翻訳日:2023-11-03 18:49:13 公開日:2023-11-02 |
# long story short: 因果的機械学習における変数バイアスの省略 Long Story Short: Omitted Variable Bias in Causal Machine Learning ( http://arxiv.org/abs/2112.13398v4 ) ライセンス: Link先を確認 | Victor Chernozhukov, Carlos Cinelli, Whitney Newey, Amit Sharma, Vasilis Syrgkanis | (参考訳) 我々は、結果の条件付き期待関数の線形汎関数として識別できる幅広い因果パラメータのクラスに対して、省略された変数バイアスの大きさの一般、しかし単純で鋭い境界を導出する。
このような機能には、潜在的な結果の平均(重み付け)、平均的な治療効果(治療効果などのサブグループ効果を含む)、(重み付け)平均微分、および共変量分布のシフトによる政策効果など、因果推論研究における伝統的な研究対象の多くが含まれている。
我々の構成は、対象関数のriesz-frechet表現に依存する。
具体的には、バイアスのバウンドが、結果と興味のあるパラメータのriesz表現子の両方で潜在変数が生成する追加の変動にのみ依存することを示す。
さらに、多くの重要な場合(例えば、平均的な処理効果やアベレージ誘導体)において、境界は省略変数の説明力を測定するための容易に解釈可能な量に依存することが示される。
したがって、省略変数の最大説明力に関する単純な可能性判断(処理と結果変動の説明)は、バイアスの大きさに全体的な境界を置くのに十分である。
さらに,debiased machine learningを用いて,境界の学習可能なコンポーネントに対する柔軟かつ効率的な統計的推論を行う。
最後に、実証的な例はアプローチの有用性を示している。 We derive general, yet simple, sharp bounds on the size of the omitted variable bias for a broad class of causal parameters that can be identified as linear functionals of the conditional expectation function of the outcome. Such functionals encompass many of the traditional targets of investigation in causal inference studies, such as, for example, (weighted) average of potential outcomes, average treatment effects (including subgroup effects, such as the effect on the treated), (weighted) average derivatives, and policy effects from shifts in covariate distribution -- all for general, nonparametric causal models. Our construction relies on the Riesz-Frechet representation of the target functional. Specifically, we show how the bound on the bias depends only on the additional variation that the latent variables create both in the outcome and in the Riesz representer for the parameter of interest. Moreover, in many important cases (e.g, average treatment effects and avearage derivatives) the bound is shown to depend on easily interpretable quantities that measure the explanatory power of the omitted variables. Therefore, simple plausibility judgments on the maximum explanatory power of omitted variables (in explaining treatment and outcome variation) are sufficient to place overall bounds on the size of the bias. Furthermore, we use debiased machine learning to provide flexible and efficient statistical inference on learnable components of the bounds. Finally, empirical examples demonstrate the usefulness of the approach. | 翻訳日:2023-11-03 18:48:51 公開日:2023-11-02 |
# nirikshak: 自律的なapiテスティングフレームワーク Nirikshak: An Autonomous API Testing Framework ( http://arxiv.org/abs/2112.08315v2 ) ライセンス: Link先を確認 | Yash Mahalwal, Pawel Pratyush, Yogesh Poonia | (参考訳) 品質保証(QA)は製品開発において重要である。
自動メソッドの出現にもかかわらず、特にREST API向けのソフトウェアテストは、しばしば反復的なタスクを伴います。
実際のバグの検出と対処よりも、スクリプトテストに多くのリソースが割り当てられていることは注目に値する。
従来のテスト方法は、ソフトウェアアップデートへのシームレスな適応にも苦労している。
しかし、データサイエンスの進歩とともに、自己依存テストフレームワークの概念が現れます。
このフレームワークは、ユーザの介入を最小限に抑え、REST APIテスト手順全体を自律的に実行するように設計されています。
私たちの研究は、この画期的な枠組みの実現に重点を置いています。 Quality Assurance (QA) is pivotal in product development. Despite the advent of automated methods, software testing, especially for REST APIs, often involves repetitive tasks. It's notable that more resources are allocated to script tests than in detecting and addressing the actual bugs. Conventional testing methods also struggle to adapt seamlessly to software updates. However, with strides in data science, the concept of a self-reliant testing framework emerges. This framework aims for minimal user intervention and is designed to autonomously execute the entire REST API testing procedure. Our research is centered around realizing this groundbreaking framework. | 翻訳日:2023-11-03 18:48:26 公開日:2023-11-02 |
# 環境騒音下における多体量子状態制御 Many-body quantum state control in the presence of environmental noise ( http://arxiv.org/abs/2112.06330v2 ) ライセンス: Link先を確認 | Zara Yu and Da-Wei Luo | (参考訳) 我々は、初期状態がターゲット状態へと進化する多状態系の量子状態制御を考える。
本研究は,Schr\"{o} キャット状態の移動と回転を,所定時間$T$で結合した高調波発振器チェーンを介して行う興味深い場合において,制御手法を明示的に示す。
勾配に基づくkrotov法を用いて,結合鎖の時間依存パラメータの設計を行い,システムのターゲット状態へと進化する最適制御形状を求める。
本研究では,所定の量子状態制御を高い忠実度で実現し,汎用環境雑音に対する制御の堅牢性を検討する。
本研究は,環境騒音の存在下での多体オープン量子システムの最適制御に関心を抱くものである。 We consider the quantum state control of a multi-state system which evolves an initial state into a target state. We explicitly demonstrate the control method in an interesting case involving the transfer and rotation of a Schr\"{o}dinger cat state through a coupled harmonic oscillator chain at a predetermined time $T$. We use the gradient-based Krotov's method to design the time-dependent parameters of the coupled chain to find an optimal control shape that will evolve the system into a target state. We show that the prescribed quantum state control can be achieved with high fidelity, and the robustness of the control against generic environment noises is explored. Our findings will be of interest for the optimal control of a many-body open quantum system in the presence of environmental noise. | 翻訳日:2023-11-03 18:48:19 公開日:2023-11-02 |
# カップリングを伴うバウンディングワッサースタイン距離 Bounding Wasserstein distance with couplings ( http://arxiv.org/abs/2112.03152v3 ) ライセンス: Link先を確認 | Niloy Biswas and Lester Mackey | (参考訳) マルコフ連鎖モンテカルロ (mcmc) は、反復数が無限になりがちであるため、難解な後方期待の漸近的に一貫した推定を提供する。
しかし、大規模なデータアプリケーションでは、MCMCは反復ごとに計算コストがかかる。
これはmcmcを近似化することに関心を触媒し、1イテレーションあたりの計算速度を向上させるが漸近的に一貫した推定はできない。
本稿では,マルコフ連鎖のカップリングに基づく推定器を提案する。
推定器は, 漸近偏差サンプリング法の限界分布と, 関心の本来の目標分布との間に, ワッサーシュタイン距離の実験的上限を与える。
我々は,上界の理論的保証を確立し,高次元における推定値の有効性を示す。
我々は,高次データに対する確率的勾配mcmc,変分ベイズ,ラプラス近似,および4500次元のベイズロジスティック回帰と50000次元のベイズ線形回帰に対する近似mcmcに対して品質尺度を適用する。 Markov chain Monte Carlo (MCMC) provides asymptotically consistent estimates of intractable posterior expectations as the number of iterations tends to infinity. However, in large data applications, MCMC can be computationally expensive per iteration. This has catalyzed interest in approximating MCMC in a manner that improves computational speed per iteration but does not produce asymptotically consistent estimates. In this article, we propose estimators based on couplings of Markov chains to assess the quality of such asymptotically biased sampling methods. The estimators give empirical upper bounds of the Wasserstein distance between the limiting distribution of the asymptotically biased sampling method and the original target distribution of interest. We establish theoretical guarantees for our upper bounds and show that our estimators can remain effective in high dimensions. We apply our quality measures to stochastic gradient MCMC, variational Bayes, and Laplace approximations for tall data and to approximate MCMC for Bayesian logistic regression in 4500 dimensions and Bayesian linear regression in 50000 dimensions. | 翻訳日:2023-11-03 18:48:08 公開日:2023-11-02 |
# 差分プライバシー保証を備えたグラフニューラルネットワークのリリース Releasing Graph Neural Networks with Differential Privacy Guarantees ( http://arxiv.org/abs/2109.08907v2 ) ライセンス: Link先を確認 | Iyiola E. Olatunji, Thorben Funke, and Megha Khosla | (参考訳) 医療や医療などの機密性の高いアプリケーションでグラフニューラルネットワーク(GNN)の人気が高まっているため、トレーニングされたGNNのプライバシー面で懸念が高まっている。
特に、GNNは、トレーニングされたモデルへのブラックボックスアクセスのみを許可しても、メンバーシップ推論攻撃のようなプライバシー攻撃に弱い。
我々は,GNNモデルを集中的にリリースするためのプライバシ保護フレームワークであるPrivGNNを提案する。
公開されていないグラフへのアクセスを前提として、PrivGNNは、公開データに基づいて明示的にトレーニングされたGNNモデルと、プライベートデータから得られた知識をプライバシ保護形式でリリースするフレームワークを提供する。
PrivGNNは、知識蒸留フレームワークとランダムサブサンプリングとノイズラベリングという2つのノイズメカニズムを組み合わせて、厳格なプライバシー保証を保証する。
我々は、Renyi差分プライバシーフレームワークにおける我々のアプローチを理論的に分析する。
さらに,グラフ構造化データに適用したいくつかのベースラインと比較して,本手法の固体実験性能を示す。
私たちのコードはhttps://github.com/iyempissy/privgnnで入手できる。 With the increasing popularity of graph neural networks (GNNs) in several sensitive applications like healthcare and medicine, concerns have been raised over the privacy aspects of trained GNNs. More notably, GNNs are vulnerable to privacy attacks, such as membership inference attacks, even if only black-box access to the trained model is granted. We propose PrivGNN, a privacy-preserving framework for releasing GNN models in a centralized setting. Assuming an access to a public unlabeled graph, PrivGNN provides a framework to release GNN models trained explicitly on public data along with knowledge obtained from the private data in a privacy preserving manner. PrivGNN combines the knowledge-distillation framework with the two noise mechanisms, random subsampling, and noisy labeling, to ensure rigorous privacy guarantees. We theoretically analyze our approach in the Renyi differential privacy framework. Besides, we show the solid experimental performance of our method compared to several baselines adapted for graph-structured data. Our code is available at https://github.com/iyempissy/privGnn. | 翻訳日:2023-11-03 18:47:50 公開日:2023-11-02 |
# 単一光子の実現限界 Limits for realizing single photons ( http://arxiv.org/abs/2109.06472v3 ) ライセンス: Link先を確認 | Jan Gulla, Kai Ryen, Johannes Skaar | (参考訳) 特定の単一光子は無限尾のためにオンデマンドで生成できない。
ある対象の単一光子に対して1次元でどの程度近い可視光状態が成立するかを定量化するために、対象状態を特定するには自然だが相容れない2つの方法が存在すると論じる。
選択された正の周波数スペクトルを持つ光子として表すか、選択された正の時間パルスにおいて(非物理的)光子として表すことができる。
その結果、十分短いターゲットパルスの場合、最も近い実現可能な状態は実質的な多光子成分を含むことが示された。
最大忠実度に対する上及び下界を導出し、それぞれ負の時間または負の周波数で目標状態の尾の大きさの関数として表す。
また、任意の光子数状態の境界を一般化する。 Exact single photons cannot be generated on demand due to their infinite tails. To quantify how close realizable optical states can be to some target single photon in one dimension, we argue that there are two natural but incompatible ways to specify the target state. Either it can be expressed as a photon with a chosen positive-frequency spectrum, or it can be described as an (unphysical) photon in a chosen positive-time pulse. The results show that for sufficiently short target pulses, the closest realizable states contain substantial multiphoton components. Upper and lower bounds for the maximum fidelity are derived and are expressed as functions of the size of the target state's tail, for negative time or negative frequency, respectively. We also generalize the bounds to arbitrary photon-number states. | 翻訳日:2023-11-03 18:47:32 公開日:2023-11-02 |
# 構造変数選択のための排他的グループラッソ Exclusive Group Lasso for Structured Variable Selection ( http://arxiv.org/abs/2108.10284v2 ) ライセンス: Link先を確認 | David Gregoratti and Xavier Mestre and Carlos Buelga | (参考訳) 構造的変数選択問題は、前定義されたグループに分割された共変数が、グループごとにゼロでないエントリが少ないスパースパターンに従って活性化される。
原子ノルムの概念に基づいた合成ノルムは、そのような排他的群空間パターンを促進するために適切に設計することができる。
結果として得られるノルムは、近位アルゴリズムのような回復をサポートする効率的で柔軟な正規化最適化アルゴリズムに役立ちます。
さらに, 推定支持体に構造原子を逐次含むことで解を構築できる能動集合アルゴリズムを提案する。
また、そのようなアルゴリズムは、通常の排他的群空間よりも厳密な構造に適合するように調整することができる。
漸近的整合性解析(パラメータ数と観測サイズで増加するグループ数の両方)は、従来の仮定の下で署名された支持回復の観点から、提案手法の有効性を確立する。
最後に、一連の数値シミュレーションがさらに結果を裏付ける。 A structured variable selection problem is considered in which the covariates, divided into predefined groups, activate according to sparse patterns with few nonzero entries per group. Capitalizing on the concept of atomic norm, a composite norm can be properly designed to promote such exclusive group sparsity patterns. The resulting norm lends itself to efficient and flexible regularized optimization algorithms for support recovery, like the proximal algorithm. Moreover, an active set algorithm is proposed that builds the solution by successively including structure atoms into the estimated support. It is also shown that such an algorithm can be tailored to match more rigid structures than plain exclusive group sparsity. Asymptotic consistency analysis (with both the number of parameters as well as the number of groups growing with the observation size) establishes the effectiveness of the proposed solution in terms of signed support recovery under conventional assumptions. Finally, a set of numerical simulations further corroborates the results. | 翻訳日:2023-11-03 18:47:19 公開日:2023-11-02 |
# 量子スイッチはユニタリ演算に対する作用によって一意に定義される The quantum switch is uniquely defined by its action on unitary operations ( http://arxiv.org/abs/2106.00034v4 ) ライセンス: Link先を確認 | Qingxiuxiong Dong, Marco T\'ulio Quintino, Akihito Soeda, Mio Murao | (参考訳) 量子スイッチ (quantum switch) は、異なるユニタリ演算間のコヒーレントな制御を生成する物理プロセスである。これは、しばしば、一元演算のペアである$(U_1 , U_2)$を制御ユニタリ演算に変換し、それらを異なる順序でコヒーレントに適用する${\vert {0} \rangle\!
\langle {0} \vert} \otimes U_1 U_2 + {\vert {1} \rangle\!
\langle {1} \vert} \otimes U_2 U_1$
しかしながら、この記述は、非単体操作に対するアクションを直接定義していない。
非ユニタリ操作に対する量子スイッチの作用は、ユニタリ操作に対するその作用の「自然な」拡張として選択される。
一般に、非単項演算に対するプロセスの作用は、単項演算のみに対する作用によって一意に決定されないので、原理的には、非単項演算に対する量子スイッチの非等価拡張の集合が存在する。
本稿では,量子スイッチの動作を非ユニタリ演算に拡張する一意な方法があることを実証する。
言い換えると、一般的な場合とは対照的に、非ユニタリ操作に対する量子スイッチの作用は、ユニタリ操作に対するその作用によって完全に決定される。
また、量子過程の完全な記述がユニタリ操作に対する作用によって一意的に決定される場合の一般的な問題についても論じ、ユニタリ操作に対する作用によって完全に定義される1スロットプロセスの集合を同定する。 The quantum switch is a physical process that creates a coherent control between different unitary operations which is often described as a process which transforms a pair of unitary operations $(U_1 , U_2)$ into a controlled unitary operation that coherently applies them in different orders as ${\vert {0} \rangle\!\langle {0} \vert} \otimes U_1 U_2 + {\vert {1} \rangle\!\langle {1} \vert} \otimes U_2 U_1$. This description, however, does not directly define its action on non-unitary operations. The action of quantum switch on non-unitary operations is then chosen to be a "natural" extension of its action on unitary operation. Since, in general, the action of a process on non-unitary operations is not uniquely determined by its action on only unitary operations, in principle, there could be a set of inequivalent extensions of quantum switch for non-unitary operations. In this paper, we prove that there is a unique way to extend the actions of quantum switch to non-unitary operations. In other words, contrary to the general case, the action of quantum switch on non-unitary operations is completely determined by its action on unitary operations. We also discuss the general problem of when the complete description of a quantum process is uniquely determined by its action on unitary operations and identify a set of single-slot processes which are completely defined by their action on unitary operations. | 翻訳日:2023-11-03 18:46:52 公開日:2023-11-02 |
# radixエンコードを用いた効率的なスパイクニューラルネットワーク Efficient Spiking Neural Networks with Radix Encoding ( http://arxiv.org/abs/2105.06943v2 ) ライセンス: Link先を確認 | Zhehui Wang, Xiaozhe Gu, Rick Goh, Joey Tianyi Zhou, Tao Luo | (参考訳) スパイキングニューラルネットワーク(SNN)は、イベント駆動型計算機構とエネルギー消費重量乗算の代替により、従来の人工知能ニューラルネットワーク(ANN)よりもレイテンシとエネルギー効率の利点がある。
しかし、ANNの精度に到達するためには通常、正確性を確保するために長いスパイク列車を必要とする。
伝統的に、スパイク列車はANNと同様の精度にアプローチするために約1000のタイムステップを必要とする。
これは、長いスパイク列車はより多くの操作と長いレイテンシを意味するため、snsによってもたらされる計算効率を相殺する。
本稿では,超短スパイク列車を用いたSNNのラジックス符号化を提案する。
新しいモデルでは、スパイク列車は10時間足らずで走行する。
実験の結果,VGG-16ネットワークアーキテクチャとCIFAR-10データセットの最先端技術と比較すると,精度は25倍,精度は1.1%向上した。 Spiking neural networks (SNNs) have advantages in latency and energy efficiency over traditional artificial neural networks (ANNs) due to its event-driven computation mechanism and replacement of energy-consuming weight multiplications with additions. However, in order to reach accuracy of its ANN counterpart, it usually requires long spike trains to ensure the accuracy. Traditionally, a spike train needs around one thousand time steps to approach similar accuracy as its ANN counterpart. This offsets the computation efficiency brought by SNNs because longer spike trains mean a larger number of operations and longer latency. In this paper, we propose a radix encoded SNN with ultra-short spike trains. In the new model, the spike train takes less than ten time steps. Experiments show that our method demonstrates 25X speedup and 1.1% increment on accuracy, compared with the state-of-the-art work on VGG-16 network architecture and CIFAR-10 dataset. | 翻訳日:2023-11-03 18:46:15 公開日:2023-11-02 |
# JPEG圧縮画像の深層学習に基づくエッジ認識前処理法 Deep learning-based Edge-aware pre and post-processing methods for JPEG compressed images ( http://arxiv.org/abs/2104.04926v2 ) ライセンス: Link先を確認 | Dipti Mishra, Satish Kumar Singh, Rajat Kumar Singh | (参考訳) 本稿では,前処理と後処理の深いCNN間の標準コーデックを包含する学習ベース圧縮方式を提案する。
具体的には,圧縮圧縮ネットワークを用いた先行手法の改良について述べる。
(a)先行作品でよく発生するぼやけを防ぐためのエッジアウェアロス機能
b)低レート状態における速度歪み性能を改善するために,処理後処理のための超解像畳み込みニューラルネットワーク(CNN)と対応する前処理ネットワークを併用する。
このアルゴリズムは、Set 5、Set 7, Classic 5、Set 14、Live 1、Kodak、General 100、CLIC 2019という、低解像度から高解像度のさまざまなデータセットに基づいて評価される。
JPEG,JPEG2000,BPG,および最近のCNNの手法と比較して,提案アルゴリズムはPSNRの20.75%,8.47%,3.22%,3.23%,24.59%,14.46%,10.14%,8.57%をそれぞれ低ビットレートで改善した。
同様に、MS-SSIMのこの改善はおよそ71.43%、50%、36.36%、23.08%、64.70%、64.47%、61.29%、47.06%、51.52%、16.28%である。
CLIC 2019データセットでは、PSNRは約16.67%、10.53%、6.78%、24.62%、17.39%、14.08%の低ビットレートで、JPEG2000、BPG、最近のCNNアプローチよりも優れている。
同様に、MS-SSIMは約72%、45.45%、39.13%、18.52%、71.43%、50%、41.18%、17.07%の低ビットレートである。
同様の改善は、他のデータセットでも実現されている。 We propose a learning-based compression scheme that envelopes a standard codec between pre and post-processing deep CNNs. Specifically, we demonstrate improvements over prior approaches utilizing a compression-decompression network by introducing: (a) an edge-aware loss function to prevent blurring that is commonly occurred in prior works & (b) a super-resolution convolutional neural network (CNN) for post-processing along with a corresponding pre-processing network for improved rate-distortion performance in the low rate regime. The algorithm is assessed on a variety of datasets varying from low to high resolution namely Set 5, Set 7, Classic 5, Set 14, Live 1, Kodak, General 100, CLIC 2019. When compared to JPEG, JPEG2000, BPG, and recent CNN approach, the proposed algorithm contributes significant improvement in PSNR with an approximate gain of 20.75%, 8.47%, 3.22%, 3.23% and 24.59%, 14.46%, 10.14%, 8.57% at low and high bit-rates respectively. Similarly, this improvement in MS-SSIM is approximately 71.43%, 50%, 36.36%, 23.08%, 64.70% and 64.47%, 61.29%, 47.06%, 51.52%, 16.28% at low and high bit-rates respectively. With CLIC 2019 dataset, PSNR is found to be superior with approximately 16.67%, 10.53%, 6.78%, and 24.62%, 17.39%, 14.08% at low and high bit-rates respectively, over JPEG2000, BPG, and recent CNN approach. Similarly, the MS-SSIM is found to be superior with approximately 72%, 45.45%, 39.13%, 18.52%, and 71.43%, 50%, 41.18%, 17.07% at low and high bit-rates respectively, compared to the same approaches. A similar type of improvement is achieved with other datasets also. | 翻訳日:2023-11-03 18:45:59 公開日:2023-11-02 |
# 機械学習と科学を橋渡しする: 機会と挑戦 Bridging Machine Learning and Sciences: Opportunities and Challenges ( http://arxiv.org/abs/2210.13441v2 ) ライセンス: Link先を確認 | Taoli Cheng | (参考訳) 科学における機械学習の応用は近年、エキサイティングな進歩を遂げている。
広く応用可能な手法として、機械学習コミュニティでは長年にわたり異常検出が研究されてきた。
特に、深層ニューラルネットワークを用いた分散検出は、高次元データにおいて大きな進歩を遂げている。
近年、これらの技術は科学的分野においてその可能性を示している。
データ普遍性、実験プロトコル、モデル堅牢性など、それらの適用可能性について批判的に考察する。
本稿では,移行可能な実践とドメイン固有の課題を同時に提示する事例について論じ,近い将来に新たな学際研究パラダイムを確立するための出発点となる。 The application of machine learning in sciences has seen exciting advances in recent years. As a widely applicable technique, anomaly detection has been long studied in the machine learning community. Especially, deep neural nets-based out-of-distribution detection has made great progress for high-dimensional data. Recently, these techniques have been showing their potential in scientific disciplines. We take a critical look at their applicative prospects including data universality, experimental protocols, model robustness, etc. We discuss examples that display transferable practices and domain-specific challenges simultaneously, providing a starting point for establishing a novel interdisciplinary research paradigm in the near future. | 翻訳日:2023-11-03 18:37:40 公開日:2023-11-02 |
# グローバルステアリング機構によるDeGrootに基づく意見形成 DeGroot-based opinion formation under a global steering mechanism ( http://arxiv.org/abs/2210.12274v2 ) ライセンス: Link先を確認 | Ivan Conjeaud and Philipp Lorenz-Spreen and Argyris Kalogeratos | (参考訳) 本稿では,インタラクションエージェントがコンセンサスや偏光状態に到達する方法を検討する。
本稿では,グローバルステアリング機構(GSM)による意見形成プロセスについて検討し,ネットワークレベルでの意見駆動型確率的エージェント状態を集約し,グローバル情報の一形態としてフィードバックする。
また,エージェント-エージェント間局所相互作用とGSMの操舵効果の結合ダイナミクスを捉える2層エージェントベースの意見形成モデルGSM-DeGrootを提案する。
このようにして、エージェントはDeGrootのようなローカルな意見伝達の影響を受け、また、ニュースフィード、報道報道、世論調査、選挙など、彼らの意見に影響を与える可能性のある、多種多様な情報を集約する。
標準のDeGrootモデルとは対照的に、我々のモデルはエージェントが頑健な微分方法でグローバルな情報に反応させることで偏光を発生させることができる。
さらに、導入された確率エージェント状態は、実際のイベントデータに適合するイベントストリームダイナミクスを生成する。
モデルダイナミクスを数値的に検討し,質的に異なる行動のレジームを探索する。
また,一般の注目を集め,twitterに記録された実際の話題のダイナミクスに適合させることで,このモデルに挑戦した。
実験の結果,提案モデルは説明力を有しており,比較的小さなパラメータセットで実際の意見形成ダイナミクスを捉えていることが明らかとなった。 This paper investigates how interacting agents arrive to a consensus or a polarized state. We study the opinion formation process under the effect of a global steering mechanism (GSM), which aggregates the opinion-driven stochastic agent states at the network level and feeds back to them a form of global information. We also propose a new two-layer agent-based opinion formation model, called GSM-DeGroot, that captures the coupled dynamics between agent-to-agent local interactions and the GSM's steering effect. This way, agents are subject to the effects of a DeGroot-like local opinion propagation, as well as to a wide variety of possible aggregated information that can affect their opinions, such as trending news feeds, press coverage, polls, elections, etc. Contrary to the standard DeGroot model, our model allows polarization to emerge by letting agents react to the global information in a stubborn differential way. Moreover, the introduced stochastic agent states produce event stream dynamics that can fit to real event data. We explore numerically the model dynamics to find regimes of qualitatively different behavior. We also challenge our model by fitting it to the dynamics of real topics that attracted the public attention and were recorded on Twitter. Our experiments show that the proposed model holds explanatory power, as it evidently captures real opinion formation dynamics via a relatively small set of interpretable parameters. | 翻訳日:2023-11-03 18:37:32 公開日:2023-11-02 |
# KP-RNN:人間の動作予測とパフォーマンスアートの合成のためのディープラーニングパイプライン KP-RNN: A Deep Learning Pipeline for Human Motion Prediction and Synthesis of Performance Art ( http://arxiv.org/abs/2210.04366v3 ) ライセンス: Link先を確認 | Patrick Perrine, Trevor Kirkby | (参考訳) 人間の動きをデジタルに合成することは本質的に複雑なプロセスであり、仮想現実のような応用分野の障害を生じさせる。
我々は、既存の画像処理と生成パイプラインと容易に統合できるニューラルネットワーク、KP-RNNを予測するための新しいアプローチを提供する。
我々は、KP-RNNの動作予測の有効性を実証するために、新しい人間の動作データセットであるTake The Leadと、モーション生成パイプラインであるEverybody Dance Nowシステムを用いている。
私たちのニューラルネットワークは、人間のダンスの動きを効果的に予測できることがわかりました。
KP-RNNは、Everybody Dance Nowのようなシステムと連携できるため、我々のアプローチは人間のアバターアニメーションをレンダリングするための新しい方法に刺激を与える可能性がある。
この作業は、アクセス可能なニューラルネットワークを利用することで、デジタルプラットフォームのパフォーマンスアートの可視化にも役立ちます。 Digitally synthesizing human motion is an inherently complex process, which can create obstacles in application areas such as virtual reality. We offer a new approach for predicting human motion, KP-RNN, a neural network which can integrate easily with existing image processing and generation pipelines. We utilize a new human motion dataset of performance art, Take The Lead, as well as the motion generation pipeline, the Everybody Dance Now system, to demonstrate the effectiveness of KP-RNN's motion predictions. We have found that our neural network can predict human dance movements effectively, which serves as a baseline result for future works using the Take The Lead dataset. Since KP-RNN can work alongside a system such as Everybody Dance Now, we argue that our approach could inspire new methods for rendering human avatar animation. This work also serves to benefit the visualization of performance art in digital platforms by utilizing accessible neural networks. | 翻訳日:2023-11-03 18:37:09 公開日:2023-11-02 |
# カーネルの相違によるターゲット分離と収束 Targeted Separation and Convergence with Kernel Discrepancies ( http://arxiv.org/abs/2209.12835v2 ) ライセンス: Link先を確認 | Alessandro Barp, Carl-Johann Simon-Gabriel, Mark Girolami, Lester Mackey | (参考訳) kernel stein discrepancy (ksd) のような最大平均偏差 (mmd) は、仮説検定、標本選択、分布近似、変分推論など、幅広い応用の中心に成長してきた。
各設定では、これらのカーネルベースの不一致対策が必要である。
(i)目標pを他の確率測度や偶数と分離する
第二に、Pに対する弱収束を制御し、本項では、確実な新しい十分かつ必要な条件を導出する。
(i)および
(ii)
分離可能な距離空間上のMDDに対して、ボヒナー埋め込み可能な測度を分離するカーネルを特徴づけ、すべての測度を非有界カーネルと分離し、有界カーネルとの収束を制御するための単純な条件を導入する。
我々はこれらの結果を$\mathbb{r}^d$ を用いて, ksd分離および収束制御の既知の条件を大幅に拡大し, p への弱収束を正確に評価できる最初の ksd を開発する。 Maximum mean discrepancies (MMDs) like the kernel Stein discrepancy (KSD) have grown central to a wide range of applications, including hypothesis testing, sampler selection, distribution approximation, and variational inference. In each setting, these kernel-based discrepancy measures are required to (i) separate a target P from other probability measures or even (ii) control weak convergence to P. In this article we derive new sufficient and necessary conditions to ensure (i) and (ii). For MMDs on separable metric spaces, we characterize those kernels that separate Bochner embeddable measures and introduce simple conditions for separating all measures with unbounded kernels and for controlling convergence with bounded kernels. We use these results on $\mathbb{R}^d$ to substantially broaden the known conditions for KSD separation and convergence control and to develop the first KSDs known to exactly metrize weak convergence to P. Along the way, we highlight the implications of our results for hypothesis testing, measuring and improving sample quality, and sampling with Stein variational gradient descent. | 翻訳日:2023-11-03 18:36:52 公開日:2023-11-02 |
# 条件付き拡散モデルによる損失画像圧縮 Lossy Image Compression with Conditional Diffusion Models ( http://arxiv.org/abs/2209.06950v6 ) ライセンス: Link先を確認 | Ruihan Yang, Stephan Mandt | (参考訳) 本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
このアプローチは変換符号化パラダイムに依存しており、画像はエントロピー符号化のための潜在空間にマッピングされ、そこから再構成のためにデータ空間にマッピングされる。
平均)デコーダが決定論的ニューラルネットワークであるvaeベースのニューラルネットワークとは対照的に、このデコーダは条件拡散モデルである。
そこで本手法では,逆拡散過程を条件付けした"コンテンツ"潜在変数を導入し,この変数を用いて画像に関する情報を格納する。
拡散過程を特徴付ける残りの「テクスチャ」変数は復号時に合成される。
モデルの性能は,関心の認知的指標に調整可能であることを示す。
複数のデータセットと画像品質評価指標を含む広範囲な実験により,提案手法はGANモデルよりも強いFIDスコアを得られる一方で,VAEモデルと競合する性能を複数の歪み指標で得ることが示された。
さらに、Xパラメータ化による拡散の訓練により、少数の復号化ステップで高品質な再構成が可能となり、モデルの実用性に大きな影響を及ぼす。 This paper outlines an end-to-end optimized lossy image compression framework using diffusion generative models. The approach relies on the transform coding paradigm, where an image is mapped into a latent space for entropy coding and, from there, mapped back to the data space for reconstruction. In contrast to VAE-based neural compression, where the (mean) decoder is a deterministic neural network, our decoder is a conditional diffusion model. Our approach thus introduces an additional "content" latent variable on which the reverse diffusion process is conditioned and uses this variable to store information about the image. The remaining "texture" variables characterizing the diffusion process are synthesized at decoding time. We show that the model's performance can be tuned toward perceptual metrics of interest. Our extensive experiments involving multiple datasets and image quality assessment metrics show that our approach yields stronger reported FID scores than the GAN-based model, while also yielding competitive performance with VAE-based models in several distortion metrics. Furthermore, training the diffusion with X-parameterization enables high-quality reconstructions in only a handful of decoding steps, greatly affecting the model's practicality. | 翻訳日:2023-11-03 18:36:32 公開日:2023-11-02 |
# 精度依存性を指数関数的に改善した回路深度を用いた基底状態エネルギー推定のための量子アルゴリズム Quantum algorithm for ground state energy estimation using circuit depth with exponentially improved dependence on precision ( http://arxiv.org/abs/2209.06811v3 ) ライセンス: Link先を確認 | Guoming Wang, Daniel Stilck Fran\c{c}a, Ruizhe Zhang, Shuchen Zhu, and Peter D. Johnson | (参考訳) 量子コンピューティングの分野におけるマイルストーンは、最先端の古典的手法よりも早く量子化学と物質の問題を解くことである。
現在の理解では、この領域で量子的な優位性を達成するにはある程度のフォールトトレランスが必要です。
ハードウェアはこのマイルストーンに向かって改善されているが、量子アルゴリズムを最適化することで、現在に近づいている。
既存の基底状態エネルギー推定法は、所望のビット数の精度で指数関数的に成長する回路ごとに複数のゲートを必要とするため、コストがかかる。
我々はこのコストを指数関数的に削減し、このコストが精度のビット数で線形に増加する基底状態エネルギー推定アルゴリズムを開発した。
エチレンカーボネートとPF$_6^-$の工業関連分子の基底状態エネルギー推定の最近の資源推定結果と比較すると、推定ゲート数と回路深さはそれぞれ43と78と減少する。
さらに、アルゴリズムは、総実行時間を減らすために追加の回路深度を使うことができる。
これらの特徴により、初期のフォールトトレラント量子コンピューティングの時代に量子優位を実現する有望な候補となる。 A milestone in the field of quantum computing will be solving problems in quantum chemistry and materials faster than state-of-the-art classical methods. The current understanding is that achieving quantum advantage in this area will require some degree of fault tolerance. While hardware is improving towards this milestone, optimizing quantum algorithms also brings it closer to the present. Existing methods for ground state energy estimation are costly in that they require a number of gates per circuit that grows exponentially with the desired number of bits in precision. We reduce this cost exponentially, by developing a ground state energy estimation algorithm for which this cost grows linearly in the number of bits of precision. Relative to recent resource estimates of ground state energy estimation for the industrially-relevant molecules of ethylene-carbonate and PF$_6^-$, the estimated gate count and circuit depth is reduced by a factor of 43 and 78, respectively. Furthermore, the algorithm can use additional circuit depth to reduce the total runtime. These features make our algorithm a promising candidate for realizing quantum advantage in the era of early fault-tolerant quantum computing. | 翻訳日:2023-11-03 18:36:15 公開日:2023-11-02 |
# ゴールを意識した後見経験リプレイの失敗 Failed Goal Aware Hindsight Experience Replay ( http://arxiv.org/abs/2208.14741v2 ) ライセンス: Link先を確認 | Taeyoung Kim, Dongsoo Har | (参考訳) 与えられた環境に対する多目的強化学習において、エージェントは環境との相互作用から得られる経験を用いて、複数の目標を達成するためのポリシーを学ぶ。
この設定における重要な課題の1つは、スパースバイナリ報酬を使用したトレーニングエージェントである。
この課題に対処するため、後視体験再生(HER)は失敗経験から成功した経験を生成する。
しかし、一様にサンプリングされた経験から成功した経験を生成するプロセスは非効率である。
本稿では, サンプリング効率を高めるために, 目標認識の失敗 (faher) と呼ばれる新しいアプローチを提案する。
このアプローチは、達成できない本来の目標として定義される失敗した目標に関連して達成された目標の特性を利用する。
提案手法では,クラスタモデルを用いて達成目標の異なるエピソードをクラスタリングし,その後に自身の方法で経験をサンプリングする。
クラスタモデルは、失敗した目標にクラスタリングアルゴリズムを適用することで生成される。
提案手法は,OpenAIジムの3つのロボット制御タスクを用いた実験により検証された。
実験の結果,提案手法はサンプル効率が向上し,ベースライン法よりも性能が向上することが示された。 In multi-goal reinforcement learning for a given environment, agents learn policies to achieve multiple goals by using experiences gained from interactions with the environment. One of the key challenges in this setting is training agents using sparse binary rewards, which can be difficult due to a lack of successful experiences. To address this challenge, hindsight experience replay (HER) generates successful experiences from unsuccessful experiences. However, the process of generating successful experiences from uniformly sampled ones can be inefficient. In this paper, a novel approach called Failed goal Aware HER (FAHER) is proposed to enhance the sampling efficiency. The approach exploits the property of achieved goals in relation to failed goals that are defined as the original goals not achieved. The proposed method involves clustering episodes with different achieved goals using a cluster model and subsequently sampling experiences in the manner of HER. The cluster model is generated by applying a clustering algorithm to failed goals. The proposed method is validated by experiments with three robotic control tasks of the OpenAI gym. The results of experiments demonstrate that the proposed method is more sample efficient and achieves improved performance over baseline approaches. | 翻訳日:2023-11-03 18:35:55 公開日:2023-11-02 |
# デコイ状態量子鍵分布のための完全受動送信器 A fully passive transmitter for decoy-state quantum key distribution ( http://arxiv.org/abs/2208.12516v2 ) ライセンス: Link先を確認 | V\'ictor Zapatero, Wenyuan Wang, Marcos Curty | (参考訳) 受動量子鍵分布(QKD)送信機は、QKDプロトコルで規定された量子状態をランダムに生成し、固定量子機構と選択後のステップを組み合わせる。
乱数発生器によって外部に駆動される能動光変調器の使用を避けることで、受動QKD送信機は変調器側チャネルに免疫を提供し、高い周波数動作を可能にする可能性がある。
近年,受動デコイ状態QKDに適した最初の線形光学装置が提案されている。
本研究では,プロトタイプを単純化し,bb84偏波符号化とデコイ状態生成に対して鋭く異なるアプローチを採用する。
その上で、不要な前提を超越した厳密なカスタムメイドのセキュリティ分析と、前の提案の中心となるポストセレクション手順を精査する。 A passive quantum key distribution (QKD) transmitter generates the quantum states prescribed by a QKD protocol at random, combining a fixed quantum mechanism and a post-selection step. By avoiding the use of active optical modulators externally driven by random number generators, passive QKD transmitters offer immunity to modulator side channels and potentially enable higher frequencies of operation. Recently, the first linear optics setup suitable for passive decoy-state QKD has been proposed. In this work, we simplify the prototype and adopt sharply different approaches for BB84 polarization encoding and decoy-state generation. On top of it, we elaborate a tight custom-made security analysis surpassing an unnecessary assumption and a post-selection step that are central to the former proposal. | 翻訳日:2023-11-03 18:35:40 公開日:2023-11-02 |
# SensorSCAN: 化学プロセスにおける異常診断のための自己監視学習と深部クラスタリング SensorSCAN: Self-Supervised Learning and Deep Clustering for Fault Diagnosis in Chemical Processes ( http://arxiv.org/abs/2208.08879v2 ) ライセンス: Link先を確認 | Maksim Golyadkin, Vitaliy Pozdnyakov, Leonid Zhukov, Ilya Makarov | (参考訳) 現代の工業施設では、製造過程で大量のセンサーデータを生成する。
このデータはプロセスの監視と制御に使用され、プロセス異常の検出と予測に分析することができる。
通常、データは予測モデリングに使用するために専門家によって注釈を付けなければならない。
しかし, 産業現場では, 大量データの手動アノテーションは困難である。
本稿では,産業化学プロセス監視のための非監視型故障検出・診断手法であるSensorSCANを提案する。
我々は、テネシー・イーストマン・プロセスの2つの公開データセットに、さまざまな欠点のあるモデルの性能を実証する。
その結果,本手法は既存のアプローチ(固定FPRでは+0.2-0.3 TPR)を著しく上回り,専門家のアノテーションを使わずにプロセス欠陥の大部分を効果的に検出することがわかった。
さらに,ラベル付きデータのごく一部に微調整されたモデルが,全データセットで訓練されたSOTAモデルの性能にほぼ達していることを示す。
また,本手法は,故障の数が事前に分かっていない実世界のアプリケーションに適していることを示す。
コードはhttps://github.com/airi-institute/sensorscanで入手できる。 Modern industrial facilities generate large volumes of raw sensor data during the production process. This data is used to monitor and control the processes and can be analyzed to detect and predict process abnormalities. Typically, the data has to be annotated by experts in order to be used in predictive modeling. However, manual annotation of large amounts of data can be difficult in industrial settings. In this paper, we propose SensorSCAN, a novel method for unsupervised fault detection and diagnosis, designed for industrial chemical process monitoring. We demonstrate our model's performance on two publicly available datasets of the Tennessee Eastman Process with various faults. The results show that our method significantly outperforms existing approaches (+0.2-0.3 TPR for a fixed FPR) and effectively detects most of the process faults without expert annotation. Moreover, we show that the model fine-tuned on a small fraction of labeled data nearly reaches the performance of a SOTA model trained on the full dataset. We also demonstrate that our method is suitable for real-world applications where the number of faults is not known in advance. The code is available at https://github.com/AIRI-Institute/sensorscan. | 翻訳日:2023-11-03 18:34:57 公開日:2023-11-02 |
# シャットリング型1オン量子コンピュータ用量子回路コンパイラ Quantum Circuit Compiler for a Shuttling-Based Trapped-Ion Quantum Computer ( http://arxiv.org/abs/2207.01964v4 ) ライセンス: Link先を確認 | Fabian Kreppel, Christian Melzer, Diego Olvera Mill\'an, Janis Wagner, Janine Hilder, Ulrich Poschinger, Ferdinand Schmidt-Kaler, Andr\'e Brinkmann | (参考訳) 量子コンピューティングハードウェアの能力の増大と深層量子回路の実現の課題は、量子回路をコンパイルするための完全に自動化され効率的なツールを必要とする。
量子コンピュータアーキテクチャに特有のネイティブゲートのシーケンスで任意の回路を表現するためには、量子ハードウェアプロバイダのランドスケープをまたいでアルゴリズムをポータブルにする必要がある。
本稿では,シャットリング型トラップイオン量子プロセッサをターゲットとした量子回路の変換と最適化が可能なコンパイラを提案する。
量子回路フレームワークpytket上に設定されたカスタムアルゴリズムで構成されている。
この性能は幅広い量子回路で評価され、その結果、標準のピケットに比べて最大5.1倍、標準のカイスキートコンパイルに比べて最大2.2倍、ゲート数は最大5.1倍に削減できることが示された。 The increasing capabilities of quantum computing hardware and the challenge of realizing deep quantum circuits require fully automated and efficient tools for compiling quantum circuits. To express arbitrary circuits in a sequence of native gates specific to the quantum computer architecture, it is necessary to make algorithms portable across the landscape of quantum hardware providers. In this work, we present a compiler capable of transforming and optimizing a quantum circuit targeting a shuttling-based trapped-ion quantum processor. It consists of custom algorithms set on top of the quantum circuit framework Pytket. The performance was evaluated for a wide range of quantum circuits and the results show that the gate counts can be reduced by factors up to 5.1 compared to standard Pytket and up to 2.2 compared to standard Qiskit compilation. | 翻訳日:2023-11-03 18:34:32 公開日:2023-11-02 |
# 特徴説明によるプライベートグラフ抽出 Private Graph Extraction via Feature Explanations ( http://arxiv.org/abs/2206.14724v2 ) ライセンス: Link先を確認 | Iyiola E. Olatunji, Mandeep Rathee, Thorben Funke, Megha Khosla | (参考訳) プライバシーと解釈性は、信頼できる機械学習を実現するための2つの重要な要素である。
グラフ再構成攻撃によるグラフ機械学習におけるこれら2つの側面の相互作用について検討する。
ここでの敵の目標は、モデル説明にアクセス可能なトレーニングデータのグラフ構造を再構築することである。
敵が利用可能な様々な補助情報に基づいて,いくつかのグラフ再構成攻撃を提案する。
ポストホックな特徴説明のさらなる知識がこれらの攻撃の成功率を大幅に向上させることを示す。
さらに,グラフニューラルネットワークの3種類の説明手法(勾配ベース,摂動ベース,代理モデルベース)に対して,攻撃性能の違いを詳細に検討した。
グラデーションに基づく説明はグラフ構造の観点からは最も多いが、これらの説明が必ずしも有用性が高いとは限らない。
他の2つの説明クラスでは、説明ユーティリティの増加とともにプライバシー漏洩が増加する。
最後に,説明を解放するためのランダム化応答機構に基づく防御を提案し,攻撃成功率を実質的に低減する。
私たちのコードはhttps://github.com/iyempissy/graph-stealing- attacks-with-explanationで利用可能です。 Privacy and interpretability are two important ingredients for achieving trustworthy machine learning. We study the interplay of these two aspects in graph machine learning through graph reconstruction attacks. The goal of the adversary here is to reconstruct the graph structure of the training data given access to model explanations. Based on the different kinds of auxiliary information available to the adversary, we propose several graph reconstruction attacks. We show that additional knowledge of post-hoc feature explanations substantially increases the success rate of these attacks. Further, we investigate in detail the differences between attack performance with respect to three different classes of explanation methods for graph neural networks: gradient-based, perturbation-based, and surrogate model-based methods. While gradient-based explanations reveal the most in terms of the graph structure, we find that these explanations do not always score high in utility. For the other two classes of explanations, privacy leakage increases with an increase in explanation utility. Finally, we propose a defense based on a randomized response mechanism for releasing the explanations, which substantially reduces the attack success rate. Our code is available at https://github.com/iyempissy/graph-stealing-attacks-with-explanation | 翻訳日:2023-11-03 18:34:12 公開日:2023-11-02 |
# 量子平衡の濃度と繰り返し時間の推定 Concentration of quantum equilibration and an estimate of the recurrence time ( http://arxiv.org/abs/2206.07541v2 ) ライセンス: Link先を確認 | Jonathon Riddell, Nathan Pagliaroli, \'Alvaro M. Alhambra | (参考訳) 一般量子系のダイナミクスは、任意の時間に測定するときに平衡値の周りに集中することを示した。
これは、平衡からそれらを見つける確率が指数関数的に抑制され、有効次元によって減衰速度が与えられることを意味する。
その結果, 繰り返しは平衡状態から離れた状態を見つける稀な事象に対応するため, 量子システムの再帰時間に対する上限を低くすることが可能となった。
多体系では、この境界はシステムサイズにおいて二重指数である。
また,より弱い濃度と早期再発を示す自由フェルミオンについても対応する結果を示した。 We show that the dynamics of generic quantum systems concentrate around their equilibrium value when measuring at arbitrary times. This means that the probability of finding them away from equilibrium is exponentially suppressed, with a decay rate given by the effective dimension. Our result allows us to place a lower bound on the recurrence time of quantum systems, since recurrences corresponds to the rare events of finding a state away from equilibrium. In many-body systems, this bound is doubly exponential in system size. We also show corresponding results for free fermions, which display a weaker concentration and earlier recurrences. | 翻訳日:2023-11-03 18:33:55 公開日:2023-11-02 |
# 因果ホライズンにおける量子コヒーレンスによるホログラフィーの現象 Phenomenology of Holography via Quantum Coherence on Causal Horizons ( http://arxiv.org/abs/2204.12080v3 ) ライセンス: Link先を確認 | Ohkyung Kwon | (参考訳) 初期背景空間におけるホログラフィック量子不確かさの干渉計測に向けた近年の進歩がある。
計画的歪パワースペクトル密度のターゲット検出法への期待は高まっているが、動機付け理論の基礎的洞察は、現実的な実験で測定された観測可能な現象論的モデルとは無関係である。
この研究は、全ての地平線がコヒーレント量子情報の普遍的な境界であるという中央仮説に基づく候補モデルを提案している。
この予測は、地平線上のコヒーレントな状態を与える「t Hooft's algebra for black hole information」にインスパイアされ、その空間的相関は、平らな時空における因果境界のホログラフィックな揺らぎ(等角的キリング地平線)にも現れる。時間領域相関は、コヒーレンススケールが因果ダイヤモンドと一致するプランクアンジッターから予測され、バンクスのフレームワークが時空と局所性の出現を動機付けている。
この因果地平線上のコヒーレンスの普遍性は、コンコーダント・シグネチャを探索するマルチモーダル・リサーチ・プログラム:ホーガンがよく知られたcmb異常をインフレーション地平線上のコヒーレントなゆらぎとして解釈し、フラットな時空で因果ダイヤモンドを探索する今後の3次元干渉計によって動機付けられた原始的相関を調べるための宇宙論的データの解析である。
各設計の周波数スペクトルをモデル化した候補干渉計を提示する。 There is much recent development towards interferometric measurements of holographic quantum uncertainties in an emergent background space-time. Despite increasing promise for the target detection regime of Planckian strain power spectral density, the foundational insights of the motivating theories have not been connected to a phenomenological model of observables measured in a realistic experiment. This work proposes a candidate model, based on the central hypothesis that all horizons are universal boundaries of coherent quantum information -- where the decoherence of space-time happens for the observer. The prediction is inspired by 't Hooft's algebra for black hole information that gives coherent states on horizons, whose spatial correlations were shown by Verlinde and Zurek to also appear on holographic fluctuations of causal boundaries in flat space-time (conformal Killing horizons). Time-domain correlations are projected from Planckian jitters whose coherence scales match causal diamonds, motivated by Banks' framework for the emergence of space-time and locality. The universality of this coherence on causal horizons compels a multimodal research program probing concordant signatures: An analysis of cosmological data to probe primordial correlations, motivated by Hogan's interpretation of well-known CMB anomalies as coherent fluctuations on the inflationary horizon, and upcoming 3D interferometers to probe causal diamonds in flat space-time. Candidate interferometer geometries are presented, with a modeled frequency spectrum for each design. | 翻訳日:2023-11-03 18:33:47 公開日:2023-11-02 |
# EResFD:軽量顔検出における標準畳み込みの有効性の再検討 EResFD: Rediscovery of the Effectiveness of Standard Convolution for Lightweight Face Detection ( http://arxiv.org/abs/2204.01209v3 ) ライセンス: Link先を確認 | Joonhyun Jeong, Beomyoung Kim, Joonsang Yu, Youngjoon Yoo | (参考訳) 本稿では,計算コストと精度を向上する顔検出アーキテクチャの設計選択について分析する。
具体的には、顔検出のための軽量バックボーンアーキテクチャとして、標準畳み込みブロックの有効性を再検討する。
奥行き分離可能な畳み込み層を多用する軽量アーキテクチャ設計の現在の傾向と異なり,同様のパラメータサイズを使用する場合,厚みの深い標準畳み込み層により精度と推論速度が向上することを示す。
この観察は、対象データ領域,顔の特性に関する分析によって支持される。
本稿では,他のモバイルフレンドリーなネットワーク(MobileNetV1,V2,V3)と比較して,驚くほど高い効率性を実現するために,ResNetを高効率チャネルで採用することを提案する。
広範な実験から,提案するバックボーンが最先端の顔検出器をより高速な推定速度で置き換えることができることを示す。
また,検出性能を最大化するための特徴集約手法を提案する。
提案する検出器EResFDは,CPU上でのVGA画像推測に37.7msしか要しないWIDER FACE Hardサブセット上で80.4%のmAPを得た。
コードはhttps://github.com/clovaai/eresfdで入手できる。 This paper analyzes the design choices of face detection architecture that improve efficiency of computation cost and accuracy. Specifically, we re-examine the effectiveness of the standard convolutional block as a lightweight backbone architecture for face detection. Unlike the current tendency of lightweight architecture design, which heavily utilizes depthwise separable convolution layers, we show that heavily channel-pruned standard convolution layers can achieve better accuracy and inference speed when using a similar parameter size. This observation is supported by the analyses concerning the characteristics of the target data domain, faces. Based on our observation, we propose to employ ResNet with a highly reduced channel, which surprisingly allows high efficiency compared to other mobile-friendly networks (e.g., MobileNetV1, V2, V3). From the extensive experiments, we show that the proposed backbone can replace that of the state-of-the-art face detector with a faster inference speed. Also, we further propose a new feature aggregation method to maximize the detection performance. Our proposed detector EResFD obtained 80.4% mAP on WIDER FACE Hard subset which only takes 37.7 ms for VGA image inference on CPU. Code is available at https://github.com/clovaai/EResFD. | 翻訳日:2023-11-03 18:33:12 公開日:2023-11-02 |
# 量子コンピュータにおける量子多体散乱状態の準備 Preparing quantum many-body scar states on quantum computers ( http://arxiv.org/abs/2301.08226v3 ) ライセンス: Link先を確認 | Erik J. Gustafson, Andy C. Y. Li, Abid Khan, Joonho Kim, Doga Murat Kurkcuoglu, M. Sohaib Alam, Peter P. Orth, Armin Rahmani, Thomas Iadecola | (参考訳) 量子多体スカー状態は多体系の非常に励起された固有状態であり、同じエネルギー密度の典型的な固有状態と比較して非定型的な絡み合いと相関性を示す。
スカー状態はまた、システムがそれらと有限重なり合う特別な初期状態に準備されるとき、無限に長寿命のコヒーレントダイナミクスを引き起こす。
正確な傷跡状態を持つ多くのモデルが構築されているが、これらのモデルが摂動している際の傷跡固有状態と力学の運命は、古典的な計算手法で研究することは困難である。
本研究では,量子コンピュータを用いてこの問題を研究するための状態準備プロトコルを提案する。
特定のモデルにおける個々の傷痕状態のプロトコルと、コヒーレントなダイナミクスをもたらすそれらの重ね合わせについて述べる。
スカー状態の重畳には, システムサイズ線形深度ユニタリと有限深さ非単項状態準備プロトコルの両方が提案され, 後者は測定とポストセレクションを用いて回路深度を低減している。
個々のスカーレッド固有状態に対して、準ポリリノミアル深度回路を出力する行列積状態と多項式深度アンサッツ回路による変分アプローチに基づいて正確な状態準備アプローチを定式化する。
また、超伝導量子ハードウェアにおける原理状態準備デモも提供する。 Quantum many-body scar states are highly excited eigenstates of many-body systems that exhibit atypical entanglement and correlation properties relative to typical eigenstates at the same energy density. Scar states also give rise to infinitely long-lived coherent dynamics when the system is prepared in a special initial state having finite overlap with them. Many models with exact scar states have been constructed, but the fate of scarred eigenstates and dynamics when these models are perturbed is difficult to study with classical computational techniques. In this work, we propose state preparation protocols that enable the use of quantum computers to study this question. We present protocols both for individual scar states in a particular model, as well as superpositions of them that give rise to coherent dynamics. For superpositions of scar states, we present both a system-size-linear depth unitary and a finite-depth nonunitary state preparation protocol, the latter of which uses measurement and postselection to reduce the circuit depth. For individual scarred eigenstates, we formulate an exact state preparation approach based on matrix product states that yields quasipolynomial-depth circuits, as well as a variational approach with a polynomial-depth ansatz circuit. We also provide proof of principle state-preparation demonstrations on superconducting quantum hardware. | 翻訳日:2023-11-03 18:25:29 公開日:2023-11-02 |
# デジタル双生児の因果偽造 Causal Falsification of Digital Twins ( http://arxiv.org/abs/2301.07210v4 ) ライセンス: Link先を確認 | Rob Cornish, Muhammad Faaiz Taufiq, Arnaud Doucet, Chris Holmes | (参考訳) デジタルツイン(Digital twins)は、現実世界のプロセスが介入に応じてどのように進化するかを予測する仮想システムである。
このモデリングパラダイムは多くのアプリケーションにおいて大きな可能性を秘めているが、その正確性を評価する厳密な手続きは安全クリティカルな設定に不可欠である。
実世界のデータを用いてデジタル双生児の精度を評価する方法を検討する。
これを因果推論問題として定式化し、双子が多くのアプリケーションに「正しい」ということの意味を正確に定義する。
残念なことに、因果推論による基本的な結果は、この意味で双生児が正しいことを証明するために観測データが使用できないことを意味する。
これらの仮定を避けるために、双子が正しくない状況を見つけることを提案し、そのために汎用的な統計手法を提案する。
我々のアプローチは、観測軌道のデータセットのみを仮定して、ツインに関する情報を信頼性と実用的なものにし、たとえデータが合体したとしても、健全なままである。
ICU患者のMIMIC-IIIデータセットを用いて,Pulse Physiology Engine内での敗血症モデリングを含む大規模実世界のケーススタディに本手法を適用した。 Digital twins are virtual systems designed to predict how a real-world process will evolve in response to interventions. This modelling paradigm holds substantial promise in many applications, but rigorous procedures for assessing their accuracy are essential for safety-critical settings. We consider how to assess the accuracy of a digital twin using real-world data. We formulate this as causal inference problem, which leads to a precise definition of what it means for a twin to be "correct" appropriate for many applications. Unfortunately, fundamental results from causal inference mean observational data cannot be used to certify that a twin is correct in this sense unless potentially tenuous assumptions are made, such as that the data are unconfounded. To avoid these assumptions, we propose instead to find situations in which the twin is not correct, and present a general-purpose statistical procedure for doing so. Our approach yields reliable and actionable information about the twin under only the assumption of an i.i.d. dataset of observational trajectories, and remains sound even if the data are confounded. We apply our methodology to a large-scale, real-world case study involving sepsis modelling within the Pulse Physiology Engine, which we assess using the MIMIC-III dataset of ICU patients. | 翻訳日:2023-11-03 18:25:03 公開日:2023-11-02 |
# 定数係数を持つ線形偏微分方程式系のガウス過程優先 Gaussian Process Priors for Systems of Linear Partial Differential Equations with Constant Coefficients ( http://arxiv.org/abs/2212.14319v4 ) ライセンス: Link先を確認 | Marc H\"ark\"onen, Markus Lange-Hegermann, Bogdan Rai\c{t}\u{a} | (参考訳) 偏微分方程式(PDE)は物理システムをモデル化するための重要なツールであり、それらを機械学習モデルに含めることは物理知識を組み込む重要な方法である。
定数係数の線形PDE系の任意の系が与えられたとき、我々はガウス過程(GP)先行系の族を提案し、これをEPGPと呼び、すべての実現がこの系の正確な解である。
非線形フーリエ変換として働くehrenpreis-palamodov基本原理を適用し、gpsの標準スペクトル法を反映するgpカーネルを構築する。
提案手法は,ノイズ測定や初期値,境界値などのデータから線形PDEシステムの確率解を推定できる。
EPGPプライヤの構築はアルゴリズム的であり、一般に適用可能であり、関連するスペクトル周波数を学習し、ビッグデータに対してよりうまく機能するスパースバージョン(S-EPGP)が付属している。
我々はPDEの3種類の系、熱方程式、波動方程式、マクスウェル方程式について、いくつかの実験において計算時間と精度における技術の状態を改善する方法を示す。 Partial differential equations (PDEs) are important tools to model physical systems and including them into machine learning models is an important way of incorporating physical knowledge. Given any system of linear PDEs with constant coefficients, we propose a family of Gaussian process (GP) priors, which we call EPGP, such that all realizations are exact solutions of this system. We apply the Ehrenpreis-Palamodov fundamental principle, which works as a non-linear Fourier transform, to construct GP kernels mirroring standard spectral methods for GPs. Our approach can infer probable solutions of linear PDE systems from any data such as noisy measurements, or pointwise defined initial and boundary conditions. Constructing EPGP-priors is algorithmic, generally applicable, and comes with a sparse version (S-EPGP) that learns the relevant spectral frequencies and works better for big data sets. We demonstrate our approach on three families of systems of PDEs, the heat equation, wave equation, and Maxwell's equations, where we improve upon the state of the art in computation time and precision, in some experiments by several orders of magnitude. | 翻訳日:2023-11-03 18:24:40 公開日:2023-11-02 |
# ベイズネットワークのインバージョン Inversion of Bayesian Networks ( http://arxiv.org/abs/2212.10649v2 ) ライセンス: Link先を確認 | Jesse van Oostrum, Peter van Hintum, Nihat Ay | (参考訳) 変分オートエンコーダとヘルムホルツマシンは認識ネットワーク(encoder)を使用して生成モデル(decoder)の後方分布を近似する。
本稿では,認識ネットワークの真の後方分布を正確にモデル化するために必要かつ十分な特性について検討する。
これらの結果は確率的グラフィカルモデリング/ベイジアンネットワークの一般的な文脈で導出され、ネットワークは条件付き独立文の集合を表す。
我々は、d分離の観点からのグローバル条件と、認識ネットワークが望ましい品質を持つための局所条件の両方を導出する。
局所的な条件では、プロパティ完全性(すべてのノードにおいて、すべての親が参加する)が重要な役割を果たす。 Variational autoencoders and Helmholtz machines use a recognition network (encoder) to approximate the posterior distribution of a generative model (decoder). In this paper we study the necessary and sufficient properties of a recognition network so that it can model the true posterior distribution exactly. These results are derived in the general context of probabilistic graphical modelling / Bayesian networks, for which the network represents a set of conditional independence statements. We derive both global conditions, in terms of d-separation, and local conditions for the recognition network to have the desired qualities. It turns out that for the local conditions the property perfectness (for every node, all parents are joined) plays an important role. | 翻訳日:2023-11-03 18:24:18 公開日:2023-11-02 |
# 情報ゲインを符号化する単語埋め込みの規範 Norm of Word Embedding Encodes Information Gain ( http://arxiv.org/abs/2212.09663v3 ) ライセンス: Link先を確認 | Momose Oyama, Sho Yokoi, Hidetoshi Shimodaira | (参考訳) 単語の分散表現は語彙意味情報をエンコードするが、どのような情報をエンコードしてどのようにするか?
負サンプル法によるスキップグラムに着目し,静的単語埋め込みの2乗ノルムは単語が伝達する情報ゲインを符号化し,その情報ゲインは単語の共起分布からユニグラム分布へのKullback-Leibler分散によって定義される。
本研究は,確率分布の指数関数系の理論的枠組みによって説明され,単語頻度による素因相関を除去する精密な実験によって確認された。
この理論はまた、言語モデルやsoftmax出力層を持つニューラルネットワークにコンテキスト化された単語埋め込みにも拡張される。
また,klの発散と埋め込みの2乗ノルムは,キーワード抽出,固有名詞識別,ハイパーニム識別といったタスクにおいて,単語の有意性を示す有用な指標となることを示す。 Distributed representations of words encode lexical semantic information, but what type of information is encoded and how? Focusing on the skip-gram with negative-sampling method, we found that the squared norm of static word embedding encodes the information gain conveyed by the word; the information gain is defined by the Kullback-Leibler divergence of the co-occurrence distribution of the word to the unigram distribution. Our findings are explained by the theoretical framework of the exponential family of probability distributions and confirmed through precise experiments that remove spurious correlations arising from word frequency. This theory also extends to contextualized word embeddings in language models or any neural networks with the softmax output layer. We also demonstrate that both the KL divergence and the squared norm of embedding provide a useful metric of the informativeness of a word in tasks such as keyword extraction, proper-noun discrimination, and hypernym discrimination. | 翻訳日:2023-11-03 18:24:06 公開日:2023-11-02 |
# 時間依存ハミルトニアンに対する最小ロータライズ公式 Minimum Trotterization Formulas for a Time-Dependent Hamiltonian ( http://arxiv.org/abs/2212.06788v4 ) ライセンス: Link先を確認 | Tatsuhiko N. Ikeda, Asir Abrar, Isaac L. Chuang, Sho Sugiura | (参考訳) 時間プロパゲータ $e^{\delta t A}$ for duration $\delta t$ が2つの非可換部分 $A=X+Y$ からなるとき、トロッタ化はプロパゲータを約$X$ と $Y$ の指数関数の積に分解する。
量子コンピュータや古典コンピュータでは様々なトロッター化公式が用いられているが、時間依存のジェネレータである$A(t)$のトロッター化公式ではあまり知られていない。
ここで、2つの演算子の和で与えられる$a(t)$ と$y$ と時間依存係数 $a(t) = x(t) x + y(t) y$ に対して、最小可能な指数関数を持つ高次ロータライズ公式を導出するための体系的アプローチを開発する。
特に, 時間非依存生成器の4次および6次ロータライズ公式は, それぞれ 7 および 15 個の指数関数を含む。
また、誤差係数が小さい9つの指数関数からなる別の4次の公式を構築する。
最後に,量子イジングチェーンのハミルトニアンシミュレーションにおいて4次公式を数値的にベンチマークし,よく知られたスズキ公式よりも局所量子ゲート当たりの誤差が小さいことを示す。 When a time propagator $e^{\delta t A}$ for duration $\delta t$ consists of two noncommuting parts $A=X+Y$, Trotterization approximately decomposes the propagator into a product of exponentials of $X$ and $Y$. Various Trotterization formulas have been utilized in quantum and classical computers, but much less is known for the Trotterization with the time-dependent generator $A(t)$. Here, for $A(t)$ given by the sum of two operators $X$ and $Y$ with time-dependent coefficients $A(t) = x(t) X + y(t) Y$, we develop a systematic approach to derive high-order Trotterization formulas with minimum possible exponentials. In particular, we obtain fourth-order and sixth-order Trotterization formulas involving seven and fifteen exponentials, respectively, which are no more than those for time-independent generators. We also construct another fourth-order formula consisting of nine exponentials having a smaller error coefficient. Finally, we numerically benchmark the fourth-order formulas in a Hamiltonian simulation for a quantum Ising chain, showing that the 9-exponential formula accompanies smaller errors per local quantum gate than the well-known Suzuki formula. | 翻訳日:2023-11-03 18:23:27 公開日:2023-11-02 |
# PyPop7: 人口ベースのブラックボックス最適化のためのピュアPythonライブラリ PyPop7: A Pure-Python Library for Population-Based Black-Box Optimization ( http://arxiv.org/abs/2212.05652v3 ) ライセンス: Link先を確認 | Qiqi Duan, Guochen Zhou, Chang Shao, Zhuowei Wang, Mingyang Feng, Yijun Yang, Qi Zhao, Yuhui Shi | (参考訳) 本稿では,black-box optimization(bbo)用のpypop7という純粋pythonライブラリを提案する。
bboでは人口ベースのメソッドがますます普及していますが、私たちの設計目標は統合apiとエレガントな実装を提供することです。
個体群に基づく手法はランダムなサンプリングの性質によって次元の呪いに苦しむため、空間分解、低メモリ近似、低ランクメトリック学習、分散還元、ランダム部分空間のアンサンブル、モデル自己適応、スムージングといった可能な問題構造を活用し、この問題を緩和するために様々な改良が提案されている。
現在pypop7は、異なる研究コミュニティの13のbboアルゴリズムファミリの$72$バージョンと変種でこれらの進歩をカバーしている。
オープンソースのコードと本格的なドキュメントは、それぞれhttps://github.com/evolutionary-intelligence/pypopとhttps://pypop.readthedocs.ioで入手できる。 In this paper, we present a pure-Python library called PyPop7 for black-box optimization (BBO). As population-based methods are becoming increasingly popular for BBO, our design goal is to provide a unified API and elegant implementations for them, particularly in high-dimensional cases. Since population-based methods suffer easily from the curse of dimensionality owing to their random sampling nature, various improvements have been proposed to alleviate this issue via exploiting possible problem structures: such as space decomposition, low-memory approximation, low-rank metric learning, variance reduction, ensemble of random subspaces, model self-adaptation, and smoothing. Now PyPop7 has covered these advances with $>72$ versions and variants of 13 BBO algorithm families from different research communities. Its open-source code and full-fledged documents are available at https://github.com/Evolutionary-Intelligence/pypop and https://pypop.readthedocs.io, respectively. | 翻訳日:2023-11-03 18:23:00 公開日:2023-11-02 |
# 平均アンサンブルを超える - サブシーズン予測のための気候モデルアンサンブルの活用 Beyond Ensemble Averages: Leveraging Climate Model Ensembles for Subseasonal Forecasting ( http://arxiv.org/abs/2211.15856v2 ) ライセンス: Link先を確認 | Elena Orlova, Haokun Liu, Raphael Rossellini, Benjamin Cash, Rebecca Willett | (参考訳) 温暖化や降水などの重要な気候変数の季節下時間スケールにおける高品質な予測は、長年にわたって運用予測のギャップであった。
最近の研究では、機械学習(ML)モデルを用いて、サブシーズン予測(SSF)を推し進める有望な結果が示されているが、いくつかのオープンな疑問が残っている。
第一に、いくつかの過去のアプローチでは、これらのモデルの入力特徴として物理学に基づく予測のアンサンブル平均を用いる。
しかし、アンサンブル予測にはアンサンブル平均以上の予測に役立つ情報が含まれている。
第二に、過去の手法は平均的な性能に焦点を当ててきたが、極端な事象の予測は計画や緩和のためにはるかに重要である。
第三に、気候予測は空間的に変化する予測の集合に対応し、異なる手法は応答の空間的変動を異なる方法で説明する。
異なるアプローチ間のトレードオフは、モデル積み重ねによって緩和される可能性がある。
本稿では, 月平均降水量と2メートル温度を予測するためのML手法を, 物理に基づく予測(アンサンブル予測)と, 相対湿度, 海面圧力, 地磁気高度などの観測データを用いて, 大陸全体の2週間前から適用した。
線形モデル,ランダムフォレスト,畳み込みニューラルネットワーク,重ね合わせモデルを用いた回帰,質的回帰,三次分類タスクについて考察した。
提案手法は, 歴史的平均値(quantiles)やアンサンブル平均値(quantiles)など, 一般的なベースラインを上回っている。
本稿ではさらに,特徴量の重要性,全アンサンブルの使用とアンサンブル平均のみの使用のトレードオフ,空間変動の計算方法の相違について検討する。 Producing high-quality forecasts of key climate variables such as temperature and precipitation on subseasonal time scales has long been a gap in operational forecasting. Recent studies have shown promising results using machine learning (ML) models to advance subseasonal forecasting (SSF), but several open questions remain. First, several past approaches use the average of an ensemble of physics-based forecasts as an input feature of these models. However, ensemble forecasts contain information that can aid prediction beyond only the ensemble mean. Second, past methods have focused on average performance, whereas forecasts of extreme events are far more important for planning and mitigation purposes. Third, climate forecasts correspond to a spatially-varying collection of forecasts, and different methods account for spatial variability in the response differently. Trade-offs between different approaches may be mitigated with model stacking. This paper describes the application of a variety of ML methods used to predict monthly average precipitation and two meter temperature using physics-based predictions (ensemble forecasts) and observational data such as relative humidity, pressure at sea level, or geopotential height, two weeks in advance for the whole continental United States. Regression, quantile regression, and tercile classification tasks using linear models, random forests, convolutional neural networks, and stacked models are considered. The proposed models outperform common baselines such as historical averages (or quantiles) and ensemble averages (or quantiles). This paper further includes an investigation of feature importance, trade-offs between using the full ensemble or only the ensemble average, and different modes of accounting for spatial variability. | 翻訳日:2023-11-03 18:22:43 公開日:2023-11-02 |
# 時系列予測における改良HPOの階層的プロキシモデリング Hierarchical Proxy Modeling for Improved HPO in Time Series Forecasting ( http://arxiv.org/abs/2211.15092v2 ) ライセンス: Link先を確認 | Arindam Jati, Vijay Ekambaram, Shaonli Pal, Brian Quanz, Wesley M. Gifford, Pavithra Harsha, Stuart Siegel, Sumanta Mukherjee, Chandra Narayanaswami | (参考訳) 時系列予測では、ハイパーパラメータの適切なセットを選択することが不可欠である。
ハイパーパラメータ最適化(HPO)のための古典的な時間的クロスバリデーションフレームワークは、検証とテスト期間のミスマッチが可能なため、テストパフォーマンスが低下することが多い。
このテスト検証ミスマッチに対処するために,時系列データセットに関連するデータ階層を活用し,テストプロキシを介してhpoを駆動する新しい手法であるh-proを提案する。
高水準の集約時系列は、ばらばらで断続的な低レベル時系列と比較して、不規則さや予測可能性が低いことが多いため、高レベルの予測者から生成されたテスト期間に対するプロキシ予測を利用して、低レベルのベースフォアキャスターのハイパーパラメータを最適化する。
H-Proは市販の機械学習モデルにも適用でき、HPOを実行することができる。
提案手法の有効性を,5つの公開階層型予測データセットに対して実験的に検証した。
提案手法は,ツーリズム,ウィキ,トラヒックの既存の最先端手法よりも優れており,モデル固有の拡張を伴わずに,ツーリズムLデータセットの競合的な結果が得られる。
さらに,本手法は,M5予測精度競争の勝率よりも優れていた。 Selecting the right set of hyperparameters is crucial in time series forecasting. The classical temporal cross-validation framework for hyperparameter optimization (HPO) often leads to poor test performance because of a possible mismatch between validation and test periods. To address this test-validation mismatch, we propose a novel technique, H-Pro to drive HPO via test proxies by exploiting data hierarchies often associated with time series datasets. Since higher-level aggregated time series often show less irregularity and better predictability as compared to the lowest-level time series which can be sparse and intermittent, we optimize the hyperparameters of the lowest-level base-forecaster by leveraging the proxy forecasts for the test period generated from the forecasters at higher levels. H-Pro can be applied on any off-the-shelf machine learning model to perform HPO. We validate the efficacy of our technique with extensive empirical evaluation on five publicly available hierarchical forecasting datasets. Our approach outperforms existing state-of-the-art methods in Tourism, Wiki, and Traffic datasets, and achieves competitive result in Tourism-L dataset, without any model-specific enhancements. Moreover, our method outperforms the winning method of the M5 forecast accuracy competition. | 翻訳日:2023-11-03 18:22:13 公開日:2023-11-02 |
# スタイン変分勾配降下のための有限粒子収束速度 A Finite-Particle Convergence Rate for Stein Variational Gradient Descent ( http://arxiv.org/abs/2211.09721v5 ) ライセンス: Link先を確認 | Jiaxin Shi and Lester Mackey | (参考訳) 粒子の集合で確率分布を近似する一般的なアルゴリズムであるスタイン変分勾配降下(SVGD)に対する最初の有限粒子収束速度を提供する。
具体的には、ターゲット分布がリプシッツスコアのサブガウジアンである場合、n個の粒子と適切なステップサイズシーケンスを持つsvgdは、カーネルスタインの不一致を1/sqrt(log log n)レートでゼロにする。
n への依存度が向上し、我々の明示的で非漸近的な証明戦略が将来の改良のテンプレートになることを期待している。 We provide the first finite-particle convergence rate for Stein variational gradient descent (SVGD), a popular algorithm for approximating a probability distribution with a collection of particles. Specifically, whenever the target distribution is sub-Gaussian with a Lipschitz score, SVGD with n particles and an appropriate step size sequence drives the kernel Stein discrepancy to zero at an order 1/sqrt(log log n) rate. We suspect that the dependence on n can be improved, and we hope that our explicit, non-asymptotic proof strategy will serve as a template for future refinements. | 翻訳日:2023-11-03 18:21:52 公開日:2023-11-02 |
# 自動栄養の活用:栄養分類に基づく食品画像認識ベンチマークとデータセット Leveraging Automatic Personalised Nutrition: Food Image Recognition Benchmark and Dataset based on Nutrition Taxonomy ( http://arxiv.org/abs/2211.07440v3 ) ライセンス: Link先を確認 | Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Julian Fierrez, Ruben Vera-Rodriguez, Isabel Espinosa-Salinas, Gala Freixer, Enrique Carrillo de Santa Pau, Ana Ram\'irez de Molina and Javier Ortega-Garcia | (参考訳) 健康的な生活様式の維持は、食生活の劣悪さを特徴とする現代の定住社会でますます困難になっている。
この問題に対処するため、国内および国際機関は、健康的な食事の促進と身体活動の向上に多くの努力を払ってきた。
しかし、これらの推奨事項を日常生活で実施することは困難であり、しばしば汎用的であり、個人に合わせたものではない。
本研究は,食品画像と栄養分類を取り入れた初の栄養データベースであるAI4Food-NutritionDBデータベースを提案する。
このデータベースは6つの栄養レベル、19の主要なカテゴリ(例えば「肉」)、73のサブカテゴリ(例えば「白肉」)、893の特定食品(例えば「鶏肉」)からなる多段階の分類を提供している。
AI4Food-NutritionDBは、食品の摂取頻度、品質、分類の観点から、新しい食品コンピューティングアプローチへの扉を開く。
また,栄養分類(カテゴリー,サブカテゴリ,最終製品認識)に基づく3つのタスクを含む標準化実験プロトコルとベンチマークを提案する。
これらのリソースは研究コミュニティに提供されており、ai4food-nutritiondbでトレーニングされたディープラーニングモデルが含まれています。 Maintaining a healthy lifestyle has become increasingly challenging in today's sedentary society marked by poor eating habits. To address this issue, both national and international organisations have made numerous efforts to promote healthier diets and increased physical activity. However, implementing these recommendations in daily life can be difficult, as they are often generic and not tailored to individuals. This study presents the AI4Food-NutritionDB database, the first nutrition database that incorporates food images and a nutrition taxonomy based on recommendations by national and international health authorities. The database offers a multi-level categorisation, comprising 6 nutritional levels, 19 main categories (e.g., "Meat"), 73 subcategories (e.g., "White Meat"), and 893 specific food products (e.g., "Chicken"). The AI4Food-NutritionDB opens the doors to new food computing approaches in terms of food intake frequency, quality, and categorisation. Also, we present a standardised experimental protocol and benchmark including three tasks based on the nutrition taxonomy (i.e., category, subcategory, and final product recognition). These resources are available to the research community, including our deep learning models trained on AI4Food-NutritionDB, which can serve as pre-trained models, achieving accurate recognition results for challenging food image databases. | 翻訳日:2023-11-03 18:21:37 公開日:2023-11-02 |
# セルフアテンションマトリクスを活用した単語移動距離の改善 Improving word mover's distance by leveraging self-attention matrix ( http://arxiv.org/abs/2211.06229v2 ) ライセンス: Link先を確認 | Hiroaki Yamagiwa, Sho Yokoi, Hidetoshi Shimodaira | (参考訳) 2つの文間の意味的類似性を測定することは依然として重要な課題である。
単語移動器距離 (WMD) は単語埋め込みの集合間の最適アライメントによって類似性を計算する。
しかし、wmdは単語の順序を使わないため、意味的に非常に異なる場合であっても、類似した単語が重なり合う文章を区別することが困難である。
本稿では,BERT の自己認識行列 (SAM) で表される文構造を組み込んで WMD の改善を試みる。
提案手法は,単語の埋め込みの類似性を同時に考慮したFused Gromov-Wasserstein距離と,2つの文間の最適な移動を計算するSAMに基づく。
提案手法は, 意味的テキストの類似性にほぼ等価な性能を持つパラフレーズ識別において, WMDとその変種を向上することを示す。
我々のコードは \url{https://github.com/ymgw55/WSMD} で入手できる。 Measuring the semantic similarity between two sentences is still an important task. The word mover's distance (WMD) computes the similarity via the optimal alignment between the sets of word embeddings. However, WMD does not utilize word order, making it challenging to distinguish sentences with significant overlaps of similar words, even if they are semantically very different. Here, we attempt to improve WMD by incorporating the sentence structure represented by BERT's self-attention matrix (SAM). The proposed method is based on the Fused Gromov-Wasserstein distance, which simultaneously considers the similarity of the word embedding and the SAM for calculating the optimal transport between two sentences. Experiments demonstrate the proposed method enhances WMD and its variants in paraphrase identification with near-equivalent performance in semantic textual similarity. Our code is available at \url{https://github.com/ymgw55/WSMD}. | 翻訳日:2023-11-03 18:21:14 公開日:2023-11-02 |
# 運動量空間におけるヒルベルト空間の断片化から生じる永続電流状態 Persistent-current states originating from the Hilbert space fragmentation in momentum space ( http://arxiv.org/abs/2211.00785v4 ) ライセンス: Link先を確認 | Masaya Kunimi and Ippei Danshita | (参考訳) ヒルベルト空間フラグメンテーション (Hilbert space fragmentation, HSF) は、孤立量子系のヒルベルト空間が指数的に多くの非連結部分集合に分裂する現象である。
分裂した系は、ダイナミクスが小さなサブセクタに制限されるため、長期間の進化の後に熱化することはない。
HSFの最近の発展に触発されて、運動量空間において HSF を示すハミルトニアンを構成する。
運動量空間のHSFにより、持続電流(PC)状態が出現することを示す。
また,hsfの構造を破る確率ポテンシャルに対するpc状態の安定性についても検討し,pcの減衰速度が電流速度にほぼ依存していることを見いだした。 Hilbert space fragmentation (HSF) is a phenomenon that the Hilbert space of an isolated quantum system splits into exponentially many disconnected subsectors. The fragmented systems do not thermalize after long-time evolution because the dynamics are restricted to a small subsector. Inspired by recent developments of the HSF, we construct the Hamiltonian that exhibits the HSF in the momentum space. We show that persistent-current (PC) states emerge due to the HSF in the momentum space. We also investigate the stability of the PC states against the random potential, which breaks the structure of the HSF, and find that the decay rate of the PC is almost independent of the current velocity. | 翻訳日:2023-11-03 18:20:59 公開日:2023-11-02 |
# トポロジカル転位モードの動的融解と凝縮 Dynamic melting and condensation of topological dislocation modes ( http://arxiv.org/abs/2210.15661v2 ) ライセンス: Link先を確認 | Sanjib Kumar Das and Bitan Roy | (参考訳) バルク転位格子欠陥は、有限運動量({\bf K}_{\rm inv}$)で帯域反転を特徴とする翻訳活性なトポロジカル絶縁体(TATI)の同定に有効である。
このように、tatisは、関連するバーガーズベクトル ${\bf b}$ が${\bf k}_{\rm inv} \cdot {\bf b}=\pi$ (modulo $2 \pi$)を満たすとき、転位コアの周りに頑健なギャップレスモードをホストする。
適切な密度行列の時間進化から,リアルタイムランプを経由したTATIが自明あるいは不活性なトポロジカル絶縁相に入ると,空隙のない転位モードがなくなると,プリランプ欠陥モードのシグネチャは長期間持続することを示す。
さらに興味深いのは、翻訳に不活性な絶縁体からtatiフェーズに入ると、転位モードのシグネチャがコア付近に動的に形成され、スローランプで顕著である。
二次元時間反転対称性破壊絶縁体に対するこれらの一般的な結果を例示する。
転位コアでの動的応答は、波長可変バンドギャップを持つ量子結晶、光学格子、メタマテリアルにおいて実験的に観察することができる。 Bulk dislocation lattice defects are instrumental in identifying translationally active topological insulators (TATIs), featuring band inversion at a finite momentum (${\bf K}_{\rm inv}$). As such, TATIs host robust gapless modes around the dislocation core, when the associated Burgers vector ${\bf b}$ satisfies ${\bf K}_{\rm inv} \cdot {\bf b}=\pi$ (modulo $2 \pi$). From the time evolution of appropriate density matrices, we show that when a TATI via a real time ramp enters into a trivial or translationally inert topological insulating phase, devoid of gapless dislocation modes, the signatures of the preramp defect modes survive for a long time. More intriguingly, as the system ramps into a TATI phase from any translationally inert insulator, signature of the dislocation mode dynamically builds up near its core, which is prominent for slow ramps. We exemplify these generic outcomes for two-dimensional time-reversal symmetry breaking insulators. Proposed dynamic responses at the dislocation core can be experimentally observed in quantum crystals, optical lattices and metamaterials with time a tunable band gap. | 翻訳日:2023-11-03 18:20:47 公開日:2023-11-02 |
# マグノン量子系におけるマグノン遮断 Magnon blockade in magnon-qubit systems ( http://arxiv.org/abs/2303.13823v2 ) ライセンス: Link先を確認 | Zhu-yao Jin and Jun Jing | (参考訳) マグノンモードと超伝導トランスモンキュービットとの直接相互作用によって確立されたハイブリッドシステムを用いて、マグノンの高次遮断を実現する。
これは単一のマグノンのレベルで量子操作を行い、単一のマグノン源を合成する基本的な方法である。
magnon と qubit の相互結合強度が qubit と probing field のデチューニング、あるいは magnon と drive field のデチューニングと等価である場合、magnon-blockade の提案は、magnon と qubit の相互結合強度を最適化することができる。
この条件下では、等時二階相関関数 $g^{(2)}(0)$ は、探索強度が駆動強度の約3倍であるときに解析的に最小化することができる。
さらに、キャビティqedとキャビティオプティオプティメカニクスの現在のシステムの範囲外である適切な駆動強度とシステム減衰率によってマグノン封鎖をさらに強化することができた。
特に相関関数は、キャビティ光学系における光子遮断に対して約2桁低い$g^{(2)}(0)\sim10^{-7}$となる。
また、熱雑音による$g^{(2)}(0)$の効果と、マグノンとクビットの間の超長手相互作用についても論じる。
この非理想的状況下では, 封鎖の最適化条件が持続していることが判明した。 A hybrid system established by the direct interaction between a magnon mode and a superconducting transmon qubit is used to realize a high-degree blockade for magnon. It is a fundamental way toward quantum manipulation at the level of a single magnon and preparation of single magnon sources. Through weakly driving the magnon and probing the qubit, our magnon-blockade proposal can be optimized when the transversal coupling strength between the magnon and qubit is equivalent to the detuning of the qubit and the probing field or that of the magnon and the driving field. Under this condition, the equal-time second-order correlation function $g^{(2)}(0)$ can be analytically minimized when the probing intensity is about three times the driving intensity. Moreover, the magnon blockade could be further enhanced by proper driving intensity and system decay rate, whose magnitudes outrange the current systems of cavity QED and cavity optomechanics. In particular, the correlation function achieves $g^{(2)}(0)\sim10^{-7}$, about two orders lower than that for the photon blockade in cavity optomechanics. Also, we discuss the effects on $g^{(2)}(0)$ from thermal noise and the extra longitudinal interaction between the magnon and qubit. Our optimized conditions for blockade are found to persist in these nonideal situations. | 翻訳日:2023-11-03 18:13:30 公開日:2023-11-02 |
# ホップフィールドネットワークを用いた時系列の共形予測 Conformal Prediction for Time Series with Modern Hopfield Networks ( http://arxiv.org/abs/2303.12783v2 ) ライセンス: Link先を確認 | Andreas Auer, Martin Gauch, Daniel Klotz, Sepp Hochreiter | (参考訳) 不確かさを定量化するために、コンフォメーション予測手法は継続的に関心を集めており、既に様々な領域に適用されている。
しかし、時系列の自己相関構造が共形予測に必要な基本的な仮定に反するため、時系列に適用することは困難である。
本稿では,時間構造に対処するだけでなく,それらを活用する時系列の共形予測手法であるHopCPTを提案する。
我々は,時間的依存関係が存在する時系列に対して理論的に妥当であることを示す。
実験では、4つの異なる領域の複数の実世界の時系列データセットにおいて、新しいアプローチが最先端のコンフォメーション予測手法より優れていることを示す。 To quantify uncertainty, conformal prediction methods are gaining continuously more interest and have already been successfully applied to various domains. However, they are difficult to apply to time series as the autocorrelative structure of time series violates basic assumptions required by conformal prediction. We propose HopCPT, a novel conformal prediction approach for time series that not only copes with temporal structures but leverages them. We show that our approach is theoretically well justified for time series where temporal dependencies are present. In experiments, we demonstrate that our new approach outperforms state-of-the-art conformal prediction methods on multiple real-world time series datasets from four different domains. | 翻訳日:2023-11-03 18:13:06 公開日:2023-11-02 |
# ゼロショットアノテーションオブジェクト検出のための効率的な特徴蒸留 Efficient Feature Distillation for Zero-shot Annotation Object Detection ( http://arxiv.org/abs/2303.12145v4 ) ライセンス: Link先を確認 | Zhuoming Liu, Xuefeng Hu, Ram Nevatia | (参考訳) 本稿では,ゼロショットアノテーションオブジェクト検出(zad)と呼ばれる未知のオブジェクトを検出するための新しい設定を提案する。
ゼロショットオブジェクト検出設定を拡張し、トレーニング画像に新しいオブジェクトが存在できるようにし、検出器が使用する追加情報を新しいカテゴリ名に制限する。
近年、見えない物体を検出するために、大規模視覚言語モデル(例えばCLIP)が様々な方法で活用されている。
蒸留ベースの方法は全体的な性能は良好であるが、2つの要因により長い訓練スケジュールに苦しむ。
第一に、既存の作品は、新しいカテゴリ情報の蒸留を制限する基本カテゴリに偏った蒸留領域を作成する。
第2に,クリップの生特徴を蒸留に直接使用すると,クリップのトレーニングデータと検出データセットとの領域ギャップが無視されるため,画像領域から視覚言語特徴空間へのマッピングを学ぶのが困難になる。
これらの問題を解決するために,ゼロショットアノテーションオブジェクト検出(ezad)のための効率的な機能蒸留を提案する。
第一に、EZADはCLIPを再正規化することでCLIPの特徴空間をターゲット検出領域に適応させ、第二に、EZADはCLIPを使用して、潜在的に新しいカテゴリ名を持つ蒸留提案を生成し、基本カテゴリに過度に偏っているのを避ける。
最後に、EZADは回帰のセマンティックな意味を利用して、モデルの性能をさらに改善します。
その結果、EZADは従来のCOCO蒸留法を4%上回り、トレーニングスケジュールはずっと短く、LVISデータセットでは3%改善されている。
私たちのコードはhttps://github.com/dragonlzm/EZADで利用可能です。 We propose a new setting for detecting unseen objects called Zero-shot Annotation object Detection (ZAD). It expands the zero-shot object detection setting by allowing the novel objects to exist in the training images and restricts the additional information the detector uses to novel category names. Recently, to detect unseen objects, large-scale vision-language models (e.g., CLIP) are leveraged by different methods. The distillation-based methods have good overall performance but suffer from a long training schedule caused by two factors. First, existing work creates distillation regions biased to the base categories, which limits the distillation of novel category information. Second, directly using the raw feature from CLIP for distillation neglects the domain gap between the training data of CLIP and the detection datasets, which makes it difficult to learn the mapping from the image region to the vision-language feature space. To solve these problems, we propose Efficient feature distillation for Zero-shot Annotation object Detection (EZAD). Firstly, EZAD adapts the CLIP's feature space to the target detection domain by re-normalizing CLIP; Secondly, EZAD uses CLIP to generate distillation proposals with potential novel category names to avoid the distillation being overly biased toward the base categories. Finally, EZAD takes advantage of semantic meaning for regression to further improve the model performance. As a result, EZAD outperforms the previous distillation-based methods in COCO by 4% with a much shorter training schedule and achieves a 3% improvement on the LVIS dataset. Our code is available at https://github.com/dragonlzm/EZAD | 翻訳日:2023-11-03 18:12:56 公開日:2023-11-02 |
# SIESTA: 睡眠を伴う効果的なオンライン連続学習 SIESTA: Efficient Online Continual Learning with Sleep ( http://arxiv.org/abs/2303.10725v3 ) ライセンス: Link先を確認 | Md Yousuf Harun, Jhair Gallardo, Tyler L. Hayes, Ronald Kemker, Christopher Kanan | (参考訳) 教師付き連続学習では、成長を続けるデータストリームでディープニューラルネットワーク(DNN)が更新される。
データがシャッフルされるオフライン設定とは異なり、データストリームに関する分散的な仮定はできません。
理想的には、計算効率のためにデータセットを通過するのは1つだけです。
しかし、既存の手法は不十分であり、現実のアプリケーションでは実現できない多くの仮定を下し、同時に計算効率の改善に失敗する。
本稿では,学習のためのwake/sleepフレームワークに基づく,デバイス上での学習ニーズに合致した新しい連続学習手法siestaを提案する。
SIESTAの主な目標は、DNNをはるかに少ない時間とエネルギーで効率的に更新できるように、計算効率のよい連続学習を進めることである。
SIESTAの主な革新は次のとおりである。
1)リハーサルフリー,バックプロパゲーションフリー,データ駆動型ネットワーク更新ルールによるオンライン更新の迅速化,及び
2) 睡眠時, 計算制限型リハーサルポリシーを用いた記憶強化の迅速化。
メモリ効率のために、SIESTAはREMINDのメモリインデックスを使用して潜時リハーサルを適応する。
REMINDや先行技術と比較して、SIESTAははるかに計算効率が良く、1つのGPUでImageNet-1Kで2時間未満で連続的な学習を可能にする。 In supervised continual learning, a deep neural network (DNN) is updated with an ever-growing data stream. Unlike the offline setting where data is shuffled, we cannot make any distributional assumptions about the data stream. Ideally, only one pass through the dataset is needed for computational efficiency. However, existing methods are inadequate and make many assumptions that cannot be made for real-world applications, while simultaneously failing to improve computational efficiency. In this paper, we propose a novel continual learning method, SIESTA based on wake/sleep framework for training, which is well aligned to the needs of on-device learning. The major goal of SIESTA is to advance compute efficient continual learning so that DNNs can be updated efficiently using far less time and energy. The principal innovations of SIESTA are: 1) rapid online updates using a rehearsal-free, backpropagation-free, and data-driven network update rule during its wake phase, and 2) expedited memory consolidation using a compute-restricted rehearsal policy during its sleep phase. For memory efficiency, SIESTA adapts latent rehearsal using memory indexing from REMIND. Compared to REMIND and prior arts, SIESTA is far more computationally efficient, enabling continual learning on ImageNet-1K in under 2 hours on a single GPU; moreover, in the augmentation-free setting it matches the performance of the offline learner, a milestone critical to driving adoption of continual learning in real-world applications. | 翻訳日:2023-11-03 18:12:25 公開日:2023-11-02 |
# 深部オフライン強化学習を用いた全身麻酔中の安全なプロポフォール投与に向けて Towards Safe Propofol Dosing during General Anesthesia Using Deep Offline Reinforcement Learning ( http://arxiv.org/abs/2303.10180v2 ) ライセンス: Link先を確認 | Xiuding Cai, Jiao Chen, Yaoyao Zhu, Beimin Wang, Yu Yao | (参考訳) 自動麻酔は、より正確でパーソナライズされた麻酔管理を可能にし、麻酔医を反復的な作業から解放し、患者の外科的治療の最も重要な側面に焦点を合わせることを約束する。
現在の研究は、エージェントが学習できるシミュレーション環境を作ることに重点を置いている。
これらのアプローチは良い実験結果を示したが、まだ臨床応用には程遠い。
本稿では,実際の臨床データセットにおける麻酔戦略の学習問題を解決するためのデータ駆動強化学習アルゴリズムであるポリシ制約q-learning(pcql)を提案する。
保守的なQ-Learningは、オフライン環境でのQ関数過大評価の問題を軽減するために最初に導入された。
エージェントトレーニングにポリシー制約項を追加し、エージェントと麻酔医のポリシー分布を一定に保つことで、エージェントの麻酔シナリオにおける安全な判断を確実にする。
PCQLの有効性は, 臨床麻酔データセットを用いた広範囲な実験により検証された。
以上の結果から,PCQLは麻酔科医の基準線量との良好な一致を維持しつつ,総線量が少なく,患者のバイタルサインに反応しやすく,ベースラインアプローチよりも高い利得が得られると予測された。
さらに, 麻酔科医の臨床的判断のほとんどをカバーすることが可能な薬剤の信頼区間について検討した。
最後に、モデル予測の寄与成分を分析し、モデルの透明性を高めるための解釈可能な手法SHAPを用いた。 Automated anesthesia promises to enable more precise and personalized anesthetic administration and free anesthesiologists from repetitive tasks, allowing them to focus on the most critical aspects of a patient's surgical care. Current research has typically focused on creating simulated environments from which agents can learn. These approaches have demonstrated good experimental results, but are still far from clinical application. In this paper, Policy Constraint Q-Learning (PCQL), a data-driven reinforcement learning algorithm for solving the problem of learning anesthesia strategies on real clinical datasets, is proposed. Conservative Q-Learning was first introduced to alleviate the problem of Q function overestimation in an offline context. A policy constraint term is added to agent training to keep the policy distribution of the agent and the anesthesiologist consistent to ensure safer decisions made by the agent in anesthesia scenarios. The effectiveness of PCQL was validated by extensive experiments on a real clinical anesthesia dataset. Experimental results show that PCQL is predicted to achieve higher gains than the baseline approach while maintaining good agreement with the reference dose given by the anesthesiologist, using less total dose, and being more responsive to the patient's vital signs. In addition, the confidence intervals of the agent were investigated, which were able to cover most of the clinical decisions of the anesthesiologist. Finally, an interpretable method, SHAP, was used to analyze the contributing components of the model predictions to increase the transparency of the model. | 翻訳日:2023-11-03 18:12:04 公開日:2023-11-02 |
# 二層グラフェン二重量子ドットにおけるコヒーレント電荷振動 Coherent Charge Oscillations in a Bilayer Graphene Double Quantum Dot ( http://arxiv.org/abs/2303.10119v3 ) ライセンス: Link先を確認 | Katrin Hecker, Luca Banszerus, Aaron Sch\"apers, Samuel M\"oller, Anton Peters, Eike Icking, Kenji Watanabe, Takashi Taniguchi, Christian Volk, Christoph Stampfer | (参考訳) 2つのエネルギーレベルの反交差を通過する量子力学的2レベル系のコヒーレントダイナミクスは、ランダウ・ツェナー・シュタックルベルク・マヨラナ(LZSM)干渉を引き起こす。
LZSM干渉分光法は、半導体量子ドット(QD)における電荷ノイズと電荷デコヒーレンスを研究するための実りあるツールであることが証明されている。
近年、二層グラフェンは、スピンおよびバレーキュービットのホスティングに有用な、高度に調整可能なqdsをホストするための有望なプラットフォームとして開発されている。
これまでのところ、この系ではコヒーレント振動は観測されておらず、荷電ノイズについてはほとんど知られていない。
ここでは、2層グラフェン二重QDにおけるコヒーレント電荷振動と$T_2^*$電荷デコヒーレンス時間を報告する。
lzsm干渉と光子補助トンネルを用いて電荷非干渉時間を独立に測定する。
どちらの手法も400から500psの範囲の平均値はT_2^*$である。
電荷コヒーレンス観測は、将来の実験における電荷ノイズの起源とスペクトル分布の研究を可能にする。 The coherent dynamics of a quantum mechanical two-level system passing through an anti-crossing of two energy levels can give rise to Landau-Zener-St\"uckelberg-Majorana (LZSM) interference. LZSM interference spectroscopy has proven to be a fruitful tool to investigate charge noise and charge decoherence in semiconductor quantum dots (QDs). Recently, bilayer graphene has developed as a promising platform to host highly tunable QDs potentially useful for hosting spin and valley qubits. So far, in this system no coherent oscillations have been observed and little is known about charge noise in this material. Here, we report coherent charge oscillations and $T_2^*$ charge decoherence times in a bilayer graphene double QD. The charge decoherence times are measured independently using LZSM interference and photon assisted tunneling. Both techniques yield $T_2^*$ average values in the range of 400 to 500 ps. The observation of charge coherence allows to study the origin and spectral distribution of charge noise in future experiments. | 翻訳日:2023-11-03 18:11:39 公開日:2023-11-02 |
# GlueGen: X-to-image 生成のためのプラグインとマルチモーダルエンコーダ GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation ( http://arxiv.org/abs/2303.10056v2 ) ライセンス: Link先を確認 | Can Qin, Ning Yu, Chen Xing, Shu Zhang, Zeyuan Chen, Stefano Ermon, Yun Fu, Caiming Xiong, Ran Xu | (参考訳) 拡散過程に基づくテキスト・ツー・イメージ(t2i)モデルは,ユーザ提供キャプションを用いた制御可能な画像生成において大きな成功を収めている。
しかし、現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合は、置き換えやアップグレードを困難にしている。
このような変更は、しばしば大規模な微調整や、禁止費用をゼロからトレーニングすることさえ必要となる。
そこで本研究では,t2iモデルの潜在空間とシングルモーダルまたはマルチモーダルエンコーダの特徴を整合させるために,新たに提案するgluenetモデルを適用したgluegenを提案する。
このアプローチでは、並列コーパスを活用して異なるエンコーダの表現空間を調整する、新たなトレーニング目標が導入されている。
実験の結果、gluenetは効率的にトレーニングでき、以前の最先端モデルを超えて様々な機能を可能にする。
1) XLM-Roberta のような多言語言語モデルは,既存の T2I モデルと整合し,英語以外のキャプションから高品質な画像を生成することができる。
2)GlueNetは,AudioCLIPなどのマルチモーダルエンコーダを安定拡散モデルに整合させ,音像生成を可能にする。
3) 潜在拡散モデルの現在のテキストエンコーダをアップグレードしてケース生成に挑戦することもできる。
様々な特徴表現のアラインメントにより、gluenetは、新しい機能を既存のt2iモデルに柔軟かつ効率的な統合を可能にし、x-to-image (x2i) 生成に光を当てる。 Text-to-image (T2I) models based on diffusion processes have achieved remarkable success in controllable image generation using user-provided captions. However, the tight coupling between the current text encoder and image decoder in T2I models makes it challenging to replace or upgrade. Such changes often require massive fine-tuning or even training from scratch with the prohibitive expense. To address this problem, we propose GlueGen, which applies a newly proposed GlueNet model to align features from single-modal or multi-modal encoders with the latent space of an existing T2I model. The approach introduces a new training objective that leverages parallel corpora to align the representation spaces of different encoders. Empirical results show that GlueNet can be trained efficiently and enables various capabilities beyond previous state-of-the-art models: 1) multilingual language models such as XLM-Roberta can be aligned with existing T2I models, allowing for the generation of high-quality images from captions beyond English; 2) GlueNet can align multi-modal encoders such as AudioCLIP with the Stable Diffusion model, enabling sound-to-image generation; 3) it can also upgrade the current text encoder of the latent diffusion model for challenging case generation. By the alignment of various feature representations, the GlueNet allows for flexible and efficient integration of new functionality into existing T2I models and sheds light on X-to-image (X2I) generation. | 翻訳日:2023-11-03 18:11:23 公開日:2023-11-02 |
# DeltaScore: 摂動による詳細なストーリー評価 DeltaScore: Fine-Grained Story Evaluation with Perturbations ( http://arxiv.org/abs/2303.08991v5 ) ライセンス: Link先を確認 | Zhuohan Xie, Miao Li, Trevor Cohn and Jey Han Lau | (参考訳) 自然言語生成タスクに対して多くの評価指標が開発されているが、ストーリー評価における有効性は、浮力や面白さといった複雑なストーリーテリングの側面を評価するのに特に適していないため、制限されている。
本稿では,ニュアンスストーリーの側面評価に摂動技術を用いた新しい手法であるDELTASCOREを紹介する。
私たちの中心的命題は、あるストーリーが特定の側面(例えばフルエンシー)において優れている範囲は、その特定の摂動に対する感受性の大きさ(例えば、タイポスの導入)と相関していると仮定している。
そこで本稿では,事前学習言語モデルを用いて,前摂動状態と後摂動状態の確率差を計算することにより,アスペクトの品質を測定する。
deltascore と2つのドメインのストーリーテリングデータセットの既存のメトリクスを比較して,5つのきめ細かいストーリの側面であるfluency, coherence, relatedness, logicality, interestingness を比較した。
DELTASCOREは顕著な性能を示し、特定の摂動が複数の側面を捉えるのに非常に効果的であることを示した。 Numerous evaluation metrics have been developed for natural language generation tasks, but their effectiveness in evaluating stories is limited as they are not specifically tailored to assess intricate aspects of storytelling, such as fluency and interestingness. In this paper, we introduce DELTASCORE, a novel methodology that employs perturbation techniques for the evaluation of nuanced story aspects. Our central proposition posits that the extent to which a story excels in a specific aspect (e.g., fluency) correlates with the magnitude of its susceptibility to particular perturbations (e.g., the introduction of typos). Given this, we measure the quality of an aspect by calculating the likelihood difference between pre- and post-perturbation states using pre-trained language models. We compare DELTASCORE with existing metrics on storytelling datasets from two domains in five fine-grained story aspects: fluency, coherence, relatedness, logicality, and interestingness. DELTASCORE demonstrates remarkable performance, revealing a surprising finding that a specific perturbation proves highly effective in capturing multiple aspects. | 翻訳日:2023-11-03 18:10:40 公開日:2023-11-02 |
# データ中心機械学習のための再ラベル法 The Re-Label Method For Data-Centric Machine Learning ( http://arxiv.org/abs/2302.04391v6 ) ライセンス: Link先を確認 | Tong Guo | (参考訳) 業界深層学習アプリケーションでは、手作業でラベル付けしたデータは、一定の数のノイズデータを持っています。
この問題を解決し、開発データセットで90以上のスコアを達成するために、人間のラベル付けにおける参照としてモデル予測を考慮し、ノイズデータを見つけ、ノイズデータを再ラベルする簡単な方法を提案する。
本稿では,分類,シーケンスタグ付け,オブジェクト検出,シーケンス生成,クリックスルー率予測など,幅広いディープラーニングタスクのセットについて述べる。
開発データセットの評価結果と人格評価結果は、このアイデアを検証する。 In industry deep learning application, our manually labeled data has a certain number of noisy data. To solve this problem and achieve more than 90 score in dev dataset, we present a simple method to find the noisy data and re-label the noisy data by human, given the model predictions as references in human labeling. In this paper, we illustrate our idea for a broad set of deep learning tasks, includes classification, sequence tagging, object detection, sequence generation, click-through rate prediction. The dev dataset evaluation results and human evaluation results verify our idea. | 翻訳日:2023-11-03 18:10:12 公開日:2023-11-02 |
# GFlowNetsを用いたサンプル効率多目的分子最適化 Sample-efficient Multi-objective Molecular Optimization with GFlowNets ( http://arxiv.org/abs/2302.04040v2 ) ライセンス: Link先を確認 | Yiheng Zhu, Jialu Wu, Chaowen Hu, Jiahuan Yan, Chang-Yu Hsieh, Tingjun Hou, Jian Wu | (参考訳) 多くの重要な科学的問題は、望ましい性質を持つ新しい分子を設計することであり、これは離散化学空間上のブラックボックス最適化問題として定式化できる。
実際には、複数の相反する目標とコストのかかる評価(例えば湿式実験)が候補の多様性を最重要視している。
計算手法は最初成功したが、目的空間と探索空間の両方における多様性を考えるのに苦戦している。
このギャップを埋めるために,ハイパーネットワークベースのGFlowNets(HN-GFN)を取得関数最適化器として活用した多目的ベイズ最適化(MOBO)アルゴリズムを提案する。
HN-GFNは、単一の嗜好条件のハイパーネットワークを用いて、目的間の様々なトレードオフを探索する。
さらに、HN-GFNの学習を高速化するために、異なる選好間で高い性能の分子を共有できる、後見的なオフ政治戦略を提案する。
我々はHN-GFNが嗜好を一般化するのに十分な能力を持っていることを実証的に説明する。
さらに,様々な実世界のMOBO設定実験により,本フレームワークが既存の手法よりも,候補品質とサンプル効率の点で優れていることが示された。
コードはhttps://github.com/violet-sto/HN-GFNで公開されている。 Many crucial scientific problems involve designing novel molecules with desired properties, which can be formulated as a black-box optimization problem over the discrete chemical space. In practice, multiple conflicting objectives and costly evaluations (e.g., wet-lab experiments) make the diversity of candidates paramount. Computational methods have achieved initial success but still struggle with considering diversity in both objective and search space. To fill this gap, we propose a multi-objective Bayesian optimization (MOBO) algorithm leveraging the hypernetwork-based GFlowNets (HN-GFN) as an acquisition function optimizer, with the purpose of sampling a diverse batch of candidate molecular graphs from an approximate Pareto front. Using a single preference-conditioned hypernetwork, HN-GFN learns to explore various trade-offs between objectives. We further propose a hindsight-like off-policy strategy to share high-performing molecules among different preferences in order to speed up learning for HN-GFN. We empirically illustrate that HN-GFN has adequate capacity to generalize over preferences. Moreover, experiments in various real-world MOBO settings demonstrate that our framework predominantly outperforms existing methods in terms of candidate quality and sample efficiency. The code is available at https://github.com/violet-sto/HN-GFN. | 翻訳日:2023-11-03 18:09:45 公開日:2023-11-02 |
# 非遺伝性は局在を誘導する:パワーローランダムバンド行列における善悪共振 Non-Hermiticity induces localization: good and bad resonances in power-law random banded matrices ( http://arxiv.org/abs/2302.00015v2 ) ライセンス: Link先を確認 | Giuseppe De Tomasi and Ivan M. Khaymovich | (参考訳) power-law random banded matrix (plrbm) はアンダーソン局在遷移 (at) を研究するためのパラダイムアンサンブルである。
$d$-次元において、PLRBM は非対角元 $H_{\vec{n}\vec{m}}\sim 1/|\vec{n}-\vec{m}|^\alpha$ で、AT が $\alpha=d$ であるようなランダム行列である。
本研究では, PLRBM の非ハーモニティ性に対する運命について検討する。
ランダムなオンサイト対角ポテンシャルが、ランダムなゲインロス条件の下で、オープンなシステムを模倣して複雑な値を取る場合を考える。
アンダーソン・レヴィトフ共鳴計数法を非エルミート系に一般化し,モデルの解析的理解を提供する。
この一般化は、非ハーモニティ性による競合する2つのメカニズムを識別する。
両者の競争は少なくとも$d/2\le \alpha\le d$となる。
臨界$\alpha$の値は、d>2$のエルミート乱れ短距離模型を思い起こさせるオンサイトポテンシャルの強さに依存する。
局所化位相内では、波動関数は、$\alpha<d$でも指数$\alpha$で代数的に局所化される。
この結果は非ハーミティティー誘発局在の例である。 The power-law random banded matrix (PLRBM) is a paradigmatic ensemble to study the Anderson localization transition (AT). In $d$-dimension the PLRBM are random matrices with algebraic decaying off-diagonal elements $H_{\vec{n}\vec{m}}\sim 1/|\vec{n}-\vec{m}|^\alpha$, having AT at $\alpha=d$. In this work, we investigate the fate of the PLRBM to non-Hermiticity. We consider the case where the random on-site diagonal potential takes complex values, mimicking an open system, subject to random gain-loss terms. We provide an analytical understanding of the model by generalizing the Anderson-Levitov resonance counting technique to the non-Hermitian case. This generalization identifies two competing mechanisms due to non-Hermiticity: one favoring localization and the other delocalization. The competition between the two gives rise to AT at $d/2\le \alpha\le d$. The value of the critical $\alpha$ depends on the strength of the on-site potential, reminiscent of Hermitian disordered short-range models in $d>2$. Within the localized phase, the wave functions are algebraically localized with an exponent $\alpha$ even for $\alpha<d$. This result provides an example of non-Hermiticity-induced localization. | 翻訳日:2023-11-03 18:09:24 公開日:2023-11-02 |
# 神経最適輸送による極値領域翻訳 Extremal Domain Translation with Neural Optimal Transport ( http://arxiv.org/abs/2301.12874v3 ) ライセンス: Link先を確認 | Milena Gazdieva, Alexander Korotin, Daniil Selikhanovych, Evgeny Burnaev | (参考訳) 多くの未ペア画像領域の変換問題、例えばスタイル転送や超解像では、変換された画像をそれぞれの入力画像と類似させることが重要である。
本稿では、与えられた類似性関数の対であるドメインw.r.t.の間の理論的に最良の未ペア翻訳の数学的形式化である極端輸送(ET)を提案する。
近年のニューラル・オプティカル・トランスポート(OT)の進歩に触発されて,部分的なOTマップの限界としてETマップを近似するスケーラブルなアルゴリズムを提案する。
おもちゃの例や画像から画像への変換タスクでアルゴリズムをテストする。
コードはhttps://github.com/milenagazdieva/ExtremalNeuralOptimalTransportで公開されている。 In many unpaired image domain translation problems, e.g., style transfer or super-resolution, it is important to keep the translated image similar to its respective input image. We propose the extremal transport (ET) which is a mathematical formalization of the theoretically best possible unpaired translation between a pair of domains w.r.t. the given similarity function. Inspired by the recent advances in neural optimal transport (OT), we propose a scalable algorithm to approximate ET maps as a limit of partial OT maps. We test our algorithm on toy examples and on the unpaired image-to-image translation task. The code is publicly available at https://github.com/milenagazdieva/ExtremalNeuralOptimalTransport | 翻訳日:2023-11-03 18:08:58 公開日:2023-11-02 |
# ChatGPTは良い翻訳ツールか?
はい gpt-4をエンジンとして Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine ( http://arxiv.org/abs/2301.08745v4 ) ライセンス: Link先を確認 | Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Xing Wang, Shuming Shi, Zhaopeng Tu | (参考訳) 本報告では,機械翻訳におけるChatGPTの予備評価を行い,翻訳プロンプト,多言語翻訳,翻訳堅牢性について述べる。
われわれはChatGPTが推奨するプロンプトを採用して、その翻訳能力をトリガーし、候補プロンプトがパフォーマンスの小さな違いによく合うことを確認する。
多数のベンチマークテストセットを評価することで、ChatGPTは高リソースのヨーロッパ言語で商用翻訳製品(Google Translateなど)と競合するが、低リソースや遠方の言語では遅れがかなり大きいことが分かる。
翻訳の堅牢性については、chatgptは生物医学的抽象やredditコメントの商用システムほど性能は良くないが、音声言語では良い結果を示している。
さらに、ChatGPTに対して、ターゲット言語に変換する前にソース文を高リソースのピボット言語に変換するように求め、翻訳性能を著しく向上させる、$\mathbf{pivot~prompting}$という興味深い戦略を探求する。
GPT-4エンジンのローンチにより、ChatGPTの翻訳性能は大幅に向上し、遠隔言語でも商用翻訳製品に匹敵するものとなった。
Google TranslateとChatGPTの人間による分析では、GPT-3.5によるChatGPTはより幻覚や誤訳のエラーを引き起こす傾向にあり、GPT-4によるエラーは最小である。
言い換えれば、ChatGPTはすでに優れた翻訳者になっている。
詳細はGithubプロジェクトのhttps://github.com/wxjiao/Is-ChatGPT-A-Good-Translatorを参照してください。 This report provides a preliminary evaluation of ChatGPT for machine translation, including translation prompt, multilingual translation, and translation robustness. We adopt the prompts advised by ChatGPT to trigger its translation ability and find that the candidate prompts generally work well with minor performance differences. By evaluating on a number of benchmark test sets, we find that ChatGPT performs competitively with commercial translation products (e.g., Google Translate) on high-resource European languages but lags behind significantly on low-resource or distant languages. As for the translation robustness, ChatGPT does not perform as well as the commercial systems on biomedical abstracts or Reddit comments but exhibits good results on spoken language. Further, we explore an interesting strategy named $\mathbf{pivot~prompting}$ for distant languages, which asks ChatGPT to translate the source sentence into a high-resource pivot language before into the target language, improving the translation performance noticeably. With the launch of the GPT-4 engine, the translation performance of ChatGPT is significantly boosted, becoming comparable to commercial translation products, even for distant languages. Human analysis on Google Translate and ChatGPT suggests that ChatGPT with GPT-3.5 tends to generate more hallucinations and mis-translation errors while that with GPT-4 makes the least errors. In other words, ChatGPT has already become a good translator. Please refer to our Github project for more details: https://github.com/wxjiao/Is-ChatGPT-A-Good-Translator | 翻訳日:2023-11-03 18:08:27 公開日:2023-11-02 |
# 超音波平面ポーズ回帰--胎児脳における一般的なポーズ座標の評価 Ultrasound Plane Pose Regression: Assessing Generalized Pose Coordinates in the Fetal Brain ( http://arxiv.org/abs/2301.08317v2 ) ライセンス: Link先を確認 | Chiara Di Vece, Maela Le Lous, Brian Dromey, Francisco Vasconcelos, Anna L David, Donald Peebles, Danail Stoyanov | (参考訳) 超音波(US)スキャンでは、2次元(2D)US画像から胎児の3次元(3D)マップを精神的に構築する学習者の能力は、スキル獲得において重要な課題である。
我々は,センサを付加することなく,3次元可視化,トレーニング,ガイダンスのための米国の航空機ローカライゼーションシステムの構築を目指している。
この研究は、convolutional neural network (cnn)レグレッションネットワークを使用して、正常化された基準フレームに対して胎児の脳をスライスする任意指向のアメリカ平面の6次元(6次元)の姿勢を予測する、以前の研究に基づいています。
そこで本研究では、正常化胎児脳基準フレームの仮定を詳細に分析し、胎児生体計測のための経室的(tv)標準平面(sp)の取得に関してその精度を定量化する。
登録品質がトレーニングおよびテストデータに与える影響と,それに続くトレーニングモデルへの影響について検討する。
最後に,前回の作業結果を改善するデータ拡張とより大きなトレーニングセットを導入し,翻訳と回転の中央値誤差を2.97mmと6.63°とした。 In obstetric ultrasound (US) scanning, the learner's ability to mentally build a three-dimensional (3D) map of the fetus from a two-dimensional (2D) US image represents a significant challenge in skill acquisition. We aim to build a US plane localization system for 3D visualization, training, and guidance without integrating additional sensors. This work builds on top of our previous work, which predicts the six-dimensional (6D) pose of arbitrarily oriented US planes slicing the fetal brain with respect to a normalized reference frame using a convolutional neural network (CNN) regression network. Here, we analyze in detail the assumptions of the normalized fetal brain reference frame and quantify its accuracy with respect to the acquisition of transventricular (TV) standard plane (SP) for fetal biometry. We investigate the impact of registration quality in the training and testing data and its subsequent effect on trained models. Finally, we introduce data augmentations and larger training sets that improve the results of our previous work, achieving median errors of 2.97 mm and 6.63 degrees for translation and rotation, respectively. | 翻訳日:2023-11-03 18:07:58 公開日:2023-11-02 |
# LMは将来のデータに一般化できるか?
テキスト要約に関する経験的分析 Can LMs Generalize to Future Data? An Empirical Analysis on Text Summarization ( http://arxiv.org/abs/2305.01951v3 ) ライセンス: Link先を確認 | Chi Seng Cheang, Hou Pong Chan, Derek F. Wong, Xuebo Liu, Zhaocong Li, Yanming Sun, Shudong Liu, Lidia S. Chao | (参考訳) 最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。
しかし、既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重なる。
したがって、PLMの強い性能は、事前学習と微調整の間に記憶されるパラメトリック知識に依存する可能性がある。
さらに, PLM が記憶する知識は急速に時代遅れになり, 将来のデータに対する PLM の一般化性能に影響を与える可能性がある。
本研究では,抽象的な要約モデルの時間的一般化能力を理解するため,2010年から2022年までのデータサンプルを含む新しいベンチマークであるTempoSumを提案する。
本研究では,要約モデルに蓄積されたパラメトリック知識が,生成した要約の忠実性に大きく影響することを示す。
また,既存の忠実性向上手法は,将来のデータに対する要約モデルの忠実性を確実に改善することができない。
最後に,テキスト要約モデルの時間的一般化能力の評価と改善について,研究コミュニティにいくつか提言する。 Recent pre-trained language models (PLMs) achieve promising results in existing abstractive summarization datasets. However, existing summarization benchmarks overlap in time with the standard pre-training corpora and finetuning datasets. Hence, the strong performance of PLMs may rely on the parametric knowledge that is memorized during pre-training and fine-tuning. Moreover, the knowledge memorized by PLMs may quickly become outdated, which affects the generalization performance of PLMs on future data. In this work, we propose TempoSum, a novel benchmark that contains data samples from 2010 to 2022, to understand the temporal generalization ability of abstractive summarization models. Through extensive human evaluation, we show that parametric knowledge stored in summarization models significantly affects the faithfulness of the generated summaries on future data. Moreover, existing faithfulness enhancement methods cannot reliably improve the faithfulness of summarization models on future data. Finally, we discuss several recommendations to the research community on how to evaluate and improve the temporal generalization capability of text summarization models. | 翻訳日:2023-11-03 18:01:01 公開日:2023-11-02 |
# 多分解能畳み込みメモリを用いたシーケンスモデリング Sequence Modeling with Multiresolution Convolutional Memory ( http://arxiv.org/abs/2305.01638v2 ) ライセンス: Link先を確認 | Jiaxin Shi, Ke Alexander Wang, Emily B. Fox | (参考訳) 分類や生成モデリングなど、与えられたタスクに合ったシーケンシャルなデータソースの長距離パターンを効果的にキャプチャすることは、根本的な課題である。
ブライトフォース列挙のメモリ負荷と比較の空間トレードオフにおける一般的なアプローチは、トランスフォーマーのように複雑な逐次依存関係の計算負荷、リカレントニューラルネットワークのような計算負荷、あるいは多くのフィルタや大きなフィルタを持つ畳み込みネットワークのパラメータ負荷である。
代わりに、ウェーブレットに基づくマルチレゾリューション解析からインスピレーションを得て、シーケンスモデリングのための新しいビルディングブロックを定義します。
モデルの主要なコンポーネントはマルチレゾリューション畳み込みであり、入力シーケンスのマルチスケールトレンドをキャプチャします。
私たちのMultiresConvは、拡張因果畳み込み木にまたがる共用フィルタで実装できます。
したがって、畳み込みネットワークの計算上の利点とウェーブレット分解の原理的理論的動機が引き起こされる。
私たちのMultiresLayerは実装が簡単で、パラメータが大幅に少なく、最大$\mathcal{O}(N\log N)$メモリフットプリントを$N$シーケンスで保持します。
しかし, これらの層を積み重ねることで, CIFAR-10, ListOps, PTB-XLデータセットを用いて, シーケンス分類および自己回帰密度推定タスクの最先端性能が得られる。 Efficiently capturing the long-range patterns in sequential data sources salient to a given task -- such as classification and generative modeling -- poses a fundamental challenge. Popular approaches in the space tradeoff between the memory burden of brute-force enumeration and comparison, as in transformers, the computational burden of complicated sequential dependencies, as in recurrent neural networks, or the parameter burden of convolutional networks with many or large filters. We instead take inspiration from wavelet-based multiresolution analysis to define a new building block for sequence modeling, which we call a MultiresLayer. The key component of our model is the multiresolution convolution, capturing multiscale trends in the input sequence. Our MultiresConv can be implemented with shared filters across a dilated causal convolution tree. Thus it garners the computational advantages of convolutional networks and the principled theoretical motivation of wavelet decompositions. Our MultiresLayer is straightforward to implement, requires significantly fewer parameters, and maintains at most a $\mathcal{O}(N\log N)$ memory footprint for a length $N$ sequence. Yet, by stacking such layers, our model yields state-of-the-art performance on a number of sequence classification and autoregressive density estimation tasks using CIFAR-10, ListOps, and PTB-XL datasets. | 翻訳日:2023-11-03 18:00:46 公開日:2023-11-02 |
# GPT-2はどのように計算しますか?
事前学習言語モデルにおける数学的能力の解釈 How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model ( http://arxiv.org/abs/2305.00586v5 ) ライセンス: Link先を確認 | Michael Hanna, Ollie Liu and Alexandre Variengien | (参考訳) 事前訓練された言語モデルは、明示的に訓練されていないタスクに驚くほど適しているが、これらの機能の実装方法はあまり理解されていない。
本稿では,事前学習された言語モデルによってしばしば得られる基本的な数学的能力について検討する。
具体的には,GPT-2の(限定的な)数学的能力を説明するために,機械的解釈可能性技術を用いる。
ケーススタディとして,「戦争は1732年から17年まで続いた」などの文を取り込む能力について検討し,有効な2桁終了年(32歳未満)を予測した。
まず、このタスクの出力を計算するGPT-2小の計算グラフの小さなサブセットである回路を同定する。
そして、各回路部品の役割を説明し、GPT-2小の最終的な多層パーセプトロンが、開始年よりも終末年の確率を高めることを示す。
最後に、回路を活性化する関連タスクを見つける。
以上の結果から,GPT-2は多種多様なコンテキストにまたがって活性化する複雑だが汎用的な機構を用いて計算を行う。 Pre-trained language models can be surprisingly adept at tasks they were not explicitly trained on, but how they implement these capabilities is poorly understood. In this paper, we investigate the basic mathematical abilities often acquired by pre-trained language models. Concretely, we use mechanistic interpretability techniques to explain the (limited) mathematical abilities of GPT-2 small. As a case study, we examine its ability to take in sentences such as "The war lasted from the year 1732 to the year 17", and predict valid two-digit end years (years > 32). We first identify a circuit, a small subset of GPT-2 small's computational graph that computes this task's output. Then, we explain the role of each circuit component, showing that GPT-2 small's final multi-layer perceptrons boost the probability of end years greater than the start year. Finally, we find related tasks that activate our circuit. Our results suggest that GPT-2 small computes greater-than using a complex but general mechanism that activates across diverse contexts. | 翻訳日:2023-11-03 18:00:25 公開日:2023-11-02 |
# グラフニューラルネットワークはいつノード分類に役立つのか?
相同原理がノード識別性に及ぼす影響の検討 When Do Graph Neural Networks Help with Node Classification? Investigating the Impact of Homophily Principle on Node Distinguishability ( http://arxiv.org/abs/2304.14274v3 ) ライセンス: Link先を確認 | Sitao Luan, Chenqing Hua, Minkai Xu, Qincheng Lu, Jiaqi Zhu, Xiao-Wen Chang, Jie Fu, Jure Leskovec, Doina Precup | (参考訳) ホモフィリ原理、すなわち、同じラベルを持つノードが接続される可能性が高いことは、ノード分類タスクにおけるニューラルネットワークよりもグラフニューラルネットワーク(GNN)の性能上の優位性の主要な理由と考えられている。
最近の研究は、ホモフィリーがなくても、同じクラスのノードが類似した近隣パターンを共有する限り、GNNの利点は依然として存在することを示唆している。
しかし、この議論はクラス内Node Distinguishability(ND)のみを考慮するが、クラス間NDを無視する。
本稿はまず,NDの理想的状況として,クラス間NDよりもクラス内NDが小さいことを挙げる。
このアイデアを定式化し、NDを深く研究するために、同調性のための文脈確率ブロックモデル(CSBM-H)を提案し、確率ベイズ誤差(PBE)と負の一般化ジェフリーズ偏差という2つの指標を定義し、NDを定量化する。
これらの指標を用いて,グラフフィルタ,ノード次数分布,クラス分散がNDに与える影響を可視化および解析し,クラス内およびクラス間NDの複合効果について検討する。
さらに,グラフデータセットで広く発生する中間ホモフィリーの落とし穴を発見した。
さらに, 実作業タスクにおいて, GNNの優越性は, ホモフィリーレベルに関係なく, クラス内NDと密接に関係していることが確認された。
本研究は,非直線的特徴ベースであり,GNNの優位性に対する統計的しきい値を与えることができるホモフィリーを超える新しい仮説テストに基づく性能指標を提案する。
実験によると、実世界のデータセットと合成データの両方におけるグラフ認識モードの利点とデメリットを明らかにする上で、既存のホモフィリメトリックよりはるかに効果的である。 Homophily principle, i.e., nodes with the same labels are more likely to be connected, has been believed to be the main reason for the performance superiority of Graph Neural Networks (GNNs) over Neural Networks on node classification tasks. Recent research suggests that, even in the absence of homophily, the advantage of GNNs still exists as long as nodes from the same class share similar neighborhood patterns. However, this argument only considers intra-class Node Distinguishability (ND) but neglects inter-class ND, which provides incomplete understanding of homophily on GNNs. In this paper, we first demonstrate such deficiency with examples and argue that an ideal situation for ND is to have smaller intra-class ND than inter-class ND. To formulate this idea and study ND deeply, we propose Contextual Stochastic Block Model for Homophily (CSBM-H) and define two metrics, Probabilistic Bayes Error (PBE) and negative generalized Jeffreys divergence, to quantify ND. With the metrics, we visualize and analyze how graph filters, node degree distributions and class variances influence ND, and investigate the combined effect of intra- and inter-class ND. Besides, we discovered the mid-homophily pitfall, which occurs widely in graph datasets. Furthermore, we verified that, in real-work tasks, the superiority of GNNs is indeed closely related to both intra- and inter-class ND regardless of homophily levels. Grounded in this observation, we propose a new hypothesis-testing based performance metric beyond homophily, which is non-linear, feature-based and can provide statistical threshold value for GNNs' the superiority. Experiments indicate that it is significantly more effective than the existing homophily metrics on revealing the advantage and disadvantage of graph-aware modes on both synthetic and benchmark real-world datasets. | 翻訳日:2023-11-03 18:00:07 公開日:2023-11-02 |
# FVP: 医用画像セグメンテーションの非教師なし領域適応のためのフーリエ視覚プロンプト FVP: Fourier Visual Prompting for Source-Free Unsupervised Domain Adaptation of Medical Image Segmentation ( http://arxiv.org/abs/2304.13672v2 ) ライセンス: Link先を確認 | Yan Wang, Jian Cheng, Yixin Chen, Shuai Shao, Lanyun Zhu, Zhenzhou Wu, Tao Liu, Haogang Zhu | (参考訳) 医用画像分割法は通常、トレーニングとテストデータの間にドメインシフトがある場合、うまく動作しない。
Unsupervised Domain Adaptation (UDA)は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータの両方を使用してモデルをトレーニングすることで、ドメインシフトの問題に対処する。
source-free uda (sfuda) は、データプライバシやデータ送信の問題により、テスト段階でトレーニング済みの深層モデルに通常適用されるため、適応時にソースデータを必要とせずにudaに対して最近提案された。
しかし、医用画像セグメンテーションの実際の臨床シナリオでは、訓練されたモデルはテスト段階で凍結される。
本稿では,医用画像セグメンテーションのSFUDAのためのFuer Visual Prompting (FVP)を提案する。
FVPは、自然言語処理の学習を促すことによって、凍結した事前訓練されたモデルを、入力対象データに視覚的プロンプトを追加することにより、ターゲット領域で良好に動作させる。
fvpでは、入力周波数空間における少量の低周波学習可能なパラメータのみを用いて視覚プロンプトをパラメータ化し、予測された目標画像のセグメンテーションと、目標画像の信頼できる疑似セグメンテーションラベルとのセグメンテーション損失を凍結モデルで最小化することで学習する。
我々の知る限り、FVPは医用画像分割のための視覚的プロンプトをSFUDAに適用する最初の試みである。
提案したFVPは3つの公開データセットを用いて検証され、実験により、FVPは既存の様々な手法と比較してより良いセグメンテーション結果が得られることを示した。 Medical image segmentation methods normally perform poorly when there is a domain shift between training and testing data. Unsupervised Domain Adaptation (UDA) addresses the domain shift problem by training the model using both labeled data from the source domain and unlabeled data from the target domain. Source-Free UDA (SFUDA) was recently proposed for UDA without requiring the source data during the adaptation, due to data privacy or data transmission issues, which normally adapts the pre-trained deep model in the testing stage. However, in real clinical scenarios of medical image segmentation, the trained model is normally frozen in the testing stage. In this paper, we propose Fourier Visual Prompting (FVP) for SFUDA of medical image segmentation. Inspired by prompting learning in natural language processing, FVP steers the frozen pre-trained model to perform well in the target domain by adding a visual prompt to the input target data. In FVP, the visual prompt is parameterized using only a small amount of low-frequency learnable parameters in the input frequency space, and is learned by minimizing the segmentation loss between the predicted segmentation of the prompted target image and reliable pseudo segmentation label of the target image under the frozen model. To our knowledge, FVP is the first work to apply visual prompts to SFUDA for medical image segmentation. The proposed FVP is validated using three public datasets, and experiments demonstrate that FVP yields better segmentation results, compared with various existing methods. | 翻訳日:2023-11-03 17:59:01 公開日:2023-11-02 |
# 中間レベルの摂動減衰による対向移動性の向上 Improving Adversarial Transferability via Intermediate-level Perturbation Decay ( http://arxiv.org/abs/2304.13410v3 ) ライセンス: Link先を確認 | Qizhang Li, Yiwen Guo, Wangmeng Zuo, Hao Chen | (参考訳) 逆方向に従う特徴表現を劇的に摂動させようとする中間レベルの攻撃は、移動可能な逆向きの例を作るのに好成績を示している。
このカテゴリーの既存の方法は、通常2つの別々の段階で定式化され、最初に方向ガイドを決定する必要があり、その後、中間レベル摂動のスカラー投影を方向ガイドに拡大する。
得られた摂動は特徴空間において必然的にガイドから逸脱し,そのような偏差が準最適攻撃につながることが本論文で明らかになった。
この問題に対処するため,一段階の最適化で敵の例を再現する新しい中間レベル手法を開発した。
特に,提案手法は,中間レベルの摂動減衰 (ilpd) と呼ばれ,中間レベルの摂動が効果的に逆向きに進行し,同時に大きなマグニチュードを持つように促している。
本手法の有効性を詳細に検討した。
実験の結果、imagenet(平均+10.07%)とcifar-10(平均3.88%)のさまざまな被害者モデルに対する攻撃において、最先端のマージンを大きく上回っていることがわかった。
私たちのコードはhttps://github.com/qizhangli/ILPD攻撃にあります。 Intermediate-level attacks that attempt to perturb feature representations following an adversarial direction drastically have shown favorable performance in crafting transferable adversarial examples. Existing methods in this category are normally formulated with two separate stages, where a directional guide is required to be determined at first and the scalar projection of the intermediate-level perturbation onto the directional guide is enlarged thereafter. The obtained perturbation deviates from the guide inevitably in the feature space, and it is revealed in this paper that such a deviation may lead to sub-optimal attack. To address this issue, we develop a novel intermediate-level method that crafts adversarial examples within a single stage of optimization. In particular, the proposed method, named intermediate-level perturbation decay (ILPD), encourages the intermediate-level perturbation to be in an effective adversarial direction and to possess a great magnitude simultaneously. In-depth discussion verifies the effectiveness of our method. Experimental results show that it outperforms state-of-the-arts by large margins in attacking various victim models on ImageNet (+10.07% on average) and CIFAR-10 (+3.88% on average). Our code is at https://github.com/qizhangli/ILPD-attack. | 翻訳日:2023-11-03 17:58:30 公開日:2023-11-02 |
# ゼロサム行列ゲームにおける学習の1次クエリ複雑度(近似)ナッシュ平衡のキャラクタリゼーション Towards Characterizing the First-order Query Complexity of Learning (Approximate) Nash Equilibria in Zero-sum Matrix Games ( http://arxiv.org/abs/2304.12768v2 ) ライセンス: Link先を確認 | H\'edi Hadiji (L2S), Sarah Sachs (UvA), Tim van Erven (UvA), Wouter M. Koolen (CWI) | (参考訳) 0-sum$K\times K$Matrixゲームに対する1次クエリモデルでは、プレイヤーは、対戦相手のランダム化アクションの下で、可能なすべてのアクションに対する期待された支払いを観察する。
この古典的モデルは、RakhlinとSridharanが発見して、$O(\frac{\ln K}{\epsilon})$から$O(\frac{\ln K}{\epsilon^2})$クエリに代えて、$\epsilon$-approximate Nash equilibriaを効率的に計算できることに新たな関心を寄せている。
驚いたことに、$\epsilon$と$K$の両方の関数として、そのようなクエリの最適数は不明である。
この質問は2つの点で進展している。
まず、厳密な平衡値(\epsilon=0$)を学習するクエリの複雑さを完全に特徴付けます。これは、$k$で線形なクエリをいくつも必要としていることを示します。
第二に、$\epsilon > 0$ の場合、現在のクエリの複雑性上限は $o(\min(\frac{\ln(k)}{\epsilon} , k))$ である。
我々は、これらの行列が単一のクエリによって完全に識別できるので、既知の可算集合の要素が値を取るハード行列を構築することによって下限が導出できないことを証明している。
これにより、例えば、ハイパーキューブ上の最適化問題をバイナリペイオフ行列としてエンコードすることで減らすことができる。
次に、下界に対する新しい手法を導入し、$\tilde\Omega(\log(\frac{1}{K\epsilon})$を任意の$\epsilon \leq 1 / (cK^4)$に対して得ることができる。
さらに,このギャップを上界で縮めるため,技術の改善に向けた今後の方向性についても検討する。 In the first-order query model for zero-sum $K\times K$ matrix games, players observe the expected pay-offs for all their possible actions under the randomized action played by their opponent. This classical model has received renewed interest after the discovery by Rakhlin and Sridharan that $\epsilon$-approximate Nash equilibria can be computed efficiently from $O(\frac{\ln K}{\epsilon})$ instead of $O(\frac{\ln K}{\epsilon^2})$ queries. Surprisingly, the optimal number of such queries, as a function of both $\epsilon$ and $K$, is not known. We make progress on this question on two fronts. First, we fully characterise the query complexity of learning exact equilibria ($\epsilon=0$), by showing that they require a number of queries that is linear in $K$, which means that it is essentially as hard as querying the whole matrix, which can also be done with $K$ queries. Second, for $\epsilon > 0$, the current query complexity upper bound stands at $O(\min(\frac{\ln(K)}{\epsilon} , K))$. We argue that, unfortunately, obtaining a matching lower bound is not possible with existing techniques: we prove that no lower bound can be derived by constructing hard matrices whose entries take values in a known countable set, because such matrices can be fully identified by a single query. This rules out, for instance, reducing to an optimization problem over the hypercube by encoding it as a binary payoff matrix. We then introduce a new technique for lower bounds, which allows us to obtain lower bounds of order $\tilde\Omega(\log(\frac{1}{K\epsilon})$ for any $\epsilon \leq 1 / (cK^4)$, where $c$ is a constant independent of $K$. We further discuss possible future directions to improve on our techniques in order to close the gap with the upper bounds. | 翻訳日:2023-11-03 17:58:06 公開日:2023-11-02 |
# 3次元楕円PDEの有限要素解法における代数的乗法を高速化するディープラーニングアルゴリズム A Deep Learning algorithm to accelerate Algebraic Multigrid methods in Finite Element solvers of 3D elliptic PDEs ( http://arxiv.org/abs/2304.10832v3 ) ライセンス: Link先を確認 | Matteo Caldana, Paola F. Antonietti, Luca Dede' | (参考訳) 代数的乗法(英語版)(AMG)は方程式の線形系の最も効率的な解法の一つであり、偏微分方程式(PDE)の離散化に起因する問題の解法として広く用いられている。
AMG法の最も厳しい制限は、微調整を必要とするパラメータへの依存である。
特に、強いしきい値パラメータは、AMG法で必要とされる連続的に粗い格子の構成に基づくため、最も関連性が高い。
本稿では,有限要素解法として用いる場合のAMG法の計算コストを最小化する新しいDeep Learningアルゴリズムを提案する。
我々のアルゴリズムは既存のコードに対して最小限の変更を必要とする。
提案するニューラルネットワーク(ann)は、線形システムのスパース行列を白黒画像として解釈し、プール演算子を利用して小さなマルチチャネル画像に変換することにより、強しきい値パラメータの値をチューニングする。
実験により,プーリングは大きなスパース行列を処理する計算コストを低減し,手前の回帰タスクに必要な特徴を保存できることを実証した。
提案アルゴリズムは, 異なる3次元空間で定義される高次拡散係数を持つ問題と非構造格子で離散化し, 高度不均一ヤング率を持つ線形弾性問題を含む大規模データセット上で学習する。
トレーニングデータセットに存在しない係数やジオメトリの問題に対して,本手法は計算時間を最大30%削減する。 Algebraic multigrid (AMG) methods are among the most efficient solvers for linear systems of equations and they are widely used for the solution of problems stemming from the discretization of Partial Differential Equations (PDEs). The most severe limitation of AMG methods is the dependence on parameters that require to be fine-tuned. In particular, the strong threshold parameter is the most relevant since it stands at the basis of the construction of successively coarser grids needed by the AMG methods. We introduce a novel Deep Learning algorithm that minimizes the computational cost of the AMG method when used as a finite element solver. We show that our algorithm requires minimal changes to any existing code. The proposed Artificial Neural Network (ANN) tunes the value of the strong threshold parameter by interpreting the sparse matrix of the linear system as a black-and-white image and exploiting a pooling operator to transform it into a small multi-channel image. We experimentally prove that the pooling successfully reduces the computational cost of processing a large sparse matrix and preserves the features needed for the regression task at hand. We train the proposed algorithm on a large dataset containing problems with a highly heterogeneous diffusion coefficient defined in different three-dimensional geometries and discretized with unstructured grids and linear elasticity problems with a highly heterogeneous Young's modulus. When tested on problems with coefficients or geometries not present in the training dataset, our approach reduces the computational time by up to 30%. | 翻訳日:2023-11-03 17:57:19 公開日:2023-11-02 |
# 高精細・自由制御型トーキングヘッドビデオ生成 High-Fidelity and Freely Controllable Talking Head Video Generation ( http://arxiv.org/abs/2304.10168v2 ) ライセンス: Link先を確認 | Yue Gao, Yuan Zhou, Jinglu Wang, Xiao Li, Xiang Ming, Yan Lu | (参考訳) トーキングヘッド生成は、与えられたソースidとターゲットモーションに基づいてビデオを生成することである。
しかし、現在の手法では、生成されたビデオの品質と制御性を制限するいくつかの課題に直面している。
まず、生成された顔はしばしば予期せぬ変形と激しい歪みがある。
第2に、駆動画像はポーズや表情などの移動関連情報を明示的に区別せず、生成中の異なる属性の操作を制限する。
第3に、生成されたビデオは、隣接するフレーム間で抽出されたランドマークの不整合のために、フリックなアーティファクトを持つ傾向がある。
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
本手法は,自己指導型学習ランドマークと3次元顔モデルに基づくランドマークを併用して動作をモデル化する。
また,顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを提案する。
さらに,合成音声ヘッドビデオのスムース性も向上し,特徴的コンテキスト適応と伝搬モジュールを備える。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。 Talking head generation is to generate video based on a given source identity and target motion. However, current methods face several challenges that limit the quality and controllability of the generated videos. First, the generated face often has unexpected deformation and severe distortions. Second, the driving image does not explicitly disentangle movement-relevant information, such as poses and expressions, which restricts the manipulation of different attributes during generation. Third, the generated videos tend to have flickering artifacts due to the inconsistency of the extracted landmarks between adjacent frames. In this paper, we propose a novel model that produces high-fidelity talking head videos with free control over head pose and expression. Our method leverages both self-supervised learned landmarks and 3D face model-based landmarks to model the motion. We also introduce a novel motion-aware multi-scale feature alignment module to effectively transfer the motion without face distortion. Furthermore, we enhance the smoothness of the synthesized talking head videos with a feature context adaptation and propagation module. We evaluate our model on challenging datasets and demonstrate its state-of-the-art performance. | 翻訳日:2023-11-03 17:56:51 公開日:2023-11-02 |
# 量子状態を持つゲーム理論ジレンマの解法 Resolving game theoretical dilemmas with quantum states ( http://arxiv.org/abs/2304.03605v2 ) ライセンス: Link先を確認 | Azhar Iqbal, James M. Chappell, Claudia Szabo, Derek Abbott | (参考訳) 本稿では、ファインの定理に基づく古典ゲームの量子版を作成するための新しいフレームワークを提案する。
この定理は、与えられた境界集合に対して、ベルの不等式の系が対応する合同確率分布の存在に必要な条件と十分な条件の両方を構成することを示す。
ファインの定理を用いて、プレイヤーのペイオフとそれらの戦略を一組の辺縁の集合で再表現し、対応する合同確率分布が存在しない辺縁の集合(絡み合った量子状態に対応する)を考える道を開く。
量子状態を利用し、正の演算子値測度(POVM)を用いることで、古典ゲーム固有のジレンマを解決できる特定の量子状態を考える。 We present a new framework for creating a quantum version of a classical game, based on Fine's theorem. This theorem shows that for a given set of marginals, a system of Bell's inequalities constitutes both necessary and sufficient conditions for the existence of the corresponding joint probability distribution. Using Fine's theorem, we re-express both the player payoffs and their strategies in terms of a set of marginals, thus paving the way for the consideration of sets of marginals -- corresponding to entangled quantum states -- for which no corresponding joint probability distribution may exist. By harnessing quantum states and employing Positive Operator-Valued Measures (POVMs), we then consider particular quantum states that can potentially resolve dilemmas inherent in classical games. | 翻訳日:2023-11-03 17:56:34 公開日:2023-11-02 |
# parrot: 人間の翻訳とフィードバックをチューニングした大規模言語モデルによるチャット中の翻訳 ParroT: Translating during Chat using Large Language Models tuned with Human Translation and Feedback ( http://arxiv.org/abs/2304.02426v5 ) ライセンス: Link先を確認 | Wenxiang Jiao, Jen-tse Huang, Wenxuan Wang, Zhiwei He, Tian Liang, Xing Wang, Shuming Shi, Zhaopeng Tu | (参考訳) ChatGPTのような大規模言語モデル(LLM)は、チャット中に達成された様々な機械翻訳機能を含む、幅広い自然言語処理〜(NLP)タスクに顕著な能力を発揮している。
しかし、これらのモデルは制限されたapiを通してのみアクセス可能であり、この分野の新しい研究と進歩の障壁となる。
そこで我々はParroTを提案する。ParroTは、オープンソースのLLM(LLaMA)、人文翻訳、フィードバックデータに基づくチャット中の翻訳能力の強化と制御を行うフレームワークである。
具体的には、ParroTは、翻訳データを命令フォロースタイルに再構成し、翻訳プロセスを制御するために追加の要件を組み込む"$\mathbf{Hint}$"フィールドを導入する。
そこで本研究では,翻訳命令,コントラスト命令,エラーガイド命令など,parrotモデルの微調整を行う3つの命令型を提案する。
floresサブセットとwmt22テストセットの実験は、翻訳命令がバニラllmの翻訳性能を大幅に向上させる一方で、エラー誘導命令はさらなる改善につながる可能性を示唆している。
また,人間の注記データに欠ける方向に対して誤り案内命令を構築する際に,翻訳の質情報を提供するための自動評価ツールの可能性を示す。
実装の詳細については、Githubプロジェクトを参照してください。 Large language models (LLMs) like ChatGPT have exhibited remarkable abilities on a wide range of natural language processing~(NLP) tasks, including various machine translation abilities accomplished during chat. However, these models are only accessible through restricted APIs, which creates barriers to new research and advancements in the field. Therefore, we propose ParroT, a framework to enhance and regulate the translation abilities during chat based on open-source LLMs (e.g., LLaMA), human-written translation and feedback data. Specifically, ParroT reformulates translation data into the instruction-following style, and introduces a "$\mathbf{Hint}$" field for incorporating extra requirements to regulate the translation process. Accordingly, we propose three instruction types for finetuning ParroT models, including translation instruction, contrastive instruction, and error-guided instruction. Experiments on Flores subsets and WMT22 test sets suggest that translation instruction improves the translation performance of vanilla LLMs significantly while error-guided instruction can lead to further improvement, which demonstrates the importance of learning from low-quality translations annotated by humans. We also demonstrate the potential of automatic evaluation tools in providing quality information of translations, when constructing error-guided instructions for directions that lack human annotation data. Please refer to our Github project for more implementation details: https://github.com/wxjiao/ParroT | 翻訳日:2023-11-03 17:56:19 公開日:2023-11-02 |
# ディープラーニングを用いたSAR画像における変化検出分類器の差分画像の改善 Improved Difference Images for Change Detection Classifiers in SAR Imagery Using Deep Learning ( http://arxiv.org/abs/2303.17835v2 ) ライセンス: Link先を確認 | Janne Alatalo, Tuomo Sipola, Mika Rantonen | (参考訳) SAR(Synthetic Aperture Radar)画像は、雲のカバーや夜のサイクルに関わらず、リモートセンシング画像のソースとして使用できる。
しかし、スペックルノイズや画像取得条件の変化は、変化検出分類器の課題となる。
本稿では,sar画像処理を改良し,分類アルゴリズムのための高品質差分画像を生成する手法を提案する。
この方法は、要求された取得条件の場所から人工的なSAR画像を生成するニューラルネットワークベースのマッピング変換関数に基づいて構築される。
モデルの入力は、位置からの以前のSAR画像、SAR画像からの撮像角度情報、デジタル標高モデル、気象条件である。
この手法は、欧州宇宙機関のSentinel-1 SAR画像、フィンランド気象研究所の気象データ、フィンランド国立土地測量所のデジタル標高モデルを用いて、フィンランド北東部の位置情報を用いて試験された。
この方法を検証するために,sar画像の変更をシミュレートし,従来の差分画像作成法に比べて性能が大幅に向上した実験を用いて,提案手法の性能を測定した。 Satellite-based Synthetic Aperture Radar (SAR) images can be used as a source of remote sensed imagery regardless of cloud cover and day-night cycle. However, the speckle noise and varying image acquisition conditions pose a challenge for change detection classifiers. This paper proposes a new method of improving SAR image processing to produce higher quality difference images for the classification algorithms. The method is built on a neural network-based mapping transformation function that produces artificial SAR images from a location in the requested acquisition conditions. The inputs for the model are: previous SAR images from the location, imaging angle information from the SAR images, digital elevation model, and weather conditions. The method was tested with data from a location in North-East Finland by using Sentinel-1 SAR images from European Space Agency, weather data from Finnish Meteorological Institute, and a digital elevation model from National Land Survey of Finland. In order to verify the method, changes to the SAR images were simulated, and the performance of the proposed method was measured using experimentation where it gave substantial improvements to performance when compared to a more conventional method of creating difference images. | 翻訳日:2023-11-03 17:55:52 公開日:2023-11-02 |
# CAMEL:大規模言語モデル社会の「ミンド」探索のためのコミュニケーションエージェント CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society ( http://arxiv.org/abs/2303.17760v2 ) ライセンス: Link先を確認 | Guohao Li, Hasan Abed Al Kader Hammoud, Hani Itani, Dmitrii Khizbullin, Bernard Ghanem | (参考訳) チャットベースの言語モデルの急速な進歩は、複雑なタスク解決の著しい進歩をもたらした。
しかし、彼らの成功は会話を導くための人間の入力に大きく依存しています。
本稿では,コミュニケーションエージェント間の自律的協調を促進するスケーラブルな手法の構築の可能性について検討し,その「認知的」プロセスについて考察する。
自律的な協調を実現するための課題を解決するために,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。
我々のアプローチは、人間の意図と整合性を維持しながら、チャットエージェントをタスク完了に向けて誘導するインセプションプロンプトの使用である。
エージェントの社会の行動と能力を研究するために,ロールプレイングが会話データを生成する方法を紹介し,会話言語モデルを研究する上で貴重な資源を提供する。
特に,マルチエージェント環境における命令追従協調に関する包括的研究を行う。
コントリビューションには、新しいコミュニケーションエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供、コミュニケーションエージェントの研究を支援するライブラリのオープンソース化などが含まれています。 The rapid advancement of chat-based language models has led to remarkable progress in complex task-solving. However, their success heavily relies on human input to guide the conversation, which can be challenging and time-consuming. This paper explores the potential of building scalable techniques to facilitate autonomous cooperation among communicative agents, and provides insight into their "cognitive" processes. To address the challenges of achieving autonomous cooperation, we propose a novel communicative agent framework named role-playing. Our approach involves using inception prompting to guide chat agents toward task completion while maintaining consistency with human intentions. We showcase how role-playing can be used to generate conversational data for studying the behaviors and capabilities of a society of agents, providing a valuable resource for investigating conversational language models. In particular, we conduct comprehensive studies on instruction-following cooperation in multi-agent settings. Our contributions include introducing a novel communicative agent framework, offering a scalable approach for studying the cooperative behaviors and capabilities of multi-agent systems, and open-sourcing our library to support research on communicative agents and beyond: https://github.com/camel-ai/camel. | 翻訳日:2023-11-03 17:55:32 公開日:2023-11-02 |
# 事前学習型大規模言語モデルを活用したモデルベースタスク計画のための世界モデルの構築と活用 Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning ( http://arxiv.org/abs/2305.14909v2 ) ライセンス: Link先を確認 | Lin Guan, Karthik Valmeekam, Sarath Sreedharan, Subbarao Kambhampati | (参考訳) 計画問題に事前訓練された大規模言語モデル(LLM)を適用することへの関心が高まっている。
しかし、プランナーとして直接llmを使用する方法は、現在、計画の正確さの制限、シミュレータや実際の環境とのインタラクションからのフィードバックへの強い依存、人間フィードバックの活用の非効率など、いくつかの要因により実用的ではない。
本研究では,ドメイン定義言語(PDDL)の計画において,明示的な世界(ドメイン)モデルを構築し,ドメインに依存しないプランナで計画する新たなパラダイムを提案する。
LLMが最初に完全に機能するPDDLモデルを生成できないという事実に対処するため、PDDLとPDDLバリデータや人間などの修正フィードバック源とのインタフェースとしてLLMを用いる。
PDDLの背景を欠いているユーザに対しては、LDMがPDDLを自然言語に変換し、基礎となるドメインモデルへの修正フィードバックを効果的にエンコードできることを示す。
私たちのフレームワークは、外部プランナーが提供する正確性保証を享受するだけでなく、ユーザが前回の作業のように生成されたすべてのプランを検査し(インタラクティブなプロンプトを通じて)修正するのではなく、最初にドメインモデルを修正できるようにすることによって、人間による関与を低減します。
2つのIPCドメインと、ALFWorldのような一般的なベンチマークよりも複雑であるハウスドメインにおいて、GPT-4が40以上のアクションに対して高品質なPDDLモデルを生成するために活用できることを示し、修正されたPDDLモデルを用いて48の課題計画タスクの解決に成功した。
ソースコードを含むリソースは、https://guansuns.github.io/pages/llm-dm。 There is a growing interest in applying pre-trained large language models (LLMs) to planning problems. However, methods that use LLMs directly as planners are currently impractical due to several factors, including limited correctness of plans, strong reliance on feedback from interactions with simulators or even the actual environment, and the inefficiency in utilizing human feedback. In this work, we introduce a novel alternative paradigm that constructs an explicit world (domain) model in planning domain definition language (PDDL) and then uses it to plan with sound domain-independent planners. To address the fact that LLMs may not generate a fully functional PDDL model initially, we employ LLMs as an interface between PDDL and sources of corrective feedback, such as PDDL validators and humans. For users who lack a background in PDDL, we show that LLMs can translate PDDL into natural language and effectively encode corrective feedback back to the underlying domain model. Our framework not only enjoys the correctness guarantee offered by the external planners but also reduces human involvement by allowing users to correct domain models at the beginning, rather than inspecting and correcting (through interactive prompting) every generated plan as in previous work. On two IPC domains and a Household domain that is more complicated than commonly used benchmarks such as ALFWorld, we demonstrate that GPT-4 can be leveraged to produce high-quality PDDL models for over 40 actions, and the corrected PDDL models are then used to successfully solve 48 challenging planning tasks. Resources, including the source code, are released at: https://guansuns.github.io/pages/llm-dm. | 翻訳日:2023-11-03 17:48:15 公開日:2023-11-02 |
# 機械学習による磁区パターン生成パラメータの不均一性の検出 Detection of Non-uniformity in Parameters for Magnetic Domain Pattern Generation by Machine Learning ( http://arxiv.org/abs/2305.14764v2 ) ライセンス: Link先を確認 | Naoya Mamada, Masaichiro Mizumaki, Ichiro Akai, and Toru Aonishi | (参考訳) 畳み込みニューラルネットワークを用いて多結晶薄膜の磁区パターン形成に関与する不均一な物理パラメータの空間分布を推定する。
本研究では,磁区の小さな部分領域のウィンドウ内のパターンからパラメータを推定し,そのウィンドウをシフトすることで,物理パラメータの空間マップを得る手法を提案する。
このような部分領域におけるパラメータ推定の精度を高めるために,自然画像分類に用いた大規模モデルを採用し,事前学習の利点を生かした。
これらの部分領域における推定精度の高いモデルを用いて,空間変動パラメータを特徴とするシミュレーションデータの推測を行い,パラメータ変動の検出能力を示す。 We estimate the spatial distribution of heterogeneous physical parameters involved in the formation of magnetic domain patterns of polycrystalline thin films by using convolutional neural networks. We propose a method to obtain a spatial map of physical parameters by estimating the parameters from patterns within a small subregion window of the full magnetic domain and subsequently shifting this window. To enhance the accuracy of parameter estimation in such subregions, we employ large-scale models utilized for natural image classification and exploit the benefits of pretraining. Using a model with high estimation accuracy on these subregions, we conduct inference on simulation data featuring spatially varying parameters and demonstrate the capability to detect such parameter variations. | 翻訳日:2023-11-03 17:47:41 公開日:2023-11-02 |
# 分散シフト問題に対するユニバーサルソルバーへの重み付けの一般化 Generalizing Importance Weighting to A Universal Solver for Distribution Shift Problems ( http://arxiv.org/abs/2305.14690v2 ) ライセンス: Link先を確認 | Tongtong Fang, Nan Lu, Gang Niu, Masashi Sugiyama | (参考訳) 分布シフト (ds) は2つのレベルを持つ: 分布自体が変化し、サポート(すなわち確率密度が 0 でない集合)も変化する。
トレーニングとテストディストリビューション間のサポート変更を考慮すると、4つのケースがあります。
(i)正確に一致します。
(ii) 訓練支援はより広く(従って、試験支援をカバーしている)
(iii) 試験支援は広い。
(iv)一部重複している。
既存の方法がうまくいった場合
(i)および
(ii)
(iii)及び
(iv)近年は一般的だが、未調査のままである。
本稿では,ケースの黄金解法である重要重み付け(IW)を一般化する。
(i)および
(ii) あらゆる場合の普遍的な解法について。
特に、なぜIWが失敗するのかを最初に調査する。
(iii)及び
(iv)これらの知見に基づき,事例対応可能な一般化iw(giw)を提案する。
(iii)及び
(iv)ケースではiwまで減少する
(i)および
(ii)
giwでは、試験支援を訓練中(it)部と訓練外(oot)部とに分割し、期待されるリスクをit部上の重み付き分類期間とoot部上の標準分類期間とに分解し、giwのリスク一貫性を保証する。
そして、GIWの実装は3つのコンポーネントから構成される。
a) 検証データの分割は、一級支援ベクトルマシンによって行われる。
b) 経験的リスクの第一項は、トレーニングデータ及びIT検証データを与えられた任意のIWアルゴリズムで処理することができる。
(c)第2項はoot検証データのみを含む。
giwがds問題の普遍解法であることを実証する実験
(iii)及び
(iv) Distribution shift (DS) may have two levels: the distribution itself changes, and the support (i.e., the set where the probability density is non-zero) also changes. When considering the support change between the training and test distributions, there can be four cases: (i) they exactly match; (ii) the training support is wider (and thus covers the test support); (iii) the test support is wider; (iv) they partially overlap. Existing methods are good at cases (i) and (ii), while cases (iii) and (iv) are more common nowadays but still under-explored. In this paper, we generalize importance weighting (IW), a golden solver for cases (i) and (ii), to a universal solver for all cases. Specifically, we first investigate why IW might fail in cases (iii) and (iv); based on the findings, we propose generalized IW (GIW) that could handle cases (iii) and (iv) and would reduce to IW in cases (i) and (ii). In GIW, the test support is split into an in-training (IT) part and an out-of-training (OOT) part, and the expected risk is decomposed into a weighted classification term over the IT part and a standard classification term over the OOT part, which guarantees the risk consistency of GIW. Then, the implementation of GIW consists of three components: (a) the split of validation data is carried out by the one-class support vector machine, (b) the first term of the empirical risk can be handled by any IW algorithm given training data and IT validation data, and (c) the second term just involves OOT validation data. Experiments demonstrate that GIW is a universal solver for DS problems, outperforming IW methods in cases (iii) and (iv). | 翻訳日:2023-11-03 17:47:31 公開日:2023-11-02 |
# ディラックガンマ行列表現を用いた量子誤差緩和のための非マルコフコスト関数 Non-Markovian cost function for quantum error mitigation with Dirac Gamma matrices representation ( http://arxiv.org/abs/2305.14464v2 ) ライセンス: Link先を確認 | Doyeol Ahn (1,2) ((1) Department of Electrical and Computer Engineering, University of Seoul, Seoul, Republic of Korea (2) First Quantum, Inc, Seoul, Republic of Korea) | (参考訳) 本研究では、量子誤差緩和(qem)のための非マルコフコスト関数と、相対論的量子力学の構造の中心であるディラックガンマ行列を用いた2量子ビット作用素の表現について検討する。
量子コンピューティング研究の主な焦点は、特にノイズの多い中間スケール量子(nisq)デバイスにおいて、実際の応用のためにエラーとデコヒーレンスを減らすことである。
既存の研究の多くはマルコフノイズ源に集中しているが、ほとんどの固体量子コンピューティングデバイスで必然的に存在することを考えると、マルコフノイズ源の研究は重要である。
我々は、単純な高調波発振器に代表される環境をノイズ源として考慮し、NISQデバイスに対する量子状態進化の非マルコフモデルと対応するQEMコスト関数を導入する。
量子場理論や超対称性のような物理学の領域に積分されたディラックガンマ行列は、2量子ビットゲート作用素と共通の代数構造を共有する。
ガンマ行列を用いて後者を表現することにより、ガンマ行列の異なる性質により、これらの演算子をより効果的に解析し、操作することができる。
入力状態の異なる2ビット動作におけるアイデンティティとSWAPゲート操作に対する出力量子状態の変動を評価する。
これらの結果とイオントラップと超伝導量子コンピューティングシステムの実験データを比較することにより、QEMコスト関数の重要なパラメータを推定する。
この結果から,量子システムと環境との結合強度が増大するにつれて,QEMコスト関数も増大することがわかった。
本研究は、量子状態の進化を理解するための非マルコフモデルの重要性と、NISQデバイスによる実験結果を評価する際のQEMコスト関数の実践的意味を明らかにする。 In this study, we explore the non-Markovian cost function for quantum error mitigation (QEM) and the representation of two-qubit operators using Dirac Gamma matrices, central to the structure of relativistic quantum mechanics. The primary focus of quantum computing research, particularly with noisy intermediate-scale quantum (NISQ) devices, is on reducing errors and decoherence for practical application. While much of the existing research concentrates on Markovian noise sources, the study of non-Markovian sources is crucial given their inevitable presence in most solid-state quantum computing devices. We introduce a non-Markovian model of quantum state evolution and a corresponding QEM cost function for NISQ devices, considering an environment typified by simple harmonic oscillators as a noise source. The Dirac Gamma matrices, integral to areas of physics like quantum field theory and supersymmetry, share a common algebraic structure with two-qubit gate operators. By representing the latter using Gamma matrices, we are able to more effectively analyze and manipulate these operators due to the distinct properties of Gamma matrices. We evaluate the fluctuations of the output quantum state for identity and SWAP gate operations in two-qubit operations across various input states. By comparing these results with experimental data from ion-trap and superconducting quantum computing systems, we estimate the key parameters of the QEM cost functions. Our results reveal that as the coupling strength between the quantum system and its environment increases, so does the QEM cost function. This study underscores the importance of non-Markovian models for understanding quantum state evolution and the practical implications of the QEM cost function when assessing experimental results from NISQ devices. | 翻訳日:2023-11-03 17:47:07 公開日:2023-11-02 |
# ICAを用いた埋め込みにおける普遍幾何学の発見 Discovering Universal Geometry in Embeddings with ICA ( http://arxiv.org/abs/2305.13175v2 ) ライセンス: Link先を確認 | Hiroaki Yamagiwa, Momose Oyama, Hidetoshi Shimodaira | (参考訳) 本研究では独立成分分析(ICA)を用いて単語や画像の埋め込みにおける一貫した意味構造を明らかにする。
本手法は,主成分分析(PCA)における白化処理後に残る異方性情報を活用することにより,事前学習モデルの埋め込みから独立した意味成分を抽出する。
それぞれの埋め込みは、いくつかの内在的解釈可能な軸の合成として表現でき、これらの意味的軸は異なる言語、アルゴリズム、モダリティ間で一貫性があることを示す。
埋め込みの幾何学的パターンにおける普遍的意味構造の発見は、埋め込みにおける表現の理解を深める。 This study utilizes Independent Component Analysis (ICA) to unveil a consistent semantic structure within embeddings of words or images. Our approach extracts independent semantic components from the embeddings of a pre-trained model by leveraging anisotropic information that remains after the whitening process in Principal Component Analysis (PCA). We demonstrate that each embedding can be expressed as a composition of a few intrinsic interpretable axes and that these semantic axes remain consistent across different languages, algorithms, and modalities. The discovery of a universal semantic structure in the geometric patterns of embeddings enhances our understanding of the representations in embeddings. | 翻訳日:2023-11-03 17:45:10 公開日:2023-11-02 |
# テキスト事前学習言語モデル Textually Pretrained Speech Language Models ( http://arxiv.org/abs/2305.13009v2 ) ライセンス: Link先を確認 | Michael Hassid, Tal Remez, Tu Anh Nguyen, Itai Gat, Alexis Conneau, Felix Kreuk, Jade Copet, Alexandre Defossez, Gabriel Synnaeve, Emmanuel Dupoux, Roy Schwartz, Yossi Adi | (参考訳) 音声言語モデル(SpeechLMs)は、テキストの監督なしに、音声データのみを処理し、生成する。
本研究では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
音声トークン化器,事前学習されたテキストモデル,データセットサイズなど,異なるモデル設計選択の影響を実験的に分析した。
モデルとデータセットのスケールはどちらも,より高性能なSpeechLMを構築する上で重要な役割を担っている。
私たちの観察に基づいて、パラメータ数とトレーニングデータの両方の観点から、最も大きい(我々の知識を最大限に活用する)スピーチlmを提示する。
さらに, モデル評価をさらに改善し, 今後の研究を進めるために, storycloze textual benchmark の2つの音声版を導入する。
音声サンプル、コード、モデルを公開しています。 Speech language models (SpeechLMs) process and generate acoustic data only, without textual supervision. In this work, we propose TWIST, a method for training SpeechLMs using a warm-start from a pretrained textual language models. We show using both automatic and human evaluations that TWIST outperforms a cold-start SpeechLM across the board. We empirically analyze the effect of different model design choices such as the speech tokenizer, the pretrained textual model, and the dataset size. We find that model and dataset scale both play an important role in constructing better-performing SpeechLMs. Based on our observations, we present the largest (to the best of our knowledge) SpeechLM both in terms of number of parameters and training data. We additionally introduce two spoken versions of the StoryCloze textual benchmark to further improve model evaluation and advance future research in the field. We make speech samples, code and models publicly available: https://pages.cs.huji.ac.il/adiyoss-lab/twist/ . | 翻訳日:2023-11-03 17:44:59 公開日:2023-11-02 |
# UniControl:野生で制御可能な視覚生成のための統一拡散モデル UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild ( http://arxiv.org/abs/2305.11147v3 ) ライセンス: Link先を確認 | Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun Fu, Ran Xu | (参考訳) 機械の自律性と人間の制御を達成することは、対話型AIシステムの設計において、しばしば異なる目的を表す。
安定拡散のような視覚的生成基盤モデルは、特に任意の言語で刺激された場合、これらの目標をナビゲートすることを約束している。
しかし、しばしば空間的、構造的、幾何学的な制御による画像の生成に不足する。
このようなコントロールの統合は、単一の統一モデルにおいて様々な視覚条件に対応できるが、未対応の課題である。
そこで我々は,単一フレームワーク内で多岐にわたる制御可能な条件と画像(c2i)タスクを統合するとともに,任意の言語プロンプトを許容する,新しい生成基盤モデルであるunicontrolを導入する。
unicontrolはピクセルレベルのpreciseイメージ生成を可能にする。視覚条件は主に生成された構造に影響を与え、言語はスタイルとコンテキストをガイドする。
多様な視覚条件に対応する能力をユニコントロールするために、事前学習されたテキストから画像への拡散モデルを強化し、拡散モデルを変調するタスクアウェアハイパーネットを導入し、異なるc2iタスクに同時に適応できるようにする。
9つのユニークなC2Iタスクで訓練されたUniControlは、目に見えない視覚条件で、印象的なゼロショット生成能力を示す。
実験の結果,ユニコントロールは,モデルサイズに匹敵するシングルタスク制御手法の性能をしばしば上回っていることがわかった。
この制御の汎用性は、UniControlを制御可能な視覚生成の領域における重要な進歩と位置づけている。 Achieving machine autonomy and human control often represent divergent objectives in the design of interactive AI systems. Visual generative foundation models such as Stable Diffusion show promise in navigating these goals, especially when prompted with arbitrary languages. However, they often fall short in generating images with spatial, structural, or geometric controls. The integration of such controls, which can accommodate various visual conditions in a single unified model, remains an unaddressed challenge. In response, we introduce UniControl, a new generative foundation model that consolidates a wide array of controllable condition-to-image (C2I) tasks within a singular framework, while still allowing for arbitrary language prompts. UniControl enables pixel-level-precise image generation, where visual conditions primarily influence the generated structures and language prompts guide the style and context. To equip UniControl with the capacity to handle diverse visual conditions, we augment pretrained text-to-image diffusion models and introduce a task-aware HyperNet to modulate the diffusion models, enabling the adaptation to different C2I tasks simultaneously. Trained on nine unique C2I tasks, UniControl demonstrates impressive zero-shot generation abilities with unseen visual conditions. Experimental results show that UniControl often surpasses the performance of single-task-controlled methods of comparable model sizes. This control versatility positions UniControl as a significant advancement in the realm of controllable visual generation. | 翻訳日:2023-11-03 17:44:46 公開日:2023-11-02 |
# ストレージ制約のないオンライン連続学習 Online Continual Learning Without the Storage Constraint ( http://arxiv.org/abs/2305.09253v2 ) ライセンス: Link先を確認 | Ameya Prabhu, Zhipeng Cai, Puneet Dokania, Philip Torr, Vladlen Koltun, Ozan Sener | (参考訳) 従来のオンライン継続学習(ocl)の研究は、エージェントの生涯を通して、固定的かつ限定的なストレージ割り当てによる破滅的な記憶の緩和に重点を置いてきた。
しかし、現実世界の幅広いアプリケーションは主にストレージ制限よりも計算コストに制約されている。
本稿では,ストレージ制約の緩和と計算予算の制限下でのオンライン連続学習問題を調査することを目的とした。
我々は,kn分類器を連続的に更新する単純なアルゴリズムと,事前学習した特徴抽出器を提案する。
オンライン連続学習に非常に適しているため,このアルゴリズムを選択した。
急速に変化するストリームに適応し、安定性のギャップをゼロにし、小さな計算予算内で動作し、機能の保存だけでストレージ要件の少ない、一貫性のある特性を持つ。
これらの属性は大幅に改善され、提案アルゴリズムは2つの大規模OCLデータセットに対して20%以上の精度で既存のメソッドを上回り、39Mイメージと712クラスを持つ連続LOCalization (CLOC) と、580Kイメージと10,788クラスを持つ連続Google Landmarks V2 (CGLM) である。
さらに,計算と記憶のコストを大幅に削減して,この優れた性能を実現する。
github.com/drimpossible/ACMで結果を再現するコードを提供します。 Traditional online continual learning (OCL) research has primarily focused on mitigating catastrophic forgetting with fixed and limited storage allocation throughout an agent's lifetime. However, a broad range of real-world applications are primarily constrained by computational costs rather than storage limitations. In this paper, we target such applications, investigating the online continual learning problem under relaxed storage constraints and limited computational budgets. We contribute a simple algorithm, which updates a kNN classifier continually along with a fixed, pretrained feature extractor. We selected this algorithm due to its exceptional suitability for online continual learning. It can adapt to rapidly changing streams, has zero stability gap, operates within tiny computational budgets, has low storage requirements by only storing features, and has a consistency property: It never forgets previously seen data. These attributes yield significant improvements, allowing our proposed algorithm to outperform existing methods by over 20% in accuracy on two large-scale OCL datasets: Continual LOCalization (CLOC) with 39M images and 712 classes and Continual Google Landmarks V2 (CGLM) with 580K images and 10,788 classes, even when existing methods retain all previously seen images. Furthermore, we achieve this superior performance with considerably reduced computational and storage expenses. We provide code to reproduce our results at github.com/drimpossible/ACM. | 翻訳日:2023-11-03 17:44:18 公開日:2023-11-02 |
# ドメインギャップのブリッジ:基礎モデルによる自己監督型3Dシーン理解 Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with Foundation Models ( http://arxiv.org/abs/2305.08776v3 ) ライセンス: Link先を確認 | Zhimin Chen, Longlong Jing, Yingwei Li, Bing Li | (参考訳) 基礎モデルは、画像のセグメンテーション、オブジェクト検出、視覚言語理解などの2dおよび言語タスクで顕著な結果を達成している。
しかし,3次元シーン表現学習を充実させる可能性は,領域ギャップの存在によってほとんど失われる。
本研究では,基礎モデルから派生した特徴,セマンティックマスク,キャプションを用いて3次元モデルの事前学習を行うことにより,このギャップに対処する,Bridge3Dと呼ばれる革新的な手法を提案する。
具体的には,基礎モデルのセマンティックマスクを用いて,マスク付きオートエンコーダのマスキングと再構築のプロセスを導出し,フォアグラウンド表現により注目する。
さらに,画像キャプション基礎モデルを用いて,シーンレベルの3次元テキストギャップをブリッジし,シーンレベルの知識蒸留を容易にする。
基礎モデルからの高精度なオブジェクトレベルのマスクとセマンティックテキストデータを活用する,革新的なオブジェクトレベルの知識蒸留手法を導入することで,このブリッジングの取り組みをさらに拡張する。
提案手法は3次元オブジェクト検出およびセマンティックセグメンテーションタスクにおける既存の最先端手法の性能を大幅に上回る。
例えば、scannetデータセットでは、bridge3dがベースラインを6.3%改善している。
コードは以下の通り。 https://github.com/Zhimin-C/Bridge3D Foundation models have achieved remarkable results in 2D and language tasks like image segmentation, object detection, and visual-language understanding. However, their potential to enrich 3D scene representation learning is largely untapped due to the existence of the domain gap. In this work, we propose an innovative methodology called Bridge3D to address this gap by pre-training 3D models using features, semantic masks, and captions sourced from foundation models. Specifically, our method employs semantic masks from foundation models to guide the masking and reconstruction process for the masked autoencoder, enabling more focused attention on foreground representations. Moreover, we bridge the 3D-text gap at the scene level using image captioning foundation models, thereby facilitating scene-level knowledge distillation. We further extend this bridging effort by introducing an innovative object-level knowledge distillation method that harnesses highly accurate object-level masks and semantic text data from foundation models. Our methodology significantly surpasses the performance of existing state-of-the-art methods in 3D object detection and semantic segmentation tasks. For instance, on the ScanNet dataset, Bridge3D improves the baseline by a notable margin of 6.3%. Code will be available at: https://github.com/Zhimin-C/Bridge3D | 翻訳日:2023-11-03 17:43:51 公開日:2023-11-02 |
# 多変量定常および非定常時系列に対するカーネルベース共同独立試験 Kernel-based Joint Independence Tests for Multivariate Stationary and Non-stationary Time Series ( http://arxiv.org/abs/2305.08529v3 ) ライセンス: Link先を確認 | Zhaolu Liu and Robert L. Peach and Felix Laumann and Sara Vallejo Mengod and Mauricio Barahona | (参考訳) 相互接続されたシステムの時間的進化を捉える多変量時系列データは、多様な領域に分布する。
共観測変数間の複雑な関係と潜在的な依存関係を理解することは、それらのシステムの正確な統計モデルと分析に不可欠である。
本稿では,d$$-variable Hilbert-Schmidt independent criterion (dHSIC) を固定プロセスと非定常プロセスの両方に拡張することにより,多変量時系列における共同独立のカーネルベース統計テストを導入する。
本手法は,実世界の気候,神経科学,社会経済データに加えて,頻度混合データや論理ゲートなど,合成例における重要な高次依存性をロバストに解明する手法である。
本手法は,多変量時系列解析のための数学的ツールボックスに加え,データ中の高次相互作用の解明を支援する。 Multivariate time series data that capture the temporal evolution of interconnected systems are ubiquitous in diverse areas. Understanding the complex relationships and potential dependencies among co-observed variables is crucial for the accurate statistical modelling and analysis of such systems. Here, we introduce kernel-based statistical tests of joint independence in multivariate time series by extending the $d$-variable Hilbert-Schmidt independence criterion (dHSIC) to encompass both stationary and non-stationary processes, thus allowing broader real-world applications. By leveraging resampling techniques tailored for both single- and multiple-realisation time series, we show how the method robustly uncovers significant higher-order dependencies in synthetic examples, including frequency mixing data and logic gates, as well as real-world climate, neuroscience, and socioeconomic data. Our method adds to the mathematical toolbox for the analysis of multivariate time series and can aid in uncovering high-order interactions in data. | 翻訳日:2023-11-03 17:43:30 公開日:2023-11-02 |
# 弱教師付き意味セグメンテーションのためのマスキング協調コントラスト Masked Collaborative Contrast for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.08491v5 ) ライセンス: Link先を確認 | Fangwen Wu, Jingxuan He, Yufei Yin, Yanbin Hao, Gang Huang, Lechao Cheng | (参考訳) 本研究では,弱教師付きセマンティックセマンティックセグメンテーションにおける意味領域を強調するため,Masked Collaborative Contrast (MCC) を提案する。
MCCは暗黙のイメージモデリングと対照的な学習から着想を得て、セマンティック領域に向けた鍵を誘導する新しいフレームワークを考案した。
マスク生成時に入力画像のパッチ領域を直接消去する一般的な手法とは異なり,アフィニティ行列のキーを考慮したマスクを探索することにより,パッチトークンの近傍関係を精査する。
さらに,マスキングローカルアウトプットを活用し,グローバルアウトプットと対比することにより,対照学習において正負のサンプルを生成する。
一般的に使用されるデータセットに関する実験により、提案されたMCCメカニズムが画像内のグローバルとローカルの視点を効果的に整合させ、印象的なパフォーマンスを実現することが証明された。
ソースコードは \url{https://github.com/fwu11/MCC} で入手できる。 This study introduces an efficacious approach, Masked Collaborative Contrast (MCC), to highlight semantic regions in weakly supervised semantic segmentation. MCC adroitly draws inspiration from masked image modeling and contrastive learning to devise a novel framework that induces keys to contract toward semantic regions. Unlike prevalent techniques that directly eradicate patch regions in the input image when generating masks, we scrutinize the neighborhood relations of patch tokens by exploring masks considering keys on the affinity matrix. Moreover, we generate positive and negative samples in contrastive learning by utilizing the masked local output and contrasting it with the global output. Elaborate experiments on commonly employed datasets evidences that the proposed MCC mechanism effectively aligns global and local perspectives within the image, attaining impressive performance. The source code is available at \url{https://github.com/fwu11/MCC}. | 翻訳日:2023-11-03 17:43:10 公開日:2023-11-02 |
# DCASE 2023チャレンジタスクの解説と議論 第2報:機械条件モニタリングのための1ショット無監督異常音検出 Description and Discussion on DCASE 2023 Challenge Task 2: First-Shot Unsupervised Anomalous Sound Detection for Machine Condition Monitoring ( http://arxiv.org/abs/2305.07828v2 ) ライセンス: Link先を確認 | Kota Dohi and Keisuke Imoto and Noboru Harada and Daisuke Niizumi and Yuma Koizumi and Tomoya Nishida and Harsh Purohit and Ryo Tanabe and Takashi Endo and Yohei Kawaguchi | (参考訳) 本稿では,音響シーンとイベントの検出と分類に関するタスク記述(dcase)2023 challenge task 2: ‘first-shot unsupervised anomalous sound detection (asd) for machine condition monitoring’について述べる。
主な目標は、ハイパーパラメータチューニングを必要とせずに、新しいタイプのマシンにASDシステムの迅速なデプロイを可能にすることである。
過去のASDタスクでは、開発および評価データセットが同じマシンタイプであったため、各マシンタイプごとにハイパーパラメータをチューニングする手法が開発された。
しかし、通常データや異常データを開発データセットとして収集することは現実には不可能である。
2023タスク2では、全く新しいマシンタイプでモデルをトレーニングする際の課題であるファーストショットの問題を解決することに重点を置いている。
具体的には
(i)各マシンタイプは1つのセクション(マシンタイプのサブセット)のみを有し、
(ii) 開発・評価データセットのマシンタイプは全く異なる。
23チーム86件の分析により, 基準値を上回るキーが得られた。
1)異なるドメインと属性のクラス不均衡を扱うためのサンプリング技術
2)ロバスト検出のための合成試料の生成,及び
3) 複数種類の事前学習モデルを用いて, 異常検出のための意味のある埋め込みを抽出した。 We present the task description of the Detection and Classification of Acoustic Scenes and Events (DCASE) 2023 Challenge Task 2: ``First-shot unsupervised anomalous sound detection (ASD) for machine condition monitoring''. The main goal is to enable rapid deployment of ASD systems for new kinds of machines without the need for hyperparameter tuning. In the past ASD tasks, developed methods tuned hyperparameters for each machine type, as the development and evaluation datasets had the same machine types. However, collecting normal and anomalous data as the development dataset can be infeasible in practice. In 2023 Task 2, we focus on solving the first-shot problem, which is the challenge of training a model on a completely novel machine type. Specifically, (i) each machine type has only one section (a subset of machine type) and (ii) machine types in the development and evaluation datasets are completely different. Analysis of 86 submissions from 23 teams revealed that the keys to outperform baselines were: 1) sampling techniques for dealing with class imbalances across different domains and attributes, 2) generation of synthetic samples for robust detection, and 3) use of multiple large pre-trained models to extract meaningful embeddings for the anomaly detector. | 翻訳日:2023-11-03 17:42:52 公開日:2023-11-02 |
# 平坦な局所最大値獲得による対向移動性の向上 Boosting Adversarial Transferability by Achieving Flat Local Maxima ( http://arxiv.org/abs/2306.05225v2 ) ライセンス: Link先を確認 | Zhijin Ge, Hongying Liu, Xiaosen Wang, Fanhua Shang, Yuanyuan Liu | (参考訳) 転送ベースの攻撃は、サロゲートモデルで生成された敵の例を採用して、様々なモデルを攻撃し、物理的世界に適用し、興味を惹きつける。
近年,異なる視点から敵の移動性を高めるために,様々な敵の攻撃が出現している。
本研究は, 平坦な局所最小値がよい一般化と相関しているという観測に着想を得て, 平坦な局所領域の逆転例が元の損失関数にペナル化勾配ノルムを導入することにより, 良好な伝達性を持つことを示した。
勾配正規化ノルムの直接最適化は計算コストが高く,逆例生成には難解であるため,目的関数の勾配更新を簡略化する近似最適化手法を提案する。
具体的には、サンプルをランダムにサンプリングし、ヘッセン/ベクトル積の曲率を近似する一階の手順を採用することで、2つの隣接する勾配を補間することで計算をより効率的にする。
一方,より安定な勾配方向を得るため,複数のサンプルをランダムにサンプリングし,各サンプルの勾配を平均して,反復過程におけるランダムサンプリングによるばらつきを低減した。
imagenet互換データセットの広範囲な実験結果から,提案手法は平坦なローカル領域で逆行例を生成し,通常訓練されたモデルあるいは逆行訓練モデルにおいて,最先端攻撃よりも逆行性が著しく向上することが示された。
私たちのコードは、https://github.com/Trustworthy-AI-Group/PGN.comで利用可能です。 Transfer-based attack adopts the adversarial examples generated on the surrogate model to attack various models, making it applicable in the physical world and attracting increasing interest. Recently, various adversarial attacks have emerged to boost adversarial transferability from different perspectives. In this work, inspired by the observation that flat local minima are correlated with good generalization, we assume and empirically validate that adversarial examples at a flat local region tend to have good transferability by introducing a penalized gradient norm to the original loss function. Since directly optimizing the gradient regularization norm is computationally expensive and intractable for generating adversarial examples, we propose an approximation optimization method to simplify the gradient update of the objective function. Specifically, we randomly sample an example and adopt a first-order procedure to approximate the curvature of Hessian/vector product, which makes computing more efficient by interpolating two neighboring gradients. Meanwhile, in order to obtain a more stable gradient direction, we randomly sample multiple examples and average the gradients of these examples to reduce the variance due to random sampling during the iterative process. Extensive experimental results on the ImageNet-compatible dataset show that the proposed method can generate adversarial examples at flat local regions, and significantly improve the adversarial transferability on either normally trained models or adversarially trained models than the state-of-the-art attacks. Our codes are available at: https://github.com/Trustworthy-AI-Group/PGN. | 翻訳日:2023-11-03 17:36:16 公開日:2023-11-02 |
# 長いシーケンスホップフィールドメモリ Long Sequence Hopfield Memory ( http://arxiv.org/abs/2306.04532v2 ) ライセンス: Link先を確認 | Hamza Tahir Chaudhry, Jacob A. Zavatone-Veth, Dmitry Krotov, Cengiz Pehlevan | (参考訳) シーケンスメモリは、エージェントが刺激や動作の複雑なシーケンスをエンコードし、保存し、取り出すのを可能にする、自然および人工知能の重要な属性である。
反復ホップフィールドのようなニューラルネットワークを時間的非対称なヘビー規則で訓練するシーケンスメモリの計算モデルが提案されている。
しかし、これらのネットワークはメモリ間の干渉により、限られたシーケンス容量(記憶されたシーケンスの最大長)に悩まされる。
最近のDense Associative Memoriesの研究に触発されて、非線形相互作用項を導入し、パターン間の分離を強化することにより、これらのモデルのシーケンス能力を拡張する。
従来のホップフィールドネットワークに基づくモデルの既存のスケーリング則を著しく上回り、ネットワークサイズに関するシーケンス容量の新しいスケーリング則を導出し、これらの理論結果を数値シミュレーションにより検証する。
さらに、高相関パターンのシーケンスをリコールするために、一般化された擬似逆則を導入する。
最後に、このモデルを拡張し、状態遷移間の変動タイミングでシーケンスを格納し、生物学的に証明可能な実装を記述する。 Sequence memory is an essential attribute of natural and artificial intelligence that enables agents to encode, store, and retrieve complex sequences of stimuli and actions. Computational models of sequence memory have been proposed where recurrent Hopfield-like neural networks are trained with temporally asymmetric Hebbian rules. However, these networks suffer from limited sequence capacity (maximal length of the stored sequence) due to interference between the memories. Inspired by recent work on Dense Associative Memories, we expand the sequence capacity of these models by introducing a nonlinear interaction term, enhancing separation between the patterns. We derive novel scaling laws for sequence capacity with respect to network size, significantly outperforming existing scaling laws for models based on traditional Hopfield networks, and verify these theoretical results with numerical simulation. Moreover, we introduce a generalized pseudoinverse rule to recall sequences of highly correlated patterns. Finally, we extend this model to store sequences with variable timing between states' transitions and describe a biologically-plausible implementation, with connections to motor neuroscience. | 翻訳日:2023-11-03 17:34:57 公開日:2023-11-02 |
# グラフニューラルネットワークの細粒度表現性 Fine-grained Expressivity of Graph Neural Networks ( http://arxiv.org/abs/2306.03698v2 ) ライセンス: Link先を確認 | Jan B\"oker, Ron Levie, Ningyuan Huang, Soledad Villar, Christopher Morris | (参考訳) グラフ同型問題に対する1ドルのWeisfeiler-Lemanテスト(1$-WL)のような組合せ手法を主に利用して、メッセージパッシンググラフニューラルネットワーク(MPNN)の表現力を分析した。
しかし、グラフ同型目的は本質的にバイナリであり、2つの与えられたグラフ間の類似度について洞察を与えない。
この研究は、1ドルのWLとMPNNをグラファイトに連続的に拡張することでこの問題を解決する。
具体的には,MPNNのグラフ上での表現力の正確なトポロジ的特徴を提示し,これらのネットワークが区別できるグラフと分離の難しさのレベルを明らかにした。
我々はMPNNが点を分離し、普遍近似定理を証明する最も優れた位相を同定する。
その結果,1ドルWLの古典的特徴づけの様々な位相的不変量を組み合わせたグラフとグラフの類似性の理論的枠組みを提供する。
特に、分数同型の概念に基づくグラフ距離である木間距離(英語版)と木準同型(英語版)による部分構造数(英語版)という観点からMPNNの表現力を特徴づけ、これらの概念がグラフオン上の1ドルWLやMPNNと同じ表現力を持つことを示す。
実験により, ランダムに初期化したMPNNは, 訓練を受けずに, 訓練したMPNNと比較して, 競争性能を示すことを示した。
さらに,MPNNの表現性を理解する上での連続的な1ドルWLテストの重要性を強調し,グラフ距離を保存する能力に基づいて異なるMPNNアーキテクチャを評価する。 Numerous recent works have analyzed the expressive power of message-passing graph neural networks (MPNNs), primarily utilizing combinatorial techniques such as the $1$-dimensional Weisfeiler-Leman test ($1$-WL) for the graph isomorphism problem. However, the graph isomorphism objective is inherently binary, not giving insights into the degree of similarity between two given graphs. This work resolves this issue by considering continuous extensions of both $1$-WL and MPNNs to graphons. Concretely, we show that the continuous variant of $1$-WL delivers an accurate topological characterization of the expressive power of MPNNs on graphons, revealing which graphs these networks can distinguish and the level of difficulty in separating them. We identify the finest topology where MPNNs separate points and prove a universal approximation theorem. Consequently, we provide a theoretical framework for graph and graphon similarity combining various topological variants of classical characterizations of the $1$-WL. In particular, we characterize the expressive power of MPNNs in terms of the tree distance, which is a graph distance based on the concept of fractional isomorphisms, and substructure counts via tree homomorphisms, showing that these concepts have the same expressive power as the $1$-WL and MPNNs on graphons. Empirically, we validate our theoretical findings by showing that randomly initialized MPNNs, without training, exhibit competitive performance compared to their trained counterparts. Moreover, we evaluate different MPNN architectures based on their ability to preserve graph distances, highlighting the significance of our continuous $1$-WL test in understanding MPNNs' expressivity. | 翻訳日:2023-11-03 17:34:40 公開日:2023-11-02 |
# 非正規性による弱値の再検討 Revisiting weak values through non-normality ( http://arxiv.org/abs/2306.01392v2 ) ライセンス: Link先を確認 | Lorena Ballesteros Ferraz, Riccardo Muolo, Yves Caudano, Timoteo Carletti | (参考訳) 量子測定は、測定行動のシステムと結果として生じる解釈問題の影響により、量子物理学で最も興味深く議論された現象の1つである。
研究者らは、弱い値と呼ばれる量を利用して測定信号を増幅する弱い測定を提案したが、測定プロセスによって引き起こされるシステムの摂動に関する哲学的な困難を克服した。
この手法は多くの応用があり、特に観察の適切な解釈に関して多くの哲学的疑問を提起する。
本稿では,任意の弱値を適切な非正規作用素の期待値として表現できることを示す。
本稿では,非正規行列の理論と非正規性との関係に基づいて,それらの異常と増幅挙動の予備的説明を行う。
本研究は、測定現象をより深く理解し、実験の設計を支援する方法であり、非正規性によって引き起こされる新しい量子現象を解明するために、両分野の研究者の協力を求めるものである。 Quantum measurement is one of the most fascinating and discussed phenomena in quantum physics, due to the impact on the system of the measurement action and the resulting interpretation issues. Scholars proposed weak measurements to amplify measured signals by exploiting a quantity called a weak value, but also to overcome philosophical difficulties related to the system perturbation induced by the measurement process. The method finds many applications and raises many philosophical questions as well, especially about the proper interpretation of the observations. In this paper, we show that any weak value can be expressed as the expectation value of a suitable non-normal operator. We propose a preliminary explanation of their anomalous and amplification behavior based on the theory of non-normal matrices and their link with non-normality: the weak value is different from an eigenvalue when the operator involved in the expectation value is non-normal. Our study paves the way for a deeper understanding of the measurement phenomenon, helps the design of experiments, and it is a call for collaboration to researchers in both fields to unravel new quantum phenomena induced by non-normality. | 翻訳日:2023-11-03 17:34:08 公開日:2023-11-02 |
# Representation Equivalent Neural Operators: Alias-free Operator Learningのためのフレームワーク Representation Equivalent Neural Operators: a Framework for Alias-free Operator Learning ( http://arxiv.org/abs/2305.19913v2 ) ライセンス: Link先を確認 | Francesca Bartolucci and Emmanuel de B\'ezenac and Bogdan Raoni\'c and Roberto Molinaro and Siddhartha Mishra and Rima Alaifari | (参考訳) 近年、無限次元関数空間間の学習写像である演算子学習は、特にデータから偏微分方程式を学習することに関して大きな注目を集めている。
概念的には、論文に概説すると、ニューラルネットワークはコンピュータ実装への移行において離散化を必要とする。
このステップは、それらの整合性を妥協し、しばしば基礎となる演算子から逸脱させる。
この研究は、これらの問題に対処するために設計されたフレームワークRepresentation equivalent Neural Operators (ReNO)を用いて、ニューラル演算子に新たな視点を提供する。
その核となる概念は、ニューラルネットワークとその離散表現の間の矛盾を測定する演算子エイリアシングである。
我々は,広範に使用されているオペレーター学習手法について検討する。
今回の発見は,異なる離散化やグリッドを扱う際にエイリアシングがいかにエラーをもたらすか,重要な連続構造を失うかを詳述する。
より一般的に、このフレームワークは既存の課題に光を当てるだけでなく、建設的で幅広い性質から、新しいニューラル演算子を開発するためのツールも提供する可能性がある。 Recently, operator learning, or learning mappings between infinite-dimensional function spaces, has garnered significant attention, notably in relation to learning partial differential equations from data. Conceptually clear when outlined on paper, neural operators necessitate discretization in the transition to computer implementations. This step can compromise their integrity, often causing them to deviate from the underlying operators. This research offers a fresh take on neural operators with a framework Representation equivalent Neural Operators (ReNO) designed to address these issues. At its core is the concept of operator aliasing, which measures inconsistency between neural operators and their discrete representations. We explore this for widely-used operator learning techniques. Our findings detail how aliasing introduces errors when handling different discretizations and grids and loss of crucial continuous structures. More generally, this framework not only sheds light on existing challenges but, given its constructive and broad nature, also potentially offers tools for developing new neural operators. | 翻訳日:2023-11-03 17:33:52 公開日:2023-11-02 |
# retr: 汎用的な神経表面再構成のためのトランスフォーマーによるモデリングレンダリング ReTR: Modeling Rendering Via Transformer for Generalizable Neural Surface Reconstruction ( http://arxiv.org/abs/2305.18832v2 ) ライセンス: Link先を確認 | Yixun Liang, Hao He, Ying-cong Chen | (参考訳) 近年,一般化可能な神経表面再構成技術が注目されている。
しかし, 過度に単純化されたボリュームレンダリングプロセスにより, 低信頼度分布と不正確な表面推論の限界に遭遇する。
本稿では,レコンストラクタアーキテクチャを利用してレンダリングプロセスを再設計し,複雑なレンダリングインタラクションモデリングを可能にする新しいフレームワークであるReコンストラクタTRansformer(ReTR)を提案する。
学習可能な$\textit{meta-ray token}$を導入し、クロスアテンションメカニズムを使用して、レンダリングプロセスとサンプルポイントとの相互作用をシミュレートし、観察された色を描画する。
一方、色空間ではなく高次元の特徴空間内で操作することで、ReTRはソースビューの投影色に対する感度を緩和する。
このような改善は、信頼性の高い正確な表面評価をもたらす。
本手法は,様々なデータセット上での手法の有効性を実証し,再構築品質と一般化能力の観点から,現状のアプローチをいかに上回るかを示す。
$\textit{Our code are available at }$ https://github.com/YixunLiang/ReTR。 Generalizable neural surface reconstruction techniques have attracted great attention in recent years. However, they encounter limitations of low confidence depth distribution and inaccurate surface reasoning due to the oversimplified volume rendering process employed. In this paper, we present Reconstruction TRansformer (ReTR), a novel framework that leverages the transformer architecture to redesign the rendering process, enabling complex render interaction modeling. It introduces a learnable $\textit{meta-ray token}$ and utilizes the cross-attention mechanism to simulate the interaction of rendering process with sampled points and render the observed color. Meanwhile, by operating within a high-dimensional feature space rather than the color space, ReTR mitigates sensitivity to projected colors in source views. Such improvements result in accurate surface assessment with high confidence. We demonstrate the effectiveness of our approach on various datasets, showcasing how our method outperforms the current state-of-the-art approaches in terms of reconstruction quality and generalization ability. $\textit{Our code is available at }$ https://github.com/YixunLiang/ReTR. | 翻訳日:2023-11-03 17:33:34 公開日:2023-11-02 |
# BiSLS/SPS:安定バイレベル最適化のための自動チューニングステップサイズ BiSLS/SPS: Auto-tune Step Sizes for Stable Bi-level Optimization ( http://arxiv.org/abs/2305.18666v2 ) ライセンス: Link先を確認 | Chen Fan, Gaspard Chon\'e-Ducasse, Mark Schmidt, Christos Thrampoulidis | (参考訳) ディープラーニングにおける双方向最適化(BO)の人気は、勾配に基づくBOアルゴリズムの研究への関心が高まっている。
しかし、既存のアルゴリズムは、ハイパーグラディエントを計算する際に近似誤差の影響を受け得る2つの結合学習率を含み、高速収束を保証するために注意深い微調整を行う。
この問題を軽減するために,最近提案された適応的なステップサイズ手法,すなわち確率線探索 (SLS) と確率ポリークステップサイズ (SPS) を用いて,上層と下層の両方の学習率の計算を行った。
まず,従来の作業で想定される補間条件を伴わずに,一段最適化におけるSLSとSPSの使用を再検討する。
このような状況下では,文献上の既存の提案を改良し,実装が容易なslsおよびspsの新しい変種について検討する。
重要なことに、これら2つの変種は包絡型ステップサイズを持つ一般的なメソッドファミリーの特別な例と見なすことができる。
この統一エンベロープ戦略はアルゴリズムの拡張とbo設定への収束保証を可能にする。
最後に、SGDとAdamの両バージョンで利用可能な新しいアルゴリズムは、最小のチューニングで大きな学習率を示し、細調整を必要とする対応するバニラSGDやAdam BOアルゴリズムよりも高速に収束することを示した。 The popularity of bi-level optimization (BO) in deep learning has spurred a growing interest in studying gradient-based BO algorithms. However, existing algorithms involve two coupled learning rates that can be affected by approximation errors when computing hypergradients, making careful fine-tuning necessary to ensure fast convergence. To alleviate this issue, we investigate the use of recently proposed adaptive step-size methods, namely stochastic line search (SLS) and stochastic Polyak step size (SPS), for computing both the upper and lower-level learning rates. First, we revisit the use of SLS and SPS in single-level optimization without the additional interpolation condition that is typically assumed in prior works. For such settings, we investigate new variants of SLS and SPS that improve upon existing suggestions in the literature and are simpler to implement. Importantly, these two variants can be seen as special instances of general family of methods with an envelope-type step-size. This unified envelope strategy allows for the extension of the algorithms and their convergence guarantees to BO settings. Finally, our extensive experiments demonstrate that the new algorithms, which are available in both SGD and Adam versions, can find large learning rates with minimal tuning and converge faster than corresponding vanilla SGD or Adam BO algorithms that require fine-tuning. | 翻訳日:2023-11-03 17:33:07 公開日:2023-11-02 |
# 予測合意による協調学習 Collaborative Learning via Prediction Consensus ( http://arxiv.org/abs/2305.18497v2 ) ライセンス: Link先を確認 | Dongyang Fan, Celestine Mendler-D\"unner, Martin Jaggi | (参考訳) 我々は,各エージェントの目標が,自己のトレーニングデータに加えて,協力者の専門知識を活用し,自身のモデルを改善することにある,協調学習環境を考える。
エージェント間の専門知識の交換を容易にするために,集合体による擬似ラベルの共有非ラベル補助データを利用した蒸留法を提案する。
提案手法の中心となるのは,補助データのラベル付け方法が合意に達するまで,各協力者が擬似ラベルに与える影響を適応的に評価する信頼重み付け方式である。
我々は,補助データがサンプリングされた対象領域において,個々のモデルの性能を著しく向上させることができることを実証的に示す。
同時に、悪いモデルが集団に与える影響を確実に軽減することができる。
設計上,本手法はモデルアーキテクチャの不均一性に適応し,典型的な協調学習法に比べて通信オーバーヘッドを大幅に低減する。 We consider a collaborative learning setting where the goal of each agent is to improve their own model by leveraging the expertise of collaborators, in addition to their own training data. To facilitate the exchange of expertise among agents, we propose a distillation-based method leveraging shared unlabeled auxiliary data, which is pseudo-labeled by the collective. Central to our method is a trust weighting scheme that serves to adaptively weigh the influence of each collaborator on the pseudo-labels until a consensus on how to label the auxiliary data is reached. We demonstrate empirically that our collaboration scheme is able to significantly boost individual models' performance in the target domain from which the auxiliary data is sampled. At the same time, it can provably mitigate the negative impact of bad models on the collective. By design, our method adeptly accommodates heterogeneity in model architectures and substantially reduces communication overhead compared to typical collaborative learning methods. | 翻訳日:2023-11-03 17:32:43 公開日:2023-11-02 |
# 償却コスト推定による科学シミュレータの一般化ベイズ推定 Generalized Bayesian Inference for Scientific Simulators via Amortized Cost Estimation ( http://arxiv.org/abs/2305.15208v2 ) ライセンス: Link先を確認 | Richard Gao, Michael Deistler, Jakob H. Macke | (参考訳) シミュレーションベース推論 (SBI) は暗黙の確率を持つシミュレータに対してアモータイズされたベイズ推論を可能にする。
しかし、我々が主に予測シミュレーションの品質に関心を持つ場合、またはモデルが観測されたデータを正確に再現できない場合(すなわち、不特定化されている場合)、ベイズ後方を狙うことは過度に制限される可能性がある。
一般化ベイズ推論(gbi)は、確率関数をデータに対するパラメータの良さを評価するコスト関数に置き換え、(不特定)シミュレータモデルの推論を堅牢化することを目的としている。
しかし、GBI法は一般的に、推論中に各パラメータ値のコスト関数を推定するために複数のシミュレーションを実行する必要がある。
本稿では,この課題に対処するために,GBI の償却コスト推定 (ACE) を提案する。我々は,ニューラルネットワークをトレーニングしてコスト関数を近似し,パラメータと観測データとの予測距離として定義する。
トレーニングされたネットワークはMCMCと組み合わせて、追加のシミュレーションを実行せずにGBI後部を推測することができる。
いくつかのベンチマークタスクにおいて、ACEはコストを正確に予測し、特に不特定シミュレータにおいて、他のSBI法よりも合成観測に近い予測シミュレーションを提供する。
最後に,Allen Cell Types Databaseから実際の細胞内記録を与えられたHodgkin-Huxleyモデルのパラメータを推論するためにACEを適用した。
ACEは、標準のSBI法よりもはるかにシミュレーション効率のよいデータマッチングパラメータを識別する。
要約すると、ACEはSBI法とGBIの強度を組み合わせて、科学シミュレーターのための堅牢でシミュレーションによる推論を行う。 Simulation-based inference (SBI) enables amortized Bayesian inference for simulators with implicit likelihoods. But when we are primarily interested in the quality of predictive simulations, or when the model cannot exactly reproduce the observed data (i.e., is misspecified), targeting the Bayesian posterior may be overly restrictive. Generalized Bayesian Inference (GBI) aims to robustify inference for (misspecified) simulator models, replacing the likelihood-function with a cost function that evaluates the goodness of parameters relative to data. However, GBI methods generally require running multiple simulations to estimate the cost function at each parameter value during inference, making the approach computationally infeasible for even moderately complex simulators. Here, we propose amortized cost estimation (ACE) for GBI to address this challenge: We train a neural network to approximate the cost function, which we define as the expected distance between simulations produced by a parameter and observed data. The trained network can then be used with MCMC to infer GBI posteriors for any observation without running additional simulations. We show that, on several benchmark tasks, ACE accurately predicts cost and provides predictive simulations that are closer to synthetic observations than other SBI methods, especially for misspecified simulators. Finally, we apply ACE to infer parameters of the Hodgkin-Huxley model given real intracellular recordings from the Allen Cell Types Database. ACE identifies better data-matching parameters while being an order of magnitude more simulation-efficient than a standard SBI method. In summary, ACE combines the strengths of SBI methods and GBI to perform robust and simulation-amortized inference for scientific simulators. | 翻訳日:2023-11-03 17:31:32 公開日:2023-11-02 |
# ソクラティック推論の技法:大規模言語モデルによる再帰的思考 The Art of SOCRATIC QUESTIONING: Recursive Thinking with Large Language Models ( http://arxiv.org/abs/2305.14999v2 ) ライセンス: Link先を確認 | Jingyuan Qi, Zhiyang Xu, Ying Shen, Minqian Liu, Di Jin, Qifan Wang, Lifu Huang | (参考訳) CoT(Chain-of-Thought)は、中間ステップを生成することで、大規模言語モデルによる複雑な推論問題の解決を可能にする。
しかし、CoTは固有のシングルパスとシーケンシャルな生成プロセスに制限され、初期決定に大きく依存し、初期ステップでエラーが発生し、最終回答に影響を及ぼす。
対照的に、人間は複雑な推論問題に取り組む際に再帰的思考を採用する、すなわち、元の問題をアプローチ可能なサブプロブレムに反復的に分解し、元の問題を解くために答えを集約する。
人間の認知過程に触発され,再帰的思考過程を模倣する分割・対数型アルゴリズムであるSOCRATIC QUESTIONINGを提案する。
具体的には、socratic questioningは、大きな言語モデルを利用してサブクエスチョーションを収集し、元の質問に取り組むのに十分な情報を集める。
CoTとは異なり、SOCRATIC QUESTIONINGは思考空間を明示的にナビゲートし、効果的な再帰的思考を刺激し、思考プロセスのエラーに対してより堅牢である。
MMLU、MATH、LogiQA、視覚的質問応答などの複雑な推論タスクに対する広範な実験は、CoTやTree-of-Thoughtといった最先端のプロンプト手法よりも大幅に改善されている。
定性的な分析により,SOCRATIC QUESTIONINGによって引き起こされた中間的推論ステップが,複雑な推論問題の再帰的思考過程に類似していることが明らかとなった。 Chain-of-Thought (CoT) prompting enables large language models to solve complex reasoning problems by generating intermediate steps. However, confined by its inherent single-pass and sequential generation process, CoT heavily relies on the initial decisions, causing errors in early steps to accumulate and impact the final answers. In contrast, humans adopt recursive thinking when tackling complex reasoning problems, i.e., iteratively breaking the original problem into approachable sub-problems and aggregating their answers to resolve the original one. Inspired by the human cognitive process, we propose SOCRATIC QUESTIONING, a divide-and-conquer style algorithm that mimics the recursive thinking process. Specifically, SOCRATIC QUESTIONING leverages large language models to raise and answer sub-questions until collecting enough information to tackle the original question. Unlike CoT, SOCRATIC QUESTIONING explicitly navigates the thinking space, stimulates effective recursive thinking, and is more robust towards errors in the thinking process. Extensive experiments on several complex reasoning tasks, including MMLU, MATH, LogiQA, and visual question-answering demonstrate significant performance improvements over the state-of-the-art prompting methods, such as CoT, and Tree-of-Thought. The qualitative analysis clearly shows that the intermediate reasoning steps elicited by SOCRATIC QUESTIONING are similar to humans' recursively thinking process of complex reasoning problems. | 翻訳日:2023-11-03 17:31:01 公開日:2023-11-02 |
# CLIPによる自己監督型画像キャプション Self-Supervised Image Captioning with CLIP ( http://arxiv.org/abs/2306.15111v2 ) ライセンス: Link先を確認 | Chuanyang Jin | (参考訳) 視覚言語理解の基本課題である画像キャプションは、提供された画像に対して正確な自然言語記述を生成する。
現在の画像キャプションアプローチは高品質な画像キャプチャペアに大きく依存しており、多くのドメインでは取得が難しい。
そこで本稿では,自己監督型画像キャプション手法を提案する。
小さなラベル付きデータセットから最初の信号を学習した後、ラベル付きデータで自己教師付き学習に移行し、画像と生成したキャプション間のクリップの関連性を高める補助タスクを利用する。
注目すべきは、ラベル付きCOCOデータセットの2%未満を活用するにもかかわらず、我々の方法は、完全なデータセットでトレーニングされた最先端モデルに匹敵するパフォーマンスを提供する。
さらに,人間による評価により,教師付き学習によって実現が困難となる2つの属性により,特徴性と情報性が向上したキャプションが得られた。 Image captioning, a fundamental task in vision-language understanding, seeks to generate accurate natural language descriptions for provided images. Current image captioning approaches heavily rely on high-quality image-caption pairs, which can be hard to obtain for many domains. To address this, we introduce a self-supervised image captioning method. After learning an initial signal from a small labeled dataset, our method transitions to self-supervised learning on unlabeled data, leveraging the auxiliary task of enhancing the CLIP relevance between images and generated captions. Remarkably, despite utilizing less than 2% of the labeled COCO dataset, our method delivers a performance comparable to state-of-the-art models trained on the complete dataset. Human evaluations further reveal that our method produces captions with greater distinctiveness and informativeness, two attributes inherently challenging to achieve through supervised learning. | 翻訳日:2023-11-03 17:23:07 公開日:2023-11-02 |
# 絡み合い膜からのページ曲線 The Page curve from the entanglement membrane ( http://arxiv.org/abs/2306.13140v3 ) ライセンス: Link先を確認 | Mike Blake and Anthony P. Thompson | (参考訳) カオス多体量子系から構築されたブラックホール情報の玩具モデルにおけるエンタングルメントダイナミクスについて,'エンタングルメント膜'と呼ばれるシステムにおけるエンタングルメントダイナミクスの粗粒度記述を用いて検討した。
これらのモデルにおいて、ホーキング放射のエントロピーに関連するページ曲線は、半古典的重力下でページ曲線に繋がる量子極端曲面の変化と類似した方法で、ページ時間周りのエンタングルメント膜における遷移から生じる。
また,hayden-preskillプロトコルの研究には,エンタングルメント膜処方薬を用い,ブラックホールにエンコードされた情報がどのようにしてページタイム前後の放射線に急速に伝達されるかを実証した。
この結果は,近年のブラックホール情報とカオス多体量子系の絡み合い力学の一般的な特徴に関連している。 We study entanglement dynamics in toy models of black hole information built out of chaotic many-body quantum systems, by utilising a coarse-grained description of entanglement dynamics in such systems known as the `entanglement membrane'. We show that in these models the Page curve associated to the entropy of Hawking radiation arises from a transition in the entanglement membrane around the Page time, in an analogous manner to the change in quantum extremal surfaces that leads to the Page curve in semi-classical gravity. We also use the entanglement membrane prescription to study the Hayden-Preskill protocol, and demonstrate how information initially encoded in the black hole is rapidly transferred to the radiation around the Page time. Our results relate recent developments in black hole information to generic features of entanglement dynamics in chaotic many-body quantum systems. | 翻訳日:2023-11-03 17:22:51 公開日:2023-11-02 |
# Bicausal Optimal Transportのためのフィット値反復法 Fitted Value Iteration Methods for Bicausal Optimal Transport ( http://arxiv.org/abs/2306.12658v2 ) ライセンス: Link先を確認 | Erhan Bayraktar, Bingyan Han | (参考訳) 結合が適合した構造を持つ二因果最適輸送(OT)を計算するための適合値反復(FVI)法を開発した。
動的プログラミングの定式化に基づいて、FVIは関数クラスを採用し、二元関数の値関数を近似する。
集中性条件と近似完全性仮定の下で、(局所)ラデマッハ複雑性を用いてサンプル複雑性を証明した。
さらに、適切な構造を持つ多層ニューラルネットワークが、サンプル複雑性証明に必要な重要な仮定を満たすことを示した。
数値実験により、FVIは線形プログラミングと適応したシンクホーン法を時間的水平線が大きくなるにつれて性能が向上し、精度は維持されていることが明らかになった。 We develop a fitted value iteration (FVI) method to compute bicausal optimal transport (OT) where couplings have an adapted structure. Based on the dynamic programming formulation, FVI adopts a function class to approximate the value functions in bicausal OT. Under the concentrability condition and approximate completeness assumption, we prove the sample complexity using (local) Rademacher complexity. Furthermore, we demonstrate that multilayer neural networks with appropriate structures satisfy the crucial assumptions required in sample complexity proofs. Numerical experiments reveal that FVI outperforms linear programming and adapted Sinkhorn methods in scalability as the time horizon increases, while still maintaining acceptable accuracy. | 翻訳日:2023-11-03 17:22:35 公開日:2023-11-02 |
# OpenSBT: 自動走行システムの検索ベーステストのためのモジュールフレームワーク OpenSBT: A Modular Framework for Search-based Testing of Automated Driving Systems ( http://arxiv.org/abs/2306.10296v2 ) ライセンス: Link先を確認 | Lev Sorokin, Tiziano Munaro, Damir Safin, Brian Hsuan-Cheng Liao, Adam Molin | (参考訳) 検索ベースソフトウェアテスト(SBT)は、自動走行システム(ADS)をテストするための効率的かつ効率的な手法である。
しかし、複雑な運転シミュレーションプラットフォームを統合し、必要な検索アルゴリズムで通信プロトコルとAPIを確立するため、ADSテスト用のテストパイプラインは特に難しい。
この複雑さは、sbtが広く採用されることを防ぎ、異なるシミュレータと探索アプローチによる徹底した実験的な比較実験を行う。
ADS の SBT を促進するオープンソースでモジュール化された拡張可能なフレームワーク OpenSBT を提案する。
OpenSBTでは、シミュレータをテスト対象の組み込みシステム、検索アルゴリズム、テスト用のフィットネス機能と統合することができる。
我々は,このアーキテクチャについて述べるとともに,産業パートナーのdensoと共同で高忠実度prescanシミュレータにおいて,carlaの緊急ブレーキ自動テストに異なる探索アルゴリズムを適用することで,このフレームワークの利用例を示す。
OpenSBTはhttps://git.fortiss.org/opensbt.comで入手できる。
デモビデオは以下の通り。 Search-based software testing (SBT) is an effective and efficient approach for testing automated driving systems (ADS). However, testing pipelines for ADS testing are particularly challenging as they involve integrating complex driving simulation platforms and establishing communication protocols and APIs with the desired search algorithm. This complexity prevents a wide adoption of SBT and thorough empirical comparative experiments with different simulators and search approaches. We present OpenSBT, an open-source, modular and extensible framework to facilitate the SBT of ADS. With OpenSBT, it is possible to integrate simulators with an embedded system under test, search algorithms and fitness functions for testing. We describe the architecture and show the usage of our framework by applying different search algorithms for testing Automated Emergency Braking Systems in CARLA as well in the high-fidelity Prescan simulator in collaboration with our industrial partner DENSO. OpenSBT is available at https://git.fortiss.org/opensbt. A demo video is provided here: https://youtu.be/6csl\_UAOD\_4. | 翻訳日:2023-11-03 17:21:34 公開日:2023-11-02 |
# fedstellar: 分散連合学習のためのプラットフォーム Fedstellar: A Platform for Decentralized Federated Learning ( http://arxiv.org/abs/2306.09750v2 ) ライセンス: Link先を確認 | Enrique Tom\'as Mart\'inez Beltr\'an and \'Angel Luis Perales G\'omez and Chao Feng and Pedro Miguel S\'anchez S\'anchez and Sergio L\'opez Bernal and G\'er\^ome Bovet and Manuel Gil P\'erez and Gregorio Mart\'inez P\'erez and Alberto Huertas Celdr\'an | (参考訳) 2016年、Googleはフェデレート・ラーニング(FL)を、データプライバシを保持しながらフェデレーションの参加者間で機械学習(ML)モデルをトレーニングするための新しいパラダイムとして提案した。
誕生以来、集中型fl (cfl) は最もよく用いられるアプローチであり、中央のエンティティが参加者のモデルを集約してグローバルに構築する。
しかし、CFLは通信ボトルネック、単一障害点、中央サーバへの依存といった制限を提示している。
分散連合学習(dfl)は、分散モデル集約を可能にし、中央のエンティティへの依存性を最小限にすることで、これらの問題を解決する。
これらの進歩にもかかわらず、dflモデルをトレーニングする現在のプラットフォームは、ヘテロジニアスフェデレーションネットワークトポロジの管理のような重要な問題に苦しむ。
このような課題を克服するため,本稿では,分散化,半分散化,集中型のflモデルを,物理デバイスや仮想化デバイスのさまざまなフェデレーションでトレーニングするための,新たなプラットフォームであるfeedstellarを提案する。
Fedstellarの実装には、インタラクティブなグラフィカルインターフェースを備えたWebアプリケーション、物理または仮想デバイスを使用してノードのフェデレーションをデプロイするコントローラ、ネットワーク内のトレーニング、集約、通信に必要なロジックを提供する各デバイスにデプロイされるコアが含まれている。
プラットフォームの有効性は、サイバー攻撃を検出するraspberry piのようなシングルボードデバイスを含む物理的デプロイメントと、mnistとcifar-10データセットを使用して制御された環境での様々なflアプローチを比較する仮想化デプロイメントの2つのシナリオで実証されている。
どちらのシナリオでもフェデラーは一貫した性能と適応性を示し、91%、98%、91.2%のdflでサイバー攻撃の検出とmnistとcifar-10の分類を行い、集中型アプローチと比較してトレーニング時間を32%削減した。 In 2016, Google proposed Federated Learning (FL) as a novel paradigm to train Machine Learning (ML) models across the participants of a federation while preserving data privacy. Since its birth, Centralized FL (CFL) has been the most used approach, where a central entity aggregates participants' models to create a global one. However, CFL presents limitations such as communication bottlenecks, single point of failure, and reliance on a central server. Decentralized Federated Learning (DFL) addresses these issues by enabling decentralized model aggregation and minimizing dependency on a central entity. Despite these advances, current platforms training DFL models struggle with key issues such as managing heterogeneous federation network topologies. To overcome these challenges, this paper presents Fedstellar, a novel platform designed to train FL models in a decentralized, semi-decentralized, and centralized fashion across diverse federations of physical or virtualized devices. The Fedstellar implementation encompasses a web application with an interactive graphical interface, a controller for deploying federations of nodes using physical or virtual devices, and a core deployed on each device which provides the logic needed to train, aggregate, and communicate in the network. The effectiveness of the platform has been demonstrated in two scenarios: a physical deployment involving single-board devices such as Raspberry Pis for detecting cyberattacks, and a virtualized deployment comparing various FL approaches in a controlled environment using MNIST and CIFAR-10 datasets. In both scenarios, Fedstellar demonstrated consistent performance and adaptability, achieving F1 scores of 91%, 98%, and 91.2% using DFL for detecting cyberattacks and classifying MNIST and CIFAR-10, respectively, reducing training time by 32% compared to centralized approaches. | 翻訳日:2023-11-03 17:21:13 公開日:2023-11-02 |
# 非相互作用性フェルミオン不純物の系バス絡み合い : 平衡、過渡、定常状態 System-bath entanglement of noninteracting fermionic impurities: Equilibrium, transient, and steady-state regimes ( http://arxiv.org/abs/2306.09680v2 ) ライセンス: Link先を確認 | Krzysztof Ptaszynski, Massimiliano Esposito | (参考訳) 3つの異なる熱力学系における1つのフェルミオンレベルとフェルミオン浴間の絡み合いの挙動について検討した。
まず, 熱平衡において, 統計的アンサンブルに対する絡み合いの依存性を分析した: グランドカノニカル状態においては, 十分に強い系-バスカップリングに対してのみ生成するが, 固定粒子数を持つ正準状態に対して任意に弱いカップリングには存在する。
絡み合いが現れる閾値結合強度はバス帯域に大きく依存することが示されている。
第二に、均衡への緩和を考える。
この場合、弱結合状態においても一定時間間隔の過渡的絡み合いを観測することができ、系のダイナミクスと熱力学が状態集団に対する効果的に古典的かつマルコフ的マスター方程式によってよく説明できる。
強い結合強度では、絡み合いは長期間保存され、平衡値に収束する。
最後に、電圧駆動接合では、一定のしきい値電圧で任意に弱いシステムバス結合に対して定常的な絡み合いが発生する。
強結合状態において強化され、粒子ホールまたはトンネルカップリング非対称性により低減される。 We investigate the behavior of entanglement between a single fermionic level and a fermionic bath in three distinct thermodynamic regimes. First, in thermal equilibrium, we analyze the dependence of entanglement on the considered statistical ensemble: for the grand canonical state, it is generated only for a sufficiently strong system-bath coupling, whereas it is present for arbitrarily weak couplings for the canonical state with a fixed particle number. The threshold coupling strength, at which entanglement appears, is shown to strongly depend on the bath bandwidth. Second, we consider the relaxation to equilibrium. In this case a transient entanglement in a certain time interval can be observed even in the weak-coupling regime, when the reduced dynamics and thermodynamics of the system can be well described by an effectively classical and Markovian master equation for the state populations. At strong coupling strengths, entanglement is preserved for long times and converges to its equilibrium value. Finally, in voltage-driven junctions, a steady-state entanglement is generated for arbitrarily weak system-bath couplings at a certain threshold voltage. It is enhanced in the strong-coupling regime, and it is reduced by either the particle-hole or the tunnel coupling asymmetry. | 翻訳日:2023-11-03 17:20:36 公開日:2023-11-02 |
# 多目的量子熱力学 Multipurpose Quantum Thermodynamic Operations ( http://arxiv.org/abs/2306.09088v2 ) ライセンス: Link先を確認 | Joe Dunlop, Federico Cerisola, Jorge Tabanera-Bravo, and Janet Anders | (参考訳) 量子的あるいは古典的情報処理は、複数の入力状態を異なる対応する出力に変換するチャネルに依存している。
これまでの研究では、そのような操作に必要な熱力学資源の限界が確立されているが、最適な実装のためのプロトコルは特定されていない。
量子ビットの洞察に富む場合、エネルギー的に最適に複数の状態を変換する明示的なプロトコルを開発する。
まず、そのような変換を全く実行可能であることの条件を証明し、達成可能な作業抽出を定量化する。
この結果から, 熱力学的理想の低速準定常過程と, 異なる出力状態の区別性を維持するための情報理論的要件の相違が明らかになった。 Information processing, quantum or classical, relies on channels transforming multiple input states to different corresponding outputs. Previous research has established bounds on the thermodynamic resources required for such operations, but no protocols have been specified for their optimal implementation. For the insightful case of qubits, we here develop explicit protocols to transform multiple states in an energetically optimal manner. We first prove conditions on the feasibility of carrying out such transformations at all, and then quantify the achievable work extraction. Our results uncover a fundamental incompatibility between the thermodynamic ideal of slow, quasistatic processes and the information-theoretic requirement to preserve distinguishablity between different possible output states. | 翻訳日:2023-11-03 17:20:14 公開日:2023-11-02 |
# フェルミオン不純物のマルコフ緩和過程におけるシステムバスの絡み合い System-bath entanglement during Markovian relaxation of a fermionic impurity ( http://arxiv.org/abs/2306.08626v2 ) ライセンス: Link先を確認 | Krzysztof Ptaszynski, Massimiliano Esposito | (参考訳) フェルミイオン熱浴に結合した非相互作用性フェルミイオン不純物の熱分解におけるシステムと環境の絡み合いのダイナミクスについて検討した。
弱結合状態においても過渡的絡み合いは観測可能であり、系の還元ダイナミクスや熱力学が状態集団に対する古典的・マルコフ的マスター方程式によってよく説明できることを示した。
この絡み合いは長い間消滅するが、緩和時間に匹敵する時間スケールで保存される。
その大きさは、システムと環境のカップリングに弱いだけでなく、システムの初期状態の純度に大きく依存する。
我々は,このような過渡的絡み合いの存在とマルコフ記述の縮小に基づくシステムバス力学のユニタリ特性を関連づける。 We investigate the dynamics of entanglement between the system and the environment during thermalization of a noninteracting fermionic impurity coupled to a fermionic thermal bath. We show that transient entanglement can be observed even in the weak coupling regime, when the reduced dynamics and thermodynamics of the system can be well described by an effectively classical and Markovian master equation for the state populations. This entanglement vanishes for long times, but is preserved over timescales comparable to the relaxation time. Its magnitude depends only weakly on the system-environment coupling but instead strongly on the purity of the initial state of the system. We relate the presence of such transient entanglement to the unitary character of the system-bath dynamics underlying the reduced Markovian description. | 翻訳日:2023-11-03 17:20:03 公開日:2023-11-02 |
# (増幅)Banded Matrix Factorization:プライベートトレーニングへの統一的アプローチ (Amplified) Banded Matrix Factorization: A unified approach to private training ( http://arxiv.org/abs/2306.08153v2 ) ライセンス: Link先を確認 | Christopher A. Choquette-Choo, Arun Ganesh, Ryan McKenna, H. Brendan McMahan, Keith Rush, Abhradeep Thakurta, and Zheng Xu | (参考訳) 差分プライバシ(DP)のための行列分解(MF)メカニズムは、さまざまなシナリオでMLアプリケーションのプライバシ・ユーティリティ・コンピューティングトレードオフの最先端性を大幅に改善しましたが、集中型とフェデレーション型の両方の設定では、MFが簡単に適用できない場合や、他のアルゴリズムがよりよいトレードオフを提供する場合があります(通常、$\epsilon$が小さくなるにつれて)。
本稿では,mfが,すべてのプライバシ予算にまたがって,フェデレーショントレーニングと集中トレーニングの両方において,事前の最先端アルゴリズムをどのように組み込むかを示す。
鍵となる技術は、帯状行列を持つMF機構(主対角線を含む少なくとも$\hat{b}=非零バンドを持つより低い三角形行列)の構築である。
クロスデバイスフェデレーション学習(fl)では、実際のflインフラストラクチャと互換性のある、緩和されたデバイス参加スキーマによる複数参加が可能になる。
集中的な設定では、バンド化された行列がユビキタスDP-SGDアルゴリズムと同じプライバシー増幅結果を楽しむが、ほとんどのシナリオで厳格に優れたパフォーマンスを提供できることを証明します。 Matrix factorization (MF) mechanisms for differential privacy (DP) have substantially improved the state-of-the-art in privacy-utility-computation tradeoffs for ML applications in a variety of scenarios, but in both the centralized and federated settings there remain instances where either MF cannot be easily applied, or other algorithms provide better tradeoffs (typically, as $\epsilon$ becomes small). In this work, we show how MF can subsume prior state-of-the-art algorithms in both federated and centralized training settings, across all privacy budgets. The key technique throughout is the construction of MF mechanisms with banded matrices (lower-triangular matrices with at most $\hat{b}$ nonzero bands including the main diagonal). For cross-device federated learning (FL), this enables multiple-participations with a relaxed device participation schema compatible with practical FL infrastructure (as demonstrated by a production deployment). In the centralized setting, we prove that banded matrices enjoy the same privacy amplification results as the ubiquitous DP-SGD algorithm, but can provide strictly better performance in most scenarios -- this lets us always at least match DP-SGD, and often outperform it. | 翻訳日:2023-11-03 17:19:50 公開日:2023-11-02 |
# AVIS:大規模言語モデルエージェントによる自律的な視覚情報検索 AVIS: Autonomous Visual Information Seeking with Large Language Model Agent ( http://arxiv.org/abs/2306.08129v3 ) ライセンス: Link先を確認 | Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A Ross, Cordelia Schmid, Alireza Fathi | (参考訳) 本稿では,視覚的質問応答フレームワークAVISを提案する。
提案手法は,外部ツールの利用を動的に階層化し,それらのアウトプットを調査するための大規模言語モデル(llm)を活用する。
外部の知識を必要とする視覚的な質問に対して,“このイメージに描かれた建物で記念されるイベント”というような質問は,複雑な作業である。
このタスクは、apiの起動、応答の分析、インフォームドな意思決定など、一連のアクションを必要とする組合せ検索スペースを提供する。
この課題に直面すると,人間の意思決定のさまざまな事例を収集するために,ユーザ調査を実施します。
このデータは、次に使用するツールを動的に決定するLLMベースのプランナ、ツール出力からキー情報を分析して抽出するLLMベースの推論器、取得した情報をプロセスを通して保持するワーキングメモリコンポーネントの3つのコンポーネントで構成されるシステムの設計に使用される。
収集したユーザの振る舞いは、2つの重要な方法でシステムのガイドとなります。
まず,ユーザによる意思決定の順序を解析し,遷移グラフを作成する。
このグラフは、異なる状態を示し、各状態で利用できる一連のアクションを限定する。
第2に、ユーザ意思決定の例を用いて、LLMを利用するプランナーと推論者に関連するコンテキストインスタンスを提供し、情報的な意思決定を行う能力を高める。
AVISは、InfoseekやOK-VQAなどの知識集約型視覚質問応答ベンチマークにおいて、最先端の結果が得られることを示す。 In this paper, we propose an autonomous information seeking visual question answering framework, AVIS. Our method leverages a Large Language Model (LLM) to dynamically strategize the utilization of external tools and to investigate their outputs, thereby acquiring the indispensable knowledge needed to provide answers to the posed questions. Responding to visual questions that necessitate external knowledge, such as "What event is commemorated by the building depicted in this image?", is a complex task. This task presents a combinatorial search space that demands a sequence of actions, including invoking APIs, analyzing their responses, and making informed decisions. We conduct a user study to collect a variety of instances of human decision-making when faced with this task. This data is then used to design a system comprised of three components: an LLM-powered planner that dynamically determines which tool to use next, an LLM-powered reasoner that analyzes and extracts key information from the tool outputs, and a working memory component that retains the acquired information throughout the process. The collected user behavior serves as a guide for our system in two key ways. First, we create a transition graph by analyzing the sequence of decisions made by users. This graph delineates distinct states and confines the set of actions available at each state. Second, we use examples of user decision-making to provide our LLM-powered planner and reasoner with relevant contextual instances, enhancing their capacity to make informed decisions. We show that AVIS achieves state-of-the-art results on knowledge-intensive visual question answering benchmarks such as Infoseek and OK-VQA. | 翻訳日:2023-11-03 17:19:25 公開日:2023-11-02 |
# 学習に基づく車体運動計画の誤解を分かち合う Parting with Misconceptions about Learning-based Vehicle Motion Planning ( http://arxiv.org/abs/2306.07962v2 ) ライセンス: Link先を確認 | Daniel Dauner, Marcel Hallgarten, Andreas Geiger, Kashyap Chitta | (参考訳) nuPlanのリリースは、車両の運動計画研究の新しい時代であり、大規模な実世界のデータセットと、正確な短期計画と長期のエゴ予測の両方を必要とする評価スキームを提供する。
既存のシステムは、両方の要求を同時に満たすのに苦労している。
実際、これらのタスクは根本的に不一致であり、独立して対処すべきである。
さらに,現場におけるクローズドループ計画の現状を評価し,複雑な実世界のシナリオにおける学習に基づく手法の限界と,レーングラフ探索アルゴリズムによる中心線選択などの単純なルールに基づく事前情報の価値を明らかにする。
さらに驚くべきことに、オープンループのサブタスクでは、この中心線のみをシーンコンテキストとして使用する場合(つまり、地図やその他のエージェントに関するすべての情報を無視する場合)に、最良の結果が得られる。
これらの知見を組み合わせることで、非常にシンプルで効率的なプランナーを提案し、2023年のnuPlan計画コンテストで優勝した。 The release of nuPlan marks a new era in vehicle motion planning research, offering the first large-scale real-world dataset and evaluation schemes requiring both precise short-term planning and long-horizon ego-forecasting. Existing systems struggle to simultaneously meet both requirements. Indeed, we find that these tasks are fundamentally misaligned and should be addressed independently. We further assess the current state of closed-loop planning in the field, revealing the limitations of learning-based methods in complex real-world scenarios and the value of simple rule-based priors such as centerline selection through lane graph search algorithms. More surprisingly, for the open-loop sub-task, we observe that the best results are achieved when using only this centerline as scene context (i.e., ignoring all information regarding the map and other agents). Combining these insights, we propose an extremely simple and efficient planner which outperforms an extensive set of competitors, winning the nuPlan planning challenge 2023. | 翻訳日:2023-11-03 17:18:57 公開日:2023-11-02 |
# lookaroundオプティマイザ:$k$のステップ、平均1ステップ Lookaround Optimizer: $k$ steps around, 1 step average ( http://arxiv.org/abs/2306.07684v3 ) ライセンス: Link先を確認 | Jiangtao Zhang, Shunyu Liu, Jie Song, Tongtian Zhu, Zhengqi Xu, Mingli Song | (参考訳) 重み平均(WA)は、深層ネットワークの簡易化と一般化の促進に効果があるため、活発な研究課題である。
しかし、既存の重量平均アプローチは、ポストホックな方法で1つのトレーニングコース(すなわち、トレーニングプロセス全体の完了後に重量が平均される)に沿って行われることが多く、ネットワーク間の多様性を著しく低下させ、効果を損なう。
本稿では,重量平均に着想を得たlookaroundを提案する。これは単純で効果的なsgdベースの最適化器で,より一般化されたフラットなミニマを導出する。
特に、Lookaroundはトレーニング期間中に、アラウンドステップと平均ステップの2つのステップを繰り返す。
それぞれのイテレーションで。
1)その周辺ステップは、共通点から始まり、異なるデータ拡張によって変換されたデータに基づいて、複数のネットワークを同時に訓練する。
2) 平均的なステップは、トレーニングされたネットワークを平均化し、次のイテレーションの出発点となる平均的なネットワークを得る。
平均的なステップは、トレーニング全体においてこれらのネットワークの重みの局所性を保証しますが、WAが機能するのは必須です。
我々は,コンバージェンス解析によるルックアラウンドの優位性を理論的に説明し,cnnとvitsを用いたcifarやimagenetなどの人気のあるベンチマークのルックアラウンドを評価するために広範な実験を行った。
私たちのコードはhttps://github.com/ardcy/lookaroundで利用可能です。 Weight Average (WA) is an active research topic due to its simplicity in ensembling deep networks and the effectiveness in promoting generalization. Existing weight average approaches, however, are often carried out along only one training trajectory in a post-hoc manner (i.e., the weights are averaged after the entire training process is finished), which significantly degrades the diversity between networks and thus impairs the effectiveness. In this paper, inspired by weight average, we propose Lookaround, a straightforward yet effective SGD-based optimizer leading to flatter minima with better generalization. Specifically, Lookaround iterates two steps during the whole training period: the around step and the average step. In each iteration, 1) the around step starts from a common point and trains multiple networks simultaneously, each on transformed data by a different data augmentation, and 2) the average step averages these trained networks to get the averaged network, which serves as the starting point for the next iteration. The around step improves the functionality diversity while the average step guarantees the weight locality of these networks during the whole training, which is essential for WA to work. We theoretically explain the superiority of Lookaround by convergence analysis, and make extensive experiments to evaluate Lookaround on popular benchmarks including CIFAR and ImageNet with both CNNs and ViTs, demonstrating clear superiority over state-of-the-arts. Our code is available at https://github.com/Ardcy/Lookaround. | 翻訳日:2023-11-03 17:18:26 公開日:2023-11-02 |
# 人の興味と自己利益のバランスの予測-ai-bility Predict-AI-bility of how humans balance self-interest with the interest of others ( http://arxiv.org/abs/2307.12776v2 ) ライセンス: Link先を確認 | Valerio Capraro, Roberto Di Paolo, Veronica Pizziol | (参考訳) 生成型人工知能(generative artificial intelligence)は、意思決定プロセスに革命をもたらす大きな可能性を秘めている。
しかし、多くの決定が社会的意味を持ち、AIが意思決定の信頼できるアシスタントになるためには、自己利益と他者の利益のバランスを捉えることが不可欠である。
本研究は,12ヶ国108実験において,最も先進的なチャットボット3種によるディクテータゲーム決定の予測能力について検討した。
GPT-4(BardでもBingでもない)だけが質的な行動パターンを正しく捉え、自己関心、不平等、完全に利他的という3つの主要な行動のクラスを特定する。
それでも、GPT-4は利他的振る舞いを過大評価しながら、常に自己関心と不平等を過小評価している。
このバイアスは、ai開発者とユーザに大きな影響を与える。 Generative artificial intelligence holds enormous potential to revolutionize decision-making processes, from everyday to high-stake scenarios. However, as many decisions carry social implications, for AI to be a reliable assistant for decision-making it is crucial that it is able to capture the balance between self-interest and the interest of others. We investigate the ability of three of the most advanced chatbots to predict dictator game decisions across 108 experiments with human participants from 12 countries. We find that only GPT-4 (not Bard nor Bing) correctly captures qualitative behavioral patterns, identifying three major classes of behavior: self-interested, inequity-averse, and fully altruistic. Nonetheless, GPT-4 consistently underestimates self-interest and inequity-aversion, while overestimating altruistic behavior. This bias has significant implications for AI developers and users. | 翻訳日:2023-11-03 17:11:39 公開日:2023-11-02 |
# プロキシアンカーによる連続一般化カテゴリー探索のための教師なし学習 Proxy Anchor-based Unsupervised Learning for Continuous Generalized Category Discovery ( http://arxiv.org/abs/2307.10943v2 ) ライセンス: Link先を確認 | Hyungmin Kim, Sungho Suh, Daehwan Kim, Daun Jeong, Hansang Cho, Junmo Kim | (参考訳) ディープラーニングの最近の進歩は、様々なコンピュータビジョンアプリケーションのパフォーマンスを大幅に改善した。
しかしながら、インクリメンタル学習シナリオにおける新しいカテゴリの発見は、新しいカテゴリの数と性質に関する事前知識が不足しているため、依然として困難な問題である。
既存の新しいカテゴリ発見手法は、ラベル付きデータセットに依存し、新規カテゴリの数やバッチ内の新規サンプルの割合に関する事前知識によって制限される。
本稿では,実世界のシナリオをより正確に反映し,その制約に対処するために,事前知識のないラベル付き集合上で新しいカテゴリを発見できる,教師なしクラスインクリメンタル学習手法を提案する。
提案手法は,ラベル付きデータセット上の特徴抽出器とプロキシアンカーを微調整し,未ラベルデータセット上の古いカテゴリと新しいカテゴリとクラスタに分割する。
さらに、プロキシアンカーベースの例が代表カテゴリーベクトルを生成して破滅的忘れを緩和する。
実験の結果,提案手法は実世界のシナリオにおいて,きめ細かなデータセットの最先端手法よりも優れていることがわかった。 Recent advances in deep learning have significantly improved the performance of various computer vision applications. However, discovering novel categories in an incremental learning scenario remains a challenging problem due to the lack of prior knowledge about the number and nature of new categories. Existing methods for novel category discovery are limited by their reliance on labeled datasets and prior knowledge about the number of novel categories and the proportion of novel samples in the batch. To address the limitations and more accurately reflect real-world scenarios, in this paper, we propose a novel unsupervised class incremental learning approach for discovering novel categories on unlabeled sets without prior knowledge. The proposed method fine-tunes the feature extractor and proxy anchors on labeled sets, then splits samples into old and novel categories and clusters on the unlabeled dataset. Furthermore, the proxy anchors-based exemplar generates representative category vectors to mitigate catastrophic forgetting. Experimental results demonstrate that our proposed approach outperforms the state-of-the-art methods on fine-grained datasets under real-world scenarios. | 翻訳日:2023-11-03 17:11:13 公開日:2023-11-02 |
# 双方向積分近似による完全拡散反転 Exact Diffusion Inversion via Bi-directional Integration Approximation ( http://arxiv.org/abs/2307.10829v5 ) ライセンス: Link先を確認 | Guoqiang Zhang and J. P. Lewis and W. Bastiaan Kleijn | (参考訳) 近年,EDICT[36]やNull-textインバージョン[22]などの画像編集を可能にするために,DDIMインバージョンの不整合問題に対処する様々な手法が提案されている。
しかし、上記の手法は計算オーバーヘッドがかなり大きい。
本稿では,BDIA(emph{bi-directional integration approximation)と呼ばれる新しい手法を提案する。
次の拡散状態 $\boldsymbol{z}_{i-1}$ at timestep $t_i$ と履歴情報 $(i,\boldsymbol{z}_i)$ と $(i+1,\boldsymbol{z}_{i+1})$ を推定する。
まず、推定されたガウスノイズ $\hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i)$ を取得し、次に次回の時間スロット$[t_i, t_{i-1}]$ と前回の時間スロット$[t_i, t_{t+1}]$ を後方方向に近似するためにDDIM更新手順を2回適用する。
以前の時間スロットのDDIMステップは、$\boldsymbol{z}_i$を計算する際に以前になされた積分近似を洗練するために使用される。
BDIA-DDIMのよい性質は、$\boldsymbol{z}_{i-1}$の更新式が$(\boldsymbol{z}_{i+1}, \boldsymbol{z}_i, \hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i))$の線形結合であることである。
これにより、$\boldsymbol{z}_{i+1}$が与えられた$(\boldsymbol{z}_i, \boldsymbol{z}_{i-1})$の正確な逆計算が可能になり、正確な拡散反転をもたらす。
bdia-ddimが特に画像編集に有効であることを実験により実証した。
さらに,BDIA-DDIMはテキスト・ツー・イメージ生成において,DDIMよりも優れた画像サンプリング特性が得られることを示した。
BDIAはDDIMに加えて他のODEソルバの性能向上にも応用できる。
本研究は,BDIAをEDMサンプリング手順に適用することにより,事前学習した4つのモデルよりも一貫して優れた性能が得られることを示す。 Recently, various methods have been proposed to address the inconsistency issue of DDIM inversion to enable image editing, such as EDICT [36] and Null-text inversion [22]. However, the above methods introduce considerable computational overhead. In this paper, we propose a new technique, named \emph{bi-directional integration approximation} (BDIA), to perform exact diffusion inversion with neglible computational overhead. Suppose we would like to estimate the next diffusion state $\boldsymbol{z}_{i-1}$ at timestep $t_i$ with the historical information $(i,\boldsymbol{z}_i)$ and $(i+1,\boldsymbol{z}_{i+1})$. We first obtain the estimated Gaussian noise $\hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i)$, and then apply the DDIM update procedure twice for approximating the ODE integration over the next time-slot $[t_i, t_{i-1}]$ in the forward manner and the previous time-slot $[t_i, t_{t+1}]$ in the backward manner. The DDIM step for the previous time-slot is used to refine the integration approximation made earlier when computing $\boldsymbol{z}_i$. A nice property of BDIA-DDIM is that the update expression for $\boldsymbol{z}_{i-1}$ is a linear combination of $(\boldsymbol{z}_{i+1}, \boldsymbol{z}_i, \hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i))$. This allows for exact backward computation of $\boldsymbol{z}_{i+1}$ given $(\boldsymbol{z}_i, \boldsymbol{z}_{i-1})$, thus leading to exact diffusion inversion. It is demonstrated with experiments that (round-trip) BDIA-DDIM is particularly effective for image editing. Our experiments further show that BDIA-DDIM produces markedly better image sampling qualities than DDIM for text-to-image generation. BDIA can also be applied to improve the performance of other ODE solvers in addition to DDIM. In our work, it is found that applying BDIA to the EDM sampling procedure produces consistently better performance over four pre-trained models. | 翻訳日:2023-11-03 17:10:57 公開日:2023-11-02 |
# 全体MR画像におけるAtlas-based Interpretable Age Prediction Atlas-Based Interpretable Age Prediction In Whole-Body MR Images ( http://arxiv.org/abs/2307.07439v3 ) ライセンス: Link先を確認 | Sophie Starck, Yadunandan Vivekanand Kini, Jessica Johanna Maria Ritter, Rickmer Braren, Daniel Rueckert and Tamara Mueller | (参考訳) 年齢予測は医療評価と研究の重要な部分である。
慢性期と生物学的年齢の相違を強調することにより、疾患の検出や異常な老化を支援できる。
様々な部位で観察される年齢変化の包括的理解を得るために,全身3D画像を用いて大規模に調査を行った。
人の年齢を最も予測する身体領域を決定するために, grad-cam の解釈可能性を用いた。
我々は,人口全体にわたる解釈可能性マップの作成に登録技術を用いることにより,個々の対象にまたがって分析を展開する。
以上の結果より, 脊椎, 自家背筋, 心臓領域の3つの主要な関心領域が明らかとなった。 Age prediction is an important part of medical assessments and research. It can aid in detecting diseases as well as abnormal ageing by highlighting the discrepancy between chronological and biological age. To gain a comprehensive understanding of age-related changes observed in various body parts, we investigate them on a larger scale by using whole-body 3D images. We utilise the Grad-CAM interpretability method to determine the body areas most predictive of a person's age. We expand our analysis beyond individual subjects by employing registration techniques to generate population-wide interpretability maps. Our findings reveal three primary areas of interest: the spine, the autochthonous back muscles, and the cardiac region, which exhibits the highest importance. | 翻訳日:2023-11-03 17:10:01 公開日:2023-11-02 |
# 大規模言語モデルの包括的概要 A Comprehensive Overview of Large Language Models ( http://arxiv.org/abs/2307.06435v5 ) ライセンス: Link先を確認 | Humza Naveed, Asad Ullah Khan, Shi Qiu, Muhammad Saqib, Saeed Anwar, Muhammad Usman, Naveed Akhtar, Nick Barnes, Ajmal Mian | (参考訳) 大規模言語モデル(LLM)は、最近自然言語処理タスクなどにおいて顕著な機能を示した。
LLMの成功は、この方向に多くの研究貢献をもたらした。
これらの作業には、基盤となるニューラルネットワークのアーキテクチャ革新、コンテキスト長の改善、モデルアライメント、トレーニングデータセット、ベンチマーク、効率性など、さまざまなトピックが含まれている。
LLM研究における技術の急速な発展と定期的なブレークスルーにより、この方向の進歩の全体像を理解することは極めて困難になっている。
LLMに関する文献が急速に増えていることを考えると、研究コミュニティは、この分野の最近の発展の簡潔かつ包括的概要から恩恵を受けることができることが不可欠である。
本稿はその概要を研究コミュニティに提供します。
既存の文献の体系的な扱いをLLMに関する幅広い概念に焦点をあてるだけでなく、個々の既存モデル、データセット、および主要な洞察に関する広範な詳細を包括的な要約を提供することにも特に注意を払う。
また,本研究の今後の展望を概観する上でも,LLMのより広範な研究方向性のレビューを新たに実施することで,今後の展望を概観する。
llmの自己完結型包括的概要では,関連する背景概念と,この研究方向性のフロンティアにおける先進的トピックについて論じる。
本論文は, 体系的な調査を行うだけでなく, 研究者や実践者が, LLM研究の方向性を推し進めるために, 既存の研究の広範な情報的要約から洞察を引き出すための, 迅速な総合的な参照も意図している。 Large Language Models (LLMs) have recently demonstrated remarkable capabilities in natural language processing tasks and beyond. This success of LLMs has led to a large influx of research contributions in this direction. These works encompass diverse topics such as architectural innovations of the underlying neural networks, context length improvements, model alignment, training datasets, benchmarking, efficiency and more. With the rapid development of techniques and regular breakthroughs in LLM research, it has become considerably challenging to perceive the bigger picture of the advances in this direction. Considering the rapidly emerging plethora of literature on LLMs, it is imperative that the research community is able to benefit from a concise yet comprehensive overview of the recent developments in this field. This article provides that overview to the research community. It not only focuses on a systematic treatment of the existing literature on a broad range of LLM related concept, but also pays special attention to providing comprehensive summaries with extensive details about the individual existing models, datasets and major insights. We also pay heed to aligning our overview with the emerging outlook of this research direction by accounting for the other recently materializing reviews of the broader research direction of LLMs. Our self-contained comprehensive overview of LLMs discusses relevant background concepts along with covering the advanced topics at the frontier of this research direction. This review article is intended to not only provide a systematic survey, but also a quick comprehensive reference for the researchers and practitioners to draw insights from extensive informative summaries of the existing works to advance the LLM research direction. | 翻訳日:2023-11-03 17:09:50 公開日:2023-11-02 |
# VoxPoser: 言語モデルを用いたロボット操作のための構成可能な3次元値マップ VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models ( http://arxiv.org/abs/2307.05973v2 ) ライセンス: Link先を確認 | Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, Li Fei-Fei | (参考訳) 大規模言語モデル(llm)は、推論と計画という形でロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
進歩にもかかわらず、ほとんどの場合、環境との物理的相互作用を実行するために事前に定義された運動プリミティブに依存している。
本研究では,ロボットの軌跡,すなわち6自由度エンドエフェクタ・ウェイポイントの密集したシーケンスを,命令のオープンセットとオブジェクトのオープンセットを与えられた多種多様な操作タスクで合成することを目的とする。
まず,LLMが自由形式の言語命令を与えられた可読性や制約を推定できることを観察する。
さらに重要なのは、コード記述機能を活用することで、視覚言語モデル(VLM)と対話して3D値マップを作成し、エージェントの観察空間に知識を基盤とすることが可能になる。
合成された値マップはモデルベースの計画フレームワークで使われ、動的摂動に対して頑健な閉ループロボットの軌跡を合成する。
さらに,コンタクトリッチなインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンラインエクスペリエンスのメリットを享受できることを示す。
本研究では, 実ロボット環境とシミュレーション環境の両方において, 提案手法を大規模に検討し, 自由形自然言語で特定された日常的タスクを多種多様に行う能力を示す。
ビデオとコード: https://voxposer.github.io Large language models (LLMs) are shown to possess a wealth of actionable knowledge that can be extracted for robot manipulation in the form of reasoning and planning. Despite the progress, most still rely on pre-defined motion primitives to carry out the physical interactions with the environment, which remains a major bottleneck. In this work, we aim to synthesize robot trajectories, i.e., a dense sequence of 6-DoF end-effector waypoints, for a large variety of manipulation tasks given an open-set of instructions and an open-set of objects. We achieve this by first observing that LLMs excel at inferring affordances and constraints given a free-form language instruction. More importantly, by leveraging their code-writing capabilities, they can interact with a vision-language model (VLM) to compose 3D value maps to ground the knowledge into the observation space of the agent. The composed value maps are then used in a model-based planning framework to zero-shot synthesize closed-loop robot trajectories with robustness to dynamic perturbations. We further demonstrate how the proposed framework can benefit from online experiences by efficiently learning a dynamics model for scenes that involve contact-rich interactions. We present a large-scale study of the proposed method in both simulated and real-robot environments, showcasing the ability to perform a large variety of everyday manipulation tasks specified in free-form natural language. Videos and code at https://voxposer.github.io | 翻訳日:2023-11-03 17:09:22 公開日:2023-11-02 |
# コントラスト学習による強化学習における階層的成果の発見 Discovering Hierarchical Achievements in Reinforcement Learning via Contrastive Learning ( http://arxiv.org/abs/2307.03486v3 ) ライセンス: Link先を確認 | Seungyong Moon, Junyoung Yeom, Bumsoo Park, Hyun Oh Song | (参考訳) 手続き的生成環境における階層構造による成果の発見は大きな課題である。
これは、エージェントが一般化や長期的推論を含む幅広い能力を持つ必要がある。
多くの先行手法はモデルベースや階層的アプローチに基づいて構築されており、長期的な計画のための明示的なモジュールは階層的依存関係を学ぶ上で有利であると信じられている。
しかし、これらの手法は過剰な数の環境相互作用や大きなモデルサイズを必要とし、実用性を制限する。
そこで本研究では,PPO(proximal policy optimization)が,最近の実装手法に最適化された場合,従来の手法よりも優れていることを示す。
さらに, PPO エージェントは, 信頼性に限界はあるものの, 次の成果をある程度の確率で予測できることがわかった。
本研究は, エージェントが次の達成を予測できる能力を高めることを目的とした, 達成蒸留と呼ばれる新しいコントラスト学習手法を提案する。
提案手法は階層的な成果を見出すための強力な能力を示し,モデルパラメータの少ないサンプル効率で挑戦的なクラフト環境における最先端性能を示す。 Discovering achievements with a hierarchical structure in procedurally generated environments presents a significant challenge. This requires an agent to possess a broad range of abilities, including generalization and long-term reasoning. Many prior methods have been built upon model-based or hierarchical approaches, with the belief that an explicit module for long-term planning would be advantageous for learning hierarchical dependencies. However, these methods demand an excessive number of environment interactions or large model sizes, limiting their practicality. In this work, we demonstrate that proximal policy optimization (PPO), a simple yet versatile model-free algorithm, outperforms previous methods when optimized with recent implementation practices. Moreover, we find that the PPO agent can predict the next achievement to be unlocked to some extent, albeit with limited confidence. Based on this observation, we introduce a novel contrastive learning method, called achievement distillation, which strengthens the agent's ability to predict the next achievement. Our method exhibits a strong capacity for discovering hierarchical achievements and shows state-of-the-art performance on the challenging Crafter environment in a sample-efficient manner while utilizing fewer model parameters. | 翻訳日:2023-11-03 17:08:56 公開日:2023-11-02 |
# テキストアライメントは大規模NLPタスクのための効率的な統一モデル Text Alignment Is An Efficient Unified Model for Massive NLP Tasks ( http://arxiv.org/abs/2307.02729v2 ) ライセンス: Link先を確認 | Yuheng Zha, Yichi Yang, Ruichen Li, Zhiting Hu | (参考訳) 大きな言語モデル(LLM)は、通常、次の単語予測の関数として設計され、広範なNLPタスクに優れていた。
一般性にもかかわらず、次の単語予測は多くの場合、多くのタスクにおいて効率的な定式化ではなく、極端なモデルパラメータ(10億から100億)を必要とし、時には準最適性能をもたらす。
実際には、より効率的なモデルを構築することが望ましいことが多い -- 汎用性は低いが、問題のかなりのサブセットに適用され、モデルサイズがはるかに小さい同等あるいは優れたパフォーマンスを提供する。
本稿では,テキストの包含,類似性,質問応答(と応答性),事実整合性などを含む幅広い重要なタスクに対して,テキストアライメントを効率的な統一モデルとして提案する。
一対のテキストが与えられると、モデルはその情報間のアライメントの度合いを測定する。
28データセットの5.9M例を用いて,RoBERTa(355Mパラメータ)の軽量微調整によりアライメントモデル(Align)をインスタンス化する。
Despite its compact size, extensive experiments show the model's efficiency and strong performance: (1) On over 20 datasets of aforementioned diverse tasks, the model matches or surpasses FLAN-T5 models that have around 2x or 10x more parameters; the single unified model also outperforms task-specific models finetuned on individual datasets; (2) When applied to evaluate factual consistency of language generation on 23 datasets, our model improves over various baselines, including the much larger GPT-3.5 (ChatGPT) and sometimes even GPT-4; (3) The lightweight model can also serve as an add-on component for LLMs such as GPT-3.5 in question answering tasks, improving the average exact match (EM) score by 17.94 and F1 score by 15.05 through identifying unanswerable questions. Large language models (LLMs), typically designed as a function of next-word prediction, have excelled across extensive NLP tasks. Despite the generality, next-word prediction is often not an efficient formulation for many of the tasks, demanding an extreme scale of model parameters (10s or 100s of billions) and sometimes yielding suboptimal performance. In practice, it is often desirable to build more efficient models -- despite being less versatile, they still apply to a substantial subset of problems, delivering on par or even superior performance with much smaller model sizes. In this paper, we propose text alignment as an efficient unified model for a wide range of crucial tasks involving text entailment, similarity, question answering (and answerability), factual consistency, and so forth. Given a pair of texts, the model measures the degree of alignment between their information. We instantiate an alignment model (Align) through lightweight finetuning of RoBERTa (355M parameters) using 5.9M examples from 28 datasets. Despite its compact size, extensive experiments show the model's efficiency and strong performance: (1) On over 20 datasets of aforementioned diverse tasks, the model matches or surpasses FLAN-T5 models that have around 2x or 10x more parameters; the single unified model also outperforms task-specific models finetuned on individual datasets; (2) When applied to evaluate factual consistency of language generation on 23 datasets, our model improves over various baselines, including the much larger GPT-3.5 (ChatGPT) and sometimes even GPT-4; (3) The lightweight model can also serve as an add-on component for LLMs such as GPT-3.5 in question answering tasks, improving the average exact match (EM) score by 17.94 and F1 score by 15.05 through identifying unanswerable questions. | 翻訳日:2023-11-03 17:08:38 公開日:2023-11-02 |
# 潜在変数同定のための付加デコーダと直交生成物外挿 Additive Decoders for Latent Variables Identification and Cartesian-Product Extrapolation ( http://arxiv.org/abs/2307.02598v2 ) ライセンス: Link先を確認 | S\'ebastien Lachapelle, Divyat Mahajan, Ioannis Mitliagkas, Simon Lacoste-Julien | (参考訳) 表現学習における潜在変数同定と`out-of-support'画像生成の問題に取り組む。
オブジェクト中心表現学習(OCRL)に使用されるデコーダを連想させる加法体と呼ばれるデコーダのクラスでは,どちらも可能であり,オブジェクト固有画像の和として分解できる画像に適していることを示す。
我々は,加法デコーダを用いた再構成問題を正確に解く条件を提供し,置換や可逆変換に至るまでの潜在変数のブロックを同定する。
この保証は潜在因子の分布に関する非常に弱い仮定にのみ依存するが、これは統計的依存関係を示し、ほぼ任意に形づくった支持を持つ可能性がある。
その結果、非線形独立成分分析(ica)が可能となる新しい設定を提供し、ocrl法の理論的理解を付加する。
また,加法デコーダは,変化の観測された因子を新しい方法で再結合することにより,新たな画像を生成することができることを理論的に示す。
擬似データに対する識別可能性と外挿性の両方に添加性が重要であることを実証的に示す。 We tackle the problems of latent variables identification and ``out-of-support'' image generation in representation learning. We show that both are possible for a class of decoders that we call additive, which are reminiscent of decoders used for object-centric representation learning (OCRL) and well suited for images that can be decomposed as a sum of object-specific images. We provide conditions under which exactly solving the reconstruction problem using an additive decoder is guaranteed to identify the blocks of latent variables up to permutation and block-wise invertible transformations. This guarantee relies only on very weak assumptions about the distribution of the latent factors, which might present statistical dependencies and have an almost arbitrarily shaped support. Our result provides a new setting where nonlinear independent component analysis (ICA) is possible and adds to our theoretical understanding of OCRL methods. We also show theoretically that additive decoders can generate novel images by recombining observed factors of variations in novel ways, an ability we refer to as Cartesian-product extrapolation. We show empirically that additivity is crucial for both identifiability and extrapolation on simulated data. | 翻訳日:2023-11-03 17:08:10 公開日:2023-11-02 |
# EHRSHOT: 基礎モデルのFew-Shot評価のためのEHRベンチマーク EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models ( http://arxiv.org/abs/2307.02028v2 ) ライセンス: Link先を確認 | Michael Wornow, Rahul Thapa, Ethan Steinberg, Jason A. Fries, Nigam H. Shah | (参考訳) 一般機械学習(ML)コミュニティは、パブリックデータセット、タスク、モデルから恩恵を受けているが、医療におけるMLの進歩は、そのような共有資産の欠如によって妨げられている。
ファンデーションモデルの成功は、パフォーマンスのメリットを検証するために共有事前トレーニングされたモデルへのアクセスを必要とすることで、ヘルスケアMLに新たな課題を生み出します。
私たちは3つのコントリビューションを通じてこれらの課題に対処します。
まず、スタンフォード大学の6,739人の患者の電子健康記録(EHR)から構造化されたデータを含む新しいデータセット EHRSHOT を公表する。
MIMIC-III/IV や他の一般的な EHR データセットとは異なり、EHRSHOT は縦長であり、ICU/ED 患者に限定されない。
第2に,257m患者の構造化ehrデータに基づいて前訓練した141mパラメーター臨床基礎モデルclmbr-t-baseの重みを公表する。
対照的に、臨床データ(例えば、GatorTron, ClinicalBERT)でリリースされたほとんどの先行モデルは、構造化されていないテキストでのみ動作し、EHR内でリッチで構造化されたデータを処理できない。
コミュニティがパフォーマンスを検証して構築するためのエンドツーエンドパイプラインを提供しています。
第3に, 臨床予測タスクを15個定義し, サンプル効率やタスク適応などに基づく基礎モデルの評価を可能にした。
私たちのモデルとデータセットは、Stanford AIMI Centerによる研究データ利用契約を通じて利用可能です。
結果を再現するためのコードはgithubのリポジトリで入手できます。 While the general machine learning (ML) community has benefited from public datasets, tasks, and models, the progress of ML in healthcare has been hampered by a lack of such shared assets. The success of foundation models creates new challenges for healthcare ML by requiring access to shared pretrained models to validate performance benefits. We help address these challenges through three contributions. First, we publish a new dataset, EHRSHOT, which contains deidentified structured data from the electronic health records (EHRs) of 6,739 patients from Stanford Medicine. Unlike MIMIC-III/IV and other popular EHR datasets, EHRSHOT is longitudinal and not restricted to ICU/ED patients. Second, we publish the weights of CLMBR-T-base, a 141M parameter clinical foundation model pretrained on the structured EHR data of 2.57M patients. We are one of the first to fully release such a model for coded EHR data; in contrast, most prior models released for clinical data (e.g. GatorTron, ClinicalBERT) only work with unstructured text and cannot process the rich, structured data within an EHR. We provide an end-to-end pipeline for the community to validate and build upon its performance. Third, we define 15 few-shot clinical prediction tasks, enabling evaluation of foundation models on benefits such as sample efficiency and task adaptation. Our model and dataset are available via a research data use agreement from the Stanford AIMI Center. Code to reproduce our results are available at our Github repo: https://github.com/som-shahlab/ehrshot-benchmark | 翻訳日:2023-11-03 17:07:49 公開日:2023-11-02 |
# メタ推論:大規模言語モデルのための意味論的シンボリックデコンストラクション Meta-Reasoning: Semantics-Symbol Deconstruction For Large Language Models ( http://arxiv.org/abs/2306.17820v2 ) ライセンス: Link先を確認 | Yiming Wang, Zhuosheng Zhang, Rui Wang | (参考訳) ニューラルシンボリックな手法は、大言語モデル(llm)の推論能力を高める効果を示している。
しかし、既存のメソッドは主に自然言語をより構文的に完全な形式言語(例えばpythonとsql)にマッピングすることに依存している。
これらのアプローチは、推論タスクがプログラムに変換可能であることを必要としており、コンピュータの実行マインドセットに適合し、人間の推論習慣から逸脱する。
記号的手法の現実的な適用性と柔軟性を拡大するために,メタ推論を言語学自体から提案する。
この方法により、LSMは質問を分解し、より一般化された知識を自律的に捉えることができる。
メタ推論は、6つの算術および記号的推論タスクにおいて、文脈内学習効率、推論精度、出力安定性の向上を実現する。
特に、追跡シャッフルオブジェクトのようなシンボリック推論タスクに適用した場合、GPT-3 (text-davinci-002) はメタ推論の1回のデモンストレーションで99%の精度で数発のChain-of-Thoughtプロンプトアプローチ (+37.7%) を超える。 Neural-symbolic methods have shown their effectiveness in enhancing the reasoning abilities of large language models (LLMs). However, existing methods primarily rely on mapping natural languages to more syntactically complete formal languages (e.g., Python and SQL). Those approaches necessitate that reasoning tasks be convertible into programs, which cater more to the computer execution mindset and deviate from human reasoning habits. To expand the real-world applicability and flexibility of symbolic methods, we propose Meta-Reasoning from the scope of linguistics itself. This method empowers LLMs to deconstruct questions and effectively capture more generalized knowledge autonomously. We find that Meta-Reasoning achieves improved in-context learning efficiency, reasoning accuracy, and output stability in six arithmetic and symbolic reasoning tasks. In particular, when applied to symbolic reasoning tasks such as Tracking Shuffled Objects, GPT-3 (text-davinci-002) surpasses the few-shot Chain-of-Thought prompting approach (+37.7%), with 99% accuracy after a single demonstration of Meta-Reasoning. | 翻訳日:2023-11-03 17:07:22 公開日:2023-11-02 |
# マルチインスタンス学習に基づく全スライド画像分類のための疑似バッグミックスアップ拡張 Pseudo-Bag Mixup Augmentation for Multiple Instance Learning-Based Whole Slide Image Classification ( http://arxiv.org/abs/2306.16180v3 ) ライセンス: Link先を確認 | Pei Liu, Luping Ji, Xinyu Zhang, Feng Ye | (参考訳) ギガピクセル画像のモデリングの特別な状況を考えると、MIL(Multiple Case Learning)はWSI(Whole Slide Image)分類において最も重要なフレームワークの1つとなっている。
現在、ほとんどのMILネットワークは、トレーニングにおいて避けられない2つの問題に直面している。
i)wsiデータ不足、及び
二 ニューラルネットワークに固有のサンプル記憶傾き
これらの問題は、WSIの分類モデルの継続的な性能向上を抑えるため、MILモデルが適切かつ効率的な訓練から妨げられる可能性がある。
そこで本研究では,MILモデルのトレーニングを改善するために,Pseudo-bag Mixup(PseMix)データ拡張方式を提案する。
このスキームは、MILに基づくWSI分類に適用するために、一般的な画像のMixup戦略を擬似バグを介して特別なWSIに一般化する。
疑似バッグによる協調により,psemixはミックスアップ戦略におけるクリティカルサイズアライメントとセマンティクスアライメントを満足する。
さらに、時間を要する操作やMILモデル予測に依存しない、効率的で疎結合な手法として設計されている。
比較実験とアブレーション研究はPseMixの有効性と利点を評価するために特別に設計されている。
実験の結果、PseMixは最先端のMILネットワークがWSI上での分類性能を更新するのを助けることができた。
さらに、特殊なテストシナリオにおけるMILモデルの一般化性能を向上し、閉塞音やラベルノイズにパッチを当てる堅牢性を促進することもできる。
ソースコードはhttps://github.com/liupei101/psemixで入手できます。 Given the special situation of modeling gigapixel images, multiple instance learning (MIL) has become one of the most important frameworks for Whole Slide Image (WSI) classification. In current practice, most MIL networks often face two unavoidable problems in training: i) insufficient WSI data and ii) the sample memorization inclination inherent in neural networks. These problems may hinder MIL models from adequate and efficient training, suppressing the continuous performance promotion of classification models on WSIs. Inspired by the basic idea of Mixup, this paper proposes a new Pseudo-bag Mixup (PseMix) data augmentation scheme to improve the training of MIL models. This scheme generalizes the Mixup strategy for general images to special WSIs via pseudo-bags so as to be applied in MIL-based WSI classification. Cooperated by pseudo-bags, our PseMix fulfills the critical size alignment and semantic alignment in Mixup strategy. Moreover, it is designed as an efficient and decoupled method, neither involving time-consuming operations nor relying on MIL model predictions. Comparative experiments and ablation studies are specially designed to evaluate the effectiveness and advantages of our PseMix. Experimental results show that PseMix could often assist state-of-the-art MIL networks to refresh their classification performance on WSIs. Besides, it could also boost the generalization performance of MIL models in special test scenarios, and promote their robustness to patch occlusion and label noise. Our source code is available at https://github.com/liupei101/PseMix. | 翻訳日:2023-11-03 17:06:58 公開日:2023-11-02 |
# physion++: 異なる物理的特性のオンライン推論を必要とする物理シーン理解の評価 Physion++: Evaluating Physical Scene Understanding that Requires Online Inference of Different Physical Properties ( http://arxiv.org/abs/2306.15668v2 ) ライセンス: Link先を確認 | Hsiao-Yu Tung, Mingyu Ding, Zhenfang Chen, Daniel Bear, Chuang Gan, Joshua B. Tenenbaum, Daniel LK Yamins, Judith E Fan, Kevin A. Smith | (参考訳) 一般的な物理的シーン理解には、単にオブジェクトのローカライズと認識以上のものが必要です -- オブジェクトが異なる潜在性(例えば、質量や弾性)を持つことができ、それらの特性が物理的なイベントの結果に影響を与えるという知識が必要です。
近年、物理的およびビデオ予測モデルには大きな進歩があったが、パフォーマンスをテストするベンチマークは通常、オブジェクトが個々の物理的特性を持っていることを理解する必要はなく、最善の試験は直接観測可能な特性(サイズや色など)のみである。
この研究は、これらの予測がシーン内のオブジェクトの潜伏する物理的特性の正確な推定に依存する状況下で、人工システムにおける視覚的物理的予測を厳格に評価する新しいデータセットとベンチマークであるPhyllion++を提案する。
具体的には、正確な予測が質量、摩擦、弾性、変形性などの特性の推定に依存する場合と、物体が他の物体や流体とどのように動いたり相互作用したりするかを観察して、それらの特性の値を推測できる場合のシナリオをテストする。
我々は,様々なレベルの学習と組込み知識にまたがる最先端予測モデルの性能を評価し,その性能を人間の予測と比較した。
標準規則とデータセットを用いてトレーニングされたモデルは、潜在特性に関する推論を自発的に学習するだけでなく、対象性と物理的状態を符号化するモデルはより良い予測を行う傾向にある。
しかし、すべてのモデルと人間のパフォーマンスの間には依然として大きなギャップがあり、全てのモデルの予測は人間の予測と不相関であり、最先端のモデルが人間のように物理的な予測をすることを学んでいないことを示唆している。
プロジェクトページ: https://dingmyu.github.io/physion_v2/ General physical scene understanding requires more than simply localizing and recognizing objects -- it requires knowledge that objects can have different latent properties (e.g., mass or elasticity), and that those properties affect the outcome of physical events. While there has been great progress in physical and video prediction models in recent years, benchmarks to test their performance typically do not require an understanding that objects have individual physical properties, or at best test only those properties that are directly observable (e.g., size or color). This work proposes a novel dataset and benchmark, termed Physion++, that rigorously evaluates visual physical prediction in artificial systems under circumstances where those predictions rely on accurate estimates of the latent physical properties of objects in the scene. Specifically, we test scenarios where accurate prediction relies on estimates of properties such as mass, friction, elasticity, and deformability, and where the values of those properties can only be inferred by observing how objects move and interact with other objects or fluids. We evaluate the performance of a number of state-of-the-art prediction models that span a variety of levels of learning vs. built-in knowledge, and compare that performance to a set of human predictions. We find that models that have been trained using standard regimes and datasets do not spontaneously learn to make inferences about latent properties, but also that models that encode objectness and physical states tend to make better predictions. However, there is still a huge gap between all models and human performance, and all models' predictions correlate poorly with those made by humans, suggesting that no state-of-the-art model is learning to make physical predictions in a human-like way. Project page: https://dingmyu.github.io/physion_v2/ | 翻訳日:2023-11-03 17:06:29 公開日:2023-11-02 |
# コヒーレントドライブと環境ドライブの両方を備えたオープンキュービットにおけるh$とt$ゲートの生成のための量子制御ランドスケープ Quantum control landscape for generation of $H$ and $T$ gates in an open qubit with both coherent and environmental drive ( http://arxiv.org/abs/2309.02063v2 ) ライセンス: Link先を確認 | Vadim Petruhanov and Alexander Pechen | (参考訳) 量子計算における重要な問題は、普遍的なゲートの集合の構成要素であるhadamard (h$) や$\pi/8$ (t$) ゲートのような単一量子ビット量子ゲートの生成である。
量子コンピューティングデバイスの実験的実現における量子ビットは、その環境と相互作用している。
環境はゲートの忠実度を低下させる障害と見なされることが多いが、場合によっては資源として利用することができる。
ここでは,コヒーレント制御によるh$およびt$ゲートの最適生成問題と,非コヒーレント制御によるキュービットに作用する資源としての環境について考察する。
そこで本研究では,不確かさの振る舞いを制御関数として表現する量子制御のランドスケープについて検討する。
3つのランドスケープを考察し、(ゲールツ=ライヒ=コッホのアプローチによる)2,3と、キュービットヒルベルト空間内の4つの行列を操ることによって、不フィデリティを定義する。
クリフォードゲート (clifford gate) である$h$ゲートは、3つの無限小すべてに対して勾配探索によって得られる最小値の分布は1つのピークしか持たない単純な形式である。
しかし、クリフォードではないゲートである$t$ゲートの場合、この状況は驚くほど異なる - 2つの行列によって定義される不確かさの分布もまた1つのピークを持つが、3つの行列と4つの行列で定義される不フィデリティの分布は2つのピークを持つ。
これら3つの不完全性のうち、3つの行列と4つの行列で定義されるものだけが、生成されたゲートのターゲットへの近接性を保証し、近接性のよい尺度として使用できる点が重要である。
この最も一般的な問題に対して、コヒーレントかつ非コヒーレントな制御が共に作用する場合には処理されない最適化された解の集合を研究し、それらが制御空間で部分多様体を形成し、時には2つの孤立部分多様体が予期せぬことに気付く。 An important problem in quantum computation is generation of single-qubit quantum gates such as Hadamard ($H$) and $\pi/8$ ($T$) gates which are components of a universal set of gates. Qubits in experimental realizations of quantum computing devices are interacting with their environment. While the environment is often considered as an obstacle leading to decrease of the gate fidelity, in some cases it can be used as a resource. Here we consider the problem of optimal generation of $H$ and $T$ gates using coherent control and the environment as a resource acting on the qubit via incoherent control. For this problem, we study quantum control landscape which represents the behaviour of the infidelity as a functional of the controls. We consider three landscapes, with infidelities defined by steering between two, three (via Goerz-Reich-Koch approach), and four matrices in the qubit Hilbert space. We observe that for the $H$ gate, which is Clifford gate, for all three infidelities the distributions of minimal values obtained with gradient search have a simple form with just one peak. However, for $T$ gate which is a non-Clifford gate, the situation is surprisingly different - this distribution for the infidelity defined by two matrices also has one peak, whereas distributions for the infidelities defined by three and four matrices have two peaks, that might indicate possible existence of two isolated minima in the control landscape. Important is that among these three infidelities only those defined with three and four matrices guarantee closeness of generated gate to a target and can be used as a good measure of closeness. We study sets of optimized solutions for this most general and not treated before case of coherent and incoherent controls acting together, and discover that they form submanifolds in the control space, and unexpected, in some cases two isolated submanifolds. | 翻訳日:2023-11-03 16:58:57 公開日:2023-11-02 |
# スパースセルコンプレックスによるグラフ上のエッジフローの表現 Representing Edge Flows on Graphs via Sparse Cell Complexes ( http://arxiv.org/abs/2309.01632v3 ) ライセンス: Link先を確認 | Josef Hoppe and Michael T. Schaub | (参考訳) 多くの機械学習や信号処理タスクにおいて、可観測データのスパースで解釈可能な表現が不可欠である。
グラフの辺に沿った流れを表すデータに対して、そのような表現を得る直感的に解釈可能な方法は、グラフ構造をsimplicial complexへ持ち上げることである: 関連するホッジ・ラプラシアンの固有ベクトルはそれぞれ、対応するsimplicial complexの入射行列を導出する。
本稿では,この手法を細胞複合体に一般化し,フロー表現学習問題,すなわちセルの集合によって観測されたグラフを増大させる問題を導入し,関連するホッジ・ラプラシアンの固有ベクトルがグラフ上の観測されたエッジフローのスパースで解釈可能な表現を提供する。
この問題はNPハードであり,その解に対する効率的な近似アルゴリズムを導入する。
実世界および合成データを用いた実験により,本アルゴリズムが近似誤差に対して最先端の手法を上回って計算効率が向上することを示した。 Obtaining sparse, interpretable representations of observable data is crucial in many machine learning and signal processing tasks. For data representing flows along the edges of a graph, an intuitively interpretable way to obtain such representations is to lift the graph structure to a simplicial complex: The eigenvectors of the associated Hodge-Laplacian, respectively the incidence matrices of the corresponding simplicial complex then induce a Hodge decomposition, which can be used to represent the observed data in terms of gradient, curl, and harmonic flows. In this paper, we generalize this approach to cellular complexes and introduce the flow representation learning problem, i.e., the problem of augmenting the observed graph by a set of cells, such that the eigenvectors of the associated Hodge Laplacian provide a sparse, interpretable representation of the observed edge flows on the graph. We show that this problem is NP-hard and introduce an efficient approximation algorithm for its solution. Experiments on real-world and synthetic data demonstrate that our algorithm outperforms state-of-the-art methods with respect to approximation error, while being computationally efficient. | 翻訳日:2023-11-03 16:57:58 公開日:2023-11-02 |
# コードユースケースとしてのLLMとインフラストラクチャ LLM and Infrastructure as a Code use case ( http://arxiv.org/abs/2309.01456v2 ) ライセンス: Link先を確認 | Thibault Chanus (ENS Rennes), Michael Aubertin | (参考訳) クラウドコンピューティングとリーンマネジメントやアジャイルといったマネジメント方法論の進化は、システムの構築とメンテナンスの両方のアプローチに大きな変革をもたらします。
これらのプラクティスは“DevOps”という用語に包含されている。
この情報システムやアプリケーションへの記述的アプローチは、コンポーネントの構成とともに、システム管理タスクを自動化する特別なエンジンと組み合わせた記述言語の開発を必要としている。
その中で、Ansible(エンジン)とYAML(記述言語)という2つのタンデムが、Terraformとの大きな競合相手として、市場でもっとも一般的なツールとして際立っている。
現在の文書では、人間の記述をコードに変換するためにジェネレーティブLLM(Language Models)を利用して、Ansible YAMLロールとプレイブックの生成と管理のソリューションについて調査を行っている。
私たちの取り組みは、妥当な方向を特定し、潜在的な産業応用を概説することに集中しています。
注: この実験のために、我々はAnsible Lightspeedの使用に反対しました。
これは、IBM Watsonモデルに依存しているためです。
この素晴らしい技術に関する包括的な情報は、パートナのWebサイトであるRedHatで直接参照できます。 Cloud computing and the evolution of management methodologies such as Lean Management or Agile entail a profound transformation in both system construction and maintenance approaches. These practices are encompassed within the term "DevOps." This descriptive approach to an information system or application, alongside the configuration of its constituent components, has necessitated the development of descriptive languages paired with specialized engines for automating systems administration tasks. Among these, the tandem of Ansible (engine) and YAML (descriptive language) stands out as the two most prevalent tools in the market, facing notable competition mainly from Terraform. The current document presents an inquiry into a solution for generating and managing Ansible YAML roles and playbooks, utilizing Generative LLMs (Language Models) to translate human descriptions into code. Our efforts are focused on identifying plausible directions and outlining the potential industrial applications. Note: For the purpose of this experiment, we have opted against the use of Ansible Lightspeed. This is due to its reliance on an IBM Watson model, for which we have not found any publicly available references. Comprehensive information regarding this remarkable technology can be found [1] directly on our partner's website, RedHat. | 翻訳日:2023-11-03 16:57:12 公開日:2023-11-02 |
# テキスト説明に学ぶ視覚的特徴 Learned Visual Features to Textual Explanations ( http://arxiv.org/abs/2309.00733v2 ) ライセンス: Link先を確認 | Saeid Asgari Taghanaki, Aliasghar Khani, Amir Khasahmadi, Aditya Sanghi, Karl D.D. Willis, Ali Mahdavi-Amiri | (参考訳) 視覚モデルの学習した特徴を解釈することは、機械学習の分野で長年の課題となっている。
本稿では,事前学習された画像分類器の学習特徴を解釈するために,大言語モデル(llm)の機能を活用する新しい手法を提案する。
texplainと呼ばれるこの手法は、ニューラルネットワークを訓練して画像分類器とllmの特徴空間間の接続を確立することで、この課題に取り組みます。
そして,提案手法は,画像の分類器が学習した特徴を説明するために,膨大な数の文を生成する。
これらの文は、最も頻繁な単語を抽出するために使用され、分類器内の学習した特徴やパターンを包括的に理解する。
本手法は,これらの頻繁な単語を視覚表現に対応させて,独立に訓練された分類器の意思決定過程に関する洞察を提供し,その行動のスプリアス相関,バイアス,深い理解を可能にする。
提案手法の有効性を検証するため,ImageNet-9LやWaterbirdsなどの多様なデータセットで実験を行った。
本手法は,画像分類器の解釈性とロバスト性を向上させる可能性を示す。 Interpreting the learned features of vision models has posed a longstanding challenge in the field of machine learning. To address this issue, we propose a novel method that leverages the capabilities of large language models (LLMs) to interpret the learned features of pre-trained image classifiers. Our method, called TExplain, tackles this task by training a neural network to establish a connection between the feature space of image classifiers and LLMs. Then, during inference, our approach generates a vast number of sentences to explain the features learned by the classifier for a given image. These sentences are then used to extract the most frequent words, providing a comprehensive understanding of the learned features and patterns within the classifier. Our method, for the first time, utilizes these frequent words corresponding to a visual representation to provide insights into the decision-making process of the independently trained classifier, enabling the detection of spurious correlations, biases, and a deeper comprehension of its behavior. To validate the effectiveness of our approach, we conduct experiments on diverse datasets, including ImageNet-9L and Waterbirds. The results demonstrate the potential of our method to enhance the interpretability and robustness of image classifiers. | 翻訳日:2023-11-03 16:56:28 公開日:2023-11-02 |
# Gorini-Kossakowski-Sudarshan-Lindblad方程式の定常状態の特異性:簡単な証明 Uniqueness of steady states of Gorini-Kossakowski-Sudarshan-Lindblad equations: a simple proof ( http://arxiv.org/abs/2309.00335v3 ) ライセンス: Link先を確認 | Hironobu Yoshida | (参考訳) 我々はgorini-kossakowski-sudarshan-lindblad方程式の非平衡定常状態の一意性に対する十分条件の簡単な証明を示す。
本稿では,横場イジングモデル,xyzモデル,強結合モデルの例を用いて,十分条件の適用例を示す。 We present a simple proof of a sufficient condition for the uniqueness of non-equilibrium steady states of Gorini-Kossakowski-Sudarshan-Lindblad equations. We demonstrate the applications of the sufficient condition using examples of the transverse-field Ising model, the XYZ model, and the tight-binding model with dephasing. | 翻訳日:2023-11-03 16:56:07 公開日:2023-11-02 |
# 任意の表面でのタイピング:拡張現実におけるリアルタイムキーストローク検出のための深層学習に基づく手法 Typing on Any Surface: A Deep Learning-based Method for Real-Time Keystroke Detection in Augmented Reality ( http://arxiv.org/abs/2309.00174v2 ) ライセンス: Link先を確認 | Xingyu Fu and Mingze Xi | (参考訳) テキスト入力インタフェースのフラストレーションは,拡張現実(AR)における社会的活動への参加において大きな障害となっている。
ポピュラーなキーボードインターフェース、ワイヤレスキーボード、音声入力などのオプションは、エルゴノミクス設計の貧弱さ、精度の制限、あるいは単に公の場で使うのが恥ずかしい。
本稿では、ARアプリケーションが任意のARヘッドセットでキャプチャ可能なRGBビデオストリームからキーストロークを正確に予測できるディープラーニングベースのアプローチを提案し、検証する。
これにより、ユーザは任意の平面上でタイピングアクティビティを実行でき、物理的なキーボードや仮想キーボードを必要としない。
既製ハンドランドマーク抽出器と新しい適応畳み込みリカレントニューラルネットワーク(C-RNN)を併用した2段階モデルを構築した。
最終モデルは、32 FPSのユーザ・パースペクティブ・ビデオストリームを適応処理できる。
このベースモデルでは、40ワード毎分(wpm)の入力で91.05\%$という全体的な精度を達成している。
通常のLevenshtein Distanceも,我々のアプローチの現実的な適用性を確認した。
有望な結果は,我々のアプローチが実現可能であり,様々なアプリケーションに統合できる可能性を示している。
また,このような技術を生産システムに導入するために必要な限界と今後の研究についても論じる。 Frustrating text entry interface has been a major obstacle in participating in social activities in augmented reality (AR). Popular options, such as mid-air keyboard interface, wireless keyboards or voice input, either suffer from poor ergonomic design, limited accuracy, or are simply embarrassing to use in public. This paper proposes and validates a deep-learning based approach, that enables AR applications to accurately predict keystrokes from the user perspective RGB video stream that can be captured by any AR headset. This enables a user to perform typing activities on any flat surface and eliminates the need of a physical or virtual keyboard. A two-stage model, combing an off-the-shelf hand landmark extractor and a novel adaptive Convolutional Recurrent Neural Network (C-RNN), was trained using our newly built dataset. The final model was capable of adaptive processing user-perspective video streams at ~32 FPS. This base model achieved an overall accuracy of $91.05\%$ when typing 40 Words per Minute (wpm), which is how fast an average person types with two hands on a physical keyboard. The Normalised Levenshtein Distance also further confirmed the real-world applicability of that our approach. The promising results highlight the viability of our approach and the potential for our method to be integrated into various applications. We also discussed the limitations and future research required to bring such technique into a production system. | 翻訳日:2023-11-03 16:56:00 公開日:2023-11-02 |
# socratis: 大規模なマルチモーダルモデルは感情的に認識されているか? Socratis: Are large multimodal models emotionally aware? ( http://arxiv.org/abs/2308.16741v3 ) ライセンス: Link先を確認 | Katherine Deng, Arijit Ray, Reuben Tan, Saadia Gabriel, Bryan A. Plummer, Kate Saenko | (参考訳) 既存の感情予測ベンチマークには、さまざまな理由で画像やテキストが人間にもたらす感情の多様性を考慮しない粗い感情ラベルが含まれている。
マルチモーダルコンテンツに対する多様な反応を学習することは、インテリジェントマシンが社会へのコンテンツの生成と配信において中心的な役割を果たすため重要である。
このギャップに対処するため、社会反応ベンチマークであるSocratisを提案し、各画像キャプチャー(IC)ペアに複数の感情とそれらを感じる理由を注釈付けする。
Socratisには、広く読まれている5つのニュースおよび画像キャプチャ(IC)データセットから、2075のイメージキャプチャペア上での980の感情に対する18Kのフリーフォーム反応が含まれている。
我々は、ICペアが与えられた感情を感じる理由を生成するために、最先端のマルチモーダル言語モデルの能力をベンチマークする。
予備的な人間の研究に基づいて、人間は機械生成の2倍の頻度で人間が書いた理由を好む。
これは、例えば、人間が機械と人書きのニュース記事を区別できない最近の発見とは対照的に、私たちのタスクが通常の生成タスクよりも難しいことを示している。
大規模視覚言語モデルに基づく現在のキャプション指標は,人間の好みにも相関しない。
これらの発見とベンチマークが、感情に敏感なモデルをトレーニングするためのさらなる研究を促すことを期待しています。 Existing emotion prediction benchmarks contain coarse emotion labels which do not consider the diversity of emotions that an image and text can elicit in humans due to various reasons. Learning diverse reactions to multimodal content is important as intelligent machines take a central role in generating and delivering content to society. To address this gap, we propose Socratis, a societal reactions benchmark, where each image-caption (IC) pair is annotated with multiple emotions and the reasons for feeling them. Socratis contains 18K free-form reactions for 980 emotions on 2075 image-caption pairs from 5 widely-read news and image-caption (IC) datasets. We benchmark the capability of state-of-the-art multimodal large language models to generate the reasons for feeling an emotion given an IC pair. Based on a preliminary human study, we observe that humans prefer human-written reasons over 2 times more often than machine-generated ones. This shows our task is harder than standard generation tasks because it starkly contrasts recent findings where humans cannot tell apart machine vs human-written news articles, for instance. We further see that current captioning metrics based on large vision-language models also fail to correlate with human preferences. We hope that these findings and our benchmark will inspire further research on training emotionally aware models. | 翻訳日:2023-11-03 16:55:36 公開日:2023-11-02 |
# ILCAS: クロスカメラコラボレーションによるライブビデオ分析のためのシミュレーション学習に基づく構成適応ストリーミング ILCAS: Imitation Learning-Based Configuration-Adaptive Streaming for Live Video Analytics with Cross-Camera Collaboration ( http://arxiv.org/abs/2308.10068v2 ) ライセンス: Link先を確認 | Duo Wu, Dayou Zhang, Miao Zhang, Ruoyu Zhang, Fangxin Wang, Shuguang Cui | (参考訳) dnn(high-accuracy and resource-intensive deep neural network)は、ライブビデオ分析(va)によって広く採用されている。
一般的なビデオエンコーディング構成(解像度やフレームレートなど)は、帯域幅の消費と推論精度のバランスに重大な影響を与えていると認識されており、その適応方式は最適化の焦点となっている。
しかし、従来のプロファイリングベースのソリューションは高いプロファイリングコストに悩まされる一方、既存のディープ強化学習(DRL)ベースのソリューションは、エージェントのトレーニングに固定報酬関数を用いることにより、様々なシナリオでアプリケーション目標を達成できなかったため、性能が低下する可能性がある。
本稿では,最初の模倣学習(il)ベースの構成適応型vaストリーミングシステムであるilcasを提案する。
DRLベースのソリューションとは異なり、ILCASは、動的プログラミングによって構成適応問題を解決するオフライン最適ポリシーとして設計された専門家から収集されたデモンストレーションでエージェントを訓練する。
映像コンテンツダイナミクスの課題に取り組むため、ilcasは動画コンテンツの変化を視覚的に‘知覚’できるモーションベクトルに基づくモーション特徴マップを導出する。
さらに、ILCASは、カメラの時空間相関を利用して、より適切な構成選択を行うためのクロスカメラ協調方式を取り入れている。
大規模な実験は、最先端のソリューションと比較してICCASの優位性を確認し、平均精度は2-20.9%改善し、チャンクアップロードラグは19.9-85.3%削減された。 The high-accuracy and resource-intensive deep neural networks (DNNs) have been widely adopted by live video analytics (VA), where camera videos are streamed over the network to resource-rich edge/cloud servers for DNN inference. Common video encoding configurations (e.g., resolution and frame rate) have been identified with significant impacts on striking the balance between bandwidth consumption and inference accuracy and therefore their adaption scheme has been a focus of optimization. However, previous profiling-based solutions suffer from high profiling cost, while existing deep reinforcement learning (DRL) based solutions may achieve poor performance due to the usage of fixed reward function for training the agent, which fails to craft the application goals in various scenarios. In this paper, we propose ILCAS, the first imitation learning (IL) based configuration-adaptive VA streaming system. Unlike DRL-based solutions, ILCAS trains the agent with demonstrations collected from the expert which is designed as an offline optimal policy that solves the configuration adaption problem through dynamic programming. To tackle the challenge of video content dynamics, ILCAS derives motion feature maps based on motion vectors which allow ILCAS to visually ``perceive'' video content changes. Moreover, ILCAS incorporates a cross-camera collaboration scheme to exploit the spatio-temporal correlations of cameras for more proper configuration selection. Extensive experiments confirm the superiority of ILCAS compared with state-of-the-art solutions, with 2-20.9% improvement of mean accuracy and 19.9-85.3% reduction of chunk upload lag. | 翻訳日:2023-11-03 16:54:53 公開日:2023-11-02 |
# 医用画像の深層学習における小データ処理のためのコントラスト・マスクオートエンコーダ法による自己監督型事前訓練 Self-Supervised Pre-Training with Contrastive and Masked Autoencoder Methods for Dealing with Small Datasets in Deep Learning for Medical Imaging ( http://arxiv.org/abs/2308.06534v4 ) ライセンス: Link先を確認 | Daniel Wolf, Tristan Payer, Catharina Silvia Lisson, Christoph Gerhard Lisson, Meinrad Beer, Michael G\"otz, Timo Ropinski | (参考訳) 医用画像の深層学習は、診断ミスのリスクを最小限に抑え、放射線医の作業量を減らし、診断を加速する可能性がある。
このようなディープラーニングモデルのトレーニングには,すべてのトレーニングサンプルに対するアノテーションを備えた,大規模かつ正確なデータセットが必要です。
しかし、医療画像領域では、アノテーションの複雑さやアクセスの制限、病気の希少さなどにより、特定のタスクのための注釈付きデータセットは少ないことが多い。
この課題に対処するために、ディープラーニングモデルは、自己教師付き学習の分野からのメソッドを使用するアノテーションなしで、大規模なイメージデータセットで事前トレーニングすることができる。
事前トレーニング後、小さな注釈付きデータセットは、特定のタスクのためにモデルを微調整するのに十分です。
医療画像における自己教師付き事前学習の最も一般的なアプローチは、コントラスト学習に基づいている。
しかし、近年の自然画像処理の研究は、マスク付きオートエンコーダアプローチに強い可能性を示している。
我々の研究は、医学画像上の畳み込みニューラルネットワーク(CNN)のためのマスク付きオートエンコーダアプローチ "SparK" と比較した。
そこで我々は,大規模無注釈CT画像データセットといくつかのCT分類タスクを事前訓練した。
医用画像における十分なアノテートトレーニングデータを取得することの難しさから,小データセットの微調整において自己教師付き事前学習法がどのように機能するかを評価することが特に重要である。
微調整のためのトレーニングデータセットサイズを段階的に縮小させることにより,事前学習の種類によって異なる効果が得られた。
SparK事前学習法は、対照的な方法よりもトレーニングデータセットサイズに対して堅牢である。
そこで本研究では,小さな注釈付きデータセットのみを用いたSparKプリトレーニングを提案する。 Deep learning in medical imaging has the potential to minimize the risk of diagnostic errors, reduce radiologist workload, and accelerate diagnosis. Training such deep learning models requires large and accurate datasets, with annotations for all training samples. However, in the medical imaging domain, annotated datasets for specific tasks are often small due to the high complexity of annotations, limited access, or the rarity of diseases. To address this challenge, deep learning models can be pre-trained on large image datasets without annotations using methods from the field of self-supervised learning. After pre-training, small annotated datasets are sufficient to fine-tune the models for a specific task. The most popular self-supervised pre-training approaches in medical imaging are based on contrastive learning. However, recent studies in natural image processing indicate a strong potential for masked autoencoder approaches. Our work compares state-of-the-art contrastive learning methods with the recently introduced masked autoencoder approach "SparK" for convolutional neural networks (CNNs) on medical images. Therefore we pre-train on a large unannotated CT image dataset and fine-tune on several CT classification tasks. Due to the challenge of obtaining sufficient annotated training data in medical imaging, it is of particular interest to evaluate how the self-supervised pre-training methods perform when fine-tuning on small datasets. By experimenting with gradually reducing the training dataset size for fine-tuning, we find that the reduction has different effects depending on the type of pre-training chosen. The SparK pre-training method is more robust to the training dataset size than the contrastive methods. Based on our results, we propose the SparK pre-training for medical imaging tasks with only small annotated datasets. | 翻訳日:2023-11-03 16:54:09 公開日:2023-11-02 |
# ランク最小化によるニューラルインプットの確率近似 Developability Approximation for Neural Implicits through Rank Minimization ( http://arxiv.org/abs/2308.03900v3 ) ライセンス: Link先を確認 | Pratheba Selvaraju | (参考訳) 展開性とは、二次元平面から断裂やせん断をすることなく表面を作る過程を指す。
製造業界で実用化されている。
現像可能な3次元曲面の本質的な特徴は、その 0 ガウス曲率であり、つまり、主曲率の 1 つまたは両方が 0 であることを意味する。
本稿では,神経暗示面から近似発達可能な表面を再構成する手法を提案する。
この手法の中心的な考え方は、ニューラル暗黙の2階微分を演算する正規化項を組み込むことであり、ガウス曲率を効果的に促進する。
入射曲面は無限分解によるより滑らかな変形の利点を提供し、離散表現を用いた最先端手法の高次多角的制約を克服する。
我々は表面曲率の性質からインスピレーションを得て,圧縮センシングによるランク最小化手法を採用した。
本手法の一般化性を検証するため, 開発可能面と開発不可能面の両方の実験結果を得た。 Developability refers to the process of creating a surface without any tearing or shearing from a two-dimensional plane. It finds practical applications in the fabrication industry. An essential characteristic of a developable 3D surface is its zero Gaussian curvature, which means that either one or both of the principal curvatures are zero. This paper introduces a method for reconstructing an approximate developable surface from a neural implicit surface. The central idea of our method involves incorporating a regularization term that operates on the second-order derivatives of the neural implicits, effectively promoting zero Gaussian curvature. Implicit surfaces offer the advantage of smoother deformation with infinite resolution, overcoming the high polygonal constraints of state-of-the-art methods using discrete representations. We draw inspiration from the properties of surface curvature and employ rank minimization techniques derived from compressed sensing. Experimental results on both developable and non-developable surfaces, including those affected by noise, validate the generalizability of our method. | 翻訳日:2023-11-03 16:53:42 公開日:2023-11-02 |
# ルックライクなクラスタリングによる匿名学習:モデル一般化の高精度解析 Anonymous Learning via Look-Alike Clustering: A Precise Analysis of Model Generalization ( http://arxiv.org/abs/2310.04015v3 ) ライセンス: Link先を確認 | Adel Javanmard and Vahab Mirrokni | (参考訳) パーソナライズされたレコメンデーションシステムはますます人気を博しているが、これらの学習システムの開発においてユーザーデータ保護が最大の関心事である。
プライバシを強化する一般的なアプローチは、個別のデータではなく匿名データを使用したトレーニングモデルである。
本稿では,クラスタの平均値に個人の特徴を置き換える,‘emph{look-alike clustering’と呼ばれる自然な手法について検討する。
匿名クラスタセンターを用いたトレーニングモデルが一般化能力にどのように影響するかを正確に分析する。
我々は,訓練集合の大きさが特徴次元に比例して増加する漸近的構造に注目した。
解析は Convex Gaussian Minimax Theorem (CGMT) に基づいており、一般化誤差における異なるモデル成分の役割を理論的に理解することができる。
さらに,特定の高次元環境において,匿名クラスタセンタでのトレーニングが正規化として作用し,訓練モデルの一般化誤差が向上することを示す。
最後に、サンプルサイズが数百のオーダーしかない場合に完全な一致を観測する有限サンプル数値実験によって漸近理論を補足する。 While personalized recommendations systems have become increasingly popular, ensuring user data protection remains a top concern in the development of these learning systems. A common approach to enhancing privacy involves training models using anonymous data rather than individual data. In this paper, we explore a natural technique called \emph{look-alike clustering}, which involves replacing sensitive features of individuals with the cluster's average values. We provide a precise analysis of how training models using anonymous cluster centers affects their generalization capabilities. We focus on an asymptotic regime where the size of the training set grows in proportion to the features dimension. Our analysis is based on the Convex Gaussian Minimax Theorem (CGMT) and allows us to theoretically understand the role of different model components on the generalization error. In addition, we demonstrate that in certain high-dimensional regimes, training over anonymous cluster centers acts as a regularization and improves generalization error of the trained models. Finally, we corroborate our asymptotic theory with finite-sample numerical experiments where we observe a perfect match when the sample size is only of order of a few hundreds. | 翻訳日:2023-11-03 16:45:53 公開日:2023-11-02 |
# 1D-CapsNet-LSTM:マルチステップストックインデックス予測のためのディープラーニングベースモデル 1D-CapsNet-LSTM: A Deep Learning-Based Model for Multi-Step Stock Index Forecasting ( http://arxiv.org/abs/2310.02090v2 ) ライセンス: Link先を確認 | Cheng Zhang, Nilam Nur Amir Sjarif, Roslina Ibrahim | (参考訳) 多段階の株価指数予測は、情報的意思決定のための金融において不可欠である。
このタスクの現在の予測手法は、固有のデータのランダム性や不安定性により、しばしば不満足な結果をもたらすため、高度な予測モデルに対する需要を過小評価する。
各種予測および分類タスクにおけるCNNよりもカプセルネットワーク(CapsNet)の方が優れていることを踏まえ,多段階株価指数予測のためのLSTMネットワークと1D CapsNetを統合する可能性を検討した。
この目的のために、1D CapsNetを使用してシーケンシャルデータとLSTMネットワークから高レベルカプセルを生成し、時間的依存関係をキャプチャするハイブリッド1D-CapsNet-LSTMモデルが導入された。
異なる予測地平線上で確率的依存関係を維持するために、マルチインプット・マルチアウトプット(MIMO)戦略を採用する。
このモデルの性能は、S&P 500、DJIA、IXIC、NYSEを含む現実世界の株式市場指標で評価され、RMSE、MAE、MAPE、TICといった指標を用いてLSTM、RNN、CNN-LSTMといったベースラインモデルと比較される。
提案した1D-CapsNet-LSTMモデルは、ベースラインモデルを2つの重要な側面で一貫して上回っている。
ベースラインモデルと比較して予測誤差が大幅に減少する。
さらに、予測地平線を長くすることでエラー増加率が遅くなり、多段階予測タスクのロバスト性が向上することを示す。 Multi-step stock index forecasting is vital in finance for informed decision-making. Current forecasting methods on this task frequently produce unsatisfactory results due to the inherent data randomness and instability, thereby underscoring the demand for advanced forecasting models. Given the superiority of capsule network (CapsNet) over CNN in various forecasting and classification tasks, this study investigates the potential of integrating a 1D CapsNet with an LSTM network for multi-step stock index forecasting. To this end, a hybrid 1D-CapsNet-LSTM model is introduced, which utilizes a 1D CapsNet to generate high-level capsules from sequential data and a LSTM network to capture temporal dependencies. To maintain stochastic dependencies over different forecasting horizons, a multi-input multi-output (MIMO) strategy is employed. The model's performance is evaluated on real-world stock market indices, including S&P 500, DJIA, IXIC, and NYSE, and compared to baseline models, including LSTM, RNN, and CNN-LSTM, using metrics such as RMSE, MAE, MAPE, and TIC. The proposed 1D-CapsNet-LSTM model consistently outperforms baseline models in two key aspects. It exhibits significant reductions in forecasting errors compared to baseline models. Furthermore, it displays a slower rate of error increase with lengthening forecast horizons, indicating increased robustness for multi-step forecasting tasks. | 翻訳日:2023-11-03 16:44:52 公開日:2023-11-02 |
# 2層準地すべりモデルにおけるスコアに基づくデータ同化 Score-based Data Assimilation for a Two-Layer Quasi-Geostrophic Model ( http://arxiv.org/abs/2310.01853v2 ) ライセンス: Link先を確認 | Fran\c{c}ois Rozet and Gilles Louppe | (参考訳) データ同化(Data assimilation)は、ノイズや不完全な観測を与えられた力学系の可塑性状態軌跡を特定する問題に対処する。
地学では、地球物理力学系の高次元性により、しばしば数百万の次元を超える課題を示す。
本研究は,新たなデータ同化手法であるスコアベースデータ同化(SDA)のスケーラビリティを,そのようなシステムで評価する。
メモリ消費と実行時間を大幅に削減することを目的としたスコアネットワークアーキテクチャの変更を提案する。
2層準地動モデルにおいて有望な結果を示す。 Data assimilation addresses the problem of identifying plausible state trajectories of dynamical systems given noisy or incomplete observations. In geosciences, it presents challenges due to the high-dimensionality of geophysical dynamical systems, often exceeding millions of dimensions. This work assesses the scalability of score-based data assimilation (SDA), a novel data assimilation method, in the context of such systems. We propose modifications to the score network architecture aimed at significantly reducing memory consumption and execution time. We demonstrate promising results for a two-layer quasi-geostrophic model. | 翻訳日:2023-11-03 16:44:26 公開日:2023-11-02 |
# リアルタイムと汎用的なマルチタスクを一度だけ見る You Only Look at Once for Real-time and Generic Multi-Task ( http://arxiv.org/abs/2310.01641v3 ) ライセンス: Link先を確認 | Jiayuan Wang, Q. M. Jonathan Wu and Ning Zhang | (参考訳) 高精度、軽量、リアルタイムの応答性は、自動運転を実装するための3つの必須要件である。
本研究では,オブジェクト検出,ドリブル領域分割,レーン線分割を同時に行うように設計された適応的,リアルタイム,軽量なマルチタスクモデルを提案する。
具体的には、統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。
セグメンテーションネックにおける特徴を適応結合する学習可能なパラメータを導入し,すべてのセグメンテーションタスクにおいて同じ損失関数を用いた。
これにより、カスタマイズの必要性がなくなり、モデルの一般化機能が強化される。
また,一連の畳み込み層のみからなるセグメンテーションヘッドを導入し,推論時間を短縮した。
BDD100kデータセット上で、特に視覚化結果の競合的な結果を達成したのです。
その結果, 物体検出用mAP50は81.1%, 乾燥領域分割用mIoUは91.0%, レーン線分割用IoUは28.8%であった。
さらに、実際のシーンでモデルのパフォーマンスを評価するために、実世界のシナリオを導入しました。
これは、我々のモデルは競争性能を示すだけでなく、既存のマルチタスクモデルよりも柔軟で高速であることを示している。
ソースコードと事前訓練済みモデルはhttps://github.com/JiayuanWang-JW/YOLOv8-multi-taskで公開されている。 High precision, lightweight, and real-time responsiveness are three essential requirements for implementing autonomous driving. In this study, we present an adaptive, real-time, and lightweight multi-task model designed to concurrently address object detection, drivable area segmentation, and lane line segmentation tasks. Specifically, we developed an end-to-end multi-task model with a unified and streamlined segmentation structure. We introduced a learnable parameter that adaptively concatenate features in segmentation necks, using the same loss function for all segmentation tasks. This eliminates the need for customizations and enhances the model's generalization capabilities. We also introduced a segmentation head composed only of a series of convolutional layers, which reduces the inference time. We achieved competitive results on the BDD100k dataset, particularly in visualization outcomes. The performance results show a mAP50 of 81.1% for object detection, a mIoU of 91.0% for drivable area segmentation, and an IoU of 28.8% for lane line segmentation. Additionally, we introduced real-world scenarios to evaluate our model's performance in a real scene, which significantly outperforms competitors. This demonstrates that our model not only exhibits competitive performance but is also more flexible and faster than existing multi-task models. The source codes and pre-trained models are released at https://github.com/JiayuanWang-JW/YOLOv8-multi-task | 翻訳日:2023-11-03 16:44:17 公開日:2023-11-02 |
# 頻繁な逐次学習のためのベイズ設計原理 Bayesian Design Principles for Frequentist Sequential Learning ( http://arxiv.org/abs/2310.00806v2 ) ライセンス: Link先を確認 | Yunbei Xu, Assaf Zeevi | (参考訳) 逐次学習問題に対する頻繁な後悔を最適化する一般的な理論を開発し,ベイズ主義の原理から効率的な帯域幅と強化学習アルゴリズムを導出する。
各ラウンドで「アルゴリズム的信念」を生成するための新しい最適化手法を提案し、ベイズ的後続法を用いて意思決定を行う。
アルゴリズムの頻繁な後悔を効果的に特徴づける本質的な複雑性尺度を「アルゴリズム情報比」と呼ぶ「アルゴリズム的信念」を作成するための最適化目標とする。
我々の知る限りでは、これはベイズ型アルゴリズムを事前自由化し、汎用的で最適な方法で敵の設定に適用する最初の体系的なアプローチである。
さらに、アルゴリズムは、実装がシンプルで、しばしば効率的である。
そこで本研究では, 確率的, 敵対的, 非定常環境において, 経験的性能を実現するマルチアームバンディットのための新しいアルゴリズムを提案する。
そして,これらの原理が線形包帯,包帯凸最適化,強化学習にどのように利用できるかを説明する。 We develop a general theory to optimize the frequentist regret for sequential learning problems, where efficient bandit and reinforcement learning algorithms can be derived from unified Bayesian principles. We propose a novel optimization approach to generate "algorithmic beliefs" at each round, and use Bayesian posteriors to make decisions. The optimization objective to create "algorithmic beliefs," which we term "Algorithmic Information Ratio," represents an intrinsic complexity measure that effectively characterizes the frequentist regret of any algorithm. To the best of our knowledge, this is the first systematical approach to make Bayesian-type algorithms prior-free and applicable to adversarial settings, in a generic and optimal manner. Moreover, the algorithms are simple and often efficient to implement. As a major application, we present a novel algorithm for multi-armed bandits that achieves the "best-of-all-worlds" empirical performance in the stochastic, adversarial, and non-stationary environments. And we illustrate how these principles can be used in linear bandits, bandit convex optimization, and reinforcement learning. | 翻訳日:2023-11-03 16:43:54 公開日:2023-11-02 |
# MiliPoint: mmWave Radar用のポイントクラウドデータセット MiliPoint: A Point Cloud Dataset for mmWave Radar ( http://arxiv.org/abs/2309.13425v2 ) ライセンス: Link先を確認 | Han Cui, Shu Zhong, Jiacheng Wu, Zichao Shen, Naim Dahnoun, Yiren Zhao | (参考訳) ミリ波(mmWave)レーダーは、従来のカメラベースシステムと比較して、人間の活動検知に魅力的な、費用対効果のある代替手段として登場した。
mmWaveレーダーも邪魔にならないので、ユーザーのプライバシーを保護できます。
しかし、RF(Radio Frequency)ベースの技術として、mmWaveレーダーは物体からの反射信号を捉えることに依存しており、カメラに比べてノイズが強い。
このような魅力的なセンサーのためのより効果的なポイントセットベースのディープラーニング手法を開発することができるだろうか?
この質問に答えるために、我々の研究はMiliPointと呼ばれ、コミュニティのために大規模でオープンなデータセットを提供し、どのようにmmWaveレーダーを人間の活動認識に利用できるかを探求することで、このアイデアを掘り下げた。
さらに、milipointは、既存のデータセットよりもサイズが大きく、より多様なヒューマンアクションが表現され、人間のアクティビティ認識において3つの重要なタスクをすべて包含している点を際立たせている。
また、milipoint上では、dgcnn、pointnet++、pointtransformerといった、ポイントベースのディープニューラルネットワークも構築しました。 Millimetre-wave (mmWave) radar has emerged as an attractive and cost-effective alternative for human activity sensing compared to traditional camera-based systems. mmWave radars are also non-intrusive, providing better protection for user privacy. However, as a Radio Frequency (RF) based technology, mmWave radars rely on capturing reflected signals from objects, making them more prone to noise compared to cameras. This raises an intriguing question for the deep learning community: Can we develop more effective point set-based deep learning methods for such attractive sensors? To answer this question, our work, termed MiliPoint, delves into this idea by providing a large-scale, open dataset for the community to explore how mmWave radars can be utilised for human activity recognition. Moreover, MiliPoint stands out as it is larger in size than existing datasets, has more diverse human actions represented, and encompasses all three key tasks in human activity recognition. We have also established a range of point-based deep neural networks such as DGCNN, PointNet++ and PointTransformer, on MiliPoint, which can serve to set the ground baseline for further development. | 翻訳日:2023-11-03 16:43:02 公開日:2023-11-02 |
# 創薬・開発のための説明可能な人工知能 -- 包括的調査 Explainable Artificial Intelligence for Drug Discovery and Development -- A Comprehensive Survey ( http://arxiv.org/abs/2309.12177v2 ) ライセンス: Link先を確認 | Roohallah Alizadehsani, Solomon Sunday Oyelere, Sadiq Hussain, Rene Ripardo Calixto, Victor Hugo C. de Albuquerque, Mohamad Roshanzamir, Mohamed Rahouti, and Senthil Kumar Jagatheesaperumal | (参考訳) 薬物発見の分野は、人工知能(AI)と機械学習(ML)技術の出現とともに、顕著な変革を経験してきた。
しかし、これらのAIとMLモデルはますます複雑になりつつあるため、モデルの透明性と解釈可能性の必要性が高まっている。
説明可能な人工知能(XAI)は、この問題に対処し、機械学習モデルによる予測をより解釈可能な理解を提供する新しいアプローチである。
近年,薬物発見へのXAI技術の応用への関心が高まっている。
本稿では、様々なxai法、それらの薬物発見への応用、薬物発見におけるxai技術の挑戦と限界を含む、薬物発見のためのxaiの現在の技術の概要を概観する。
論文では、ターゲット同定、複合設計、毒性予測など、薬物発見におけるXAIの適用についても取り上げている。
さらに,XAIの薬物発見への応用に向けた今後の研究方向性も示唆している。
本総論の目的は,薬物発見におけるxaiの現状と,その領域を変革する可能性に関する包括的理解を提供することである。 The field of drug discovery has experienced a remarkable transformation with the advent of artificial intelligence (AI) and machine learning (ML) technologies. However, as these AI and ML models are becoming more complex, there is a growing need for transparency and interpretability of the models. Explainable Artificial Intelligence (XAI) is a novel approach that addresses this issue and provides a more interpretable understanding of the predictions made by machine learning models. In recent years, there has been an increasing interest in the application of XAI techniques to drug discovery. This review article provides a comprehensive overview of the current state-of-the-art in XAI for drug discovery, including various XAI methods, their application in drug discovery, and the challenges and limitations of XAI techniques in drug discovery. The article also covers the application of XAI in drug discovery, including target identification, compound design, and toxicity prediction. Furthermore, the article suggests potential future research directions for the application of XAI in drug discovery. The aim of this review article is to provide a comprehensive understanding of the current state of XAI in drug discovery and its potential to transform the field. | 翻訳日:2023-11-03 16:42:43 公開日:2023-11-02 |
# 修正NEATアルゴリズムに基づく時間遅延を考慮した動的システムのニューラルモデリング Neural Modelling of Dynamic Systems with Time Delays Based on an Adjusted NEAT Algorithm ( http://arxiv.org/abs/2309.12148v2 ) ライセンス: Link先を確認 | Krzysztof Laddach, Rafa{\l} {\L}angowski | (参考訳) 本稿では,時間遅延を伴う動的システムのブラックボックスモデリングに使用されるニューラルネットワークのアーキテクチャを探索するアルゴリズムの開発に関する課題について述べる。
提案アルゴリズムは、よく知られたNeuroEvolution of Augmenting Topologies (NEAT)アルゴリズムに基づいている。
NEATアルゴリズムは、人工ニューラルネットワーク内での追加接続を可能にし、元の特殊進化演算子を開発することで調整されている。
この結果、ニューラルネットワークのサイズと、それが学習された数学的モデルの応答を捉えるための精度との間に妥協が生じた。
この研究は、加圧水型原子炉で発生する高速プロセスと同様に、模範システムの数学的モデルから生成されたデータに基づく拡張検証研究を含んでいた。
シミュレーション結果を得た結果,時間遅延を持つ動的システムのニューラル(ブラックボックス)モデルの有効性が示された。 A problem related to the development of an algorithm designed to find an architecture of artificial neural network used for black-box modelling of dynamic systems with time delays has been addressed in this paper. The proposed algorithm is based on a well-known NeuroEvolution of Augmenting Topologies (NEAT) algorithm. The NEAT algorithm has been adjusted by allowing additional connections within an artificial neural network and developing original specialised evolutionary operators. This resulted in a compromise between the size of neural network and its accuracy in capturing the response of the mathematical model under which it has been learnt. The research involved an extended validation study based on data generated from a mathematical model of an exemplary system as well as the fast processes occurring in a pressurised water nuclear reactor. The obtaining simulation results demonstrate the high effectiveness of the devised neural (black-box) models of dynamic systems with time delays. | 翻訳日:2023-11-03 16:42:26 公開日:2023-11-02 |
# 単調性を超えたデータ要約:非単調二段極大化 Data Summarization beyond Monotonicity: Non-monotone Two-Stage Submodular Maximization ( http://arxiv.org/abs/2309.05183v2 ) ライセンス: Link先を確認 | Shaojie Tang | (参考訳) 2段階の準モジュラー最大化問題の目的は、与えられた訓練関数を用いて基底集合を小さくすることであり、削減された基底集合上での新しい目的関数が元の基底集合に匹敵する結果をもたらすことを確実にすることである。
この問題には、データ要約を含む様々な分野の応用がある。
既存の研究はしばしば目的関数の単調性を仮定するが、我々の研究は非単調部分モジュラ函数に対応するためにこの研究の拡張を先導している。
このより一般的なケースに対して、最初の定数近似アルゴリズムを導入しました。 The objective of a two-stage submodular maximization problem is to reduce the ground set using provided training functions that are submodular, with the aim of ensuring that optimizing new objective functions over the reduced ground set yields results comparable to those obtained over the original ground set. This problem has applications in various domains including data summarization. Existing studies often assume the monotonicity of the objective function, whereas our work pioneers the extension of this research to accommodate non-monotone submodular functions. We have introduced the first constant-factor approximation algorithms for this more general case. | 翻訳日:2023-11-03 16:42:16 公開日:2023-11-02 |
# 走査効率:オンデバイス推論のための医用イメージングモデルの作成 Sculpting Efficiency: Pruning Medical Imaging Models for On-Device Inference ( http://arxiv.org/abs/2309.05090v2 ) ライセンス: Link先を確認 | Sudarshan Sreeram and Bernhard Kainz | (参考訳) 医療システムの強化にMLの進歩を活用することで、患者の成果が向上する。
しかし、初期段階の研究における未熟なエンジニアリング決定は、高スループット、オンデバイス推論、特にレガシーハードウェアとマルチモーダルギガピクセルイメージを含む設定におけるそのようなソリューションの実現を不注意に妨げている。
心臓学におけるセグメンテーションに関する予備的ケーススタディを通じて、先行作業から最適に設定されたMLモデルにおける過剰な運用複雑さを強調し、デプロイ基準を満たすためにプルーニングを用いてそれを彫刻できることを実証する。
その結果、圧縮速度は1148倍で、品質の損失が最小(〜4%)で、GPUベースラインよりも高速にCPU上での推論を実現し、オフザシェルフモデルを使用する場合のタスク複雑性やアーキテクチャの詳細を考慮する必要性を強調した。
これにより、臨床研究者がより迅速に、より現実の用途に適したモデルを開発するためのワークフローの合理化に向けた今後の研究の道のりを考察する。 Leveraging ML advancements to augment healthcare systems can improve patient outcomes. Yet, uninformed engineering decisions in early-stage research inadvertently hinder the feasibility of such solutions for high-throughput, on-device inference, particularly in settings involving legacy hardware and multi-modal gigapixel images. Through a preliminary case study concerning segmentation in cardiology, we highlight the excess operational complexity in a suboptimally configured ML model from prior work and demonstrate that it can be sculpted away using pruning to meet deployment criteria. Our results show a compression rate of 1148x with minimal loss in quality (~4%) and, at higher rates, achieve faster inference on a CPU than the GPU baseline, stressing the need to consider task complexity and architectural details when using off-the-shelf models. With this, we consider avenues for future research in streamlining workflows for clinical researchers to develop models quicker and better suited for real-world use. | 翻訳日:2023-11-03 16:42:04 公開日:2023-11-02 |
# 自然相互作用と大規模言語モデルによるヒューマノイドロボット行動のインクリメンタル学習 Incremental Learning of Humanoid Robot Behavior from Natural Interaction and Large Language Models ( http://arxiv.org/abs/2309.04316v2 ) ライセンス: Link先を確認 | Leonard B\"armann, Rainer Kartmann, Fabian Peller-Konrad, Alex Waibel, Tamim Asfour | (参考訳) 自然言語ダイアログは直感的な人間とロボットの対話の鍵となる。
人間の意図を表現するだけでなく、ロボットがコマンドを正しく理解していない場合、改善のための指示を伝えるためにも使用できる。
重要なことは、ロボットにこのような対話体験から学ぶ能力を与えることで、彼らの行動を改善したり、将来間違いを回避できるようにすることです。
本稿では,自然相互作用から複雑な行動のインクリメンタルな学習を実現するシステムを提案し,ヒューマノイドロボットへの実装を実証する。
近年の進歩を踏まえ,LLMが対話型コンソールでPython文を生成し,ロボットの知覚と行動の両方を起動する,というアイデアに基づいて,ロボットの行動の高レベルなオーケストレーションのためのLarge Language Models(LLMs)をデプロイするシステムを提案する。
相互作用ループは人間の指示、環境観察、実行結果をLSMにフィードバックすることで閉じ、次の文を生成する。
具体的には,インクリメンタル・プロンプト・ラーニングを導入することで,システムがミスからインタラクティブに学習できるようにする。
その目的のために、LLMは人間のフィードバックに基づいて、現在のインタラクションのコードレベルの改善に責任を負う別のLLMを呼び出すことができる。
改善されたインタラクションはロボットのメモリに保存され、同様のリクエストで取得される。
我々は,人間型ロボットARMAR-6のロボット認知アーキテクチャにシステムを統合するとともに,一般化した学習知識を実世界とシミュレーションの両方で定量的に評価する。 Natural-language dialog is key for intuitive human-robot interaction. It can be used not only to express humans' intents, but also to communicate instructions for improvement if a robot does not understand a command correctly. Of great importance is to endow robots with the ability to learn from such interaction experience in an incremental way to allow them to improve their behaviors or avoid mistakes in the future. In this paper, we propose a system to achieve incremental learning of complex behavior from natural interaction, and demonstrate its implementation on a humanoid robot. Building on recent advances, we present a system that deploys Large Language Models (LLMs) for high-level orchestration of the robot's behavior, based on the idea of enabling the LLM to generate Python statements in an interactive console to invoke both robot perception and action. The interaction loop is closed by feeding back human instructions, environment observations, and execution results to the LLM, thus informing the generation of the next statement. Specifically, we introduce incremental prompt learning, which enables the system to interactively learn from its mistakes. For that purpose, the LLM can call another LLM responsible for code-level improvements of the current interaction based on human feedback. The improved interaction is then saved in the robot's memory, and thus retrieved on similar requests. We integrate the system in the robot cognitive architecture of the humanoid robot ARMAR-6 and evaluate our methods both quantitatively (in simulation) and qualitatively (in simulation and real-world) by demonstrating generalized incrementally-learned knowledge. | 翻訳日:2023-11-03 16:41:44 公開日:2023-11-02 |
# 時系列因果グラフの抽象化による総効果の識別可能性 Identifiability of total effects from abstractions of time series causal graphs ( http://arxiv.org/abs/2310.14691v2 ) ライセンス: Link先を確認 | Charles K. Assaad, Emilie Devijver (LIG, UGA), Eric Gaussier (LIG, UGA), Gregor G\"ossler (LIG, SPADES), Anouar Meynaoui (IRMAR, UR2) | (参考訳) 本稿では,システム因果グラフを抽象化した観測時系列からの介入による全効果の同定可能性の問題について検討する。
具体的には,すべてのラグ付き因果関係を共用するがラグ付きと瞬時関係を区別する拡張要約因果グラフと,因果関係間のラグを示さない要約因果グラフの2つの抽象化を考察した。
総和効果は拡張された総和因果グラフにおいて常に同定可能であり,総和因果グラフの識別性に必要かつ十分なグラフィカル条件を提供する。
さらに,特定可能な場合の総効果を推定するための調整セットも提供する。 We study the problem of identifiability of the total effect of an intervention from observational time series only given an abstraction of the causal graph of the system. Specifically, we consider two types of abstractions: the extended summary causal graph which conflates all lagged causal relations but distinguishes between lagged and instantaneous relations; and the summary causal graph which does not give any indication about the lag between causal relations. We show that the total effect is always identifiable in extended summary causal graphs and we provide necessary and sufficient graphical conditions for identifiability in summary causal graphs. Furthermore, we provide adjustment sets allowing to estimate the total effect whenever it is identifiable. | 翻訳日:2023-11-03 16:35:14 公開日:2023-11-02 |
# LLMベースのデバッグアプリケーションを評価するGitHubの最新バグデータセット The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging Applications ( http://arxiv.org/abs/2310.13229v2 ) ライセンス: Link先を確認 | Jae Yong Lee, Sungmin Kang, Juyeon Yoon, Shin Yoo | (参考訳) 大規模言語モデル(LLM)は、強力な自然言語処理とコード合成能力を示しており、ソフトウェア工学アプリケーションに急速に採用されている。
しかし、LSMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。
一般的なGPTモデルのトレーニングデータの代わりに、オープンソースのLLM StarCoderのトレーニングデータを調べ、広く使用されているDefects4Jベンチマークのデータが含まれている可能性を確認し、GPTトレーニングデータに含める可能性も高めている。
このことは、欠陥4JのLLMベースの結果がどの程度一般化されるかを知るのが困難であり、どんな結果であっても、その技術の性能がLLMの一般化か記憶によるかは明らかではない。
この問題を修正し、LLMベースのSEに関する継続的な研究を促進するために、GitHub recent Bugs (GHRB)データセットを紹介します。 Large Language Models (LLMs) have demonstrated strong natural language processing and code synthesis capabilities, which has led to their rapid adoption in software engineering applications. However, details about LLM training data are often not made public, which has caused concern as to whether existing bug benchmarks are included. In lieu of the training data for the popular GPT models, we examine the training data of the open-source LLM StarCoder, and find it likely that data from the widely used Defects4J benchmark was included, raising the possibility of its inclusion in GPT training data as well. This makes it difficult to tell how well LLM-based results on Defects4J would generalize, as for any results it would be unclear whether a technique's performance is due to LLM generalization or memorization. To remedy this issue and facilitate continued research on LLM-based SE, we present the GitHub Recent Bugs (GHRB) dataset, which includes 76 real-world Java bugs that were gathered after the OpenAI data cut-off point. | 翻訳日:2023-11-03 16:34:44 公開日:2023-11-02 |
# 表現的アライメントに整列すること Getting aligned on representational alignment ( http://arxiv.org/abs/2310.13018v2 ) ライセンス: Link先を確認 | Ilia Sucholutsky, Lukas Muttenthaler, Adrian Weller, Andi Peng, Andreea Bobu, Been Kim, Bradley C. Love, Erin Grant, Iris Groen, Jascha Achterberg, Joshua B. Tenenbaum, Katherine M. Collins, Katherine L. Hermann, Kerem Oktar, Klaus Greff, Martin N. Hebart, Nori Jacoby, Qiuyi Zhang, Raja Marjieh, Robert Geirhos, Sherol Chen, Simon Kornblith, Sunayana Rane, Talia Konkle, Thomas P. O'Connell, Thomas Unterthiner, Andrew K. Lampinen, Klaus-Robert M\"uller, Mariya Toneva, Thomas L. Griffiths | (参考訳) 生物学的および人工的な情報処理システムは、分類、推論、計画、ナビゲート、意思決定に使用できる表現を形成する。
これらの多様なシステムによって形成される表現がどの程度一致しているか、どのように測定できるのか?
表現の類似性は、類似した振る舞いに翻訳されるのか?
システムの表現をどのように変更して他のシステムの表現にマッチさせるのか?
表象的アライメントの研究に関するこれらの質問は、認知科学、神経科学、機械学習における最も活発な研究領域の核心にある。
例えば、認知科学者は、複数の個人の表象的アライメントを測定し、共有認知的優先順位を識別し、神経科学者は、複数の個人からのfmri応答をグループレベルの分析のための共有表現空間にアライメントする。
残念なことに、表象的アライメントに関心のある研究コミュニティ間の知識伝達は限られているため、ある分野における進歩は、しばしば別の分野において独立して再発見される。
したがって、より大きなクロスフィールド通信は有利である。
これらの分野間のコミュニケーションを改善するために,表現アライメントを研究する研究者の間で共通言語として機能する統一フレームワークを提案する。
文献を3分野すべてから調査し、先行作業がこのフレームワークにどのように適合するかを示す。
最後に、これらの3つの分野すべてに進歩が利益をもたらすような、表現的アライメントによるオープンな問題を提示します。
我々は,情報処理システムの研究・開発を行うすべてのコミュニティにおいて,学際的なコラボレーションの促進と進展を期待する。
この記事は作業論文であり、読者に今後の改訂を提案するよう促すものであることに留意する。 Biological and artificial information processing systems form representations that they can use to categorize, reason, plan, navigate, and make decisions. How can we measure the extent to which the representations formed by these diverse systems agree? Do similarities in representations then translate into similar behavior? How can a system's representations be modified to better match those of another system? These questions pertaining to the study of representational alignment are at the heart of some of the most active research areas in cognitive science, neuroscience, and machine learning. For example, cognitive scientists measure the representational alignment of multiple individuals to identify shared cognitive priors, neuroscientists align fMRI responses from multiple individuals into a shared representational space for group-level analyses, and ML researchers distill knowledge from teacher models into student models by increasing their alignment. Unfortunately, there is limited knowledge transfer between research communities interested in representational alignment, so progress in one field often ends up being rediscovered independently in another. Thus, greater cross-field communication would be advantageous. To improve communication between these fields, we propose a unifying framework that can serve as a common language between researchers studying representational alignment. We survey the literature from all three fields and demonstrate how prior work fits into this framework. Finally, we lay out open problems in representational alignment where progress can benefit all three of these fields. We hope that our work can catalyze cross-disciplinary collaboration and accelerate progress for all communities studying and developing information processing systems. We note that this is a working paper and encourage readers to reach out with their suggestions for future revisions. | 翻訳日:2023-11-03 16:34:26 公開日:2023-11-02 |
# 機械学習による高速モデルデバイアス Fast Model Debias with Machine Unlearning ( http://arxiv.org/abs/2310.12560v2 ) ライセンス: Link先を確認 | Ruizhe Chen, Jianfei Yang, Huimin Xiong, Jianhong Bai, Tianxiang Hu, Jin Hao, Yang Feng, Joey Tianyi Zhou, Jian Wu, Zuozhu Liu | (参考訳) 最近の発見により、深層ニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする可能性があることが判明した。
例えば、大規模な顔認識データセットCelebAでトレーニングされたディープネットワークは、女性のブロンドの髪と男性の黒い髪を予測する傾向がある。
このようなバイアスはモデルの堅牢性を損なうだけでなく、不公平な経済や社会的不平等を悪化させる可能性があるため、特に医療や採用などの自動意思決定プロセスに関係している社会的偏見を永続的かつ増幅する。
既存のデバイアス法ではバイアスラベリングやモデル再トレーニングに高いコストがかかる一方、モデル内のバイアスの起源を解明する観点では不足している。
そこで本研究では,学習モデルに内在するバイアスを識別,評価,除去するための効率的なアプローチを提供する高速モデルデバイアスフレームワーク(fmd)を提案する。
FMDは明示的な反ファクトの概念を通じてバイアス属性を特定し、影響関数を持つデータサンプルの影響を定量化する。
さらに,訓練モデルのバイアスを小さな反事実データセットで効果的かつ効果的に除去するために,マシンアンラーニングに基づく戦略を設計する。
色付きMNIST, CelebA, およびアダルト所得データセットと, 大規模言語モデルを用いた実験により, 本手法は, バイアスを著しく低減し, 遅延コストをはるかに低減しつつ, 最先端の手法に比べて優れた, あるいは競合する精度を達成できることが実証された。
特筆すべきは、この方法は小さな外部データセットと最小限のモデルパラメータの更新しか必要とせず、実際には大きすぎる、あるいは使用できない可能性のあるトレーニングデータにアクセスする必要がなくなることである。 Recent discoveries have revealed that deep neural networks might behave in a biased manner in many real-world scenarios. For instance, deep networks trained on a large-scale face recognition dataset CelebA tend to predict blonde hair for females and black hair for males. Such biases not only jeopardize the robustness of models but also perpetuate and amplify social biases, which is especially concerning for automated decision-making processes in healthcare, recruitment, etc., as they could exacerbate unfair economic and social inequalities among different groups. Existing debiasing methods suffer from high costs in bias labeling or model re-training, while also exhibiting a deficiency in terms of elucidating the origins of biases within the model. To this respect, we propose a fast model debiasing framework (FMD) which offers an efficient approach to identify, evaluate and remove biases inherent in trained models. The FMD identifies biased attributes through an explicit counterfactual concept and quantifies the influence of data samples with influence functions. Moreover, we design a machine unlearning-based strategy to efficiently and effectively remove the bias in a trained model with a small counterfactual dataset. Experiments on the Colored MNIST, CelebA, and Adult Income datasets along with experiments with large language models demonstrate that our method achieves superior or competing accuracies compared with state-of-the-art methods while attaining significantly fewer biases and requiring much less debiasing cost. Notably, our method requires only a small external dataset and updating a minimal amount of model parameters, without the requirement of access to training data that may be too large or unavailable in practice. | 翻訳日:2023-11-03 16:33:58 公開日:2023-11-02 |
# SURE: プログラムメモリスペクトルを用いた視覚的障害指標化手法 SURE: A Visualized Failure Indexing Approach using Program Memory Spectrum ( http://arxiv.org/abs/2310.12415v2 ) ライセンス: Link先を確認 | Yi Song, Xihao Zhang, Xiaoyuan Xie, Songqiang Chen, Quanming Liu, Ruizhi Gao | (参考訳) フェールインデクシングは、ソフトウェアのテストとデバッグにおいて長年続く難題であり、障害プログラムにおける複数の障害が独立して同時に処理されるように、失敗(例えば、失敗したテストケース)を原因の根本原因に従って個別のグループに自動的に分割することを目的としている。
このコミュニティは長い間、2つの課題に悩まされてきた。
1) 分割の有効性は, まだ有望とは程遠い。
既存のテクニックでは、実行時のデータ(例えばコードカバレッジ)の限られたソースしか使用していないため、通常は不満足な結果をもたらす。
2)結果はほとんど理解できない。
障害インデックス結果を受信した開発者は、すべての障害を現在の方法で分割すべき理由を知らない。
これにより、開発者は結果に納得することが難しくなり、結果として結果の採用に影響を及ぼす。
本稿では,これらの課題に対処するため,プログラムメモリスペクトルを用いたsualized failuRe indExingアプローチであるSUREを提案する。
まず、テストケースの実行中に予め設定されたブレークポイントで実行時のメモリ情報を収集し、それを人間フレンドリーな画像(プログラムメモリスペクトル、PMS)に変換する。
そして、2つの障害のプロキシとなる1対のpms画像がトレーニングされたシアム畳み込みニューラルネットワークに送られ、それらが同じ障害によって引き起こされる可能性を予測する。
その結果、101.20%と41.38%の障害数推定の改善と、105.20%と35.53%のクラスタリング改善が得られた。
さらに, PMSの理解度を定量的に評価するために人間による研究を行い, この新しい表現は, ディベロッパによる障害指標の理解に有効であることを示した。 Failure indexing is a longstanding crux in software testing and debugging, the goal of which is to automatically divide failures (e.g., failed test cases) into distinct groups according to the culprit root causes, as such multiple faults in a faulty program can be handled independently and simultaneously. This community has long been plagued by two challenges: 1) The effectiveness of division is still far from promising. Existing techniques only employ a limited source of run-time data (e.g., code coverage) to be failure proximity, which typically delivers unsatisfactory results. 2) The outcome can be hardly comprehensible. A developer who receives the failure indexing result does not know why all failures should be divided the way they are. This leads to difficulties for developers to be convinced by the result, which in turn affects the adoption of the results. To tackle these challenges, in this paper, we propose SURE, a viSUalized failuRe indExing approach using the program memory spectrum. We first collect the run-time memory information at preset breakpoints during the execution of failed test cases, and transform it into human-friendly images (called program memory spectrum, PMS). Then, any pair of PMS images that serve as proxies for two failures is fed to a trained Siamese convolutional neural network, to predict the likelihood of them being triggered by the same fault. Results demonstrate the effectiveness of SURE: It achieves 101.20% and 41.38% improvements in faults number estimation, as well as 105.20% and 35.53% improvements in clustering, compared with the state-of-the-art technique in this field, in simulated and real-world environments, respectively. Moreover, we carry out a human study to quantitatively evaluate the comprehensibility of PMS, revealing that this novel type of representation can help developers better comprehend failure indexing results. | 翻訳日:2023-11-03 16:33:26 公開日:2023-11-02 |
# QUIK: 生成する大規模言語モデルに対するエンド・ツー・エンド4ビット推論 QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models ( http://arxiv.org/abs/2310.09259v2 ) ライセンス: Link先を確認 | Saleh Ashkboos, Ilia Markov, Elias Frantar, Tingxuan Zhong, Xincheng Wang, Jie Ren, Torsten Hoefler, Dan Alistarh | (参考訳) GPTファミリーの大規模言語モデル(LLM)は非常に人気があり、効率的な局所計算を可能にするために推論コストを削減しようとしている。
しかし、既存の作業の大部分はウェイトのみの量子化にフォーカスしており、メモリバウンドのワントケン・ア・タイム生成設定のランタイムコストを削減できるが、バッチ推論やプロンプト処理といった計算バウンドのシナリオでは処理しない。
本稿では,重みとアクティベーションの両方を量子化すべき一般量子化問題に対処する。
LLaMA, OPT, Falconなどの大規模生成モデルに対する推論計算の大半は, 4ビットの重み付けとアクティベーションを同時に行うことができ, 高い精度を維持しつつ, 実用的な高速化を実現することができることを示す。
我々はQUIKと呼ばれるハイブリッド量子化戦略によりこれを達成し、ほとんどの重量と活性化を4ビットに圧縮し、より精度の高い重量と活性化を維持する。
このスキームの重要な特徴は、計算効率を念頭に置いて設計されていることである。我々は、quikフォーマットと高効率な層毎ランタイムをマッチするgpuカーネルを提供し、fp16実行と比較して、エンド・ツー・エンドのスループットを最大3.4倍改善する。
我々は、OPT、LLaMA-2、Falconファミリーのモデルに関する詳細な研究と、量子化と2:4の間隔を用いた正確な推論の第一例について述べる。
コードはhttps://github.com/ist-daslab/quik。 Large Language Models (LLMs) from the GPT family have become extremely popular, leading to a race towards reducing their inference costs to allow for efficient local computation. Yet, the vast majority of existing work focuses on weight-only quantization, which can reduce runtime costs in the memory-bound one-token-at-a-time generative setting, but does not address them in compute-bound scenarios, such as batched inference or prompt processing. In this paper, we address the general quantization problem, where both weights and activations should be quantized. We show, for the first time, that the majority of inference computations for large generative models such as LLaMA, OPT, and Falcon can be performed with both weights and activations being cast to 4 bits, in a way that leads to practical speedups, while at the same time maintaining good accuracy. We achieve this via a hybrid quantization strategy called QUIK, which compresses most of the weights and activations to 4-bit, while keeping some outlier weights and activations in higher-precision. The key feature of our scheme is that it is designed with computational efficiency in mind: we provide GPU kernels matching the QUIK format with highly-efficient layer-wise runtimes, which lead to practical end-to-end throughput improvements of up to 3.4x relative to FP16 execution. We provide detailed studies for models from the OPT, LLaMA-2 and Falcon families, as well as a first instance of accurate inference using quantization plus 2:4 sparsity. Code is available at: https://github.com/IST-DASLab/QUIK. | 翻訳日:2023-11-03 16:30:58 公開日:2023-11-02 |
# 時間的行動検出のための境界離散化と信頼性分類網 Boundary Discretization and Reliable Classification Network for Temporal Action Detection ( http://arxiv.org/abs/2310.06403v2 ) ライセンス: Link先を確認 | Zhenying Fang | (参考訳) テンポラルアクション検出は、アクションカテゴリを認識し、未トリミングビデオにおける各アクションインスタンスの開始と終了時間を決定することを目的としている。
混合手法は、単純にアンカーベースとアンカーフリーのアプローチをマージすることで、顕著な性能を達成した。
しかし,(1)ブルートフォースマージと手作りアンカーの設計は,混合手法の性能と実用性に影響を及ぼす。
2) 行動カテゴリー予測における多数の偽陽性は検出性能にさらに影響を及ぼす。
本稿では,境界離散化と信頼性分類モジュールを導入して,上記の問題に対処する新しい境界離散化・信頼性分類ネットワークを提案する。
具体的には、境界離散化モジュール(BDM)は、従来の混合法で必要とされる手作りアンカーの設計を避けるために、境界離散化の形でアンカーベースおよびアンカーフリーアプローチをエレガントにマージする。
さらに、信頼性分類モジュール(RCM)は、信頼性のあるアクションカテゴリを予測し、アクションカテゴリ予測における偽陽性を減らす。
異なるベンチマークで行った実験により,提案手法は最先端の手法と比較して良好な性能を示した。
例えば、BDRC-NetはTHUMOS'14で平均68.6%のmAPに達し、前年より1.5%上回った。
コードはhttps://github.com/zhenyingfang/BDRC-Netで公開される。 Temporal action detection aims to recognize the action category and determine the starting and ending time of each action instance in untrimmed videos. The mixed methods have achieved remarkable performance by simply merging anchor-based and anchor-free approaches. However, there are still two crucial issues in the mixed framework: (1) Brute-force merging and handcrafted anchors design affect the performance and practical application of the mixed methods. (2) A large number of false positives in action category predictions further impact the detection performance. In this paper, we propose a novel Boundary Discretization and Reliable Classification Network (BDRC-Net) that addresses the above issues by introducing boundary discretization and reliable classification modules. Specifically, the boundary discretization module (BDM) elegantly merges anchor-based and anchor-free approaches in the form of boundary discretization, avoiding the handcrafted anchors design required by traditional mixed methods. Furthermore, the reliable classification module (RCM) predicts reliable action categories to reduce false positives in action category predictions. Extensive experiments conducted on different benchmarks demonstrate that our proposed method achieves favorable performance compared with the state-of-the-art. For example, BDRC-Net hits an average mAP of 68.6% on THUMOS'14, outperforming the previous best by 1.5%. The code will be released at https://github.com/zhenyingfang/BDRC-Net. | 翻訳日:2023-11-03 16:30:27 公開日:2023-11-02 |
# 多様体による固有方程式:微分可能多様体上の測地距離と流れ Manifold-augmented Eikonal Equations: Geodesic Distances and Flows on Differentiable Manifolds ( http://arxiv.org/abs/2310.06157v2 ) ライセンス: Link先を確認 | Daniel Kelshaw, Luca Magri | (参考訳) 機械学習モデルによって発見されたマニフォールドは、基礎となるデータのコンパクトな表現を提供する。
これらの多様体上の測地学は局所的な長さ最小化曲線を定義し、距離の概念を提供する。
本研究では,多様体上の距離場と測地線流れのモデルに基づくパラメータ化を提案し,その解を応用した固有方程式を提案する。
多様体の幾何学が距離場にどのように影響するかを実証し、測地線流を利用して、グローバルな長さ最小曲線を直接得る。
この研究は、微分可能多様体上の統計学と減次モデリングの機会を開く。 Manifolds discovered by machine learning models provide a compact representation of the underlying data. Geodesics on these manifolds define locally length-minimising curves and provide a notion of distance, which are key for reduced-order modelling, statistical inference, and interpolation. In this work, we propose a model-based parameterisation for distance fields and geodesic flows on manifolds, exploiting solutions of a manifold-augmented Eikonal equation. We demonstrate how the geometry of the manifold impacts the distance field, and exploit the geodesic flow to obtain globally length-minimising curves directly. This work opens opportunities for statistics and reduced-order modelling on differentiable manifolds. | 翻訳日:2023-11-03 16:30:03 公開日:2023-11-02 |
# スケーラブルピエゾ-オプトメカニカルトランスデューサを用いた超伝導量子ビットの光読み出し Optical readout of a superconducting qubit using a scalable piezo-optomechanical transducer ( http://arxiv.org/abs/2310.06026v2 ) ライセンス: Link先を確認 | T.C. van Thiel, M.J. Weaver, F. Berto, P. Duivestein, M. Lemang, K.L. Schuurman, M. \v{Z}emli\v{c}ka, F. Hijazi, A.C. Bernasconi, E. Lachman, M. Field, Y. Mohan, F.K. de Vries, C.C. Bultink, J. van Oven, J.Y. Mutus, R. Stockill, S. Gr\"oblacher | (参考訳) 超伝導量子プロセッサは、サイズと計算能力に大きな進歩をもたらした。
その結果、多数の超伝導量子ビットを動作させることによる実用的極低温限界は、さらなるスケーリングのボトルネックとなっている。
電気通信繊維の低熱伝導率と高密度光多重化能力のため、マイクロ波から光への変換による量子ビット信号処理は低温空間と熱予算のひずみを著しく緩和する。
本稿では,同軸ケーブルを介して接続された超伝導トランスモンキュービットの光ファイバと,ピエゾ-オプトメカニカルトランスデューサを完全統合した高忠実度マルチショット光読み出しを示す。
復調読み出し技術を用いて,量子制限増幅器を用いることなく,200平均以下でクライオスタットに送信される光パワーの最大6$\mu$Wにおいて,最大0.99のマルチショット読み出しフィリティを実現する。
トランスデューサと量子ビットリードアウト共振器の周波数マッチングの改善により,単発光リードアウトの実現が期待できる。
小さいフットプリント (0.15mm$^2$) とモジュラーファイバーベースのアーキテクチャのため、このデバイスプラットフォームは数千のキュービットで使用するためにスケールする可能性がある。
この結果から,大型量子プロセッサの低散逸動作に対する圧電オプトメカニカルトランスダクションの可能性が示唆された。 Superconducting quantum processors have made significant progress in size and computing potential. As a result, the practical cryogenic limitations of operating large numbers of superconducting qubits are becoming a bottleneck for further scaling. Due to the low thermal conductivity and the dense optical multiplexing capacity of telecommunications fiber, converting qubit signal processing to the optical domain using microwave-to-optics transduction would significantly relax the strain on cryogenic space and thermal budgets. Here, we demonstrate high-fidelity multi-shot optical readout through an optical fiber of a superconducting transmon qubit connected via a coaxial cable to a fully integrated piezo-optomechanical transducer. Using a demolition readout technique, we achieve a multi-shot readout fidelity of >0.99 at 6 $\mu$W of optical power transmitted into the cryostat with as few as 200 averages, without the use of a quantum-limited amplifier. With improved frequency matching between the transducer and the qubit readout resonator, we anticipate that single-shot optical readout is achievable. Due to the small footprint (<0.15mm$^2$) and the modular fiber-based architecture, this device platform has the potential to scale towards use with thousands of qubits. Our results illustrate the potential of piezo-optomechanical transduction for low-dissipation operation of large quantum processors. | 翻訳日:2023-11-03 16:29:51 公開日:2023-11-02 |
# 大規模ブラックボックス最適化のためのマルチレベル学習による分散進化戦略 Distributed Evolution Strategies with Multi-Level Learning for Large-Scale Black-Box Optimization ( http://arxiv.org/abs/2310.05377v3 ) ライセンス: Link先を確認 | Qiqi Duan and Chang Shao and Guochen Zhou and Minghan Zhang and Qi Zhao and Yuhui Shi | (参考訳) ムーア時代以降、ブラックボックスオプティマイザの主な性能向上は、特に大規模最適化(lso)において、並列性に依存している。
本稿では、確立された共分散行列適応進化戦略(CMA-ES)、特にその最新のLSO変種であるリミテッドメモリCMA-ES(LM-CMA)を並列化する。
本稿では,分散lm-cmaのための多レベル学習に基づくメタフレームワークを提案する。
階層的に整理された構造のため、Meta-ESは分散メタフレームワークの実装に適しており、外部ESは戦略パラメータを制御し、全ての並列内部ESは異なる設定でシリアルLM-CMAを実行する。
外部esの分布平均更新は、それぞれ停滞と退行を避けるために、エリート戦略とマルチ組換え戦略の両方を並行して使用する。
時空間情報を活用するため、グローバルステップサイズ適応はMeta-ESと並列累積ステップサイズ適応を組み合わせた。
それぞれの分離時間の後、メタフレームワークは構造とパラメータ学習戦略の両方を使用してcma再構成のための進化経路を結合します。
メモリ集約的な評価を伴う一連の大規模ベンチマーク関数の実験、多くのデータ駆動最適化問題を反映し、その利点(有効性w.r.t.ソリューション品質、適応性w.r.t.2次学習)とメタフレームワークのコストを検証する。 In the post-Moore era, main performance gains of black-box optimizers are increasingly depending on parallelism, especially for large-scale optimization (LSO). Here we propose to parallelize the well-established covariance matrix adaptation evolution strategy (CMA-ES) and in particular its one latest LSO variant called limited-memory CMA-ES (LM-CMA). To achieve efficiency while approximating its powerful invariance property, we present a multilevel learning-based meta-framework for distributed LM-CMA. Owing to its hierarchically organized structure, Meta-ES is well-suited to implement our distributed meta-framework, wherein the outer-ES controls strategy parameters while all parallel inner-ESs run the serial LM-CMA with different settings. For the distribution mean update of the outer-ES, both the elitist and multi-recombination strategy are used in parallel to avoid stagnation and regression, respectively. To exploit spatiotemporal information, the global step-size adaptation combines Meta-ES with the parallel cumulative step-size adaptation. After each isolation time, our meta-framework employs both the structure and parameter learning strategy to combine aligned evolution paths for CMA reconstruction. Experiments on a set of large-scale benchmarking functions with memory-intensive evaluations, arguably reflecting many data-driven optimization problems, validate the benefits (e.g., effectiveness w.r.t. solution quality, and adaptability w.r.t. second-order learning) and costs of our meta-framework. | 翻訳日:2023-11-03 16:29:28 公開日:2023-11-02 |
# EMO: 自動回帰言語モデリングのためのアースモーバー距離最適化 EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling ( http://arxiv.org/abs/2310.04691v3 ) ライセンス: Link先を確認 | Siyu Ren, Zhiyong Wu, Kenny Q. Zhu | (参考訳) ニューラル言語モデルは人間のテキストの確率モデルである。
それらは主に、経験的データ分布とモデル分布の間の前方のクロスエントロピーを最小化するmle(maximum likelihood estimation)を使用して訓練される。
しかし、これらのモデルで学習した分布から復号する際には、様々な退化現象が広く見られる。
その結果,(1)リコール優先性(2)負の多様性無知,(3)列車試験ミスマッチによる人間とモデル分布の整合のための距離指標として,前方方向のクロスエントロピーが準最適であることが判明した。
本稿では,自動回帰言語モデリングのための地球間距離最適化(EMO)を提案する。
EMOは、前述の課題に対処するために、地球移動器距離の本質的な性質を生かしている。
直接計算の複雑さが高いため、emoのエンドツーエンドトレーニングを容易にするために、さらに実現可能な上限を導入する。
EMOとMLEを用いて訓練した言語モデルの広範囲な評価を行う。
EMOはドメイン間のMLEよりも一貫して優れた言語モデリング性能を示す。
さらに、EMOは、わずか25,000の文で最小限の微調整を施して、下流のパフォーマンスを向上する。
これは、大規模な事前学習された言語モデルを強化するための軽量キャリブレーション方法としてのemoの膨大な可能性を強調している。 Neural language models are probabilistic models of human text. They are predominantly trained using maximum likelihood estimation (MLE), which is equivalent to minimizing the forward cross-entropy between the empirical data distribution and the model distribution. However, various degeneration phenomena are still widely observed when decoding from the distributions learned by such models. We establish that the forward cross-entropy is suboptimal as a distance metric for aligning human and model distribution due to its (1) recall-prioritization (2) negative diversity ignorance and (3) train-test mismatch. In this paper, we propose Earth Mover Distance Optimization (EMO) for auto-regressive language modeling. EMO capitalizes on the inherent properties of earth mover distance to address the aforementioned challenges. Due to the high complexity of direct computation, we further introduce a feasible upper bound for EMO to ease end-to-end training. Upon extensive evaluation of language models trained using EMO and MLE. We find that EMO demonstrates a consistently better language modeling performance than MLE across domains. Moreover, EMO demonstrates noteworthy enhancements in downstream performance with minimal fine-tuning on merely 25,000 sentences. This highlights the tremendous potential of EMO as a lightweight calibration method for enhancing large-scale pre-trained language models. | 翻訳日:2023-11-03 16:28:57 公開日:2023-11-02 |
# アンサンブル対人防御の理解と改善 Understanding and Improving Ensemble Adversarial Defense ( http://arxiv.org/abs/2310.18477v2 ) ライセンス: Link先を確認 | Yian Deng, Tingting Mu | (参考訳) アンサンブルの戦略は、協調的な方法で敵の攻撃から防御するために複数のベース分類器を訓練する敵防御に人気がある。
実証的な成功にもかかわらず、なぜ敵対的に訓練された分類器の集合が単体よりも頑丈なのかという理論的説明はいまだにない。
このギャップを埋めるために,アンサンブルな対向防御を理解するための新しい誤り理論を開発し,対向防御シナリオにおいて,挑戦的なサンプル集合に対する0-1の損失低減を示す。
この理論を導いた本研究では,対話的グローバル対人訓練(iGAT)と呼ばれる,アンサンブル対人防御を改善する効果的なアプローチを提案する。
本提案は,(1) アンサンブルに難易度の高い異なる基本分類器に対して選択的に割り当てる確率分布規則,(2) 基本分類器の深刻な弱点を解消するための正規化項を含む。
既存のさまざまなアンサンブル対防御技術でテストされているiGATは、ホワイトボックスとブラックボックスの両方の攻撃下で、CIFAR10とCIFAR100データセットを使用して評価された最大17%の性能を向上させることができる。 The strategy of ensemble has become popular in adversarial defense, which trains multiple base classifiers to defend against adversarial attacks in a cooperative manner. Despite the empirical success, theoretical explanations on why an ensemble of adversarially trained classifiers is more robust than single ones remain unclear. To fill in this gap, we develop a new error theory dedicated to understanding ensemble adversarial defense, demonstrating a provable 0-1 loss reduction on challenging sample sets in an adversarial defense scenario. Guided by this theory, we propose an effective approach to improve ensemble adversarial defense, named interactive global adversarial training (iGAT). The proposal includes (1) a probabilistic distributing rule that selectively allocates to different base classifiers adversarial examples that are globally challenging to the ensemble, and (2) a regularization term to rescue the severest weaknesses of the base classifiers. Being tested over various existing ensemble adversarial defense techniques, iGAT is capable of boosting their performance by increases up to 17% evaluated using CIFAR10 and CIFAR100 datasets under both white-box and black-box attacks. | 翻訳日:2023-11-03 16:20:12 公開日:2023-11-02 |
# 自己回帰モデルにおける軌跡からの意味表現 Meaning Representations from Trajectories in Autoregressive Models ( http://arxiv.org/abs/2310.18348v2 ) ライセンス: Link先を確認 | Tian Yu Liu, Matthew Trager, Alessandro Achille, Pramuditha Perera, Luca Zancato, Stefano Soatto | (参考訳) 入力テキストを拡張可能な全ての形容詞の分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
さらに、ベクトルベースの表現とは異なり、分布ベースの表現は、可能性関数間の代数的操作を用いて非対称関係(例えば、論理的包含方向、ハイパーネム/ハイポニム関係)をモデル化することもできる。
これらの概念はセマンティクスの分布的観点に基礎を置き、オートマトン理論の標準構成と結びついているが、我々の知識では現代の言語モデルには適用されていない。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
最後に,マルチモーダル自己回帰モデルを用いて,異なるモーダル(画像やテキストなど)のデータを表現する手法を拡張した。 We propose to extract meaning representations from autoregressive language models by considering the distribution of all possible trajectories extending an input text. This strategy is prompt-free, does not require fine-tuning, and is applicable to any pre-trained autoregressive model. Moreover, unlike vector-based representations, distribution-based representations can also model asymmetric relations (e.g., direction of logical entailment, hypernym/hyponym relations) by using algebraic operations between likelihood functions. These ideas are grounded in distributional perspectives on semantics and are connected to standard constructions in automata theory, but to our knowledge they have not been applied to modern language models. We empirically show that the representations obtained from large models align well with human annotations, outperform other zero-shot and prompt-free methods on semantic similarity tasks, and can be used to solve more complex entailment and containment tasks that standard embeddings cannot handle. Finally, we extend our method to represent data from different modalities (e.g., image and text) using multimodal autoregressive models. | 翻訳日:2023-11-03 16:19:49 公開日:2023-11-02 |
# 協調最適化による自律走行車のインタラクティブモーションプランニング Interactive Motion Planning for Autonomous Vehicles with Joint Optimization ( http://arxiv.org/abs/2310.18301v2 ) ライセンス: Link先を確認 | Yuxiao Chen, Sushant Veer, Peter Karkus, and Marco Pavone | (参考訳) 高度にインタラクティブな運転シナリオでは、あるエージェントの行動は隣人の行動に大きく影響する。
このような対話的な環境で自動運転車の安全な動きを計画するには、エゴの意図した動き計画が近くのエージェントの行動に与える影響を推論する必要がある。
ディープラーニングモデルは最近、軌道予測で大きな成功を収めており、文献の多くのモデルは、自我条件付き予測を可能にしている。
しかしながら、ニューラルネットワークの複雑な性質から、ego条件付き予測の活用は下流計画において依然として困難であり、プランナー構造をサンプリングベースのプランナーのように単純なものに制限している。
細かい粒度の高い運動計画を生成する能力があるにもかかわらず、モデル予測制御(mpc)のような勾配に基づく計画アルゴリズムでは、反復的な性質と勾配の必要性から、エゴ条件付き予測を活用することが困難である。
IJP(Interactive Joint Planning)では、学習した予測モデルでMPCを橋渡し、両者の長所を提供する。
特に、IJPはエゴとその周辺エージェントの挙動を共同で最適化し、結合軌道最適化が近づこうとする事前予測として深層学習予測モデルを活用する。
さらに, ホモトピークラスを活用することで, 局所的なミニマに悩まされるのを避けるために, 多様な動きプランを探索する。
閉ループシミュレーションの結果、IJPは共同最適化やサンプリングベースプランニングを行わないベースラインよりも大幅に優れていた。 In highly interactive driving scenarios, the actions of one agent greatly influences those of its neighbors. Planning safe motions for autonomous vehicles in such interactive environments, therefore, requires reasoning about the impact of the ego's intended motion plan on nearby agents' behavior. Deep-learning-based models have recently achieved great success in trajectory prediction and many models in the literature allow for ego-conditioned prediction. However, leveraging ego-conditioned prediction remains challenging in downstream planning due to the complex nature of neural networks, limiting the planner structure to simple ones, e.g., sampling-based planner. Despite their ability to generate fine-grained high-quality motion plans, it is difficult for gradient-based planning algorithms, such as model predictive control (MPC), to leverage ego-conditioned prediction due to their iterative nature and need for gradient. We present Interactive Joint Planning (IJP) that bridges MPC with learned prediction models in a computationally scalable manner to provide us the best of both the worlds. In particular, IJP jointly optimizes over the behavior of the ego and the surrounding agents and leverages deep-learned prediction models as prediction priors that the join trajectory optimization tries to stay close to. Furthermore, by leveraging homotopy classes, our joint optimizer searches over diverse motion plans to avoid getting stuck at local minima. Closed-loop simulation result shows that IJP significantly outperforms the baselines that are either without joint optimization or running sampling-based planning. | 翻訳日:2023-11-03 16:19:27 公開日:2023-11-02 |
# 深く変換されたガウス過程 Deep Transformed Gaussian Processes ( http://arxiv.org/abs/2310.18230v2 ) ライセンス: Link先を確認 | Francisco Javier S\'aez-Maldonado, Juan Maro\~nas, Daniel Hern\'andez-Lobato | (参考訳) 変換ガウス過程(英: transform gaussian process、tgps)は、逆変換を用いて先行過程(典型的にはgp)からサンプルをジョイント分布から変換し、基本過程の柔軟性を高めることにより定義される確率過程である。
さらに、GPの階層的連結によって構築された別の一般化であるディープガウス過程(DGP)と比較して、競合的な結果が得られる。
本研究では,確率過程の階層化の傾向に追従して,Deep Transformed Gaussian Processs (DTGPs) と呼ばれるTGPの一般化を提案する。
より正確には、各層がTGPである多層モデルを得る。
この一般化は、TGPとDGPの両方に対する柔軟性の増大を意味する。
そのようなモデルにおける厳密な推論は難解である。
しかし, DSVI推論アルゴリズムSalimbeni et al (2017) の直接拡張により, 必要な計算量を近似するために, 変分推論を利用できることを示す。
実験では,提案手法であるdtgpsを複数回帰データセットで評価し,スケーラビリティと性能を向上した。 Transformed Gaussian Processes (TGPs) are stochastic processes specified by transforming samples from the joint distribution from a prior process (typically a GP) using an invertible transformation; increasing the flexibility of the base process. Furthermore, they achieve competitive results compared with Deep Gaussian Processes (DGPs), which are another generalization constructed by a hierarchical concatenation of GPs. In this work, we propose a generalization of TGPs named Deep Transformed Gaussian Processes (DTGPs), which follows the trend of concatenating layers of stochastic processes. More precisely, we obtain a multi-layer model in which each layer is a TGP. This generalization implies an increment of flexibility with respect to both TGPs and DGPs. Exact inference in such a model is intractable. However, we show that one can use variational inference to approximate the required computations yielding a straightforward extension of the popular DSVI inference algorithm Salimbeni et al (2017). The experiments conducted evaluate the proposed novel DTGPs in multiple regression datasets, achieving good scalability and performance. | 翻訳日:2023-11-03 16:18:59 公開日:2023-11-02 |
# オープンドメイン質問応答における非関連文書の歪み低減によるゼロショット読解の改善 Improving Zero-shot Reader by Reducing Distractions from Irrelevant Documents in Open-Domain Question Answering ( http://arxiv.org/abs/2310.17490v2 ) ライセンス: Link先を確認 | Sukmin Cho, Jeongyeon Seo, Soyeong Jeong, Jong C. Park | (参考訳) 大規模言語モデル (LLM) は、オープンドメイン質問応答 (ODQA) においてゼロショットアプローチを可能にするが、読者が検索者と比較されるにつれて、進歩は限られている。
本研究の目的は,計算コストの課題とラベル付きデータの必要性に対処するゼロショットリーダの実現性である。
LLMは、検索された集合の無関係な文書と、ゼロショットリーダーとして利用された際の生成した回答の過度な信頼のため、混乱していることがわかった。
これらの問題に対処するため,DAS(Distract-Aware Answer Selection)を用いて,適切な回答選択のための否定に基づく命令とスコア調整を行う。
実験の結果,提案手法は様々なシナリオにまたがって注意をそらすことに成功し,ゼロショットリーダーの性能が向上した。
さらに、目に見えないデータに苦しむ教師付き読者とは異なり、ゼロショット読者はトレーニングなしで優れた転送性を示す。 Large language models (LLMs) enable zero-shot approaches in open-domain question answering (ODQA), yet with limited advancements as the reader is compared to the retriever. This study aims at the feasibility of a zero-shot reader that addresses the challenges of computational cost and the need for labeled data. We find that LLMs are distracted due to irrelevant documents in the retrieved set and the overconfidence of the generated answers when they are exploited as zero-shot readers. To tackle these problems, we mitigate the impact of such documents via Distraction-aware Answer Selection (DAS) with a negation-based instruction and score adjustment for proper answer selection. Experimental results show that our approach successfully handles distraction across diverse scenarios, enhancing the performance of zero-shot readers. Furthermore, unlike supervised readers struggling with unseen data, zero-shot readers demonstrate outstanding transferability without any training. | 翻訳日:2023-11-03 16:18:40 公開日:2023-11-02 |
# detection defenses: 光学的流れに対する敵対的パッチ攻撃に対する空の約束 Detection Defenses: An Empty Promise against Adversarial Patch Attacks on Optical Flow ( http://arxiv.org/abs/2310.17403v2 ) ライセンス: Link先を確認 | Erik Scheurer, Jenny Schmalfuss, Alexander Lis and Andr\'es Bruhn | (参考訳) 逆パッチは、任意のシーンに配置する際の光流予測の信頼性を損なう。
そのため、現実のモーション検出とその下流応用に現実的な脅威をもたらす。
潜在的な治療は、敵のパッチを検出して除去する防衛戦略であるが、その基盤となる動作予測への影響は研究されていない。
本稿では,現状の光学フロー法を幅広く選択するために,現在利用可能なippとlgsを徹底的に検討し,最終フロー予測の品質とロバスト性に対する副作用を照らし出す。
特に,現在の防衛が防衛機構を考慮した攻撃に耐えられるかどうかを調べるために,防衛対応攻撃を実施している。
検出と除去の防御は、良質なシーンにおける光学的フロー品質を低下させるだけでなく、FlowNetCを除く全てのテストされた光学的フロー手法に対するパッチアタックによる堅牢性も損なう。
現在採用されている検出・削除防御は、光学フローに対する敵意の強固さをもたらすことができないため、誤ったセキュリティ感覚を誘発する。
コードはhttps://github.com/cv-stuttgart/detectionprotectsで入手できる。 Adversarial patches undermine the reliability of optical flow predictions when placed in arbitrary scene locations. Therefore, they pose a realistic threat to real-world motion detection and its downstream applications. Potential remedies are defense strategies that detect and remove adversarial patches, but their influence on the underlying motion prediction has not been investigated. In this paper, we thoroughly examine the currently available detect-and-remove defenses ILP and LGS for a wide selection of state-of-the-art optical flow methods, and illuminate their side effects on the quality and robustness of the final flow predictions. In particular, we implement defense-aware attacks to investigate whether current defenses are able to withstand attacks that take the defense mechanism into account. Our experiments yield two surprising results: Detect-and-remove defenses do not only lower the optical flow quality on benign scenes, in doing so, they also harm the robustness under patch attacks for all tested optical flow methods except FlowNetC. As currently employed detect-and-remove defenses fail to deliver the promised adversarial robustness for optical flow, they evoke a false sense of security. The code is available at https://github.com/cv-stuttgart/DetectionDefenses. | 翻訳日:2023-11-03 16:18:21 公開日:2023-11-02 |
# エントロピー上の密接な連続性境界と量子容量上の境界 Tightening continuity bounds on entropies and bounds on quantum capacities ( http://arxiv.org/abs/2310.17329v2 ) ライセンス: Link先を確認 | Michael G. Jabbour and Nilanjana Datta | (参考訳) エントロピー上の一様連続性境界は一般に、一対の確率分布または量子状態(通常、全変動距離またはトレース距離)の間の単一の距離測度で表される。
しかし、確率分布または状態の間の追加距離測度が知られている場合、連続性境界は著しく強化される。
ここでは, シャノンエントロピーに対して, 局所的および全変動距離の両方の観点から, タイトな一様連続性を証明し, [i. sason, ieee trans. inf. th., 59, 7118 (2013)] で証明された不等式を鋭くする。
また、作用素ノルムとトレース距離の両方の観点から、フォン・ノイマンエントロピーに対して一様連続性を得る。
作用素ノルム距離によるトレース距離の商が整数であるとき、境界は厳密である。
その結果を,チャネルの量子的およびプライベート的古典的容量の上界計算に適用する。
まず、近似分解可能なチャネル、すなわち$\varepsilon$-degradableチャネルの概念を、定義上は、$\varepsilon$-closeのダイヤモンドノルムを、分解チャネルで構成した場合に、その相補的なチャネルに精製することから始める。
この目的のために、$(\varepsilon,\nu)$-degradable channel という概念を導入する。これらは、$\varepsilon$-degradable channel であり、また、$\nu$-close は、完全に有界なスペクトルノルムにおいて、同じ分解チャネルで構成される。
これにより、これらのチャネルの量子およびプライベートな古典的容量に対する改良された上限を導出することができる。
さらに、上記のノルムの特定の不安定バージョンを考慮すれば、これらの境界をさらに改善することができる。
後者の上界は半定値プログラムとして効率的に表現できることを示す。
我々は、量子分極チャネルの量子容量の新たな上限を得ることにより、この結果を示す。 Uniform continuity bounds on entropies are generally expressed in terms of a single distance measure between a pair of probability distributions or quantum states, typically, the total variation distance or trace distance. However, if an additional distance measure between the probability distributions or states is known, then the continuity bounds can be significantly strengthened. Here, we prove a tight uniform continuity bound for the Shannon entropy in terms of both the local- and total variation distances, sharpening an inequality proven in [I. Sason, IEEE Trans. Inf. Th., 59, 7118 (2013)]. We also obtain a uniform continuity bound for the von Neumann entropy in terms of both the operator norm- and trace distances. The bound is tight when the quotient of the trace distance by the operator norm distance is an integer. We then apply our results to compute upper bounds on the quantum- and private classical capacities of channels. We begin by refining the concept of approximate degradable channels, namely, $\varepsilon$-degradable channels, which are, by definition, $\varepsilon$-close in diamond norm to their complementary channel when composed with a degrading channel. To this end, we introduce the notion of $(\varepsilon,\nu)$-degradable channels; these are $\varepsilon$-degradable channels that are, in addition, $\nu$-close in completely bounded spectral norm to their complementary channel, when composed with the same degrading channel. This allows us to derive improved upper bounds to the quantum- and private classical capacities of such channels. Moreover, these bounds can be further improved by considering certain unstabilized versions of the above norms. We show that upper bounds on the latter can be efficiently expressed as semidefinite programs. We illustrate our results by obtaining a new upper bound on the quantum capacity of the qubit depolarizing channel. | 翻訳日:2023-11-03 16:17:43 公開日:2023-11-02 |
# エアデコード:デコード時間制御可能なテキスト生成のための属性分布再構成 Air-Decoding: Attribute Distribution Reconstruction for Decoding-Time Controllable Text Generation ( http://arxiv.org/abs/2310.14892v3 ) ライセンス: Link先を確認 | Tianqi Zhong, Quan Wang, Jingxuan Han, Yongdong Zhang, Zhendong Mao | (参考訳) 制御可能なテキスト生成(CTG)は、所望の属性を持つテキストを生成することを目的としており、復号時間に基づく手法はこのタスクに有望な性能を示す。
しかし,本稿では属性崩壊の現象を初めて明らかにする。
これにより、制御強度が臨界値を超えると、生成されたテキストの流動性が急速に低下し、テキストが完全に使用不能になる。
この制限は、高いレベルの制御性を達成するための復号法の有効性を妨げる。
そこで本研究では,Air-Decodingという軽量デコーディングフレームワークを提案する。
その主な考え方は属性分布を再構築し、属性語と非属性語の重み付けをバランスさせ、より流動的なテキストを生成することである。
具体的にはプレフィックスチューニングによってプレフィックスをトレーニングして属性分布を得る。
そして,得られた分布のバランスをとる新しい属性分布再構成法を設計,再構成した分布を用いて言語モデルの生成を誘導し,属性崩壊の問題を効果的に回避する。
複数のctgタスクにおける実験により,新たな最先端制御性能が得られた。 Controllable text generation (CTG) aims to generate text with desired attributes, and decoding-time-based methods have shown promising performance on this task. However, in this paper, we identify the phenomenon of Attribute Collapse for the first time. It causes the fluency of generated text to rapidly decrease when the control strength exceeds a critical value, rendering the text completely unusable. This limitation hinders the effectiveness of decoding methods in achieving high levels of controllability. To address this problem, we propose a novel lightweight decoding framework named Air-Decoding. Its main idea is reconstructing the attribute distributions to balance the weights between attribute words and non-attribute words to generate more fluent text. Specifically, we train prefixes by prefix-tuning to obtain attribute distributions. Then we design a novel attribute distribution reconstruction method to balance the obtained distributions and use the reconstructed distributions to guide language models for generation, effectively avoiding the issue of Attribute Collapse. Experiments on multiple CTG tasks prove that our method achieves a new state-of-the-art control performance. | 翻訳日:2023-11-03 16:16:42 公開日:2023-11-02 |
# SatBird:リモートセンシングと市民科学データを用いた鳥類種の分布モデリング SatBird: Bird Species Distribution Modeling with Remote Sensing and Citizen Science Data ( http://arxiv.org/abs/2311.00936v1 ) ライセンス: Link先を確認 | M\'elisande Teng, Amna Elmustafa, Benjamin Akera, Yoshua Bengio, Hager Radi Abdelwahed, Hugo Larochelle, David Rolnick | (参考訳) 生物多様性は前例のないペースで減少しており、食物、水、人間の健康と幸福を確保するために必要な生態系サービスに影響を与える。
種の分布と生息地を理解することは保全政策計画に不可欠である。
しかしながら、種分布モデル(SDM)の生態学における伝統的な手法は、一般的に狭い種の集合か狭い地理的領域に焦点を合わせており、種の分布に関して重要な知識ギャップが残っている。
この主な理由は、従来のフィールド監視に必要な労力と専門知識が制限されているため、伝統的に使用されるデータの可用性が限られているためである。
リモートセンシングデータの普及と、低コストで種観測データを収集する市民科学ツールの普及により、生物多様性の監視を改善し、複雑な生態系のモデリングを可能にする機会が得られる。
本稿では,サテライト画像から種の出現率を予測することで,鳥種を生息地へマッピングする新たな課題を紹介し,夏(繁殖)と冬の季節を考慮した,市民科学データベース eBird の観測データから得られたラベルを米国内の衛星データセットである SatBird について紹介する。
ケニアでは低データのレシエーションを表すデータセットも提供しています。
また,環境データと種域マップを各場所に提供した。
リモートセンシングタスクのためのSOTAモデルを含む、データセットのベースラインセットをベンチマークします。
SatBirdは、世界中の生態系の性質をうまくモデル化する可能性を開く。 Biodiversity is declining at an unprecedented rate, impacting ecosystem services necessary to ensure food, water, and human health and well-being. Understanding the distribution of species and their habitats is crucial for conservation policy planning. However, traditional methods in ecology for species distribution models (SDMs) generally focus either on narrow sets of species or narrow geographical areas and there remain significant knowledge gaps about the distribution of species. A major reason for this is the limited availability of data traditionally used, due to the prohibitive amount of effort and expertise required for traditional field monitoring. The wide availability of remote sensing data and the growing adoption of citizen science tools to collect species observations data at low cost offer an opportunity for improving biodiversity monitoring and enabling the modelling of complex ecosystems. We introduce a novel task for mapping bird species to their habitats by predicting species encounter rates from satellite images, and present SatBird, a satellite dataset of locations in the USA with labels derived from presence-absence observation data from the citizen science database eBird, considering summer (breeding) and winter seasons. We also provide a dataset in Kenya representing low-data regimes. We additionally provide environmental data and species range maps for each location. We benchmark a set of baselines on our dataset, including SOTA models for remote sensing tasks. SatBird opens up possibilities for scalably modelling properties of ecosystems worldwide. | 翻訳日:2023-11-03 15:19:06 公開日:2023-11-02 |
# 条件付き拡散モデルによる高品質HDRデゴーストの実現に向けて Towards High-quality HDR Deghosting with Conditional Diffusion Models ( http://arxiv.org/abs/2311.00932v1 ) ライセンス: Link先を確認 | Qingsen Yan, Tao Hu, Yuan Sun, Hao Tang, Yu Zhu, Wei Dong, Luc Van Gool, Yanning Zhang | (参考訳) 高ダイナミックレンジ(HDR)画像は、既存のディープニューラルネットワーク(DNN)技術により、いくつかの低ダイナミックレンジ(LDR)画像から復元することができる。
顕著な進歩にもかかわらず、DNNベースの手法は、LDR画像の飽和度と大きな動きが相変わらずゴーストアーティファクトを生成する。
この課題に対処するために,我々は,HDRデゴスティング問題を,特徴条件生成器とノイズ予測器からなる拡散モデルの条件としてLDR特徴を利用する画像生成として定式化する。
特徴条件生成は、ゴーストアーティファクトを避けるために中間特徴を変換するために注意とドメイン特徴アライメント(DFA)層を利用する。
学習した特徴を条件として、拡散モデルに対する確率的反復的復調プロセスを利用してサンプリング処理を操り、HDR画像を生成する。
さらに,LDR画像の飽和問題に起因する意味的混乱を軽減するために,スムースノイズをパッチベースでサンプリングするスライディングウインドウノイズ推定器を設計する。
さらに、推定したHDR結果の色歪みを回避するために、画像空間損失を提案する。
我々はhdrイメージングのためのベンチマークデータセットのモデルについて経験的に評価する。
その結果,本手法は最先端の性能を達成し,実世界画像への well generalization を実現することがわかった。 High Dynamic Range (HDR) images can be recovered from several Low Dynamic Range (LDR) images by existing Deep Neural Networks (DNNs) techniques. Despite the remarkable progress, DNN-based methods still generate ghosting artifacts when LDR images have saturation and large motion, which hinders potential applications in real-world scenarios. To address this challenge, we formulate the HDR deghosting problem as an image generation that leverages LDR features as the diffusion model's condition, consisting of the feature condition generator and the noise predictor. Feature condition generator employs attention and Domain Feature Alignment (DFA) layer to transform the intermediate features to avoid ghosting artifacts. With the learned features as conditions, the noise predictor leverages a stochastic iterative denoising process for diffusion models to generate an HDR image by steering the sampling process. Furthermore, to mitigate semantic confusion caused by the saturation problem of LDR images, we design a sliding window noise estimator to sample smooth noise in a patch-based manner. In addition, an image space loss is proposed to avoid the color distortion of the estimated HDR results. We empirically evaluate our model on benchmark datasets for HDR imaging. The results demonstrate that our approach achieves state-of-the-art performances and well generalization to real-world images. | 翻訳日:2023-11-03 15:18:41 公開日:2023-11-02 |
# 非現実的データからの学習欠陥予測 Learning Defect Prediction from Unrealistic Data ( http://arxiv.org/abs/2311.00931v1 ) ライセンス: Link先を確認 | Kamel Alrashedy, Vincent J. Hellendoorn, Alessandro Orso | (参考訳) CodeBERTやCodeT5のような事前訓練されたコードのモデルは、コード理解と生成タスクの一般的な選択肢となっている。
このようなモデルは大規模になりがちで、ダウンストリームタスクではめったに利用できないトレーニングデータ量を必要とする。
代わりに、人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
しかし、そのようなデータでトレーニングされたモデルは、実世界のプログラムではパフォーマンスが低くなる一方で、同様のデータでのみうまく機能する傾向がある。
本稿では,この不一致は,実世界のタスク分布からモデルを引き離す散逸するサンプルの存在に起因していると推察する。
そこで本研究では,実世界のデータセットの例と最もよく似た,大規模かつ非現実的なデータセットのサブセットを同定する手法を提案する。
本手法は,神経モデルを用いて実世界および人工プログラムの高次元埋め込みを抽出し,最も近い実世界のサンプルまでの距離に基づいて人工サンプルをスコアリングする。
2つのコード理解タスクにおいて、最も近い、最も類似したサンプルのみをトレーニングし、表現に全く似ていないサンプルを捨てると、2つの人気のある事前訓練されたコードのモデル間で一貫した改善が得られることを示す。
その結果、非現実的なデータセットの代表的なサブセット上でのトレーニングモデルが、ダウンストリームのタスクパフォーマンスを維持しながら、大規模な合成データ生成のパワーを活用できることが分かりました。
最後に、現実世界のアプリケーションにおける脆弱性やバグを予測するためにAIモデルを適用する際の制限を強調します。 Pretrained models of code, such as CodeBERT and CodeT5, have become popular choices for code understanding and generation tasks. Such models tend to be large and require commensurate volumes of training data, which are rarely available for downstream tasks. Instead, it has become popular to train models with far larger but less realistic datasets, such as functions with artificially injected bugs. Models trained on such data, however, tend to only perform well on similar data, while underperforming on real world programs. In this paper, we conjecture that this discrepancy stems from the presence of distracting samples that steer the model away from the real-world task distribution. To investigate this conjecture, we propose an approach for identifying the subsets of these large yet unrealistic datasets that are most similar to examples in real-world datasets based on their learned representations. Our approach extracts high-dimensional embeddings of both real-world and artificial programs using a neural model and scores artificial samples based on their distance to the nearest real-world sample. We show that training on only the nearest, representationally most similar samples while discarding samples that are not at all similar in representations yields consistent improvements across two popular pretrained models of code on two code understanding tasks. Our results are promising, in that they show that training models on a representative subset of an unrealistic dataset can help us harness the power of large-scale synthetic data generation while preserving downstream task performance. Finally, we highlight the limitations of applying AI models for predicting vulnerabilities and bugs in real-world applications | 翻訳日:2023-11-03 15:18:18 公開日:2023-11-02 |
# 多変量因果モデルにおけるスケーラブルな対実分布推定 Scalable Counterfactual Distribution Estimation in Multivariate Causal Models ( http://arxiv.org/abs/2311.00927v1 ) ライセンス: Link先を確認 | Thong Pham, Shohei Shimizu, Hideitsu Hino, Tam Le | (参考訳) 古典的差分設計から拡張した多変量因果モデルにおいて,複数の利益(例えば結果)の相反的結合分布を推定する問題を考える。
このタスクの既存の方法は、多変量結果の次元間の相関構造を無視して、各次元上の不定因果モデルを別々に検討することで、不正確な反事実分布を生成するか、あるいはそのような多変量因果モデルを直接扱う際に中程度のデータセットであっても、スケールが低くなるかのどちらかである。
本稿では,従来の高次元空間の頑健な1次元部分空間を活用し,その空間上の一変量因果モデルから効率的に推定する手法を提案する。
1次元部分空間の構成は全ての次元から情報を利用するので、この手法は相関構造を捉え、反事実分布を適切に推定することができる。
合成データと実世界のデータの両方において,既存の手法に対するアプローチの利点を実証する。 We consider the problem of estimating the counterfactual joint distribution of multiple quantities of interests (e.g., outcomes) in a multivariate causal model extended from the classical difference-in-difference design. Existing methods for this task either ignore the correlation structures among dimensions of the multivariate outcome by considering univariate causal models on each dimension separately and hence produce incorrect counterfactual distributions, or poorly scale even for moderate-size datasets when directly dealing with such multivariate causal model. We propose a method that alleviates both issues simultaneously by leveraging a robust latent one-dimensional subspace of the original high-dimension space and exploiting the efficient estimation from the univariate causal model on such space. Since the construction of the one-dimensional subspace uses information from all the dimensions, our method can capture the correlation structures and produce good estimates of the counterfactual distribution. We demonstrate the advantages of our approach over existing methods on both synthetic and real-world data. | 翻訳日:2023-11-03 15:17:53 公開日:2023-11-02 |
# m2t2:オブジェクト中心のピックアンドプレースのためのマルチタスクマスクトランス M2T2: Multi-Task Masked Transformer for Object-centric Pick and Place ( http://arxiv.org/abs/2311.00926v1 ) ライセンス: Link先を確認 | Wentao Yuan, Adithyavairavan Murali, Arsalan Mousavian, Dieter Fox | (参考訳) 大規模言語モデルや大規模ロボットデータセットの出現により、オブジェクト操作のための高レベルの意思決定が大幅に進歩した。
これらのジェネリックモデルは言語コマンドを使って複雑なタスクを解釈できるが、低レベルのアクションプリミティブが使えないため、分散オブジェクトへの一般化が難しいことが多い。
対照的に、既存のタスク固有のモデルは未知のオブジェクトの低レベルな操作に優れているが、単一のタイプのアクションでのみ機能する。
このギャップを埋めるため、私たちはm2t2という異なる種類の低レベルアクションを提供する単一のモデルを提示しました。
M2T2は、接触点を推論し、シーンの生の点雲に与えられた異なるアクションモードに対する有効なグッパーのポーズを予測するトランスフォーマーモデルである。
128kシーンの大規模な合成データセットでトレーニングされたm2t2は、実ロボット上でゼロショットsim2実数転送を達成し、最先端タスク固有モデルで全体のパフォーマンスが約19%、衝突のない配置のためにオブジェクトが再指向する必要があるチャレンジシーンが37.5%向上した。
m2t2はまた、rlbenchの言語条件付きタスクのサブセットで最先端の結果を得る。
実世界とシミュレーションの両方におけるロボット実験の動画は、我々のプロジェクトwebサイトhttps://m2-t2.github.ioで閲覧できます。 With the advent of large language models and large-scale robotic datasets, there has been tremendous progress in high-level decision-making for object manipulation. These generic models are able to interpret complex tasks using language commands, but they often have difficulties generalizing to out-of-distribution objects due to the inability of low-level action primitives. In contrast, existing task-specific models excel in low-level manipulation of unknown objects, but only work for a single type of action. To bridge this gap, we present M2T2, a single model that supplies different types of low-level actions that work robustly on arbitrary objects in cluttered scenes. M2T2 is a transformer model which reasons about contact points and predicts valid gripper poses for different action modes given a raw point cloud of the scene. Trained on a large-scale synthetic dataset with 128K scenes, M2T2 achieves zero-shot sim2real transfer on the real robot, outperforming the baseline system with state-of-the-art task-specific models by about 19% in overall performance and 37.5% in challenging scenes where the object needs to be re-oriented for collision-free placement. M2T2 also achieves state-of-the-art results on a subset of language conditioned tasks in RLBench. Videos of robot experiments on unseen objects in both real world and simulation are available on our project website https://m2-t2.github.io. | 翻訳日:2023-11-03 15:17:35 公開日:2023-11-02 |
# 感覚の力:マルチモーダル学習による視覚と触覚からの一般化可能な操作 The Power of the Senses: Generalizable Manipulation from Vision and Touch through Masked Multimodal Learning ( http://arxiv.org/abs/2311.00924v1 ) ライセンス: Link先を確認 | Carmelo Sferrazza, Younggyo Seo, Hao Liu, Youngwoon Lee, Pieter Abbeel | (参考訳) 人間は感覚のシナジーを最も重要なタスクに頼っている。
オブジェクト操作を必要とするタスクに対しては、視覚と触覚の相補性をシームレスに効果的に活用する。
本稿では,このような能力からインスピレーションを得て,強化学習環境において視覚・触覚情報を融合するための体系的アプローチを提案する。
本稿では,マスク付き自動符号化に基づいて協調学習を行うMasked Multimodal Learning (M3L)を提案する。
視覚とタッチから共同で学んだ表現は、サンプル効率を改善し、各感覚を通して個別に達成できる以上の一般化を解き放つ。
注目すべきは、マルチモーダルな設定で学んだ表現は、テスト時の視覚のみのポリシーにも役立つことだ。
視覚・触覚の両面を模擬した3つの環境におけるM3Lの評価を行い, ロボット挿入, ドア開口, 器用な手操作を行い, マルチモーダルポリシーの学習のメリットを実証した。
実験のコードとビデオはhttps://sferrazza.cc/m3l_siteで入手できる。 Humans rely on the synergy of their senses for most essential tasks. For tasks requiring object manipulation, we seamlessly and effectively exploit the complementarity of our senses of vision and touch. This paper draws inspiration from such capabilities and aims to find a systematic approach to fuse visual and tactile information in a reinforcement learning setting. We propose Masked Multimodal Learning (M3L), which jointly learns a policy and visual-tactile representations based on masked autoencoding. The representations jointly learned from vision and touch improve sample efficiency, and unlock generalization capabilities beyond those achievable through each of the senses separately. Remarkably, representations learned in a multimodal setting also benefit vision-only policies at test time. We evaluate M3L on three simulated environments with both visual and tactile observations: robotic insertion, door opening, and dexterous in-hand manipulation, demonstrating the benefits of learning a multimodal policy. Code and videos of the experiments are available at https://sferrazza.cc/m3l_site. | 翻訳日:2023-11-03 15:17:10 公開日:2023-11-02 |
# 異なる因果構造と表現からの深部因果モデルのレビューとロードマップ A Review and Roadmap of Deep Causal Model from Different Causal Structures and Representations ( http://arxiv.org/abs/2311.00923v1 ) ライセンス: Link先を確認 | Hang Chen and Keqing Du and Chenguang Li and Xinyu Yang | (参考訳) 画像内の因果関係やテキストコンポーネント間の因果関係など、より複雑なデータセットを導入する深層学習を伴う因果関係モデルの融合が焦点研究領域として浮上している。
それにもかかわらず、そのような複雑で非統計的なデータへの元の因果概念と理論の広がりは深刻な課題に直面している。
そこで本研究では,因果データの再定義を,因果構造と表現の観点から,定値データ,半定値データ,不定値データという3つのカテゴリに分類する。
定型データは、主に従来の因果的シナリオで使用される統計データに関係し、半定型データは、時系列、画像、テキストなどを含む深層学習のためのデータフォーマットのスペクトルを指す。
不確定データは、データフォームの進行から推定される創発的な研究領域である。
これら3つのデータパラダイムを包括的に提示するために,形式的定義,データセットに現れる相違点,解決経路,研究の展開について詳述する。
我々は,無数の研究事業から得られた定値および半定値データに関する重要な課題と成果を要約し,現在の研究成果から始まった不定値データのロードマップを示す。
最後に、これらの3つのパラダイムで現在使われている重要なデータセットを分類し、精査する。 The fusion of causal models with deep learning introducing increasingly intricate data sets, such as the causal associations within images or between textual components, has surfaced as a focal research area. Nonetheless, the broadening of original causal concepts and theories to such complex, non-statistical data has been met with serious challenges. In response, our study proposes redefinitions of causal data into three distinct categories from the standpoint of causal structure and representation: definite data, semi-definite data, and indefinite data. Definite data chiefly pertains to statistical data used in conventional causal scenarios, while semi-definite data refers to a spectrum of data formats germane to deep learning, including time-series, images, text, and others. Indefinite data is an emergent research sphere inferred from the progression of data forms by us. To comprehensively present these three data paradigms, we elaborate on their formal definitions, differences manifested in datasets, resolution pathways, and development of research. We summarize key tasks and achievements pertaining to definite and semi-definite data from myriad research undertakings, present a roadmap for indefinite data, beginning with its current research conundrums. Lastly, we classify and scrutinize the key datasets presently utilized within these three paradigms. | 翻訳日:2023-11-03 15:16:51 公開日:2023-11-02 |
# MIST:メンバーシップ不変のサブスペーストレーニングによるメンバーシップ推論攻撃の回避 MIST: Defending Against Membership Inference Attacks Through Membership-Invariant Subspace Training ( http://arxiv.org/abs/2311.00919v1 ) ライセンス: Link先を確認 | Jiacheng Li, Ninghui Li, Bruno Ribeiro | (参考訳) メンバー推論(MI)攻撃では、敵は機械学習(ML)モデルをトレーニングするためにインスタンスが使用されているかどうかを判断しようとする。
MI攻撃は、プライベートデータを使用してMLモデルをトレーニングする際の大きなプライバシー上の懸念である。
文献におけるほとんどのMI攻撃は、MLモデルがトレーニングデータに適合するように訓練されているという事実を生かし、トレーニングインスタンスに非常に少ない損失をもたらす。
したがって、mi攻撃に対するほとんどの防御は、モデルがトレーニングデータに適さないようにしようとする。
しかし、一般的には精度が低下する。
トレーニングインスタンスがMI攻撃に対する脆弱性の程度が異なることを観察する。
ほとんどのインスタンスは、トレーニングに含まれていない場合でも損失が少ない。
これらのインスタンスでは、モデルをMI攻撃の心配なしにうまく適合させることができる。
効果的な防御は、MI攻撃に弱いインスタンスを(暗黙的に)特定し、過度な適合を避ける必要がある。
大きな課題は、効率的なトレーニングプロセスでこのような効果を達成する方法だ。
表現学習における2つの新たな進歩を生かして,MI攻撃を防御する新しいメンバーシップ・不変部分空間訓練(MIST)手法を提案する。
MISTは、他のインスタンスに大きな影響を与えることなく、脆弱性のあるインスタンスの過度な適合を避ける。
我々は、MISTと他の様々なSOTAMI防衛を、いくつかのSOTAMI攻撃と比較し、広範囲にわたる実験的研究を行った。
MISTは他の防御よりも優れており、テスト精度は最小限に抑えられる。 In Member Inference (MI) attacks, the adversary try to determine whether an instance is used to train a machine learning (ML) model. MI attacks are a major privacy concern when using private data to train ML models. Most MI attacks in the literature take advantage of the fact that ML models are trained to fit the training data well, and thus have very low loss on training instances. Most defenses against MI attacks therefore try to make the model fit the training data less well. Doing so, however, generally results in lower accuracy. We observe that training instances have different degrees of vulnerability to MI attacks. Most instances will have low loss even when not included in training. For these instances, the model can fit them well without concerns of MI attacks. An effective defense only needs to (possibly implicitly) identify instances that are vulnerable to MI attacks and avoids overfitting them. A major challenge is how to achieve such an effect in an efficient training process. Leveraging two distinct recent advancements in representation learning: counterfactually-invariant representations and subspace learning methods, we introduce a novel Membership-Invariant Subspace Training (MIST) method to defend against MI attacks. MIST avoids overfitting the vulnerable instances without significant impact on other instances. We have conducted extensive experimental studies, comparing MIST with various other state-of-the-art (SOTA) MI defenses against several SOTA MI attacks. We find that MIST outperforms other defenses while resulting in minimal reduction in testing accuracy. | 翻訳日:2023-11-03 15:16:29 公開日:2023-11-02 |
# 曲面界面に沿った位相的エッジスペクトル Topological edge spectrum along curved interfaces ( http://arxiv.org/abs/2311.00918v1 ) ライセンス: Link先を確認 | Alexis Drouot, Xiaowen Zhu | (参考訳) 位相絶縁体の境界が任意に大きい球を含む2つの領域で平面を分割すると、導体として振る舞うことを証明した。
逆に、ストリップ内に収まるトポロジカル絶縁体は、導電性境界モードを許容する必要はないことを示す。 We prove that that if the boundary of a topological insulator divides the plane in two regions containing arbitrarily large balls, then it acts as a conductor. Conversely, we show that topological insulators that fit within strips do not need to admit conducting boundary modes. | 翻訳日:2023-11-03 15:16:07 公開日:2023-11-02 |
# RPCANet: RPCAベースの赤外線小ターゲット検出 RPCANet: Deep Unfolding RPCA Based Infrared Small Target Detection ( http://arxiv.org/abs/2311.00917v1 ) ライセンス: Link先を確認 | Fengyi Wu, Tianfang Zhang, Lei Li, Yian Huang, Zhenming Peng | (参考訳) 深層学習(DL)ネットワークは、赤外線小目標検出(ISTD)において顕著な性能を達成した。
しかし、これらの構造は解釈可能性に欠けており、istdのドメイン知識を無視してブラックボックスと見なされている。
この問題を緩和するために、RPCANetと呼ばれる赤外線ディムターゲットを検出するための解釈可能なディープネットワークを提案する。
具体的には,ISTDタスクを,緩やかな目標抽出,低ランク背景推定,画像再構成として,緩やかなロバスト原理成分分析(RPCA)モデルで定式化する。
反復最適化の更新ステップをディープラーニングフレームワークに展開することで、時間消費と複雑な行列計算を理論誘導ニューラルネットワークに置き換える。
RPCANetは、検出タスクを直接マトリックス分解問題に変換する代わりに、明確な解釈可能性を持つターゲットを検出し、固有の画像特徴を保存する。
広汎な実験は、我々の深層展開フレームワークの有効性を実証し、その信頼性を実証し、質的および定量的評価の両面で基準法を超越した。 Deep learning (DL) networks have achieved remarkable performance in infrared small target detection (ISTD). However, these structures exhibit a deficiency in interpretability and are widely regarded as black boxes, as they disregard domain knowledge in ISTD. To alleviate this issue, this work proposes an interpretable deep network for detecting infrared dim targets, dubbed RPCANet. Specifically, our approach formulates the ISTD task as sparse target extraction, low-rank background estimation, and image reconstruction in a relaxed Robust Principle Component Analysis (RPCA) model. By unfolding the iterative optimization updating steps into a deep-learning framework, time-consuming and complex matrix calculations are replaced by theory-guided neural networks. RPCANet detects targets with clear interpretability and preserves the intrinsic image feature, instead of directly transforming the detection task into a matrix decomposition problem. Extensive experiments substantiate the effectiveness of our deep unfolding framework and demonstrate its trustworthy results, surpassing baseline methods in both qualitative and quantitative evaluations. | 翻訳日:2023-11-03 15:16:00 公開日:2023-11-02 |
# 目立たない英語方言のためのタスク非依存低ランクアダプタ Task-Agnostic Low-Rank Adapters for Unseen English Dialects ( http://arxiv.org/abs/2311.00915v1 ) ライセンス: Link先を確認 | Zedian Xiao, William Held, Yanchen Liu, and Diyi Yang | (参考訳) LLM(Large Language Models)は、標準アメリカ英語に好意的に重み付けされたコーパスで訓練される。
その結果、他の方言話者はこれらの技術と対話する際に、はるかに多くの失敗を経験する。
実際には、これらの話者はしばしば彼らのスピーチをよりよく理解するために適応する。
私たちの研究は、言語技術は英語の方言の多様性に対応するために設計されるべきである、という信念を共有しています。
しかし、方言に関する先行研究は、進化と新興の方言へのスケーラブルな一般化に苦しむ。
このギャップを埋めるために,我々の手法であるHyperLoRAは専門的な言語知識を活用し,ハイパーネットワークによる資源効率の高い適応を可能にする。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
HyperLoRAはパラメータの数でスケーラビリティが高いだけでなく、ゼロショット設定で5つの方言で最高の、最も競争力のあるパフォーマンスを達成する。
このように、我々のアプローチは、伝統的に過小評価されている数十億の英語方言話者の言語技術へのアクセスを促進する。 Large Language Models (LLMs) are trained on corpora disproportionally weighted in favor of Standard American English. As a result, speakers of other dialects experience significantly more failures when interacting with these technologies. In practice, these speakers often accommodate their speech to be better understood. Our work shares the belief that language technologies should be designed to accommodate the diversity in English dialects and not the other way around. However, prior works on dialect struggle with generalizing to evolving and emerging dialects in a scalable manner. To fill this gap, our method, HyperLoRA, leverages expert linguistic knowledge to enable resource-efficient adaptation via hypernetworks. By disentangling dialect-specific and cross-dialectal information, HyperLoRA improves generalization to unseen dialects in a task-agnostic fashion. Not only is HyperLoRA more scalable in the number of parameters, but it also achieves the best or most competitive performance across 5 dialects in a zero-shot setting. In this way, our approach facilitates access to language technology for billions of English dialect speakers who are traditionally underrepresented. | 翻訳日:2023-11-03 15:15:40 公開日:2023-11-02 |
# 言語モデル事前学習のための自己影響誘導データ重み付け Self-Influence Guided Data Reweighting for Language Model Pre-training ( http://arxiv.org/abs/2311.00913v1 ) ライセンス: Link先を確認 | Megh Thakkar, Tolga Bolukbasi, Sriram Ganapathy, Shikhar Vashishth, Sarath Chandar, Partha Talukdar | (参考訳) 言語モデル (LM) は、様々なNLPタスクのためのモデルを開発するためのデフォルトの出発点となっている。
事前トレーニングされたコーパスが組み立てられると、コーパス内のすべてのデータサンプルはlm事前トレーニング時に等しく扱われる。
しかしながら、データの関連性や品質のレベルが異なるため、すべてのデータサンプルに等しい重要性が最適選択ではない可能性がある。
データの再重み付けはタスク固有の教師付き学習とlm微調整の文脈で検討されているが、事前トレーニングデータのモデル駆動リ重み付けは検討されていない。
この重要なギャップを埋め、自己影響スコア(si)をサンプルの重要性と事前学習の指標として活用し、サンプルの重み付けを行う方法を提案する。
PreSENCEは、モデル事前トレーニングの新規性と安定性を促進する。
複数のモデルサイズ、データセット、タスクにまたがる広範な分析を通じて、事前学習言語モデルのサンプルリウェイトング研究の方向性において重要な第一歩として存在感を示す。 Language Models (LMs) pre-trained with self-supervision on large text corpora have become the default starting point for developing models for various NLP tasks. Once the pre-training corpus has been assembled, all data samples in the corpus are treated with equal importance during LM pre-training. However, due to varying levels of relevance and quality of data, equal importance to all the data samples may not be the optimal choice. While data reweighting has been explored in the context of task-specific supervised learning and LM fine-tuning, model-driven reweighting for pre-training data has not been explored. We fill this important gap and propose PRESENCE, a method for jointly reweighting samples by leveraging self-influence (SI) scores as an indicator of sample importance and pre-training. PRESENCE promotes novelty and stability for model pre-training. Through extensive analysis spanning multiple model sizes, datasets, and tasks, we present PRESENCE as an important first step in the research direction of sample reweighting for pre-training language models. | 翻訳日:2023-11-03 15:15:24 公開日:2023-11-02 |
# 物理学における計算不可能性とは How Real is Incomputability in Physics? ( http://arxiv.org/abs/2311.00908v1 ) ライセンス: Link先を確認 | Jos\'e Manuel Ag\"uero Trejo, Cristian S. Calude, Michael J. Dinneen, Arkady Fedorov, Anatoly Kulikov, Rohit Navarathna, Karl Svozil | (参考訳) 物理系は方程式で表される初期条件と法則の有限集合によって決定される。
このシステムは、「数学知識の有限体」を用いて全てのインスタンスの方程式を解くことができれば計算可能である。
この場合、システムの法則がコンピュータプログラムにコード化され、システムの初期状態が考慮されれば、システムの進化を計算することができる。
このシナリオは当然のことだ。
しかし、これは妥当だろうか?
答えは負であり、簡単な例は、初期条件や方程式が不合理数(例えば、Chaitin's Omega Number)を使うときである。
計算不能な物理系はあるか?
この問題は、過去30年から40年の間に理論的に研究されている。この記事では、量子ランダムビットを生成する量子プロトコルのクラスを示す。理論的には、これらの量子プロトコルによって生成されるすべての無限列は、強く計算不可能である。そのような列のビットを計算したアルゴリズムは、正しく証明できない。
この理論的な結果は文献にあるものよりも頑健であるだけでなく、実験的な結果が支持し補完する。 A physical system is determined by a finite set of initial conditions and laws represented by equations. The system is computable if we can solve the equations in all instances using a ``finite body of mathematical knowledge". In this case, if the laws of the system can be coded into a computer program, then given the system's initial conditions of the system, one can compute the system's evolution. This scenario is tacitly taken for granted. But is this reasonable? The answer is negative, and a straightforward example is when the initial conditions or equations use irrational numbers, like Chaitin's Omega Number: no program can deal with such numbers because of their ``infinity''. Are there incomputable physical systems? This question has been theoretically studied in the last 30--40 years. This article presents a class of quantum protocols producing quantum random bits. Theoretically, we prove that every infinite sequence generated by these quantum protocols is strongly incomputable -- no algorithm computing any bit of such a sequence can be proved correct. This theoretical result is not only more robust than the ones in the literature: experimental results support and complement it. | 翻訳日:2023-11-03 15:15:03 公開日:2023-11-02 |
# Re-weighting Tokens: 名前付きエンティティ認識のためのシンプルで効果的なアクティブラーニング戦略 Re-weighting Tokens: A Simple and Effective Active Learning Strategy for Named Entity Recognition ( http://arxiv.org/abs/2311.00906v1 ) ライセンス: Link先を確認 | Haocheng Luo, Wei Tan, Ngoc Dang Nguyen and Lan Du | (参考訳) テキストおよび画像分類タスクにおいて、限られたアノテーションリソースで機械学習モデルを拡張するための広く採用されている技術であるアクティブラーニングは、名前付きエンティティ認識(NER)の領域では比較的注目を集めていない。
NERにおけるデータ不均衡の課題は、シーケンスラベルラに十分な学習信号がないため、アクティブラーニングの有効性を妨げる。
そこで本稿では,個々のトークンに対して動的に平滑化重みを割り当てる,新しい重み付けベースのアクティブラーニング戦略を提案する。
この適応可能な戦略は、様々なトークンレベルの取得機能と互換性があり、堅牢なアクティブ学習者の開発に寄与する。
複数のコーパスに対する実験結果から, 再重み付け戦略を既存の獲得機能に組み込むことにより, 実効性を実証した。 Active learning, a widely adopted technique for enhancing machine learning models in text and image classification tasks with limited annotation resources, has received relatively little attention in the domain of Named Entity Recognition (NER). The challenge of data imbalance in NER has hindered the effectiveness of active learning, as sequence labellers lack sufficient learning signals. To address these challenges, this paper presents a novel reweighting-based active learning strategy that assigns dynamic smoothed weights to individual tokens. This adaptable strategy is compatible with various token-level acquisition functions and contributes to the development of robust active learners. Experimental results on multiple corpora demonstrate the substantial performance improvement achieved by incorporating our re-weighting strategy into existing acquisition functions, validating its practical efficacy. | 翻訳日:2023-11-03 15:14:42 公開日:2023-11-02 |
# サイバーセキュリティにおける人工知能倫理教育の課題と機会:フォーカスグループレポート Artificial Intelligence Ethics Education in Cybersecurity: Challenges and Opportunities: a focus group report ( http://arxiv.org/abs/2311.00903v1 ) ライセンス: Link先を確認 | Diane Jackson, Sorin Adam Matei, and Elisa Bertino | (参考訳) サイバーセキュリティにおけるAIツールの出現は多くの機会と不確実性を生み出している。
サイバーセキュリティの上級大学院生によるフォーカスグループは、挑戦と機会の潜在的な深さと広さを明らかにした。
健全な問題は、オープンソースまたはフリーツールへのアクセス、ドキュメント、カリキュラムの多様性、AIサイバーセキュリティ教育のための倫理的原則の明確化である。
AIサイバーセキュリティ作業における“ブラックボックス”精神の理解は、基礎的AI作業におけるより深い事前教育によって、最も重要なものでもある。
システム思考と効果的なコミュニケーションは教育改善の関連分野と見なされた。
将来のAI教育者や実践者は、厳格な技術トレーニングカリキュラム、明確なドキュメント、倫理的に監視するAIと批判的およびシステムの思考とコミュニケーションスキルを組み合わせたフレームワークを実装することで、これらの問題に対処する必要がある。 The emergence of AI tools in cybersecurity creates many opportunities and uncertainties. A focus group with advanced graduate students in cybersecurity revealed the potential depth and breadth of the challenges and opportunities. The salient issues are access to open source or free tools, documentation, curricular diversity, and clear articulation of ethical principles for AI cybersecurity education. Confronting the "black box" mentality in AI cybersecurity work is also of the greatest importance, doubled by deeper and prior education in foundational AI work. Systems thinking and effective communication were considered relevant areas of educational improvement. Future AI educators and practitioners need to address these issues by implementing rigorous technical training curricula, clear documentation, and frameworks for ethically monitoring AI combined with critical and system's thinking and communication skills. | 翻訳日:2023-11-03 15:14:25 公開日:2023-11-02 |
# Video2Music: Affective Multimodal Transformer Modelを用いたビデオからの適切な音楽生成 Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model ( http://arxiv.org/abs/2311.00968v1 ) ライセンス: Link先を確認 | Jaeyong Kang, Soujanya Poria, Dorien Herremans | (参考訳) 音楽生成の分野で多くの研究が目覚ましいパフォーマンスを示しているが、付随するビデオにマッチする音楽を直接生成できるモデルはほとんどない。
そこで本研究では,提供ビデオにマッチする生成型音楽AIフレームワークであるVideo2Musicを開発した。
私たちは最初、ユニークなミュージックビデオのコレクションをキュレートした。
次に,音楽ビデオの分析を行い,意味,シーンオフセット,動き,感情の特徴について検討した。
これらの特徴を音楽生成モデルへのインプットの導出として利用する。
音声ファイルをmidiとコードに書き起こし、音の密度やラウドネスなどの特徴を抽出する。
これにより、MuVi-Syncと呼ばれるリッチなマルチモーダルデータセットが作成され、新しいAffective Multimodal Transformer(AMT)モデルをトレーニングし、ビデオから音楽を生成する。
このモデルは、ビデオと音楽との情緒的類似性を強制する新しいメカニズムを含んでいる。
最後に、bigruに基づく回帰モデルに基づいて後処理を行い、映像特徴に基づいて音符密度とラウドネスを推定する。
これにより、異なるリズムとボリュームで生成された和音の動的レンダリングが保証される。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
ユーザ調査により、音楽とビデオのマッチングの質とともに音楽の質が確認された。
提案したAMTモデルは、新しいMuVi-Syncデータセットとともに、ビデオの音楽生成の新しいタスクのための有望なステップを提供する。 Numerous studies in the field of music generation have demonstrated impressive performance, yet virtually no models are able to directly generate music to match accompanying videos. In this work, we develop a generative music AI framework, Video2Music, that can match a provided video. We first curated a unique collection of music videos. Then, we analysed the music videos to obtain semantic, scene offset, motion, and emotion features. These distinct features are then employed as guiding input to our music generation model. We transcribe the audio files into MIDI and chords, and extract features such as note density and loudness. This results in a rich multimodal dataset, called MuVi-Sync, on which we train a novel Affective Multimodal Transformer (AMT) model to generate music given a video. This model includes a novel mechanism to enforce affective similarity between video and music. Finally, post-processing is performed based on a biGRU-based regression model to estimate note density and loudness based on the video features. This ensures a dynamic rendering of the generated chords with varying rhythm and volume. In a thorough experiment, we show that our proposed framework can generate music that matches the video content in terms of emotion. The musical quality, along with the quality of music-video matching is confirmed in a user study. The proposed AMT model, along with the new MuVi-Sync dataset, presents a promising step for the new task of music generation for videos. | 翻訳日:2023-11-03 15:07:12 公開日:2023-11-02 |
# ロボット作業計画のための視覚言語解釈 Vision-Language Interpreter for Robot Task Planning ( http://arxiv.org/abs/2311.00967v1 ) ライセンス: Link先を確認 | Keisuke Shirai, Cristian C. Beltran-Hernandez, Masashi Hamaya, Atsushi Hashimoto, Shohei Tanaka, Kento Kawaharazuka, Kazutoshi Tanaka, Yoshitaka Ushiku, Shinsuke Mori | (参考訳) 大言語モデル(LLM)は、言語誘導型ロボットプランナーの開発を加速している。
一方、シンボリックプランナーは解釈可能性の利点を提供する。
本稿では,この2つのトレンド,すなわちマルチモーダル計画問題仕様を橋渡しする新しい課題を提案する。
目的は、プランナーが計画を見つけるために使用するマシン可読ファイルである問題記述(PD)を生成することである。
言語指導とシーン観察からPDを生成することで、言語誘導フレームワークでシンボルプランナーを駆動できる。
我々は、最先端のLCMとビジョン言語モデルを用いてPDを生成する新しいフレームワークViLaInを提案する。
ViLaInはシンボリックプランナーからのエラーメッセージフィードバックによって生成されたPDを洗練することができる。
私たちの目標は、ViLaInとシンボリックプランナーが有効なロボット計画を生成することができるのか?
ViLaInを評価するために,問題記述生成(ProDG)データセットと呼ばれる新しいデータセットを導入する。
フレームワークは4つの新しい評価指標で評価される。
実験の結果、vilainは99%以上の精度で構文的に正しい問題を生成し、58%以上の精度で有効な計画を生成することができた。 Large language models (LLMs) are accelerating the development of language-guided robot planners. Meanwhile, symbolic planners offer the advantage of interpretability. This paper proposes a new task that bridges these two trends, namely, multimodal planning problem specification. The aim is to generate a problem description (PD), a machine-readable file used by the planners to find a plan. By generating PDs from language instruction and scene observation, we can drive symbolic planners in a language-guided framework. We propose a Vision-Language Interpreter (ViLaIn), a new framework that generates PDs using state-of-the-art LLM and vision-language models. ViLaIn can refine generated PDs via error message feedback from the symbolic planner. Our aim is to answer the question: How accurately can ViLaIn and the symbolic planner generate valid robot plans? To evaluate ViLaIn, we introduce a novel dataset called the problem description generation (ProDG) dataset. The framework is evaluated with four new evaluation metrics. Experimental results show that ViLaIn can generate syntactically correct problems with more than 99% accuracy and valid plans with more than 58% accuracy. | 翻訳日:2023-11-03 15:06:49 公開日:2023-11-02 |
# Invariant-Feature Subspace recovery: A new class of Provable Domain Generalization Algorithms Invariant-Feature Subspace Recovery: A New Class of Provable Domain Generalization Algorithms ( http://arxiv.org/abs/2311.00966v1 ) ライセンス: Link先を確認 | Haoxiang Wang, Gargi Balasubramaniam, Haozhe Si, Bo Li, Han Zhao | (参考訳) ドメインの一般化は、未熟なテスト環境でうまく一般化するために、トレーニング環境のセットでトレーニングされたモデルを求めます。
近年、領域一般化のために不変リスク最小化(IRM)のような一連のアルゴリズムが提案されている。
しかし、Rosenfeld et al. (2021) は、単純な線形データモデルにおいて、非凸性問題が無視されたとしても、IRM とその拡張は、$d_s+1$ のトレーニング環境では、$d_s$ はスプリアス部分空間の次元である。
本稿では,分類問題と回帰問題の設定をまたいで,証明可能な領域一般化を実現するための新しいアルゴリズムであるisr(invariant-feature subspace recovery)を提案する。
まず、Rosenfeld et al. (2021) のバイナリ分類設定において、我々の最初のアルゴリズムである ISR-Mean は、クラス条件分布の1次モーメントから不変な特徴によって区切られた部分空間を識別し、$d_s+1$トレーニング環境で証明可能な領域一般化を実現する。
第2のアルゴリズムであるISR-Covは、2次モーメントの情報を用いて、必要なトレーニング環境を$O(1)$に削減する。
特に、ITMとは異なり、我々のアルゴリズムは非凸性問題をバイパスし、グローバル収束保証を享受する。
次に、isr-meanをマルチクラス分類のより一般的な設定に拡張し、クラス情報を活用し、$\lceil d_s/k\rceil+1$トレーニング環境を$k$-class分類で確実にリカバリするisr-multiclassを提案する。
最後に、回帰問題に対して、$d_s+1$のトレーニング環境で不変機能部分空間を識別できるISR-Regressionを提案する。
実験では,合成ベンチマークにおけるisrの優れた性能を示す。
さらに、ISRはニューラルネットなどの特徴抽出器の処理後方法として使用できる。 Domain generalization asks for models trained over a set of training environments to generalize well in unseen test environments. Recently, a series of algorithms such as Invariant Risk Minimization (IRM) have been proposed for domain generalization. However, Rosenfeld et al. (2021) shows that in a simple linear data model, even if non-convexity issues are ignored, IRM and its extensions cannot generalize to unseen environments with less than $d_s+1$ training environments, where $d_s$ is the dimension of the spurious-feature subspace. In this work, we propose Invariant-feature Subspace Recovery (ISR): a new class of algorithms to achieve provable domain generalization across the settings of classification and regression problems. First, in the binary classification setup of Rosenfeld et al. (2021), we show that our first algorithm, ISR-Mean, can identify the subspace spanned by invariant features from the first-order moments of the class-conditional distributions, and achieve provable domain generalization with $d_s+1$ training environments. Our second algorithm, ISR-Cov, further reduces the required number of training environments to $O(1)$ using the information of second-order moments. Notably, unlike IRM, our algorithms bypass non-convexity issues and enjoy global convergence guarantees. Next, we extend ISR-Mean to the more general setting of multi-class classification and propose ISR-Multiclass, which leverages class information and provably recovers the invariant-feature subspace with $\lceil d_s/k\rceil+1$ training environments for $k$-class classification. Finally, for regression problems, we propose ISR-Regression that can identify the invariant-feature subspace with $d_s+1$ training environments. Empirically, we demonstrate the superior performance of our ISRs on synthetic benchmarks. Further, ISR can be used as post-processing methods for feature extractors such as neural nets. | 翻訳日:2023-11-03 15:06:34 公開日:2023-11-02 |
# フィンテック応用のための2目的パレート最適フラッド防止ルールの探索について On Finding Bi-objective Pareto-optimal Fraud Prevention Rule Sets for Fintech Applications ( http://arxiv.org/abs/2311.00964v1 ) ライセンス: Link先を確認 | Chengyao Wen, Yin Lou | (参考訳) ルールは直感的なif-then構造のおかげで非常に解釈しやすいため、フィンテック機関では不正防止の決定に広く使われている。
実際には、不正防止決定ルールの2段階の枠組みが一般的にフィンテックの大規模機関で採用されている。
本稿では,初期ルールプールから2目的空間(精度やリコールなど)の高品質なルールサブセットを見つけることを目的とする。
この目的のために、パレート最適性の概念を採用し、パレートフロントを構成する非支配ルール部分集合の集合を見つけることを目的とする。
我々はPORSと呼ばれるヒューリスティックなフレームワークを提案し、PORSのコアがフロント(SSF)におけるソリューション選択の問題であることを確認した。
本研究では,SSF問題を体系的に分類し,パブリック・プロプライエタリ・データセットとプロプライエタリ・データセットの両方で様々なSSF手法を徹底的に評価する。
また,初期規則セットの多様性を促進するために,spectralrulesと呼ばれる新しい逐次被覆アルゴリズムを導入し,spectralrulesがparetoフロントの品質をさらに向上させることを実証的に確認した。
alipayの2つの実際のアプリケーションシナリオにおいて、既存の作業と比較して提案手法の利点を実証する。 Rules are widely used in Fintech institutions to make fraud prevention decisions, since rules are highly interpretable thanks to their intuitive if-then structure. In practice, a two-stage framework of fraud prevention decision rule set mining is usually employed in large Fintech institutions. This paper is concerned with finding high-quality rule subsets in a bi-objective space (such as precision and recall) from an initial pool of rules. To this end, we adopt the concept of Pareto optimality and aim to find a set of non-dominated rule subsets, which constitutes a Pareto front. We propose a heuristic-based framework called PORS and we identify that the core of PORS is the problem of solution selection on the front (SSF). We provide a systematic categorization of the SSF problem and a thorough empirical evaluation of various SSF methods on both public and proprietary datasets. We also introduce a novel variant of sequential covering algorithm called SpectralRules to encourage the diversity of the initial rule set and we empirically find that SpectralRules further improves the quality of the found Pareto front. On two real application scenarios within Alipay, we demonstrate the advantages of our proposed methodology compared to existing work. | 翻訳日:2023-11-03 15:05:52 公開日:2023-11-02 |
# 実画像のみによる生成画像の検出 Detecting Generated Images by Real Images Only ( http://arxiv.org/abs/2311.00962v1 ) ライセンス: Link先を確認 | Xiuli Bi and Bo Liu and Fan Yang and Bin Xiao and Weisheng Li and Gao Huang and Pamela C. Cosman | (参考訳) ディープラーニング技術が進化を続けるにつれ、生成モデルによって得られるイメージはますます現実的になり、人々のイメージの真正性に疑問を呈するようになった。
既存の画像検出手法では、生成画像中の視覚アーチファクトを検出したり、実画像と生成画像の両方の識別特徴を大規模トレーニングによって学習する。
この学習パラダイムは効率と一般化の問題をもたらし、検出方法は常に生成方法に遅れを生じる。
本稿では,新しい視点から生成された画像検出問題にアプローチする。
実画像の共通性を見つけ、それらを機能空間内の密閉部分空間にマッピングすることで、生成した画像は生成モデルに関係なく、部分空間の外に投影される。
結果として、異なる生成モデルからの画像を検出でき、フィールド内の長年の問題を解決することができる。
実験の結果,本手法は実画像のみを用いて訓練され,他の深層学習法に比べて99.9倍のトレーニングデータを使用するが,最先端の手法と競合し,推論効率の高い生成モデルの検出に優れた性能を示した。
さらに,提案手法は各種後処理に対する堅牢性を示す。
これらの利点により、実際のシナリオでメソッドが使用できる。 As deep learning technology continues to evolve, the images yielded by generative models are becoming more and more realistic, triggering people to question the authenticity of images. Existing generated image detection methods detect visual artifacts in generated images or learn discriminative features from both real and generated images by massive training. This learning paradigm will result in efficiency and generalization issues, making detection methods always lag behind generation methods. This paper approaches the generated image detection problem from a new perspective: Start from real images. By finding the commonality of real images and mapping them to a dense subspace in feature space, the goal is that generated images, regardless of their generative model, are then projected outside the subspace. As a result, images from different generative models can be detected, solving some long-existing problems in the field. Experimental results show that although our method was trained only by real images and uses 99.9\% less training data than other deep learning-based methods, it can compete with state-of-the-art methods and shows excellent performance in detecting emerging generative models with high inference efficiency. Moreover, the proposed method shows robustness against various post-processing. These advantages allow the method to be used in real-world scenarios. | 翻訳日:2023-11-03 15:05:32 公開日:2023-11-02 |
# 空間時間学習者としての複合マスケオートエンコーダ Concatenated Masked Autoencoders as Spatial-Temporal Learner ( http://arxiv.org/abs/2311.00961v1 ) ライセンス: Link先を確認 | Zhouqiang Jiang, Bowen Wang, Tong Xiang, Zhaofeng Niu, Hong Tang, Guangshun Li, Liangzhi Li | (参考訳) ビデオから表現を学ぶには、連続した動きとフレーム間の視覚的対応を理解する必要がある。
本稿では,自己教師型ビデオ表現学習のための空間時間学習器として,Concatenated Masked Autoencoders (CatMAE)を導入する。
ビデオフレームの入力シーケンスについては、CatMAEは初期フレームを変更せず、マスキング(95%)をその後のフレームに適用する。
CatMAEのエンコーダは各フレームの可視パッチを個別にエンコードする責任があり、その後、各マスクフレームに対して、デコーダは以前のフレームと現在のフレームの両方から可視パッチを活用して元のイメージを再構築する。
提案手法により,目に見えるパッチ間の動き情報を推定し,先行フレームと後続フレーム間の対応を一致させ,最終的にシーンの進化を学習できる。
さらに,モデルの再構成目標として逆フレームを用いた新しいデータ拡張戦略である video-reverse (vire) を提案する。
これにより、モデルが連続的な動きの詳細と対応を利用して再構築を完了させることが奨励され、モデルの能力が向上する。
もっとも先進的な事前学習手法と比較して、CatMAEはビデオセグメンテーションタスクとアクション認識タスクのリードレベルを達成する。 Learning representations from videos requires understanding continuous motion and visual correspondences between frames. In this paper, we introduce the Concatenated Masked Autoencoders (CatMAE) as a spatial-temporal learner for self-supervised video representation learning. For the input sequence of video frames, CatMAE keeps the initial frame unchanged while applying substantial masking (95%) to subsequent frames. The encoder in CatMAE is responsible for encoding visible patches for each frame individually; subsequently, for each masked frame, the decoder leverages visible patches from both previous and current frames to reconstruct the original image. Our proposed method enables the model to estimate the motion information between visible patches, match the correspondences between preceding and succeeding frames, and ultimately learn the evolution of scenes. Furthermore, we propose a new data augmentation strategy, Video-Reverse (ViRe), which uses reversed video frames as the model's reconstruction targets. This further encourages the model to utilize continuous motion details and correspondences to complete the reconstruction, thereby enhancing the model's capabilities. Compared to the most advanced pre-training methods, CatMAE achieves a leading level in video segmentation tasks and action recognition tasks. | 翻訳日:2023-11-03 15:05:10 公開日:2023-11-02 |
# 強化学習に基づく動的フェアフェデレーション学習 Dynamic Fair Federated Learning Based on Reinforcement Learning ( http://arxiv.org/abs/2311.00959v1 ) ライセンス: Link先を確認 | Weikang Chen, Junping Du, Yingxia Shao, Jia Wang, and Yangxi Zhou | (参考訳) フェデレートラーニングは、ローカルデータサンプルを共有することなく、デバイスのグループ間でグローバルモデルの協調トレーニングと最適化を可能にする。
しかし、連合学習におけるデータの多様性は、異なるデバイス間でのグローバルモデルの不公平な表現につながる可能性がある。
連合学習における公平性問題に対処するために,強化学習を伴う動的qフェアネスフェデレーション学習アルゴリズムdqfflを提案する。
dqfflの目的は、デバイスアグリゲーションの相違を緩和し、連合学習に関わるすべてのグループに対する治療の公平性を高めることである。
フェアネスを定量化するために、DQFFLは各デバイス上でのグローバルフェデレーションモデルの性能を活用して、フェデレーションアグリゲーション中のフェアネスの保存をアグリゲーションプロセスにおけるクライアント重みの分布に変換する。
公平度測定におけるパラメータの感度を考慮し,集約時の動的パラメータに対する強化学習の活用を提案する。
実験の結果,DQFFLは全体の性能,公平性,収束速度において最先端の手法よりも優れていた。 Federated learning enables a collaborative training and optimization of global models among a group of devices without sharing local data samples. However, the heterogeneity of data in federated learning can lead to unfair representation of the global model across different devices. To address the fairness issue in federated learning, we propose a dynamic q fairness federated learning algorithm with reinforcement learning, called DQFFL. DQFFL aims to mitigate the discrepancies in device aggregation and enhance the fairness of treatment for all groups involved in federated learning. To quantify fairness, DQFFL leverages the performance of the global federated model on each device and incorporates {\alpha}-fairness to transform the preservation of fairness during federated aggregation into the distribution of client weights in the aggregation process. Considering the sensitivity of parameters in measuring fairness, we propose to utilize reinforcement learning for dynamic parameters during aggregation. Experimental results demonstrate that our DQFFL outperforms the state-of-the-art methods in terms of overall performance, fairness and convergence speed. | 翻訳日:2023-11-03 15:04:49 公開日:2023-11-02 |
# indotod:エンドツーエンドタスク指向対話システムのためのマルチドメインインドネシアベンチマーク IndoToD: A Multi-Domain Indonesian Benchmark For End-to-End Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2311.00958v1 ) ライセンス: Link先を確認 | Muhammad Dehan Al Kautsar, Rahmah Khoirussyifa' Nurdini, Samuel Cahyawijaya, Genta Indra Winata, Ayu Purwarianti | (参考訳) タスク指向対話(ToD)システムは、主に英語や中国語などの高リソース言語向けに作成されている。
しかし,様々な言語で会話の文脈を理解する能力を広げるために,他の地域言語や地域言語のためのToDシステムを開発する必要がある。
本稿ではインドネシアのマルチドメインToDベンチマークであるIndoToDを紹介する。
2つの英語todデータセットを4つの異なるドメインからなるインドネシアに拡張し,アノテーションのサイズを効率的に削減した。
高品質なデータ収集を保証するため、対話を手動で翻訳するためにネイティブスピーカーを採用。
オリジナルの英語データセットとともに、これらのインドネシアのデータセットは、インドネシア語と英語のtodシステムを評価するための効果的なベンチマークとなり、言語間およびバイリンガルのトランスファー学習アプローチの潜在的な利点を探求する。 Task-oriented dialogue (ToD) systems have been mostly created for high-resource languages, such as English and Chinese. However, there is a need to develop ToD systems for other regional or local languages to broaden their ability to comprehend the dialogue contexts in various languages. This paper introduces IndoToD, an end-to-end multi domain ToD benchmark in Indonesian. We extend two English ToD datasets to Indonesian, comprising four different domains by delexicalization to efficiently reduce the size of annotations. To ensure a high-quality data collection, we hire native speakers to manually translate the dialogues. Along with the original English datasets, these new Indonesian datasets serve as an effective benchmark for evaluating Indonesian and English ToD systems as well as exploring the potential benefits of cross-lingual and bilingual transfer learning approaches. | 翻訳日:2023-11-03 15:04:32 公開日:2023-11-02 |
# 知識を包含した対話生成のための専門家によるブレンディング・リワード機能 Blending Reward Functions via Few Expert Demonstrations for Faithful and Accurate Knowledge-Grounded Dialogue Generation ( http://arxiv.org/abs/2311.00953v1 ) ライセンス: Link先を確認 | Wanyu Du, Yangfeng Ji | (参考訳) 信頼できる会話情報検索システムの開発は、関連する知識テキストに基づいて忠実で正確な応答を生成できる対話モデルに依存している。
しかし、2つの大きな課題がこの課題を妨げている。
まず、言語モデルは、事前学習コーパスに存在するデータバイアスによって幻覚を生成する。
第二に、知識テキストは、しばしば、関連するテキストスパンからモデルの注意をそらす冗長で無関係な情報を含んでいる。
これまでは知識テキストに付加的なデータアノテーションを使用して知識識別モジュールを学習し、無関係な情報を回避してきたが、そのような高品質なスパンアノテーションの収集にはコストがかかる。
本研究では,新しい報酬関数を導入することで,上記の課題を克服するために強化学習アルゴリズムを活用する。
我々の報奨関数は精度基準と忠実度基準を組み合わせることで、生成した応答のバランスの取れた品質判定を行い、ほんの少しの選好アノテーションが利用できる場合に、人間の選好報酬モデルに対する費用対効果の近似として利用することができる。
2つの対話型情報探索データセットに関する実証実験により、我々の手法は他の強力な教師付き学習ベースラインと競合できることを示した。 The development of trustworthy conversational information-seeking systems relies on dialogue models that can generate faithful and accurate responses based on relevant knowledge texts. However, two main challenges hinder this task. Firstly, language models may generate hallucinations due to data biases present in their pretraining corpus. Secondly, knowledge texts often contain redundant and irrelevant information that distracts the model's attention from the relevant text span. Previous works use additional data annotations on the knowledge texts to learn a knowledge identification module in order to bypass irrelevant information, but collecting such high-quality span annotations can be costly. In this work, we leverage reinforcement learning algorithms to overcome the above challenges by introducing a novel reward function. Our reward function combines an accuracy metric and a faithfulness metric to provide a balanced quality judgment of generated responses, which can be used as a cost-effective approximation to a human preference reward model when only a few preference annotations are available. Empirical experiments on two conversational information-seeking datasets demonstrate that our method can compete with other strong supervised learning baselines. | 翻訳日:2023-11-03 15:04:16 公開日:2023-11-02 |
# テキスト・ビデオ・ジェネレーションのための最適ノイズ追従 Optimal Noise pursuit for Augmenting Text-to-Video Generation ( http://arxiv.org/abs/2311.00949v1 ) ライセンス: Link先を確認 | Shijie Ma, Huayi Xu, Mengjian Li, Weidong Geng, Meng Wang, Yaxiong Wang | (参考訳) テキスト・ビデオ生成の顕著な進歩にもかかわらず、既存の拡散ベースモデルは推論中にノイズの点で不安定であることが多い。
具体的には、与えられたテキストに対して異なるノイズが供給される場合、これらのモデルはフレーム品質と時間的一貫性の両方で大きく異なるビデオを生成する。
この観察により、各テキスト入力に最適なノイズが存在することを仮定するが、ランダムノイズサンプリングの広く採用されている戦略はしばしばそれを捉えることができない。
本稿では, 拡散モデルに基づく定評定ノイズ・ビデオマッピングを用いて, 地上映像を反転させることにより最適な雑音にアプローチできることを示す。
それでも、テキストプロンプトの基盤となるビデオは推論時に利用できない。
この課題に対処するため,探索・反転パイプラインを用いて最適な雑音を近似する手法を提案する。
テキストプロンプトが与えられたら、まず、事前に定義された候補プールから、テキストプロンプトと密接に関連するビデオを探します。
その後、検索した映像を雑音空間に反転させ、テキスト入力に対するノイズプロンプトを改善する。
ノイズに対処することに加えて、より詳細なテキストプロンプトが高品質なビデオにつながることも観察した。
これにより,テキストプロンプトを充実させるために意味保存リライトを更に設計し,適切な詳細情報補償のために参照ガイドリライトを考案し,意味的一貫性を保つためにハイブリッドセマンティクス戦略を用いたデノイジングを提案する。
webvid-10mベンチマークの広範囲な実験により,提案手法は,最適化の負担を伴わず,明確なマージンでテキスト対ビデオモデルを改善できることを示した。 Despite the remarkable progress in text-to-video generation, existing diffusion-based models often exhibit instability in terms of noise during inference. Specifically, when different noises are fed for the given text, these models produce videos that differ significantly in terms of both frame quality and temporal consistency. With this observation, we posit that there exists an optimal noise matched to each textual input; however, the widely adopted strategies of random noise sampling often fail to capture it. In this paper, we argue that the optimal noise can be approached through inverting the groundtruth video using the established noise-video mapping derived from the diffusion model. Nevertheless, the groundtruth video for the text prompt is not available during inference. To address this challenge, we propose to approximate the optimal noise via a search and inversion pipeline. Given a text prompt, we initially search for a video from a predefined candidate pool that closely relates to the text prompt. Subsequently, we invert the searched video into the noise space, which serves as an improved noise prompt for the textual input. In addition to addressing noise, we also observe that the text prompt with richer details often leads to higher-quality videos. Motivated by this, we further design a semantic-preserving rewriter to enrich the text prompt, where a reference-guided rewriting is devised for reasonable details compensation, and a denoising with a hybrid semantics strategy is proposed to preserve the semantic consistency. Extensive experiments on the WebVid-10M benchmark show that our proposed method can improve the text-to-video models with a clear margin, while introducing no optimization burden. | 翻訳日:2023-11-03 15:03:57 公開日:2023-11-02 |
# E3 TTS: エンドツーエンドの拡散に基づく音声テキスト E3 TTS: Easy End-to-End Diffusion-based Text to Speech ( http://arxiv.org/abs/2311.00945v1 ) ライセンス: Link先を確認 | Yuan Gao, Nobuyuki Morioka, Yu Zhang, Nanxin Chen | (参考訳) 本稿では,拡散に基づく簡易かつ効率的なエンドツーエンド・テキスト・ツー・スパイチモデルである音声へのエンドツーエンド・拡散ベーステキストを提案する。
E3 TTSは、プレーンテキストを直接入力として取り出し、反復精製プロセスを通じて音声波形を生成する。
以前の多くの作業とは異なり、E3 TTSは分光器の特徴やアライメント情報のような中間表現に依存していない。
代わりにe3 ttsは拡散過程を通じて波形の時間構造をモデル化する。
追加の条件情報に頼ることなく、E3 TTSは所定のオーディオ内で柔軟な潜在構造をサポートすることができる。
これにより、E3 TTSは追加のトレーニングなしで編集などのゼロショットタスクに容易に適応できる。
実験により、E3 TTSは高忠実なオーディオを生成し、最先端のニューラルTSシステムの性能に近づいた。
オーディオサンプルはhttps://e3tts.github.ioで入手できる。 We propose Easy End-to-End Diffusion-based Text to Speech, a simple and efficient end-to-end text-to-speech model based on diffusion. E3 TTS directly takes plain text as input and generates an audio waveform through an iterative refinement process. Unlike many prior work, E3 TTS does not rely on any intermediate representations like spectrogram features or alignment information. Instead, E3 TTS models the temporal structure of the waveform through the diffusion process. Without relying on additional conditioning information, E3 TTS could support flexible latent structure within the given audio. This enables E3 TTS to be easily adapted for zero-shot tasks such as editing without any additional training. Experiments show that E3 TTS can generate high-fidelity audio, approaching the performance of a state-of-the-art neural TTS system. Audio samples are available at https://e3tts.github.io. | 翻訳日:2023-11-03 15:03:27 公開日:2023-11-02 |
# フェデレートミニマックス最適化のための確率滑らかな勾配勾配 Stochastic Smoothed Gradient Descent Ascent for Federated Minimax Optimization ( http://arxiv.org/abs/2311.00944v1 ) ライセンス: Link先を確認 | Wei Shen, Minhui Huang, Jiawei Zhang, Cong Shen | (参考訳) 近年、フェデレーション付きミニマックス最適化は、様々な機械学習タスクに広く応用されているため、関心が高まりつつある。
smoothed alternativegradient fall ascent (smoothed-agda) は集中型非凸ミニマックス最適化の成功を証明しているが、スムージングテクニックがフェデレーション設定にどのように役立つかは未定である。
本稿では,fess-gda(feerated stochastic smoothed gradient descent ascent)と呼ばれる,フェデレートミニマックス最適化のための平滑化手法を用いた新しいアルゴリズムを提案する。
我々は、fess-gda が複数のフェデレーションされたミニマックス問題の解法に一様に用いられることを証明し、これらの設定に対する新しい、またはより優れた解析収束結果を証明する。
本稿では,GAN(Generative Adversarial Network)の訓練と公平な分類において,FESS-GDAの実践的効率性を示す。 In recent years, federated minimax optimization has attracted growing interest due to its extensive applications in various machine learning tasks. While Smoothed Alternative Gradient Descent Ascent (Smoothed-AGDA) has proved its success in centralized nonconvex minimax optimization, how and whether smoothing technique could be helpful in federated setting remains unexplored. In this paper, we propose a new algorithm termed Federated Stochastic Smoothed Gradient Descent Ascent (FESS-GDA), which utilizes the smoothing technique for federated minimax optimization. We prove that FESS-GDA can be uniformly used to solve several classes of federated minimax problems and prove new or better analytical convergence results for these settings. We showcase the practical efficiency of FESS-GDA in practical federated learning tasks of training generative adversarial networks (GANs) and fair classification. | 翻訳日:2023-11-03 15:03:14 公開日:2023-11-02 |
# Javaオブジェクトデシリアライズのためのサウンドコールグラフ構築 Sound Call Graph Construction for Java Object Deserialization ( http://arxiv.org/abs/2311.00943v1 ) ライセンス: Link先を確認 | Joanna C. S. Santos, Mehdi Mirakhorli, Ali Shokri | (参考訳) オブジェクトのシリアライゼーションとデシリアライゼーションは、ファイル、メモリ、データベース内のオブジェクトの保存と保存、マシン間での転送、プロセス間のリモートインタラクションなどに広く利用されている。
このメカニズムは動的言語であるリフレクションに依存しており、静的解析に深刻な課題をもたらす。
現在の最先端のコールグラフ構築アルゴリズムは、オブジェクトのシリアライズ/デシリアライズを完全にサポートしていない。
コールグラフは複数のタイプの分析(例えば脆弱性検出)のコアデータ構造であるため、コールグラフはコールバックメソッドを介して発生する隠れた(破壊可能な)パスをキャプチャしないため、適切な解析はできない。
本稿では,コールグラフ構築の文脈において,音質を改善したシリアライズ処理手法であるsenecaを提案する。
提案手法は,音声コールグラフを構築するために,テナント解析とAPIモデリングに依存する。
我々は,信頼できないオブジェクトデシリアライズ脆弱性の検出において,健全性,正確性,性能,有用性について評価した。
その結果,senecaはシリアライズ機能に関して音声通話グラフを作成できることがわかった。
結果として得られたコールグラフは大きなオーバーヘッドを伴わず、信頼できないオブジェクトデシリアライゼーションによる脆弱なパスの識別に有用であることが示されている。 Object serialization and deserialization is widely used for storing and preserving objects in files, memory, or database as well as for transporting them across machines, enabling remote interaction among processes and many more. This mechanism relies on reflection, a dynamic language that introduces serious challenges for static analyses. Current state-of-the-art call graph construction algorithms does not fully support object serialization/deserialization, i.e., they are unable to uncover the callback methods that are invoked when objects are serialized and deserialized. Since call graphs are a core data structure for multiple type of analysis (e.g., vulnerability detection), an appropriate analysis cannot be performed since the call graph does not capture hidden (vulnerable) paths that occur via callback methods. In this paper, we present Seneca, an approach for handling serialization with improved soundness in the context of call graph construction. Our approach relies on taint analysis and API modeling to construct sound call graphs. We evaluated our approach with respect to soundness, precision, performance, and usefulness in detecting untrusted object deserialization vulnerabilities. Our results show that Seneca can create sound call graphs with respect to serialization features. The resulting call graphs do not incur significant overhead and were shown to be useful for performing identification of vulnerable paths caused by untrusted object deserialization. | 翻訳日:2023-11-03 15:02:55 公開日:2023-11-02 |
# 拡散モデルのためのガウス混合解法 Gaussian Mixture Solvers for Diffusion Models ( http://arxiv.org/abs/2311.00941v1 ) ライセンス: Link先を確認 | Hanzhong Guo, Cheng Lu, Fan Bao, Tianyu Pang, Shuicheng Yan, Chao Du, Chongxuan Li | (参考訳) 近年,拡散モデルが生成的タスクにおいて大きな成功を収めている。
拡散モデルからのサンプリングは、逆拡散確率微分方程式(SDE)や対応する確率フロー常微分方程式(ODE)の解法と等価である。
対照的に、SDEベースの解法は高品質のサンプルを生成することができ、ストロークベースの合成のような画像翻訳タスクに適している。
しかし, 既存のSDEベースの解法は, 効率効率ジレンマにより厳しい制約を受ける。
本研究は, 逆遷移核におけるガウス的仮定が, 有限個の離散化ステップによってしばしば違反される(単純な混合データであっても)ことを示唆している。
この制限を克服するために、拡散モデルのための新しいSDEベースの解法である \emph{Gaussian Mixture Solvers (GMS) を導入する。
我々の解法は,最初の3次モーメントを推定し,サンプリング中の各ステップにおけるモーメントの一般化手法を用いてガウス混合遷移カーネルのパラメータを最適化する。
実験により,GMSのモチベーションと有効性を検証し,画像生成におけるサンプル品質と,様々な拡散モデルにおけるストロークベース合成において多くのSDEベースの解法よりも優れていた。
私たちのコードはhttps://github.com/guohanzhong/gmsで利用可能です。 Recently, diffusion models have achieved great success in generative tasks. Sampling from diffusion models is equivalent to solving the reverse diffusion stochastic differential equations (SDEs) or the corresponding probability flow ordinary differential equations (ODEs). In comparison, SDE-based solvers can generate samples of higher quality and are suited for image translation tasks like stroke-based synthesis. During inference, however, existing SDE-based solvers are severely constrained by the efficiency-effectiveness dilemma. Our investigation suggests that this is because the Gaussian assumption in the reverse transition kernel is frequently violated (even in the case of simple mixture data) given a limited number of discretization steps. To overcome this limitation, we introduce a novel class of SDE-based solvers called \emph{Gaussian Mixture Solvers (GMS)} for diffusion models. Our solver estimates the first three-order moments and optimizes the parameters of a Gaussian mixture transition kernel using generalized methods of moments in each step during sampling. Empirically, our solver outperforms numerous SDE-based solvers in terms of sample quality in image generation and stroke-based synthesis in various diffusion models, which validates the motivation and effectiveness of GMS. Our code is available at https://github.com/Guohanzhong/GMS. | 翻訳日:2023-11-03 15:02:32 公開日:2023-11-02 |
# ギャップの橋渡し : 拡散モデル学習における差異の解消と分類子なし指導 Bridging the Gap: Addressing Discrepancies in Diffusion Model Training for Classifier-Free Guidance ( http://arxiv.org/abs/2311.00938v1 ) ライセンス: Link先を確認 | Niket Patel, Luis Salamanca, Luis Barba | (参考訳) 拡散モデルは生成モデルにおいて重要な進歩として登場し、生成されたインスタンスの品質に新しい標準を設定する。
本稿では,従来のトレーニング手法と,これらのモデルの条件付きサンプリング行動との相違点を明らかにすることを目的とする。
一般的な分類器なしガイダンス技術はうまく機能するが、欠陥がないわけではない。
ガイダンススケールのパラメータである$w$の値が高くなると、分布サンプルとモードが崩壊することが多いが、$w$の値が低い場合には、望ましい特異性が得られない。
これらの課題に対処するために,トレーニング目標とサンプリング行動との整合性を向上する改良された損失関数を導入する。
cifar-10のfidスコアによる実験的検証は、より少ないサンプリング時間ステップで高品質なサンプルを生成する能力を解明し、ガイダンススケールの選択に対してより堅牢である。
また,提案した損失に対する微調整安定拡散実験を行い,この改良された損失関数の恩恵を受ける可能性があることを示す。 Diffusion models have emerged as a pivotal advancement in generative models, setting new standards to the quality of the generated instances. In the current paper we aim to underscore a discrepancy between conventional training methods and the desired conditional sampling behavior of these models. While the prevalent classifier-free guidance technique works well, it's not without flaws. At higher values for the guidance scale parameter $w$, we often get out of distribution samples and mode collapse, whereas at lower values for $w$ we may not get the desired specificity. To address these challenges, we introduce an updated loss function that better aligns training objectives with sampling behaviors. Experimental validation with FID scores on CIFAR-10 elucidates our method's ability to produce higher quality samples with fewer sampling timesteps, and be more robust to the choice of guidance scale $w$. We also experiment with fine-tuning Stable Diffusion on the proposed loss, to provide early evidence that large diffusion models may also benefit from this refined loss function. | 翻訳日:2023-11-03 15:02:11 公開日:2023-11-02 |
# コンピュータビジョンのための生成型adversarial networkの理論的進歩に関する年次調査 A Chronological Survey of Theoretical Advancements in Generative Adversarial Networks for Computer Vision ( http://arxiv.org/abs/2311.00995v1 ) ライセンス: Link先を確認 | Hrishikesh Sharma | (参考訳) GAN(Generative Adversarial Networks)は、特にコンピュータビジョンの研究分野において、長年にわたりワークホース生成モデルである。
したがって、GANモデルの理論と応用には多くの大きな進歩があったが、訓練が難しいことで悪名高いが、うまく訓練すれば良い結果が得られる。
GANに関する多くの調査があり、様々な視点と視点から膨大なGAN文献を整理している。
しかし、どの調査でも重要な時系列的側面は示されていない。複数の目覚ましい研究成果に対して、GANモデルを採用する上での複数の課題が、時間とともに1つずつ解決されたか。
この調査は、このギャップを橋渡し、gansの理論と応用に関する画期的な研究成果を時系列的に提示することを目的としている。 Generative Adversarial Networks (GANs) have been workhorse generative models for last many years, especially in the research field of computer vision. Accordingly, there have been many significant advancements in the theory and application of GAN models, which are notoriously hard to train, but produce good results if trained well. There have been many a surveys on GANs, organizing the vast GAN literature from various focus and perspectives. However, none of the surveys brings out the important chronological aspect: how the multiple challenges of employing GAN models were solved one-by-one over time, across multiple landmark research works. This survey intends to bridge that gap and present some of the landmark research works on the theory and application of GANs, in chronological order. | 翻訳日:2023-11-03 14:54:17 公開日:2023-11-02 |
# laughtalk: 表現力のある3dトークヘッドジェネレーション LaughTalk: Expressive 3D Talking Head Generation with Laughter ( http://arxiv.org/abs/2311.00994v1 ) ライセンス: Link先を確認 | Kim Sung-Bin, Lee Hyun, Da Hye Hong, Suekyeong Nam, Janghoon Ju, Tae-Hyun Oh | (参考訳) 笑いは独特な表現であり、人間の肯定的な社会的相互作用に必須である。
現在の3dトーキング・ヘッド・ジェネレーションは説得力のある口頭調音を生成するが、しばしば社会的文脈において重要であるにもかかわらず、笑いや笑顔の活力や微妙な特徴を捉えられていない。
本稿では,音声と実笑の両方を明瞭に表現できる3D音声ヘッドを生成する新しいタスクを提案する。
新たに収集したデータセットは、擬似アノテーションと人間検証された3DFLAMEパラメータと頂点を組み合わせた2D笑いビデオからなる。
提案したデータセットから、2段階のトレーニングスキームで強力なベースラインを提示する。まずモデルが話し方を学習し、次に笑いを表現する能力を取得する。
本手法は,発話音声の生成と笑い信号の表現において,既存の手法と比較して良好な性能を示す。
さらに,現実的なアバターをリグするための提案手法の応用の可能性を探る。 Laughter is a unique expression, essential to affirmative social interactions of humans. Although current 3D talking head generation methods produce convincing verbal articulations, they often fail to capture the vitality and subtleties of laughter and smiles despite their importance in social context. In this paper, we introduce a novel task to generate 3D talking heads capable of both articulate speech and authentic laughter. Our newly curated dataset comprises 2D laughing videos paired with pseudo-annotated and human-validated 3D FLAME parameters and vertices. Given our proposed dataset, we present a strong baseline with a two-stage training scheme: the model first learns to talk and then acquires the ability to express laughter. Extensive experiments demonstrate that our method performs favorably compared to existing approaches in both talking head generation and expressing laughter signals. We further explore potential applications on top of our proposed method for rigging realistic avatars. | 翻訳日:2023-11-03 14:54:02 公開日:2023-11-02 |
# 緑化木を用いた小売店におけるスケーラブル確率予測 : 実践者のアプローチ Scalable Probabilistic Forecasting in Retail with Gradient Boosted Trees: A Practitioner's Approach ( http://arxiv.org/abs/2311.00993v1 ) ライセンス: Link先を確認 | Xueying Long, Quang Bui, Grady Oktavian, Daniel F. Schmidt, Christoph Bergmeir, Rakshitha Godahewa, Seong Per Lee, Kaifeng Zhao, Paul Condylis | (参考訳) 最近のM5コンペティションは、小売予測の最先端を推し進めている。
しかし、私たちは大きなeコマース企業で直面する競争の課題と直面する課題との間に重要な違いに気付きます。
われわれのシナリオのデータセットは、数十万の時系列であり、eコマースは、ブロック・アンド・モルタルの小売店よりも大きな品揃えを持ち、断続的なデータを生み出すことができる。
計算量の多いデータセットサイズにスケールするために,まず2層階層について検討し,シリーズ数と間欠量が少ない集約レベルで予測するトップダウンアプローチを提案し,その後に分散して決定レベルの予測を行う。
確率的予測は分布的仮定の下で生成される。
第二に、サブサンプルによる下位レベルの直接トレーニングは、スケーリングの代替手段にもなり得る。
サブセットによるモデリングのパフォーマンスをメインデータセットで評価する。
プロプライエタリなデータセットとは別に、提案するスケーラブルなメソッドは、 favoritaデータセットとm5データセットを使って評価される。
私たちは、eコマースとリアル店舗のデータセットの特徴の違いを見ることができます。
特に、私たちのトップダウン予測フレームワークは、よりシンプルな設定の下でより高いレベルでトレーニングされたモデルであっても、オリジナルのM5コンペティションのトップ50に入る。 The recent M5 competition has advanced the state-of-the-art in retail forecasting. However, we notice important differences between the competition challenge and the challenges we face in a large e-commerce company. The datasets in our scenario are larger (hundreds of thousands of time series), and e-commerce can afford to have a larger assortment than brick-and-mortar retailers, leading to more intermittent data. To scale to larger dataset sizes with feasible computational effort, firstly, we investigate a two-layer hierarchy and propose a top-down approach to forecasting at an aggregated level with less amount of series and intermittency, and then disaggregating to obtain the decision-level forecasts. Probabilistic forecasts are generated under distributional assumptions. Secondly, direct training at the lower level with subsamples can also be an alternative way of scaling. Performance of modelling with subsets is evaluated with the main dataset. Apart from a proprietary dataset, the proposed scalable methods are evaluated using the Favorita dataset and the M5 dataset. We are able to show the differences in characteristics of the e-commerce and brick-and-mortar retail datasets. Notably, our top-down forecasting framework enters the top 50 of the original M5 competition, even with models trained at a higher level under a much simpler setting. | 翻訳日:2023-11-03 14:53:46 公開日:2023-11-02 |
# スマートフォンを利用した歩行者のためのIR-UWBレーダを用いた状況認識システム IR-UWB Radar-based Situational Awareness System for Smartphone-Distracted Pedestrians ( http://arxiv.org/abs/2311.00991v1 ) ライセンス: Link先を確認 | Jamsheed Manja Ppallan, Ruchi Pandey, Yellappa Damam, Vijay Narayan Tiwari, Karthikeyan Arunachalam and Antariksha Ray | (参考訳) スマートフォンの普及に伴い、道路の歩行者の安全を確保することが、スマートフォンの邪魔による深刻な懸念となっている。
本稿では,障害物検出のためのUWBアシストセーフウォーク(UASW)と呼ばれる新規でリアルタイムな支援システムを提案する。
提案手法はスマートフォンに内蔵されたインパルス無線超広帯域(ir-uwb)レーダを応用し,短パルスを用いたレンジ分解能,高耐雑音性を実現する。
IR-UWB接続を備えたAndroidスマートフォン向けにUASWを実装した。
このフレームワークは複雑なチャネルインパルス応答(CIR)データを使用して、ルールに基づく障害物検出と人工知能ニューラルネットワーク(ANN)に基づく障害物分類を統合する。
提案するUASWシステムの性能を実時間収集データを用いて解析する。
提案システムは,最大97%の障害物検出精度と最大95%の障害物分類精度を推定遅延26.8mで達成し,UASWがスマートフォンによる歩行者支援や状況認識の向上に有効であることを明らかにする。 With the widespread adoption of smartphones, ensuring pedestrian safety on roads has become a critical concern due to smartphone distraction. This paper proposes a novel and real-time assistance system called UWB-assisted Safe Walk (UASW) for obstacle detection and warns users about real-time situations. The proposed method leverages Impulse Radio Ultra-Wideband (IR-UWB) radar embedded in the smartphone, which provides excellent range resolution and high noise resilience using short pulses. We implemented UASW specifically for Android smartphones with IR-UWB connectivity. The framework uses complex Channel Impulse Response (CIR) data to integrate rule-based obstacle detection with artificial neural network (ANN) based obstacle classification. The performance of the proposed UASW system is analyzed using real-time collected data. The results show that the proposed system achieves an obstacle detection accuracy of up to 97% and obstacle classification accuracy of up to 95% with an inference delay of 26.8 ms. The results highlight the effectiveness of UASW in assisting smartphone-distracted pedestrians and improving their situational awareness. | 翻訳日:2023-11-03 14:53:27 公開日:2023-11-02 |
# videodreamer:disen-mixの微調整によるマルチサブジェクトのテキスト対ビデオ生成 VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning ( http://arxiv.org/abs/2311.00990v1 ) ライセンス: Link先を確認 | Hong Chen, Xin Wang, Guanning Zeng, Yipeng Zhang, Yuwei Zhou, Feilin Han, Wenwu Zhu | (参考訳) カスタマイズされたテキスト対ビデオ生成は、ユーザー登録対象をカスタマイズしたテキストガイド付きビデオを生成することを目的としている。
しかし、既存の作品は主に1つの主題のためにビデオを生成することに限られており、より難しい問題であるマルチサブジェクトのテキスト対ビデオ生成のカスタマイズは、ほとんど未解決である。
本稿では,このギャップを埋め,新しいVideoDreamerフレームワークを提案する。
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
特にvideodreamerは、事前訓練された安定拡散と潜在コード運動ダイナミクスと時間的フレーム間注意を基本ビデオジェネレータとして活用している。
マルチサブジェクト生成の属性結合問題に対処できるディゼンミックス微調整とヒューマン・イン・ザ・ループ再微調整戦略により、与えられた複数の被験者に対してさらにカスタマイズされる。
また,マルチサブジェクトのテキスト対ビデオ生成モデルを評価するベンチマークであるmultistudiobenchについても紹介する。
大規模な実験は、ビデオDreamerが、新しいイベントや背景など、カスタマイズされた複数の主題に合わせて、新しいコンテンツでビデオを生成する素晴らしい能力を実証している。
プロジェクトページはhttps://videodreamer23.github.io/で閲覧できます。 Customized text-to-video generation aims to generate text-guided videos with customized user-given subjects, which has gained increasing attention recently. However, existing works are primarily limited to generating videos for a single subject, leaving the more challenging problem of customized multi-subject text-to-video generation largely unexplored. In this paper, we fill this gap and propose a novel VideoDreamer framework. VideoDreamer can generate temporally consistent text-guided videos that faithfully preserve the visual features of the given multiple subjects. Specifically, VideoDreamer leverages the pretrained Stable Diffusion with latent-code motion dynamics and temporal cross-frame attention as the base video generator. The video generator is further customized for the given multiple subjects by the proposed Disen-Mix Finetuning and Human-in-the-Loop Re-finetuning strategy, which can tackle the attribute binding problem of multi-subject generation. We also introduce MultiStudioBench, a benchmark for evaluating customized multi-subject text-to-video generation models. Extensive experiments demonstrate the remarkable ability of VideoDreamer to generate videos with new content such as new events and backgrounds, tailored to the customized multiple subjects. Our project page is available at https://videodreamer23.github.io/. | 翻訳日:2023-11-03 14:53:06 公開日:2023-11-02 |
# CML-MOTS:マルチオブジェクト追跡とセグメンテーションのための協調型マルチタスク学習 CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking and Segmentation ( http://arxiv.org/abs/2311.00987v1 ) ライセンス: Link先を確認 | Yiming Cui, Cheng Han, Dongfang Liu | (参考訳) コンピュータビジョンの進歩は、静止画像からビデオ領域への視覚解析タスクを推し進めている。
近年、ビデオフレーム内の複数のオブジェクトを追跡し、セグメント化することを目的としたビデオインスタンスセグメンテーションが、自動運転、インテリジェントトランスポート、スマート小売など、新興分野の潜在的な応用に多くの注目を集めている。
本稿では,オブジェクト検出,インスタンスセグメンテーション,マルチオブジェクト追跡を同時に行うことができる,ビデオフレームのインスタンスレベルの視覚分析のための効果的なフレームワークを提案する。
本手法の核となる概念は,エンドツーエンド学習可能なcnnにおける検出,セグメント化,追跡タスクヘッド間の連想接続という新しい構造によって達成される協調型マルチタスク学習である。
これらの追加接続により、複数の関連するタスクにまたがる情報伝達が可能になる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットに基づいて広範に評価し, 極めて有望な結果を得た。 The advancement of computer vision has pushed visual analysis tasks from still images to the video domain. In recent years, video instance segmentation, which aims to track and segment multiple objects in video frames, has drawn much attention for its potential applications in various emerging areas such as autonomous driving, intelligent transportation, and smart retail. In this paper, we propose an effective framework for instance-level visual analysis on video frames, which can simultaneously conduct object detection, instance segmentation, and multi-object tracking. The core idea of our method is collaborative multi-task learning which is achieved by a novel structure, named associative connections among detection, segmentation, and tracking task heads in an end-to-end learnable CNN. These additional connections allow information propagation across multiple related tasks, so as to benefit these tasks simultaneously. We evaluate the proposed method extensively on KITTI MOTS and MOTS Challenge datasets and obtain quite encouraging results. | 翻訳日:2023-11-03 14:52:41 公開日:2023-11-02 |
# M&M3D:マルチビュー3Dオブジェクト検出のためのマルチデータセットトレーニングと効率的なネットワーク M&M3D: Multi-Dataset Training and Efficient Network for Multi-view 3D Object Detection ( http://arxiv.org/abs/2311.00986v1 ) ライセンス: Link先を確認 | Hang Zhang | (参考訳) 本研究では,カメラのみのデータとバードズアイビューマップを用いたマルチビュー3次元物体検出のためのネットワーク構造を提案する。
私の仕事は、現在のキーチャレンジドメイン適応とビジュアルデータ転送に基づいています。
多くの優れたカメラのみの3dオブジェクト検出が提案されているが、ネットワークがソースドメインでトレーニングされ、異なるターゲットドメインでテストされた場合、多くの研究作業は劇的なパフォーマンス低下をリスクにしている。
そして、バウンディングボックスやクラスに関する予測が2Dネットワーク上でもまだ応答していることに驚きました。
さまざまな3dデータセットにおけるドメインギャップの仮定に基づいて、同じbevマップサイズとカメラデータ転送で同様のデータ抽出が共有されていることが分かりました。
そこで,本手法における領域ギャップの影響を解析し,データセットと実世界の3次元空間情報を有効活用するために,nuscenes-miniとlyftの3次元物体検出法とトランスフォーマー構造を提案する。
マルチデータセットのトレーニングとTransformerからの検出ヘッドにより、3Dアンカークエリと3D位置情報を用いてデータマイグレーション性能と効率的な検出性能を示した。
少量のソースデータと既存の大規模モデルの事前学習重みを頼りに、効率の良いネットワークは、新しいターゲットドメイン上での競合的な結果を達成する。
さらに,3次元情報を利用可能な意味情報として活用し,視覚言語伝達設計に融合した2次元多視点画像特徴について検討した。
最終的な3Dアンカーボックスの予測とオブジェクト分類において、私のネットワークは3Dオブジェクト検出の標準基準で良い結果を得た。 In this research, I proposed a network structure for multi-view 3D object detection using camera-only data and a Bird's-Eye-View map. My work is based on a current key challenge domain adaptation and visual data transfer. Although many excellent camera-only 3D object detection has been continuously proposed, many research work risk dramatic performance drop when the networks are trained on the source domain but tested on a different target domain. Then I found it is very surprising that predictions on bounding boxes and classes are still replied to on 2D networks. Based on the domain gap assumption on various 3D datasets, I found they still shared a similar data extraction on the same BEV map size and camera data transfer. Therefore, to analyze the domain gap influence on the current method and to make good use of 3D space information among the dataset and the real world, I proposed a transfer learning method and Transformer construction to study the 3D object detection on NuScenes-mini and Lyft. Through multi-dataset training and a detection head from the Transformer, the network demonstrated good data migration performance and efficient detection performance by using 3D anchor query and 3D positional information. Relying on only a small amount of source data and the existing large model pre-training weights, the efficient network manages to achieve competitive results on the new target domain. Moreover, my study utilizes 3D information as available semantic information and 2D multi-view image features blending into the visual-language transfer design. In the final 3D anchor box prediction and object classification, my network achieved good results on standard metrics of 3D object detection, which differs from dataset-specific models on each training domain without any fine-tuning. | 翻訳日:2023-11-03 14:52:23 公開日:2023-11-02 |
# 包括性の問題: ユーザフィードバックの大規模分析 Inclusiveness Matters: A Large-Scale Analysis of User Feedback ( http://arxiv.org/abs/2311.00984v1 ) ライセンス: Link先を確認 | Nowshin Nawar Arony, Ze Shi Li, Bowen Xu and Daniela Damian | (参考訳) ソフトウェアの利用が急速に拡大する中、さまざまなバックグラウンドを持つユーザの多様なニーズに対応することが重要な課題となっている。
核となる人間的価値を表す包括性は、ソフトウェア開発中にしばしば見過ごされ、ユーザの不満に繋がる。
ユーザーは自分の懸念を示すオンラインプラットフォームで会話をすることが多い。
本研究では、Reddit、Google Play Store、Twitterの3つの人気オンラインソースからのユーザーフィードバックを、世界で最も人気のあるアプリ50に活用し、エンドユーザーからの包括性に関連する懸念を明らかにする。
社会工学的接地理論を用いて,3つの情報源にわたる23,107の投稿を分析し,1,211の包括性関連ポストを同定した。
我々は,公平性,技術,プライバシ,デモグラフィ,ユーザビリティ,その他の人間的価値の6つの主要なカテゴリからなる包括性に関する分類法で経験的な結果を整理した。
包括性に関連するポストを識別する自動サポートを探索するため、5つの最先端の事前訓練された大規模言語モデル(LLM)を実験したところ、これらのモデルの有効性はデータソースによって高く、変化していることがわかった。
GPT-2はReddit、BERTはGoogle Play Store、BARTはTwitterで最高だった。
本研究は、最も人気のあるアプリやオンラインソースからの包括性に関するユーザフィードバックを詳細に分析する。
私たちは、ユーザ期待とソフトウェアの間のギャップを埋めるために使用できる意味と推奨を提供し、ソフトウェア開発者が幅広いユーザのニーズの多様性と進化に共鳴できるようにします。 In an era of rapidly expanding software usage, catering to the diverse needs of users from various backgrounds has become a critical challenge. Inclusiveness, representing a core human value, is frequently overlooked during software development, leading to user dissatisfaction. Users often engage in discourse on online platforms where they indicate their concerns. In this study, we leverage user feedback from three popular online sources, Reddit, Google Play Store, and Twitter, for 50 of the most popular apps in the world to reveal the inclusiveness-related concerns from end users. Using a Socio-Technical Grounded Theory approach, we analyzed 23,107 posts across the three sources and identified 1,211 inclusiveness related posts. We organize our empirical results in a taxonomy for inclusiveness comprising 6 major categories: Fairness, Technology, Privacy, Demography, Usability, and Other Human Values. To explore automated support to identifying inclusiveness-related posts, we experimented with five state-of-the-art pre-trained large language models (LLMs) and found that these models' effectiveness is high and yet varied depending on the data source. GPT-2 performed best on Reddit, BERT on the Google Play Store, and BART on Twitter. Our study provides an in-depth view of inclusiveness-related user feedback from most popular apps and online sources. We provide implications and recommendations that can be used to bridge the gap between user expectations and software so that software developers can resonate with the varied and evolving needs of the wide spectrum of users. | 翻訳日:2023-11-03 14:51:51 公開日:2023-11-02 |
# 在庫ルーティングの最適化:ニューラルネットワークを用いた意思決定型学習手法 Optimizing Inventory Routing: A Decision-Focused Learning Approach using Neural Networks ( http://arxiv.org/abs/2311.00983v1 ) ライセンス: Link先を確認 | MD Shafikul Islam and Azmine Toushik Wasi | (参考訳) 在庫ルーティング問題(irp)は,在庫需要計画の不確実性を考慮して効率的な経路選択を最適化することを伴うため,サプライチェーン管理において重要な課題である。
IRPの解決には、通常2段階のアプローチを採用し、まず機械学習技術を用いて需要を予測し、次にルーティングコストを最小化するために最適化アルゴリズムを使用する。
我々の実験では、在庫レベルが動的ビジネス環境の影響を受けており、次の段階の最適化問題に影響を及ぼすため、機械学習モデルは完全な精度を達成できないことが示されている。
本稿では,実世界のIRPを解くための意思決定型学習ベースアプローチを定式化し,提案する。
このアプローチは、エンドツーエンドシステム内で在庫予測とルーティング最適化を直接統合し、堅牢なサプライチェーン戦略を保証します。 Inventory Routing Problem (IRP) is a crucial challenge in supply chain management as it involves optimizing efficient route selection while considering the uncertainty of inventory demand planning. To solve IRPs, usually a two-stage approach is employed, where demand is predicted using machine learning techniques first, and then an optimization algorithm is used to minimize routing costs. Our experiment shows machine learning models fall short of achieving perfect accuracy because inventory levels are influenced by the dynamic business environment, which, in turn, affects the optimization problem in the next stage, resulting in sub-optimal decisions. In this paper, we formulate and propose a decision-focused learning-based approach to solving real-world IRPs. This approach directly integrates inventory prediction and routing optimization within an end-to-end system potentially ensuring a robust supply chain strategy. | 翻訳日:2023-11-03 14:51:24 公開日:2023-11-02 |
# MAAIG:モーション分析とインストラクション生成 MAAIG: Motion Analysis And Instruction Generation ( http://arxiv.org/abs/2311.00980v1 ) ライセンス: Link先を確認 | Wei-Hsin Yeh, Pei Hsin Lin, Yu-An Su, Wen Hsiang Cheng, Lun-Wei Ku | (参考訳) 多くの人は自宅で自発的なスポーツトレーニングを行っているが、プロコーチのリアルタイム指導が欠如しており、怪我や不適切な習慣の発達の影響を受けやすい。
本稿では,MAAIG(Motion Analysis And Instruction Generation)と呼ばれる新しいアプリケーションフレームワークを提案する。
ユーザーが提供するスポーツアクションビデオに基づいて、フレーム毎に埋め込みベクターを生成することができる。
これらの埋め込みベクトルは各フレームの3Dスケルトンに関連付けられ、事前訓練されたT5モデルにさらに入力される。
最終的に、我々のモデルは、この情報を利用して特定のスポーツ指示を生成する。
潜在的な問題を特定し、プロコーチに似た方法でリアルタイムのガイダンスを提供する能力があり、ユーザーがスポーツスキルを改善し、怪我を避けるのに役立つ。 Many people engage in self-directed sports training at home but lack the real-time guidance of professional coaches, making them susceptible to injuries or the development of incorrect habits. In this paper, we propose a novel application framework called MAAIG(Motion Analysis And Instruction Generation). It can generate embedding vectors for each frame based on user-provided sports action videos. These embedding vectors are associated with the 3D skeleton of each frame and are further input into a pretrained T5 model. Ultimately, our model utilizes this information to generate specific sports instructions. It has the capability to identify potential issues and provide real-time guidance in a manner akin to professional coaches, helping users improve their sports skills and avoid injuries. | 翻訳日:2023-11-03 14:51:11 公開日:2023-11-02 |
# 教師なしセマンティックセグメンテーションに基づくオーバーヘッドライン欠陥認識 Overhead Line Defect Recognition Based on Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2311.00979v1 ) ライセンス: Link先を確認 | Weixi Wang, Xichen Zhong, Xin Li, Sizhe Li, Xun Ma | (参考訳) オーバーヘッドラインインスペクションは、可視光画像を用いた欠陥認識の恩恵が大きい。
本稿では,既存の特徴抽出手法の限界と深層学習手法の重いデータ依存に対処し,新しい欠陥認識フレームワークを提案する。
これはFaster RCNNネットワーク上に構築され、教師なしセマンティックセグメンテーションによって補完される。
このアプローチでは、ターゲット機器のタイプと位置を特定し、セマンティックセグメンテーションを利用してデバイスと背景を区別し、最後に、欠陥の種類を分類するために類似度測定と論理ルールを採用する。
実験結果から, この手法は, オーバーヘッドラインの問題を特定する際の欠陥よりも, 機器に重点を置いていることがわかった。
これにより精度が著しく向上し、優れた適応性を示す。
これにより、配電網機器の検査を自動化するための新たな視点を提供する。 Overhead line inspection greatly benefits from defect recognition using visible light imagery. Addressing the limitations of existing feature extraction techniques and the heavy data dependency of deep learning approaches, this paper introduces a novel defect recognition framework. This is built on the Faster RCNN network and complemented by unsupervised semantic segmentation. The approach involves identifying the type and location of the target equipment, utilizing semantic segmentation to differentiate between the device and its backdrop, and finally employing similarity measures and logical rules to categorize the type of defect. Experimental results indicate that this methodology focuses more on the equipment rather than the defects when identifying issues in overhead lines. This leads to a notable enhancement in accuracy and exhibits impressive adaptability. Thus, offering a fresh perspective for automating the inspection of distribution network equipment. | 翻訳日:2023-11-03 14:51:00 公開日:2023-11-02 |
# 化学反応ネットワークアンサンブルを用いた生成モデルの自律学習 Autonomous Learning of Generative Models with Chemical Reaction Network Ensembles ( http://arxiv.org/abs/2311.00975v1 ) ライセンス: Link先を確認 | William Poole, Thomas E. Ouldridge, and Manoj Gopalkrishnan | (参考訳) ミクロンサイズの相互作用分子の袋は、複雑で変動する環境の内部モデルを自律的に学習できるのか?
本研究では, 制御理論, 機械学習理論, 化学反応ネットワーク理論, 統計物理学から知見を導き, 化学系が複雑な分布を自律的に学習できる汎用アーキテクチャを構築する。
提案手法は, 相対エントロピーコスト関数の勾配降下という, 機械学習の最適化作業の化学的実装の形をとる。
本研究では, この手法が化学反応ネットワークの詳細なバランスを保ち, 複雑な分布の学習に隠れたユニットを使用できることを示す。
この結果は積分フィードバック制御の形式として再キャストされる。
最後に、明示的な物理モデルを用いた学習により、このプロセスに関連する熱力学的コストとトレードオフを導出することができる。 Can a micron sized sack of interacting molecules autonomously learn an internal model of a complex and fluctuating environment? We draw insights from control theory, machine learning theory, chemical reaction network theory, and statistical physics to develop a general architecture whereby a broad class of chemical systems can autonomously learn complex distributions. Our construction takes the form of a chemical implementation of machine learning's optimization workhorse: gradient descent on the relative entropy cost function. We show how this method can be applied to optimize any detailed balanced chemical reaction network and that the construction is capable of using hidden units to learn complex distributions. This result is then recast as a form of integral feedback control. Finally, due to our use of an explicit physical model of learning, we are able to derive thermodynamic costs and trade-offs associated to this process. | 翻訳日:2023-11-03 14:50:47 公開日:2023-11-02 |
# 有限な逆作用を持つフェデレート線形バンディット Federated Linear Bandits with Finite Adversarial Actions ( http://arxiv.org/abs/2311.00973v1 ) ライセンス: Link先を確認 | Li Fan, Ruida Zhou, Chao Tian, Cong Shen | (参考訳) そこで我々は,$m$のクライアントが中央サーバと通信して,クライアント間で異なる可能性のある有限な逆作用セットを用いた線形文脈的バンディット問題を解決するフェデレーション線形バンディットモデルについて検討した。
逆有限作用集合の独特な挑戦に対処するために,線形文脈バンディットにおけるsuplinucbアルゴリズムとofulアルゴリズムの原理を拡張するfeedsuplinucbアルゴリズムを提案する。
我々は、FedSupLinUCBが$\tilde{O}(\sqrt{d T})$の完全後悔を達成することを証明し、$T$はすべてのクライアントからのアームプルの総数であり、$d$は線形モデルの周囲次元である。
これはミニマックス下限に一致し、従って順序最適化(ポリログ項まで)である。
非同期ケースと同期ケースの両方を調査し,通信コストをそれぞれ$o(d m^2 \log(d)\log(t))$と$o(\sqrt{d^3 m^3} \log(d))$で制御できることを示した。
fedsuplinucbの設計はさらに2つのシナリオに拡張されている: (1)$\tilde{o} (\sqrt{d \sum \nolimits_{t=1}^{t} \sigma_t^2})$の完全な後悔は、ラウンド$t$のノイズ分散である$\sigma_t^2$で達成できる。
実験結果は、理論解析とFedSupLinUCBの合成および実世界のデータセットに対する効果を裏付けるものである。 We study a federated linear bandits model, where $M$ clients communicate with a central server to solve a linear contextual bandits problem with finite adversarial action sets that may be different across clients. To address the unique challenges of adversarial finite action sets, we propose the FedSupLinUCB algorithm, which extends the principles of SupLinUCB and OFUL algorithms in linear contextual bandits. We prove that FedSupLinUCB achieves a total regret of $\tilde{O}(\sqrt{d T})$, where $T$ is the total number of arm pulls from all clients, and $d$ is the ambient dimension of the linear model. This matches the minimax lower bound and thus is order-optimal (up to polylog terms). We study both asynchronous and synchronous cases and show that the communication cost can be controlled as $O(d M^2 \log(d)\log(T))$ and $O(\sqrt{d^3 M^3} \log(d))$, respectively. The FedSupLinUCB design is further extended to two scenarios: (1) variance-adaptive, where a total regret of $\tilde{O} (\sqrt{d \sum \nolimits_{t=1}^{T} \sigma_t^2})$ can be achieved with $\sigma_t^2$ being the noise variance of round $t$; and (2) adversarial corruption, where a total regret of $\tilde{O}(\sqrt{dT} + d C_p)$ can be achieved with $C_p$ being the total corruption budget. Experiment results corroborate the theoretical analysis and demonstrate the effectiveness of FedSupLinUCB on both synthetic and real-world datasets. | 翻訳日:2023-11-03 14:50:35 公開日:2023-11-02 |
# モンテカルロ木探索と教師付き学習を統合した列車時変問題の統合フレームワーク An Integrated Framework Integrating Monte Carlo Tree Search and Supervised Learning for Train Timetabling Problem ( http://arxiv.org/abs/2311.00971v1 ) ライセンス: Link先を確認 | Feiyu Yang | (参考訳) 単線列車の時変問題(TTP)は重要かつ複雑な問題である。
本稿では,モンテカルロ木探索(MCTS)を統合化し,ヒューリスティックな手法,教師なし学習手法,離散的な行動空間におけるTTPの解法を併用した学習手法を提案する。
本稿ではまず, TTP の数学的モデルとシミュレーションシステムの力学について述べるとともに, MCTS の観点から解の特性を解析し, MCTS を改善するためのヒューリスティックな手法を提案する。
本稿では,これらの手法を,提案フレームワークのプランナーとして検討する。
第2に、深部畳み込みニューラルネットワークを用いてノードの値を近似し、さらに学習者と呼ばれるMCTS探索プロセスに適用する。
実験により,提案手法はTTPの解法に有用であることが示され,プランナーと学習者を統合するアルゴリズムフレームワークはTTPの解法におけるデータ効率を改善することができる。 The single-track railway train timetabling problem (TTP) is an important and complex problem. This article proposes an integrated Monte Carlo Tree Search (MCTS) computing framework that combines heuristic methods, unsupervised learning methods, and supervised learning methods for solving TTP in discrete action spaces. This article first describes the mathematical model and simulation system dynamics of TTP, analyzes the characteristics of the solution from the perspective of MCTS, and proposes some heuristic methods to improve MCTS. This article considers these methods as planners in the proposed framework. Secondly, this article utilizes deep convolutional neural networks to approximate the value of nodes and further applies them to the MCTS search process, referred to as learners. The experiment shows that the proposed heuristic MCTS method is beneficial for solving TTP; The algorithm framework that integrates planners and learners can improve the data efficiency of solving TTP; The proposed method provides a new paradigm for solving TTP. | 翻訳日:2023-11-03 14:49:56 公開日:2023-11-02 |
# 点雲幾何圧縮のための軽量超解像ネットワーク Lightweight super resolution network for point cloud geometry compression ( http://arxiv.org/abs/2311.00970v1 ) ライセンス: Link先を確認 | Wei Zhang, Dingquan Li, Ge Li, Wen Gao | (参考訳) 本稿では,軽量超解像ネットワークを用いて点雲形状を圧縮する手法を提案する。
提案手法は,点雲を基点雲に分解し,原点雲を再構成するための補間パターンを含む。
ベースポイントクラウドはGeometryベースのPoint Cloud Compressionのような損失のないコーデックを使って効率よく圧縮できるが、補間パターンを扱うには別の戦略が用いられる。
補間パターンを直接圧縮する代わりに、軽量のスーパーレゾリューションネットワークを使用して、オーバーフィッティングを通じて情報を学ぶ。
その後、ネットワークパラメータが送信され、デコーダ側でポイントクラウド再構築を支援する。
特に,本手法はルックアップテーブル法と異なり,より正確な補間パターンを,より広い範囲の近傍のボクセルに許容可能な計算コストでアクセスすることで得られる。
また,MPEG Cat1(Solid)とCat2データセットの圧縮性能について実験を行った。 This paper presents an approach for compressing point cloud geometry by leveraging a lightweight super-resolution network. The proposed method involves decomposing a point cloud into a base point cloud and the interpolation patterns for reconstructing the original point cloud. While the base point cloud can be efficiently compressed using any lossless codec, such as Geometry-based Point Cloud Compression, a distinct strategy is employed for handling the interpolation patterns. Rather than directly compressing the interpolation patterns, a lightweight super-resolution network is utilized to learn this information through overfitting. Subsequently, the network parameter is transmitted to assist in point cloud reconstruction at the decoder side. Notably, our approach differentiates itself from lookup table-based methods, allowing us to obtain more accurate interpolation patterns by accessing a broader range of neighboring voxels at an acceptable computational cost. Experiments on MPEG Cat1 (Solid) and Cat2 datasets demonstrate the remarkable compression performance achieved by our method. | 翻訳日:2023-11-03 14:49:38 公開日:2023-11-02 |
# GitHub Copilotを使用する開発者の懸念について On the Concerns of Developers When Using GitHub Copilot ( http://arxiv.org/abs/2311.01020v1 ) ライセンス: Link先を確認 | Xiyu Zhou, Peng Liang, Beiqi Zhang, Zengyang Li, Aakash Ahmad, Mojtaba Shahin, Muhammad Waseem | (参考訳) 人工知能(AI)の最近の進歩とLarge Language Models(LLM)の出現により、AIベースのコード生成ツールは大きな進歩を遂げ、ソフトウェア開発の実用的なソリューションとなった。
AIペアプログラマと呼ばれるGitHub Copilotは、大量のコードスニペットでトレーニングされた機械学習モデルを使用して、自然言語処理を使用してコード提案や自動補完コードを生成する。
その人気にもかかわらず、Copilotで作業するソフトウェア開発者の実際の経験に関する実証的な証拠はほとんどない。
そこで我々は,copilotを実際に使用する際に開発者が直面する問題や課題,その根本的な原因や潜在的な解決策を理解するために,実証的な調査を行った。
476のGitHubイシュー、706のGitHubディベート、および184のStack Overflowポストからデータを収集し、問題、問題の原因、Copilotを使用する際の問題を解決するソリューションを特定しました。
その結果,(1)コパイロット利用者が直面する最も一般的な問題である利用問題,(2)コパイロット内部問題,ネットワーク接続問題,およびエディタ/IDE互換性問題が最も頻繁な原因として認識され,(3)コパイロットによるバグの修正,設定・設定,利用適バージョンなどが主な解決法であることがわかった。
結果に基づいて、実践的な開発でCopilotを実装する際にユーザが直面する主な課題、Copilotがコーディングプロセスに与える影響の可能性、Copilotをさらに拡張可能な側面、そしてCopilotユーザが望んでいる潜在的な新機能について調べる。 With the recent advancement of Artificial Intelligence (AI) and the emergence of Large Language Models (LLMs), AI-based code generation tools have achieved significant progress and become a practical solution for software development. GitHub Copilot, referred to as AI pair programmer, utilizes machine learning models that are trained on a large corpus of code snippets to generate code suggestions or auto-complete code using natural language processing. Despite its popularity, there is little empirical evidence on the actual experiences of software developers who work with Copilot. To this end, we conducted an empirical study to understand the issues and challenges that developers face when using Copilot in practice, as well as their underlying causes and potential solutions. We collected data from 476 GitHub issues, 706 GitHub discussions, and 184 Stack Overflow posts, and identified the issues, causes that trigger the issues, and solutions that resolve the issues when using Copilot. Our results reveal that (1) Usage Issue and Compatibility Issue are the most common problems faced by Copilot users, (2) Copilot Internal Issue, Network Connection Issue, and Editor/IDE Compatibility Issue are identified as the most frequent causes, and (3) Bug Fixed by Copilot, Modify Configuration/Setting, and Use Suitable Version are the predominant solutions. Based on the results, we delve into the main challenges users encounter when implementing Copilot in practical development, the possible impact of Copilot on the coding process, aspects in which Copilot can be further enhanced, and potential new features desired by Copilot users. | 翻訳日:2023-11-03 14:42:34 公開日:2023-11-02 |
# 自己拡散に基づく微細調整による拡散モデルの拡張表現性 Expanding Expressiveness of Diffusion Models with Limited Data via Self-Distillation based Fine-Tuning ( http://arxiv.org/abs/2311.01018v1 ) ライセンス: Link先を確認 | Jiwan Hur, Jaehyun Choi, Gyojin Han, Dong-Jae Lee, and Junmo Kim | (参考訳) 限られたデータセット上での拡散モデルの訓練は、生成能力と表現力の制限の観点からの課題を生じさせ、ドメイン翻訳やテキスト誘導画像操作といった事前訓練された拡散モデルを利用した様々な下流タスクにおいて不満足な結果をもたらす。
本稿では,大規模なデータセット上で事前学習した拡散モデルから,これらの課題に対処する手法であるSDFT(Self-Distillation for Fine-Tuning diffusion Model)を提案する。
SDFTは、ソースモデルからより一般的な特徴(形状、色など)とあまりドメイン固有の特徴(テクスチャ、詳細など)を抽出し、ターゲットデータセットのトレーニングプロセスを邪魔することなく、知識の伝達に成功した。
提案手法はモデルの特定のアーキテクチャに制約されず、既存のフレームワークに一般的に適用することができる。
実験の結果,sdftは限られたデータセットで拡散モデルの表現性を高め,様々な下流タスクにおける生成能力の向上を実現した。 Training diffusion models on limited datasets poses challenges in terms of limited generation capacity and expressiveness, leading to unsatisfactory results in various downstream tasks utilizing pretrained diffusion models, such as domain translation and text-guided image manipulation. In this paper, we propose Self-Distillation for Fine-Tuning diffusion models (SDFT), a methodology to address these challenges by leveraging diverse features from diffusion models pretrained on large source datasets. SDFT distills more general features (shape, colors, etc.) and less domain-specific features (texture, fine details, etc) from the source model, allowing successful knowledge transfer without disturbing the training process on target datasets. The proposed method is not constrained by the specific architecture of the model and thus can be generally adopted to existing frameworks. Experimental results demonstrate that SDFT enhances the expressiveness of the diffusion model with limited datasets, resulting in improved generation capabilities across various downstream tasks. | 翻訳日:2023-11-03 14:42:05 公開日:2023-11-02 |
# 離散拡散による自律運転のための教師なし世界モデル学習 Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion ( http://arxiv.org/abs/2311.01017v1 ) ライセンス: Link先を確認 | Lunjun Zhang, Yuwen Xiong, Ze Yang, Sergio Casas, Rui Hu, Raquel Urtasun | (参考訳) 学習世界モデルはエージェントに、教師なしのやり方で世界がどのように機能するかを教えることができる。
シーケンスモデリングの特殊なケースと見なすことができるが、自律運転のようなロボットアプリケーション上での世界モデルをスケールする進歩は、ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を用いた言語モデルをスケールするよりもやや速かった。
複雑で構造化されていない観測空間を扱うことと、スケーラブルな生成モデルを持つことである。
そこで本研究では,まずVQVAEを用いてセンサ観測をトークン化し,離散拡散により未来を予測する新しい世界モデリング手法を提案する。
トークンを並列にデコードし、デノーズするために、マスク付き生成画像トランスフォーマーを離散拡散フレームワークに若干の簡単な変更で再キャストし、顕著な改善を行った。
点雲観測の学習の世界モデルに適用した場合、我々のモデルは1s予測で65%以上、NuScenes、KITTI Odometry、Argoverse2データセットで3s予測で50%以上削減する。
本研究は,ロボットエージェントに対するGPTのような教師なし学習のパワーを解き放つことができることを示す。 Learning world models can teach an agent how the world works in an unsupervised manner. Even though it can be viewed as a special case of sequence modeling, progress for scaling world models on robotic applications such as autonomous driving has been somewhat less rapid than scaling language models with Generative Pre-trained Transformers (GPT). We identify two reasons as major bottlenecks: dealing with complex and unstructured observation space, and having a scalable generative model. Consequently, we propose a novel world modeling approach that first tokenizes sensor observations with VQVAE, then predicts the future via discrete diffusion. To efficiently decode and denoise tokens in parallel, we recast Masked Generative Image Transformer into the discrete diffusion framework with a few simple changes, resulting in notable improvement. When applied to learning world models on point cloud observations, our model reduces prior SOTA Chamfer distance by more than 65% for 1s prediction, and more than 50% for 3s prediction, across NuScenes, KITTI Odometry, and Argoverse2 datasets. Our results demonstrate that discrete diffusion on tokenized agent experience can unlock the power of GPT-like unsupervised learning for robotic agents. | 翻訳日:2023-11-03 14:41:47 公開日:2023-11-02 |
# 効率的な画像探索とユーザガイド画像キャプチャのためのビジュアル分析 Visual Analytics for Efficient Image Exploration and User-Guided Image Captioning ( http://arxiv.org/abs/2311.01016v1 ) ライセンス: Link先を確認 | Yiran Li, Junpeng Wang, Prince Aboagye, Michael Yeh, Yan Zheng, Liang Wang, Wei Zhang, Kwan-Liu Ma | (参考訳) 事前訓練された大規模言語画像モデルの最近の進歩は、視覚理解の新しい時代を告げ、大きな進歩をもたらした。
これらのブレークスルーは、かつて勇敢だった長年の課題に対処するのに特に役立っている。
本稿では,これらの革新的手法を活用することで,画像解析の領域でよく知られた2つの課題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
一方,画像データセットの言語画像モデルから自動生成するキャプションを視覚的に検討することにより,視覚コンテンツの意味的基盤に対する深い洞察を得るとともに,データセット内に絡み合う可能性のあるデータバイアスを探索する。
一方,視覚コンテンツとテキストキャプションの関係を描写することにより,事前学習した言語画像モデルのキャプション能力における弱点を明らかにし,キャプション生成のための対話インタフェースを提案する。
2つの部分は協調した視覚分析システムに結合され、視覚的要素とテキスト的要素の相互濃縮が促進されている。
大規模画像データセットを用いた具体的なケーススタディにより,ドメイン実践者とのシステムの有効性を検証する。 Recent advancements in pre-trained large-scale language-image models have ushered in a new era of visual comprehension, offering a significant leap forward. These breakthroughs have proven particularly instrumental in addressing long-standing challenges that were previously daunting. Leveraging these innovative techniques, this paper tackles two well-known issues within the realm of visual analytics: (1) the efficient exploration of large-scale image datasets and identification of potential data biases within them; (2) the evaluation of image captions and steering of their generation process. On the one hand, by visually examining the captions automatically generated from language-image models for an image dataset, we gain deeper insights into the semantic underpinnings of the visual contents, unearthing data biases that may be entrenched within the dataset. On the other hand, by depicting the association between visual contents and textual captions, we expose the weaknesses of pre-trained language-image models in their captioning capability and propose an interactive interface to steer caption generation. The two parts have been coalesced into a coordinated visual analytics system, fostering mutual enrichment of visual and textual elements. We validate the effectiveness of the system with domain practitioners through concrete case studies with large-scale image datasets. | 翻訳日:2023-11-03 14:41:22 公開日:2023-11-02 |
# アクト・アズ・ア・ウィッシュ:階層的意味グラフを用いた運動拡散モデルの微粒化制御 Act As You Wish: Fine-Grained Control of Motion Diffusion Model with Hierarchical Semantic Graphs ( http://arxiv.org/abs/2311.01015v1 ) ライセンス: Link先を確認 | Peng Jin, Yang Wu, Yanbo Fan, Zhongqian Sun, Yang Wei, Li Yuan | (参考訳) ほとんどのテキスト駆動型ヒューマンモーション生成法は、例えばトランスフォーマーのようなシーケンシャルなモデリング手法を用いて、人間のモーション合成のために自動的に暗黙的に文レベルのテキスト表現を抽出する。
しかし、これらのコンパクトテキスト表現は、他の重要なプロパティを犠牲にしてアクション名を過大に強調し、微妙な詳細を欠いて、微妙に異なる動きの合成を導くことができる。
本稿では,動き生成のきめ細かい制御のための階層的意味グラフを提案する。
具体的には,動作記述を3段階の動作,動作,仕様を含む階層的意味グラフに分解する。
このようなグローバルな局所構造は、運動記述の包括的理解と運動生成のきめ細かい制御を促進する。
それに応じて,階層的意味グラフの粗さから細かなトポロジーを活用すべく,テキスト間拡散過程を3つの意味レベルに分解し,全体的な動作,局所的動作,行動特化に対応する。
また,HumanML3DとKITを含む2つのヒト動作データセットの総合的な実験により,本手法の有効性を正当化した。
さらに,階層型セマンティックグラフのエッジ重みを改良することにより,コミュニティに大きな影響を与える可能性のある生成動作を継続的に改善することができる。
コードと事前トレーニングのウェイトはhttps://github.com/jpthu17/GraphMotion.orgで公開されている。 Most text-driven human motion generation methods employ sequential modeling approaches, e.g., transformer, to extract sentence-level text representations automatically and implicitly for human motion synthesis. However, these compact text representations may overemphasize the action names at the expense of other important properties and lack fine-grained details to guide the synthesis of subtly distinct motion. In this paper, we propose hierarchical semantic graphs for fine-grained control over motion generation. Specifically, we disentangle motion descriptions into hierarchical semantic graphs including three levels of motions, actions, and specifics. Such global-to-local structures facilitate a comprehensive understanding of motion description and fine-grained control of motion generation. Correspondingly, to leverage the coarse-to-fine topology of hierarchical semantic graphs, we decompose the text-to-motion diffusion process into three semantic levels, which correspond to capturing the overall motion, local actions, and action specifics. Extensive experiments on two benchmark human motion datasets, including HumanML3D and KIT, with superior performances, justify the efficacy of our method. More encouragingly, by modifying the edge weights of hierarchical semantic graphs, our method can continuously refine the generated motion, which may have a far-reaching impact on the community. Code and pre-training weights are available at https://github.com/jpthu17/GraphMotion. | 翻訳日:2023-11-03 14:41:00 公開日:2023-11-02 |
# COPAL-ID: インドネシアの言語と地域文化とニュアンス COPAL-ID: Indonesian Language Reasoning with Local Culture and Nuances ( http://arxiv.org/abs/2311.01012v1 ) ライセンス: Link先を確認 | Haryo Akbarianto Wibowo, Erland Hilman Fuadi, Made Nindyatama Nityasya, Radityo Eko Prasojo, Alham Fikri Aji | (参考訳) インドネシア語共通感覚推論データセットであるCOPAL-IDを公開している。
以前のインドネシアのCOPAデータセット(XCOPA-ID)とは異なり、COPAL-IDはインドネシアの地域的・文化的ニュアンスを取り入れており、インドネシアの文化圏における日々の因果関係のより自然な描写を提供する。
XCOPA-IDはXCOPA-IDとは違って、スクラッチからネイティブに書かれており、難解なフレーズがない。
さらに,標準インドネシア語とジャカルタインドネシア語の両方において,日常会話で一般的に使用される方言であるcopal-idを提示する。
COPAL-IDは、既存のオープンソースでクローズドな多言語言語モデルにとって大きな課題となる。
以上の結果から,現在最も優れたオープンソース多言語モデルでさえ,copal-idの65.47%の精度を達成するのに苦労していることが示唆された(79.40%)。
GPT-4の素晴らしいスコアにもかかわらず、XCOPA-IDスコアと同等のパフォーマンス低下を被り、それでも人間のパフォーマンスに欠ける。
これは、これらの言語モデルは、インドネシアの地元のニュアンスを理解する上で、まだ遅れていることを示している。 We present publicly available COPAL-ID, a novel Indonesian language common sense reasoning dataset. Unlike the previous Indonesian COPA dataset (XCOPA-ID), COPAL-ID incorporates Indonesian local and cultural nuances, and therefore, provides a more natural portrayal of day-to-day causal reasoning within the Indonesian cultural sphere. Professionally written by natives from scratch, COPAL-ID is more fluent and free from awkward phrases, unlike the translated XCOPA-ID. In addition, we present COPAL-ID in both standard Indonesian and in Jakartan Indonesian--a dialect commonly used in daily conversation. COPAL-ID poses a greater challenge for existing open-sourced and closed state-of-the-art multilingual language models, yet is trivially easy for humans. Our findings suggest that even the current best open-source, multilingual model struggles to perform well, achieving 65.47% accuracy on COPAL-ID, significantly lower than on the culturally-devoid XCOPA-ID (79.40%). Despite GPT-4's impressive score, it suffers the same performance degradation compared to its XCOPA-ID score, and it still falls short of human performance. This shows that these language models are still way behind in comprehending the local nuances of Indonesian. | 翻訳日:2023-11-03 14:40:36 公開日:2023-11-02 |
# tensor trust: オンラインゲームからの迅速なインジェクション攻撃 Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game ( http://arxiv.org/abs/2311.01011v1 ) ライセンス: Link先を確認 | Sam Toyer, Olivia Watkins, Ethan Adrian Mendes, Justin Svegliato, Luke Bailey, Tiffany Wang, Isaac Ong, Karim Elmaaroufi, Pieter Abbeel, Trevor Darrell, Alan Ritter, Stuart Russell | (参考訳) 大規模言語モデル(llm)は、現実のアプリケーションでますます使われるようになっているが、インジェクション攻撃の影響を受けやすい: 悪意のあるサードパーティは、システムデザイナーの意図を覆す。
研究者がこの問題を研究するのを助けるために,オンラインゲーム「テンソル・トラスト」のプレイヤーが作成した,126,000件以上のプロンプト・インジェクション・アタックと46,000件のプロンプト・ベースの「防御」のデータセットを提示する。
我々の知る限りでは、これは現在、命令追従 LLM の人間生成敵の最大のデータセットである。
我々のデータセットの攻撃は、容易に解釈できる構造を持ち、LSMの弱点に光を当てた。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
ベンチマークの結果,多くのモデルがtensor trustデータセットのアタック戦略に脆弱であることが判明した。
さらに,ゲームに制約が全くない場合でも,データセットからの攻撃戦略がLLMベースのアプリケーションに一般化されることを示す。
すべてのデータとソースコードをhttps://tensortrust.ai/paperでリリースします。 While Large Language Models (LLMs) are increasingly being used in real-world applications, they remain vulnerable to prompt injection attacks: malicious third party prompts that subvert the intent of the system designer. To help researchers study this problem, we present a dataset of over 126,000 prompt injection attacks and 46,000 prompt-based "defenses" against prompt injection, all created by players of an online game called Tensor Trust. To the best of our knowledge, this is currently the largest dataset of human-generated adversarial examples for instruction-following LLMs. The attacks in our dataset have a lot of easily interpretable stucture, and shed light on the weaknesses of LLMs. We also use the dataset to create a benchmark for resistance to two types of prompt injection, which we refer to as prompt extraction and prompt hijacking. Our benchmark results show that many models are vulnerable to the attack strategies in the Tensor Trust dataset. Furthermore, we show that some attack strategies from the dataset generalize to deployed LLM-based applications, even though they have a very different set of constraints to the game. We release all data and source code at https://tensortrust.ai/paper | 翻訳日:2023-11-03 14:40:11 公開日:2023-11-02 |
# 高速共有値推定のための統一視点探索 Exploring Unified Perspective For Fast Shapley Value Estimation ( http://arxiv.org/abs/2311.01010v1 ) ライセンス: Link先を確認 | Borui Zhang, Baotong Tian, Wenzhao Zheng, Jie Zhou, Jiwen Lu | (参考訳) shapleyの値は、ディープニューラルネットワークのようなブラックボックスモデルによって生じる課題に対処するために、理論的な公理に基づく広く受け入れられ、信頼できるツールとして浮上した。
しかし、shapley値の計算は、機能数における指数関数的複雑性に遭遇する。
ApproSemivalue、KernelSHAP、FastSHAPといった様々な手法が計算を高速化するために研究されている。
既存の作品の一貫性を分析し,特徴部分集合の重要サンプリングの線形変換として確率的推定器を統一できると結論づけた。
そこで本研究では,単純な償却推定器の設計の可能性について検討し,冗長な手法を取り除き,単純で効率的なsimshapを提案する。
表と画像のデータセットを用いた大規模な実験により,SimSHAPの有効性が検証された。 Shapley values have emerged as a widely accepted and trustworthy tool, grounded in theoretical axioms, for addressing challenges posed by black-box models like deep neural networks. However, computing Shapley values encounters exponential complexity in the number of features. Various approaches, including ApproSemivalue, KernelSHAP, and FastSHAP, have been explored to expedite the computation. We analyze the consistency of existing works and conclude that stochastic estimators can be unified as the linear transformation of importance sampling of feature subsets. Based on this, we investigate the possibility of designing simple amortized estimators and propose a straightforward and efficient one, SimSHAP, by eliminating redundant techniques. Extensive experiments conducted on tabular and image datasets validate the effectiveness of our SimSHAP, which significantly accelerates the computation of accurate Shapley values. | 翻訳日:2023-11-03 14:39:49 公開日:2023-11-02 |
# 皮膚科領域におけるaiモデルの改良 : 皮膚病変診断の課題を克服する Revamping AI Models in Dermatology: Overcoming Critical Challenges for Enhanced Skin Lesion Diagnosis ( http://arxiv.org/abs/2311.01009v1 ) ライセンス: Link先を確認 | Deval Mehta, Brigid Betz-Stablein, Toan D Nguyen, Yaniv Gal, Adrian Bowling, Martin Haskett, Maithili Sashindranath, Paul Bonnington, Victoria Mar, H Peter Soyer, Zongyuan Ge | (参考訳) 画像解析による皮膚病変の診断のためのディープラーニングモデルの開発が急増していることは注目に値する。
現在の皮膚科aiモデルには、診断可能なアウトプットの限られた数、まれな皮膚病変の実際のテストの欠如、分布外画像の検出不能、皮膚鏡画像への過度な依存など、制限がある。
これらに対応するために、分布-\textbf{C}linical Triage (HOT)モデルのAll-In-One \textbf{H}ierarchical-\textbf{O}utを提案する。
臨床画像では, 階層的予測, 分布外画像の警告, 臨床画像だけでは診断に不十分な場合には皮膚鏡検査の推奨の3つの出力を生成する。
推奨が追求されると、臨床像と皮膚内視鏡像を統合して最終診断を行う。
代表的な皮膚病変データセットに対する広範囲な実験により,本フレームワーク内の各成分の有効性と相乗効果が示された。
我々の汎用モデルは、病変診断のための貴重な意思決定支援を提供し、医療AI応用の有望な先例となる。 The surge in developing deep learning models for diagnosing skin lesions through image analysis is notable, yet their clinical black faces challenges. Current dermatology AI models have limitations: limited number of possible diagnostic outputs, lack of real-world testing on uncommon skin lesions, inability to detect out-of-distribution images, and over-reliance on dermoscopic images. To address these, we present an All-In-One \textbf{H}ierarchical-\textbf{O}ut of Distribution-\textbf{C}linical Triage (HOT) model. For a clinical image, our model generates three outputs: a hierarchical prediction, an alert for out-of-distribution images, and a recommendation for dermoscopy if clinical image alone is insufficient for diagnosis. When the recommendation is pursued, it integrates both clinical and dermoscopic images to deliver final diagnosis. Extensive experiments on a representative cutaneous lesion dataset demonstrate the effectiveness and synergy of each component within our framework. Our versatile model provides valuable decision support for lesion diagnosis and sets a promising precedent for medical AI applications. | 翻訳日:2023-11-03 14:39:35 公開日:2023-11-02 |
# 学習自然言語ルールとオンボーディングによる効果的な人間-aiチーム Effective Human-AI Teams via Learned Natural Language Rules and Onboarding ( http://arxiv.org/abs/2311.01007v1 ) ライセンス: Link先を確認 | Hussein Mozannar, Jimin J Lee, Dennis Wei, Prasanna Sattigeri, Subhro Das, David Sontag | (参考訳) 人々はAIエージェントを使ってさまざまなタスクを支援しています。
人間はエージェントにいつ依存するか、エージェントと協力するか、あるいは提案を無視しなければならない。
本研究では,データ領域に根ざしたルールを学習し,人間がAIとどのように協力すべきかを自然言語で記述する。
我々の新しい領域探索アルゴリズムは、データの局所領域を、人間の先行性を補正する埋め込み空間の近傍として見つける。
それぞれの領域は、大きな言語モデルがその領域を記述する反復的で対照的な手順で記述される。
そして、これらのルールをオンボーディングステージを通じて人間に教えます。
オブジェクト検出と質問応答タスクのユーザスタディを通じて、我々の手法がより正確なAIチームにつながることを示す。
また,地域発見と記述アルゴリズムを別々に評価した。 People are relying on AI agents to assist them with various tasks. The human must know when to rely on the agent, collaborate with the agent, or ignore its suggestions. In this work, we propose to learn rules grounded in data regions and described in natural language that illustrate how the human should collaborate with the AI. Our novel region discovery algorithm finds local regions in the data as neighborhoods in an embedding space that corrects the human prior. Each region is then described using an iterative and contrastive procedure where a large language model describes the region. We then teach these rules to the human via an onboarding stage. Through user studies on object detection and question-answering tasks, we show that our method can lead to more accurate human-AI teams. We also evaluate our region discovery and description algorithms separately. | 翻訳日:2023-11-03 14:39:15 公開日:2023-11-02 |
# 医用画像キャプションのための混合意味学習によるSam-Guided Enhanced Fine-Grained Encoding Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning for Medical Image Captioning ( http://arxiv.org/abs/2311.01004v1 ) ライセンス: Link先を確認 | Gaoang Wang, Zhenyu Zhang, Benlu Wang, Weijie Liang, Yizhi Li, Xuechen Guo, Guanhong Wang, Shiyan Li | (参考訳) マルチモーダリティと大規模言語モデルの開発により、深層学習に基づく医用画像キャプション技術は、貴重な診断勧告を提供する可能性を秘めている。
しかし、現在の一般的なテキストと画像事前訓練モデルでは、医療画像内の複雑な詳細を記述することには満足できない。
本稿では,S segment Any Model (SAM) でガイドされた新しい医用画像キャプション手法を提案する。
さらに,医用画像における総合的情報と細部情報の両方を同時に捉えるために,意味学習を混合した独特の事前学習戦略を用いる。
医療画像の記述を生成するための各種評価指標において,事前学習したBLIP2モデルよりも優れていることを示す。 With the development of multimodality and large language models, the deep learning-based technique for medical image captioning holds the potential to offer valuable diagnostic recommendations. However, current generic text and image pre-trained models do not yield satisfactory results when it comes to describing intricate details within medical images. In this paper, we present a novel medical image captioning method guided by the segment anything model (SAM) to enable enhanced encoding with both general and detailed feature extraction. In addition, our approach employs a distinctive pre-training strategy with mixed semantic learning to simultaneously capture both the overall information and finer details within medical images. We demonstrate the effectiveness of this approach, as it outperforms the pre-trained BLIP2 model on various evaluation metrics for generating descriptions of medical images. | 翻訳日:2023-11-03 14:39:03 公開日:2023-11-02 |
# リラベル精度の最大化によるラベル雑音下でのロバストデータプルーニング Robust Data Pruning under Label Noise via Maximizing Re-labeling Accuracy ( http://arxiv.org/abs/2311.01002v1 ) ライセンス: Link先を確認 | Dongmin Park, Seola Choi, Doyoung Kim, Hwanjun Song, Jae-Gil Lee | (参考訳) 大規模なトレーニングセットを小さな情報サブセットに縮小することを目的としたデータプルーニングは、現代のディープラーニングの膨大な計算コスト削減に不可欠である。
大規模なデータ収集にはアノテーションノイズや多数の頑健な学習方法が必ず含まれているが,ノイズロスト学習シナリオのためのデータプルーニングはほとんど注目されていない。
トレーニング中に誤ラベルを自己修正する最先端のリラベル手法を用いることで、トレーニングセット全体においてどのサブセットが誤ラベルを最も正確に再ラベルするかを特定することは困難である。
本稿では,再ラベルによるデータプルーニングの問題を定式化する。
まず、トレーニング例が正しく再ラベルされる可能性は、サブセット内のその近傍の予測信頼度に比例することを示す。
そこで本研究では,すべてのトレーニング例の総近傍信頼度を最大化し,再ラベル精度と一般化性能を最大化する,新しいデータプルーニングアルゴリズムPrune4Relを提案する。
4つの実データと1つの合成ノイズデータセットに関する広範囲な実験により、 \algname{} は、リラベルモデルでベースラインを9.1%、標準モデルで最大21.6%上回っている。 Data pruning, which aims to downsize a large training set into a small informative subset, is crucial for reducing the enormous computational costs of modern deep learning. Though large-scale data collections invariably contain annotation noise and numerous robust learning methods have been developed, data pruning for the noise-robust learning scenario has received little attention. With state-of-the-art Re-labeling methods that self-correct erroneous labels while training, it is challenging to identify which subset induces the most accurate re-labeling of erroneous labels in the entire training set. In this paper, we formalize the problem of data pruning with re-labeling. We first show that the likelihood of a training example being correctly re-labeled is proportional to the prediction confidence of its neighborhood in the subset. Therefore, we propose a novel data pruning algorithm, Prune4Rel, that finds a subset maximizing the total neighborhood confidence of all training examples, thereby maximizing the re-labeling accuracy and generalization performance. Extensive experiments on four real and one synthetic noisy datasets show that \algname{} outperforms the baselines with Re-labeling models by up to 9.1% as well as those with a standard model by up to 21.6%. | 翻訳日:2023-11-03 14:38:48 公開日:2023-11-02 |
# 移動型イメージセンサを考慮した完全量子化常時オン顔検出 Fully Quantized Always-on Face Detector Considering Mobile Image Sensors ( http://arxiv.org/abs/2311.01001v1 ) ライセンス: Link先を確認 | Haechang Lee, Wongi Jeong, Dongil Ryu, Hyunwoo Je, Albert No, Kijeong Kim, Se Young Chun | (参考訳) エッジデバイス用に設計された軽量ディープニューラルネットワーク(DNN)に関する重要な研究にもかかわらず、現在の顔検出器は組み込みDNNと統合された「インテリジェント」CMOSイメージセンサー(iCIS)の要件を完全に満たしていない。
これらのセンサーは、エネルギー効率のよい携帯電話や常時オン機能を持つ監視システムなど、様々な実用化に不可欠である。
注目すべき制限の1つは、常時オンのシナリオに適切な顔検出器がないことである。
これらの検出器は、イメージ信号プロセッサ(ISP)が引き継ぐ前に、センサーRAWデータを直接操作する必要がある。
このギャップは、このようなシナリオで最適なパフォーマンスを達成する上で大きな課題となる。
このギャップを埋め、iCIS応用の可能性を完全に活用するには、さらなる研究と開発が必要である。
本研究では,移動体画像センサアプリケーションにおける常にオンの顔検出シナリオに着目し,超低ビット軽量顔検出器の探索によりギャップを埋めることを目的とする。
提案手法では,ispチェーンで処理された常時オン顔検出をシミュレートし,センサ認識型合成生入力を用いる。
提案手法では,3次(-1,0,1)重みを画像センサの潜在的な実装に用いて,浅い層と極めて低ビット幅のネットワークアーキテクチャを実現する。
本手法は,実世界における実用的常時顔検出装置の可能性を提供するため,合理的な顔検出性能とシミュレーション研究における優れた効率を示す。 Despite significant research on lightweight deep neural networks (DNNs) designed for edge devices, the current face detectors do not fully meet the requirements for "intelligent" CMOS image sensors (iCISs) integrated with embedded DNNs. These sensors are essential in various practical applications, such as energy-efficient mobile phones and surveillance systems with always-on capabilities. One noteworthy limitation is the absence of suitable face detectors for the always-on scenario, a crucial aspect of image sensor-level applications. These detectors must operate directly with sensor RAW data before the image signal processor (ISP) takes over. This gap poses a significant challenge in achieving optimal performance in such scenarios. Further research and development are necessary to bridge this gap and fully leverage the potential of iCIS applications. In this study, we aim to bridge the gap by exploring extremely low-bit lightweight face detectors, focusing on the always-on face detection scenario for mobile image sensor applications. To achieve this, our proposed model utilizes sensor-aware synthetic RAW inputs, simulating always-on face detection processed "before" the ISP chain. Our approach employs ternary (-1, 0, 1) weights for potential implementations in image sensors, resulting in a relatively simple network architecture with shallow layers and extremely low-bitwidth. Our method demonstrates reasonable face detection performance and excellent efficiency in simulation studies, offering promising possibilities for practical always-on face detectors in real-world applications. | 翻訳日:2023-11-03 14:38:28 公開日:2023-11-02 |
# インドネシアの低リソースローカル言語におけるニューラルネットワーク翻訳(nmt)のreplicableベンチマーク Replicable Benchmarking of Neural Machine Translation (NMT) on Low-Resource Local Languages in Indonesia ( http://arxiv.org/abs/2311.00998v1 ) ライセンス: Link先を確認 | Lucky Susanto, Ryandito Diandaru, Adila Krisnadhi, Ayu Purwarianti, Derry Wijaya | (参考訳) インドネシアの低リソースローカル言語のためのニューラルマシン翻訳(NMT)は、代表ベンチマークの必要性やデータ可用性の制限など、大きな課題に直面している。
本研究は,インドネシアの4つの低リソースローカル言語(ジャワ語,スンダ語,ミナンカバウ語,バリンセ語)を対象としたNMTシステムのトレーニングを包括的に分析することによって,これらの課題に対処する。
本研究は, 各種学習手法, パラダイム, データサイズ, および合成低リソース言語並列データ生成のための大規模言語モデルを用いた予備研究を含む。
低リソース言語翻訳の実践戦略に関する具体的な傾向と洞察を明らかにする。
我々のNMTシステムは,限られた計算資源とテキストデータにもかかわらず,ゼロショットgpt-3.5-turboの翻訳品質に匹敵する競争性能を達成している。
これらの知見は低リソース言語に対するNMTを著しく前進させ、同様の文脈の研究者に貴重なガイダンスを提供する。 Neural machine translation (NMT) for low-resource local languages in Indonesia faces significant challenges, including the need for a representative benchmark and limited data availability. This work addresses these challenges by comprehensively analyzing training NMT systems for four low-resource local languages in Indonesia: Javanese, Sundanese, Minangkabau, and Balinese. Our study encompasses various training approaches, paradigms, data sizes, and a preliminary study into using large language models for synthetic low-resource languages parallel data generation. We reveal specific trends and insights into practical strategies for low-resource language translation. Our research demonstrates that despite limited computational resources and textual data, several of our NMT systems achieve competitive performances, rivaling the translation quality of zero-shot gpt-3.5-turbo. These findings significantly advance NMT for low-resource languages, offering valuable guidance for researchers in similar contexts. | 翻訳日:2023-11-03 14:37:58 公開日:2023-11-02 |
# VCISR:ビデオ圧縮合成データを用いたBlind Single Image Super-Resolution VCISR: Blind Single Image Super-Resolution with Video Compression Synthetic Data ( http://arxiv.org/abs/2311.00996v1 ) ライセンス: Link先を確認 | Boyang Wang, Bowen Liu, Shiyu Liu, Fengyu Yang | (参考訳) ブラインド・シングル・イメージ・スーパーレゾリューション(SISR)タスクでは、画像レベルの未知の劣化の回復に成功している。
しかし、単一のビデオフレームが入力となると、これらの作業は通常、蚊の音、鳴き声、ブロック性、階段の音などのビデオ圧縮による劣化に対処できない。
本稿では,まず,映像圧縮に基づく劣化モデルを用いて,ブラインドsisrタスクにおける低分解能画像データを合成する。
提案手法は既存の画像データセットに広く適用可能であり,映像圧縮アルゴリズムの損失による歪みを1つの劣化画像に含めることができる。
これにより、ビデオデータの機能の多様性の漏洩が克服され、トレーニング効率が維持される。
SISR分解モデルにビデオ符号化アーティファクトを導入することで、ニューラルネットワークは、ビデオ圧縮の劣化を回復し、画像圧縮による一般的な歪みを回復するためのより良い結果を得ることができる。
提案手法は, sotaノーリファレンス画像品質評価において優れた性能を達成し, 各種データセットの視覚品質を向上させる。
さらに,ビデオスーパーレゾリューション(vsr)データセットの分解モデルを用いてトレーニングしたsisrニューラルネットワークを評価する。
VSR用に特別に設計されたアーキテクチャと比較して、ビデオベースの劣化を注入する提案された戦略は、時間的手がかりがなくても、より複雑な圧縮アーティファクトに対処するために一般化可能である。 In the blind single image super-resolution (SISR) task, existing works have been successful in restoring image-level unknown degradations. However, when a single video frame becomes the input, these works usually fail to address degradations caused by video compression, such as mosquito noise, ringing, blockiness, and staircase noise. In this work, we for the first time, present a video compression-based degradation model to synthesize low-resolution image data in the blind SISR task. Our proposed image synthesizing method is widely applicable to existing image datasets, so that a single degraded image can contain distortions caused by the lossy video compression algorithms. This overcomes the leak of feature diversity in video data and thus retains the training efficiency. By introducing video coding artifacts to SISR degradation models, neural networks can super-resolve images with the ability to restore video compression degradations, and achieve better results on restoring generic distortions caused by image compression as well. Our proposed approach achieves superior performance in SOTA no-reference Image Quality Assessment, and shows better visual quality on various datasets. In addition, we evaluate the SISR neural network trained with our degradation model on video super-resolution (VSR) datasets. Compared to architectures specifically designed for the VSR purpose, our method exhibits similar or better performance, evidencing that the presented strategy on infusing video-based degradation is generalizable to address more complicated compression artifacts even without temporal cues. | 翻訳日:2023-11-03 14:37:41 公開日:2023-11-02 |
# Tilted Exponential Layerによるロバストネスの向上:コミュニケーション理論の視点から Improving Robustness via Tilted Exponential Layer: A Communication-Theoretic Perspective ( http://arxiv.org/abs/2311.01047v1 ) ライセンス: Link先を確認 | Bhagyashree Puranik, Ahmad Beirami, Yao Qin, Upamanyu Madhow | (参考訳) ディープネットワークの堅牢性を高める最先端技術は、主に適切なデータ拡張による経験的リスク最小化に依存している。
本稿では,学習と推論におけるニューラルネットワーク層の出力における信号と雑音の比を高めることを目的とした,コミュニケーション理論に基づく補完的アプローチを提案する。
標準のエンドツーエンドコストの最小化に加えて、ニューロンは層に対する傾斜指数関数(TEXP)の目的関数を最大化することにより、層入力を疎結合に表現する。
TEXP学習は、データノイズに対するガウスモデルの下でのマッチングフィルタの最大推定として解釈できる。
TEXP層の推論は、各ニューロンで表される競合するシグナル仮説の後方確率の計算として解釈できる傾きソフトマックスによってバッチノルムを置き換えることにより達成される。
単純化されたモデルを用いて洞察を提供した後、標準画像データセットの実験により、TEXP学習と推論により、データ拡張を必要とせず、ノイズやその他の一般的な腐敗に対する堅牢性を高めることが示される。
この歪みに対するロバスト性のさらなる累積ゲインは、texpとデータ拡張技術を適切に組み合わせて得ることができる。 State-of-the-art techniques for enhancing robustness of deep networks mostly rely on empirical risk minimization with suitable data augmentation. In this paper, we propose a complementary approach motivated by communication theory, aimed at enhancing the signal-to-noise ratio at the output of a neural network layer via neural competition during learning and inference. In addition to minimization of a standard end-to-end cost, neurons compete to sparsely represent layer inputs by maximization of a tilted exponential (TEXP) objective function for the layer. TEXP learning can be interpreted as maximum likelihood estimation of matched filters under a Gaussian model for data noise. Inference in a TEXP layer is accomplished by replacing batch norm by a tilted softmax, which can be interpreted as computation of posterior probabilities for the competing signaling hypotheses represented by each neuron. After providing insights via simplified models, we show, by experimentation on standard image datasets, that TEXP learning and inference enhances robustness against noise and other common corruptions, without requiring data augmentation. Further cumulative gains in robustness against this array of distortions can be obtained by appropriately combining TEXP with data augmentation techniques. | 翻訳日:2023-11-03 14:29:52 公開日:2023-11-02 |
# SGLDのための時間独立情報理論一般化境界 Time-Independent Information-Theoretic Generalization Bounds for SGLD ( http://arxiv.org/abs/2311.01046v1 ) ライセンス: Link先を確認 | Futoshi Futami, Masahiro Fujisawa | (参考訳) 本研究では, サンプリングおよび非凸最適化研究で広く用いられている, 滑らかさと分散性という仮定の下で, 確率勾配ランジュバンダイナミクス (sgld) のための新しい情報理論一般化境界を提案する。
私たちの境界は時間に依存しず、イテレーションの数やステップサイズが固定されているかどうかに関わらず、サンプルサイズが増加するにつれてゼロに崩壊します。
従来の研究とは異なり,Kulback-Leibler分散の時間発展に着目して一般化誤差境界を導出する。これはデータセットの安定性に関係し,出力パラメータと入力データセット間の相互情報の上限である。
さらに、SGLDの損失関数がサブ指数であることを示し、トレーニングとテストの損失が同じである場合に、最初の情報理論の一般化を確立する。
このバウンダリは時間非依存であり、既存の作業における問題のあるステップサイズ依存を排除し、我々の分析と既存の非凸最適化エラーバウンダリを組み合わせることで、過剰なリスク境界を改善する。 We provide novel information-theoretic generalization bounds for stochastic gradient Langevin dynamics (SGLD) under the assumptions of smoothness and dissipativity, which are widely used in sampling and non-convex optimization studies. Our bounds are time-independent and decay to zero as the sample size increases, regardless of the number of iterations and whether the step size is fixed. Unlike previous studies, we derive the generalization error bounds by focusing on the time evolution of the Kullback--Leibler divergence, which is related to the stability of datasets and is the upper bound of the mutual information between output parameters and an input dataset. Additionally, we establish the first information-theoretic generalization bound when the training and test loss are the same by showing that a loss function of SGLD is sub-exponential. This bound is also time-independent and removes the problematic step size dependence in existing work, leading to an improved excess risk bound by combining our analysis with the existing non-convex optimization error bounds. | 翻訳日:2023-11-03 14:29:33 公開日:2023-11-02 |
# 量子場理論における擬似エントロピーと擬似エルミティシティ Pseudo entropy and pseudo-Hermiticity in quantum field theories ( http://arxiv.org/abs/2311.01045v1 ) ライセンス: Link先を確認 | Wu-zhong Guo, Yaozong Jiang | (参考訳) 本稿では、量子場理論(QFT)の文脈における擬似R'enyiエントロピーの概念について考察する。
遷移行列は、異なる領域に位置する演算子を真空状態に印加することによって構成される。
具体的には、作用素がそれぞれ左と右のリンドラー・ウェッジに位置するとき、擬R'enyiエントロピーの対数項が必ず真であることが分かる。
他のケースでは、結果は複雑かもしれません。
2次元共形場理論(cfts)における特定の例を直接評価する。
さらに,これらの所見と擬エルミート状態の関連性を確立する。
我々の分析は、擬似 R'enyi エントロピーの対数項の現実や複雑さが、この擬エルミート的枠組みによって説明できることを示した。
さらに、擬R'enyiエントロピーの発散項についても検討する。
興味深いことに、2次元CFT内の第二擬R'enyiエントロピーにおいて普遍発散項を観察する。
この普遍項は、考慮中の作用素の共形次元にのみ依存する。
仮の R\'enyi entropy (n\ge 3$) に対して、発散項は基礎理論の特定の詳細と複雑に関係している。 In this paper, we explore the concept of pseudo R\'enyi entropy within the context of quantum field theories (QFTs). The transition matrix is constructed by applying operators situated in different regions to the vacuum state. Specifically, when the operators are positioned in the left and right Rindler wedges respectively, we discover that the logarithmic term of the pseudo R\'enyi entropy is necessarily real. In other cases, the result might be complex. We provide direct evaluations of specific examples within 2-dimensional conformal field theories (CFTs). Furthermore, we establish a connection between these findings and the pseudo-Hermitian condition. Our analysis reveals that the reality or complexity of the logarithmic term of pseudo R\'enyi entropy can be explained through this pseudo-Hermitian framework. Additionally, we investigate the divergent term of the pseudo R\'enyi entropy. Interestingly, we observe a universal divergent term in the second pseudo R\'enyi entropy within 2-dimensional CFTs. This universal term is solely dependent on the conformal dimension of the operator under consideration. For $n$-th pseudo R\'enyi entropy ($n\ge 3$), the divergent term is intricately related to the specific details of the underlying theory. | 翻訳日:2023-11-03 14:29:14 公開日:2023-11-02 |
# 自律運転における大規模言語モデルの検討 A Survey of Large Language Models for Autonomous Driving ( http://arxiv.org/abs/2311.01043v1 ) ライセンス: Link先を確認 | Zhenjie Yang, Xiaosong Jia, Hongyang Li, Junchi Yan | (参考訳) 交通と都市移動に革命をもたらす触媒である自動運転技術は、ルールベースのシステムからデータ駆動戦略に移行する傾向にある。
従来のモジュールベースのシステムは、カスケードモジュール間の累積誤差と柔軟性のない事前設定規則によって制約される。
対照的に、エンドツーエンドの自動運転システムは、完全にデータ駆動のトレーニングプロセスによってエラーの蓄積を避ける可能性があるが、その‘ブラックボックス’の性質によって透明性が欠如し、決定の検証とトレーサビリティが複雑になることが多い。
近年,大規模言語モデル (LLM) は,文脈理解,論理的推論,回答生成などの能力を示した。
自然の思考は、これらの能力を自律運転に活用することである。
LLMとファンデーションビジョンモデルを組み合わせることで、現在の自律運転システムが欠落しているオープンワールド理解、推論、少数ショット学習への扉を開くことができる。
本稿では、自律運転のための大規模言語モデル(llm4ad)に関する研究ラインを体系的にレビューする。
本研究は,技術進歩の現状を評価し,この分野の主要な課題と今後の方向性を明確に概説する。
学術と産業の研究者の利便性のために、この分野の最新の進歩と、指定されたリンクを通じて関連するオープンソースリソースをリアルタイムで更新する。 Autonomous driving technology, a catalyst for revolutionizing transportation and urban mobility, has the tend to transition from rule-based systems to data-driven strategies. Traditional module-based systems are constrained by cumulative errors among cascaded modules and inflexible pre-set rules. In contrast, end-to-end autonomous driving systems have the potential to avoid error accumulation due to their fully data-driven training process, although they often lack transparency due to their ``black box" nature, complicating the validation and traceability of decisions. Recently, large language models (LLMs) have demonstrated abilities including understanding context, logical reasoning, and generating answers. A natural thought is to utilize these abilities to empower autonomous driving. By combining LLM with foundation vision models, it could open the door to open-world understanding, reasoning, and few-shot learning, which current autonomous driving systems are lacking. In this paper, we systematically review a research line about \textit{Large Language Models for Autonomous Driving (LLM4AD)}. This study evaluates the current state of technological advancements, distinctly outlining the principal challenges and prospective directions for the field. For the convenience of researchers in academia and industry, we provide real-time updates on the latest advances in the field as well as relevant open-source resources via the designated link: https://github.com/Thinklab-SJTU/Awesome-LLM4AD. | 翻訳日:2023-11-03 14:28:56 公開日:2023-11-02 |
# learn to refuse: 知識範囲の制限と拒否機構を通じて、大きな言語モデルをより制御可能で信頼性の高いものにする Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism ( http://arxiv.org/abs/2311.01041v1 ) ライセンス: Link先を確認 | Lang Cao | (参考訳) 大きな言語モデル(LLM)は印象的な言語理解と生成能力を示し、様々な領域にわたる幅広い質問に答えることを可能にする。
しかし、これらのモデルは欠陥がなく、しばしばエラーや誤報を含む応答を生成する。
これらの不正確性は一般に幻覚と呼ばれるが、多くのシナリオでllmは信頼できないし、使用できない。
本稿では,LLMにおける幻覚の問題を,特に質問応答の文脈において緩和することに焦点を当てる。
全ての質問に答える代わりに、私たちはLLMにエラーを避けるために難しい質問に答えることを拒否するように指示する拒絶メカニズムを探求する。
次に,L2R(Learning to Refuse)と呼ばれるシンプルな解を提案する。L2RはLLMの認識と対処が難しい問題への回答を拒否するための拒絶機構を組み込んだものだ。
これを実現するため、構造化知識ベースを用いてLLMの世界のすべての理解を表現し、追跡可能な金の知識を提供する。
この知識ベースはllmとは分離され、最初は空であり、検証された知識によって徐々に拡張される。
LLMがドメイン外の質問に遭遇すると、システムはその知識の範囲を認識し、その質問に答えられるかどうかを判断する。
さらに,LLMの知識ベースを自動的かつ効率的に拡張する手法を提案する。
定性的かつ定量的な分析により,LLMの可制御性と信頼性が向上することが実証された。 Large language models (LLMs) have demonstrated impressive language understanding and generation capabilities, enabling them to answer a wide range of questions across various domains. However, these models are not flawless and often produce responses that contain errors or misinformation. These inaccuracies, commonly referred to as hallucinations, render LLMs unreliable and even unusable in many scenarios. In this paper, our focus is on mitigating the issue of hallucination in LLMs, particularly in the context of question-answering. Instead of attempting to answer all questions, we explore a refusal mechanism that instructs LLMs to refuse to answer challenging questions in order to avoid errors. We then propose a simple yet effective solution called Learn to Refuse (L2R), which incorporates the refusal mechanism to enable LLMs to recognize and refuse to answer questions that they find difficult to address. To achieve this, we utilize a structured knowledge base to represent all the LLM's understanding of the world, enabling it to provide traceable gold knowledge. This knowledge base is separate from the LLM and initially empty, and it is progressively expanded with validated knowledge. When an LLM encounters questions outside its domain, the system recognizes its knowledge scope and determines whether it can answer the question independently. Additionally, we introduce a method for automatically and efficiently expanding the knowledge base of LLMs. Through qualitative and quantitative analysis, we demonstrate that our approach enhances the controllability and reliability of LLMs. | 翻訳日:2023-11-03 14:28:35 公開日:2023-11-02 |
# better with less: 事前学習されたグラフニューラルネットワークに関するデータアクティブな視点 Better with Less: A Data-Active Perspective on Pre-Training Graph Neural Networks ( http://arxiv.org/abs/2311.01038v1 ) ライセンス: Link先を確認 | Jiarong Xu, Renhong Huang, Xin Jiang, Yuxuan Cao, Carl Yang, Chunping Wang, Yang Yang | (参考訳) グラフニューラルネットワーク(GNN)の事前トレーニングは、ラベルのないデータで下流タスクの伝達可能な知識を学習することを目的としており、近年、活発な研究領域となっている。
グラフ事前学習モデルの成功は、大量の入力データに起因することが多い。
しかし,本稿では,グラフ事前学習におけるビッグデータ現象の呪いを明らかにする。
この観察に動機づけられ、グラフ事前トレーニングのためのより良い非使用のフレームワークを提案する: 少ないが慎重に選択されたデータは、事前トレーニングを強化するためにgnnモデルに供給される。
提案する事前学習パイプラインは,データアクティブグラフ事前学習(APT)フレームワークと呼ばれ,グラフセレクタと事前学習モデルで構成される。
グラフセレクタは、グラフの固有特性と予測の不確実性に基づいて、最も代表的かつ指示的なデータポイントを選択する。
提案した予測不確実性は、事前学習モデルからのフィードバックとして、データ内のモデルの信頼性レベルを測定する。
一方、選択したデータに入力されると、事前学習モデルは、新しい未知のデータの最初の理解を把握し、同時に、以前のデータから学んだ知識を記憶しようとする。
したがって、これら2つのコンポーネントの統合と相互作用は、グラフ事前トレーニングを漸進的かつ反復的に行う統一フレームワーク(apt)を形成する。
実験の結果,aptはより少ないトレーニングデータと下流性能で効率的な事前学習モデルを得ることができた。 Pre-training on graph neural networks (GNNs) aims to learn transferable knowledge for downstream tasks with unlabeled data, and it has recently become an active research area. The success of graph pre-training models is often attributed to the massive amount of input data. In this paper, however, we identify the curse of big data phenomenon in graph pre-training: more training data do not necessarily lead to better downstream performance. Motivated by this observation, we propose a better-with-less framework for graph pre-training: fewer, but carefully chosen data are fed into a GNN model to enhance pre-training. The proposed pre-training pipeline is called the data-active graph pre-training (APT) framework, and is composed of a graph selector and a pre-training model. The graph selector chooses the most representative and instructive data points based on the inherent properties of graphs as well as predictive uncertainty. The proposed predictive uncertainty, as feedback from the pre-training model, measures the confidence level of the model in the data. When fed with the chosen data, on the other hand, the pre-training model grasps an initial understanding of the new, unseen data, and at the same time attempts to remember the knowledge learned from previous data. Therefore, the integration and interaction between these two components form a unified framework (APT), in which graph pre-training is performed in a progressive and iterative way. Experiment results show that the proposed APT is able to obtain an efficient pre-training model with fewer training data and better downstream performance. | 翻訳日:2023-11-03 14:28:11 公開日:2023-11-02 |
# athena: 思考拡大を伴う数学的推論 ATHENA: Mathematical Reasoning with Thought Expansion ( http://arxiv.org/abs/2311.01036v1 ) ライセンス: Link先を確認 | JB. Kim, Hazel Kim, Joonghyuk Hahn, Yo-Sub Han | (参考訳) 数学用語の問題の解決は、人間の言語表現を見るためのレンズである問題をどう表現するかに依存する。
現実世界の設定は、同じ数学的操作の多様な実践のために、そのような方法にさらに依存する。
従来の研究は、数学的知識獲得の意義を考慮せずに、限られた予測戦略によって利用可能な思考過程を制約していた。
本稿では,注意に基づく思考拡張ネットワークアーキテクチャ(athena)を導入し,人間の思考拡張機構をニューラルネットワーク伝播の形で模倣することにより,実世界の実践の課題に取り組む。
思考拡大は、前ステップから駆動される算数表現の思考を担っている候補を反復的に生成し、目標への有効な経路を選択して合理的な思考を得る。
実験の結果,AtheNAは,学習例における情報性が制限された場合でも,変分質問に魅力的な理想モデルに向けて,新たな最先端の段階を達成できることが示唆された。 Solving math word problems depends on how to articulate the problems, the lens through which models view human linguistic expressions. Real-world settings count on such a method even more due to the diverse practices of the same mathematical operations. Earlier works constrain available thinking processes by limited prediction strategies without considering their significance in acquiring mathematical knowledge. We introduce Attention-based THought Expansion Network Architecture (ATHENA) to tackle the challenges of real-world practices by mimicking human thought expansion mechanisms in the form of neural network propagation. A thought expansion recurrently generates the candidates carrying the thoughts of possible math expressions driven from the previous step and yields reasonable thoughts by selecting the valid pathways to the goal. Our experiments show that ATHENA achieves a new state-of-the-art stage toward the ideal model that is compelling in variant questions even when the informativeness in training examples is restricted. | 翻訳日:2023-11-03 14:27:47 公開日:2023-11-02 |
# 単眼単眼深度推定のためのCLIP適応学習 Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation ( http://arxiv.org/abs/2311.01034v1 ) ライセンス: Link先を確認 | Xueting Hu, Ce Zhang, Yi Zhang, Bowen Hai, Ke Yu, Zhihai He | (参考訳) CLIPのような事前訓練されたビジョンランゲージモデル(VLM)は、視覚的および言語的モダリティの統合を含む様々なタスクにおいて、パフォーマンスが向上している。
CLIPが深度推定タスクに使用される場合、入力画像から分割されたパッチと深度情報の一連の意味記述を組み合わせて類似性結果を得ることができる。
深さの粗い推定は、事前定義された意味記述に対応する深さビンと呼ばれる深さ値の重み付けと和によって達成される。
ゼロショットアプローチは、従来の完全教師付き深度推定手法の計算的および時間的集約性を回避している。
しかし, 固定深度ビンを用いたこの手法は, 異なるシーンの画像から異なる深度分布を示すため, 効果的に一般化できない。
そこで本研究では,単眼深度推定にvlmを応用し,トレーニングコストと一般化能力のバランスをとることを学ぶ。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
さらに、学習可能なプロンプトを組み込んで、入力テキストを事前処理し、容易に理解されたテキストを、容易にモデル化できるベクターに変換し、さらにパフォーマンスを向上させる。
トレーニング用シーンあたりの1つの画像のみを用いて、NYU V2およびKITTIデータセットでの広範な実験結果により、我々の手法がMAREの観点で10.6\%まで先行した最先端の手法より優れていることが示された。 Pre-trained Vision-Language Models (VLMs), such as CLIP, have shown enhanced performance across a range of tasks that involve the integration of visual and linguistic modalities. When CLIP is used for depth estimation tasks, the patches, divided from the input images, can be combined with a series of semantic descriptions of the depth information to obtain similarity results. The coarse estimation of depth is then achieved by weighting and summing the depth values, called depth bins, corresponding to the predefined semantic descriptions. The zero-shot approach circumvents the computational and time-intensive nature of traditional fully-supervised depth estimation methods. However, this method, utilizing fixed depth bins, may not effectively generalize as images from different scenes may exhibit distinct depth distributions. To address this challenge, we propose a few-shot-based method which learns to adapt the VLMs for monocular depth estimation to balance training costs and generalization capabilities. Specifically, it assigns different depth bins for different scenes, which can be selected by the model during inference. Additionally, we incorporate learnable prompts to preprocess the input text to convert the easily human-understood text into easily model-understood vectors and further enhance the performance. With only one image per scene for training, our extensive experiment results on the NYU V2 and KITTI dataset demonstrate that our method outperforms the previous state-of-the-art method by up to 10.6\% in terms of MARE. | 翻訳日:2023-11-03 14:27:31 公開日:2023-11-02 |
# 連続時間イベント予測のための非自己回帰拡散に基づく時間点過程 Non-Autoregressive Diffusion-based Temporal Point Processes for Continuous-Time Long-Term Event Prediction ( http://arxiv.org/abs/2311.01033v1 ) ライセンス: Link先を確認 | Wang-Tao Zhou, Zhao Kang, Ling Tian | (参考訳) 長期のイベント予測は、多くのアプリケーションシナリオにおいて重要な役割を果たす。
既存の作業の多くは、エラーの蓄積に苦しむイベントシーケンスを予測するための自動回帰フレームワークに依存しているため、予測品質が損なわれる。
遅延拡散確率モデルの成功に触発されて,長期事象予測のための拡散ベース非自己回帰時空間過程モデルを提案する。
自己回帰的な方法でイベントを1つずつ生成するのではなく、モデルが将来のイベントシーケンス全体を予測します。
事象列上で拡散過程を実行するために,対象事象列とユークリッドベクトル空間の間の双方向マップを開発する。
さらに,サンプル品質を向上させるために,逐次的特徴と文脈的特徴の両方をキャプチャする新しいデノイジングネットワークを設計した。
長期イベント予測における最先端手法よりも,提案モデルが優れていることを示すために,広範な実験を行った。
我々の知る限りでは、これは長期事象予測問題に拡散法を適用する最初の試みである。 Continuous-time long-term event prediction plays an important role in many application scenarios. Most existing works rely on autoregressive frameworks to predict event sequences, which suffer from error accumulation, thus compromising prediction quality. Inspired by the success of denoising diffusion probabilistic models, we propose a diffusion-based non-autoregressive temporal point process model for long-term event prediction in continuous time. Instead of generating events one at a time in an autoregressive way, our model predicts the future event sequence entirely as a whole. In order to perform diffusion processes on event sequences, we develop a bidirectional map between target event sequences and the Euclidean vector space. Furthermore, we design a novel denoising network to capture both sequential and contextual features for better sample quality. Extensive experiments are conducted to prove the superiority of our proposed model over state-of-the-art methods on long-term event prediction in continuous time. To the best of our knowledge, this is the first work to apply diffusion methods to long-term event prediction problems. | 翻訳日:2023-11-03 14:27:06 公開日:2023-11-02 |
# アスペクトベース感情分類のための局所的特徴とグローバル的特徴の合同学習 Joint Learning of Local and Global Features for Aspect-based Sentiment Classification ( http://arxiv.org/abs/2311.01030v1 ) ライセンス: Link先を確認 | Hao Niu, Yun Xiong, Xiaosu Wang, and Philip S. Yu | (参考訳) アスペクトベースの感情分類(ASC)は、与えられたアスペクト項によって与えられた感情の極性を評価することを目的としている。
感情極性は局所的な文脈によって決定されるだけでなく、与えられたアスペクト項から遠く離れた単語にも関係している。
注意に基づくモデルに関連する最近の取り組みは、どの単語にもっと注意を払うべきかを十分に区別できない場合もある。
一方、グラフベースのモデルは、構文依存ツリー情報をエンコードするためにASCに入る。
しかし、これらのモデルは、依存関係タグ情報を表現学習に効果的に組み込むことを無視するため、構文依存木を完全に活用しない。
本稿では,局所的およびグローバル的特徴を効果的にモデル化することにより,これらの問題に対処する。
まず,ガウスマスク層と共分散自己保持層とを含む局所エンコーダを設計する。
ガウスマスク層はアスペクト項の周りの受容場を適応的に調整し、無関係な単語の効果を強調し、局所的な情報に注意を払う傾向にある。
covariance self-attention layerは、異なる単語の注意重みをより明確に区別することができる。
さらに,依存タグ情報を完全に活用し,長距離情報を効果的に捉えることにより,グローバルエンコーダとしてのデュアルレベルグラフアテンションネットワークを提案する。
我々のモデルはSemEval 2014とTwitterのデータセットで最先端のパフォーマンスを実現する。 Aspect-based sentiment classification (ASC) aims to judge the sentiment polarity conveyed by the given aspect term in a sentence. The sentiment polarity is not only determined by the local context but also related to the words far away from the given aspect term. Most recent efforts related to the attention-based models can not sufficiently distinguish which words they should pay more attention to in some cases. Meanwhile, graph-based models are coming into ASC to encode syntactic dependency tree information. But these models do not fully leverage syntactic dependency trees as they neglect to incorporate dependency relation tag information into representation learning effectively. In this paper, we address these problems by effectively modeling the local and global features. Firstly, we design a local encoder containing: a Gaussian mask layer and a covariance self-attention layer. The Gaussian mask layer tends to adjust the receptive field around aspect terms adaptively to deemphasize the effects of unrelated words and pay more attention to local information. The covariance self-attention layer can distinguish the attention weights of different words more obviously. Furthermore, we propose a dual-level graph attention network as a global encoder by fully employing dependency tag information to capture long-distance information effectively. Our model achieves state-of-the-art performance on both SemEval 2014 and Twitter datasets. | 翻訳日:2023-11-03 14:26:51 公開日:2023-11-02 |
# 量子アニーリングを用いた画像分類のための非負行列係数化 Nonnegative/Binary Matrix Factorization for Image Classification using Quantum Annealing ( http://arxiv.org/abs/2311.01028v1 ) ライセンス: Link先を確認 | Hinako Asaoka, Kazue Kudo | (参考訳) 古典的コンピューティングは、機械学習の開発を目撃している。
この混合に量子技術の統合は想像できない利益をもたらし、人類の計算能力における大きな飛躍と見なされる。
この統合のメリットを実証することが不可欠です。
量子コンピューティングの進歩により、量子アニールを用いるいくつかの機械学習技術が提案されている。
本研究では,画像分類に量子アニールを用いた行列分解法を実装し,従来の機械学習手法と比較した。
非負・二項行列分解(NBMF)を生成モデルとして導入し,多クラス分類モデルを提案する。
NBMFを用いて手書き桁画像の特徴を抽出し,その分類問題に応用する。
その結果、データ量、特徴量、エポック数が小さい場合には、nbmfがトレーニングしたモデルの精度が、ニューラルネットワークのような古典的な機械学習手法よりも優れていることがわかった。
さらに,量子アニーリングソルバを用いたトレーニングモデルにより,計算時間を大幅に削減できることがわかった。
特定の条件下では、機械学習で量子アニーリング技術を使用するメリットがある。 Classical computing has borne witness to the development of machine learning. The integration of quantum technology into this mix will lead to unimaginable benefits and be regarded as a giant leap forward in mankind's ability to compute. Demonstrating the benefits of this integration now becomes essential. With the advance of quantum computing, several machine-learning techniques have been proposed that use quantum annealing. In this study, we implement a matrix factorization method using quantum annealing for image classification and compare the performance with traditional machine-learning methods. Nonnegative/binary matrix factorization (NBMF) was originally introduced as a generative model, and we propose a multiclass classification model as an application. We extract the features of handwritten digit images using NBMF and apply them to solve the classification problem. Our findings show that when the amount of data, features, and epochs is small, the accuracy of models trained by NBMF is superior to classical machine-learning methods, such as neural networks. Moreover, we found that training models using a quantum annealing solver significantly reduces computation time. Under certain conditions, there is a benefit to using quantum annealing technology with machine learning. | 翻訳日:2023-11-03 14:26:30 公開日:2023-11-02 |
# 歩行者検出における視覚的キューを用いた言語駆動外観知識ユニットの導入 Incorporating Language-Driven Appearance Knowledge Units with Visual Cues in Pedestrian Detection ( http://arxiv.org/abs/2311.01025v1 ) ライセンス: Link先を確認 | Sungjune Park, Hyunjun Kim, Yong Man Ro | (参考訳) 大規模言語モデル(LLM)は、インスタンスの外観知識に関する文脈的および意味的な情報を理解する能力を示した。
本稿では,文脈変化の理解にllmの強みを活用し,その知識を視覚モデル(歩行者検出)に活用する新しい手法を提案する。
歩行者検出は、安全に直接関係する重要なタスク(例えば、インテリジェントな運転システム)の1つと考えられているが、様々な場面で外観やポーズが異なるため、困難である。
そこで我々は,言語による外観知識単位を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
この目的のために,歩行者等の様々な外観を記述した多数の物語を含む記述コーパスを確立する。
LLMを通してそれらを供給することにより、外観変化の表現を含む外観知識集合を抽出する。
その後、下流歩行者検知タスクに関連があると思われる外観知識を代表する外観知識単位を得るためのタスクプロンプト処理を行う。
最後に、言語駆動の知識ユニットと視覚的手がかりを統合することで、豊富な外観情報を提供する。
本研究では,様々な歩行者検知器を用いた総合的な実験を行い,目立った性能向上と最先端検出性能を実現する手法の有効性を検証した。 Large language models (LLMs) have shown their capability in understanding contextual and semantic information regarding appearance knowledge of instances. In this paper, we introduce a novel approach to utilize the strength of an LLM in understanding contextual appearance variations and to leverage its knowledge into a vision model (here, pedestrian detection). While pedestrian detection is considered one of crucial tasks directly related with our safety (e.g., intelligent driving system), it is challenging because of varying appearances and poses in diverse scenes. Therefore, we propose to formulate language-driven appearance knowledge units and incorporate them with visual cues in pedestrian detection. To this end, we establish description corpus which includes numerous narratives describing various appearances of pedestrians and others. By feeding them through an LLM, we extract appearance knowledge sets that contain the representations of appearance variations. After that, we perform a task-prompting process to obtain appearance knowledge units which are representative appearance knowledge guided to be relevant to a downstream pedestrian detection task. Finally, we provide plentiful appearance information by integrating the language-driven knowledge units with visual cues. Through comprehensive experiments with various pedestrian detectors, we verify the effectiveness of our method showing noticeable performance gains and achieving state-of-the-art detection performance. | 翻訳日:2023-11-03 14:26:13 公開日:2023-11-02 |
# 効率的な知識グラフ推論のための距離ベースプロパゲーション Distance-Based Propagation for Efficient Knowledge Graph Reasoning ( http://arxiv.org/abs/2311.01024v1 ) ライセンス: Link先を確認 | Harry Shomer, Yao Ma, Juanhui Li, Bo Wu, Charu C. Aggarwal, Jiliang Tang | (参考訳) 知識グラフ補完(kgc)は知識グラフ(kgs)の見当たらないエッジを予測することを目的としており、新たな事実の発見に繋がる。
経路情報を集約することでこの問題に対処する新しい手法が提案されている。
これらの手法はKGCの課題において極めて有能である。
しかし、効率の問題に悩まされている。
学習可能なパスプルーニングを通じてこの問題に対処しようとする最近の試みはいくつかあるが、効率を上げるためにパフォーマンスを犠牲にすることが多い。
本研究では, 効率と表現品質に影響を及ぼす2つの本質的限界を明らかにする。
この制限に対処するために,情報伝達を効率的に行う新しい手法であるTAGNetを導入する。
これは、ソースとターゲットのペアごとに固定されたウィンドウ内のパスのみを集約することで実現される。
我々は,TAGNetの複雑さが層数に依存しないことを実証した。
大規模な実験により、TAGNetは複数のKGデータセット上での競合性能を達成しながら、伝播メッセージの数を最大90%削減できることが示された。
コードはhttps://github.com/HarryShomer/TAGNetで入手できる。 Knowledge graph completion (KGC) aims to predict unseen edges in knowledge graphs (KGs), resulting in the discovery of new facts. A new class of methods have been proposed to tackle this problem by aggregating path information. These methods have shown tremendous ability in the task of KGC. However they are plagued by efficiency issues. Though there are a few recent attempts to address this through learnable path pruning, they often sacrifice the performance to gain efficiency. In this work, we identify two intrinsic limitations of these methods that affect the efficiency and representation quality. To address the limitations, we introduce a new method, TAGNet, which is able to efficiently propagate information. This is achieved by only aggregating paths in a fixed window for each source-target pair. We demonstrate that the complexity of TAGNet is independent of the number of layers. Extensive experiments demonstrate that TAGNet can cut down on the number of propagated messages by as much as 90% while achieving competitive performance on multiple KG datasets. The code is available at https://github.com/HarryShomer/TAGNet. | 翻訳日:2023-11-03 14:25:51 公開日:2023-11-02 |
# Augmentation is AUtO-Net: Augmentation-Driven Contrastive Multiview Learning for Medical Image Segmentation Augmentation is AUtO-Net: Augmentation-Driven Contrastive Multiview Learning for Medical Image Segmentation ( http://arxiv.org/abs/2311.01023v1 ) ライセンス: Link先を確認 | Yanming Guo | (参考訳) 複雑な臓器や組織パターンを学習し、ノイズの多い背景から重要な領域を抽出し、医用画像診断の視覚能力を向上させるディープラーニングセグメンテーションアルゴリズムの利用は、医療画像コンピューティング(MIC)において顕著な成果を上げている。
本論文は, 網膜血管分画課題に焦点をあて, 深層学習に基づく医用画像分画アプローチの広範な文献レビューを行い, 方法論と経験的性能を比較した。
この研究はまた、データサイズの制約と高い計算資源への依存という2つの重要な制約を指摘し、現在の最先端の方法の限界についても検討している。
このような問題に対処するために,データ不足を克服し,一般化能力を向上させるために,様々な変換による複数の拡張ビューと比較することにより,不変容器特徴表現を対照的に学習する,効率的でシンプルな多視点学習フレームワークを提案する。
さらに、ハイブリッドネットワークアーキテクチャでは、注意機構を畳み込みニューラルネットワークに統合し、複雑な連続的な船体構造をさらに捉える。
提案手法はCHASE-DB1データセット上で検証され,最大F1スコアは83.46%,最高IOUスコアは71.62%,既存のベンチマークUNetベースの手法は1.95%,最高2.8%であった。
測定値の組み合わせは、モデルが船体物体を精度良く、地上の真実と非常に一致した位置で検出することを示している。
さらに、提案手法は3GBのGPURAMを消費することで30分以内のトレーニングが可能であり、実際のアプリケーションやデプロイメントの効率的な実装をサポートする。 The utilisation of deep learning segmentation algorithms that learn complex organs and tissue patterns and extract essential regions of interest from the noisy background to improve the visual ability for medical image diagnosis has achieved impressive results in Medical Image Computing (MIC). This thesis focuses on retinal blood vessel segmentation tasks, providing an extensive literature review of deep learning-based medical image segmentation approaches while comparing the methodologies and empirical performances. The work also examines the limitations of current state-of-the-art methods by pointing out the two significant existing limitations: data size constraints and the dependency on high computational resources. To address such problems, this work proposes a novel efficient, simple multiview learning framework that contrastively learns invariant vessel feature representation by comparing with multiple augmented views by various transformations to overcome data shortage and improve generalisation ability. Moreover, the hybrid network architecture integrates the attention mechanism into a Convolutional Neural Network to further capture complex continuous curvilinear vessel structures. The result demonstrates the proposed method validated on the CHASE-DB1 dataset, attaining the highest F1 score of 83.46% and the highest Intersection over Union (IOU) score of 71.62% with UNet structure, surpassing existing benchmark UNet-based methods by 1.95% and 2.8%, respectively. The combination of the metrics indicates the model detects the vessel object accurately with a highly coincidental location with the ground truth. Moreover, the proposed approach could be trained within 30 minutes by consuming less than 3 GB GPU RAM, and such characteristics support the efficient implementation for real-world applications and deployments. | 翻訳日:2023-11-03 14:25:35 公開日:2023-11-02 |
# NeuroWrite: ディープニューラルネットワークを用いた予測手書きディジット分類 NeuroWrite: Predictive Handwritten Digit Classification using Deep Neural Networks ( http://arxiv.org/abs/2311.01022v1 ) ライセンス: Link先を確認 | Kottakota Asish, P. Sarath Teja, R. Kishan Chander, Dr. D. Deva Hema | (参考訳) ディープニューラルネットワークの急速な進化は、機械学習の分野に革命をもたらし、様々な領域で顕著な進歩を可能にした。
本稿では,深層ニューラルネットワークを用いて手書き桁の分類を予測するユニークな方法であるNeuroWriteを紹介する。
本モデルは,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の強度を利用した手書き桁の同定と分類において,優れた精度を示す。
本稿では、NeuroWriteで使用されるデータ作成方法、ネットワーク設計、およびトレーニング方法について、徹底的に検討する。
最先端の技術を導入することで,neurowriteがmnistなどの手書き文字データセットにおいて,高い分類精度と堅牢な一般化を実現する方法を示す。
さらに,デジタル化された文書の数値認識,署名検証,自動郵便コード認識など,実世界の応用の可能性についても検討する。
NeuroWriteは、その性能と適応性から、コンピュータビジョンとパターン認識に有用なツールであり、この研究でNeuroWriteのアーキテクチャ、トレーニング手順、評価指標を詳細に取り上げ、手書き桁分類と呼ばれる多くのアプリケーションを改善する方法について説明している。
その結果、ニューロライトはディープニューラルネットワークに基づく手書き文字認識のバーを上げる有望な方法であることが示された。 The rapid evolution of deep neural networks has revolutionized the field of machine learning, enabling remarkable advancements in various domains. In this article, we introduce NeuroWrite, a unique method for predicting the categorization of handwritten digits using deep neural networks. Our model exhibits outstanding accuracy in identifying and categorising handwritten digits by utilising the strength of convolutional neural networks (CNNs) and recurrent neural networks (RNNs).In this article, we give a thorough examination of the data preparation methods, network design, and training methods used in NeuroWrite. By implementing state-of-the-art techniques, we showcase how NeuroWrite can achieve high classification accuracy and robust generalization on handwritten digit datasets, such as MNIST. Furthermore, we explore the model's potential for real-world applications, including digit recognition in digitized documents, signature verification, and automated postal code recognition. NeuroWrite is a useful tool for computer vision and pattern recognition because of its performance and adaptability.The architecture, training procedure, and evaluation metrics of NeuroWrite are covered in detail in this study, illustrating how it can improve a number of applications that call for handwritten digit classification. The outcomes show that NeuroWrite is a promising method for raising the bar for deep neural network-based handwritten digit recognition. | 翻訳日:2023-11-03 14:25:02 公開日:2023-11-02 |
# H-NeXt: ロト翻訳不変ネットワークへの次のステップ H-NeXt: The next step towards roto-translation invariant networks ( http://arxiv.org/abs/2311.01111v1 ) ライセンス: Link先を確認 | Tomas Karella, Filip Sroubek, Jan Flusser, Jan Blazek, Vasek Kosik | (参考訳) 等価ネットワークの普及は、パラメータ効率モデルの重要性とトレーニングデータの有効利用を強調する。
不安定な変形に対するロバスト性の重要性が高まっているとき, 等分散と不変性のギャップを埋めるH-NeXtを提案する。
H-NeXtはパラメータ効率のよいロト翻訳不変ネットワークであり、トレーニングセット内の単一の拡張イメージなしでトレーニングされる。
本ネットワークは,ロト翻訳独立な特徴を学習する同変バックボーンと,ロト翻訳情報を破棄する不変プーリング層と,分類層とからなる。
H-NeXtは、未拡張のトレーニングセットとMNISTとCIFAR-10の拡張テストセットの分類において、最先端の技術である。 The widespread popularity of equivariant networks underscores the significance of parameter efficient models and effective use of training data. At a time when robustness to unseen deformations is becoming increasingly important, we present H-NeXt, which bridges the gap between equivariance and invariance. H-NeXt is a parameter-efficient roto-translation invariant network that is trained without a single augmented image in the training set. Our network comprises three components: an equivariant backbone for learning roto-translation independent features, an invariant pooling layer for discarding roto-translation information, and a classification layer. H-NeXt outperforms the state of the art in classification on unaugmented training sets and augmented test sets of MNIST and CIFAR-10. | 翻訳日:2023-11-03 14:17:15 公開日:2023-11-02 |
# パノプティカル・ナラティブ・グラウンディングのための連接画素と対象コンテキストによる句の充実 Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic Narrative Grounding ( http://arxiv.org/abs/2311.01091v1 ) ライセンス: Link先を確認 | Tianrui Hui, Zihan Ding, Junshi Huang, Xiaoming Wei, Xiaolin Wei, Jiao Dai, Jizhong Han, Si Liu | (参考訳) Panoptic narrative grounding (PNG) は、物語キャプションの名詞句で表現された画像に物や物を分割することを目的としている。
マルチモーダルタスクとして、PNGの重要な側面は、画像とキャプションの間の視覚言語的相互作用である。
前回の2段階のメソッドは、オフラインで生成されたマスク提案からフレーズ機能まで、視覚的なコンテキストを集約する。
最近のワンステージ手法では、画像特徴からフレーズ特徴までのピクセルコンテキストのみを集約する。
より包括的な視覚・言語的相互作用を実現するため,Phrase-Pixel-Object Transformer Decoder (PPO-TD) を設計することにより,画素とオブジェクトコンテキストを結合したフレーズを充実させることを提案する。
さらに,PhraseObject Contrastive Loss (POCL) を提案して,マッチしたフレーズオブジェクトペアを近づけ,マッチしないものを押し出して,フレーズ関連オブジェクトトークンからより正確なオブジェクトコンテキストを集約する。
PNGベンチマークの大規模な実験により,本手法は高いマージンを有する新しい最先端性能を実現することを示す。 Panoptic narrative grounding (PNG) aims to segment things and stuff objects in an image described by noun phrases of a narrative caption. As a multimodal task, an essential aspect of PNG is the visual-linguistic interaction between image and caption. The previous two-stage method aggregates visual contexts from offline-generated mask proposals to phrase features, which tend to be noisy and fragmentary. The recent one-stage method aggregates only pixel contexts from image features to phrase features, which may incur semantic misalignment due to lacking object priors. To realize more comprehensive visual-linguistic interaction, we propose to enrich phrases with coupled pixel and object contexts by designing a Phrase-Pixel-Object Transformer Decoder (PPO-TD), where both fine-grained part details and coarse-grained entity clues are aggregated to phrase features. In addition, we also propose a PhraseObject Contrastive Loss (POCL) to pull closer the matched phrase-object pairs and push away unmatched ones for aggregating more precise object contexts from more phrase-relevant object tokens. Extensive experiments on the PNG benchmark show our method achieves new state-of-the-art performance with large margins. | 翻訳日:2023-11-03 14:17:00 公開日:2023-11-02 |
# インフュージョン:ビデオインペインティングのための内部拡散 Infusion: Internal Diffusion for Video Inpainting ( http://arxiv.org/abs/2311.01090v1 ) ライセンス: Link先を確認 | Nicolas Cherel, Andr\'es Almansa, Yann Gousseau, Alasdair Newson | (参考訳) ビデオインペインティングは、映像内の所望の領域を視覚的に説得力のある方法で埋める作業である。
信号の高次元化と説得力のある結果を得るためには時間的一貫性が必要となるため、非常に難しい課題である。
近年、拡散モデルは画像やビデオを含む複雑なデータ分布のモデリングにおいて顕著な結果を示している。
拡散モデルはいまだにトレーニングと推論に非常に高価であり、ビデオへの適用を厳しく制限している。
ビデオインペイントの場合,ビデオの自己類似性が高いため,拡散モデルのトレーニングはビデオに限定してインペイントし,非常に満足な結果が得られることを示す。
これにより、内部学習アプローチを採用することができ、ネットワークサイズを大幅に削減することができます。
我々はこのアプローチを「拡散」と呼び,拡散による映像インペインティングのための内部学習アルゴリズムである。
粗末なネットワークにより,拡散に基づく最初の映像インペインティング手法を提案することができる。
その他の方法は、例えば動的テクスチャの場合の性能を制限する光学フロー推定のような支持要素を必要とする。
内部学習の文脈における拡散モデルの効率的な学習と推論のための新しい手法を提案する。
拡散過程を異なる学習間隔に分割し,学習ステップを大幅に単純化する。
特に動的背景やテクスチャの場合において,本手法が最先端性能に達することを示す定性的,定量的な結果を示す。 Video inpainting is the task of filling a desired region in a video in a visually convincing manner. It is a very challenging task due to the high dimensionality of the signal and the temporal consistency required for obtaining convincing results. Recently, diffusion models have shown impressive results in modeling complex data distributions, including images and videos. Diffusion models remain nonetheless very expensive to train and perform inference with, which strongly restrict their application to video. We show that in the case of video inpainting, thanks to the highly auto-similar nature of videos, the training of a diffusion model can be restricted to the video to inpaint and still produce very satisfying results. This leads us to adopt an internal learning approch, which also allows for a greatly reduced network size. We call our approach "Infusion": an internal learning algorithm for video inpainting through diffusion. Due to our frugal network, we are able to propose the first video inpainting approach based purely on diffusion. Other methods require supporting elements such as optical flow estimation, which limits their performance in the case of dynamic textures for example. We introduce a new method for efficient training and inference of diffusion models in the context of internal learning. We split the diffusion process into different learning intervals which greatly simplifies the learning steps. We show qualititative and quantitative results, demonstrating that our method reaches state-of-the-art performance, in particular in the case of dynamic backgrounds and textures. | 翻訳日:2023-11-03 14:16:35 公開日:2023-11-02 |
# 時間的注意を伴うマルチタスク強化学習用コントラストモジュール Contrastive Modules with Temporal Attention for Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2311.01075v1 ) ライセンス: Link先を確認 | Siming Lan, Rui Zhang, Qi Yi, Jiaming Guo, Shaohui Peng, Yunkai Gao, Fan Wu, Ruizhi Chen, Zidong Du, Xing Hu, Xishan Zhang, Ling Li, Yunji Chen | (参考訳) マルチタスク強化学習の分野では,機能を異なるモジュールに特殊化し,それらを適切に組み合わせることを含むモジュラー原則が,タスク間の競合によるパフォーマンス低下という負の伝達問題を防止するための有望なアプローチとして広く採用されている。
しかし、既存のマルチタスクRLメソッドのほとんどはタスクレベルでのみ共有モジュールを結合しており、タスク内に競合がある可能性があることを無視している。
さらに、これらの手法は制約がなければ、いくつかのモジュールは同様の関数を学ぶことができ、結果としてモジュラーメソッドの表現性や一般化能力を制限する。
本稿では,これらの制約に対処するContrastive Modules with Temporal Attention (CMTA)法を提案する。
cmtaは、対照的な学習と、時間的注意を伴うタスクレベルよりも細かい粒度で共有モジュールを結合し、タスク内の負の転送を緩和し、マルチタスクrlの一般化能力と性能を向上させることで、モジュールを互いに異なるものに制限する。
各種ロボット操作タスクを含むマルチタスクRLベンチマークであるMeta-Worldの実験を行った。
実験の結果,CMTAは各タスクを個別に学習し,ベースラインよりも大幅な性能向上を実現した。 In the field of multi-task reinforcement learning, the modular principle, which involves specializing functionalities into different modules and combining them appropriately, has been widely adopted as a promising approach to prevent the negative transfer problem that performance degradation due to conflicts between tasks. However, most of the existing multi-task RL methods only combine shared modules at the task level, ignoring that there may be conflicts within the task. In addition, these methods do not take into account that without constraints, some modules may learn similar functions, resulting in restricting the model's expressiveness and generalization capability of modular methods. In this paper, we propose the Contrastive Modules with Temporal Attention(CMTA) method to address these limitations. CMTA constrains the modules to be different from each other by contrastive learning and combining shared modules at a finer granularity than the task level with temporal attention, alleviating the negative transfer within the task and improving the generalization ability and the performance for multi-task RL. We conducted the experiment on Meta-World, a multi-task RL benchmark containing various robotics manipulation tasks. Experimental results show that CMTA outperforms learning each task individually for the first time and achieves substantial performance improvements over the baselines. | 翻訳日:2023-11-03 14:16:13 公開日:2023-11-02 |
# DistilWhisper:言語専門家によるマルチタスク音声モデルの効率的な蒸留 DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts ( http://arxiv.org/abs/2311.01070v1 ) ライセンス: Link先を確認 | Thomas Palmeira Ferraz, Marcely Zanon Boito, Caroline Brun, Vassilina Nikoulina | (参考訳) Whisperは99言語をカバーするマルチタスクおよび多言語音声モデルである。
圧縮可能な自動音声認識(ASR)が対象言語のサブセットとなるが、モデルが未表現の言語を無視できないほど性能が低いため、より小さなモデルでは問題が悪化する。
本稿では,asrの性能ギャップを橋渡しし,マルチタスクと多言語機能の利点を保ちつつ,asrの性能ギャップを橋渡しできる手法であるdistilwhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
この2つのアプローチにより、マルチタスクと多言語事前学習から受け継いだ堅牢性を保ちながら、ASRの性能を効果的に向上させることができる。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも有効であり,ドメイン内および外部テストセットのターゲット言語の性能を高めるとともに,推論時のパラメータオーバーヘッドを無視できるだけに抑えた。 Whisper is a multitask and multilingual speech model covering 99 languages. It yields commendable automatic speech recognition (ASR) results in a subset of its covered languages, but the model still under-performs on a non-negligible number of under-represented languages, a problem exacerbated in smaller model versions. In this work, we propose DistilWhisper, an approach able to bridge the performance gap in ASR for these languages while retaining the advantages of multitask and multilingual capabilities. Our approach involves two key strategies: lightweight modular ASR fine-tuning of whisper-small using language-specific experts, and knowledge distillation from whisper-large-v2. This dual approach allows us to effectively boost ASR performance while keeping the robustness inherited from the multitask and multilingual pre-training. Results demonstrate that our approach is more effective than standard fine-tuning or LoRA adapters, boosting performance in the targeted languages for both in- and out-of-domain test sets, while introducing only a negligible parameter overhead at inference. | 翻訳日:2023-11-03 14:15:52 公開日:2023-11-02 |
# 動的マルチモーダル情報ボトルネックによるマルチモーダリティ分類 Dynamic Multimodal Information Bottleneck for Multimodality Classification ( http://arxiv.org/abs/2311.01066v1 ) ライセンス: Link先を確認 | Yingying Fang, Shuang Wu, Sheng Zhang, Chaoyan Huang, Tieyong Zeng, Xiaodan Xing, Simon Walsh, Guang Yang | (参考訳) 様々な画像、検査、臨床情報などのマルチモーダルデータを効果的に活用することは、さまざまなAIベースの診断や予後タスクにおいて、注目を集めている。
既存のマルチモーダル技術のほとんどは、さまざまなモダリティの差異や共有機能を活用し、異なるモダリティにまたがる特徴を融合することによって、パフォーマンスの向上にのみ重点を置いている。
これらのアプローチは概して臨床に最適ではなく、訓練データに制限があるという追加の課題を生じさせ、冗長なデータやノイズのあるモダリティチャネルに悩まされ、サブパーのパフォーマンスをもたらす。
このギャップに対処するために,データ冗長性とノイズに対する既存手法のロバスト性について検討し,ロバストな融合特徴表現を実現するための一般化された動的マルチモーダル情報ボトルネックフレームワークを提案する。
具体的には,我々の情報ボトルネックモジュールは, 溶融機能におけるタスク関連情報やノイズをフィルタリングし, さらに, タスク関連情報の削除を防止するための十分損失を導入し, 蒸留機能における予測情報の効率を明示的に保存する。
我々は、死亡予測のための社内および公的covid-19データセットおよび診断タスクのための2つの公的バイオメディカルデータセット上で、このモデルを検証する。
広汎な実験により,本手法は最先端を超越し,より堅牢であり,大規模ノイズチャネルが存在する場合にのみ性能を維持する方法であることがわかった。
私たちのコードはhttps://github.com/BII-wushuang/DMIB.comで公開されています。 Effectively leveraging multimodal data such as various images, laboratory tests and clinical information is gaining traction in a variety of AI-based medical diagnosis and prognosis tasks. Most existing multi-modal techniques only focus on enhancing their performance by leveraging the differences or shared features from various modalities and fusing feature across different modalities. These approaches are generally not optimal for clinical settings, which pose the additional challenges of limited training data, as well as being rife with redundant data or noisy modality channels, leading to subpar performance. To address this gap, we study the robustness of existing methods to data redundancy and noise and propose a generalized dynamic multimodal information bottleneck framework for attaining a robust fused feature representation. Specifically, our information bottleneck module serves to filter out the task-irrelevant information and noises in the fused feature, and we further introduce a sufficiency loss to prevent dropping of task-relevant information, thus explicitly preserving the sufficiency of prediction information in the distilled feature. We validate our model on an in-house and a public COVID19 dataset for mortality prediction as well as two public biomedical datasets for diagnostic tasks. Extensive experiments show that our method surpasses the state-of-the-art and is significantly more robust, being the only method to remain performance when large-scale noisy channels exist. Our code is publicly available at https://github.com/BII-wushuang/DMIB. | 翻訳日:2023-11-03 14:15:31 公開日:2023-11-02 |
# 屋内シーンのための単一rgbd画像からの新たな視点合成 Novel View Synthesis from a Single RGBD Image for Indoor Scenes ( http://arxiv.org/abs/2311.01065v1 ) ライセンス: Link先を確認 | Congrui Hetang, Yuping Wang | (参考訳) 本稿では,単一のRGBD(Red Green Blue-Depth)入力から新しいビューイメージを合成する手法を提案する。
new view synthesis (nvs) は、幅広い応用を伴う興味深いコンピュータビジョンタスクである。
複数の画像を使用する方法はよく研究されており、例えば、シーン固有のニューラル放射場(NeRF)のトレーニングや、マルチビューステレオ(MVS)と3Dレンダリングパイプラインの活用などがある。
しかし、どちらも計算量的に集中するか、異なる場面で一般化できないかのいずれかであり、実用的価値を制限している。
逆に、rgbd画像に埋め込まれた深度情報は、特異な視点から3dポテンシャルを解き放ち、nvsを単純化する。
コンパクトで手頃な価格のステレオカメラや、スマートフォンなどの現代のデバイスでLiDARが広く利用できるようになることで、RGBD画像の撮影がこれまで以上に容易になった。
提案手法では, rgbd画像を点クラウドに変換し, 異なる視点からレンダリングし, nvsタスクを画像変換問題として定式化する。
生成的対向ネットワークを利用してレンダリング画像のスタイル変換を行い,新たな視点から撮影した写真に類似した結果を得た。
本稿では,CycleGANを用いた教師なし学習とPix2Pixを用いた教師なし学習の両方を探索し,質的な結果を実証する。
提案手法は従来のマルチイメージ手法の限界を回避し,NVSにおける実用的なリアルタイムアプリケーションの実現を約束する。 In this paper, we propose an approach for synthesizing novel view images from a single RGBD (Red Green Blue-Depth) input. Novel view synthesis (NVS) is an interesting computer vision task with extensive applications. Methods using multiple images has been well-studied, exemplary ones include training scene-specific Neural Radiance Fields (NeRF), or leveraging multi-view stereo (MVS) and 3D rendering pipelines. However, both are either computationally intensive or non-generalizable across different scenes, limiting their practical value. Conversely, the depth information embedded in RGBD images unlocks 3D potential from a singular view, simplifying NVS. The widespread availability of compact, affordable stereo cameras, and even LiDARs in contemporary devices like smartphones, makes capturing RGBD images more accessible than ever. In our method, we convert an RGBD image into a point cloud and render it from a different viewpoint, then formulate the NVS task into an image translation problem. We leveraged generative adversarial networks to style-transfer the rendered image, achieving a result similar to a photograph taken from the new perspective. We explore both unsupervised learning using CycleGAN and supervised learning with Pix2Pix, and demonstrate the qualitative results. Our method circumvents the limitations of traditional multi-image techniques, holding significant promise for practical, real-time applications in NVS. | 翻訳日:2023-11-03 14:15:05 公開日:2023-11-02 |
# カメラトラップ画像におけるゼロショット動物種認識のためのマルチモーダル基礎モデル Multimodal Foundation Models for Zero-shot Animal Species Recognition in Camera Trap Images ( http://arxiv.org/abs/2311.01064v1 ) ライセンス: Link先を確認 | Zalan Fabian, Zhongqi Miao, Chunyuan Li, Yuanhan Zhang, Ziwei Liu, Andr\'es Hern\'andez, Andr\'es Montes-Rojas, Rafael Escucha, Laura Siabatto, Andr\'es Link, Pablo Arbel\'aez, Rahul Dodhia, Juan Lavista Ferres | (参考訳) 環境条件の悪化と人的活動の増加により、野生生物に対する保全努力が不可欠である。
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。
教師付き学習技術はそのような画像の分析に成功しているが、専門家のアノテーションを必要とする。
そのため、コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する大きな可能性を持つ。
本研究では,マルチモーダル基盤モデルを利用した新しいゼロショット種分類フレームワークWildMatchを提案する。
特に,視覚言語モデルに類似の用語を用いて,カメラトラップ画像の詳細な視覚記述を生成するよう指示する。
そして、生成したキャプションを記述の外部知識ベースと一致させ、ゼロショット方式で種を判別する。
詳細な動物記述生成のための命令チューニングデータセットの構築手法について検討し,キャプション品質を向上させるための新しい知識拡張手法を提案する。
コロンビアのマグダレーナ・メディオ地方で収集された新しいカメラトラップ・データセット上でのWildMatchの性能を実演する。 Due to deteriorating environmental conditions and increasing human activity, conservation efforts directed towards wildlife is crucial. Motion-activated camera traps constitute an efficient tool for tracking and monitoring wildlife populations across the globe. Supervised learning techniques have been successfully deployed to analyze such imagery, however training such techniques requires annotations from experts. Reducing the reliance on costly labelled data therefore has immense potential in developing large-scale wildlife tracking solutions with markedly less human labor. In this work we propose WildMatch, a novel zero-shot species classification framework that leverages multimodal foundation models. In particular, we instruction tune vision-language models to generate detailed visual descriptions of camera trap images using similar terminology to experts. Then, we match the generated caption to an external knowledge base of descriptions in order to determine the species in a zero-shot manner. We investigate techniques to build instruction tuning datasets for detailed animal description generation and propose a novel knowledge augmentation technique to enhance caption quality. We demonstrate the performance of WildMatch on a new camera trap dataset collected in the Magdalena Medio region of Colombia. | 翻訳日:2023-11-03 14:14:38 公開日:2023-11-02 |
# 把持のリアルタイムニューラルデコードのための深層学習 Deep Learning for real-time neural decoding of grasp ( http://arxiv.org/abs/2311.01061v1 ) ライセンス: Link先を確認 | Paolo Viviani and Ilaria Gesmundo and Elios Ghinato and Andres Agudelo-Toro and Chiara Vercellino and Giacomo Vitali and Letizia Bergamasco and Alberto Scionti and Marco Ghislieri and Valentina Agostini and Olivier Terzo and Hansj\"org Scherberger | (参考訳) ニューラルデコーディングは、脳機械インタフェースにおいて、脳から取得した信号を手足の動きやロボット制御などの物理的世界の変数に関連付ける。
この文脈では、本研究はサルの運動野からの神経記録の特定の既設データセットから始まり、把持型分類のための神経信号のデコードに対するディープラーニングに基づくアプローチを示す。
具体的には、LSTMネットワークを利用して、ニューラルネットワーク(スパイクトレイン)を含む時系列を、つかむ対象を表すクラスに分類する手法を提案する。
提案手法の主な目的は、従来の神経科学知識に頼ることなく、最先端の復号精度を向上し、データから相関関係を抽出する深層学習モデルの能力のみを活用することである。
本論文は,検討したデータセットについて得られた結果を同一データセット上の先行研究と比較し,実時間復号をシミュレートした場合でも,分類精度が著しく向上することを示す。 Neural decoding involves correlating signals acquired from the brain to variables in the physical world like limb movement or robot control in Brain Machine Interfaces. In this context, this work starts from a specific pre-existing dataset of neural recordings from monkey motor cortex and presents a Deep Learning-based approach to the decoding of neural signals for grasp type classification. Specifically, we propose here an approach that exploits LSTM networks to classify time series containing neural data (i.e., spike trains) into classes representing the object being grasped. The main goal of the presented approach is to improve over state-of-the-art decoding accuracy without relying on any prior neuroscience knowledge, and leveraging only the capability of deep learning models to extract correlations from data. The paper presents the results achieved for the considered dataset and compares them with previous works on the same dataset, showing a significant improvement in classification accuracy, even if considering simulated real-time decoding. | 翻訳日:2023-11-03 14:14:22 公開日:2023-11-02 |
# オン・ザ・ゴー:単寿命ロボット展開のための行動変調 Adapt On-the-Go: Behavior Modulation for Single-Life Robot Deployment ( http://arxiv.org/abs/2311.01059v1 ) ライセンス: Link先を確認 | Annie S. Chen, Govind Chada, Laura Smith, Archit Sharma, Zipeng Fu, Sergey Levine, Chelsea Finn | (参考訳) 現実世界で成功するためには、ロボットはトレーニング中に見られるものと異なる状況に対処する必要がある。
これまでに学習した行動の多様なレパートリーを描きながら,このような新しいシナリオにオンザフライで適応する問題を検討する。
提案手法であるロバスト自律変調(roam)は,事前学習行動の知覚的価値に基づくメカニズムを導入し,事前学習行動の選択と適応を行う。
重要なことに、この適応プロセスはすべて、人間の監督なしに、テスト時に1回以内に行われます。
我々は選択機構を理論的に解析し、roamがシミュレーションと実際のgo1の四足歩行の両方で動的変化に素早く適応できることを示し、さらにはローラースケートを足に乗せて前進させることも可能であることを示した。
本手法は,展開中の様々なアウト・オブ・ディストリビューション状況に直面する場合と比較して2倍の効率で適応する。 To succeed in the real world, robots must cope with situations that differ from those seen during training. We study the problem of adapting on-the-fly to such novel scenarios during deployment, by drawing upon a diverse repertoire of previously learned behaviors. Our approach, RObust Autonomous Modulation (ROAM), introduces a mechanism based on the perceived value of pre-trained behaviors to select and adapt pre-trained behaviors to the situation at hand. Crucially, this adaptation process all happens within a single episode at test time, without any human supervision. We provide theoretical analysis of our selection mechanism and demonstrate that ROAM enables a robot to adapt rapidly to changes in dynamics both in simulation and on a real Go1 quadruped, even successfully moving forward with roller skates on its feet. Our approach adapts over 2x as efficiently compared to existing methods when facing a variety of out-of-distribution situations during deployment by effectively choosing and adapting relevant behaviors on-the-fly. | 翻訳日:2023-11-03 14:14:06 公開日:2023-11-02 |
# チニシモヨロを用いたAI集積スマートグラスの高効率オンデバイス検出 Ultra-Efficient On-Device Object Detection on AI-Integrated Smart Glasses with TinyissimoYOLO ( http://arxiv.org/abs/2311.01057v1 ) ライセンス: Link先を確認 | Julian Moosmann, Pietro Bonazzi, Yawei Li, Sizhen Bian, Philipp Mayer, Luca Benini, Michele Magno | (参考訳) スマートグラスは、最先端のコンピューティング技術、ハードウェアアーキテクチャの高速化、そして小さなAIアルゴリズムのおかげで、急速に進歩している。
AIを小さなフォームファクターと限られたバッテリ容量を備えたスマートグラスに統合することは、満足のいくユーザーエクスペリエンスのために毎日の使用を目標とする場合、依然として難しい。
本稿では,新しい低消費電力プロセッサを活用し,スマートグラスの長時間連続動作を実現する,小型機械学習アルゴリズムの設計と実装について述べる。
リアルタイム物体検出におけるスマートグラスのエネルギー効率と遅延効率について検討する。
この目的のために、スマートグラスのプロトタイプを、新しいミリワットパワーRISC-V並列プロセッサと、ビジュアルAIのためのハードウェアアクセラレータ、通信用のBluetooth低電力モジュールを含む2つのマイクロコントローラを備えた研究プラットフォームとして設計した。
スマートグラスは、画像およびオーディオセンシングインターフェイスを含むパワーサイクリング機構を統合している。
さらに,マイクロコントローラに基づく推論用にカスタマイズされたサブミリオンパラメータを持つyoloに基づく,新たな小さなディープラーニングモデルであるtinyissimoyolo v1.3,v5,v8を開発し,エネルギーとレイテンシのためのスマートグラスによる物体検出のベンチマークを目標とした。
スマートグラスのプロトタイプの評価では、TinyissimoYOLOの17msの推論遅延と1回の推論あたりのエネルギー消費量が1.59mJであり、検出精度は許容できる。
さらに評価すると、イメージキャプチャからアルゴリズムの56msまたは18fpsの予測までのエンドツーエンドのレイテンシが、総消費電力は62.9mwで、154mahのバッテリーで9.3時間の連続実行時間に相当する。
これらの結果は、より単純なタスク(画像分類)を実行するMCUNet(TinyNAS+TinyEngine)を毎秒7.3fpsで上回る。 Smart glasses are rapidly gaining advanced functionality thanks to cutting-edge computing technologies, accelerated hardware architectures, and tiny AI algorithms. Integrating AI into smart glasses featuring a small form factor and limited battery capacity is still challenging when targeting full-day usage for a satisfactory user experience. This paper illustrates the design and implementation of tiny machine-learning algorithms exploiting novel low-power processors to enable prolonged continuous operation in smart glasses. We explore the energy- and latency-efficient of smart glasses in the case of real-time object detection. To this goal, we designed a smart glasses prototype as a research platform featuring two microcontrollers, including a novel milliwatt-power RISC-V parallel processor with a hardware accelerator for visual AI, and a Bluetooth low-power module for communication. The smart glasses integrate power cycling mechanisms, including image and audio sensing interfaces. Furthermore, we developed a family of novel tiny deep-learning models based on YOLO with sub-million parameters customized for microcontroller-based inference dubbed TinyissimoYOLO v1.3, v5, and v8, aiming at benchmarking object detection with smart glasses for energy and latency. Evaluations on the prototype of the smart glasses demonstrate TinyissimoYOLO's 17ms inference latency and 1.59mJ energy consumption per inference while ensuring acceptable detection accuracy. Further evaluation reveals an end-to-end latency from image capturing to the algorithm's prediction of 56ms or equivalently 18 fps, with a total power consumption of 62.9mW, equivalent to a 9.3 hours of continuous run time on a 154mAh battery. These results outperform MCUNet (TinyNAS+TinyEngine), which runs a simpler task (image classification) at just 7.3 fps per second. | 翻訳日:2023-11-03 14:13:45 公開日:2023-11-02 |
# Resilient Multiple Choice Learning:学習したスコアリング方式と音声シーン解析への応用 Resilient Multiple Choice Learning: A learned scoring scheme with application to audio scene analysis ( http://arxiv.org/abs/2311.01052v1 ) ライセンス: Link先を確認 | Victor Letzelter (S2A, IDS), Mathieu Fontaine (S2A, IDS), Micka\"el Chen, Patrick P\'erez, Gael Richard (S2A, IDS), Slim Essid (IDS, S2A) | (参考訳) 本稿では,複数の対象を対象とする回帰分布推定のためのmcl手法の拡張である resilient multiple choice learning (rmcl) を提案する。
多重選択学習は、一連の仮説に対してWinner-Takes-All(WTA)損失を用いて、マルチモーダル密度推定に取り組むための単純なフレームワークである。
回帰設定では、既存のmcl変種は仮説を融合することに集中し、結果として予測の多様性を犠牲にする。
対照的に、本手法は、出力空間のボロノイテッセルレーションに基づく数学的枠組みに基づく新しい学習的スコアリング方式に依存しており、確率論的解釈を導出することができる。
合成データの実験でrMCLを実証的に検証した後、音源定位問題に対する効果をさらに評価し、その実用性と解釈の妥当性を実証した。 We introduce Resilient Multiple Choice Learning (rMCL), an extension of the MCL approach for conditional distribution estimation in regression settings where multiple targets may be sampled for each training input. Multiple Choice Learning is a simple framework to tackle multimodal density estimation, using the Winner-Takes-All (WTA) loss for a set of hypotheses. In regression settings, the existing MCL variants focus on merging the hypotheses, thereby eventually sacrificing the diversity of the predictions. In contrast, our method relies on a novel learned scoring scheme underpinned by a mathematical framework based on Voronoi tessellations of the output space, from which we can derive a probabilistic interpretation. After empirically validating rMCL with experiments on synthetic data, we further assess its merits on the sound source localization problem, demonstrating its practical usefulness and the relevance of its interpretation. | 翻訳日:2023-11-03 14:13:12 公開日:2023-11-02 |
# 分散バッテリレスiotネットワークにおけるベクトル同期を用いたアプリケーションおよびエネルギアウェアデータアグリゲーション Application and Energy-Aware Data Aggregation using Vector Synchronization in Distributed Battery-less IoT Networks ( http://arxiv.org/abs/2311.01050v1 ) ライセンス: Link先を確認 | Chetna Singhal, Subhrajit Barick, and Rishabh Sonkar | (参考訳) バッテリーレスIoT(Internet of Things)デバイスは、次世代無線ネットワークにおける持続可能なグリーンイニシアチブの重要な要素である。
電池不要のデバイスは環境から採取した環境エネルギーを使用する。
エネルギー収穫環境は動的であり、断続的なタスク実行を引き起こす。
回収されたエネルギーは小さなコンデンサに格納され、アプリケーションタスクの実行を保証することは困難である。
主な目標は、センサデータを集約し、分散バッテリレスIoTネットワークで持続可能なアプリケーションサポートを提供するメカニズムを提供することである。
我々は、多くのバッテリフリーIoTセンサハードウェアモジュールと、デバイスエッジクラウド連続体でサポートされている異種IoTアプリケーションからなる分散IoTネットワークシステムをモデル化する。
アプリケーションは、電池レスハードウェアモジュールの分散セットからのセンサデータを必要とし、モジュールアクチュエータのジョイントコントロールが提供される。
本稿では,IoTデバイス用のアプリケーション対応タスクとエネルギマネージャ(ATEM)と,ベクトル同期ベースのデータアグリゲータ(VSDA)を提案する。
atemはデバイスレベルのフェデレーションエネルギー収穫とシステムレベルのエネルギアウェア異種アプリケーション管理によってサポートされている。
提案フレームワークでは,長期記憶(LSTM)モデルを用いて環境エネルギー収穫機から利用可能な電力を予測し,それに応じてデバイスプロファイルとアプリケーションタスク率を設定する。
提案手法は,不均一なアプリケーション要件を無視可能なオーバーヘッドで満たし,データ損失とパケット遅延を低減し,ハードウェアコンポーネントの可用性を向上し,コンポーネントを最先端と比較して早く利用できるようにする。 The battery-less Internet of Things (IoT) devices are a key element in the sustainable green initiative for the next-generation wireless networks. These battery-free devices use the ambient energy, harvested from the environment. The energy harvesting environment is dynamic and causes intermittent task execution. The harvested energy is stored in small capacitors and it is challenging to assure the application task execution. The main goal is to provide a mechanism to aggregate the sensor data and provide a sustainable application support in the distributed battery-less IoT network. We model the distributed IoT network system consisting of many battery-free IoT sensor hardware modules and heterogeneous IoT applications that are being supported in the device-edge-cloud continuum. The applications require sensor data from a distributed set of battery-less hardware modules and there is provision of joint control over the module actuators. We propose an application-aware task and energy manager (ATEM) for the IoT devices and a vector-synchronization based data aggregator (VSDA). The ATEM is supported by device-level federated energy harvesting and system-level energy-aware heterogeneous application management. In our proposed framework the data aggregator forecasts the available power from the ambient energy harvester using long-short-term-memory (LSTM) model and sets the device profile as well as the application task rates accordingly. Our proposed scheme meets the heterogeneous application requirements with negligible overhead; reduces the data loss and packet delay; increases the hardware component availability; and makes the components available sooner as compared to the state-of-the-art. | 翻訳日:2023-11-03 14:12:54 公開日:2023-11-02 |
# 効率的な微調整LDMのための多次元データ精錬戦略 Multi-dimensional data refining strategy for effective fine-tuning LLMs ( http://arxiv.org/abs/2311.01049v1 ) ライセンス: Link先を確認 | Thanh Nguyen Ngoc, Quang Nhat Tran, Arthur Tang, Bao Nguyen, Thuy Nguyen, Thanh Pham | (参考訳) データは、微調整された大きな言語モデルの基礎であるが、適切なデータを取得することは依然として難しい。
課題はデータの不足、言語多様性、ドメイン固有のコンテンツです。
本稿ではベトナム語の微調整モデルに適したクロールおよび精錬時に学んだ教訓について述べる。
このようなデータセットを作成しながら、言語的な複雑さを考慮し、傾きと正確さのバランスを保ちながら、綿密な計画を要求する。
本稿では、既存のデータセットを英語で活用し、生成AIツールの助けを借りてカスタマイズされたデータクローリングスクリプトを開発する多次元戦略を提案する。
ベトナム語用微調整LLMモデルは, ベトナム語ニュース記事をプロンプトから生成しながら, 良好な性能を示した。
この研究はベトナム語のような言語における将来の微調整モデルの実用的な解決策とガイダンスを提供する。 Data is a cornerstone for fine-tuning large language models, yet acquiring suitable data remains challenging. Challenges encompassed data scarcity, linguistic diversity, and domain-specific content. This paper presents lessons learned while crawling and refining data tailored for fine-tuning Vietnamese language models. Crafting such a dataset, while accounting for linguistic intricacies and striking a balance between inclusivity and accuracy, demands meticulous planning. Our paper presents a multidimensional strategy including leveraging existing datasets in the English language and developing customized data-crawling scripts with the assistance of generative AI tools. A fine-tuned LLM model for the Vietnamese language, which was produced using resultant datasets, demonstrated good performance while generating Vietnamese news articles from prompts. The study offers practical solutions and guidance for future fine-tuning models in languages like Vietnamese. | 翻訳日:2023-11-03 14:12:26 公開日:2023-11-02 |
# 高等教育における電子工学科のai支援学習 AI-assisted Learning for Electronic Engineering Courses in High Education ( http://arxiv.org/abs/2311.01048v1 ) ライセンス: Link先を確認 | Thanh Nguyen Ngoc, Quang Nhat Tran, Arthur Tang, Bao Nguyen, Thuy Nguyen, Thanh Pham | (参考訳) 本研究は,アジアの高等教育機関における統合回路システムコースにおけるAI教育・学習支援ツールとしてのChatGPTの有効性を評価する。
様々な質問タイプが完成し、さらなる調査に有用な洞察を得るためにchatgpt応答が評価された。
目的は、ChatGPTのエンジニアリング教育における洞察、パーソナライズされたサポート、インタラクティブな学習体験を提供する能力を評価することである。
この研究には、学生、講師、エンジニアなど、様々な利害関係者の評価と反映が含まれている。
この研究の結果は、AIツールとしてのChatGPTのメリットと限界に光を当て、技術的分野における革新的な学習アプローチの道を開いた。
さらに、この研究は、デジタルトランスフォーメーションが教育分野でどのように展開されるかの理解に寄与する。 This study evaluates the efficacy of ChatGPT as an AI teaching and learning support tool in an integrated circuit systems course at a higher education institution in an Asian country. Various question types were completed, and ChatGPT responses were assessed to gain valuable insights for further investigation. The objective is to assess ChatGPT's ability to provide insights, personalized support, and interactive learning experiences in engineering education. The study includes the evaluation and reflection of different stakeholders: students, lecturers, and engineers. The findings of this study shed light on the benefits and limitations of ChatGPT as an AI tool, paving the way for innovative learning approaches in technical disciplines. Furthermore, the study contributes to our understanding of how digital transformation is likely to unfold in the education sector. | 翻訳日:2023-11-03 14:12:13 公開日:2023-11-02 |
# 知識注入フレームワークの再検討 Revisiting the Knowledge Injection Frameworks ( http://arxiv.org/abs/2311.01150v1 ) ライセンス: Link先を確認 | Peng Fu, Yiming Zhang, Haobo Wang, Weikang Qiu, Junbo Zhao | (参考訳) 近年,GPTなどの大規模言語モデル(LLM)が世界中で大きな影響を与えている。
しかし、これらのLLMを外部知識を利用して垂直領域固有のタスクに適合させる方法は、まだ完全には解決されていない。
実際、この行にはいくつかの作品があり、そのほとんどは対応する知識タプルを関連するテキストサンプルに注入するために構築されたアライメントヒューリスティックに依存している。
しかし、この約束にもかかわらず、我々はこの仕事において重要な問題をユビキタスに特定する。
簡単に言うと、LLMに非整合的(ランダムな)知識タプルを注入することは、整合的知識よりも同等(時として良い)結果が得られる。
そこで我々は,様々な先行研究におけるこのいらいらする発見を徹底的に調査し,さらにその現象に対する潜在的な解釈の連鎖を提供する。
これらすべてに基づいて、簡単なリコミュレート技術を提供しています。
簡単に言えば、この技術の核心は、llmに注入される外部の知識基盤の刈り取りと浄化を、イデオロギー的に重視することにある。
最後に,この手法をほとんどの(すべてではないとしても)知識注入フレームワークや最近のLCMに組み込むことで,上記の健全性問題を克服し,ドメイン適応LDMの性能の境界をさらに推し進めることを示す。 In recent years, large language models (LLMs), such as GPTs, have attained great impact worldwide. However, how to adapt these LLMs to better suit the vertical domain-specific tasks by utilizing external knowledge remains not completely solved. Indeed, there have emerged a few works on this line where most of them rely on an alignment heuristic that is built to inject the corresponding knowledge tuple into the associated text sample. However, despite the promise, we identify a pivotal problem in this work ubiquitously. Simply put, we find that injecting unaligned (i.e., random) knowledge tuple into the LLMs achieves comparable (and sometimes better) results than the aligned knowledge being injected. We therefore take a thorough investigation of this frustrating finding on a variety of related prior work and further provide a chain of potential interpretations for the phenomenon. Based on all that, we offer a simple remediated technique. Briefly, the core of this technique is rooted in an ideological emphasis on the pruning and purification of the external knowledge base to be injected into LLMs. At last, we show that by integrating this technique into most (if not all) knowledge injection frameworks and recent LLMs, it manages to overcome the aforementioned sanity problem and further pushes the boundary of the performance of the domain-adaptive LLMs. | 翻訳日:2023-11-03 14:04:00 公開日:2023-11-02 |
# chinesewebtext: 効果的な評価モデルで抽出した大規模高品質中国語webテキスト Chinesewebtext: Large-scale high-quality Chinese web text extracted with effective evaluation model ( http://arxiv.org/abs/2311.01149v1 ) ライセンス: Link先を確認 | Jianghao Chen, Pu Jian, Tengxiao Xi, Yidong Yi, Chenglin Ding, Qianlong Du, Guibo Zhu, Chengqing Zong, Jinqiao Wang, Jiajun Zhang | (参考訳) 大規模言語モデル(LLM)の開発において、事前学習データのスケールと品質はLLMの能力を形成する上で重要な役割を果たす。
llmsの研究を加速するために、c4 [1]、pill [2]、refineweb [3]、wanjuan [4]のようないくつかの大規模データセットが公開された。
しかし、リリースされているコーパスの大部分は英語に焦点を当てており、webデータからクリーンテキストを抽出するための完全なツールチェーンが不足している。
さらに、コーパスの細かな情報(例えば、各テキストの品質)が欠落している。
これらの課題に対処するため,我々は,ノイズの多いWebデータから中国語のクリーンテキストを抽出するツールチェーンEvalWebを提案する。
まず、以前の作業と同様、手作業によるルールを使用して、生のクロールされたWebコンテンツから明確なノイズのあるテキストを破棄する。
第二に、十分に設計された評価モデルを用いて、残りの比較的クリーンなデータを評価し、各テキストに特定の品質スコアを割り当てる。
最後に、適切なしきい値を利用して、中国語の高品質な事前学習データを選択する。
提案手法を用いて,最大かつ最新の大規模高品質中国語 web テキスト chinesewebtext をリリースし,各テキストに品質スコアが関連付けられ,llm 研究者が所望の品質閾値に応じてデータを選択することができるようにした。
また、品質が90%を超える600GBの中国データのよりクリーンなサブセットもリリースしています。 During the development of large language models (LLMs), the scale and quality of the pre-training data play a crucial role in shaping LLMs' capabilities. To accelerate the research of LLMs, several large-scale datasets, such as C4 [1], Pile [2], RefinedWeb [3] and WanJuan [4], have been released to the public. However, most of the released corpus focus mainly on English, and there is still lack of complete tool-chain for extracting clean texts from web data. Furthermore, fine-grained information of the corpus, e.g. the quality of each text, is missing. To address these challenges, we propose in this paper a new complete tool-chain EvalWeb to extract Chinese clean texts from noisy web data. First, similar to previous work, manually crafted rules are employed to discard explicit noisy texts from the raw crawled web contents. Second, a well-designed evaluation model is leveraged to assess the remaining relatively clean data, and each text is assigned a specific quality score. Finally, we can easily utilize an appropriate threshold to select the high-quality pre-training data for Chinese. Using our proposed approach, we release the largest and latest large-scale high-quality Chinese web text ChineseWebText, which consists of 1.42 TB and each text is associated with a quality score, facilitating the LLM researchers to choose the data according to the desired quality thresholds. We also release a much cleaner subset of 600 GB Chinese data with the quality exceeding 90%. | 翻訳日:2023-11-03 14:03:35 公開日:2023-11-02 |
# Add and Thin: 一時点過程の拡散 Add and Thin: Diffusion for Temporal Point Processes ( http://arxiv.org/abs/2311.01139v1 ) ライセンス: Link先を確認 | David L\"udke, Marin Bilo\v{s}, Oleksandr Shchur, Marten Lienen, Stephan G\"unnemann | (参考訳) 時間的ポイントプロセス(TPP)フレームワーク内の自己回帰ニューラルネットワークは、継続的イベントデータのモデリングの標準となっている。
これらのモデルは1段階の方法でイベントシーケンスを表現的にキャプチャできるが、そのシーケンシャルな性質によるエラーの蓄積により、本質的には長期予測アプリケーションに限られる。
これらの制約を克服するために、イベントシーケンス全体で動作するTPPの原理的確率分解拡散モデルであるADD-THINを導出する。
既存の拡散アプローチとは異なり、ADD-THINは離散的かつ連続的なコンポーネントでデータを自然に処理する。
合成および実世界のデータセットの実験において、我々のモデルは密度推定における最先端のTPPモデルと一致し、予測においてそれらを強く上回る。 Autoregressive neural networks within the temporal point process (TPP) framework have become the standard for modeling continuous-time event data. Even though these models can expressively capture event sequences in a one-step-ahead fashion, they are inherently limited for long-term forecasting applications due to the accumulation of errors caused by their sequential nature. To overcome these limitations, we derive ADD-THIN, a principled probabilistic denoising diffusion model for TPPs that operates on entire event sequences. Unlike existing diffusion approaches, ADD-THIN naturally handles data with discrete and continuous components. In experiments on synthetic and real-world datasets, our model matches the state-of-the-art TPP models in density estimation and strongly outperforms them in forecasting. | 翻訳日:2023-11-03 14:03:09 公開日:2023-11-02 |
# AeroPath: 気道セグメンテーションのベンチマークデータセット AeroPath: An airway segmentation benchmark dataset with challenging pathology ( http://arxiv.org/abs/2311.01138v1 ) ライセンス: Link先を確認 | Karen-Helene St{\o}verud, David Bouget, Andre Pedersen, H{\aa}kon Olav Leira, Thomas Lang{\o}, and Erlend Fagertun Hofstad | (参考訳) 肺癌などの肺疾患に罹患する患者の予後を改善するために、早期診断及び治療が重要である。
CT画像の解析は診断に有用であり,気管支鏡検査の介入計画やライブガイダンスには気道木質の分画が必要である。
最近、マルチドメインairway tree modeling (atm'22) challengeは、ディープラーニングベースのモデルのトレーニングを可能にし、airwayセグメンテーションタスクの最先端の大幅な改善をもたらす、大きなデータセットをリリースした。
しかし、ATM'22データセットには、気道木解剖に影響を及ぼす重症疾患の患者はほとんど含まれていない。
そこで本研究では,気腫から大腫瘍まで27例のCT画像と,それに対応する気管および気管支アノテーションを併用した新しいベンチマークデータセット(AeroPath)を提案する。
第2に,自動気道セグメンテーションのためのマルチスケール核融合設計を提案する。
モデルはATM'22データセットでトレーニングされ、AeroPathデータセットでテストされ、競合するオープンソースメソッドに対してさらに評価された。
ATM'22チャレンジで使用されたのと同じパフォーマンス指標が、異なる検討されたアプローチのベンチマークに使用された。
最後に、新しいデータ上で提案モデルを簡単にテストするために、オープンwebアプリケーションを開発した。
その結果,AeroPath データセットに含まれる全患者に対して,提案したアーキテクチャが位相的に正しいセグメンテーションを予測できた。
提案手法はロバストであり,少なくとも第5の気道発生まで,様々な異常を処理可能である。
さらにAeroPathデータセットは、挑戦的な病態を持つ患者を対象とし、新しい最先端の方法の開発に貢献する。
AeroPathデータセットとWebアプリケーションは公開されています。 To improve the prognosis of patients suffering from pulmonary diseases, such as lung cancer, early diagnosis and treatment are crucial. The analysis of CT images is invaluable for diagnosis, whereas high quality segmentation of the airway tree are required for intervention planning and live guidance during bronchoscopy. Recently, the Multi-domain Airway Tree Modeling (ATM'22) challenge released a large dataset, both enabling training of deep-learning based models and bringing substantial improvement of the state-of-the-art for the airway segmentation task. However, the ATM'22 dataset includes few patients with severe pathologies affecting the airway tree anatomy. In this study, we introduce a new public benchmark dataset (AeroPath), consisting of 27 CT images from patients with pathologies ranging from emphysema to large tumors, with corresponding trachea and bronchi annotations. Second, we present a multiscale fusion design for automatic airway segmentation. Models were trained on the ATM'22 dataset, tested on the AeroPath dataset, and further evaluated against competitive open-source methods. The same performance metrics as used in the ATM'22 challenge were used to benchmark the different considered approaches. Lastly, an open web application is developed, to easily test the proposed model on new data. The results demonstrated that our proposed architecture predicted topologically correct segmentations for all the patients included in the AeroPath dataset. The proposed method is robust and able to handle various anomalies, down to at least the fifth airway generation. In addition, the AeroPath dataset, featuring patients with challenging pathologies, will contribute to development of new state-of-the-art methods. The AeroPath dataset and the web application are made openly available. | 翻訳日:2023-11-03 14:02:57 公開日:2023-11-02 |
# PySCF$_{\text{IPU}}$でQM1Bを生成する Generating QM1B with PySCF$_{\text{IPU}}$ ( http://arxiv.org/abs/2311.01135v1 ) ライセンス: Link先を確認 | Alexander Mathiasen, Hatem Helal, Kerstin Klaser, Paul Balanca, Josef Dean, Carlo Luschi, Dominique Beaini, Andrew Fitzgibbon, Dominic Masters | (参考訳) コンピュータビジョンと自然言語処理における基礎モデルの出現は、下流タスクの大幅な進歩をもたらした。
この進歩は、数十億のトレーニング例を持つデータセットによって実現された。
量子化学では、ディープラーニングの可能性は、1万から2000万のトレーニング例を持つ比較的小さなデータセットによって制限されている。
これらのデータセットは、密度汎関数理論(DFT)の正確な(しかし計算に要求される)予測を用いてラベルが計算されるため、サイズが制限される。
特に、以前のDFTデータセットはハードウェアアクセラレーションを使わずにCPUスーパーコンピュータを使用して作成された。
本稿では,インテリジェンス処理ユニット(IPU)を用いたデータジェネレータPySCF$_{\text{IPU}}$を導入することにより,ハードウェアアクセラレータの活用に向けた第一歩を踏み出す。
これにより、9-11重原子を含む10億のトレーニング例でデータセットのQM1Bを作成することができます。
簡単なベースラインニューラルネットワーク(SchNet 9M)は、インダクティブバイアスを伴わずにトレーニングデータの量を増やすことで、その性能を向上させることを実証する。
将来の研究者がQM1Bの責任を負うようにするために、QM1Bのいくつかの制限を強調し、DFTオプションの低解像度を強調します。
コードとデータセットはgithubで入手できる。 http://github.com/graphcore-research/pyscf-ipu The emergence of foundation models in Computer Vision and Natural Language Processing have resulted in immense progress on downstream tasks. This progress was enabled by datasets with billions of training examples. Similar benefits are yet to be unlocked for quantum chemistry, where the potential of deep learning is constrained by comparatively small datasets with 100k to 20M training examples. These datasets are limited in size because the labels are computed using the accurate (but computationally demanding) predictions of Density Functional Theory (DFT). Notably, prior DFT datasets were created using CPU supercomputers without leveraging hardware acceleration. In this paper, we take a first step towards utilising hardware accelerators by introducing the data generator PySCF$_{\text{IPU}}$ using Intelligence Processing Units (IPUs). This allowed us to create the dataset QM1B with one billion training examples containing 9-11 heavy atoms. We demonstrate that a simple baseline neural network (SchNet 9M) improves its performance by simply increasing the amount of training data without additional inductive biases. To encourage future researchers to use QM1B responsibly, we highlight several limitations of QM1B and emphasise the low-resolution of our DFT options, which also serves as motivation for even larger, more accurate datasets. Code and dataset are available on Github: http://github.com/graphcore-research/pyscf-ipu | 翻訳日:2023-11-03 14:02:28 公開日:2023-11-02 |
# パラプセストにおける重なり文字の意味セグメンテーションに関する深層学習実験 A deep learning experiment for semantic segmentation of overlapping characters in palimpsests ( http://arxiv.org/abs/2311.01130v1 ) ライセンス: Link先を確認 | Michela Perino, Michele Ginolfi, Anna Candida Felici, Michela Rosellini | (参考訳) パリンプセスト(palimpsests)は、消去された文章が第2の文章の重ね合わせによって部分的に覆われた歴史写本を指す。
マルチスペクトルイメージングなどの撮像技術を用いることで、減衰・消去したインクを含む肉眼では知覚できない特徴を識別することができる。
重なり合うインクを扱う場合、人工知能技術は重なり合う文字の複雑なノードをアンタングルするために利用できる。
本研究では,重複文字中の個々の文字を識別・分割する方法として,深層学習に基づく意味セグメンテーションを提案する。
この実験は、PriscianoによるArs Grammaticaの寄生虫に焦点をあてた概念実証として考案された。
また,本手法とマルチスペクトルイメージングの併用の可能性についても考察した。 Palimpsests refer to historical manuscripts where erased writings have been partially covered by the superimposition of a second writing. By employing imaging techniques, e.g., multispectral imaging, it becomes possible to identify features that are imperceptible to the naked eye, including faded and erased inks. When dealing with overlapping inks, Artificial Intelligence techniques can be utilized to disentangle complex nodes of overlapping letters. In this work, we propose deep learning-based semantic segmentation as a method for identifying and segmenting individual letters in overlapping characters. The experiment was conceived as a proof of concept, focusing on the palimpsests of the Ars Grammatica by Prisciano as a case study. Furthermore, caveats and prospects of our approach combined with multispectral imaging are also discussed. | 翻訳日:2023-11-03 14:02:06 公開日:2023-11-02 |
# EHA:固有解像器用エンタングルメント可変ハードウェア効率アンサッツ EHA: Entanglement-variational Hardware-efficient Ansatz for Eigensolvers ( http://arxiv.org/abs/2311.01120v1 ) ライセンス: Link先を確認 | Xin Wang, Bo Qi, Yabo Wang, Daoyi Dong | (参考訳) 変分量子固有解法 (VQEs) は量子コンピューティングの最も重要かつ効果的な応用の1つであり、特に現在の雑音の中間スケール量子 (NISQ) 時代においてである。
VQEには主に2つの方法がある。
問題に依存しない手法では、トレーサビリティの問題に苦しむことが多い。
問題固有の手法では、その性能は通常、しばしば決定が難しい初期参照状態の選択に依存する。
本稿では,量子多体系と量子化学のベンチマーク問題を解くことで,エンタングルメント可変ハードウェア効率アンザイズ (EHA) と広く使われているアンザイズを数値的に比較する。
我々のEHAは問題に依存しないハードウェア効率であり、特にNISQデバイスに適している。
EHAは、問題固有の手法と比較して、ほとんどの場合において基底状態とそのエネルギーを見つける際に高いレベルの精度を達成することができる。
EHAの性能は初期状態とパラメータの初期化の選択に頑健であり、必要な量への絡み合いを迅速に調整する能力を持っている。 Variational quantum eigensolvers (VQEs) are one of the most important and effective applications of quantum computing, especially in the current noisy intermediate-scale quantum (NISQ) era. There are mainly two ways for VQEs: problem-agnostic and problem-specific. For problem-agnostic methods, they often suffer from trainability issues. For problem-specific methods, their performance usually relies upon choices of initial reference states which are often hard to determine. In this paper, we propose an Entanglement-variational Hardware-efficient Ansatz (EHA), and numerically compare it with some widely used ansatzes by solving benchmark problems in quantum many-body systems and quantum chemistry. Our EHA is problem-agnostic and hardware-efficient, especially suitable for NISQ devices and having potential for wide applications. EHA can achieve a higher level of accuracy in finding ground states and their energies in most cases even compared with problem-specific methods. The performance of EHA is robust to choices of initial states and parameters initialization and it has the ability to quickly adjust the entanglement to the required amount, which is also the fundamental reason for its superiority. | 翻訳日:2023-11-03 14:01:54 公開日:2023-11-02 |
# 解釈可能な化学のためのAI:コントラスト学習によるラジカル力学経路の予測 AI for Interpretable Chemistry: Predicting Radical Mechanistic Pathways via Contrastive Learning ( http://arxiv.org/abs/2311.01118v1 ) ライセンス: Link先を確認 | Mohammadamin Tavakoli, Yin Ting T.Chiu, Alexander Shmakov, Ann Marie Carlton, David Van Vranken, Pierre Baldi | (参考訳) ディープラーニングに基づく反応予測器は、重要なアーキテクチャの進化を遂げている。
しかし、米国特許庁からの反応への依存は、解釈可能な予測の欠如と、ラジカルや大気化学のような他の化学領域への一般化能力の制限をもたらす。
これらの課題に対処するため,反応予測システムRMechRPを導入し,化学反応の最も解釈可能な表現である機械的経路と対比学習を併用した。
具体的にはラジカル反応のために設計され、RMechRPは化学反応の解釈レベルが異なる。
我々は,ラジカル反応の公開データベースであるrmechdbを用いて,複数のディープラーニングモデルを開発し,学習し,ラジカル反応を予測するための最初のベンチマークを確立する。
その結果, RMechRPがラジカル反応の高精度かつ解釈可能な予測に有効であること, 大気化学における様々な応用の可能性を示した。 Deep learning-based reaction predictors have undergone significant architectural evolution. However, their reliance on reactions from the US Patent Office results in a lack of interpretable predictions and limited generalization capability to other chemistry domains, such as radical and atmospheric chemistry. To address these challenges, we introduce a new reaction predictor system, RMechRP, that leverages contrastive learning in conjunction with mechanistic pathways, the most interpretable representation of chemical reactions. Specifically designed for radical reactions, RMechRP provides different levels of interpretation of chemical reactions. We develop and train multiple deep-learning models using RMechDB, a public database of radical reactions, to establish the first benchmark for predicting radical reactions. Our results demonstrate the effectiveness of RMechRP in providing accurate and interpretable predictions of radical reactions, and its potential for various applications in atmospheric chemistry. | 翻訳日:2023-11-03 14:01:33 公開日:2023-11-02 |
# cheating depth: 深度シミュレーションによる3次元表面異常検出の強化 Cheating Depth: Enhancing 3D Surface Anomaly Detection via Depth Simulation ( http://arxiv.org/abs/2311.01117v1 ) ライセンス: Link先を確認 | Vitjan Zavrtanik, Matej Kristan, Danijel Sko\v{c}aj | (参考訳) RGBによる表面異常検出法は大幅に進歩している。
しかし、特定の表面異常はrgb単独では事実上見えず、3d情報の取り込みが必要となる。
ポイントクラウドバックボーンを使用する既存のアプローチは、最適化下表現と、処理の遅さによる適用性の低下に悩まされている。
産業深度データセット上での高密度入力処理を高速化するために設計されたRGBバックボーンの再トレーニングは、十分な大規模なデータセットの可用性の制限によって妨げられる。
これらの課題に対処するために、私たちはいくつかの貢献をしています。
(i)3次元表面異常検出のためにrgbと3dデータを共同でモデル化する汎用離散潜在空間を学習できる新しい奥行き認識型離散オートエンコーダ(dada)アーキテクチャを提案する。
(2)深度エンコーダにおける情報深度特徴を学習するためのシミュレーションプロセスを導入することにより,多様な産業深度データセットの欠如に対処する。
3) 既存のMVTec3D異常検出ベンチマークにおいて, 精度と処理速度の両面において, 従来技術よりも優れた表面異常検出手法3DSRを提案する。
提案手法の有効性と有効性を検証し,表面異常検出の改善に深度情報を活用する可能性を強調した。 RGB-based surface anomaly detection methods have advanced significantly. However, certain surface anomalies remain practically invisible in RGB alone, necessitating the incorporation of 3D information. Existing approaches that employ point-cloud backbones suffer from suboptimal representations and reduced applicability due to slow processing. Re-training RGB backbones, designed for faster dense input processing, on industrial depth datasets is hindered by the limited availability of sufficiently large datasets. We make several contributions to address these challenges. (i) We propose a novel Depth-Aware Discrete Autoencoder (DADA) architecture, that enables learning a general discrete latent space that jointly models RGB and 3D data for 3D surface anomaly detection. (ii) We tackle the lack of diverse industrial depth datasets by introducing a simulation process for learning informative depth features in the depth encoder. (iii) We propose a new surface anomaly detection method 3DSR, which outperforms all existing state-of-the-art on the challenging MVTec3D anomaly detection benchmark, both in terms of accuracy and processing speed. The experimental results validate the effectiveness and efficiency of our approach, highlighting the potential of utilizing depth information for improved surface anomaly detection. | 翻訳日:2023-11-03 14:01:19 公開日:2023-11-02 |
# 外部誘導による事前学習言語モデルのノイズロバスト微調整 Noise-Robust Fine-Tuning of Pretrained Language Models via External Guidance ( http://arxiv.org/abs/2311.01108v1 ) ライセンス: Link先を確認 | Song Wang, Zhen Tan, Ruocheng Guo, Jundong Li | (参考訳) 2段階の事前訓練のパラダイムを採用し、微調整された事前学習言語モデル(PLM)は自然言語処理の分野で大きな進歩を遂げた。
しかし、現実のシナリオでは、複雑なアノテーションプロセスのため、データラベルはノイズが多いため、このようなノイズの多いラベルでplmを微調整するための戦略を開発することが不可欠である。
そこで我々は,ChatGPTのような大規模言語モデル(LLM)のガイダンスを組み込んだ,ノイズラベルを用いた微調整PLMの革新的なアプローチを提案する。
この指導は、クリーンサンプルとノイズサンプルの区別を高精度に支援し、ノイズラベルを超えた補足情報を提供し、plmの微調整時の学習プロセスを促進させる。
合成および実世界の騒がしいデータセットに関する広範な実験は、最先端のベースラインよりも優れたフレームワークの利点をさらに示しています。 Adopting a two-stage paradigm of pretraining followed by fine-tuning, Pretrained Language Models (PLMs) have achieved substantial advancements in the field of natural language processing. However, in real-world scenarios, data labels are often noisy due to the complex annotation process, making it essential to develop strategies for fine-tuning PLMs with such noisy labels. To this end, we introduce an innovative approach for fine-tuning PLMs using noisy labels, which incorporates the guidance of Large Language Models (LLMs) like ChatGPT. This guidance assists in accurately distinguishing between clean and noisy samples and provides supplementary information beyond the noisy labels, thereby boosting the learning process during fine-tuning PLMs. Extensive experiments on synthetic and real-world noisy datasets further demonstrate the superior advantages of our framework over the state-of-the-art baselines. | 翻訳日:2023-11-03 14:00:58 公開日:2023-11-02 |
# GREEMA:地すべり災害を想定した環境マテリア食による成長ロボットの提案と実験検証 GREEMA: Proposal and Experimental Verification of Growing Robot by Eating Environmental MAterial for Landslide Disaster ( http://arxiv.org/abs/2311.01107v1 ) ライセンス: Link先を確認 | Yusuke Tsunoda, Yuya Sato, and Koichi Osuka | (参考訳) 月面や地すべりなどの人間がアクセスできない地域では、複数の自律移動ロボットシステムが必要であり、人間の作業員を置き換えることができる。
特に河川封鎖などの地すべり地では、できるだけ早く現場から水や土砂を取り除くロボットが求められている。
従来、いくつかの建設機械が土木工事のために現場に配備されてきた。
しかし, 従来の工事設備の大型化と重量化のため, 建設設備の複数ユニットを移動させることは困難であり, 交通費や時間的にも有益である。
そこで本研究では,GREEMAと呼ばれる,移動時に軽量でコンパクトな環境材料を食べることで,現場に着くと環境材料で食べることで機能する,新しい成長ロボットを提案する。
GREEMAは、水や堆積物などの環境物質を積極的に取り込み、その構造として利用し、自身を移動させて除去する。
本稿では,2種類のGREEMAを試作し,実験的に検証した。
まず,吸水性高分子を用いて受動的に体中に水分を取り込み,体を形成して水泳機能を表現するフィン型水泳ロボットを開発した。
第二に,身体の剛性を高めるために土壌を食べるアーム型ロボットを構築した。
本稿では,これらの2つの実験の結果を明示的・実証的制御の観点から考察し,GREEMAの設計理論について述べる。 In areas that are inaccessible to humans, such as the lunar surface and landslide sites, there is a need for multiple autonomous mobile robot systems that can replace human workers. In particular, at landslide sites such as river channel blockages, robots are required to remove water and sediment from the site as soon as possible. Conventionally, several construction machines have been deployed to the site for civil engineering work. However, because of the large size and weight of conventional construction equipment, it is difficult to move multiple units of construction equipment to the site, resulting in significant transportation costs and time. To solve such problems, this study proposes a novel growing robot by eating environmental material called GREEMA, which is lightweight and compact during transportation, but can function by eating on environmental materials once it arrives at the site. GREEMA actively takes in environmental materials such as water and sediment, uses them as its structure, and removes them by moving itself. In this paper, we developed and experimentally verified two types of GREEMAs. First, we developed a fin-type swimming robot that passively takes water into its body using a water-absorbing polymer and forms a body to express its swimming function. Second, we constructed an arm-type robot that eats soil to increase the rigidity of its body. We discuss the results of these two experiments from the viewpoint of Explicit-Implicit control and describe the design theory of GREEMA. | 翻訳日:2023-11-03 14:00:43 公開日:2023-11-02 |
# 校正・一貫した学習のためのソフトマックスパラメトリゼーションの防除法 In Defense of Softmax Parametrization for Calibrated and Consistent Learning to Defer ( http://arxiv.org/abs/2311.01106v1 ) ライセンス: Link先を確認 | Yuzhou Cao, Hussein Mozannar, Lei Feng, Hongxin Wei, Bo An | (参考訳) 機械学習の分類器を導入して、専門家がより正確であれば、その決定を下流の専門家に延期することで、安全性とパフォーマンスが向上する。
この目標は、相互に分類し、専門家に推論する方法を学ぶことを目的とした、learning-to-deferフレームワークによって達成される。
近年の研究では、パラメータをソフトマックスで遅延させる学習のための一般的な推定器が、遅延する可能性の非有界推定を提供することが理論的に示されている。
しかし、これが広く使われているソフトマックスパラメータ化によるものなのか、また統計的に一貫した確率推定器を持つソフトマックスベースの推定器が見つかるかどうかは不明である。
本研究では,従来の文献における誤校正・非有界推定器の原因は,ソフトマックスによるものではなく,サロゲート損失の対称的性質によるものであることを示す。
次に,非有界性の問題なく有効な推定値を生成することのできる,統計的に一貫した非対称なソフトマックスベースのサロゲート損失を提案する。
さらに,本手法の非漸近特性を解析し,その性能とキャリブレーションをベンチマークデータセット上で実証的に検証する。 Enabling machine learning classifiers to defer their decision to a downstream expert when the expert is more accurate will ensure improved safety and performance. This objective can be achieved with the learning-to-defer framework which aims to jointly learn how to classify and how to defer to the expert. In recent studies, it has been theoretically shown that popular estimators for learning to defer parameterized with softmax provide unbounded estimates for the likelihood of deferring which makes them uncalibrated. However, it remains unknown whether this is due to the widely used softmax parameterization and if we can find a softmax-based estimator that is both statistically consistent and possesses a valid probability estimator. In this work, we first show that the cause of the miscalibrated and unbounded estimator in prior literature is due to the symmetric nature of the surrogate losses used and not due to softmax. We then propose a novel statistically consistent asymmetric softmax-based surrogate loss that can produce valid estimates without the issue of unboundedness. We further analyze the non-asymptotic properties of our method and empirically validate its performance and calibration on benchmark datasets. | 翻訳日:2023-11-03 14:00:20 公開日:2023-11-02 |
# ADAPT-QSCI:量子選択型構成相互作用のための入力状態の適応的構築 ADAPT-QSCI: Adaptive Construction of Input State for Quantum-Selected Configuration Interaction ( http://arxiv.org/abs/2311.01105v1 ) ライセンス: Link先を確認 | Yuya O. Nakagawa, Masahiko Kamoshita, Wataru Mizukami, Shotaro Sudo, and Yu-ya Ohnishi | (参考訳) 本稿では、量子選択構成相互作用(QSCI)法における量子状態の適応的な構成を提案し、量子多体ハミルトンの基底状態とそのエネルギーを計算する量子古典ハイブリッドアルゴリズムを提案する。
QSCIにより、量子コンピュータ上で適切な入力量子状態の測定をサンプリングすることで、CI計算(ハミルトニアン部分空間対角化)を行うためのシステム内の重要な電子構成を選択できるが、どのようにして望ましい入力状態を作成するかは課題のままである。
本稿では、繰り返しQSCIを実行して入力状態を反復的に成長させるQSCIの入力状態の適応的構築を提案する。
我々は,2量子ゲートの誤差率と測定値が最大1\%である8量子ビットのノイズを含む,小分子に対して正確な基底状態エネルギーが得られることを数値的に説明する。
adapt-qsciは、現在の雑音量子デバイスを利用して量子化学への応用を推し進める有望な方法である。 We present a quantum-classical hybrid algorithm for calculating the ground state and its energy of the quantum many-body Hamiltonian by proposing an adaptive construction of a quantum state for the quantum-selected configuration interaction (QSCI) method. QSCI allows us to select important electronic configurations in the system to perform CI calculation (subspace diagonalization of the Hamiltonian) by sampling measurement for a proper input quantum state on a quantum computer, but how we prepare a desirable input state has remained a challenge. We propose an adaptive construction of the input state for QSCI in which we run QSCI repeatedly to grow the input state iteratively. We numerically illustrate that our method, dubbed \textit{ADAPT-QSCI}, can yield accurate ground-state energies for small molecules, including a noisy situation for eight qubits where error rates of two-qubit gates and the measurement are both as large as 1\%. ADAPT-QSCI serves as a promising method to take advantage of current noisy quantum devices and pushes forward its application to quantum chemistry. | 翻訳日:2023-11-03 13:59:58 公開日:2023-11-02 |
# 胸部x線写真解釈のための統一的・カスタマイズされた命令チューニングによるマルチタスクトランスフォーマの学習 Learning A Multi-Task Transformer Via Unified And Customized Instruction Tuning For Chest Radiograph Interpretation ( http://arxiv.org/abs/2311.01092v1 ) ライセンス: Link先を確認 | Lijian Xu, Ziyu Ni, Xinglong Liu, Xiaosong Wang, Hongsheng Li, and Shaoting Zhang | (参考訳) マルチモーダルディープラーニングモデルの出現は,過去10年間に臨床応用に大きな影響を与えてきた。
しかし、ほとんどのモデルはシングルタスクに限られており、病気の診断は実際はマルチタスクの手順である。
本稿では,カスタマイズした命令調律を組み込んだマルチモーダル臨床タスク用に設計された統一トランスフォーマーモデルを示す。
まず、画像レベルのタスクと画素レベルのタスクの両方を含む、カスタマイズされたチューニングのための134万の命令と(約100万のラジオグラフを含む)地対からなるマルチタスクトレーニングデータセットを構成する。
そこで, 同種モデル入力と出力を用いて, 視覚集約的なタスクを単一学習フレームワークに統合し, 臨床解釈性の向上を図る。
最後に,複数タスクの胸部X線ベンチマークにおいて,直接推論と微調整の両方で先行技術と比較して,モデル全体の優れた性能を示す。
3人の放射線学者が記録されたものに対する報告を更に評価し、マルチタスクモデルの強化された説明可能性を示した。 The emergence of multi-modal deep learning models has made significant impacts on clinical applications in the last decade. However, the majority of models are limited to single-tasking, without considering disease diagnosis is indeed a multi-task procedure. Here, we demonstrate a unified transformer model specifically designed for multi-modal clinical tasks by incorporating customized instruction tuning. We first compose a multi-task training dataset comprising 13.4 million instruction and ground-truth pairs (with approximately one million radiographs) for the customized tuning, involving both image- and pixel-level tasks. Thus, we can unify the various vision-intensive tasks in a single training framework with homogeneous model inputs and outputs to increase clinical interpretability in one reading. Finally, we demonstrate the overall superior performance of our model compared to prior arts on various chest X-ray benchmarks across multi-tasks in both direct inference and finetuning settings. Three radiologists further evaluate the generated reports against the recorded ones, which also exhibit the enhanced explainability of our multi-task model. | 翻訳日:2023-11-03 13:59:38 公開日:2023-11-02 |
# コンテキスト信頼と生成AI Contextual Confidence and Generative AI ( http://arxiv.org/abs/2311.01193v1 ) ライセンス: Link先を確認 | Shrey Jain, Zo\"e Hitzig, Pamela Mishkin | (参考訳) 生成AIモデルは、効果的なヒューマンコミュニケーションの基礎を混乱させる。
彼らは,コミュニケーションの真正なコンテキストを識別する参加者の能力と,その意図したコンテキスト外の再利用と再結合からコミュニケーションを保護する能力に,新たな課題を提示した。
本稿では,これらの課題に直面するコミュニケーションの安定化を目的とした,ツール,技術,政策の戦略について述べる。
議論する戦略は2つの幅広いカテゴリに分類される。
封じ込め戦略は、現在脅かされている環境でコンテキストを再保証することを目的としており、インターネットが確立した文脈自由な期待と規範に対する反応である。
対照的に、モビライゼーション戦略は、生成的AIの台頭を、介在的コミュニケーションにおけるプライバシと認証に関する新たな高い期待を積極的に設定する機会として捉えている。 Generative AI models perturb the foundations of effective human communication. They present new challenges to contextual confidence, disrupting participants' ability to identify the authentic context of communication and their ability to protect communication from reuse and recombination outside its intended context. In this paper, we describe strategies--tools, technologies and policies--that aim to stabilize communication in the face of these challenges. The strategies we discuss fall into two broad categories. Containment strategies aim to reassert context in environments where it is currently threatened--a reaction to the context-free expectations and norms established by the internet. Mobilization strategies, by contrast, view the rise of generative AI as an opportunity to proactively set new and higher expectations around privacy and authenticity in mediated communication. | 翻訳日:2023-11-03 13:52:31 公開日:2023-11-02 |
# エッジ二重シーングラフとメッセージパッシングニューラルネットワークを用いた意味シーングラフ生成 Semantic Scene Graph Generation Based on an Edge Dual Scene Graph and Message Passing Neural Network ( http://arxiv.org/abs/2311.01192v1 ) ライセンス: Link先を確認 | Hyeongjin Kim, Sangwon Kim, Jong Taek Lee, Byoung Chul Ko | (参考訳) 生成AIとともに、画像内のオブジェクト間の関係や相互作用を包括的にキャプチャし、構造化グラフベースの表現を生成するシーングラフ生成(SGG)への関心が近年著しく高まっている。
しかしながら、オブジェクト中心関係とディコトナス関係に依存する既存のsgg法は、詳細な関係を正確に予測する能力に制限がある。
これらの問題を解決するために,edge dual scene graph generation (edgesgg) と呼ばれる多目的関係モデリングの新しいアプローチが提案されている。
edgesggは、エッジのデュアルシーングラフとデュアルメッセージパッシングニューラルネットワーク(dualmpnn)をベースとしている。
対称グラフ構造を持つエッジデュアルシーングラフの学習を容易にするため,提案するDualMPNNでは,オブジェクト間の関係をより正確に予測し,オブジェクト間の微粒な関係更新を可能にする。
SGG操作のための2つの公開データセットと3つのサブタスクのための6つのメトリクスを用いて、最先端(SoTA)手法の比較実験を行った。
SoTAのアプローチと比較すると,提案手法は全SGGサブタスクに対して大幅な性能向上を示した。
さらに, 長期分布実験により, オブジェクト間の関係を組み込むことで, 既存の長期問題を効果的に軽減できることが判明した。 Along with generative AI, interest in scene graph generation (SGG), which comprehensively captures the relationships and interactions between objects in an image and creates a structured graph-based representation, has significantly increased in recent years. However, relying on object-centric and dichotomous relationships, existing SGG methods have a limited ability to accurately predict detailed relationships. To solve these problems, a new approach to the modeling multiobject relationships, called edge dual scene graph generation (EdgeSGG), is proposed herein. EdgeSGG is based on a edge dual scene graph and Dual Message Passing Neural Network (DualMPNN), which can capture rich contextual interactions between unconstrained objects. To facilitate the learning of edge dual scene graphs with a symmetric graph structure, the proposed DualMPNN learns both object- and relation-centric features for more accurately predicting relation-aware contexts and allows fine-grained relational updates between objects. A comparative experiment with state-of-the-art (SoTA) methods was conducted using two public datasets for SGG operations and six metrics for three subtasks. Compared with SoTA approaches, the proposed model exhibited substantial performance improvements across all SGG subtasks. Furthermore, experiment on long-tail distributions revealed that incorporating the relationships between objects effectively mitigates existing long-tail problems. | 翻訳日:2023-11-03 13:52:10 公開日:2023-11-02 |
# VIGraph: クラス不均衡ノード分類のための自己教師型学習 VIGraph: Self-supervised Learning for Class-Imbalanced Node Classification ( http://arxiv.org/abs/2311.01191v1 ) ライセンス: Link先を確認 | Yulan Hu, Sheng Ouyang, Zhirui Yang, Yong Liu | (参考訳) グラフデータのクラス不均衡はノード分類に重大な課題をもたらす。
SMOTEベースのアプローチで表現された既存の手法は、この問題を部分的に緩和するが、いまだに不均衡なシナリオ構築中に制限を示す。
自己教師付き学習(SSL)は、少数ノードをデータ自身から合成することで、有望なソリューションを提供する。
本稿では、SMOTEベースのアプローチの限界を分析し、変動推論(VI)を利用して少数ノードを生成する自己教師付き変分グラフオートエンコーダ(VGAE)に基づく新しいSSLモデルVIGraphを導入する。
特に、VIGraphは不均衡グラフを構築する際に不均衡の概念に固執し、生成VGAEを利用して少数ノードを生成する。
さらにvigraphは、生成されたノードの全体的な品質を改善するために、デコーディングフェーズにおける新しいシアームのコントラスト戦略を導入する。
vigraphは、元のグラフに再統合することなく、高品質なノードを生成することができ、smoteベースのメソッドに見られる"生成、再統合、再トレーニング"プロセスを排除することができる。
複数の実世界のデータセットの実験により、VIGraphはクラス不均衡なノード分類タスクに対して有望な結果が得られることが示された。 Class imbalance in graph data poses significant challenges for node classification. Existing methods, represented by SMOTE-based approaches, partially alleviate this issue but still exhibit limitations during imbalanced scenario construction. Self-supervised learning (SSL) offers a promising solution by synthesizing minority nodes from the data itself, yet its potential remains unexplored. In this paper, we analyze the limitations of SMOTE-based approaches and introduce VIGraph, a novel SSL model based on the self-supervised Variational Graph Auto-Encoder (VGAE) that leverages Variational Inference (VI) to generate minority nodes. Specifically, VIGraph strictly adheres to the concept of imbalance when constructing imbalanced graphs and utilizes the generative VGAE to generate minority nodes. Moreover, VIGraph introduces a novel Siamese contrastive strategy at the decoding phase to improve the overall quality of generated nodes. VIGraph can generate high-quality nodes without reintegrating them into the original graph, eliminating the "Generating, Reintegrating, and Retraining" process found in SMOTE-based methods. Experiments on multiple real-world datasets demonstrate that VIGraph achieves promising results for class-imbalanced node classification tasks. | 翻訳日:2023-11-03 13:51:27 公開日:2023-11-02 |
# Terrin-Informed Self-Supervised Learning:限定アノテーションによるLiDARデータからのフットプリント抽出の強化 Terrain-Informed Self-Supervised Learning: Enhancing Building Footprint Extraction from LiDAR Data with Limited Annotations ( http://arxiv.org/abs/2311.01188v1 ) ライセンス: Link先を確認 | Anuja Vats, David V\"olgyes, Martijn Vermeer, Marius Pedersen, Kiran Raja, Daniele S.M.Fantin and Jacob Alexander Hay | (参考訳) 地理空間データから建築フットプリントマップを推定することは、都市計画、開発、災害管理、その他様々な用途において最重要となる。
ディープラーニング手法はセグメンテーションマップの構築において注目され、広範な後処理なしに正確なフットプリント抽出を約束している。
しかし、これらの手法は、特にリモートセンシングにおいて、正確なラベルを得るのに高価かつ時間を要するような一般化とラベル効率の課題に直面している。
これらの課題に対処するために,LiDARデータからのデジタル標高モデルを用いて,リモートセンシングに適した地形認識型自己教師学習を提案する。
我々は,裸地と重畳構造を区別するモデルを学習し,ピクセルレベルのアノテーションを使わずに暗黙的にドメイン関連機能を学習できるようにする。
ラベルの異なるテストデータセット上でのセグメンテーション性能を評価することにより,提案手法の有効性を検証する。
注目すべきは、ラベルのわずか1%(25のラベル付き例に相当する)で、この手法はImageNet事前学習よりも改善され、リモートセンシングの領域における特徴抽出にラベル付きデータを活用する利点が示される。
少数のシナリオではパフォーマンス改善がより顕著になり、ラベル分数の増加に伴ってimagenetの事前トレーニングによるギャップが徐々に狭まる。
我々は,本手法の一般化可能性を示すために,かなりの分布シフトとラベル付け誤差を特徴とするデータセットをテストする。
imagenetプリトレーニングやより複雑なアーキテクチャなど、他のベースラインと比較すると、我々のアプローチは一貫してパフォーマンスが向上し、自己教師付き地形認識機能学習の効率と有効性が示されます。 Estimating building footprint maps from geospatial data is of paramount importance in urban planning, development, disaster management, and various other applications. Deep learning methodologies have gained prominence in building segmentation maps, offering the promise of precise footprint extraction without extensive post-processing. However, these methods face challenges in generalization and label efficiency, particularly in remote sensing, where obtaining accurate labels can be both expensive and time-consuming. To address these challenges, we propose terrain-aware self-supervised learning, tailored to remote sensing, using digital elevation models from LiDAR data. We propose to learn a model to differentiate between bare Earth and superimposed structures enabling the network to implicitly learn domain-relevant features without the need for extensive pixel-level annotations. We test the effectiveness of our approach by evaluating building segmentation performance on test datasets with varying label fractions. Remarkably, with only 1% of the labels (equivalent to 25 labeled examples), our method improves over ImageNet pre-training, showing the advantage of leveraging unlabeled data for feature extraction in the domain of remote sensing. The performance improvement is more pronounced in few-shot scenarios and gradually closes the gap with ImageNet pre-training as the label fraction increases. We test on a dataset characterized by substantial distribution shifts and labeling errors to demonstrate the generalizability of our approach. When compared to other baselines, including ImageNet pretraining and more complex architectures, our approach consistently performs better, demonstrating the efficiency and effectiveness of self-supervised terrain-aware feature learning. | 翻訳日:2023-11-03 13:50:28 公開日:2023-11-02 |
# パンデミックベースのフォグクラウドコンピューティングアーキテクチャにおける医療イメージ分析の革新 Revolutionizing Healthcare Image Analysis in Pandemic-Based Fog-Cloud Computing Architectures ( http://arxiv.org/abs/2311.01185v1 ) ライセンス: Link先を確認 | Al Zahraa Elsayed, Khalil Mohamed, Hany Harb | (参考訳) パンデミックの発生は、医療データ分析における効果的なソリューションの必要性を著しく強調している。
この領域で特に課題となるのは、X線やCTスキャンなどの医療画像の手動検査である。
このプロセスは時間のかかる作業であり、集中型クラウドコンピューティングサーバにイメージを転送する複雑な作業を伴う。
さらに、画像解析のスピードと精度は、効率的な医療画像管理に不可欠である。
本稿では,人工知能(AI)の能力を活用することによって,分析効率と精度の課題に取り組む,革新的な医療アーキテクチャを提案する。
具体的には、フォグコンピューティングを利用して画像解析用に設計された修正畳み込みニューラルネットワーク(cnn)を提案する。
CNN層の異なるアーキテクチャを徹底的に検討し、全体的なパフォーマンスを最適化するために評価する。
提案手法の有効性を示すために,X線画像のデータセットを用いて分析と評価を行う。
vgg16、vgg19、mobilenet、および関連する研究論文などの最近のモデルとの比較評価を行う。
提案手法は,正常症例の分類において,96.5%の検証率,100%の精度とリコール率,100%のF1スコアを伴って,99.88%の例外的精度を達成している。
これらの結果は、パンデミック中だけでなく、将来においても、医療画像分析と診断に革命をもたらすフォグコンピューティングと修正cnnの膨大な可能性を浮き彫りにしている。
これらの技術を活用することで、医療専門家は医療画像分析の効率と正確性を高め、患者のケアと成果を改善することができる。 The emergence of pandemics has significantly emphasized the need for effective solutions in healthcare data analysis. One particular challenge in this domain is the manual examination of medical images, such as X-rays and CT scans. This process is time-consuming and involves the logistical complexities of transferring these images to centralized cloud computing servers. Additionally, the speed and accuracy of image analysis are vital for efficient healthcare image management. This research paper introduces an innovative healthcare architecture that tackles the challenges of analysis efficiency and accuracy by harnessing the capabilities of Artificial Intelligence (AI). Specifically, the proposed architecture utilizes fog computing and presents a modified Convolutional Neural Network (CNN) designed specifically for image analysis. Different architectures of CNN layers are thoroughly explored and evaluated to optimize overall performance. To demonstrate the effectiveness of the proposed approach, a dataset of X-ray images is utilized for analysis and evaluation. Comparative assessments are conducted against recent models such as VGG16, VGG19, MobileNet, and related research papers. Notably, the proposed approach achieves an exceptional accuracy rate of 99.88% in classifying normal cases, accompanied by a validation rate of 96.5%, precision and recall rates of 100%, and an F1 score of 100%. These results highlight the immense potential of fog computing and modified CNNs in revolutionizing healthcare image analysis and diagnosis, not only during pandemics but also in the future. By leveraging these technologies, healthcare professionals can enhance the efficiency and accuracy of medical image analysis, leading to improved patient care and outcomes. | 翻訳日:2023-11-03 13:49:46 公開日:2023-11-02 |
# CRUSH4SQL: Text2SQLのスキーマ幻覚を用いた集合検索 CRUSH4SQL: Collective Retrieval Using Schema Hallucination For Text2SQL ( http://arxiv.org/abs/2311.01173v1 ) ライセンス: Link先を確認 | Mayank Kothyari, Dhruva Dhingra, Sunita Sarawagi, Soumen Chakrabarti | (参考訳) 既存のtext-to-sqlジェネレータは、スキーマ全体をユーザテキストでエンコードする必要がある。
これは数万の列を持つ大規模データベースにとって高価または実用的ではない。
標準的な高密度検索技術は、大規模な構造化データベースのスキーマサブセット作成には不十分であり、検索の正しいセマンティクスは、個々の要素ではなくスキーマ要素のセットをランク付けする必要がある。
そこで本研究では,検索時の効果的なカバレッジのための2段階プロセスを提案する。
まず、llmにクエリに答えるのに十分な最小のdbスキーマを指導するように指示する。
複数の密集検索から結果を合成することにより、幻影スキーマを用いて実際のスキーマのサブセットを検索する。
興味深いことに、幻覚 $\unicode{x2013}$ は一般にニュアンス $\unicode{x2013}$ と見なされている。
大規模データベース上でスキーマをサブセットするベンチマークは存在しないため、3つのベンチマークを導入する。
2つの半合成データセットは、よく知られた2つのデータセット、SPIDERとBIRDのスキーマの結合から導出され、それぞれ4502と798のスキーマ要素となる。
socialdbと呼ばれる実生活ベンチマークは、17844のスキーマ要素からなる実際の大規模データウェアハウスからソースされる。
提案手法は, sota検索に基づく拡張法に比べて, かなり高いリコール率を示す。 Existing Text-to-SQL generators require the entire schema to be encoded with the user text. This is expensive or impractical for large databases with tens of thousands of columns. Standard dense retrieval techniques are inadequate for schema subsetting of a large structured database, where the correct semantics of retrieval demands that we rank sets of schema elements rather than individual elements. In response, we propose a two-stage process for effective coverage during retrieval. First, we instruct an LLM to hallucinate a minimal DB schema deemed adequate to answer the query. We use the hallucinated schema to retrieve a subset of the actual schema, by composing the results from multiple dense retrievals. Remarkably, hallucination $\unicode{x2013}$ generally considered a nuisance $\unicode{x2013}$ turns out to be actually useful as a bridging mechanism. Since no existing benchmarks exist for schema subsetting on large databases, we introduce three benchmarks. Two semi-synthetic datasets are derived from the union of schemas in two well-known datasets, SPIDER and BIRD, resulting in 4502 and 798 schema elements respectively. A real-life benchmark called SocialDB is sourced from an actual large data warehouse comprising 17844 schema elements. We show that our method1 leads to significantly higher recall than SOTA retrieval-based augmentation methods. | 翻訳日:2023-11-03 13:49:23 公開日:2023-11-02 |
# RFトラップと動的光ポテンシャルを用いたトラップイオン量子コンピューティングのためのスケーラブルアーキテクチャ Scalable architecture for trapped-ion quantum computing using RF traps and dynamic optical potentials ( http://arxiv.org/abs/2311.01168v1 ) ライセンス: Link先を確認 | David Schwerdt, Lee Peleg, Yotam Shapira, Nadav Priel, Yanay Florshaim, Avram Gross, Ayelet Zalic, Gadi Afek, Nitzan Akerman, Ady Stern, Amit Ben Kish, Roee Ozeri | (参考訳) 線形高周波トラップに閉じ込められたイオンに基づく量子ビットは、その高い忠実度、すべての接続性、局所的な制御度によって量子コンピューティングのプラットフォームとして成功している。
原則として、単一の1dレジスタに閉じ込められるイオンベースの量子ビットの数に根本的な制限はない。
しかし、実際には、イオンの運動の高熱速度と密集した運動スペクトルという、運動モードの「軟化」に起因した、長い閉じ込められたイオン結晶に関連する2つの主な問題があり、どちらも高忠実な量子ビット操作の性能を阻害している。
本稿では,これらの問題を克服する大きなイオン結晶を持つ量子コンピューティングのための,総合的でスケーラブルなアーキテクチャを提案する。
この方法は、イオン結晶を即座に管理可能なサイズの細胞に分割する動的に機能する光学ポテンシャルに依存する。
これらの細胞は、ほぼ独立した量子レジスタとして振る舞うことが示され、全ての細胞に平行なエンタングゲートが可能である。
光電位を再構成する能力は、全イオン結晶間の接続を保証し、効率的な中回路測定を可能にする。
本研究では,全セルで同時に動作する大規模並列マルチビットエンタングルゲートの実装について検討し,クロストークエラーを補償するプロトコルを提案する。
このアーキテクチャは、フォールトトレラントなディジタル量子計算とアナログ量子シミュレーションの両方に有利である。 Qubits based on ions trapped in linear radio-frequency traps form a successful platform for quantum computing, due to their high-fidelity of operations, all-to-all connectivity and degree of local control. In principle there is no fundamental limit to the number of ion-based qubits that can be confined in a single 1d register. However, in practice there are two main issues associated with long trapped ion-crystals, that stem from the 'softening' of their modes of motion, upon scaling up: high heating rates of the ions' motion, and a dense motional spectrum; both impede the performance of high-fidelity qubit operations. Here we propose a holistic, scalable architecture for quantum computing with large ion-crystals that overcomes these issues. Our method relies on dynamically-operated optical potentials, that instantaneously segment the ion-crystal into cells of a manageable size. We show that these cells behave as nearly independent quantum registers, allowing for parallel entangling gates on all cells. The ability to reconfigure the optical potentials guarantees connectivity across the full ion-crystal, and also enables efficient mid-circuit measurements. We study the implementation of large-scale parallel multi-qubit entangling gates that operate simultaneously on all cells, and present a protocol to compensate for crosstalk errors, enabling full-scale usage of an extensively large register. We illustrate that this architecture is advantageous both for fault-tolerant digital quantum computation and for analog quantum simulations. | 翻訳日:2023-11-03 13:49:00 公開日:2023-11-02 |
# ジェネレーティブ・インプット:次世代インプット・メソッド・パラダイムに向けて Generative Input: Towards Next-Generation Input Methods Paradigm ( http://arxiv.org/abs/2311.01166v1 ) ライセンス: Link先を確認 | Keyu Ding and Yongcan Wang and Zihang Xu and Zhenzhen Jia and Shijin Wang and Cong Liu and Enhong Chen | (参考訳) ChatGPTのリリース以来、生成モデルは大きな成功を収め、様々なNLPタスクのデファクトアプローチとなっている。
しかし、入力メソッドの分野におけるその応用は未検討のままである。
多くのニューラルネットワークアプローチが中国の入力方法エンジン(IME)の構築に応用されている。
以前の研究では、入力ピンインが正しいと仮定され、Pinyin-to-character(P2C)タスクに集中していた。
さらに、過去の研究では、モデルの最適化とパーソナライズされた結果の提供にユーザーからのフィードバックを活用できなかった。
本研究では,GeneInput という新しい生成入力パラダイムを提案する。
プロンプトを使用して、すべての入力シナリオやその他のインテリジェントな補助入力関数を処理し、モデルの最適化とユーザフィードバックによるパーソナライズされた結果の提供を行う。
その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,初めて最先端のパフォーマンスを達成した。
本稿では,知的な連携と会話支援を伴うタスクにおいて,追加の手動アノテーションの必要性をなくし,gpt-4を上回るパフォーマンスを実現する,新たな報酬モデルトレーニング手法を提案する。
従来のパラダイムと比較して、GeneInputは優れたパフォーマンスを示すだけでなく、堅牢性、スケーラビリティ、オンライン学習能力も向上している。 Since the release of ChatGPT, generative models have achieved tremendous success and become the de facto approach for various NLP tasks. However, its application in the field of input methods remains under-explored. Many neural network approaches have been applied to the construction of Chinese input method engines(IMEs).Previous research often assumed that the input pinyin was correct and focused on Pinyin-to-character(P2C) task, which significantly falls short of meeting users' demands. Moreover, previous research could not leverage user feedback to optimize the model and provide personalized results. In this study, we propose a novel Generative Input paradigm named GeneInput. It uses prompts to handle all input scenarios and other intelligent auxiliary input functions, optimizing the model with user feedback to deliver personalized results. The results demonstrate that we have achieved state-of-the-art performance for the first time in the Full-mode Key-sequence to Characters(FK2C) task. We propose a novel reward model training method that eliminates the need for additional manual annotations and the performance surpasses GPT-4 in tasks involving intelligent association and conversational assistance. Compared to traditional paradigms, GeneInput not only demonstrates superior performance but also exhibits enhanced robustness, scalability, and online learning capabilities. | 翻訳日:2023-11-03 13:48:38 公開日:2023-11-02 |
# seerへの洞察 Insight Into SEER ( http://arxiv.org/abs/2311.01164v1 ) ライセンス: Link先を確認 | Kasra Lekan, Nicki Choquette | (参考訳) 開発者生成のオラクルは時間を要するためコストがかかるが、リグレッションや例外の形で自動oracle生成するオラクルは、基盤となるコードが正しいと仮定する。
高いオーラクルテストコストを軽減するため、SEERツールはアサーションステートメントを必要とせずにテスト結果を予測するために開発された。
SEERの作成者は、全体的な精度が93%、精度が86%、リコールが94%、F1スコアが90%のツールを導入した。
これらの結果が摂動を伴う新しいデータ、すなわちSEERが一般化可能で堅牢であれば、このモデルは自動テストの分野で大きな進歩を示すだろう。
その結果,SEERの総合的な再生を行い,新たなデータセットを用いてモデルの結果の検証を試みた。 Developing test oracles can be inefficient: developer generative oracles are time-intensive and thus costly while automatic oracle generation in the form of regression or exception oracles assumes that the underlying code is correct. To mitigate the high cost of testing oracles, the SEER tool was developed to predict test outcomes without needing assertion statements. The creators of SEER introduced the tool with an overall accuracy of 93%, precision of 86%, recall of 94%, and an F1 score of 90%. If these results are replicable on new data with perturbations, i.e. SEER is generalizable and robust, the model would represent a significant advancement in the field of automated testing. Consequently, we conducted a comprehensive reproduction of SEER and attempted to verify the model's results on a new dataset. | 翻訳日:2023-11-03 13:48:16 公開日:2023-11-02 |
# Execution-based Spurious Program Filtering を用いた弱教師付き意味解析 Weakly Supervised Semantic Parsing with Execution-based Spurious Program Filtering ( http://arxiv.org/abs/2311.01161v1 ) ライセンス: Link先を確認 | Kang-il Lee, Segwang Kim, Kyomin Jung | (参考訳) スプリアスプログラムの問題は、弱い監督からセマンティックパーサーを訓練する際の長年にわたる課題である。
誤った意味論と正しい意味論を持つプログラムを排除するため、既存の手法はドメイン固有の知識に基づいて例間の類似性を活用することに重点を置いている。
本稿では,プログラム実行結果に基づくドメイン非依存フィルタリング機構を提案する。
具体的には、検索プロセスを通じて得られた各プログラムに対して、まずプログラムのセマンティクスを様々な入力で実行結果としてキャプチャする表現を構築する。
そして、これらの表現に対して多数決を行い、他のプログラムと大きく異なる意味を持つプログラムを特定し、フィルタリングする。
特に,本手法はプログラム検索プロセスと直交するので,既存の弱教師付きセマンティックパーシングフレームワークを簡単に拡張することができる。
自然言語の視覚的推論とwikitablequestionsにおける経験的評価は、既存の意味構文解析器に本手法を適用すると、パフォーマンスが著しく向上することを示している。 The problem of spurious programs is a longstanding challenge when training a semantic parser from weak supervision. To eliminate such programs that have wrong semantics but correct denotation, existing methods focus on exploiting similarities between examples based on domain-specific knowledge. In this paper, we propose a domain-agnostic filtering mechanism based on program execution results. Specifically, for each program obtained through the search process, we first construct a representation that captures the program's semantics as execution results under various inputs. Then, we run a majority vote on these representations to identify and filter out programs with significantly different semantics from the other programs. In particular, our method is orthogonal to the program search process so that it can easily augment any of the existing weakly supervised semantic parsing frameworks. Empirical evaluations on the Natural Language Visual Reasoning and WikiTableQuestions demonstrate that applying our method to the existing semantic parsers induces significantly improved performances. | 翻訳日:2023-11-03 13:48:01 公開日:2023-11-02 |
# 最適化のいくつかの結果 Several Consequences of Optimality ( http://arxiv.org/abs/2311.01156v1 ) ライセンス: Link先を確認 | Dibakar Das | (参考訳) 合理性はしばしば最良の決定に結びついている。
人間は合理的な存在として、意思決定能力に限界があることは広く認められている。
しかし、近年のコンピューティング、科学、テクノロジーなどの分野の進歩と膨大なデータの利用が組み合わさって、これらの開発が機械知能の増強を通じて人間の有界合理性の境界を広げる可能性があるという楽観的な見方が生まれている。
本稿では,計算モデルから得られた知見から,計算能力の向上等により自発的に世界的最適性を達成しようとするエージェントが増えれば,共有資源を高速に枯渇させることで,間接的に「コモンズのトラゲジー」の発生を促進できることを示した。
さらに、エージェントが最適性を達成すると、エージェントの解の間に情報のエントロピーが低下する。
また、エージェント間で明確な経済格差が生じている。
2つのグループ(一方は生産者、もう一方は最適性を求めるグループエージェント)が最も消費された資源の消費者であることを考えると、消費者は生産者より多く獲得しているように見える。
したがって、有界な合理性は持続可能性の恩恵と見なすことができる。 Rationality is frequently associated with making the best possible decisions. It's widely acknowledged that humans, as rational beings, have limitations in their decision-making capabilities. Nevertheless, recent advancements in fields, such as, computing, science and technology, combined with the availability of vast amounts of data, have sparked optimism that these developments could potentially expand the boundaries of human bounded rationality through the augmentation of machine intelligence. In this paper, findings from a computational model demonstrated that when an increasing number of agents independently strive to achieve global optimality, facilitated by improved computing power, etc., they indirectly accelerated the occurrence of the "tragedy of the commons" by depleting shared resources at a faster rate. Further, as agents achieve optimality, there is a drop in information entropy among the solutions of the agents. Also, clear economic divide emerges among agents. Considering, two groups, one as producer and the other (the group agents searching for optimality) as consumer of the highest consumed resource, the consumers seem to gain more than the producers. Thus, bounded rationality could be seen as boon to sustainability. | 翻訳日:2023-11-03 13:47:46 公開日:2023-11-02 |
# 被監視人物再識別のためのカメラ内およびカメラ間不変性学習 Learning Intra and Inter-Camera Invariance for Isolated Camera Supervised Person Re-identification ( http://arxiv.org/abs/2311.01155v1 ) ライセンス: Link先を確認 | Menglin Wang, Xiaojin Gong | (参考訳) 監督された人物は、複数のカメラで撮影された画像があると仮定する。
しかし、遠くにカメラを置くと、複数のカメラに人が現れることはめったにない。
そこで本研究では,ISCS設定下での人物のリIDについて検討する。
従来の手法のような偽のクロスカメラ機能を生成する代わりに、トレーニングデータの変動を効率的に利用することで、新しい視点を探求する。
ISCS設定下では、1台のカメラからの限られた画像しか持たないため、カメラの偏見はID識別と相反する重要な問題となる。
クロスカメラ画像は、単にカメラスタイルで異なるIDとして認識される傾向がある。
カメラバイアスの共起効果を解消するために,カメラ内およびカメラ間不分散を統一した枠組みで学習することを提案する。
まず,クラスタ化を通じてスタイル一貫性のある環境を構築し,各環境内で先駆的なコントラスト学習を行う。
一方、強化された画像は、カメラ内拡張不変性を強制するオリジナルのプロトタイプとは対照的である。
カメラ間不変性については,複数レベル負の距離を最適化する,より改良されたマルチカメラ負損失の変種を更に設計する。
結果として得られたモデルは、微妙で厳格なスタイルの変化とカメラ間の違いの両方に不変であることが学習される。
複数のベンチマークで実験を行い,提案手法の有効性と優位性を検証した。
コードはhttps://github.com/Terminator8758/IICIで入手できる。 Supervised person re-identification assumes that a person has images captured under multiple cameras. However when cameras are placed in distance, a person rarely appears in more than one camera. This paper thus studies person re-ID under such isolated camera supervised (ISCS) setting. Instead of trying to generate fake cross-camera features like previous methods, we explore a novel perspective by making efficient use of the variation in training data. Under ISCS setting, a person only has limited images from a single camera, so the camera bias becomes a critical issue confounding ID discrimination. Cross-camera images are prone to being recognized as different IDs simply by camera style. To eliminate the confounding effect of camera bias, we propose to learn both intra- and inter-camera invariance under a unified framework. First, we construct style-consistent environments via clustering, and perform prototypical contrastive learning within each environment. Meanwhile, strongly augmented images are contrasted with original prototypes to enforce intra-camera augmentation invariance. For inter-camera invariance, we further design a much improved variant of multi-camera negative loss that optimizes the distance of multi-level negatives. The resulting model learns to be invariant to both subtle and severe style variation within and cross-camera. On multiple benchmarks, we conduct extensive experiments and validate the effectiveness and superiority of the proposed method. Code will be available at https://github.com/Terminator8758/IICI. | 翻訳日:2023-11-03 13:47:26 公開日:2023-11-02 |
# デジタル・ツインの展望と人工知能に基づくサイバーセキュリティへの応用 A Review of Digital Twins and their Application in Cybersecurity based on Artificial Intelligence ( http://arxiv.org/abs/2311.01154v1 ) ライセンス: Link先を確認 | MohammadHossein Homaei, Oscar Mogollon Gutierrez, Jose Carlos Sancho Nunez, Mar Avila Vegas, Andres Caro Lindo | (参考訳) デジタルツイン技術のポテンシャルは、その多様性と未解決の可能性のために、まだ完全には実現されていない。
デジタルツインは、従来のエンジニアリング手法よりも速度、精度、効率を向上させるためのサイバー物理アプローチとデジタルまたは併用して、システムの分析、設計、最適化、進化を可能にする。
産業 4.0、将来の工場、デジタル双子はテクノロジーの恩恵を受け続け、既存のシステムで効率を高めている。
サイバーデジタル化への移行に伴う情報やセキュリティ基準の欠如により、サイバー犯罪者は状況を活用することができた。
製品やサービスのデジタルツインへのアクセスは、コレクション全体を脅かすのと同じです。
デジタルツインと人工知能ツールの間には堅牢な相互作用があり、これらの技術間の強い相互作用につながるため、これらの技術との統合に基づいて、デジタルプラットフォームのサイバーセキュリティを改善するために使用できる。
本研究は, 各種産業のディジタルツインバージョンに対するサイバーセキュリティの提供において, 人工知能が果たす役割について検討することを目的とする。
さらに、この研究は、サイバーセキュリティとデジタルセキュリティに関心のある研究者や他の研究者のためのロードマップとなっている。 The potential of digital twin technology is yet to be fully realized due to its diversity and untapped potential. Digital twins enable systems' analysis, design, optimization, and evolution to be performed digitally or in conjunction with a cyber-physical approach to improve speed, accuracy, and efficiency over traditional engineering methods. Industry 4.0, factories of the future, and digital twins continue to benefit from the technology and provide enhanced efficiency within existing systems. Due to the lack of information and security standards associated with the transition to cyber digitization, cybercriminals have been able to take advantage of the situation. Access to a digital twin of a product or service is equivalent to threatening the entire collection. There is a robust interaction between digital twins and artificial intelligence tools, which leads to strong interaction between these technologies, so it can be used to improve the cybersecurity of these digital platforms based on their integration with these technologies. This study aims to investigate the role of artificial intelligence in providing cybersecurity for digital twin versions of various industries, as well as the risks associated with these versions. In addition, this research serves as a road map for researchers and others interested in cybersecurity and digital security. | 翻訳日:2023-11-03 13:47:07 公開日:2023-11-02 |
# aces:wmt 2023での翻訳精度チャレンジ ACES: Translation Accuracy Challenge Sets at WMT 2023 ( http://arxiv.org/abs/2311.01153v1 ) ライセンス: Link先を確認 | Chantal Amrhein and Nikita Moghe and Liane Guillou | (参考訳) ACES Challenge Set (Amrhein et al., 2022)を用いて, WMT 2023に提出されたセグメントレベルメトリクスのパフォーマンスをベンチマークした。
課題セットは68の現象からの挑戦を表す36Kの例と、146の言語ペアからなる。
この現象は、単語/文字レベルでの単純な摂動から、会話や現実世界の知識に基づくより複雑な誤りまで様々である。
各メトリクスについて、一連のエラーカテゴリに対するパフォーマンスの詳細なプロファイルと、比較を行うための全体的なACES-Scoreを提供する。
また,WMT2023および2022に提出された指標の漸進的な性能も測定した。
私たちはそれを見つけ
1) wmt 2023に提出された指標のうち、明確な勝者は存在せず、
2) メトリクスの2023バージョンと2022バージョンのパフォーマンス変更は、非常に可変である。
我々の勧告は、WMT 2022の勧告と似ている。
異なるデザインファミリからメトリクスのアンサンブルを構築すること、ソースに注意を払い、表面レベルの重複を少なくするメトリクスを開発すること、多言語組込みがmt評価に与える影響を慎重に決定すること。 We benchmark the performance of segmentlevel metrics submitted to WMT 2023 using the ACES Challenge Set (Amrhein et al., 2022). The challenge set consists of 36K examples representing challenges from 68 phenomena and covering 146 language pairs. The phenomena range from simple perturbations at the word/character level to more complex errors based on discourse and real-world knowledge. For each metric, we provide a detailed profile of performance over a range of error categories as well as an overall ACES-Score for quick comparison. We also measure the incremental performance of the metrics submitted to both WMT 2023 and 2022. We find that 1) there is no clear winner among the metrics submitted to WMT 2023, and 2) performance change between the 2023 and 2022 versions of the metrics is highly variable. Our recommendations are similar to those from WMT 2022. Metric developers should focus on: building ensembles of metrics from different design families, developing metrics that pay more attention to the source and rely less on surface-level overlap, and carefully determining the influence of multilingual embeddings on MT evaluation. | 翻訳日:2023-11-03 13:46:48 公開日:2023-11-02 |
# 意味的一貫性による大規模言語モデルの質問応答性能予測 Predicting Question-Answering Performance of Large Language Models through Semantic Consistency ( http://arxiv.org/abs/2311.01152v1 ) ライセンス: Link先を確認 | Ella Rabinovich, Samuel Ackerman, Orna Raz, Eitan Farchi, Ateret Anaby-Tavor | (参考訳) 言語モデルのセマンティック一貫性は、セマンティックな等価な入力を与えられたセマンティックな等価な出力を生成するモデルの能力として広く定義される。
本稿では,現代大言語モデル (LLM) における質問応答 (QA) のセマンティック一貫性を評価するタスクについて,事実質問のための高品質なパラフレーズ付きベンチマークデータセットを手作業で作成し,コミュニティにリリースする。
さらに,先行研究で提案した意味的整合性指標と,LLM QAの正確性に関連する追加測定値とを組み合わせて,実数QA参照レスパフォーマンス予測のためのフレームワークの構築と評価を行い,言語モデルが質問に正確に答える可能性を予測する。
5つの現代LLM上でのフレームワークの評価を行い,ベースライン,結果の促進,大幅な性能向上を実証した。 Semantic consistency of a language model is broadly defined as the model's ability to produce semantically-equivalent outputs, given semantically-equivalent inputs. We address the task of assessing question-answering (QA) semantic consistency of contemporary large language models (LLMs) by manually creating a benchmark dataset with high-quality paraphrases for factual questions, and release the dataset to the community. We further combine the semantic consistency metric with additional measurements suggested in prior work as correlating with LLM QA accuracy, for building and evaluating a framework for factual QA reference-less performance prediction -- predicting the likelihood of a language model to accurately answer a question. Evaluating the framework on five contemporary LLMs, we demonstrate encouraging, significantly outperforming baselines, results. | 翻訳日:2023-11-03 13:46:31 公開日:2023-11-02 |
# 強化学習のための拡散モデル:調査 Diffusion Models for Reinforcement Learning: A Survey ( http://arxiv.org/abs/2311.01223v1 ) ライセンス: Link先を確認 | Zhengbang Zhu, Hanye Zhao, Haoran He, Yichao Zhong, Shenyu Zhang, Yong Yu, Weinan Zhang | (参考訳) 拡散モデルは、サンプル品質とトレーニング安定性に関する従来の手法を上回って、顕著な生成モデルクラスとして登場してきた。
近年の研究では、トラジェクティブプランナー、表現型ポリシークラス、データシンセサイザーなど、強化学習(RL)ソリューションの改善における拡散モデルの利点が示されている。
本調査は, この新興分野の進展を概観し, 新たな研究の道を開くことを目的としている。
まず、現在のRLアルゴリズムで直面するいくつかの課題について検討する。
次に,RLにおける拡散モデルが果たす役割に基づいた既存手法の分類を示し,既存の課題にどう対処するかを考察する。
さらに,様々なRL関連タスクにおける拡散モデルの適用性について概説する。
最後に,調査を締め括り,今後の研究方向性について考察し,モデル性能の向上とより広いタスクに拡散モデルを適用することに焦点を当てた。
rlにおける拡散モデルの適用において、論文やその他の関連リソースのためのgithubリポジトリを積極的にメンテナンスしています。 Diffusion models have emerged as a prominent class of generative models, surpassing previous methods regarding sample quality and training stability. Recent works have shown the advantages of diffusion models in improving reinforcement learning (RL) solutions, including as trajectory planners, expressive policy classes, data synthesizers, etc. This survey aims to provide an overview of the advancements in this emerging field and hopes to inspire new avenues of research. First, we examine several challenges encountered by current RL algorithms. Then, we present a taxonomy of existing methods based on the roles played by diffusion models in RL and explore how the existing challenges are addressed. We further outline successful applications of diffusion models in various RL-related tasks while discussing the limitations of current approaches. Finally, we conclude the survey and offer insights into future research directions, focusing on enhancing model performance and applying diffusion models to broader tasks. We are actively maintaining a GitHub repository for papers and other related resources in applying diffusion models in RL: https://github.com/apexrl/Diff4RLSurvey . | 翻訳日:2023-11-03 13:39:15 公開日:2023-11-02 |
# 近位復調器と非拘束正規化パラメータを用いた収束プラグアンドプレイ Convergent plug-and-play with proximal denoiser and unconstrained regularization parameter ( http://arxiv.org/abs/2311.01216v1 ) ライセンス: Link先を確認 | Samuel Hurault, Antonin Chambolle, Arthur Leclaire, Nicolas Papadakis | (参考訳) 本研究では,プラグイン・アンド・プレイ(PnP)アルゴリズムに対する収束の新たな証明を提案する。
PnP法は、GAD(Pximal Gradient Descent)やDRS(Douglas-Rachford Splitting)といった近位アルゴリズムで事前学習したデノイザをプラグすることで正規化を行う画像逆問題を解決するための効率的な反復アルゴリズムである。
近年の研究では、近位演算子として正確に記述されるデノイザを組み込むことで収束を探求している。
しかし、対応するPnPアルゴリズムはステップサイズが1ドルで実行されなければならない。
使用中の近位アルゴリズムの非凸収束のための段差条件は、逆問題の正則化パラメータ上の制限条件に変換される。
これにより、アルゴリズムの復元能力が著しく低下する。
本稿では,この制限に対する2つの対策を提案する。
まず、正規化パラメータに制約を課さないPnP-DRSに対して、新しい収束証明を提供する。
第2に、幅広い正規化パラメータにまたがって収束するpgdアルゴリズムの緩和版について検討する。
劣化実験と超解像実験により,これらの手法が画像復元の精度を高めることを実証した。 In this work, we present new proofs of convergence for Plug-and-Play (PnP) algorithms. PnP methods are efficient iterative algorithms for solving image inverse problems where regularization is performed by plugging a pre-trained denoiser in a proximal algorithm, such as Proximal Gradient Descent (PGD) or Douglas-Rachford Splitting (DRS). Recent research has explored convergence by incorporating a denoiser that writes exactly as a proximal operator. However, the corresponding PnP algorithm has then to be run with stepsize equal to $1$. The stepsize condition for nonconvex convergence of the proximal algorithm in use then translates to restrictive conditions on the regularization parameter of the inverse problem. This can severely degrade the restoration capacity of the algorithm. In this paper, we present two remedies for this limitation. First, we provide a novel convergence proof for PnP-DRS that does not impose any restrictions on the regularization parameter. Second, we examine a relaxed version of the PGD algorithm that converges across a broader range of regularization parameters. Our experimental study, conducted on deblurring and super-resolution experiments, demonstrate that both of these solutions enhance the accuracy of image restoration. | 翻訳日:2023-11-03 13:38:59 公開日:2023-11-02 |
# 単眼映像からの高画質アニマタブルダイナミックガーメント再構成 High-Quality Animatable Dynamic Garment Reconstruction from Monocular Videos ( http://arxiv.org/abs/2311.01214v1 ) ライセンス: Link先を確認 | Xiongzheng Li, Jinsong Zhang, Yu-Kun Lai, Jingyu Yang, Kun Li | (参考訳) 画像やビデオから衣服を復元する作業は、多くの進歩を遂げている。
しかし、既存の作品が、様々な目に見えないポーズに調整できる高品質のアニメーション可能な動的衣服をデジタル化するという期待を満たしていない。
本稿では,スキャンされたデータによらず,単眼映像から高品質なアニメーション可能な動的衣服を回収する最初の方法を提案する。
そこで本稿では, ポーズ駆動型変形問題として, 衣服復元タスクを定式化する, 学習可能な衣服変形ネットワークを提案する。
単眼映像から推定される3次元衣料品の曖昧さを緩和するため,複数変形の空間表現を学習するマルチハイポテーゼ変形モジュールを設計した。
いくつかの公開データセットにおける実験結果から,本手法はコヒーレントな表面詳細を持つ高品質な動的衣服を再現可能であり,無意味なポーズで容易にアニメーションできることを示した。
コードは研究目的で提供されます。 Much progress has been made in reconstructing garments from an image or a video. However, none of existing works meet the expectations of digitizing high-quality animatable dynamic garments that can be adjusted to various unseen poses. In this paper, we propose the first method to recover high-quality animatable dynamic garments from monocular videos without depending on scanned data. To generate reasonable deformations for various unseen poses, we propose a learnable garment deformation network that formulates the garment reconstruction task as a pose-driven deformation problem. To alleviate the ambiguity estimating 3D garments from monocular videos, we design a multi-hypothesis deformation module that learns spatial representations of multiple plausible deformations. Experimental results on several public datasets demonstrate that our method can reconstruct high-quality dynamic garments with coherent surface details, which can be easily animated under unseen poses. The code will be provided for research purposes. | 翻訳日:2023-11-03 13:38:40 公開日:2023-11-02 |
# ハッシュに基づくハイブリッド古典量子テキスト検索 Hybrid classical-quantum text search based on hashing ( http://arxiv.org/abs/2311.01213v1 ) ライセンス: Link先を確認 | Farid Ablayev and Marat Ablayev and Nailya Salikhova | (参考訳) 本論文は,テキスト中に与えられた部分文字列を見つける問題を考察する。
非順序データベースにおける古典的な検索クエリの複雑さは、テキストの長さと与えられたサブストリングに線形であることが知られている。
同時に、グロバーの量子探索は、クエリの複雑さの2次的なスピードアップを提供し、高い確率で正しい結果を与える。
本稿では,groverの探索を実装し,テキスト中の部分文字列を探索するハイブリッド古典量子アルゴリズム(より正確にはランダム量子アルゴリズム)を提案する。
予想通りアルゴリズムは機能する
a) 正しい結果を得る確率が高いこと,及び
b) 従来のものと比較して2次的なクエリアクセラレーション
新しいのは、アルゴリズムが一様ハッシュファミリー関数技術を使っていることです。
その結果、我々のアルゴリズムは、以前に知られていた量子アルゴリズムよりもはるかにメモリ効率が良い(使用した量子ビットの個数)。 The paper considers the problem of finding a given substring in a text. It is known that the complexity of a classical search query in an unordered database is linear in the length of the text and a given substring. At the same time, Grover's quantum search provides a quadratic speedup in the complexity of the query and gives the correct result with a high probability. We propose a hybrid classical-quantum algorithm (hybrid random-quantum algorithm to be more precise), that implements Grover's search to find a given substring in a text. As expected, the algorithm works a) with a high probability of obtaining the correct result and b) with a quadratic query acceleration compared to the classical one. What's new is that our algorithm uses the uniform hash family functions technique. As a result, our algorithm is much more memory efficient (in terms of the number of qubits used) compared to previously known quantum algorithms. | 翻訳日:2023-11-03 13:38:24 公開日:2023-11-02 |
# クロスドメイン・マイラルショットハイパースペクトル画像分類のためのマルチビュー関係学習 Multi-view Relation Learning for Cross-domain Few-shot Hyperspectral Image Classification ( http://arxiv.org/abs/2311.01212v1 ) ライセンス: Link先を確認 | Chun Liu, Longwei Yang, Zheng Li, Wei Yang, Zhigang Han, Jianzhong Guo, Junyong Yu | (参考訳) クロスドメインの少数ショットハイパースペクトル画像分類では、ソースドメインから多数のラベル付きサンプルから事前知識を学習し、ターゲットドメインにラベル付きサンプルしか含まないタスクにその知識を転送する。
メトリックベースの方法に従って、現在の多くのメソッドは、まずクエリとサポートサンプルの特徴を抽出し、その後、サポートサンプルやプロトタイプまでの距離に応じてクエリサンプルのクラスを直接予測する。
サンプル間の関係は十分に研究されておらず、利用されていない。
そこで本研究では,異なる視点からサンプル関係を学習し,それらをモデル学習プロセスに取り入れて,クロスドメインなマルチショットハイパースペクトル画像分類を改善することを提案する。
提案手法は,現在のdcfsl法に基づき,ドメインレベルの分布差に対応するドメイン判別器を採用し,クラスレベルのサンプル関係を学習するためにコントラスト学習を適用し,より識別可能なサンプル特徴を得る。
さらに、トランスフォーマティブベースのクロスアテンション学習モジュールを採用し、セットレベルのサンプル関係を学習し、クエリサンプルから注意を引いてサンプルをサポートする。
実験結果から,多視点関係学習機構が多視点高スペクトル画像分類に寄与することを示した。 Cross-domain few-shot hyperspectral image classification focuses on learning prior knowledge from a large number of labeled samples from source domain and then transferring the knowledge to the tasks which contain only few labeled samples in target domains. Following the metric-based manner, many current methods first extract the features of the query and support samples, and then directly predict the classes of query samples according to their distance to the support samples or prototypes. The relations between samples have not been fully explored and utilized. Different from current works, this paper proposes to learn sample relations from different views and take them into the model learning process, to improve the cross-domain few-shot hyperspectral image classification. Building on current DCFSL method which adopts a domain discriminator to deal with domain-level distribution difference, the proposed method applys contrastive learning to learn the class-level sample relations to obtain more discriminable sample features. In addition, it adopts a transformer based cross-attention learning module to learn the set-level sample relations and acquire the attentions from query samples to support samples. Our experimental results have demonstrated the contribution of the multi-view relation learning mechanism for few-shot hyperspectral image classification when compared with the state of the art methods. | 翻訳日:2023-11-03 13:38:12 公開日:2023-11-02 |
# 磁場による光子ビームの共鳴絡み合い Resonant entanglement of photon beams by a magnetic field ( http://arxiv.org/abs/2311.01210v1 ) ライセンス: Link先を確認 | A. I. Breev and D. M. Gitman | (参考訳) 光子が外部磁場と相互作用しないにもかかわらず、後者の磁場は荷電環境の存在下で間接的に光子に影響を与える可能性がある。
これにより、結晶デバイスを使わずに光子ビームの絡み合いを連続的に制御する興味深い可能性が開ける。
この可能性について、適切なQEDモデルの枠組みで検討する。
その結果, 磁場の光子ビーム方向の特性と荷電媒質のパラメータにより, 特定の磁場強度におけるピーク挙動が共鳴特性を持つことがわかった。
エンタングルメント測度の上記共振挙動といくつかの結論付けを示す数値計算を提示する。 In spite of the fact that photons do not interact with an external magnetic field, the latter field may indirectly affect photons in the presence of a charged environment. This opens up an interesting possibility to continuously control the entanglement of photon beams without using any crystalline devices. We study this possibility in the framework of an adequate QED model. In an approximation it was discovered that such entanglement has a resonant nature, namely, a peak behavior at certain magnetic field strengths, depending on characteristics of photon beams direction of the magnetic field and parameters of the charged medium. Numerical calculations illustrating the above-mentioned resonant behavior of the entanglement measure and some concluding remarks are presented. | 翻訳日:2023-11-03 13:37:51 公開日:2023-11-02 |
# ビットフリップによるグラフニューラルネットワークの攻撃: Weisfeiler と Lehman は無関心に Attacking Graph Neural Networks with Bit Flips: Weisfeiler and Lehman Go Indifferent ( http://arxiv.org/abs/2311.01205v1 ) ライセンス: Link先を確認 | Lorenz Kummer, Samir Moustafa, Nils N. Kriege, Wilfried N. Gansterer | (参考訳) グラフニューラルネットワークに対する以前の攻撃は、主にグラフ中毒と回避に焦点を当てており、ネットワークの重みとバイアスを無視している。
畳み込みニューラルネットワークで使用されるビットフリップ攻撃のような従来の重みに基づく障害注入攻撃は、グラフニューラルネットワークのユニークな特性を考慮していない。
グラフニューラルネットワーク用に設計された最初のビットフリップ攻撃であるインジェクティビティビットフリップ攻撃を提案する。
我々の攻撃は、量子化されたメッセージパッシングニューラルネットワークにおける学習可能な近傍アグリゲーション関数を目標とし、グラフ構造を識別する能力を低下させ、Weisfeiler-Lehmanテストの表現力を失う。
その結果、特定のグラフニューラルネットワークアーキテクチャに特有の数学的特性を利用すると、ビットフリップ攻撃に対する脆弱性が著しく増加することが示唆された。
インジェクティビティ ビットフリップ攻撃は、様々なグラフ特性予測データセットで訓練された最大表現型グラフ同型ネットワークを、ネットワークのビットのごく一部を反転させることでランダムな出力に分解し、畳み込みニューラルネットワークから転送されたビットフリップ攻撃よりも高い破壊力を示す。
我々の攻撃は、広範な実験結果によって確認された理論的洞察によって透明で動機づけられている。 Prior attacks on graph neural networks have mostly focused on graph poisoning and evasion, neglecting the network's weights and biases. Traditional weight-based fault injection attacks, such as bit flip attacks used for convolutional neural networks, do not consider the unique properties of graph neural networks. We propose the Injectivity Bit Flip Attack, the first bit flip attack designed specifically for graph neural networks. Our attack targets the learnable neighborhood aggregation functions in quantized message passing neural networks, degrading their ability to distinguish graph structures and losing the expressivity of the Weisfeiler-Lehman test. Our findings suggest that exploiting mathematical properties specific to certain graph neural network architectures can significantly increase their vulnerability to bit flip attacks. Injectivity Bit Flip Attacks can degrade the maximal expressive Graph Isomorphism Networks trained on various graph property prediction datasets to random output by flipping only a small fraction of the network's bits, demonstrating its higher destructive power compared to a bit flip attack transferred from convolutional neural networks. Our attack is transparent and motivated by theoretical insights which are confirmed by extensive empirical results. | 翻訳日:2023-11-03 13:37:40 公開日:2023-11-02 |
# ポイントクラウド登録のためのコントラスト学習を用いたクロスモーダル情報誘導ネットワーク Cross-Modal Information-Guided Network using Contrastive Learning for Point Cloud Registration ( http://arxiv.org/abs/2311.01202v1 ) ライセンス: Link先を確認 | Yifan Xie, Jihua Zhu, Shiqi Li and Pengcheng Shi | (参考訳) 現在、ポイントクラウド登録手法の大半はポイントから機能を抽出することに依存している。
しかし、これらの方法は点の単一モダリティから得られる情報に依存するため、グローバルな特徴に対する不適切な知覚やテクスチャ情報の欠如といった欠点が生じる可能性がある。
実際、人間は2D画像から学んだ視覚情報を使って3D世界を理解できます。
この事実に基づいて,クロスモーダル情報によるグローバルな形状認識を実現し,高精度でロバストなポイントクラウド登録を実現する,クロスモーダル情報ガイドネットワーク(CMIGNet)を提案する。
具体的には,まず点雲から投影された画像を取り込んで,アテンション機構を用いてモーダルな特徴を融合する。
さらに,2つのコントラスト学習戦略,すなわちコントラスト学習とクロスモーダルコントラスト学習を用いる。
前者は重複する領域の特徴に焦点を当て、後者は2D特徴と3D特徴の対応を強調している。
最後に,点雲内のキーポイントを識別するマスク予測モジュールを提案する。
いくつかのベンチマークデータセットに対する大規模な実験は、ネットワークが優れた登録性能を達成することを示す。 The majority of point cloud registration methods currently rely on extracting features from points. However, these methods are limited by their dependence on information obtained from a single modality of points, which can result in deficiencies such as inadequate perception of global features and a lack of texture information. Actually, humans can employ visual information learned from 2D images to comprehend the 3D world. Based on this fact, we present a novel Cross-Modal Information-Guided Network (CMIGNet), which obtains global shape perception through cross-modal information to achieve precise and robust point cloud registration. Specifically, we first incorporate the projected images from the point clouds and fuse the cross-modal features using the attention mechanism. Furthermore, we employ two contrastive learning strategies, namely overlapping contrastive learning and cross-modal contrastive learning. The former focuses on features in overlapping regions, while the latter emphasizes the correspondences between 2D and 3D features. Finally, we propose a mask prediction module to identify keypoints in the point clouds. Extensive experiments on several benchmark datasets demonstrate that our network achieves superior registration performance. | 翻訳日:2023-11-03 13:37:16 公開日:2023-11-02 |
# エッジセンシングデバイスに関するFederated Learning: レビュー Federated Learning on Edge Sensing Devices: A Review ( http://arxiv.org/abs/2311.01201v1 ) ライセンス: Link先を確認 | Berrenur Saylam, \"Ozlem Durmaz \.Incel | (参考訳) 環境特性をモニターし、それらと対話し、環境に関する情報を導出する能力は、iot、モバイル、ウェアラブルデバイスのようなエッジセンシングデバイスとそれらの計測能力を統合センサーで急速に拡大することで実現されている。
これらのデバイスは小さく、データストレージや処理能力は少ないが、膨大な量のデータを生成する。
センサデータを収集して処理する応用分野には、医療、環境(大気質や汚染レベルを含む)、自動車、工業、航空宇宙、農業などが含まれる。
エッジデバイスから収集される膨大な量のセンシングデータを、さまざまな機械学習(ml)とディープラーニング(dl)アプローチを用いて分析する。
しかし、クラウドやサーバで分析すると、プライバシ、ハードウェア、接続性の制限に関する課題が浮かび上がってくる。
フェデレートラーニング(FL)は、生データを共有せずにモデルを共同でトレーニングすることで、プライバシを保ちながら、これらの問題の解決策として現れています。
本稿では,従来の機械学習手法の限界を克服するために,エッジセンシングデバイスの観点からFL戦略を概観する。
FLの主要な原則、ソフトウェアフレームワーク、テストベッドに重点を置いています。
また,現在のセンサ技術,センサ装置の特性,FLを利用したセンサアプリケーションについても検討する。
FLに関するオープン・イシューと今後の研究方向性に関する議論をまとめて締めくくった。 The ability to monitor ambient characteristics, interact with them, and derive information about the surroundings has been made possible by the rapid proliferation of edge sensing devices like IoT, mobile, and wearable devices and their measuring capabilities with integrated sensors. Even though these devices are small and have less capacity for data storage and processing, they produce vast amounts of data. Some example application areas where sensor data is collected and processed include healthcare, environmental (including air quality and pollution levels), automotive, industrial, aerospace, and agricultural applications. These enormous volumes of sensing data collected from the edge devices are analyzed using a variety of Machine Learning (ML) and Deep Learning (DL) approaches. However, analyzing them on the cloud or a server presents challenges related to privacy, hardware, and connectivity limitations. Federated Learning (FL) is emerging as a solution to these problems while preserving privacy by jointly training a model without sharing raw data. In this paper, we review the FL strategies from the perspective of edge sensing devices to get over the limitations of conventional machine learning techniques. We focus on the key FL principles, software frameworks, and testbeds. We also explore the current sensor technologies, properties of the sensing devices and sensing applications where FL is utilized. We conclude with a discussion on open issues and future research directions on FL for further studies | 翻訳日:2023-11-03 13:36:57 公開日:2023-11-02 |
# 言語変化下における連続学習に関する研究 A Study of Continual Learning Under Language Shift ( http://arxiv.org/abs/2311.01200v1 ) ライセンス: Link先を確認 | Evangelia Gogoulou, Timoth\'ee Lesort, Magnus Boman, Joakim Nivre | (参考訳) 最近の言語モデルの事前トレーニングのデータとモデルスケールの増加は、大きなトレーニングコストを生み出した。
新しいデータが時間とともに利用可能になるシナリオでは、完全に再トレーニングするのではなく、モデルを更新することが大きな利益をもたらす。
本稿では,新しいデータが新しい言語からやってくる場合の言語モデル更新の利点と欠点について検討する。
単言語英語モデルから始めて,ノルウェー語とアイスランド語からのデータを段階的に追加し,モデルサイズや学習率のスケジューラによって,事前学習順序や特徴にどのような影響があるかを検討する。
以上の結果から,前向き移動は言語順に大きく依存するが,後向き移動は新言語の順序や特徴によって正か負かのどちらかになる可能性が示唆された。
これらのパターンを説明するために、いくつかの言語類似度指標を探索し、構文類似度が結果と最もよく相関していることを示す。 The recent increase in data and model scale for language model pre-training has led to huge training costs. In scenarios where new data become available over time, updating a model instead of fully retraining it would therefore provide significant gains. In this paper, we study the benefits and downsides of updating a language model when new data comes from new languages - the case of continual learning under language shift. Starting from a monolingual English language model, we incrementally add data from Norwegian and Icelandic to investigate how forward and backward transfer effects depend on the pre-training order and characteristics of languages, for different model sizes and learning rate schedulers. Our results show that, while forward transfer is largely positive and independent of language order, backward transfer can be either positive or negative depending on the order and characteristics of new languages. To explain these patterns we explore several language similarity metrics and find that syntactic similarity appears to have the best correlation with our results. | 翻訳日:2023-11-03 13:36:35 公開日:2023-11-02 |
# 絡み合いフラクタル化 Entanglement Fractalization ( http://arxiv.org/abs/2311.01199v1 ) ライセンス: Link先を確認 | Yao Zhou, Peng Ye | (参考訳) 非整数次元のフラクタル格子上の自由フェルミオンモデルの量子絡み合いと破壊的翻訳対称性について検討した。
化学ポテンシャルにおける有限密度状態を持つギャップのない系では、エントロピー(ee)の普遍的スケーリングは、分割スキームとは独立に$s_{a} \sim l_{a}^{d_{s}-1} \log l_{a}$であり、ここで $d_s$ はフラクタルが埋め込まれた空間次元であり、$l_a$ はサブシステム $a$ の線形サイズである。
このスケーリングは、変換不変系のwidom予想をフラクタル格子に拡張する。
また,実空間の絡み合いとして絡み合い輪郭(EC)を研究する。
ecのデータには、中国のペーパーカットに類似し、異なる分割スキームに対して不変であり、eeスケーリングの堅牢性に繋がる、‘entanglement fractal’(ef)と呼ばれる自己相似的で普遍的なパターンが示されています。
本稿では,EFパターンを人工的に生成する一連のルールを提案する。
ギャップ付きシステムでは、$A$の境界のフラクタル的特徴がEEスケーリングに影響を与え、$S_{A} \sim L_{A}^{d_{\rm bf}}$、$d_{\rm bf}$は$A$の境界のハウスドルフ次元であり、領域法則を一般化する。
一方、ECは主に$A$の境界でローカライズされる。
本研究ではフラクタル幾何が自由フェルミオンの絡み合いとどのように相互作用するかを明らかにする。
物理学と数学の今後の方向性、例えば、フラクタル上の実験的検証とラプラシアンについて論じる。 We investigate the quantum entanglement of free-fermion models on fractal lattices with non-integer dimension and broken translation symmetry. For gapless systems with finite density-of-state at the chemical potential, we find a universal scaling of entanglement entropy (EE) as $S_{A} \sim L_{A}^{d_{s}-1} \log L_{A}$ that is independent of the partition scheme, where $d_s$ is the space dimension where fractals are embedded, and $L_A$ is the linear size of the subsystem $A$. This scaling extends the Widom conjecture of translation-invariant systems to fractal lattices. We also study entanglement contour (EC) as a real-space entanglement ``tomography''. The EC data show a self-similar and universal pattern called ``entanglement fractal'' (EF), which resembles Chinese papercutting and keeps invariant for different partition schemes, leading to the EE scaling robustness. We propose a set of rules to artificially generate the EF pattern, which matches the numerical results at the scaling limit. For gapped systems, we observe that the fractal feature of $A$'s boundary affects the EE scaling as $ S_{A} \sim L_{A}^{d_{\rm bf}}$, where $ d_{\rm bf}$ is the Hausdorff dimension of $A$'s boundary, generalizing the area law. Meanwhile, the EC mainly localizes at $A$'s boundary. Our study reveals how fractal geometry interacts with the entanglement of free fermions. Future directions from physics and mathematics are discussed, e.g., experimental verification and Laplacian on fractals. | 翻訳日:2023-11-03 13:36:20 公開日:2023-11-02 |
# 細胞複合体のガウス過程 Gaussian Processes on Cellular Complexes ( http://arxiv.org/abs/2311.01198v1 ) ライセンス: Link先を確認 | Mathieu Alain, So Takao, Brooks Paige, Marc Peter Deisenroth | (参考訳) 近年、トポロジ的帰納バイアスを考慮に入れるため、グラフ上の機械学習モデルの開発にかなりの関心が寄せられている。
特に、これらの構造に関するガウス過程には、さらに不確実性が考慮されるため、近年の注意が向けられている。
しかし、グラフは2つの頂点間の関係のモデル化に限られる。
本稿では,このdyadic設定を超越し,頂点,辺,それらの一般化の1つである細胞間の相互作用を含む多進関係を考える。
具体的には,これらの高次細胞間の相互作用を捉えるグラフの一般化である細胞複合体上のガウス過程を提案する。
私たちの重要な貢献の1つは、2つの新しいカーネルの導出です。1つはグラフmat\'ernカーネルを一般化し、もう1つは異なるセルタイプの情報を混合するものです。 In recent years, there has been considerable interest in developing machine learning models on graphs in order to account for topological inductive biases. In particular, recent attention was given to Gaussian processes on such structures since they can additionally account for uncertainty. However, graphs are limited to modelling relations between two vertices. In this paper, we go beyond this dyadic setting and consider polyadic relations that include interactions between vertices, edges and one of their generalisations, known as cells. Specifically, we propose Gaussian processes on cellular complexes, a generalisation of graphs that captures interactions between these higher-order cells. One of our key contributions is the derivation of two novel kernels, one that generalises the graph Mat\'ern kernel and one that additionally mixes information of different cell types. | 翻訳日:2023-11-03 13:35:34 公開日:2023-11-02 |
# AiluRus: ディエンス予測のためのスケーラブルなViTフレームワーク AiluRus: A Scalable ViT Framework for Dense Prediction ( http://arxiv.org/abs/2311.01197v1 ) ライセンス: Link先を確認 | Jin Li, Yaoming Wang, Xiaopeng Zhang, Bowen Shi, Dongsheng Jiang, Chenglin Li, Wenrui Dai, Hongkai Xiong, Qi Tian | (参考訳) 視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
しかし、特に高解像度入力を必要とする高密度な予測タスクにおいて、長いトークンシーケンスを扱う場合、ViTsの複雑さは著しく増加する。
特に、セマンティックセグメンテーションやオブジェクト検出のような密集した予測タスクは、オブジェクトの輪郭や形状に重点を置いているが、オブジェクト内部のテクスチャはより情報に乏しい。
そこで本研究では,画像の異なる領域に対して,その重要性に応じて適応分解能を適用することを提案する。
具体的には,vitの中間層において,空間認識密度に基づくクラスタリングアルゴリズムを用いてトークンシーケンスから代表トークンを選択する。
代表トークンが決定されると、他のトークンを最も近い代表トークンにマージします。
その結果、意味的類似トークンは結合して低解像度領域を形成し、意味的無関係トークンは高解像度領域として独立に保存される。
この戦略はトークンの数を効果的に減らし、後続のレイヤが減少するトークンシーケンスを処理し、アクセラレーションを実現する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
例えば、"Segmenter ViT-L"モデルは、パフォーマンスを維持しながら微調整なしで48%のFPSで高速化できる。
また, この手法は, 微調整の高速化にも応用できる。
実験の結果,2.46倍のFPSを加速しながら52%のトレーニング時間を節約できることがわかった。
コードはhttps://github.com/caddyless/ailurus/tree/mainで入手できる。 Vision transformers (ViTs) have emerged as a prevalent architecture for vision tasks owing to their impressive performance. However, when it comes to handling long token sequences, especially in dense prediction tasks that require high-resolution input, the complexity of ViTs increases significantly. Notably, dense prediction tasks, such as semantic segmentation or object detection, emphasize more on the contours or shapes of objects, while the texture inside objects is less informative. Motivated by this observation, we propose to apply adaptive resolution for different regions in the image according to their importance. Specifically, at the intermediate layer of the ViT, we utilize a spatial-aware density-based clustering algorithm to select representative tokens from the token sequence. Once the representative tokens are determined, we proceed to merge other tokens into their closest representative token. Consequently, semantic similar tokens are merged together to form low-resolution regions, while semantic irrelevant tokens are preserved independently as high-resolution regions. This strategy effectively reduces the number of tokens, allowing subsequent layers to handle a reduced token sequence and achieve acceleration. We evaluate our proposed method on three different datasets and observe promising performance. For example, the "Segmenter ViT-L" model can be accelerated by 48% FPS without fine-tuning, while maintaining the performance. Additionally, our method can be applied to accelerate fine-tuning as well. Experimental results demonstrate that we can save 52% training time while accelerating 2.46 times FPS with only a 0.09% performance drop. The code is available at https://github.com/caddyless/ailurus/tree/main. | 翻訳日:2023-11-03 13:35:23 公開日:2023-11-02 |
# ロバストリンク予測のための両側エッジノイズ対策 Combating Bilateral Edge Noise for Robust Link Prediction ( http://arxiv.org/abs/2311.01196v1 ) ライセンス: Link先を確認 | Zhanke Zhou, Jiangchao Yao, Jiaxu Liu, Xiawei Guo, Quanming Yao, Li He, Liang Wang, Bo Zheng, Bo Han | (参考訳) グラフ上のリンク予測はグラフニューラルネットワーク(GNN)の開発で大きな成功を収めているが、エッジノイズ下での潜在的堅牢性はまだ調査されていない。
このギャップを解消するために,まず,エッジノイズが入力トポロジーとターゲットラベルの両方を左右に摂動させ,性能低下と表現の崩壊を生じさせることを示す実験実験を行った。
このジレンマに対処するために,ロバストグラフ情報ボトルネック(RGIB)という情報理論に基づく原理を提案し,信頼性の高い監視信号を抽出し,表現の崩壊を回避する。
基本的な情報ボトルネックとは違って、RGIBはグラフトポロジ、ターゲットラベル、表現の相互依存をさらに分離し、バランスを取り、両側ノイズに対する堅牢な表現のための新しい学習目標を構築する。
RGIB-SSLとRGIB-REPの2つのインスタンス化は、暗黙的および明示的なデータ復調のために、それぞれに自己教師付き学習とデータ再パラメータ化のメリットを活用するために検討されている。
6つのデータセットと3つのGNNの様々なノイズシナリオによる大規模な実験により、RGIBインスタンスの有効性が検証された。
コードはhttps://github.com/tmlr-group/RGIB.comで公開されている。 Although link prediction on graphs has achieved great success with the development of graph neural networks (GNNs), the potential robustness under the edge noise is still less investigated. To close this gap, we first conduct an empirical study to disclose that the edge noise bilaterally perturbs both input topology and target label, yielding severe performance degradation and representation collapse. To address this dilemma, we propose an information-theory-guided principle, Robust Graph Information Bottleneck (RGIB), to extract reliable supervision signals and avoid representation collapse. Different from the basic information bottleneck, RGIB further decouples and balances the mutual dependence among graph topology, target labels, and representation, building new learning objectives for robust representation against the bilateral noise. Two instantiations, RGIB-SSL and RGIB-REP, are explored to leverage the merits of different methodologies, i.e., self-supervised learning and data reparameterization, for implicit and explicit data denoising, respectively. Extensive experiments on six datasets and three GNNs with diverse noisy scenarios verify the effectiveness of our RGIB instantiations. The code is publicly available at: https://github.com/tmlr-group/RGIB. | 翻訳日:2023-11-03 13:34:55 公開日:2023-11-02 |
# レプリカブル実験設計のためのバッチベイズ最適化 Batch Bayesian Optimization for Replicable Experimental Design ( http://arxiv.org/abs/2311.01195v1 ) ライセンス: Link先を確認 | Zhongxiang Dai, Quoc Phong Nguyen, Sebastian Shenghong Tay, Daisuke Urano, Richalynn Leong, Bryan Kian Hsiang Low, Patrick Jaillet | (参考訳) 多くの実世界の実験設計問題
a)複数の実験条件を平行して評価すること
b) 大型で異種な観測ノイズにより、各条件を複数回再現する。
固定的な総予算を考えると、これは自然に、より独特な条件の評価と、各条件の複製の回数の削減と、より少ない独特な条件の評価と、各条件の複製の間のトレードオフを引き起こす。
さらに、これらの問題では、実践者はリスク回避であり、それゆえ、良い平均パフォーマンスと小さな変動性の両方の入力を好む。
両課題に対処するため、3つのアルゴリズムを含むBatch Thompson Smpling for Replicable Experimental Design (BTS-RED)フレームワークを提案する。
我々のBTS-RED-KnownとBTS-RED-Unknownアルゴリズムは、既知のノイズ分散と未知のノイズ分散のそれぞれに対して、より大きいノイズ分散の入力が複数回複製されるように決定的にではなく、適応的に複製数を選択する。
その結果、ノイズの不整合性にもかかわらず、両方のアルゴリズムは理論的保証を享受し、漸近的に非回帰である。
我々の平均値-BTS-REDアルゴリズムはリスク逆最適化を目標とし、漸近的に非回帰である。
また,精度農業とAutoMLの2つの実世界の応用において,アルゴリズムの有効性を示す。 Many real-world experimental design problems (a) evaluate multiple experimental conditions in parallel and (b) replicate each condition multiple times due to large and heteroscedastic observation noise. Given a fixed total budget, this naturally induces a trade-off between evaluating more unique conditions while replicating each of them fewer times vs. evaluating fewer unique conditions and replicating each more times. Moreover, in these problems, practitioners may be risk-averse and hence prefer an input with both good average performance and small variability. To tackle both challenges, we propose the Batch Thompson Sampling for Replicable Experimental Design (BTS-RED) framework, which encompasses three algorithms. Our BTS-RED-Known and BTS-RED-Unknown algorithms, for, respectively, known and unknown noise variance, choose the number of replications adaptively rather than deterministically such that an input with a larger noise variance is replicated more times. As a result, despite the noise heteroscedasticity, both algorithms enjoy a theoretical guarantee and are asymptotically no-regret. Our Mean-Var-BTS-RED algorithm aims at risk-averse optimization and is also asymptotically no-regret. We also show the effectiveness of our algorithms in two practical real-world applications: precision agriculture and AutoML. | 翻訳日:2023-11-03 13:34:32 公開日:2023-11-02 |
# 法領域におけるテキスト分類への共通アプローチのエネルギーベース比較分析 An energy-based comparative analysis of common approaches to text classification in the Legal domain ( http://arxiv.org/abs/2311.01256v1 ) ライセンス: Link先を確認 | Sinan Gultekin and Achille Globo and Andrea Zugarini and Marco Ernandes and Leonardo Rigutini | (参考訳) ほとんどの機械学習研究は、パフォーマンスの観点から最高のソリューションを評価します。
しかし、最高のパフォーマンスモデルを求めるレースでは、多くの重要な側面がしばしば見過ごされ、反対に、慎重に検討されるべきである。
実際、異なるアプローチ間のパフォーマンスのギャップは無視できることもあるが、生産コスト、エネルギー消費量、カーボンフットプリントといった要因を考慮する必要がある。
大規模言語モデル(LLM)は、学術や産業におけるNLP問題に対処するために広く採用されている。
本稿では,LexGLUEベンチマークにおけるLCMと従来のアプローチ(例えばSVM)の詳細な定量的比較を行い,その性能(標準指標)と,時間,消費電力,コストといった代替指標(カーボンフットプリント)の両方を考慮に入れた。
本分析では,異なる実装手順に従い,異なるリソースを必要とするため,プロトタイピングフェーズ(トレーニング検証テストの繰り返しによるモデル選択)と本運用フェーズを別々に検討した。
その結果、最も単純なアルゴリズムはLLMに非常に近い性能を達成できるが、消費電力が極めて少なく、リソースの要求も少ないことが示唆された。
その結果、機械学習(ML)ソリューションの選択にさらなる評価を加えることが示唆された。 Most Machine Learning research evaluates the best solutions in terms of performance. However, in the race for the best performing model, many important aspects are often overlooked when, on the contrary, they should be carefully considered. In fact, sometimes the gaps in performance between different approaches are neglectable, whereas factors such as production costs, energy consumption, and carbon footprint must take into consideration. Large Language Models (LLMs) are extensively adopted to address NLP problems in academia and industry. In this work, we present a detailed quantitative comparison of LLM and traditional approaches (e.g. SVM) on the LexGLUE benchmark, which takes into account both performance (standard indices) and alternative metrics such as timing, power consumption and cost, in a word: the carbon-footprint. In our analysis, we considered the prototyping phase (model selection by training-validation-test iterations) and in-production phases separately, since they follow different implementation procedures and also require different resources. The results indicate that very often, the simplest algorithms achieve performance very close to that of large LLMs but with very low power consumption and lower resource demands. The results obtained could suggest companies to include additional evaluations in the choice of Machine Learning (ML) solutions. | 翻訳日:2023-11-03 13:28:08 公開日:2023-11-02 |
# AI研究の人間参加者:実践における倫理と透明性 Human participants in AI research: Ethics and transparency in practice ( http://arxiv.org/abs/2311.01254v1 ) ライセンス: Link先を確認 | Kevin R. McKee | (参考訳) 近年、人工知能(AI)と機械学習(ML)の進歩、特に会話、人間互換、協調AIの分野において、人間の参加者を巻き込んだ研究が重要になっている。
例えば、最近のAAAIおよびNeurIPSカンファレンスにおける出版物の約12%と6%は、それぞれオリジナルの人間のデータの収集を示している。
しかし、AIとMLの研究者たちは、人間の参加者による倫理的で透明な研究プラクティスのガイドラインを欠いている。
これら4つのAAAIおよびNeurIPS論文のうち1つ以下は、倫理的レビュー、インフォームド・コンセントの収集、または参加者報酬の詳細を提供している。
本稿では,AI研究とその関連分野の規範的類似点と相違点を探求することにより,このギャップを埋めることを目的とする。
心理学、人間とコンピュータの相互作用、その他の隣接する分野は歴史的な教訓と有益な洞察を提供するが、AI研究はいくつかの特定の懸念を提起している。
これらの懸念に対処するため,AIとML研究の参加者を対象に,倫理的かつ透明な実践に関する一連のガイドラインを概説する。
これらのガイドラインは pp. 4$\unicode{x2013}$7 のセクション 4 で見ることができる。 In recent years, research involving human participants has been critical to advances in artificial intelligence (AI) and machine learning (ML), particularly in the areas of conversational, human-compatible, and cooperative AI. For example, around 12% and 6% of publications at recent AAAI and NeurIPS conferences indicate the collection of original human data, respectively. Yet AI and ML researchers lack guidelines for ethical, transparent research practices with human participants. Fewer than one out of every four of these AAAI and NeurIPS papers provide details of ethical review, the collection of informed consent, or participant compensation. This paper aims to bridge this gap by exploring normative similarities and differences between AI research and related fields that involve human participants. Though psychology, human-computer interaction, and other adjacent fields offer historic lessons and helpful insights, AI research raises several specific concerns$\unicode{x2014}$namely, participatory design, crowdsourced dataset development, and an expansive role of corporations$\unicode{x2014}$that necessitate a contextual ethics framework. To address these concerns, this paper outlines a set of guidelines for ethical and transparent practice with human participants in AI and ML research. These guidelines can be found in Section 4 on pp. 4$\unicode{x2013}$7. | 翻訳日:2023-11-03 13:27:45 公開日:2023-11-02 |
# 汚染バイアスに対する衛生クラスタリング Sanitized Clustering against Confounding Bias ( http://arxiv.org/abs/2311.01252v1 ) ライセンス: Link先を確認 | Yinghua Yao, Yuangang Pan, Jing Li, Ivor W. Tsang, Xin Yao | (参考訳) 現実世界のデータセットは必然的に、データ収集中に異なるソースや条件から生じるバイアスを含んでいる。
したがって、そのような矛盾はクラスタ分析を妨害する要因として機能する。
既存の手法では、クラスタ化前の共起因子によって拡張された部分空間の直交補空間にデータを投影することでバイアスを取り除く。
これにより、興味あるクラスタリング係数と共起係数は、データと共起係数との相関が便利な解に対して線形であると理想的に仮定される原特徴空間において粗大に考慮される。
したがって、実際のアプリケーションでのデータは通常複雑で、結合因子と非線形に相関するので、これらのアプローチは範囲が限られている。
本稿では,複合データの意味的潜在空間における結合因子を非線形依存測度で除去する,samitized clustering against confounding bias (scab) という新たなクラスタリングフレームワークを提案する。
具体的には、共起要因と変分オートエンコーダ(vae)が提供する潜在表現との相互情報を最小限にし、潜在空間におけるバイアス情報を排除する。
一方、クラスタリングモジュールは、精製された潜在表現上のクラスタに導入される。
複雑なデータセットに関する大規模な実験により、SCABは、矛盾するバイアスを取り除き、クラスタリング性能を著しく向上することを示した。
コードは \url{https://github.com/EvaFlower/SCAB} で公開されている。 Real-world datasets inevitably contain biases that arise from different sources or conditions during data collection. Consequently, such inconsistency itself acts as a confounding factor that disturbs the cluster analysis. Existing methods eliminate the biases by projecting data onto the orthogonal complement of the subspace expanded by the confounding factor before clustering. Therein, the interested clustering factor and the confounding factor are coarsely considered in the raw feature space, where the correlation between the data and the confounding factor is ideally assumed to be linear for convenient solutions. These approaches are thus limited in scope as the data in real applications is usually complex and non-linearly correlated with the confounding factor. This paper presents a new clustering framework named Sanitized Clustering Against confounding Bias (SCAB), which removes the confounding factor in the semantic latent space of complex data through a non-linear dependence measure. To be specific, we eliminate the bias information in the latent space by minimizing the mutual information between the confounding factor and the latent representation delivered by Variational Auto-Encoder (VAE). Meanwhile, a clustering module is introduced to cluster over the purified latent representations. Extensive experiments on complex datasets demonstrate that our SCAB achieves a significant gain in clustering performance by removing the confounding bias. The code is available at \url{https://github.com/EvaFlower/SCAB}. | 翻訳日:2023-11-03 13:27:25 公開日:2023-11-02 |
# 実証された限界にプッシュする - 力のマッチングによるマルチモーダルビゾオタクティル模倣学習 Push it to the Demonstrated Limit: Multimodal Visuotactile Imitation Learning with Force Matching ( http://arxiv.org/abs/2311.01248v1 ) ライセンス: Link先を確認 | Trevor Ablett, Oliver Limoyo, Adam Sigal, Affan Jilani, Jonathan Kelly, Kaleem Siddiqi, Francois Hogan, Gregory Dudek | (参考訳) 光触覚センサは、ロボット操作中に密接な接触情報を取得する効果的な手段として登場した。
このタイプのセンサの最近導入された'see-through-your-skin'(sts)変種は、視覚モードと触覚モードの両方を持ち、半透明な表面と制御可能な照明を活用できる。
本研究では,コンタクトリッチな操作タスクのための模倣学習と組み合わせたビゾタクティルセンシングの利点について検討する。
まず, 触覚力測定と, 審美教育における新しいアルゴリズムを用いて, 人間のデモンストレーターとよく一致した力プロファイルを得る。
第2に、制御ポリシ出力として視覚/触覚STSモードスイッチを追加し、センサの適用を簡素化する。
最後に,手首装着眼球カメラの視覚データと視覚・触覚データ(モード切替えなし)の値を比較し,比較するため,複数の観察構成について検討した。
3000以上の実際のテストエピソードを含む、ドアの開閉作業を伴う実際のロボットマニピュレータについて、広範囲にわたる実験を行った。
本研究では,データ収集による力のマッチングと,タスクフィードバックの精度向上を目的としたポリシ実行の両方において,模倣学習における触覚センシングの重要性を強調した。 Optical tactile sensors have emerged as an effective means to acquire dense contact information during robotic manipulation. A recently-introduced `see-through-your-skin' (STS) variant of this type of sensor has both visual and tactile modes, enabled by leveraging a semi-transparent surface and controllable lighting. In this work, we investigate the benefits of pairing visuotactile sensing with imitation learning for contact-rich manipulation tasks. First, we use tactile force measurements and a novel algorithm during kinesthetic teaching to yield a force profile that better matches that of the human demonstrator. Second, we add visual/tactile STS mode switching as a control policy output, simplifying the application of the sensor. Finally, we study multiple observation configurations to compare and contrast the value of visual/tactile data (both with and without mode switching) with visual data from a wrist-mounted eye-in-hand camera. We perform an extensive series of experiments on a real robotic manipulator with door-opening and closing tasks, including over 3,000 real test episodes. Our results highlight the importance of tactile sensing for imitation learning, both for data collection to allow force matching, and for policy execution to allow accurate task feedback. | 翻訳日:2023-11-03 13:27:00 公開日:2023-11-02 |
# 自由のためのロバスト性: 品質-多様性駆動型アジャイルなソフトロボット歩行の発見 Robustness for Free: Quality-Diversity Driven Discovery of Agile Soft Robotic Gaits ( http://arxiv.org/abs/2311.01245v1 ) ライセンス: Link先を確認 | John Daly, Daniel Casper, Muhammad Farooq, Andrew James, Ali Khan, Phoenix Mulgrew, Daniel Tyebkhan, Bao Vo, John Rieffel | (参考訳) soft roboticsは、さまざまな非構造環境や未知の環境に適応できるロボットを開発することを目指している。
ソフトロボット制御の重要な課題は、非線形力学がしばしばモデル化と予測が難しい複雑な振る舞いをもたらすことである。
通常、移動ソフトロボットの動作は経験的な試行錯誤と手作業によって発見される。
最近では遺伝的アルゴリズム(GA)のような最適化アルゴリズムが歩行の発見に使われてきたが、これらの挙動は単一の環境や地形に最適化されることが多く、計画外の地形変化には脆弱である。
本稿では,高パフォーマンス行動の広範囲を探索する品質多様性アルゴリズムが,地形変化にロバストな歩行の再現性をどのように生み出すかを示す。
このロバスト性は、単一の目的最適化アルゴリズムによって生成される歩留まりを大きく上回る。 Soft robotics aims to develop robots able to adapt their behavior across a wide range of unstructured and unknown environments. A critical challenge of soft robotic control is that nonlinear dynamics often result in complex behaviors hard to model and predict. Typically behaviors for mobile soft robots are discovered through empirical trial and error and hand-tuning. More recently, optimization algorithms such as Genetic Algorithms (GA) have been used to discover gaits, but these behaviors are often optimized for a single environment or terrain, and can be brittle to unplanned changes to terrain. In this paper we demonstrate how Quality Diversity Algorithms, which search of a range of high-performing behaviors, can produce repertoires of gaits that are robust to changing terrains. This robustness significantly out-performs that of gaits produced by a single objective optimization algorithm. | 翻訳日:2023-11-03 13:26:37 公開日:2023-11-02 |
# 単一量子ドットにおける非退化二光子ラシング Nondegenerate two-photon lasing in a single quantum dot ( http://arxiv.org/abs/2311.01244v1 ) ライセンス: Link先を確認 | Samit Kumar Hazra, Lava Kumar Addepalli, P. K. Pathak and Tarak Nath Dey | (参考訳) 2モードマイクロキャビティ内で成長する単一半導体量子ドットを用いた2モード2光子マイクロレーザーを提案する。
2モード2光子発振に適した条件を達成するため,低温での非コヒーレントおよびコヒーレントポンピングについて検討した。
二モード二光子励起放出は強く抑制されるが、励起子-フォノン相互作用により単光子励起放出が増強される。
コヒーレントに励起された量子ドットでは、単一の光子ラシングがほとんど存在しない大きな2モードの2光子ラシングを達成することができる。
また、2光子共振ポンピングによる定常状態2モード絡み合い状態の生成についても検討する。 We propose two-mode two-photon microlaser using a single semiconductor quantum dot grown inside a two-mode microcavity. We explore both incoherent and coherent pumping at low temperatures to achieve suitable conditions for two-mode two-photon lasing. The two-mode two-photon stimulated emission is strongly suppressed but the single-photon stimulated emission is enhanced by exciton-phonon interactions. In coherently pumped quantum dot one can achieve large two-mode two-photon lasing where single-photon lasing is almost absent. We also discuss generation of steady state two-mode entangled state using two-photon resonant pumping. | 翻訳日:2023-11-03 13:26:22 公開日:2023-11-02 |
# pfas化学をシミュレートする量子コンピューティングの限界を押し上げる Pushing the Limits of Quantum Computing for Simulating PFAS Chemistry ( http://arxiv.org/abs/2311.01242v1 ) ライセンス: Link先を確認 | Emil Dimitrov, Goar Sanchez-Sanz, James Nelson, Lee O'Riordan, Myles Doyle, Sean Courtney, Venkatesh Kannan, Hassan Naseri, Alberto Garcia Garcia, James Tricker, Marisa Faraggi, Joshua Goings, Luning Zhao | (参考訳) 量子化学の高精度でスケーラブルな手法は、創薬から先端材料設計まで、様々な分野の研究と開発を加速することができる。
電子シュロディンガー方程式の解法は計算化学の核となる問題である。
しかし、この問題の組合せ複雑性は、非常に小さなシステムを除いて、正確な解を見つけるのを難しくする。
量子コンピューティングのアイデアは、量子力学をシミュレートするこの計算課題から生まれた。
本稿では,変分量子固有解法(VQE)アルゴリズムに基づくエンドツーエンドの量子化学パイプラインを提案する。
我々のプラットフォームは、計算資源上で数百のシミュレーションジョブを編成し、幅広いパラメータ化を伴うアブ初期化学実験を効率的に完了します。
パーフルオロアルキル物質(per- and poly-fluoroalkyl substances, PFAS)は、地球規模の環境・健康問題を引き起こす人為的な化学物質である。
シミュレーションでは, 一般的なPFAS化学物質であるトリフルオロ酢酸 (TFA) の炭素-フルオリン結合を分解する。
これはPFASの破壊と除去への共通の経路である。
分子は量子シミュレータと閉じ込められたイオン量子コンピュータ、特にIonQ Ariaでモデル化される。
基本的な誤差緩和手法を用いて、IonQ Aria 上の 11-qubit TFA モデル (56エンタングリングゲート) はミリハートの精度でほぼ定量的な結果が得られる。
本稿では,電子構造問題の解法における量子コンピューティングの現状と将来予測,VQEアルゴリズムと量子コンピュータの境界を推し進め,量子化学ワークフローの開発を促進することを目的とした。 Accurate and scalable methods for computational quantum chemistry can accelerate research and development in many fields, ranging from drug discovery to advanced material design. Solving the electronic Schrodinger equation is the core problem of computational chemistry. However, the combinatorial complexity of this problem makes it intractable to find exact solutions, except for very small systems. The idea of quantum computing originated from this computational challenge in simulating quantum-mechanics. We propose an end-to-end quantum chemistry pipeline based on the variational quantum eigensolver (VQE) algorithm and integrated with both HPC-based simulators and a trapped-ion quantum computer. Our platform orchestrates hundreds of simulation jobs on compute resources to efficiently complete a set of ab initio chemistry experiments with a wide range of parameterization. Per- and poly-fluoroalkyl substances (PFAS) are a large family of human-made chemicals that pose a major environmental and health issue globally. Our simulations includes breaking a Carbon-Fluorine bond in trifluoroacetic acid (TFA), a common PFAS chemical. This is a common pathway towards destruction and removal of PFAS. Molecules are modeled on both a quantum simulator and a trapped-ion quantum computer, specifically IonQ Aria. Using basic error mitigation techniques, the 11-qubit TFA model (56 entangling gates) on IonQ Aria yields near-quantitative results with milli-Hartree accuracy. Our novel results show the current state and future projections for quantum computing in solving the electronic structure problem, push the boundaries for the VQE algorithm and quantum computers, and facilitates development of quantum chemistry workflows. | 翻訳日:2023-11-03 13:26:04 公開日:2023-11-02 |
# 虹彩認識のための深層学習画像超解法探索 Exploring Deep Learning Image Super-Resolution for Iris Recognition ( http://arxiv.org/abs/2311.01241v1 ) ライセンス: Link先を確認 | Eduardo Ribeiro, Andreas Uhl, Fernando Alonso-Fernandez, Reuben A. Farrugia | (参考訳) 本研究では,虹彩認識問題に適用する低解像度画像と高画質画像間のエンドツーエンドマッピングを提供するための深層学習手法の能力をテストする。
本稿では,高速化,局所的情報保存,アーティファクトの削減を同時に実現するために,最軽量構造を持つスタック型オートエンコーダ(sae)と畳み込みニューラルネットワーク(cnn)の2つのディープラーニングによる超解像手法を提案する。
精度評価と認識実験により,1.872個の近赤外虹彩画像のデータベースを用いて評価を行い,比較アルゴリズムよりも深層学習の方が優れていることを示す。 In this work we test the ability of deep learning methods to provide an end-to-end mapping between low and high resolution images applying it to the iris recognition problem. Here, we propose the use of two deep learning single-image super-resolution approaches: Stacked Auto-Encoders (SAE) and Convolutional Neural Networks (CNN) with the most possible lightweight structure to achieve fast speed, preserve local information and reduce artifacts at the same time. We validate the methods with a database of 1.872 near-infrared iris images with quality assessment and recognition experiments showing the superiority of deep learning approaches over the compared algorithms. | 翻訳日:2023-11-03 13:25:19 公開日:2023-11-02 |
# FacadeNet:選択編集による条件付きファサード合成 FacadeNet: Conditional Facade Synthesis via Selective Editing ( http://arxiv.org/abs/2311.01240v1 ) ライセンス: Link先を確認 | Yiangos Georgiou and Marios Loizou and Tom Kelly and Melinos Averkiou | (参考訳) 多様な視点からファサードイメージを構築するためのディープラーニングアプローチであるFacadeNetを紹介する。
本手法では,条件付きGANを用いて,所望の視点情報とともにファサードの単一ビューを取得し,異なる視点からファサードの画像を生成する。
壁などのビューに依存しないコンポーネントの構造を維持しつつ,窓やドアなどのビュー依存要素を正確に修正するために,選択的な編集モジュールを導入する。
このモジュールは、事前訓練されたビジョントランスから抽出された画像埋め込みを利用する。
本実験は, ファサード生成における最先端性能を実証し, 代替手法を超越した。 We introduce FacadeNet, a deep learning approach for synthesizing building facade images from diverse viewpoints. Our method employs a conditional GAN, taking a single view of a facade along with the desired viewpoint information and generates an image of the facade from the distinct viewpoint. To precisely modify view-dependent elements like windows and doors while preserving the structure of view-independent components such as walls, we introduce a selective editing module. This module leverages image embeddings extracted from a pre-trained vision transformer. Our experiments demonstrated state-of-the-art performance on building facade generation, surpassing alternative methods. | 翻訳日:2023-11-03 13:25:00 公開日:2023-11-02 |
# log-likelihoodスコアレベルの融合によるセンサ間スマートフォンの認識精度の向上 Log-Likelihood Score Level Fusion for Improved Cross-Sensor Smartphone Periocular Recognition ( http://arxiv.org/abs/2311.01237v1 ) ライセンス: Link先を確認 | Fernando Alonso-Fernandez, Kiran B. Raja, Christoph Busch, Josef Bigun | (参考訳) カメラやパーソナルデバイスの普及は、画像条件の幅広いばらつきをもたらし、異種環境からの画像を比較した場合、クラス内の大きなバリエーションと大幅な性能低下をもたらす。
しかし、多くのアプリケーションは異なるソースからのデータを定期的に処理する必要があるため、これらの相互運用性の問題を克服する必要がある。
本稿では,複数のコンパレータを融合させて,異なるスマートフォンの画像を比較した場合の眼内性能を向上させる。
本研究では, 線形ロジスティック回帰に基づく確率的融合フレームワークを用いて, 融合によるクロスセンサEERの最大40%の低減を実現する。
同センサとクロスセンサのスコア分布は、共通の確率領域にアライメントされマッピングされるため、当社のフレームワークは、異なるデバイスからの信号を処理するエレガントでシンプルなソリューションも提供します。
これにより、ベイズ閾値を最適な意思決定に使用することができ、多くのアプリケーションにおける認証プロセスの正確性を決定するため、運用条件において不可欠なセンサ固有のしきい値の必要性を排除できる。 The proliferation of cameras and personal devices results in a wide variability of imaging conditions, producing large intra-class variations and a significant performance drop when images from heterogeneous environments are compared. However, many applications require to deal with data from different sources regularly, thus needing to overcome these interoperability problems. Here, we employ fusion of several comparators to improve periocular performance when images from different smartphones are compared. We use a probabilistic fusion framework based on linear logistic regression, in which fused scores tend to be log-likelihood ratios, obtaining a reduction in cross-sensor EER of up to 40% due to the fusion. Our framework also provides an elegant and simple solution to handle signals from different devices, since same-sensor and cross-sensor score distributions are aligned and mapped to a common probabilistic domain. This allows the use of Bayes thresholds for optimal decision-making, eliminating the need of sensor-specific thresholds, which is essential in operational conditions because the threshold setting critically determines the accuracy of the authentication process in many applications. | 翻訳日:2023-11-03 13:24:45 公開日:2023-11-02 |
# aiによる複雑な検索タスクのナビゲート Navigating Complex Search Tasks with AI Copilots ( http://arxiv.org/abs/2311.01235v1 ) ライセンス: Link先を確認 | Ryen W. White | (参考訳) 情報検索(IR)研究コミュニティにいる私たちの多くが知っているように、検索は解決された問題には程遠い。
何百万人もの人々が毎日検索エンジンのタスクに苦労している。
しばしば、彼らの苦労は、彼らのタスクの本質的な複雑さと、そのタスクを完全に理解し、関連する結果を提供するための検索システムの失敗に関係している。
このタスクは検索のモチベーションを高め、検索者がブリッジ/リゾルを試み、異なるタスクファセットを通して検索動作を駆動するギャップ/プロブルマティックな状況を生成する。
複雑な検索タスクには、基本的な事実発見や再発見のサポート以上のものが必要です。
複雑なタスクをサポートする方法の研究には、クエリとWebサイトの提案の生成、検索のパーソナライズとコンテキスト化、時間と空間にまたがる新しい検索エクスペリエンスの開発などが含まれる。
生成人工知能(AI)の近年の出現と、この技術に基づく補助エージェント(副操縦士)の到来は、検索者、特に複雑なタスクに従事する人たちにさらなる支援を提供する可能性がある。
これらの進歩から、インテリジェントシステムの設計や、検索そのものの将来には、深い意味合いがある。
この記事では、2023年のACM SIGIR Conferenceの著者による基調講演に基づいて、AIコミッションによってガイドされる情報アクセスの新たな視野に向けて、これらの問題とコースをグラフ化します。 As many of us in the information retrieval (IR) research community know and appreciate, search is far from being a solved problem. Millions of people struggle with tasks on search engines every day. Often, their struggles relate to the intrinsic complexity of their task and the failure of search systems to fully understand the task and serve relevant results. The task motivates the search, creating the gap/problematic situation that searchers attempt to bridge/resolve and drives search behavior as they work through different task facets. Complex search tasks require more than support for rudimentary fact finding or re-finding. Research on methods to support complex tasks includes work on generating query and website suggestions, personalizing and contextualizing search, and developing new search experiences, including those that span time and space. The recent emergence of generative artificial intelligence (AI) and the arrival of assistive agents, or copilots, based on this technology, has the potential to offer further assistance to searchers, especially those engaged in complex tasks. There are profound implications from these advances for the design of intelligent systems and for the future of search itself. This article, based on a keynote by the author at the 2023 ACM SIGIR Conference, explores these issues and charts a course toward new horizons in information access guided by AI copilots. | 翻訳日:2023-11-03 13:23:59 公開日:2023-11-02 |
# 長編要約:長編ビデオ質問回答のための要約検索法 Long Story Short: a Summarize-then-Search Method for Long Video Question Answering ( http://arxiv.org/abs/2311.01233v1 ) ライセンス: Link先を確認 | Jiwan Chung, Youngjae Yu | (参考訳) gpt-3のような大規模言語モデルは、タスク固有のトレーニングデータを必要としない新しいタスクに適応する素晴らしい能力を示している。
この機能は、タスクの多様性が非常に大きいが、利用可能な監視データは少ない、物語質問応答のような設定で特に有効である。
本研究では,これらの言語モデルが,ドラマ,映画,アニメーションなどのマルチメディアコンテンツにおいて,ゼロショット推論能力を長大なマルチモーダル物語に拡張できるかどうかについて検討する。
本稿では,まずビデオの物語を短いプロットに要約し,質問に関連するビデオの一部を検索する,物語ビデオQAのためのフレームワークであるLong Story Shortを提案する。
また,クリップチェックによる視覚的マッチングの強化も提案する。
我々のモデルは最先端の教師付きモデルよりも大きなマージンで優れており、ロングビデオにおけるゼロショットQAの可能性を強調している。 Large language models such as GPT-3 have demonstrated an impressive capability to adapt to new tasks without requiring task-specific training data. This capability has been particularly effective in settings such as narrative question answering, where the diversity of tasks is immense, but the available supervision data is small. In this work, we investigate if such language models can extend their zero-shot reasoning abilities to long multimodal narratives in multimedia content such as drama, movies, and animation, where the story plays an essential role. We propose Long Story Short, a framework for narrative video QA that first summarizes the narrative of the video to a short plot and then searches parts of the video relevant to the question. We also propose to enhance visual matching with CLIPCheck. Our model outperforms state-of-the-art supervised models by a large margin, highlighting the potential of zero-shot QA for long videos. | 翻訳日:2023-11-03 13:23:28 公開日:2023-11-02 |
# 潜在空間における多操作数学的導出 Multi-Operational Mathematical Derivations in Latent Space ( http://arxiv.org/abs/2311.01230v1 ) ライセンス: Link先を確認 | Marco Valentino, Jordan Meadows, Lan Zhang, Andr\'e Freitas | (参考訳) 本稿では,表現導出のための潜在空間における複数の数理演算を近似する可能性について検討する。
この目的のために, 数学的操作を明示的な幾何学的変換としてモデル化し, 異なる多操作表現パラダイムを導入する。
シンボリックエンジンを利用することで,61Kの前提と6つの演算子からなる1.7Mの導出ステップからなる大規模データセットを構築し,最先端のニューラルエンコーダをインスタンス化する際の各パラダイムの特性を解析する。
具体的には、異なる符号化機構が潜在空間における方程式推論を近似し、異なる演算子を学習し、単一の操作で専門化することのトレードオフを探り、多段階導出と分布外一般化をサポートする能力について検討する。
実験結果から,マルチオペレーションパラダイムは異なる演算子を分離する上で重要であり,一方,単一操作の結論を識別することは元の式エンコーダでは達成可能であることが明らかとなった。
さらに,設計上の選択が潜在空間のトレーニングダイナミクス,構造的組織,一般化に大きく影響し,その結果,エンコーダのパラダイムやクラスにまたがる大きな変化をもたらすことを示した。 This paper investigates the possibility of approximating multiple mathematical operations in latent space for expression derivation. To this end, we introduce different multi-operational representation paradigms, modelling mathematical operations as explicit geometric transformations. By leveraging a symbolic engine, we construct a large-scale dataset comprising 1.7M derivation steps stemming from 61K premises and 6 operators, analysing the properties of each paradigm when instantiated with state-of-the-art neural encoders. Specifically, we investigate how different encoding mechanisms can approximate equational reasoning in latent space, exploring the trade-off between learning different operators and specialising within single operations, as well as the ability to support multi-step derivations and out-of-distribution generalisation. Our empirical analysis reveals that the multi-operational paradigm is crucial for disentangling different operators, while discriminating the conclusions for a single operation is achievable in the original expression encoder. Moreover, we show that architectural choices can heavily affect the training dynamics, structural organisation, and generalisation of the latent space, resulting in significant variations across paradigms and classes of encoders. | 翻訳日:2023-11-03 13:23:07 公開日:2023-11-02 |
# 長期学習におけるロバスト特徴学習とグローバル変数駆動型分類器アライメント Robust Feature Learning and Global Variance-Driven Classifier Alignment for Long-Tail Class Incremental Learning ( http://arxiv.org/abs/2311.01227v1 ) ライセンス: Link先を確認 | Jayateja Kalla and Soma Biswas | (参考訳) 本稿では,長期データ分布の文脈における破滅的な忘れを軽減しつつ,段階的に新しいクラスを学習できるようにするための2段階のフレームワークを提案する。
ロングテールクラスインクリメンタルラーニングにおいてテールクラスを過小表現することで生じる課題に対処し,第2段階ではグローバル分散を情報尺度として活用し,クラスプロトタイプを活用し,分類器アライメントを実現する。
このプロセスは、効果的にクラスプロパティをキャプチャし、データバランシングや追加のレイヤチューニングの必要性をなくします。
最初の段階での従来のクラスインクリメンタルな学習損失に加えて、提案手法では混合クラスを組み込んで堅牢な特徴表現を学習し、よりスムーズな境界を確保する。
提案するフレームワークは,任意のクラスインクリメンタル学習手法をモジュールとしてシームレスに統合して,長いクラスインクリメンタル学習シナリオを効果的に処理することができる。
CIFAR-100とImageNet-Subsetデータセットの大規模な実験は、アプローチの有効性を検証する。 This paper introduces a two-stage framework designed to enhance long-tail class incremental learning, enabling the model to progressively learn new classes, while mitigating catastrophic forgetting in the context of long-tailed data distributions. Addressing the challenge posed by the under-representation of tail classes in long-tail class incremental learning, our approach achieves classifier alignment by leveraging global variance as an informative measure and class prototypes in the second stage. This process effectively captures class properties and eliminates the need for data balancing or additional layer tuning. Alongside traditional class incremental learning losses in the first stage, the proposed approach incorporates mixup classes to learn robust feature representations, ensuring smoother boundaries. The proposed framework can seamlessly integrate as a module with any class incremental learning method to effectively handle long-tail class incremental learning scenarios. Extensive experimentation on the CIFAR-100 and ImageNet-Subset datasets validates the approach's efficacy, showcasing its superiority over state-of-the-art techniques across various long-tail CIL settings. | 翻訳日:2023-11-03 13:22:46 公開日:2023-11-02 |
# 最適輸送誘導条件付きスコアベース拡散モデル Optimal Transport-Guided Conditional Score-Based Diffusion Models ( http://arxiv.org/abs/2311.01226v1 ) ライセンス: Link先を確認 | Xiang Gu, Liwei Yang, Jian Sun, Zongben Xu | (参考訳) 条件付きスコアベース拡散モデル(SBDM)は、条件付きデータを条件としてターゲットデータの条件付き生成を行い、画像翻訳において大きな成功を収めた。
しかし、条件としてペアデータが必要であり、現実世界のアプリケーションで提供されるペアデータには不十分である。
本稿では, 部分ペアあるいは非ペアデータセットを用いたアプリケーションに対して, 最適トランスポート誘導条件付スコアベース拡散モデル(otcs)を提案する。
我々は、それぞれ$l_2$-regularized unsupervised または semi-supervised optimal transport に基づいて、非ペアまたは部分ペアのデータセットの結合関係を構築する。
結合関係に基づいて,条件付きsbdmの修正と一般化に基づいて,条件付きスコアベースモデルを非ペアまたは部分ペア設定でトレーニングする目標を開発した。
推定結合関係を用いて,サンプルデータを高整合性で選択するための 'resampling-by-compatibility'' 戦略を設計し,条件付きスコアベースモデルを効果的に訓練する。
超解像および半対像画像変換の広汎な実験により,提案したOTCSモデルの有効性が示された。
最適なトランスポートの観点から、OTCSは分散をまたいでデータを転送するアプローチを提供する。
理論的には、OTCSは理論的境界を持つOT内のデータ転送を実現する。
コードは \url{https://github.com/XJTU-XGU/OTCS} で入手できる。 Conditional score-based diffusion model (SBDM) is for conditional generation of target data with paired data as condition, and has achieved great success in image translation. However, it requires the paired data as condition, and there would be insufficient paired data provided in real-world applications. To tackle the applications with partially paired or even unpaired dataset, we propose a novel Optimal Transport-guided Conditional Score-based diffusion model (OTCS) in this paper. We build the coupling relationship for the unpaired or partially paired dataset based on $L_2$-regularized unsupervised or semi-supervised optimal transport, respectively. Based on the coupling relationship, we develop the objective for training the conditional score-based model for unpaired or partially paired settings, which is based on a reformulation and generalization of the conditional SBDM for paired setting. With the estimated coupling relationship, we effectively train the conditional score-based model by designing a ``resampling-by-compatibility'' strategy to choose the sampled data with high compatibility as guidance. Extensive experiments on unpaired super-resolution and semi-paired image-to-image translation demonstrated the effectiveness of the proposed OTCS model. From the viewpoint of optimal transport, OTCS provides an approach to transport data across distributions, which is a challenge for OT on large-scale datasets. We theoretically prove that OTCS realizes the data transport in OT with a theoretical bound. Code is available at \url{https://github.com/XJTU-XGU/OTCS}. | 翻訳日:2023-11-03 13:22:25 公開日:2023-11-02 |
# 言語モデルの実体的一貫性に及ぼすスケール, 検索拡張, フォームの影響 The Effect of Scaling, Retrieval Augmentation and Form on the Factual Consistency of Language Models ( http://arxiv.org/abs/2311.01307v1 ) ライセンス: Link先を確認 | Lovisa Hagstr\"om and Denitsa Saynova and Tobias Norlund and Moa Johansson and Richard Johansson | (参考訳) 大規模言語モデル(LLM)は、事実知識に対する自然なインタフェースを作るが、その有用性は意味論的に等価な質問に対して一貫性のない回答を提供する傾向によって制限される。
例えば、モデルでは「アン・レッドパスがエディンバラで亡くなった」と「アン・レッドパスの人生はロンドンで終わった」の両方を予測できる。
本研究では,不整合の潜在的原因を特定し,検索コーパスによるlmのスケールアップと強化という2つの緩和戦略の有効性を評価する。
LLaMAモデルとAtlasモデルで得られた結果から,検索の高速化が著しく向上する一方,両戦略が矛盾を低減できることが示唆された。
我々はさらに、Atlasの異なるコンポーネントの一貫性のコントリビューションについて検討し、議論する。
評価されたすべてのLMに対して、構文形式やその他の評価タスクアーティファクトが一貫性に影響を及ぼすことがわかった。
その結果,言語モデルの事実的一貫性に影響を与える要因の理解を深めることができた。 Large Language Models (LLMs) make natural interfaces to factual knowledge, but their usefulness is limited by their tendency to deliver inconsistent answers to semantically equivalent questions. For example, a model might predict both "Anne Redpath passed away in Edinburgh." and "Anne Redpath's life ended in London." In this work, we identify potential causes of inconsistency and evaluate the effectiveness of two mitigation strategies: up-scaling and augmenting the LM with a retrieval corpus. Our results on the LLaMA and Atlas models show that both strategies reduce inconsistency while retrieval augmentation is considerably more efficient. We further consider and disentangle the consistency contributions of different components of Atlas. For all LMs evaluated we find that syntactical form and other evaluation task artifacts impact consistency. Taken together, our results provide a better understanding of the factors affecting the factual consistency of language models. | 翻訳日:2023-11-03 13:14:31 公開日:2023-11-02 |
# 量子アニールにおける量子誤差緩和 Quantum error mitigation in quantum annealing ( http://arxiv.org/abs/2311.01306v1 ) ライセンス: Link先を確認 | Mohammad H. Amin, Andrew D. King, Jack Raymond, Richard Harris, William Bernoudy, Andrew J. Berkley, Kelly Boothby, Anatoly Smirnov, Fabio Altomare, Michael Babcock, Catia Baron, Jake Connor, Martin Dehn, Colin Enderud, Emile Hoskinson, Shuiyuan Huang, Mark W. Johnson, Eric Ladizinsky, Trevor Lanting, Allison J. R. MacDonald, Gaelen Marsden, Reza Molavi, Travis Oh, Gabriel Poulin-Lamarre, Hugh Ramp, Chris Rich, Berta Trullas Clavera, Nicholas Tsai, Mark Volkmann, Jed D. Whittaker, Jason Yao, Niclas Heinsdorf, Nitin Kaushal, Alberto Nocera, and Marcel Franz | (参考訳) QEM(Quantum Error Mitigation)は、量子コンピューティングにおける期待値の推定時にエラーを減らすための有望な短期的アプローチを示す。
本稿ではゼロノイズ外挿法(ZNE)を用いて量子アニールに適したQEM手法を提案する。
ゼロ温度外挿およびエネルギー時間再スケーリングによりZNEを実装した。
横磁場イジングスピン鎖の量子臨界ダイナミクスを実験的に研究し、これらの2つの手法による熱雑音の緩和に成功したことを示す。
さらに,熱雑音の影響が最小限であるコヒーレント環境において,エネルギー時間再スケーリングは制御誤差を効果的に軽減することを示した。
我々のZNE結果は、コヒーレントアニーリング範囲を超えるアニーリング時間の範囲におけるコヒーレント進化の正確な計算とほぼ一桁の精度で一致している。 Quantum Error Mitigation (QEM) presents a promising near-term approach to reduce error when estimating expectation values in quantum computing. Here, we introduce QEM techniques tailored for quantum annealing, using Zero-Noise Extrapolation (ZNE). We implement ZNE through zero-temperature extrapolation as well as energy-time rescaling. We conduct experimental investigations into the quantum critical dynamics of a transverse-field Ising spin chain, demonstrating the successful mitigation of thermal noise through both of these techniques. Moreover, we show that energy-time rescaling effectively mitigates control errors in the coherent regime where the effect of thermal noise is minimal. Our ZNE results agree with exact calculations of the coherent evolution over a range of annealing times that exceeds the coherent annealing range by almost an order of magnitude. | 翻訳日:2023-11-03 13:14:13 公開日:2023-11-02 |
# AWEQ:大規模言語モデルに対するアクティベーション-ウェイト等化によるポストトレーニング量子化 AWEQ: Post-Training Quantization with Activation-Weight Equalization for Large Language Models ( http://arxiv.org/abs/2311.01305v1 ) ライセンス: Link先を確認 | Baisong Li and Xingwang Wang and Haixiao Xu | (参考訳) 大規模言語モデル(LLM)は様々なタスクにまたがって優れた性能を示すが、計算と記憶のコストがかなり高い。
これらのモデルを定量化することは、この問題を軽減する効果的な方法である。
しかし、既存の手法はモデル精度とハードウェア効率のバランスをとるのに苦労している。
ここで、追加のトレーニングオーバーヘッドを必要としないポストトレーニング方法であるAWEQを紹介します。
AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。
重量量子化は活性化量子化よりも難しくないという観測がある。
AWEQは、チャネル等化を用いて活性化量子化の困難さを重みに転送し、両方の量子化の困難さのバランスを達成し、性能を最大化する。
さらに, 量子化バイアス誤差を軽減し, モデルのロバスト性を確保するため, 等化法をさらに洗練した。
LLaMA や OPT のような一般的なモデルに対する大規模な実験は、AWEQ が大規模モデルに対する既存の学習後の量子化手法よりも優れていることを示した。 Large language models(LLMs) exhibit excellent performance across a variety of tasks, but they come with significant computational and storage costs. Quantizing these models is an effective way to alleviate this issue. However, existing methods struggle to strike a balance between model accuracy and hardware efficiency. This is where we introduce AWEQ, a post-training method that requires no additional training overhead. AWEQ excels in both ultra-low-bit quantization and 8-bit weight and activation (W8A8) quantization. There is an observation that weight quantization is less challenging than activation quantization. AWEQ transfers the difficulty of activation quantization to weights using channel equalization, achieving a balance between the quantization difficulties of both, and thereby maximizing performance. We have further refined the equalization method to mitigate quantization bias error, ensuring the robustness of the model. Extensive experiments on popular models such as LLaMA and OPT demonstrate that AWEQ outperforms all existing post-training quantization methods for large models. | 翻訳日:2023-11-03 13:13:58 公開日:2023-11-02 |
# TRIALSCOPE - バイオメディカル言語モデルを用いた実世界のエビデンス生成のための統一因果関係フレームワーク TRIALSCOPE A Unifying Causal Framework for Scaling Real-World Evidence Generation with Biomedical Language Models ( http://arxiv.org/abs/2311.01301v1 ) ライセンス: Link先を確認 | Javier Gonz\'alez, Cliff Wong, Zelalem Gero, Jass Bagga, Risa Ueno, Isabel Chien, Eduard Orakvin, Emre Kiciman, Aditya Nori, Roshanthi Weerasinghe, Rom S. Leidner, Brian Piening, Tristan Naumann, Carlo Bifulco, Hoifung Poon | (参考訳) 現実世界のデータの迅速なデジタル化は、医療提供を最適化し、生物医学的発見を加速する前例のない機会を提供する。
しかし実際には、そのようなデータは電子カルテ(EMR)における臨床ノートなど、構造化されていない形で最も多く利用でき、共同設立者が悩むのが一般的である。
本稿では,人口レベルの観測データから実世界の証拠を蒸留するための統合フレームワークであるTRIALSCOPEを提案する。
TRIALSCOPEは、バイオメディカル言語モデルを活用して、臨床テキストを大規模に構成し、より高度な確率論的モデリングを用いて、一般的な共同設立者と戦うために最先端の因果推論技術を採用している。
TRIALSCOPEは、臨床試験仕様を一般的な表現として使用し、観察データを用いて臨床仮説の生成と推論を行うターンキーソリューションを提供する。
米国の大規模医療ネットワークから100万人以上のがん患者を抱える大規模な実世界のデータセットに関する広範な実験と分析において、trialscopeは実世界のデータを高品質に構造化し、マーキーがんの臨床試験に匹敵する結果を生み出すことができることを示した。
RIALSCOPEは、シリコン内臨床試験の設計と最適化の容易化に加えて、合成制御、実用的治験、市場後監視、および精密診断および治療におけるきめ細かい患者様の推論をサポートするために用いられる。 The rapid digitization of real-world data offers an unprecedented opportunity for optimizing healthcare delivery and accelerating biomedical discovery. In practice, however, such data is most abundantly available in unstructured forms, such as clinical notes in electronic medical records (EMRs), and it is generally plagued by confounders. In this paper, we present TRIALSCOPE, a unifying framework for distilling real-world evidence from population-level observational data. TRIALSCOPE leverages biomedical language models to structure clinical text at scale, employs advanced probabilistic modeling for denoising and imputation, and incorporates state-of-the-art causal inference techniques to combat common confounders. Using clinical trial specification as generic representation, TRIALSCOPE provides a turn-key solution to generate and reason with clinical hypotheses using observational data. In extensive experiments and analyses on a large-scale real-world dataset with over one million cancer patients from a large US healthcare network, we show that TRIALSCOPE can produce high-quality structuring of real-world data and generates comparable results to marquee cancer trials. In addition to facilitating in-silicon clinical trial design and optimization, TRIALSCOPE may be used to empower synthetic controls, pragmatic trials, post-market surveillance, as well as support fine-grained patient-like-me reasoning in precision diagnosis and treatment. | 翻訳日:2023-11-03 13:13:41 公開日:2023-11-02 |
# DP-Mix:個人差分学習のための混合型データ拡張 DP-Mix: Mixup-based Data Augmentation for Differentially Private Learning ( http://arxiv.org/abs/2311.01295v1 ) ライセンス: Link先を確認 | Wenxuan Bao, Francesco Pittaluga, Vijay Kumar B G, Vincent Bindschaedler | (参考訳) 単純な画像変換や組合せなどのデータ拡張技術は、特にトレーニングデータが制限された場合、コンピュータビジョンモデルの一般化を改善するのに非常に効果的である。
しかし、これらの手法は、学習モデルへの各トレーニング画像の寄与が境界であるという仮定が組み込まれているため、本質的には微分プライベートな学習アプローチとは相容れない。
本稿では,ミキサアップなどのマルチサンプルデータ拡張技術が優れた性能を達成できなかった理由を考察し,差分学習の制約に特化して設計された2つの新しいデータ拡張手法を提案する。
第1の手法であるdp-mix_selfは,自己提供データ上でミックスアップを行うことで,データセットや設定の広範囲にわたるsoma分類性能を実現する。
第2の手法であるDP-Mix_Diffは、事前学習した拡散モデルから合成データを混合プロセスに組み込むことにより、さらなる性能向上を図る。
ソースコードはhttps://github.com/wenxuan-Bao/DP-Mix.comで公開しています。 Data augmentation techniques, such as simple image transformations and combinations, are highly effective at improving the generalization of computer vision models, especially when training data is limited. However, such techniques are fundamentally incompatible with differentially private learning approaches, due to the latter's built-in assumption that each training image's contribution to the learned model is bounded. In this paper, we investigate why naive applications of multi-sample data augmentation techniques, such as mixup, fail to achieve good performance and propose two novel data augmentation techniques specifically designed for the constraints of differentially private learning. Our first technique, DP-Mix_Self, achieves SoTA classification performance across a range of datasets and settings by performing mixup on self-augmented data. Our second technique, DP-Mix_Diff, further improves performance by incorporating synthetic data from a pre-trained diffusion model into the mixup process. We open-source the code at https://github.com/wenxuan-Bao/DP-Mix. | 翻訳日:2023-11-03 13:13:14 公開日:2023-11-02 |
# 転がりシャッターライトフィールド画像からの関節3次元形状と運動推定 Joint 3D Shape and Motion Estimation from Rolling Shutter Light-Field Images ( http://arxiv.org/abs/2311.01292v1 ) ライセンス: Link先を確認 | Hermes McGriff, Renato Martins, Nicolas Andreff and C\'edric Demonceaux | (参考訳) 本稿では,ローリングシャッターセンサを備えたライトフィールドカメラで撮影された1枚の画像からシーンを3次元再構成する手法を提案する。
本手法では,光場に存在する3次元情報と転がりシャッター効果による運動情報を活用する。
本稿では, このセンサの撮像プロセスの汎用モデルと, カメラの位置と動きを考慮して再投射誤差を最小限に抑える2段階アルゴリズムを提案する。
そこで我々は,即時3次元形状・位置・速度検出パラダイムを提案する。
私たちの知る限りでは、この種のセンサーをこの目的に活用する最初の研究である。
また, ローリングシャッター効果を示す異なる光フィールドからなる新しいベンチマークデータセットを提案する。
本手法の有効性と長所を,様々な場面や動作の異なる複数の実験を通して実証する。
ソースコードとデータセットは、https://github.com/ICB-Vision-AI/RSLFで公開されている。 In this paper, we propose an approach to address the problem of 3D reconstruction of scenes from a single image captured by a light-field camera equipped with a rolling shutter sensor. Our method leverages the 3D information cues present in the light-field and the motion information provided by the rolling shutter effect. We present a generic model for the imaging process of this sensor and a two-stage algorithm that minimizes the re-projection error while considering the position and motion of the camera in a motion-shape bundle adjustment estimation strategy. Thereby, we provide an instantaneous 3D shape-and-pose-and-velocity sensing paradigm. To the best of our knowledge, this is the first study to leverage this type of sensor for this purpose. We also present a new benchmark dataset composed of different light-fields showing rolling shutter effects, which can be used as a common base to improve the evaluation and tracking the progress in the field. We demonstrate the effectiveness and advantages of our approach through several experiments conducted for different scenes and types of motions. The source code and dataset are publicly available at: https://github.com/ICB-Vision-AI/RSLF | 翻訳日:2023-11-03 13:12:57 公開日:2023-11-02 |
# 人行動認識のためのCNN変換器モデルからの蒸留知識 Distilling Knowledge from CNN-Transformer Models for Enhanced Human Action Recognition ( http://arxiv.org/abs/2311.01283v1 ) ライセンス: Link先を確認 | Hamid Ahmadabadi, Omid Nejati Manzari, Ahmad Ayatollahi | (参考訳) 本稿では,知識蒸留の活用とcnnモデルとvitモデルの組み合わせによるヒューマンアクション認識の改善について検討する。
本研究は,より大きな教員モデルから知識を移すことで,小学生モデルの性能と効率を向上させることを目的とする。
提案手法では,生徒モデルとしてトランスフォーマー・ビジョン・ネットワークを使用し,教師モデルとして畳み込みネットワークが機能する。
教師モデルは局所的な特徴を抽出し,学生モデルは注意機構を用いてグローバルな特徴に焦点を当てる。
vision transformer(vit)アーキテクチャは、画像のグローバルな依存関係をキャプチャする堅牢なフレームワークとして導入されている。
さらに, pvt, convit, mvit, swin transformer, twins といった vit の先進的変種について論じ, コンピュータビジョンタスクへの貢献を強調する。
ConvNeXtモデルはコンピュータビジョンにおける効率性と有効性で知られる教師モデルとして導入された。
本稿では,stanford 40データセットにおけるヒューマンアクション認識の性能評価を行い,学習した学習モデルの精度とマップを比較した。
提案手法は,正規設定のトレーニングネットワークと比較して精度とマップの精度が著しく向上することを示す。
これらの知見は,行動認識タスクにおける局所的特徴とグローバル的特徴を組み合わせる可能性を強調した。 This paper presents a study on improving human action recognition through the utilization of knowledge distillation, and the combination of CNN and ViT models. The research aims to enhance the performance and efficiency of smaller student models by transferring knowledge from larger teacher models. The proposed method employs a Transformer vision network as the student model, while a convolutional network serves as the teacher model. The teacher model extracts local image features, whereas the student model focuses on global features using an attention mechanism. The Vision Transformer (ViT) architecture is introduced as a robust framework for capturing global dependencies in images. Additionally, advanced variants of ViT, namely PVT, Convit, MVIT, Swin Transformer, and Twins, are discussed, highlighting their contributions to computer vision tasks. The ConvNeXt model is introduced as a teacher model, known for its efficiency and effectiveness in computer vision. The paper presents performance results for human action recognition on the Stanford 40 dataset, comparing the accuracy and mAP of student models trained with and without knowledge distillation. The findings illustrate that the suggested approach significantly improves the accuracy and mAP when compared to training networks under regular settings. These findings emphasize the potential of combining local and global features in action recognition tasks. | 翻訳日:2023-11-03 13:12:44 公開日:2023-11-02 |
# FlashDecoding++:GPU上での高速な大規模言語モデル推論 FlashDecoding++: Faster Large Language Model Inference on GPUs ( http://arxiv.org/abs/2311.01282v1 ) ライセンス: Link先を確認 | Ke Hong, Guohao Dai, Jiaming Xu, Qiuli Mao, Xiuhong Li, Jun Liu, Kangdi Chen, Hanyu Dong, Yu Wang | (参考訳) 大規模言語モデル(LLM)が様々な領域でますます重要になっている。
しかし, LLM推論の高速化には, 1) 同期部分ソフトマックス更新という課題がまだ未解決である。
ソフトマックス演算は、各部分ソフトマックス結果間の同期更新操作を必要とし、LLMにおける注意計算のオーバーヘッドはおよそ20%である。
2)フラットGEMMのアンダーユース計算
LLM推論でGEMMを行う行列の形状は平坦であり、従来の設計ではゼロをパッドした後に計算が未使用となり、50%以上の性能損失が生じる。
(3)静的データフローによるパフォーマンス損失。
LLMのカーネル性能は、様々な入力データ機能、ハードウェア構成などに依存する。
単一かつ静的なデータフローは、LLM推論において異なる形状のGEMMに対して50.25%のパフォーマンス損失をもたらす可能性がある。
メインストリームLLMとハードウェアバックエンドをサポートする高速LLM推論エンジンであるFlashDecoding++を紹介する。
上記の課題に対処するため、FlashDecoding++は次のように創造的に提案している。
flashdecoding++は、同期を避けるために、異なる部分ソフトマックス計算のための統一されたmax値技術を導入する。
2) ダブルバッファリングによるフラットGEMM最適化
FlashDecoding++は、形状の異なるフラットなGEMMがボトルネックに直面していることを指摘している。
次に,ダブルバッファリングなどの手法を導入する。
(3)ハードウェアリソース適応によるヒューリスティックデータフロー
FlashDecoding++は入力ダイナミクスを考慮して異なるハードウェアリソースを使用してデータフローをヒューリスティックに最適化する。
flashdecoding++の最適化が多岐にわたるため、flashdecoding++はnvidiaとamdの両方のgpuで最大4.86倍と2.18倍のスピードアップを達成できる。
FlashDecoding++は、主流のLLM上の最先端のLLM推論エンジンと比較して平均1.37倍の高速化を実現している。 As the Large Language Model (LLM) becomes increasingly important in various domains. However, the following challenges still remain unsolved in accelerating LLM inference: (1) Synchronized partial softmax update. The softmax operation requires a synchronized update operation among each partial softmax result, leading to ~20% overheads for the attention computation in LLMs. (2) Under-utilized computation of flat GEMM. The shape of matrices performing GEMM in LLM inference is flat, leading to under-utilized computation and >50% performance loss after padding zeros in previous designs. (3) Performance loss due to static dataflow. Kernel performance in LLM depends on varied input data features, hardware configurations, etc. A single and static dataflow may lead to a 50.25% performance loss for GEMMs of different shapes in LLM inference. We present FlashDecoding++, a fast LLM inference engine supporting mainstream LLMs and hardware back-ends. To tackle the above challenges, FlashDecoding++ creatively proposes: (1) Asynchronized softmax with unified max value. FlashDecoding++ introduces a unified max value technique for different partial softmax computations to avoid synchronization. (2) Flat GEMM optimization with double buffering. FlashDecoding++ points out that flat GEMMs with different shapes face varied bottlenecks. Then, techniques like double buffering are introduced. (3) Heuristic dataflow with hardware resource adaptation. FlashDecoding++ heuristically optimizes dataflow using different hardware resource considering input dynamics. Due to the versatility of optimizations in FlashDecoding++, FlashDecoding++ can achieve up to 4.86x and 2.18x speedup on both NVIDIA and AMD GPUs compared to Hugging Face implementations. FlashDecoding++ also achieves an average speedup of 1.37x compared to state-of-the-art LLM inference engines on mainstream LLMs. | 翻訳日:2023-11-03 13:12:23 公開日:2023-11-02 |
# 分子グラフのためのLong-Range Neural Atom Learning Long-Range Neural Atom Learning for Molecular Graphs ( http://arxiv.org/abs/2311.01276v1 ) ライセンス: Link先を確認 | Xuan Li, Zhanke Zhou, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han | (参考訳) グラフニューラルネットワーク(GNN)は、分子グラフを用いた薬物発見に広く採用されている。
しかしながら、現在のGNNは主に短距離相互作用(SRI)の活用に長けているが、長距離相互作用(LRI)の捕獲に苦慮している。
この問題に取り組むため,我々は分子内の原子群の集合情報を抽象化するいくつかの神経原子に全ての元の原子を暗黙的に投影する手法を提案する。
具体的には、神経原子間で情報を明示的に交換し、拡張として原子の表現に投影する。
このメカニズムにより、神経原子は遠方のノード間の通信チャネルを確立し、任意のノード対の相互作用範囲を1つのホップに効果的に縮小する。
物理的な観点から本手法の検査を行うため,従来のLRI計算手法であるEwald Summationとの関連を明らかにする。
分子グラフ上のグラフレベルとリンクレベルの両方のタスクをカバーする3つの長距離グラフベンチマークについて広範な実験を行った。
我々は,任意のGNNを組み込むことでLRIを捕捉できることを実証的に正当化する。 Graph Neural Networks (GNNs) have been widely adopted for drug discovery with molecular graphs. Nevertheless, current GNNs are mainly good at leveraging short-range interactions (SRI) but struggle to capture long-range interactions (LRI), both of which are crucial for determining molecular properties. To tackle this issue, we propose a method that implicitly projects all original atoms into a few Neural Atoms, which abstracts the collective information of atomic groups within a molecule. Specifically, we explicitly exchange the information among neural atoms and project them back to the atoms' representations as an enhancement. With this mechanism, neural atoms establish the communication channels among distant nodes, effectively reducing the interaction scope of arbitrary node pairs into a single hop. To provide an inspection of our method from a physical perspective, we reveal its connection with the traditional LRI calculation method, Ewald Summation. We conduct extensive experiments on three long-range graph benchmarks, covering both graph-level and link-level tasks on molecular graphs. We empirically justify that our method can be equipped with an arbitrary GNN and help to capture LRI. | 翻訳日:2023-11-03 13:11:59 公開日:2023-11-02 |
# 共通基盤の発見: 会話における共通基盤の注釈と予測 Finding Common Ground: Annotating and Predicting Common Ground in Spoken Conversations ( http://arxiv.org/abs/2311.01273v1 ) ライセンス: Link先を確認 | Magdalena Markowska, Mohammad Taghizadeh, Adil Soubki, Seyed Abolghasem Mirroshandel, Owen Rambow | (参考訳) 他の人間とコミュニケーションをとるとき、単に単語のシーケンスを生成するわけではない。
むしろ、私たちの認知状態(信念、欲求、意図)と、観客の認知状態のモデルを用いて、意図された方法で聴衆の認知状態に影響を与える発話を作成します。
認知状態の重要な部分は共通の基盤であり、これは話者が信じている内容であり、話者は聴衆が信じるものなどを信じている。
認知科学の共通基盤に多くの注意が払われているが、自然言語処理の研究はあまり行われていない。
本稿では,共通基盤を捉えるための新しいアノテーションとコーパスを提案する。
次に,対話から命題を抽出し,各話者の視点から共通点における状況の追跡を行う実験について述べる。 When we communicate with other humans, we do not simply generate a sequence of words. Rather, we use our cognitive state (beliefs, desires, intentions) and our model of the audience's cognitive state to create utterances that affect the audience's cognitive state in the intended manner. An important part of cognitive state is the common ground, which is the content the speaker believes, and the speaker believes the audience believes, and so on. While much attention has been paid to common ground in cognitive science, there has not been much work in natural language processing. In this paper, we introduce a new annotation and corpus to capture common ground. We then describe some initial experiments extracting propositions from dialog and tracking their status in the common ground from the perspective of each speaker. | 翻訳日:2023-11-03 13:11:41 公開日:2023-11-02 |
# 人々がより良い編集を行う: 有害言語検出のためのLLM生成逆拡張データの有効性の測定 People Make Better Edits: Measuring the Efficacy of LLM-Generated Counterfactually Augmented Data for Harmful Language Detection ( http://arxiv.org/abs/2311.01270v1 ) ライセンス: Link先を確認 | Indira Sen, Dennis Assenmacher, Mattia Samory, Isabelle Augenstein, Wil van der Aalst, Claudia Wagne | (参考訳) nlpモデルは、性差別者、人種差別主義者、その他嫌悪なコンテンツの検出など、様々な重要な社会コンピューティングタスクで使用される。
したがって、これらのモデルがスプリアス機能に対して堅牢であることは必須である。
過去の研究は、CAD(Counterfactually Augmented Data)を含むトレーニングデータ拡張を使用して、このような急激な機能に取り組みました。
CADは既存のトレーニングデータポイントに最小限の変更を導入し、ラベルをフリップする。
しかし、手動でCADを生成するのは時間と費用がかかる。
そこで本研究では,生成NLPモデルを用いて,このタスクが自動化可能かどうかを評価する。
我々は,polyjuice,chatgpt,flan-t5を用いてcadを自動生成し,モデルロバスト性を改善するための有用性を評価する。
複数のドメイン外のテストセットでモデル性能と個々のデータポイントの有効性をテストすることで、手動CADは依然として最も効果的であるが、ChatGPTが生成したCADは2秒間近かった。
自動メソッドのパフォーマンスが低い理由の1つは、彼らが導入した変更が元のラベルをひっくり返すのに不十分であることである。 NLP models are used in a variety of critical social computing tasks, such as detecting sexist, racist, or otherwise hateful content. Therefore, it is imperative that these models are robust to spurious features. Past work has attempted to tackle such spurious features using training data augmentation, including Counterfactually Augmented Data (CADs). CADs introduce minimal changes to existing training data points and flip their labels; training on them may reduce model dependency on spurious features. However, manually generating CADs can be time-consuming and expensive. Hence in this work, we assess if this task can be automated using generative NLP models. We automatically generate CADs using Polyjuice, ChatGPT, and Flan-T5, and evaluate their usefulness in improving model robustness compared to manually-generated CADs. By testing both model performance on multiple out-of-domain test sets and individual data point efficacy, our results show that while manual CADs are still the most effective, CADs generated by ChatGPT come a close second. One key reason for the lower performance of automated methods is that the changes they introduce are often insufficient to flip the original label. | 翻訳日:2023-11-03 13:11:30 公開日:2023-11-02 |
# unifolding: サンプル効率,スケーラブル,汎用性を備えたロボット服の折りたたみ UniFolding: Towards Sample-efficient, Scalable, and Generalizable Robotic Garment Folding ( http://arxiv.org/abs/2311.01267v1 ) ライセンス: Link先を確認 | Han Xue, Yutong Li, Wenqiang Xu, Huanyu Li, Dongzhe Zheng, Cewu Lu | (参考訳) 本稿では, 様々な衣服の折り畳み・折り畳みを行うための, サンプル効率, 拡張性, 一般化可能なロボットシステムUniFoldingの開発について検討する。
UniFoldingは、提案されたUFONetニューラルネットワークを使用して、折り畳みと折り畳みの決定を、異なる衣服タイプや状態に適応可能な単一のポリシーモデルに統合する。
UniFoldingの設計は衣服の部分的な点雲に基づいており、これは一般化を助け、テクスチャや形状の変化に対する感度を低下させる。
トレーニングパイプラインは、低コストでサンプル効率のよいデータ収集を優先する。
トレーニングデータは、オフラインおよびオンラインステージを備えた人間中心のプロセスを通じて収集される。
オフラインのステージは、バーチャルリアリティーによる人間の展開と折り畳みアクション、オンラインステージは、実際の環境でモデルを微調整するために、人間のループ学習を利用する。
このシステムは、長袖と短袖の2種類の衣服でテストされている。
テクスチャ, 形状, 材料に有意な差異がある20のシャツで性能を評価する。
さらなる実験やビデオは補足資料やWebサイト(https://unifolding.robotflow.ai.)で見ることができる。 This paper explores the development of UniFolding, a sample-efficient, scalable, and generalizable robotic system for unfolding and folding various garments. UniFolding employs the proposed UFONet neural network to integrate unfolding and folding decisions into a single policy model that is adaptable to different garment types and states. The design of UniFolding is based on a garment's partial point cloud, which aids in generalization and reduces sensitivity to variations in texture and shape. The training pipeline prioritizes low-cost, sample-efficient data collection. Training data is collected via a human-centric process with offline and online stages. The offline stage involves human unfolding and folding actions via Virtual Reality, while the online stage utilizes human-in-the-loop learning to fine-tune the model in a real-world setting. The system is tested on two garment types: long-sleeve and short-sleeve shirts. Performance is evaluated on 20 shirts with significant variations in textures, shapes, and materials. More experiments and videos can be found in the supplementary materials and on the website: https://unifolding.robotflow.ai | 翻訳日:2023-11-03 13:11:07 公開日:2023-11-02 |
# APIリレーションのさらなる発見 - 教師なしAPIリレーション推論のための大規模言語モデルベースのAIチェーン Let's Discover More API Relations: A Large Language Model-based AI Chain for Unsupervised API Relation Inference ( http://arxiv.org/abs/2311.01266v1 ) ライセンス: Link先を確認 | Qing Huang, Yanbang Sun, Zhenchang Xing, Yuanlong Cao, Jieshan Chen, Xiwei Xu, Huan Jin, Jiaxing Lu | (参考訳) APIは複雑な関係を持ち、テキストで記述でき、ソフトウェアエンジニアリングタスクを支援する知識グラフとして表現される。
既存の関係抽出手法には,APIテキストコーパスの制限や入力テキストの特性の影響などの制限があり,これらの制約に対処するために,大規模言語モデル(LLM)をAPI関係推論のニューラルネットワークベースとして活用することを提案する。
このアプローチは、LLMを知識ベースとして事前訓練するために使用されるWeb全体を活用し、入力テキストのコンテキストや複雑さに敏感である。
正確な推論を保証するため、分析フローを3つのAIモジュール(API FQN Parser、API Knowledge Extractor、API Relation Decider)を備えたAIチェーンとして設計する。
API FQNパーサとAPI Relation Deciderモジュールの精度はそれぞれ0.81と0.83である。
LLMの生成能力とアプローチの推論能力を用いて、3つのデータセットで平均F1値0.76を達成し、最先端法の平均F1値0.40よりも大幅に高い値を得た。
CoTベースの手法と比較して、私たちのAIチェーン設計は推論の信頼性を67%向上させ、AI集約型インテリジェンス戦略はアプローチの堅牢性を26%向上させる。 APIs have intricate relations that can be described in text and represented as knowledge graphs to aid software engineering tasks. Existing relation extraction methods have limitations, such as limited API text corpus and affected by the characteristics of the input text.To address these limitations, we propose utilizing large language models (LLMs) (e.g., GPT-3.5) as a neural knowledge base for API relation inference. This approach leverages the entire Web used to pre-train LLMs as a knowledge base and is insensitive to the context and complexity of input texts. To ensure accurate inference, we design our analytic flow as an AI Chain with three AI modules: API FQN Parser, API Knowledge Extractor, and API Relation Decider. The accuracy of the API FQN parser and API Relation Decider module are 0.81 and 0.83, respectively. Using the generative capacity of the LLM and our approach's inference capability, we achieve an average F1 value of 0.76 under the three datasets, significantly higher than the state-of-the-art method's average F1 value of 0.40. Compared to CoT-based method, our AI Chain design improves the inference reliability by 67%, and the AI-crowd-intelligence strategy enhances the robustness of our approach by 26%. | 翻訳日:2023-11-03 13:10:50 公開日:2023-11-02 |
# 人的アノテーションを用いた自然言語プロンプトによる表現型tt Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations ( http://arxiv.org/abs/2311.01260v1 ) ライセンス: Link先を確認 | Hanglei Zhang, Yiwei Guo, Sen Liu, Xie Chen, Kai Yu | (参考訳) Expressive Text-to-Speech (TTS) は、人間の声調、気分、さらには芸術的特性で音声を合成することを目的としている。
表現力のあるTSの最近の進歩は、自然言語のプロンプトを通じて合成スタイルを直接制御する能力をユーザに提供する。
しかし、これらの方法は、大量のスタイルアノテートされたデータによる過剰なトレーニングを必要とすることが多く、取得は困難である。
さらに、固定スタイルアノテーションによる適応性も制限される可能性がある。
本研究では,最小限のアノテーションを持つ制御可能な表現型TSモデルであるFreeStyleTTS(FS-TTS)を提案する。
提案手法では,大規模言語モデル(LLM)を用いて,表現型TSをスタイル検索タスクに変換する。
LLMは、生の入力テキストまたは自然言語スタイル記述である外部スタイルプロンプトに基づいて、注釈付き発話からベストマッチングスタイル参照を選択する。
選択された参照はTSパイプラインをガイドし、意図したスタイルで音声を合成する。
この革新的なアプローチは、最小限の人的負荷で柔軟で汎用的で正確なスタイル制御を提供する。
マンダリンのストーリーテリングコーパスの実験では、FS-TTSが入力テキストまたはユーザ定義記述から所望のスタイルを検索するLLMのセマンティック推論能力を活用できることが示されている。
この結果、特定のスタイルと密接に一致する合成音声が得られる。 Expressive text-to-speech (TTS) aims to synthesize speeches with human-like tones, moods, or even artistic attributes. Recent advancements in expressive TTS empower users with the ability to directly control synthesis style through natural language prompts. However, these methods often require excessive training with a significant amount of style-annotated data, which can be challenging to acquire. Moreover, they may have limited adaptability due to fixed style annotations. In this work, we present FreeStyleTTS (FS-TTS), a controllable expressive TTS model with minimal human annotations. Our approach utilizes a large language model (LLM) to transform expressive TTS into a style retrieval task. The LLM selects the best-matching style references from annotated utterances based on external style prompts, which can be raw input text or natural language style descriptions. The selected reference guides the TTS pipeline to synthesize speeches with the intended style. This innovative approach provides flexible, versatile, and precise style control with minimal human workload. Experiments on a Mandarin storytelling corpus demonstrate FS-TTS's proficiency in leveraging LLM's semantic inference ability to retrieve desired styles from either input text or user-defined descriptions. This results in synthetic speeches that are closely aligned with the specified styles. | 翻訳日:2023-11-03 13:10:25 公開日:2023-11-02 |
# 自律システムのための形式的手法 Formal Methods for Autonomous Systems ( http://arxiv.org/abs/2311.01258v1 ) ライセンス: Link先を確認 | Tichakorn Wongpiromsarn, Mahsa Ghasemi, Murat Cubuktepe, Georgios Bakirtzis, Steven Carr, Mustafa O. Karabag, Cyrus Neary, Parham Gohari, Ufuk Topcu | (参考訳) 形式的手法はシステム開発に対する厳密で数学的アプローチであり、安全クリティカルシステムの正確性を確立する上で重要な役割を果たしてきた。
形式的手法の主な構成要素はモデルと仕様であり、それはシステム設計における振る舞いや要求に類似しており、形式的保証付きシステム動作の検証と合成の手段を与えてくれる。
このモノグラフは、自律システム領域における形式的手法の適用に関する現在の技術に関する調査を提供する。
我々は, 閉じたシステム, 反応性, 確率的設定など, 様々な定式化の下で正しい構成合成を考える。
既知の環境におけるシステムを合成するだけでなく、不確実性の概念と形式的手法を用いた学習を取り入れるシステムの振る舞いについても論じる。
さらに,監視によるシステム合成,予測行動から逸脱したシステムが正常な状態に戻る方法を知っていることを保証するための緩和手法について検討する。
また,形式的手法自体の制限を学習によって克服する方法を示す。
我々は、強化学習、不確実性、プライバシー、形式的手法の説明可能性、規制と認定における形式的手法の今後の方向性を結論づける。 Formal methods refer to rigorous, mathematical approaches to system development and have played a key role in establishing the correctness of safety-critical systems. The main building blocks of formal methods are models and specifications, which are analogous to behaviors and requirements in system design and give us the means to verify and synthesize system behaviors with formal guarantees. This monograph provides a survey of the current state of the art on applications of formal methods in the autonomous systems domain. We consider correct-by-construction synthesis under various formulations, including closed systems, reactive, and probabilistic settings. Beyond synthesizing systems in known environments, we address the concept of uncertainty and bound the behavior of systems that employ learning using formal methods. Further, we examine the synthesis of systems with monitoring, a mitigation technique for ensuring that once a system deviates from expected behavior, it knows a way of returning to normalcy. We also show how to overcome some limitations of formal methods themselves with learning. We conclude with future directions for formal methods in reinforcement learning, uncertainty, privacy, explainability of formal methods, and regulation and certification. | 翻訳日:2023-11-03 13:10:00 公開日:2023-11-02 |
# 欠陥薬の認識論理のための単純モデル Simplicial Models for the Epistemic Logic of Faulty Agents ( http://arxiv.org/abs/2311.01351v1 ) ライセンス: Link先を確認 | Eric Goubault, Roman Kniazev, Jeremy Ledent, Sergio Rajsbaum | (参考訳) 近年、いくつかの著者がsimplicial complexと呼ばれる高次元構造に基づく認識論理のモデルであるsimplicial modelを調査している。
元々の定式化では、単純モデルは常に純粋であると仮定され、つまりすべての世界は同じ次元を持つ。
これはクリプケモデルに基づく認識論理の標準s5n意味論と等価である。
モデルが純粋であるべきだという仮定を取り除き、通常のクリプケ意味論を越え、世界に参加するエージェントの数が異なる認識論的論理を研究することができる。
このアプローチは多くの論文で開発されており、フォールトトレラントな分散コンピューティングではシステム実行中にプロセスがクラッシュする可能性がある。
不純な単純化モデルの定義における微妙な設計の選択は、結果の論理の異なる公理をもたらす可能性がある。
本稿では,これらの設計選択を体系的に分類し,対応する論理を公理化する。
プロセスがクラッシュする可能性のある同期システムの分散コンピューティングの例を例に説明する。 In recent years, several authors have been investigating simplicial models, a model of epistemic logic based on higher-dimensional structures called simplicial complexes. In the original formulation, simplicial models were always assumed to be pure, meaning that all worlds have the same dimension. This is equivalent to the standard S5n semantics of epistemic logic, based on Kripke models. By removing the assumption that models must be pure, we can go beyond the usual Kripke semantics and study epistemic logics where the number of agents participating in a world can vary. This approach has been developed in a number of papers, with applications in fault-tolerant distributed computing where processes may crash during the execution of a system. A difficulty that arises is that subtle design choices in the definition of impure simplicial models can result in different axioms of the resulting logic. In this paper, we classify those design choices systematically, and axiomatize the corresponding logics. We illustrate them via distributed computing examples of synchronous systems where processes may crash. | 翻訳日:2023-11-03 13:03:30 公開日:2023-11-02 |
# 胸部X線埋め込みから保護された特徴の発見 Unreading Race: Purging Protected Features from Chest X-ray Embeddings ( http://arxiv.org/abs/2311.01349v1 ) ライセンス: Link先を確認 | Tobias Weber, Michael Ingrisch, Bernd Bischl, David R\"ugamer | (参考訳) 目的:深層学習モデルの胸部X線写真埋め込みにおける保護的特徴効果の分析と除去。
材料と方法:胸部x線写真埋め込みにおける保護された特徴(年齢、性別、人種など)の影響を除去し、特徴非依存な結果を保証するために直交する。
提案手法の有効性を検証するため,MIMICおよびCheXpertデータセットを3つの事前学習モデル,すなわち教師付きコントラストモデル,自己監督型コントラストモデル,ベースライン分類器モデルを用いて遡及的に検討した。
我々の統計分析では,保護された特徴の影響を推定し,2種類の組込みを用いて人種,年齢,性別を予測する能力を評価することで,オリジナルと直交した組込みを比較した。
結果: 本実験では,保護された特徴が病理予測に及ぼす影響を明らかにした。
直交化の適用は、これらの特徴的効果を取り除く。
病理学分類へのいかなる影響も取り除きながら、競争的な予測性能を維持しながら、直交した埋め込みにより、保護された属性を直接予測し、サブグループの格差を軽減することは不可能である。
結論: 本研究は胸部x線分類領域における直交法の適用と評価に成功したことを示す。 Purpose: To analyze and remove protected feature effects in chest radiograph embeddings of deep learning models. Materials and Methods: An orthogonalization is utilized to remove the influence of protected features (e.g., age, sex, race) in chest radiograph embeddings, ensuring feature-independent results. To validate the efficacy of the approach, we retrospectively study the MIMIC and CheXpert datasets using three pre-trained models, namely a supervised contrastive, a self-supervised contrastive, and a baseline classifier model. Our statistical analysis involves comparing the original versus the orthogonalized embeddings by estimating protected feature influences and evaluating the ability to predict race, age, or sex using the two types of embeddings. Results: Our experiments reveal a significant influence of protected features on predictions of pathologies. Applying orthogonalization removes these feature effects. Apart from removing any influence on pathology classification, while maintaining competitive predictive performance, orthogonalized embeddings further make it infeasible to directly predict protected attributes and mitigate subgroup disparities. Conclusion: The presented work demonstrates the successful application and evaluation of the orthogonalization technique in the domain of chest X-ray classification. | 翻訳日:2023-11-03 13:03:11 公開日:2023-11-02 |
# 多重量子ムペンバ効果:例外点と振動 Multiple quantum Mpemba effect: exceptional points and oscillations ( http://arxiv.org/abs/2311.01347v1 ) ライセンス: Link先を確認 | Amit Kumar Chatterjee, Satoshi Takada, Hisao Hayakawa | (参考訳) 量子ムペンバ効果の発生における例外点と複素固有値の役割について検討する。
そこで本研究では,振動電界を受ける2レベル駆動散逸系と環境との散逸結合について検討した。
我々は、例外点と複素固有値の両方が複数の量子mpemba効果につながり、2つの異なる初期条件に対応する時間発展軌道が1回以上交差する可能性があることを見出した。
このような多重交叉は、例外点における追加の代数的時間依存と、複素固有値の場合の振動緩和に起因する。
密度行列およびコヒーレンスの存在下での観測値における量子Mpemba効果の解析結果を提供する。
系温度は複数の熱量子mpemba効果を示す。
Kullback-Leibler の発散で測定された距離関数は1つの交点しか持たないのに対して、対応する速度は驚くほど複数の交点を生じさせる。 We explore the role of exceptional points and complex eigenvalues on the occurrence of the quantum Mpemba effect. To this end, we study a two-level driven dissipative system subjected to an oscillatory electric field and dissipative coupling with the environment. We find that both exceptional points and complex eigenvalues can lead to multiple quantum Mpemba effect where time evolved trajectories corresponding to two different initial conditions may intersect each other more than once. Such multiple intersections originate from additional algebraic time dependence at the exceptional points and due to oscillatory relaxation in the case of complex eigenvalues. We provide analytical results for the quantum Mpemba effect in the density matrix and other observables in the presence of coherence. The system temperature shows multiple thermal quantum Mpemba effect. The distance function measured in terms of the Kullback-Leibler divergence is found to have only a single intersection whereas the corresponding speed can surprisingly give rise to multiple intersections. | 翻訳日:2023-11-03 13:02:49 公開日:2023-11-02 |
# 開いた本みたいに?
32ビットマイクロコントローラの簡易電力解析によるリードニューラルネットワークアーキテクチャ Like an Open Book? Read Neural Network Architecture with Simple Power Analysis on 32-bit Microcontrollers ( http://arxiv.org/abs/2311.01344v1 ) ライセンス: Link先を確認 | Raphael Joud, Pierre-Alain Moellic, Simon Pontie, Jean-Baptiste Rigaud | (参考訳) モデル抽出はAIシステムのセキュリティに対する関心が高まっている。
ディープニューラルネットワークモデルでは、アーキテクチャは敵が回復しようとする最も重要な情報である。
繰り返し計算ブロックのシーケンスであるため、エッジデバイスにデプロイされたニューラルネットワークモデルは、特有のサイドチャネルリークを生成する。
後者は、ターゲットプラットフォームが物理的にアクセス可能な場合に重要な情報を抽出するために利用することができる。
ディープラーニングの実践に関する理論的知識と広範な実装ライブラリ(arm cmsis-nn)の分析を組み合わせることで、我々はこの重要な質問に答えることを目的としています。
パターン認識のみに依存するハイエンド32ビットマイクロコントローラ(Cortex-M7)上で動作する従来のMLPおよびCNNモデルの抽出手法を初めて提案する。
難しいケースは少ないが、パラメータ抽出とは対照的に、攻撃の複雑さは相対的に低く、そのようなプラットフォームの強いメモリとレイテンシ要件に適合する実用的な保護の必要性を強調する。 Model extraction is a growing concern for the security of AI systems. For deep neural network models, the architecture is the most important information an adversary aims to recover. Being a sequence of repeated computation blocks, neural network models deployed on edge-devices will generate distinctive side-channel leakages. The latter can be exploited to extract critical information when targeted platforms are physically accessible. By combining theoretical knowledge about deep learning practices and analysis of a widespread implementation library (ARM CMSIS-NN), our purpose is to answer this critical question: how far can we extract architecture information by simply examining an EM side-channel trace? For the first time, we propose an extraction methodology for traditional MLP and CNN models running on a high-end 32-bit microcontroller (Cortex-M7) that relies only on simple pattern recognition analysis. Despite few challenging cases, we claim that, contrary to parameters extraction, the complexity of the attack is relatively low and we highlight the urgent need for practicable protections that could fit the strong memory and latency requirements of such platforms. | 翻訳日:2023-11-03 13:02:34 公開日:2023-11-02 |
# 駆動共振器を用いた超電導量子ビット用高速ZZフリーエンタングゲート Fast ZZ-Free Entangling Gates for Superconducting Qubits Assisted by a Driven Resonator ( http://arxiv.org/abs/2311.01332v1 ) ライセンス: Link先を確認 | Ziwen Huang, Taeyoon Kim, Tanay Roy, Yao Lu, Alexander Romanenko, Shaojiang Zhu, Anna Grassellino | (参考訳) 高度な2量子ビットゲートのエンジニアリングは、実用的な量子コンピューティングへの不可欠のステップである。
超伝導量子プラットフォームでは、量子ビット間の不規則な相互作用が大きなコヒーレントな誤差を引き起こす。
トランスモンキュービットの場合、そのようなエラーを緩和するためのプロトコルは、ハードウェアパラメータを微調整したり、通常ノイズの多いフラックス調整可能な結合器を導入したりする。
本研究では,これらの不規則な相互作用をキャンセルする簡単なスキームを提案する。
このようなキャンセルに用いられるカプラは駆動型高コヒーレンス共振器であり、駆動の振幅と周波数が制御ノブとして機能する。
共振器誘起相(RIP)相互作用により、静的ZZ結合は完全に中和される。
我々は,40 ns以内のクロス共振CNOTゲートや140 ns以内の断熱CZゲートなど,短時間かつ高忠実なエンタングゲートを実現することができることを示す。
我々のアーキテクチャはzzフリーであるだけでなく、固定周波数トランスモンキュービットのコヒーレンス時間を保存するため、余分なノイズ成分も含まない。
最先端のコヒーレンス時間では、交差共振cnotゲートの誤差を1e-4以下に減らすことができる。 Engineering high-fidelity two-qubit gates is an indispensable step toward practical quantum computing. For superconducting quantum platforms, one important setback is the stray interaction between qubits, which causes significant coherent errors. For transmon qubits, protocols for mitigating such errors usually involve fine-tuning the hardware parameters or introducing usually noisy flux-tunable couplers. In this work, we propose a simple scheme to cancel these stray interactions. The coupler used for such cancellation is a driven high-coherence resonator, where the amplitude and frequency of the drive serve as control knobs. Through the resonator-induced-phase (RIP) interaction, the static ZZ coupling can be entirely neutralized. We numerically show that such a scheme can enable short and high-fidelity entangling gates, including cross-resonance CNOT gates within 40 ns and adiabatic CZ gates within 140 ns. Our architecture is not only ZZ free but also contains no extra noisy components, such that it preserves the coherence times of fixed-frequency transmon qubits. With the state-of-the-art coherence times, the error of our cross-resonance CNOT gate can be reduced to below 1e-4. | 翻訳日:2023-11-03 13:02:18 公開日:2023-11-02 |
# 主観的ワッサースタイン状態のマッチングによるオフラインの模倣 Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching ( http://arxiv.org/abs/2311.01331v1 ) ライセンス: Link先を確認 | Kai Yan, Alexander G. Schwing, Yu-xiong Wang | (参考訳) 現実のシナリオでは、環境との任意のインタラクションはコストがかかり、専門家によるデモンストレーションのアクションは必ずしも利用できない。
両方の必要性を減らすために、オフライン学習 from Observations (LfO) が広範囲に研究され、エージェントは専門家状態のみでタスクを解くことを学ぶ。
state-of-the-art distribution correction estimation (dice)法は、学習者と専門家のポリシーの間の状態占有率の相違を最小限に抑える。
しかしながら、これらは、ルビンシュタイン双対性(英語版)(Rubinstein duality)とワッサーシュタイン距離(英語版)(Wasserstein distance) (KL と $\chi^2$) のどちらかに制限されている。
この問題に対処するために,我々は,専門家と学習者の間の初歩的なwasserstein距離を悲観的正規化子で最小化し,比較的に学習した距離をwasserstein距離の基準として活用するprimal wasserstein dice (pw-dice)を提案する。
理論的には、我々のフレームワークは最先端のSMODICEの一般化であり、$f$-divergence と Wasserstein の最小化を統一することを証明する。
実験的にPW-DICEは複数のテストベッド上での最先端の手法を改善する。 In real-world scenarios, arbitrary interactions with the environment can often be costly, and actions of expert demonstrations are not always available. To reduce the need for both, Offline Learning from Observations (LfO) is extensively studied, where the agent learns to solve a task with only expert states and \textit{task-agnostic} non-expert state-action pairs. The state-of-the-art DIstribution Correction Estimation (DICE) methods minimize the state occupancy divergence between the learner and expert policies. However, they are limited to either $f$-divergences (KL and $\chi^2$) or Wasserstein distance with Rubinstein duality, the latter of which constrains the underlying distance metric crucial to the performance of Wasserstein-based solutions. To address this problem, we propose Primal Wasserstein DICE (PW-DICE), which minimizes the primal Wasserstein distance between the expert and learner state occupancies with a pessimistic regularizer and leverages a contrastively learned distance as the underlying metric for the Wasserstein distance. Theoretically, we prove that our framework is a generalization of the state-of-the-art, SMODICE, and unifies $f$-divergence and Wasserstein minimization. Empirically, we find that PW-DICE improves upon several state-of-the-art methods on multiple testbeds. | 翻訳日:2023-11-03 13:01:57 公開日:2023-11-02 |
# 変分量子アルゴリズムにおけるansatzesの表現可能性の下限 Lower bound of the expressibility of ansatzes for Variational Quantum Algorithms ( http://arxiv.org/abs/2311.01330v1 ) ライセンス: Link先を確認 | Tamojit Ghosh, Arijit Mandal, Shreya Banerjee, Prasanta K. Panighrahi | (参考訳) 変分量子アルゴリズムで用いられるアンザッツの表現性は、ユニタリ行列の空間を探索できる均一性として定義される。
特定の ansatz の表現性は、明確に定義された上界を持つ。
本研究は, 表現性が仮説空間によく定義された下界を持つことを示す。
被覆数の下限に関する解析式を提供し,その表現可能性に直接関係している。
また,クレームを支援するために数値シミュレーションを行う。
二原子分子の結合長を数値的に計算するには、水素(h_2$)をプロトタイプシステムとして、異なるアンサットの平衡エネルギー点のエネルギーの誤差を計算する。
本研究では,回路深度によるエネルギー誤差の変動について検討し,各アンサッツテンプレートにおいて,許容点の集合と呼ばれる回路深さの範囲にプラトーが存在することを示し,対応する表現可能性を最良表現領域と呼ぶ。
仮説空間におけるこの最良の表現領域の幅は平均誤差に逆比例する。
我々の分析は、訓練性とともに、表現可能性の低い境界も変分量子アンサテイズの選択において重要な役割を果たすことを示した。 The expressibility of an ansatz used in a variational quantum algorithm is defined as the uniformity with which it can explore the space of unitary matrices. The expressibility of a particular ansatz has a well-defined upper bound. In this work, we show that the expressibiliity also has a well-defined lower bound in the hypothesis space. We provide an analytical expression for the lower bound of the covering number, which is directly related to expressibility. We also perform numerical simulations to to support our claim. To numerically calculate the bond length of a diatomic molecule, we take hydrogen ($H_2$) as a prototype system and calculate the error in the energy for the equilibrium energy point for different ansatzes. We study the variation of energy error with circuit depths and show that in each ansatz template, a plateau exists for a range of circuit depths, which we call the set of acceptable points, and the corresponding expressibility is known as the best expressive region. We report that the width of this best expressive region in the hypothesis space is inversely proportional to the average error. Our analysis reveals that alongside trainability, the lower bound of expressibility also plays a crucial role in selecting variational quantum ansatzes. | 翻訳日:2023-11-03 13:01:29 公開日:2023-11-02 |
# 観測からのオフライン模倣の簡単な解法と不完全軌道の例 A Simple Solution for Offline Imitation from Observations and Examples with Possibly Incomplete Trajectories ( http://arxiv.org/abs/2311.01329v1 ) ライセンス: Link先を確認 | Kai Yan, Alexander G. Schwing, Yu-Xiong Wang | (参考訳) 観察からのオフラインの模倣は、タスク固有の専門家状態とタスクに依存しない非専門家状態-アクションペアのみが利用可能なMDPを解決することを目的としている。
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実のシナリオで有用である。
現状のDICE(DIstribution Correction Estimation)手法は、専門家と学習者の政策間の状態占有のばらつきを最小化し、重み付けされた行動クローニングを伴うポリシーを回復するが、その結果は二重領域における非ロマンス最適化のため、不完全な軌道から学習すると不安定である。
この問題に対処するため,本論文では,観測から学習するトラジェクティブ・アウェア・イミテーション・ラーニング(TAILO)を提案する。
TAILOは、将来の軌道に沿った割引和を重み付けされた行動クローニングの重みとして用いている。
和の用語は、専門家の状態を識別することを目的とした判別器の出力によってスケールされる。
単純さにもかかわらず、タスクに依存しないデータに専門家の行動の軌跡やセグメントが存在する場合、TAILOはうまく機能する。
複数のテストベッドにわたる実験では、TAILOはより堅牢で効果的であり、特に不完全な軌道を持つ。 Offline imitation from observations aims to solve MDPs where only task-specific expert states and task-agnostic non-expert state-action pairs are available. Offline imitation is useful in real-world scenarios where arbitrary interactions are costly and expert actions are unavailable. The state-of-the-art "DIstribution Correction Estimation" (DICE) methods minimize divergence of state occupancy between expert and learner policies and retrieve a policy with weighted behavior cloning; however, their results are unstable when learning from incomplete trajectories, due to a non-robust optimization in the dual domain. To address the issue, in this paper, we propose Trajectory-Aware Imitation Learning from Observations (TAILO). TAILO uses a discounted sum along the future trajectory as the weight for weighted behavior cloning. The terms for the sum are scaled by the output of a discriminator, which aims to identify expert states. Despite simplicity, TAILO works well if there exist trajectories or segments of expert behavior in the task-agnostic data, a common assumption in prior work. In experiments across multiple testbeds, we find TAILO to be more robust and effective, particularly with incomplete trajectories. | 翻訳日:2023-11-03 13:01:07 公開日:2023-11-02 |
# ボソニック量子ldpc符号のアナログ情報復号 Analog information decoding of bosonic quantum LDPC codes ( http://arxiv.org/abs/2311.01328v1 ) ライセンス: Link先を確認 | Lucas Berent, Timo Hillmann, Jens Eisert, Robert Wille, Joschka Roffe | (参考訳) 量子誤り訂正はスケーラブルな量子情報処理アプリケーションに不可欠である。
論理情報をエンコードするために複数の2レベルシステムを使用する従来の離散変数量子符号はハードウェア集約的である。
別のアプローチとして、調和振動子の無限次元ヒルベルト空間を用いて量子情報を符号化するボソニック符号がある。
ボソニック符号の2つの有望な特徴は、シンドロームの測定がネイティブに類似しており、離散変数符号と結合可能であることである。
本研究では,結合アーキテクチャにおいて,ボソニックキュービット読み出しから得られたアナログシンドローム情報を明示的に活用する新しい復号法を提案する。
我々の手法は汎用的であり、一般に量子低密度パリティチェック(QLDPC)コードと連結したボソニックコードに適用できる。
さらに,現象雑音下での復号に要する繰り返し症候群の測定回数を大幅に削減する手法として準単発プロトコルの概念を導入する。
本プロトコルを実現するために,一般的なqldpc符号に対するオーバーラップウインドウ方式による時間領域復号化の最初の実装と,新しいアナログ単発復号法を提案する。
本研究は,アナログ情報を用いた一般復号アルゴリズムの基礎を築き,結合型ボソニック-QLDPC符号を用いたフォールトトレラント量子計算の方向性を示すものである。 Quantum error correction is crucial for scalable quantum information processing applications. Traditional discrete-variable quantum codes that use multiple two-level systems to encode logical information can be hardware-intensive. An alternative approach is provided by bosonic codes, which use the infinite-dimensional Hilbert space of harmonic oscillators to encode quantum information. Two promising features of bosonic codes are that syndrome measurements are natively analog and that they can be concatenated with discrete-variable codes. In this work, we propose novel decoding methods that explicitly exploit the analog syndrome information obtained from the bosonic qubit readout in a concatenated architecture. Our methods are versatile and can be generally applied to any bosonic code concatenated with a quantum low-density parity-check (QLDPC) code. Furthermore, we introduce the concept of quasi-single-shot protocols as a novel approach that significantly reduces the number of repeated syndrome measurements required when decoding under phenomenological noise. To realize the protocol, we present a first implementation of time-domain decoding with the overlapping window method for general QLDPC codes, and a novel analog single-shot decoding method. Our results lay the foundation for general decoding algorithms using analog information and demonstrate promising results in the direction of fault-tolerant quantum computation with concatenated bosonic-QLDPC codes. | 翻訳日:2023-11-03 13:00:45 公開日:2023-11-02 |
# ナップサック付き高次元リニアバンディット High-dimensional Linear Bandits with Knapsacks ( http://arxiv.org/abs/2311.01327v1 ) ライセンス: Link先を確認 | Wanteng Ma, Dong Xia and Jiashuo Jiang | (参考訳) 特徴量が大きい高次元条件下で,knapsack (CBwK) 問題を用いた文脈的帯域幅について検討した。
各腕を引っ張る報酬は、わずかな高次元の重みベクトルの乗算と現在の到着の特徴に等しく、追加のランダムノイズを伴う。
本稿では,この空間構造を利用してCBWK問題に対する後悔を改善する方法について検討する。
そこで,我々はまず,オンライン方式でスパース推定を行うハードしきい値アルゴリズムのオンライン版を開発した。
さらに、オンライン推定器と原始双対フレームワークを組み合わせることで、各knapsack制約に2つの変数を割り当て、オンライン学習アルゴリズムを用いて2つの変数を更新し、knapsackの容量を制御します。
この統合アプローチにより,特徴次元に対数的に依存する部分線形後悔が達成できることを示し,従来の文献で確立された多項式依存性を改善した。
また,クナップサック制約を伴わない高次元コンテキストバンディット問題に適用し,データポーア・レジームとデータリッチ・レジームの両方において最適な後悔を実現する。
最終的に,高次元環境下でのアルゴリズムの効率的な実験性能を示す数値実験を行った。 We study the contextual bandits with knapsack (CBwK) problem under the high-dimensional setting where the dimension of the feature is large. The reward of pulling each arm equals the multiplication of a sparse high-dimensional weight vector and the feature of the current arrival, with additional random noise. In this paper, we investigate how to exploit this sparsity structure to achieve improved regret for the CBwK problem. To this end, we first develop an online variant of the hard thresholding algorithm that performs the sparse estimation in an online manner. We further combine our online estimator with a primal-dual framework, where we assign a dual variable to each knapsack constraint and utilize an online learning algorithm to update the dual variable, thereby controlling the consumption of the knapsack capacity. We show that this integrated approach allows us to achieve a sublinear regret that depends logarithmically on the feature dimension, thus improving the polynomial dependency established in the previous literature. We also apply our framework to the high-dimension contextual bandit problem without the knapsack constraint and achieve optimal regret in both the data-poor regime and the data-rich regime. We finally conduct numerical experiments to show the efficient empirical performance of our algorithms under the high dimensional setting. | 翻訳日:2023-11-03 13:00:22 公開日:2023-11-02 |
# better together: 言語モデルと近隣情報を用いた生成的知識グラフ補完の強化 Better Together: Enhancing Generative Knowledge Graph Completion with Language Models and Neighborhood Information ( http://arxiv.org/abs/2311.01326v1 ) ライセンス: Link先を確認 | Alla Chepurova, Aydar Bulatov, Yuri Kuratov, Mikhail Burtsev | (参考訳) 実世界の知識グラフ(KG)は、しばしば不完全性に悩まされ、潜在的な性能が制限される。
知識グラフ補完(KGC)技術はこの問題に対処することを目的としている。
しかし、従来のKGC法は大規模KGには計算集約的で実用的ではなく、高密度ノード埋め込みの学習とペア距離の計算を必要とする。
生成トランスフォーマーベースの言語モデル(例えば、T5や最近のKGT5)は、テールノードを直接予測できる将来性のあるソリューションを提供する。
本研究では,言語モデルに基づくkgcメソッドを改善するために,ノード近傍を付加情報として含むことを提案する。
このインプテーションの効果を検証し,インダクティブおよびトランスダクティブwikidataサブセットにおいて,本手法がkgt5および従来のkgcアプローチよりも優れていることを示す。
また,モデル予測における近傍の影響を広範囲に分析し,その重要性を示す。
さらに,より効果的な近所選択により,kgcを著しく改善する方法を示す。 Real-world Knowledge Graphs (KGs) often suffer from incompleteness, which limits their potential performance. Knowledge Graph Completion (KGC) techniques aim to address this issue. However, traditional KGC methods are computationally intensive and impractical for large-scale KGs, necessitating the learning of dense node embeddings and computing pairwise distances. Generative transformer-based language models (e.g., T5 and recent KGT5) offer a promising solution as they can predict the tail nodes directly. In this study, we propose to include node neighborhoods as additional information to improve KGC methods based on language models. We examine the effects of this imputation and show that, on both inductive and transductive Wikidata subsets, our method outperforms KGT5 and conventional KGC approaches. We also provide an extensive analysis of the impact of neighborhood on model prediction and show its importance. Furthermore, we point the way to significantly improve KGC through more effective neighborhood selection. | 翻訳日:2023-11-03 12:59:59 公開日:2023-11-02 |
# 伝達型攻撃の体系的, 実質的, 公平な評価に向けて Towards Evaluating Transfer-based Attacks Systematically, Practically, and Fairly ( http://arxiv.org/abs/2311.01323v1 ) ライセンス: Link先を確認 | Qizhang Li, Yiwen Guo, Wangmeng Zuo, Hao Chen | (参考訳) ディープニューラルネットワーク(DNN)の敵対的脆弱性は、これらのモデルを現実世界のアプリケーションに適用するセキュリティリスクのために大きな注目を集めている。
反対例の転送可能性に基づいて、アーキテクチャやパラメータがアクセスできないブラックボックスDNNモデルを騙すために、転送ベースの手法が増えている。
多大な努力が払われたが、これらの手法を体系的に、公平に、実用的に比較できる標準ベンチマークがまだ欠けている。
本研究は,不公平な比較や代替/勝利モデルの考慮不足などを避けるために,その効果を検証するためには,いくつかの手法の評価をより合理的かつ徹底的に行う必要があることを示す。
そこで,30以上のメソッドを実装したトランスファーベース攻撃ベンチマーク(ta-bench)を構築した。
本稿では,イメージネット上での25の代用/最適化モデルに対して,それらを総合的に評価し,比較する。
これらの手法の有効性に関する新たな知見が得られ,今後の評価ガイドラインが提供される。
コードネームはhttps://github.com/qizhangli/TA-Bench。 The adversarial vulnerability of deep neural networks (DNNs) has drawn great attention due to the security risk of applying these models in real-world applications. Based on transferability of adversarial examples, an increasing number of transfer-based methods have been developed to fool black-box DNN models whose architecture and parameters are inaccessible. Although tremendous effort has been exerted, there still lacks a standardized benchmark that could be taken advantage of to compare these methods systematically, fairly, and practically. Our investigation shows that the evaluation of some methods needs to be more reasonable and more thorough to verify their effectiveness, to avoid, for example, unfair comparison and insufficient consideration of possible substitute/victim models. Therefore, we establish a transfer-based attack benchmark (TA-Bench) which implements 30+ methods. In this paper, we evaluate and compare them comprehensively on 25 popular substitute/victim models on ImageNet. New insights about the effectiveness of these methods are gained and guidelines for future evaluations are provided. Code at: https://github.com/qizhangli/TA-Bench. | 翻訳日:2023-11-03 12:59:34 公開日:2023-11-02 |
# openharmonyのためのソフトウェアエンジニアリング:研究ロードマップ Software Engineering for OpenHarmony: A Research Roadmap ( http://arxiv.org/abs/2311.01311v1 ) ライセンス: Link先を確認 | Li Li, Xiang Gao, Hailong Sun, Chunming Hu, Xiaoyu Sun, Haoyu Wang, Haipeng Cai, Ting Su, Xiapu Luo, Tegawend\'e F. Bissyand\'e, Jacques Klein, John Grundy, Tao Xie, Haibo Chen, Huaimin Wang | (参考訳) モバイルソフトウェアエンジニアリングは、何十年にもわたってホットな研究トピックだった。
本誌の同僚研究者たちは、この分野でさまざまなアプローチ(androidだけで7000以上の出版物)を提案して、現在のモバイルエコシステムの大きな成功に貢献した。
既存の研究は、主にAndroidとiOSという人気のモバイルプラットフォームに焦点を当てている。
新しくオープンソース化されたモバイルプラットフォームであるOpenHarmonyはめったに検討されていないが、OpenHarmonyが中国市場の3分の1を占めることが予想されているため、最も注目する必要がある。
このギャップを埋めるために、私たちはモバイルソフトウェアエンジニアリングコミュニティに、同僚の研究者がOpenHarmonyに有望なアプローチを貢献するように促す研究ロードマップを提示します。
具体的には、モバイルソフトウェアエンジニアリングの文献レビューを行い、モバイルコミュニティがターゲットとしている問題と、どのように解決されたかを理解することから始める。
その後、OpenHarmonyの既存の(限定的な)成果を要約し、Android/iOSとOpenHarmonyの間の研究ギャップを強調します。
この研究ギャップは最終的に、openharmonyのソフトウェアエンジニアリング調査を行うためのロードマップの形成に役立ちます。 Mobile software engineering has been a hot research topic for decades. Our fellow researchers have proposed various approaches (with over 7,000 publications for Android alone) in this field that essentially contributed to the great success of the current mobile ecosystem. Existing research efforts mainly focus on popular mobile platforms, namely Android and iOS. OpenHarmony, a newly open-sourced mobile platform, has rarely been considered, although it is the one requiring the most attention as OpenHarmony is expected to occupy one-third of the market in China (if not in the world). To fill the gap, we present to the mobile software engineering community a research roadmap for encouraging our fellow researchers to contribute promising approaches to OpenHarmony. Specifically, we start by presenting a literature review of mobile software engineering, attempting to understand what problems have been targeted by the mobile community and how they have been resolved. We then summarize the existing (limited) achievements of OpenHarmony and subsequently highlight the research gap between Android/iOS and OpenHarmony. This research gap eventually helps in forming the roadmap for conducting software engineering research for OpenHarmony. | 翻訳日:2023-11-03 12:59:07 公開日:2023-11-02 |
# Scattering Vision Transformer: スペクトル混合物質 Scattering Vision Transformer: Spectral Mixing Matters ( http://arxiv.org/abs/2311.01310v1 ) ライセンス: Link先を確認 | Badri N. Patro and Vijay Srinivas Agneeswaran | (参考訳) 視覚変換器は、画像分類、インスタンスセグメンテーション、オブジェクト検出など、様々なコンピュータビジョンタスクにおいて最先端のパフォーマンスを達成した。
しかし、注意の複雑さに対処し、画像内のきめ細かな情報を効果的に捉えることが課題である。
既存のソリューションは、計算コストを削減するために、プールのようなダウンサンプリング操作を利用することが多い。
残念ながら、そのような操作は非可逆的であり、情報損失をもたらす可能性がある。
本稿では,これらの課題に対処するために,Scattering Vision Transformer (SVT) という新しいアプローチを提案する。
SVTにはスペクトル散乱ネットワークがあり、複雑な画像の詳細をキャプチャできる。
SVTは低周波成分と高周波成分を分離することにより、ダウンサンプリング操作に伴う可逆性を克服する。
さらに、SVTは、トークンとチャネルの混合にアインシュタイン乗算を利用する独自のスペクトルゲーティングネットワークを導入し、複雑さを効果的に低減する。
SVT は ImageNet データセット上での最先端性能を実現し,パラメータや FLOPS の大幅な削減を実現している。
SVT は LiTv2 と iFormer よりも 2 % 改善されている。
SVT-H-Sは84.2\%、SVT-H-Bは85.2\%、SVT-H-Lは85.7\%である。
SVTはまた、インスタンスセグメンテーションのような他のビジョンタスクで同等の結果を示す。
SVTは、CIFAR10、CIFAR100、Oxford Flower、Stanford Carデータセットといった標準データセットでの転送学習において、他のトランスフォーマーよりも優れています。
プロジェクトページはこのwebページで閲覧できます。
https://badripatro.github.io/svt/} です。 Vision transformers have gained significant attention and achieved state-of-the-art performance in various computer vision tasks, including image classification, instance segmentation, and object detection. However, challenges remain in addressing attention complexity and effectively capturing fine-grained information within images. Existing solutions often resort to down-sampling operations, such as pooling, to reduce computational cost. Unfortunately, such operations are non-invertible and can result in information loss. In this paper, we present a novel approach called Scattering Vision Transformer (SVT) to tackle these challenges. SVT incorporates a spectrally scattering network that enables the capture of intricate image details. SVT overcomes the invertibility issue associated with down-sampling operations by separating low-frequency and high-frequency components. Furthermore, SVT introduces a unique spectral gating network utilizing Einstein multiplication for token and channel mixing, effectively reducing complexity. We show that SVT achieves state-of-the-art performance on the ImageNet dataset with a significant reduction in a number of parameters and FLOPS. SVT shows 2\% improvement over LiTv2 and iFormer. SVT-H-S reaches 84.2\% top-1 accuracy, while SVT-H-B reaches 85.2\% (state-of-art for base versions) and SVT-H-L reaches 85.7\% (again state-of-art for large versions). SVT also shows comparable results in other vision tasks such as instance segmentation. SVT also outperforms other transformers in transfer learning on standard datasets such as CIFAR10, CIFAR100, Oxford Flower, and Stanford Car datasets. The project page is available on this webpage.\url{https://badripatro.github.io/svt/}. | 翻訳日:2023-11-03 12:58:35 公開日:2023-11-02 |
# 多列MRI用ハイブリッドフュージョントランス Hybrid-Fusion Transformer for Multisequence MRI ( http://arxiv.org/abs/2311.01308v1 ) ライセンス: Link先を確認 | Jihoon Cho, Jinah Park | (参考訳) 完全畳み込みネットワーク(fcn)の出現によって医療セグメント化が指数関数的に拡大し,トランスフォーマーの成功により転換点に達した。
しかし, モダリティの異なる特性は, 医療セグメンテーションのためのTransformerに完全には統合されていない。
本研究では,マルチシーケンスMRI画像分割のためのハイブリッド核融合変換器(HFTrans)を提案する。
マルチモーダルmriシーケンス間の差異を利用して、トランスフォーマー層を用いて、各モーダルから抽出した特徴と初期の融合モーダルの特徴を統合する。
3次元医用セグメンテーションにおけるハイブリッドフュージョン法の有効性を検証した。
2つの公開データセットであるBraTS2020とMRBrainS18の実験により、提案手法は、脳腫瘍のセグメンテーションと脳構造セグメンテーションのタスクにおいて、従来の最先端の手法よりも優れていることが示された。 Medical segmentation has grown exponentially through the advent of a fully convolutional network (FCN), and we have now reached a turning point through the success of Transformer. However, the different characteristics of the modality have not been fully integrated into Transformer for medical segmentation. In this work, we propose the novel hybrid fusion Transformer (HFTrans) for multisequence MRI image segmentation. We take advantage of the differences among multimodal MRI sequences and utilize the Transformer layers to integrate the features extracted from each modality as well as the features of the early fused modalities. We validate the effectiveness of our hybrid-fusion method in three-dimensional (3D) medical segmentation. Experiments on two public datasets, BraTS2020 and MRBrainS18, show that the proposed method outperforms previous state-of-the-art methods on the task of brain tumor segmentation and brain structure segmentation. | 翻訳日:2023-11-03 12:57:31 公開日:2023-11-02 |
# 効果的なロボットイミッタとしての視覚言語基礎モデル Vision-Language Foundation Models as Effective Robot Imitators ( http://arxiv.org/abs/2311.01378v1 ) ライセンス: Link先を確認 | Xinghang Li, Minghuan Liu, Hanbo Zhang, Cunjun Yu, Jie Xu, Hongtao Wu, Chilam Cheang, Ya Jing, Weinan Zhang, Huaping Liu, Hang Li, Tao Kong | (参考訳) 視覚言語の基礎モデルの最近の進歩は、マルチモーダルデータを理解し、ロボット操作を含む複雑な視覚言語タスクを解決する能力を示している。
我々は、ロボットデータに簡単な微調整を施した、既存の視覚言語モデル(VLM)を利用する簡単な方法を模索する。
この目的のために,オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoという,シンプルで斬新な視覚言語操作フレームワークを考案した。
以前の作品とは異なり、RoboFlamingoはシングルステップの視覚言語理解に事前訓練されたVLMを使用し、明示的なポリシーヘッドで逐次履歴情報をモデル化し、言語条件の操作データセットのみに基づいて模倣学習によって微調整されている。
このような分解によってroboflamingoは、オープンループ制御と低パフォーマンスプラットフォームへのデプロイの柔軟性を提供する。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
実験の結果,操作作業におけるVLMの動作に関する興味深い結論が得られた。
roboflamingoは、ロボティクスの操作に費用対効果があり、使いやすいソリューションになる可能性があり、誰もが自分のロボティクスポリシーを微調整できる能力があると信じている。 Recent progress in vision language foundation models has shown their ability to understand multimodal data and resolve complicated vision language tasks, including robotics manipulation. We seek a straightforward way of making use of existing vision-language models (VLMs) with simple fine-tuning on robotics data. To this end, we derive a simple and novel vision-language manipulation framework, dubbed RoboFlamingo, built upon the open-source VLMs, OpenFlamingo. Unlike prior works, RoboFlamingo utilizes pre-trained VLMs for single-step vision-language comprehension, models sequential history information with an explicit policy head, and is slightly fine-tuned by imitation learning only on language-conditioned manipulation datasets. Such a decomposition provides RoboFlamingo the flexibility for open-loop control and deployment on low-performance platforms. By exceeding the state-of-the-art performance with a large margin on the tested benchmark, we show RoboFlamingo can be an effective and competitive alternative to adapt VLMs to robot control. Our extensive experimental results also reveal several interesting conclusions regarding the behavior of different pre-trained VLMs on manipulation tasks. We believe RoboFlamingo has the potential to be a cost-effective and easy-to-use solution for robotics manipulation, empowering everyone with the ability to fine-tune their own robotics policy. | 翻訳日:2023-11-03 12:50:00 公開日:2023-11-02 |
# 動的モード分解法によるジブラルタル海峡内潮流の解析 Analysis of tidal flows through the Strait of Gibraltar using Dynamic Mode Decomposition ( http://arxiv.org/abs/2311.01377v1 ) ライセンス: Link先を確認 | Sathsara Dias, Sudam Surasinghe, Kanaththa Priyankara, Marko Budi\v{s}i\'c, Larry Pratt, Jos\'e C. Sanchez-Garrido, Erik M.Bollt | (参考訳) ジブラルタル海峡(英: Strait of Gibraltar)は、地形、潮流力、不安定性、非線形水理過程の影響を受け、複雑な海洋のサブメソスケールの特徴を特徴とする地域である。
本研究では,これらの現象の基礎となる物理を,波動,渦,ジャイアを含む3次元MIT一般循環モデルシミュレーションで解明することを目的とする。
これを実現するために、動的モード分解(DMD)を用いてシミュレーションスナップショットをクープマンモードに分解する。
本研究の目的は,dmdの有効性を評価し,既知の特徴の把握,新しい要素の公開,ランキングモードの公開,注文削減の探求である。
また, DMDの頑健性, 数値精度, 固有値の頑健性を向上させる改良も導入した。
DMD解析は、ジブラルタル海峡の流動パターン、内部波の形成、ダイナミックス、その蛇行挙動、特に西アルボラン・ガイア(英語版)の形成、およびアフリカ沿岸沿岸におけるケルビンおよび沿岸波の伝播を包括的に理解する。
そうすることで、複雑な海洋現象の理解を大幅に向上させ、複雑なデータセットの分析ツールとしてのdmdの膨大な有用性を強調し、dmdが海洋学者のツールキットに価値ある付加物となることを示唆する。 The Strait of Gibraltar is a region characterized by intricate oceanic sub-mesoscale features, influenced by topography, tidal forces, instabilities, and nonlinear hydraulic processes, all governed by the nonlinear equations of fluid motion. In this study, we aim to uncover the underlying physics of these phenomena within 3D MIT general circulation model simulations, including waves, eddies, and gyres. To achieve this, we employ Dynamic Mode Decomposition (DMD) to break down simulation snapshots into Koopman modes, with distinct exponential growth/decay rates and oscillation frequencies. Our objectives encompass evaluating DMD's efficacy in capturing known features, unveiling new elements, ranking modes, and exploring order reduction. We also introduce modifications to enhance DMD's robustness, numerical accuracy, and robustness of eigenvalues. DMD analysis yields a comprehensive understanding of flow patterns, internal wave formation, and the dynamics of the Strait of Gibraltar, its meandering behaviors, and the formation of a secondary gyre, notably the Western Alboran Gyre, as well as the propagation of Kelvin and coastal-trapped waves along the African coast. In doing so, it significantly advances our comprehension of intricate oceanographic phenomena and underscores the immense utility of DMD as an analytical tool for such complex datasets, suggesting that DMD could serve as a valuable addition to the toolkit of oceanographers. | 翻訳日:2023-11-03 12:49:35 公開日:2023-11-02 |
# Gromov-Monge 埋め込みによるモノトン生成モデル Monotone Generative Modeling via a Gromov-Monge Embedding ( http://arxiv.org/abs/2311.01375v1 ) ライセンス: Link先を確認 | Wonjun Lee, Yifei Yang, Dongmian Zou, Gilad Lerman | (参考訳) Generative Adversarial Networks (GAN)は、新しいコンテンツを作成する強力なツールであるが、開始条件に対する感受性やモード崩壊といった課題に直面している。
このような問題に対処するために,Gromov-Monge 埋め込み (GME) を用いた深層生成モデルを提案する。
基礎となるデータの測度の低次元構造を同定し、幾何学を保存しながらそれを低次元の潜在空間内の測度に写像し、それを基準測度に最適に輸送する。
我々は、gme によって基礎となる幾何の保存と生成写像の周期的単調性を保証するが、ここでは $c$ は gme が使用する内在的埋め込みコストである。
後者の特性は、パラメータの初期化とモード崩壊に対するより良い堅牢性を保証する最初のステップである。
数値実験により,高画質画像の生成,モード崩壊回避,異なる開始条件に対する堅牢性を示す手法の有効性が示された。 Generative Adversarial Networks (GANs) are powerful tools for creating new content, but they face challenges such as sensitivity to starting conditions and mode collapse. To address these issues, we propose a deep generative model that utilizes the Gromov-Monge embedding (GME). It helps identify the low-dimensional structure of the underlying measure of the data and then maps it, while preserving its geometry, into a measure in a low-dimensional latent space, which is then optimally transported to the reference measure. We guarantee the preservation of the underlying geometry by the GME and $c$-cyclical monotonicity of the generative map, where $c$ is an intrinsic embedding cost employed by the GME. The latter property is a first step in guaranteeing better robustness to initialization of parameters and mode collapse. Numerical experiments demonstrate the effectiveness of our approach in generating high-quality images, avoiding mode collapse, and exhibiting robustness to different starting conditions. | 翻訳日:2023-11-03 12:49:06 公開日:2023-11-02 |
# 地域を認識する Recognize Any Regions ( http://arxiv.org/abs/2311.01373v1 ) ライセンス: Link先を確認 | Haosen Yang, Chuofan Ma, Bin Wen, Yi Jiang, Zehuan Yuan, Xiatian Zhu | (参考訳) オープンワールドオブジェクト検出など、制約のない画像内の個々の領域やパッチの意味を理解することは、コンピュータビジョンにおいて重要な課題である。
CLIPのような強力な画像レベルの視覚言語(ViL)基盤モデルの成功に基づいて、最近の取り組みは、領域ラベルペアの広範なコレクションで対照的なモデルをスクラッチからトレーニングするか、検出モデルの出力を領域提案の画像レベル表現と整合させることによって、それらの能力を活用しようとしている。
注目すべき進歩にもかかわらず、これらのアプローチは計算集約的なトレーニング要求、データノイズに対する感受性、文脈情報の不足によって苦しめられている。
これらの制約に対処するために、我々は、各強みをローカライズとセマンティクスに生かして、既成の基盤モデルの相乗的ポテンシャルを探求する。
本研究では,VLモデル(例えばCLIP)から抽出したセマンティック情報と局所化基盤モデル(SAM)から位置認識ローカライゼーション知識を統合するために設計された,新しい,汎用的で効率的なリージョン認識アーキテクチャであるRereaSpotを紹介する。
トレーニングのオーバーヘッドを最小限に抑えながら、トレーニング済みの知識を十分に活用するために、基礎モデルの両方を凍結し、軽量な注意に基づく知識統合モジュールのみに最適化の取り組みを集中させます。
オープンワールドオブジェクト認識の文脈における広範な実験を通じて、我々のRereaSpotは、従来の代替よりも大幅に性能が向上し、計算コストを大幅に削減する。
例えば、8v100 gpuを使用して、1日に300万のデータでモデルをトレーニングします。
我々のモデルは平均的精度(mAP)でGLIPを6.5%上回り、より困難で稀なカテゴリーではさらに14.8%の差がある。 Understanding the semantics of individual regions or patches within unconstrained images, such as in open-world object detection, represents a critical yet challenging task in computer vision. Building on the success of powerful image-level vision-language (ViL) foundation models like CLIP, recent efforts have sought to harness their capabilities by either training a contrastive model from scratch with an extensive collection of region-label pairs or aligning the outputs of a detection model with image-level representations of region proposals. Despite notable progress, these approaches are plagued by computationally intensive training requirements, susceptibility to data noise, and deficiency in contextual information. To address these limitations, we explore the synergistic potential of off-the-shelf foundation models, leveraging their respective strengths in localization and semantics. We introduce a novel, generic, and efficient region recognition architecture, named RegionSpot, designed to integrate position-aware localization knowledge from a localization foundation model (e.g., SAM) with semantic information extracted from a ViL model (e.g., CLIP). To fully exploit pretrained knowledge while minimizing training overhead, we keep both foundation models frozen, focusing optimization efforts solely on a lightweight attention-based knowledge integration module. Through extensive experiments in the context of open-world object recognition, our RegionSpot demonstrates significant performance improvements over prior alternatives, while also providing substantial computational savings. For instance, training our model with 3 million data in a single day using 8 V100 GPUs. Our model outperforms GLIP by 6.5 % in mean average precision (mAP), with an even larger margin by 14.8 % for more challenging and rare categories. | 翻訳日:2023-11-03 12:48:49 公開日:2023-11-02 |
# 中国メディアバイアス検出におけるデータ拡張・検索コンテキスト強化 Data-Augmented and Retrieval-Augmented Context Enrichment in Chinese Media Bias Detection ( http://arxiv.org/abs/2311.01372v1 ) ライセンス: Link先を確認 | Luyang Lin, Jing Li, Kam-Fai Wong | (参考訳) 客観的な報告の追求が高まるにつれて、メディアバイアスを自動的に理解する研究が近年注目を集めている。
しかし、以前の研究のほとんどは、西洋のイデオロギーからのメディアバイアス、例えば政治的スペクトルの左右などを調べているが、これは中国のメディアには当てはまらない。
先行する語彙バイアスと情報バイアス構造に基づき,中国の視点から精錬し,さらに7つの細粒度ラベルを用いたデータ作成を一歩進めた。
具体的には、まず、新たに設計されたシステムによってアノテートされたcovid-19に関する中国ニュースレポートを含むデータセットを構築し、その後、メディアバイアスを検出するための実質的な実験を行います。
しかし、注釈付きデータの規模は最新のディープラーニング技術には十分ではなく、専門的な知識を必要とするメディアバイアスにおける人間のアノテーションのコストは高すぎる。
そこで我々は,これらの問題を自動的に改善するためのコンテキストエンリッチメント手法について検討する。
data-augmented context enrichment(dace)では、トレーニングデータを拡大し、 search-augmented context enrichment(race)では、情報検索方法を改善して貴重な情報を選択し、バイアスをよりよく理解するためにモデルに統合します。
我々のデータセットと英語データセットBASILの両方で大規模な実験を行った。
その結果,両手法ともにベースラインを上回っており,競合手法の方が効率的であり,可能性も高いことがわかった。 With the increasing pursuit of objective reports, automatically understanding media bias has drawn more attention in recent research. However, most of the previous work examines media bias from Western ideology, such as the left and right in the political spectrum, which is not applicable to Chinese outlets. Based on the previous lexical bias and informational bias structure, we refine it from the Chinese perspective and go one step further to craft data with 7 fine-grained labels. To be specific, we first construct a dataset with Chinese news reports about COVID-19 which is annotated by our newly designed system, and then conduct substantial experiments on it to detect media bias. However, the scale of the annotated data is not enough for the latest deep-learning technology, and the cost of human annotation in media bias, which needs a lot of professional knowledge, is too expensive. Thus, we explore some context enrichment methods to automatically improve these problems. In Data-Augmented Context Enrichment (DACE), we enlarge the training data; while in Retrieval-Augmented Context Enrichment (RACE), we improve information retrieval methods to select valuable information and integrate it into our models to better understand bias. Extensive experiments are conducted on both our dataset and an English dataset BASIL. Our results show that both methods outperform our baselines, while the RACE methods are more efficient and have more potential. | 翻訳日:2023-11-03 12:48:15 公開日:2023-11-02 |
# 高光子数光猫状態のメトロロジーロバスト性 Metrological robustness of high photon number optical cat states ( http://arxiv.org/abs/2311.01371v1 ) ライセンス: Link先を確認 | Tom\'as Fern\'andez Martos, Maciej Lewenstein, Grzegorz Rajchel-Mieldzio\'c and Philipp Stammer | (参考訳) 量子メトロロジーの領域において、cat状態は光子損失に対する固有のフレギリティにもかかわらず、その有用性を証明してきた。
本稿では,高光子数状態における位相推定のためのメロジカルロバスト性を示すノイズロバスト光猫状態を紹介する。
これらの猫状態は高調波発生(hhg)の強いレーザー駆動過程から得られ、理想的な損失の場合には、偶数と奇数の猫状態と比較してほぼ2倍の量子フィッシャー情報(qfi)を示す。
しかし、さらに重要なのは、これらのHHG-cat状態はノイズに対してより頑丈であり、HHG-catは高光子数体制において25 %以上の損失があるにもかかわらず、純粋な偶数/陽の猫状態よりも優れていることである。
さらに、損失の少ない状態では、HHG-catはほとんど純度が保たれ、偶発性猫状態は最大混合状態に分解されている。
これは、高光子数光猫状態が、損失が存在する場合でもメトロロジー応用に使用できることを示している。 In the domain of quantum metrology cat states have demonstrated their utility despite their inherent fragility with respect to photon loss. Here, we introduce noise robust optical cat states which exhibit a metrological robustness for phase estimation in the regime of high photon numbers. These cat states are obtained from the intense laser driven process of high harmonic generation (HHG), and in the ideal case of vanishing losses, show almost twice the quantum Fisher information (QFI) compared to the even and odd cat states. However, and more importantly, these HHG-cat states are much more robust against noise such that the noisy HHG-cat outperforms the pure even/odd cat states even in the presence of more than $25\%$ losses in the regime of high photon numbers. Furthermore, in the regime of small losses, the HHG-cat remains almost pure while the even/odd cat state counterpart already decohere to the maximally mixed state. This demonstrates that high photon number optical cat states can indeed be used for metrological applications even in the presence of losses. | 翻訳日:2023-11-03 12:47:51 公開日:2023-11-02 |
# トポロジカル導波路量子センサ Topological Waveguide Quantum Sensors ( http://arxiv.org/abs/2311.01370v1 ) ライセンス: Link先を確認 | Tao Zhang, Jiazhong Hu, and Xingze Qiu | (参考訳) トポロジカル導波路系における単一スピン量子ビットを用いた量子強調センシングのための効率的で堅牢なプロトコルを提案する。
本手法は,スピン近傍に局在するトポロジカルペア境界状態に依拠し,効果的に2段階系とみなすことができる。
ベイズ推論理論のレンズを通して、感度は広い場の範囲でハイゼンベルク限界に達することができることを示した。
導波路のトポロジカルロバスト性から, センサプロトコルは局所摂動に対して堅牢である。
プロトコルの利点は、様々なパラメータを検知し、製品の初期状態を使用することができるため、実験で簡単に準備できるマルチフォールドである。
このアプローチは、トポロジカルフォトニクスやrydbergアレイのような、近距離量子プラットフォームに基づくロバストなトポロジカル量子センサへの道を開くと期待しています。 We present an efficient and robust protocol for quantum-enhanced sensing using a single-spin qubit in the topological waveguide system. Our method relies on the topological-paired bound states, which are localized near the spin and can be effectively regarded as a two-level system. Through the lens of Bayesian inference theory, we show the sensitivity can reach the Heisenberg limit across a large field range. Inheriting from the topological robustness of the waveguide, our sensing protocol is robust against local perturbations. The advantages of our protocol are multifold as it allows for sensing various parameters and uses a product initial state, which can be easily prepared in experiments. We expect this approach would pave the way towards robust topological quantum sensors based on near term quantum platforms such as topological photonics and Rydberg arrays. | 翻訳日:2023-11-03 12:47:33 公開日:2023-11-02 |
# 反射赤外光波信号を用いた呼吸異常検出 Respiratory Anomaly Detection using Reflected Infrared Light-wave Signals ( http://arxiv.org/abs/2311.01367v1 ) ライセンス: Link先を確認 | Md Zobaer Islam, Brenden Martin, Carly Gotcher, Tyler Martinez, John F. O'Hara, Sabit Ekin | (参考訳) 本研究では,人間のように呼吸できる機械ロボットの胸部から反射する非コヒーレント光波信号を用いた非接触呼吸異常検出法を提案する。
バイタルモニタリングのための既存のレーダーやカメラベースのセンシングシステムと比較すると、この技術は低コストのユビキタス光源(例えば赤外線発光ダイオード)とセンサー(例えば光検出器)のみを使用する。
この光波センシング(lws)システムは、0.5m〜1.5mの範囲でロボットの胸部から反射される光の強度の変化から異なる呼吸異常を認識する。
異常検出モデルは、機械学習を用いて7種類の呼吸データを分類する際に平均96.6%の精度を示す。
このモデルは、呼吸情報を含まないシステムによって収集された故障データを検出することもできる。
開発したシステムは、在宅または医療施設において、スマートで非接触で慎重な呼吸監視方法として利用することができる。 In this study, we present a non-contact respiratory anomaly detection method using incoherent light-wave signals reflected from the chest of a mechanical robot that can breathe like human beings. In comparison to existing radar and camera-based sensing systems for vitals monitoring, this technology uses only a low-cost ubiquitous light source (e.g., infrared light emitting diode) and sensor (e.g., photodetector). This light-wave sensing (LWS) system recognizes different breathing anomalies from the variations of light intensity reflected from the chest of the robot within a 0.5m-1.5m range. The anomaly detection model demonstrates up to 96.6% average accuracy in classifying 7 different types of breathing data using machine learning. The model can also detect faulty data collected by the system that does not contain breathing information. The developed system can be utilized at home or healthcare facilities as a smart, non-contact and discreet respiration monitoring method. | 翻訳日:2023-11-03 12:47:19 公開日:2023-11-02 |
# 非局所量子戦略計算のための変分法 Variational Methods for Computing Non-Local Quantum Strategies ( http://arxiv.org/abs/2311.01363v1 ) ライセンス: Link先を確認 | Jim Furches, Nathan Wiebe, Carlos Ortiz Marrero | (参考訳) 非ローカルゲームでは、2人の非共用選手が協力し、審判にゲームのルールに違反しない戦略を持っていると納得させる。
量子戦略は、共有絡み合った状態のジョイント測定を行うことで、プレイヤーが最適なゲームを獲得することができるが、これらの戦略の計算は困難である。
我々は,非局所ゲーム戦略の変分アルゴリズムを開発し,凸ゲームと非凸ゲームの両方の小さな例に対して最適戦略が得られることを示す。
提案アルゴリズムはグラフカラーゲームに対して最適な量子戦略を返すが,この問題で知られている最適量子戦略は存在しなかった。
さらに, この手法を量子コンピュータ上で実行し, 最適量子戦略をもたらす浅層回路を探索する方法について述べる。
このような回路は、スケールでの解の検証と2量子ゲートノイズに対する実験の感度のため、量子コンピュータのベンチマークに有用であると主張する。
最後に,11台のibm量子コンピュータ上でのベンチマーク戦略として非ローカルゲームの利用を実証する。 In a nonlocal game, two noncommunicating players cooperate to convince a referee that they possess a strategy that does not violate the rules of the game. Quantum strategies enable players to optimally win some games by performing joint measurements on a shared entangled state, but computing these strategies can be challenging. We develop a variational algorithm for computing strategies of nonlocal games and show that it can yield optimal strategies for small examples of both convex and non-convex games. We show that our algorithm returns an optimal quantum strategy for a graph coloring game; whereas no optimal quantum strategy was previously known for this problem. Moreover, we describe how this technique can be run on quantum computers to discover shallow-depth circuits that yield optimal quantum strategies. We argue that such circuits will be useful for benchmarking quantum computers because of the ability to verify the solutions at scale and the experiment's sensitivity to 2-qubit gate noise. Finally, we demonstrate the use of nonlocal games as a benchmarking strategy experimentally on 11 IBM quantum computers. | 翻訳日:2023-11-03 12:47:08 公開日:2023-11-02 |
# 魔法のロバスト性を効率的に定量化するハンドブック Handbook for Efficiently Quantifying Robustness of Magic ( http://arxiv.org/abs/2311.01362v1 ) ライセンス: Link先を確認 | Hiroki Hamaguchi and Kou Hamada and Nobuyuki Yoshioka | (参考訳) 非安定化性(nonstabilizerness、マジック)は、普遍的な量子計算を行うために必要な量子資源である。
特に魔法のロバスト性(RoM)は、非クリフォード演算に対する与えられた量子状態の有用性の程度を特徴づける。
RoMの数学的形式は簡潔な方法で与えられるが、極端に多くの純粋な安定化状態を含むため、実際にRoMを決定することは極めて困難である。
本稿では,RoMの計算に有効な新しいアルゴリズムを提案する。
重要な技術は、純粋な安定化状態間の重なりの計算において顕著な特徴を達成するサブルーチンである。
i) 各安定化器毎の時間複雑性を指数関数的に減少させる。
(ii)空間の複雑さは超指数的に減少する。
このサブルーチンに基づいて、ラップトップ上で最大$n=7$ qubitsの任意の状態に対してRoMを計算するアルゴリズムを提案する。
副生成物として、提案したサブルーチンは安定化器の忠実度を最大$n=8$ qubitsまでシミュレートすることができる。
さらに,解離の置換対称性などの対象量子状態の構造に対する事前知識を利用する新しいアルゴリズムを提案し,魔術状態のコピーと部分的に解離した量子状態の数値的な結果を示す。
一連のアルゴリズムは、RoMの計算をスケールアップするための包括的「ハンドブック」を構成しており、提案手法が他の量子リソースの計算にも適用可能であることを想定する。 The nonstabilizerness, or magic, is an essential quantum resource to perform universal quantum computation. Robustness of magic (RoM) in particular characterizes the degree of usefulness of a given quantum state for non-Clifford operation. While the mathematical formalism of RoM can be given in a concise manner, it is extremely challenging to determine the RoM in practice, since it involves superexponentially many pure stabilizer states. In this work, we present efficient novel algorithms to compute the RoM. The crucial technique is a subroutine that achieves the remarkable features in calculation of overlaps between pure stabilizer states: (i) the time complexity per each stabilizer is reduced exponentially, (ii) the space complexity is reduced superexponentially. Based on this subroutine, we present algorithms to compute the RoM for arbitrary states up to $n=7$ qubits on a laptop, while brute-force methods require a memory size of 86 TiB. As a byproduct, the proposed subroutine allows us to simulate the stabilizer fidelity up to $n=8$ qubits, for which naive methods require memory size of 86 PiB so that any state-of-the-art classical computer cannot execute the computation. We further propose novel algorithms that utilize the preknowledge on the structure of target quantum state such as the permutation symmetry of disentanglement, and numerically demonstrate our state-of-the-art results for copies of magic states and partially disentangled quantum states. The series of algorithms constitute a comprehensive ``handbook'' to scale up the computation of the RoM, and we envision that the proposed technique applies to the computation of other quantum resource measures as well. | 翻訳日:2023-11-03 12:46:50 公開日:2023-11-02 |
# GPT-4V(ision)による視覚言語タスクの一般評価 GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks ( http://arxiv.org/abs/2311.01361v1 ) ライセンス: Link先を確認 | Xinlu Zhang, Yujie Lu, Weizhi Wang, An Yan, Jun Yan, Lianke Qin, Heng Wang, Xifeng Yan, William Yang Wang, Linda Ruth Petzold | (参考訳) 視覚言語タスクを自動評価することは、特に細かな詳細を考慮に入れた制限のために人間の判断を反映する場合には困難である。
GPT-4Vは様々なマルチモーダルタスクにおいて有望な結果を示しているが、GPT-4Vを汎用的評価器として活用することは、まだ体系的に研究されていない。
我々は,GPT-4Vの基本的な画像-テキスト合成やテキスト-画像合成,高レベル画像-画像変換,複数画像のテキストアライメントといったタスクに対処し,評価目的の能力を総合的に検証する。
GPT-4Vを用いた2つの評価手法(シングル・アンサー・グレーディングとペアワイズ比較)を用いる。
特に、GPT-4Vは、様々なタスクや評価方法を通じて人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
視覚的明瞭度の制限や実世界の複雑な推論といった制限にもかかわらず、詳細な説明に富んだ人間によるスコアを提供する能力は、普遍的な自動評価にとって有望である。 Automatically evaluating vision-language tasks is challenging, especially when it comes to reflecting human judgments due to limitations in accounting for fine-grained details. Although GPT-4V has shown promising results in various multi-modal tasks, leveraging GPT-4V as a generalist evaluator for these tasks has not yet been systematically explored. We comprehensively validate GPT-4V's capabilities for evaluation purposes, addressing tasks ranging from foundational image-to-text and text-to-image synthesis to high-level image-to-image translations and multi-images to text alignment. We employ two evaluation methods, single-answer grading and pairwise comparison, using GPT-4V. Notably, GPT-4V shows promising agreement with humans across various tasks and evaluation methods, demonstrating immense potential for multi-modal LLMs as evaluators. Despite limitations like restricted visual clarity grading and real-world complex reasoning, its ability to provide human-aligned scores enriched with detailed explanations is promising for universal automatic evaluator. | 翻訳日:2023-11-03 12:46:22 公開日:2023-11-02 |
# カオスと乱流の普遍的統計構造とスケーリング則 The Universal Statistical Structure and Scaling Laws of Chaos and Turbulence ( http://arxiv.org/abs/2311.01358v1 ) ライセンス: Link先を確認 | Noam Levi and Yaron Oz | (参考訳) 乱流は、高レイノルズ数での流体の強い非線形ダイナミクスによって生じる複雑な空間的・時間的構造である。
何世紀にもわたって研究されてきたユビキタス現象であるにもかかわらず、乱流の完全な理解は依然として大きな課題であった。
本稿では、量子カオスとランダム行列理論(RMT)の分野のツールを紹介し、非圧縮性および圧縮性流体の乱流シミュレーションから生成された画像データセットの詳細な解析を行う。
データグラム行列と単一画像分布の2つの可観測性に着目し,局所固有値統計と大域固有値統計を,古典的カオス,非相関雑音,自然画像と比較した。
RMTの観点からは、乱流グラム行列は積分可能なシステムではなく量子カオスと同じ普遍性クラスにあり、そのデータは、非相関な古典的カオス、ランダムデータ、自然画像とは大きく異なる固有値の大部分において、パワー則のスケーリングを示す。
興味深いことに、単一のサンプル分布は完全なrmtカオスとしてのみ現れるが、より大きな相関長でカオスから逸脱し、異なるスケーリング特性を示す。 Turbulence is a complex spatial and temporal structure created by the strong non-linear dynamics of fluid flows at high Reynolds numbers. Despite being an ubiquitous phenomenon that has been studied for centuries, a full understanding of turbulence remained a formidable challenge. Here, we introduce tools from the fields of quantum chaos and Random Matrix Theory (RMT) and present a detailed analysis of image datasets generated from turbulence simulations of incompressible and compressible fluid flows. Focusing on two observables: the data Gram matrix and the single image distribution, we study both the local and global eigenvalue statistics and compare them to classical chaos, uncorrelated noise and natural images. We show that from the RMT perspective, the turbulence Gram matrices lie in the same universality class as quantum chaotic rather than integrable systems, and the data exhibits power-law scalings in the bulk of its eigenvalues which are vastly different from uncorrelated classical chaos, random data, natural images. Interestingly, we find that the single sample distribution only appears as fully RMT chaotic, but deviates from chaos at larger correlation lengths, as well as exhibiting different scaling properties. | 翻訳日:2023-11-03 12:46:04 公開日:2023-11-02 |
# ディープフェイク・フェイススワップングに対するロバストな同一性知覚透かし Robust Identity Perceptual Watermark Against Deepfake Face Swapping ( http://arxiv.org/abs/2311.01357v1 ) ライセンス: Link先を確認 | Tianyi Wang and Mengxiao Huang and Harry Cheng and Bin Ma and Yinglong Wang | (参考訳) 社会に利便性と娯楽を提供する一方で、ディープフェイクのフェイススワップは、ディープジェネレーションモデルの急速な発展において、プライバシーの問題を引き起こしている。
高品質な合成画像では知覚できないアーティファクトのため、近年では顔の交換に対するパッシブ検出モデルが一般化可能性に関する性能低下に苦しむことが多い。
そのため,前もって目に見えない信号を挿入することにより,悪質な操作に対して元のイメージを積極的に保護する研究がいくつか試みられている。
しかし、既存のプロアクティブディフェンスアプローチは、視覚的品質、検出精度、ソース追跡能力に関して不満足な結果を示す。
本研究では,Deepfakeの顔スワップに対する検出とソーストレースを同時に行う,最初の頑健なアイデンティティ認識型透かしフレームワークを提案する。
画像内容に関するアイデンティティセマンティクスをウォーターマークに割り当て,予測不能かつ可逆的なカオス暗号システムを考案し,ウォーターマークの機密性を確保する。
透かしは、エンコーダ・デコーダ・フレームワークと逆画像操作を共同で訓練することで符号化・復元される。
クロスデータセットとクロスマニピュレーションの両方の設定で、Deepfakeの顔スワップに対する最先端の性能を示す。 Notwithstanding offering convenience and entertainment to society, Deepfake face swapping has caused critical privacy issues with the rapid development of deep generative models. Due to imperceptible artifacts in high-quality synthetic images, passive detection models against face swapping in recent years usually suffer performance damping regarding the generalizability issue. Therefore, several studies have been attempted to proactively protect the original images against malicious manipulations by inserting invisible signals in advance. However, the existing proactive defense approaches demonstrate unsatisfactory results with respect to visual quality, detection accuracy, and source tracing ability. In this study, we propose the first robust identity perceptual watermarking framework that concurrently performs detection and source tracing against Deepfake face swapping proactively. We assign identity semantics regarding the image contents to the watermarks and devise an unpredictable and unreversible chaotic encryption system to ensure watermark confidentiality. The watermarks are encoded and recovered by jointly training an encoder-decoder framework along with adversarial image manipulations. Extensive experiments demonstrate state-of-the-art performance against Deepfake face swapping under both cross-dataset and cross-manipulation settings. | 翻訳日:2023-11-03 12:45:44 公開日:2023-11-02 |
# ランダムニューラルネットワークのリプシッツ定数について On the Lipschitz constant of random neural networks ( http://arxiv.org/abs/2311.01356v1 ) ライセンス: Link先を確認 | Paul Geuchen, Thomas Heindl, Dominik St\"oger, Felix Voigtlaender | (参考訳) 実験的研究により、ニューラルネットワークは入力の小さな対向的な摂動に非常に敏感であることが広く証明されている。
これらいわゆる逆例に対する最悪の場合のロバスト性は、ニューラルネットワークのリプシッツ定数によって定量化することができる。
しかし、この量に関する理論的な結果はほとんど文献に残っていない。
本稿では、ランダムReLUニューラルネットワークのリプシッツ定数、すなわち、ランダムに重みが選択され、ReLU活性化関数を用いるニューラルネットワークの研究を開始する。
浅いニューラルネットワークでは、リプシッツ定数を絶対数値定数まで特徴づける。
さらに、我々は解析を十分に広い幅の深部ニューラルネットワークに拡張し、リプシッツ定数の上下境界を証明した。
これらの境界は深さに依存する対数係数に一致する。 Empirical studies have widely demonstrated that neural networks are highly sensitive to small, adversarial perturbations of the input. The worst-case robustness against these so-called adversarial examples can be quantified by the Lipschitz constant of the neural network. However, only few theoretical results regarding this quantity exist in the literature. In this paper, we initiate the study of the Lipschitz constant of random ReLU neural networks, i.e., neural networks whose weights are chosen at random and which employ the ReLU activation function. For shallow neural networks, we characterize the Lipschitz constant up to an absolute numerical constant. Moreover, we extend our analysis to deep neural networks of sufficiently large width where we prove upper and lower bounds for the Lipschitz constant. These bounds match up to a logarithmic factor that depends on the depth. | 翻訳日:2023-11-03 12:45:23 公開日:2023-11-02 |
# 深層学習による顕微鏡画像の圧縮 : 実証的研究 Deep learning based Image Compression for Microscopy Images: An Empirical Study ( http://arxiv.org/abs/2311.01352v1 ) ライセンス: Link先を確認 | Yu Zhou, Jan Sollman, Jianxu Chen | (参考訳) 現代の顕微鏡やバイオイメージング技術が急速に発展し、これまでになく膨大な画像データが生成され、保存され、分析され、ネットワークを介して共有されている。
データのサイズは、現在のデータインフラストラクチャに大きな課題をもたらします。
データサイズを減らす一般的な方法は画像圧縮である。
本研究では,古典的および深層学習に基づく画像圧縮手法とその深層学習に基づく画像処理モデルへの影響について分析する。
深層学習に基づくラベルフリー予測モデル(すなわち、明るいフィールド画像からの蛍光画像の予測)は、比較と分析の例として用いられる。
効果的な画像圧縮手法は、必要な情報を失うことなくデータサイズを大幅に削減し、データ管理インフラの負担を軽減し、データ共有やクラウドコンピューティングのためのネットワークを介した高速伝送を可能にする。
このような所望の方法で画像を圧縮するために、複数の古典的損失画像圧縮技術と、Pythonを使用してCompressAIツールボックスによって提供、訓練されたAIベースの圧縮モデルを比較した。
これらの圧縮技術は圧縮比、複数の画像類似度尺度、そして最も重要なのは、圧縮画像上のラベルなしモデルによる予測精度を比較する。
その結果、AIベースの圧縮技術は従来の圧縮技術よりも優れており、2Dケースでは下流のラベルなしタスクに最小限の影響を及ぼすことがわかった。
最終的に,本研究では,深層学習に基づく画像圧縮の可能性と,下流の深層学習に基づく画像解析モデルに対する画像圧縮の影響を明らかにすることを期待する。 With the fast development of modern microscopes and bioimaging techniques, an unprecedentedly large amount of imaging data are being generated, stored, analyzed, and even shared through networks. The size of the data poses great challenges for current data infrastructure. One common way to reduce the data size is by image compression. This present study analyzes classic and deep learning based image compression methods, and their impact on deep learning based image processing models. Deep learning based label-free prediction models (i.e., predicting fluorescent images from bright field images) are used as an example application for comparison and analysis. Effective image compression methods could help reduce the data size significantly without losing necessary information, and therefore reduce the burden on data management infrastructure and permit fast transmission through the network for data sharing or cloud computing. To compress images in such a wanted way, multiple classical lossy image compression techniques are compared to several AI-based compression models provided by and trained with the CompressAI toolbox using python. These different compression techniques are compared in compression ratio, multiple image similarity measures and, most importantly, the prediction accuracy from label-free models on compressed images. We found that AI-based compression techniques largely outperform the classic ones and will minimally affect the downstream label-free task in 2D cases. In the end, we hope the present study could shed light on the potential of deep learning based image compression and the impact of image compression on downstream deep learning based image analysis models. | 翻訳日:2023-11-03 12:45:11 公開日:2023-11-02 |
# 交通信号検出のための高能率視覚変換器 Efficient Vision Transformer for Accurate Traffic Sign Detection ( http://arxiv.org/abs/2311.01429v1 ) ライセンス: Link先を確認 | Javad Mirzapour Kaleybar, Hooman Khaloo, Avaz Naghipour | (参考訳) 本研究では,自動運転車や運転支援システムにおける交通標識検出の課題について論じる。
信頼性が高く高精度なアルゴリズムの開発は、様々な実生活シナリオにおける交通標識認識・検出(TSRD)の普及に不可欠である。
しかし, この課題は, カメラの動き, 悪天候条件, 照明不足などの影響を受けやすい交通画像によって複雑になる。
本研究は,交通信号の検出方法に特化して,この課題に対処するためのトランスフォーマーモデル,特にビジョントランスフォーマー変種の適用について紹介する。
Transformerのアテンションメカニズムは、元々自然言語処理用に設計されたもので、並列性を改善する。
vision transformersは、自動運転、オブジェクト検出、ヘルスケア、防衛関連のアプリケーションなど、さまざまな領域で成功を収めている。
本研究は,変圧器モデルの効率を高めるために,局所的帰納バイアスと変圧器モジュールを統合する新しい手法を提案する。
これには効率的な畳み込みブロックとローカルトランスフォーマーブロックが導入され、短期および長期の依存関係情報を効果的にキャプチャし、検出速度と精度の両方を改善する。
実験的評価は、特にGTSDBデータセットに適用された場合、このアプローチによって達成された顕著な進歩を示している。 This research paper addresses the challenges associated with traffic sign detection in self-driving vehicles and driver assistance systems. The development of reliable and highly accurate algorithms is crucial for the widespread adoption of traffic sign recognition and detection (TSRD) in diverse real-life scenarios. However, this task is complicated by suboptimal traffic images affected by factors such as camera movement, adverse weather conditions, and inadequate lighting. This study specifically focuses on traffic sign detection methods and introduces the application of the Transformer model, particularly the Vision Transformer variants, to tackle this task. The Transformer's attention mechanism, originally designed for natural language processing, offers improved parallel efficiency. Vision Transformers have demonstrated success in various domains, including autonomous driving, object detection, healthcare, and defense-related applications. To enhance the efficiency of the Transformer model, the research proposes a novel strategy that integrates a locality inductive bias and a transformer module. This includes the introduction of the Efficient Convolution Block and the Local Transformer Block, which effectively capture short-term and long-term dependency information, thereby improving both detection speed and accuracy. Experimental evaluations demonstrate the significant advancements achieved by this approach, particularly when applied to the GTSDB dataset. | 翻訳日:2023-11-03 12:38:24 公開日:2023-11-02 |
# 振付モデルにおけるサービス品質のための動的時相論理 A Dynamic Temporal Logic for Quality of Service in Choreographic Models ( http://arxiv.org/abs/2311.01414v1 ) ライセンス: Link先を確認 | Carlos G. Lopez Pombo, Agust\'in E. Martinez Su\~n\'e, Emilio Tuosto | (参考訳) 本稿では,g-choreographiesとCFSM(Communicating Finite State Machine)で構成されるコレオグラフィーモデルを用いて,メッセージパッシングシステムの品質(QoS)を表現・解析するフレームワークを提案する。
i) 局所計算の量的制約を規定する非機能的契約を持つcfsmsの拡張、(ii) qosを表現可能な動的時相論理、(iii) 通信プロトコルを規定するgコレオグラフィーに対するシステムの特性、(iii) 通信システムのqos特性を検証するための境界付きモデルチェックアプローチを可能にする、我々の論理の半決定可能性。 We propose a framework for expressing and analyzing the Quality of Service (QoS) of message-passing systems using a choreographic model that consists of g-choreographies and Communicating Finite State machines (CFSMs). The following are our three main contributions: (I) an extension of CFSMs with non-functional contracts to specify quantitative constraints of local computations, (II) a dynamic temporal logic capable of expressing QoS, properties of systems relative to the g-choreography that specifies the communication protocol, (III) the semi-decidability of our logic which enables a bounded model-checking approach to verify QoS property of communicating systems. | 翻訳日:2023-11-03 12:38:05 公開日:2023-11-02 |
# Castor: 因果的時間的レジーム構造学習 Castor: Causal Temporal Regime Structure Learning ( http://arxiv.org/abs/2311.01412v1 ) ライセンス: Link先を確認 | Abdellah Rahmani, Pascal Frossard | (参考訳) 多変量時系列データ間の因果関係を明らかにするタスクは、気候科学から医療まで幅広い分野にまたがる、必須かつ困難な目標である。
このようなデータには線形または非線形の関係が伴い、通常、複数の未定の体制に従う。
既存の因果発見法は、既知のレジームを持つ異種データから要約因果グラフを推測することができるが、レジームと対応する因果グラフの両方を包括的に学習するのには不足している。
本稿では,異なる因果グラフで表される異種時系列データにおける因果関係を学習するための新しいフレームワークであるCASTORを紹介する。
EMアルゴリズムによるスコア関数の最大化により、CASTORはレジームの数を推定し、各レジームにおける線形あるいは非線形因果関係を学習する。
我々はCASTORの頑健な収束特性を実証し、特異なレシエーションを正確に識別する能力を強調した。
徹底的な合成実験と2つの実世界のベンチマークから得られた実証的な証拠は、CASTORが基礎的な方法と比較して因果発見において優れた性能を示した。
CASTORは、各レシエーションに対する完全な時間的因果グラフを学習することにより、異種時系列における因果発見の明確な解釈可能な方法として自分自身を確立する。 The task of uncovering causal relationships among multivariate time series data stands as an essential and challenging objective that cuts across a broad array of disciplines ranging from climate science to healthcare. Such data entails linear or non-linear relationships, and usually follow multiple a priori unknown regimes. Existing causal discovery methods can infer summary causal graphs from heterogeneous data with known regimes, but they fall short in comprehensively learning both regimes and the corresponding causal graph. In this paper, we introduce CASTOR, a novel framework designed to learn causal relationships in heterogeneous time series data composed of various regimes, each governed by a distinct causal graph. Through the maximization of a score function via the EM algorithm, CASTOR infers the number of regimes and learns linear or non-linear causal relationships in each regime. We demonstrate the robust convergence properties of CASTOR, specifically highlighting its proficiency in accurately identifying unique regimes. Empirical evidence, garnered from exhaustive synthetic experiments and two real-world benchmarks, confirm CASTOR's superior performance in causal discovery compared to baseline methods. By learning a full temporal causal graph for each regime, CASTOR establishes itself as a distinctly interpretable method for causal discovery in heterogeneous time series. | 翻訳日:2023-11-03 12:37:51 公開日:2023-11-02 |
# ランダム性の祝福:一般拡散画像編集におけるSDE BeatsODE The Blessing of Randomness: SDE Beats ODE in General Diffusion-based Image Editing ( http://arxiv.org/abs/2311.01410v1 ) ライセンス: Link先を確認 | Shen Nie, Hanzhong Allan Guo, Cheng Lu, Yuhao Zhou, Chenyu Zheng, Chongxuan Li | (参考訳) 本稿では,潜在変数をタスク固有の方法で編集し,元の確率的あるいは常微分方程式(sde,ode)によって引き起こされる対応する限界分布から一般に逸脱する拡散ベース画像編集のための統一確率的定式化を提案する。
代わりに、編集用の対応するSDEまたはODEを定義する。
定式化では、2つのSDEの辺分布間のクルバック・リーブラーのばらつきが徐々に減少し、ODEは時間がゼロに近づき、画像編集におけるSDEの約束を示す。
これに触発された私たちは、SDEが一貫した、そして実質的な改善を示す画像から画像への変換を含む様々なタスクにおいて、広く使われているODEベースラインに対して、SDE対応を提供する。
さらに,ポイントベースのコンテンツドラッグングのためのSDE定式化に基づく,シンプルで効果的なSDE-Dragを提案する。
我々は、オープンセットの自然、芸術、AI生成画像による評価のための挑戦的なベンチマーク(DragBenchと呼ばれる)を構築します。
DragBenchのユーザスタディによると、SDE-Dragは私たちのODEベースライン、既存の拡散ベースのメソッド、そして有名なDragGANを大きく上回っている。
その結果、画像編集におけるSDEの優位性と汎用性を示し、拡散ベースの編集手法の境界を押し進めた。 We present a unified probabilistic formulation for diffusion-based image editing, where a latent variable is edited in a task-specific manner and generally deviates from the corresponding marginal distribution induced by the original stochastic or ordinary differential equation (SDE or ODE). Instead, it defines a corresponding SDE or ODE for editing. In the formulation, we prove that the Kullback-Leibler divergence between the marginal distributions of the two SDEs gradually decreases while that for the ODEs remains as the time approaches zero, which shows the promise of SDE in image editing. Inspired by it, we provide the SDE counterparts for widely used ODE baselines in various tasks including inpainting and image-to-image translation, where SDE shows a consistent and substantial improvement. Moreover, we propose SDE-Drag -- a simple yet effective method built upon the SDE formulation for point-based content dragging. We build a challenging benchmark (termed DragBench) with open-set natural, art, and AI-generated images for evaluation. A user study on DragBench indicates that SDE-Drag significantly outperforms our ODE baseline, existing diffusion-based methods, and the renowned DragGAN. Our results demonstrate the superiority and versatility of SDE in image editing and push the boundary of diffusion-based editing methods. | 翻訳日:2023-11-03 12:37:29 公開日:2023-11-02 |
# 高精度かつスケーラブルな確率的ガウス過程推論のためのコアセットベース・テンパレート変分器 A Coreset-based, Tempered Variational Posterior for Accurate and Scalable Stochastic Gaussian Process Inference ( http://arxiv.org/abs/2311.01409v1 ) ライセンス: Link先を確認 | Mert Ketenci and Adler Perotte and No\'emie Elhadad and I\~nigo Urteaga | (参考訳) 重み付き擬似入力出力点(coresets)の学習可能な集合の後方に基づく新しい確率的変分ガウス過程(\mathcal{gp}$)推定法を提案する。
自由形式変分族の代わりに、$\mathcal{GP}$s (CVTGP) に対して提案されたコアセットベースの変分族は、$\mathcal{GP}$ pre とデータ様の項で定義される。
CVTGP の対数準位確率の低い境界は、提案された後続の余剰値 $\mathcal{GP}$ coreset 変数の余剰化によって導出され、確率的最適化が可能であることを示す。
CVTGPは学習可能なパラメータサイズを$\mathcal{O}(M)$に減らし、数値安定性を享受し、$\mathcal{O}(M^3)$ time-および$\mathcal{O}(M^2)$ space-complexityを維持する。
ガウス観測ノイズを伴うシミュレーションおよび実世界の回帰問題の結果、cvtgpは、代替の確率的$\mathcal{gp}$推論法よりも低いバウンド推定と予測根平均二乗誤差のより良い証拠を提供する。 We present a novel stochastic variational Gaussian process ($\mathcal{GP}$) inference method, based on a posterior over a learnable set of weighted pseudo input-output points (coresets). Instead of a free-form variational family, the proposed coreset-based, variational tempered family for $\mathcal{GP}$s (CVTGP) is defined in terms of the $\mathcal{GP}$ prior and the data-likelihood; hence, accommodating the modeling inductive biases. We derive CVTGP's lower bound for the log-marginal likelihood via marginalization of the proposed posterior over latent $\mathcal{GP}$ coreset variables, and show it is amenable to stochastic optimization. CVTGP reduces the learnable parameter size to $\mathcal{O}(M)$, enjoys numerical stability, and maintains $\mathcal{O}(M^3)$ time- and $\mathcal{O}(M^2)$ space-complexity, by leveraging a coreset-based tempered posterior that, in turn, provides sparse and explainable representations of the data. Results on simulated and real-world regression problems with Gaussian observation noise validate that CVTGP provides better evidence lower-bound estimates and predictive root mean squared error than alternative stochastic $\mathcal{GP}$ inference methods. | 翻訳日:2023-11-03 12:37:01 公開日:2023-11-02 |
# グラフ注意ネットワークと強化学習を組み合わせたEthereumネットワークの情報伝達解析によるネットワーク効率とスケーラビリティの最適化 Analysis of Information Propagation in Ethereum Network Using Combined Graph Attention Network and Reinforcement Learning to Optimize Network Efficiency and Scalability ( http://arxiv.org/abs/2311.01406v1 ) ライセンス: Link先を確認 | Stefan Kambiz Behfar and Jon Crowcroft | (参考訳) ブロックチェーン技術は、情報が分散ネットワークに伝播する方法に革命をもたらした。
ethereumはスマートコントラクトと分散アプリケーションを促進する上で重要な役割を果たす。
ethereumにおける情報伝達のダイナミクスを理解することは、ネットワークの効率、セキュリティ、スケーラビリティの確保に不可欠である。
本研究では,Graph Convolutional Networks (GCNs) を用いてEthereumネットワークにおける情報伝達パターンを解析する革新的な手法を提案する。
私たちの研究の第1フェーズは、ブロック、トランザクション、ノード次数で構成されるEthereumブロックチェーンからのデータ収集です。
我々は,隣接行列を用いてノードの埋め込みをキャプチャするトランザクショングラフ表現を構築し,グラフ注意ネットワーク(GAT)と強化学習(RL)を併用してネットワーク効率とスケーラビリティを最適化する手法を開発した。
様々なネットワーク状態において最善の行動を学び、最終的にネットワーク効率、スループットを改善し、ブロック処理のガス制限を最適化する。
実験評価では,大規模ethereumデータセット上でのモデルの性能を解析した。
グラフ構造をキャプチャした隣接ノードからの情報を効果的に集約し,gcnを用いたノード埋め込みの更新を行い,トランザクションパターン予測,ネットワーク負荷の変動とブロック数を算出した。
ガス限界最適化モデルを設計し,そのアルゴリズムを提供するだけでなく,拡張性に対処するため,graphconv,graphsage,gatにおけるスパース行列の利用と実装を実証した。
その結果,設計したGAT-RLモデルは,他のGCNモデルと比較して性能的に優れていることがわかった。
効果的にネットワーク全体に情報を伝達し、ブロック処理のためのガス制限を最適化し、ネットワーク効率を向上させる。 Blockchain technology has revolutionized the way information is propagated in decentralized networks. Ethereum plays a pivotal role in facilitating smart contracts and decentralized applications. Understanding information propagation dynamics in Ethereum is crucial for ensuring network efficiency, security, and scalability. In this study, we propose an innovative approach that utilizes Graph Convolutional Networks (GCNs) to analyze the information propagation patterns in the Ethereum network. The first phase of our research involves data collection from the Ethereum blockchain, consisting of blocks, transactions, and node degrees. We construct a transaction graph representation using adjacency matrices to capture the node embeddings; while our major contribution is to develop a combined Graph Attention Network (GAT) and Reinforcement Learning (RL) model to optimize the network efficiency and scalability. It learns the best actions to take in various network states, ultimately leading to improved network efficiency, throughput, and optimize gas limits for block processing. In the experimental evaluation, we analyze the performance of our model on a large-scale Ethereum dataset. We investigate effectively aggregating information from neighboring nodes capturing graph structure and updating node embeddings using GCN with the objective of transaction pattern prediction, accounting for varying network loads and number of blocks. Not only we design a gas limit optimization model and provide the algorithm, but also to address scalability, we demonstrate the use and implementation of sparse matrices in GraphConv, GraphSAGE, and GAT. The results indicate that our designed GAT-RL model achieves superior results compared to other GCN models in terms of performance. It effectively propagates information across the network, optimizing gas limits for block processing and improving network efficiency. | 翻訳日:2023-11-03 12:36:28 公開日:2023-11-02 |
# アクティブセンシングモータポリシーによる物理特性の把握 Learning to See Physical Properties with Active Sensing Motor Policies ( http://arxiv.org/abs/2311.01405v1 ) ライセンス: Link先を確認 | Gabriel B. Margolis, Xiang Fu, Yandong Ji, Pulkit Agrawal | (参考訳) カラー画像から推測される地形の物理的特性の知識は、効率的なロボット移動計画の作成に役立つ。
しかし、画像分類とは異なり、人間が物理的特性で画像パッチをラベル付けすることは直感的ではない。
ラベル付きデータなしでは、観測された地形を入力し、物理的特性を予測する視覚システムを構築するのは難しい。
本稿では,ロボットが実世界のトラバーサル中に捉えた画像の自己教師付ラベル付けを,シミュレーションで訓練した物理的特性推定器を用いて,その課題を克服する手法を提案する。
正確なラベリングを確保するために,身体パラメータ推定の精度を高めるロコモーション動作を探索するために訓練されたアクティブセンシングモータポリシ(asmp)を導入する。
例えば、四足歩行ロボットは、足を地面に向かってスワイプして摩擦係数を正確に推定する。
実世界の少数のトラバーサルデータで訓練された視覚システムは、物理的パラメータを正確に予測する。
訓練されたシステムは頑丈で、地上を歩いている四足歩行ロボットのカメラが収集したデータに基づいて訓練されているにもかかわらず、ドローンが捉えたオーバーヘッド画像でも機能する。 Knowledge of terrain's physical properties inferred from color images can aid in making efficient robotic locomotion plans. However, unlike image classification, it is unintuitive for humans to label image patches with physical properties. Without labeled data, building a vision system that takes as input the observed terrain and predicts physical properties remains challenging. We present a method that overcomes this challenge by self-supervised labeling of images captured by robots during real-world traversal with physical property estimators trained in simulation. To ensure accurate labeling, we introduce Active Sensing Motor Policies (ASMP), which are trained to explore locomotion behaviors that increase the accuracy of estimating physical parameters. For instance, the quadruped robot learns to swipe its foot against the ground to estimate the friction coefficient accurately. We show that the visual system trained with a small amount of real-world traversal data accurately predicts physical parameters. The trained system is robust and works even with overhead images captured by a drone despite being trained on data collected by cameras attached to a quadruped robot walking on the ground. | 翻訳日:2023-11-03 12:35:59 公開日:2023-11-02 |
# 線形制御ニューラルネットワークによる最適輸送マップの近似としての正規化フロー Normalizing flows as approximations of optimal transport maps via linear-control neural ODEs ( http://arxiv.org/abs/2311.01404v1 ) ライセンス: Link先を確認 | Alessandro Scagliotti, Sara Farinelli | (参考訳) Normalizing Flows"という用語は、深層ニューラルネットワークを用いて確率測度間の可逆輸送マップを構築するタスクに関連している。
本稿では,絶対連続測度$\mu,\nu\in\mathcal{p}(\mathbb{r}^n)$を線形制御神経odeの流れとして,w_2$-optimal transport map $t$を回復する問題を考える。
まず,$\mu,\nu$ と制御ベクトル場上の適切な仮定の下で,最適輸送写像が系が生成する流れの $c^0_c$-closure に含まれることを示す。
元の測度 $\mu,\nu$ の離散近似 $\mu_N,\nu_N$ が利用できると仮定すると、最適制御問題を定義するために離散最適結合 $\gamma_N$ を用いる。
$\Gamma$-収束論において、その解が最適輸送写像 $T$ を近似するフローに対応することを証明している。
最後に、ポントリャーギン極大原理を利用して、最適制御問題の解の反復的数値スキームを提案し、近似された最適輸送写像の実用的な計算法を提案する。 The term "Normalizing Flows" is related to the task of constructing invertible transport maps between probability measures by means of deep neural networks. In this paper, we consider the problem of recovering the $W_2$-optimal transport map $T$ between absolutely continuous measures $\mu,\nu\in\mathcal{P}(\mathbb{R}^n)$ as the flow of a linear-control neural ODE. We first show that, under suitable assumptions on $\mu,\nu$ and on the controlled vector fields, the optimal transport map is contained in the $C^0_c$-closure of the flows generated by the system. Assuming that discrete approximations $\mu_N,\nu_N$ of the original measures $\mu,\nu$ are available, we use a discrete optimal coupling $\gamma_N$ to define an optimal control problem. With a $\Gamma$-convergence argument, we prove that its solutions correspond to flows that approximate the optimal transport map $T$. Finally, taking advantage of the Pontryagin Maximum Principle, we propose an iterative numerical scheme for the resolution of the optimal control problem, resulting in an algorithm for the practical computation of the approximated optimal transport map. | 翻訳日:2023-11-03 12:35:44 公開日:2023-11-02 |
# 仮想アシスタントのためのエンティティ中心知識クエリのサーバサイドリコーリング Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants ( http://arxiv.org/abs/2311.01398v1 ) ライセンス: Link先を確認 | Youyuan Zhang, Sashank Gondala, Thiago Fraga-Silva, Christophe Van Gysel | (参考訳) 自動音声認識(ASR)を利用するオンデバイス仮想アシスタント(VA)は、挑戦的なエンティティリッチなクエリ認識のための効果的な知識統合を必要とする。
本稿では,言語モデル (LM) の様々なカテゴリ (N-gram word LMs, sub-word neural LMs) を用いて, 音声情報領域クエリのサーバ側再構成のためのモデリング手法を実証研究する。
オンデバイスとサーバ側信号の組み合わせについて検討し、ASRオンデバイスのみと比較して、様々なサーバ側LMを統合することにより、様々なエンティティ中心クエリサブポピュレーションに対して23%-35%のWER改善を示す。
また、ドメインデータに基づいてトレーニングされたLMと、OpenAIがベースラインとして提供しているGPT-3の変種との比較を行う。
さらに,スクラッチからトレーニングした複数のサーバサイドlmmのモデル融合が,各モデルの補完的強みを最も効果的に結合し,ドメイン固有データから学習した知識をva asrシステムに統合することを示した。 On-device Virtual Assistants (VAs) powered by Automatic Speech Recognition (ASR) require effective knowledge integration for the challenging entity-rich query recognition. In this paper, we conduct an empirical study of modeling strategies for server-side rescoring of spoken information domain queries using various categories of Language Models (LMs) (N-gram word LMs, sub-word neural LMs). We investigate the combination of on-device and server-side signals, and demonstrate significant WER improvements of 23%-35% on various entity-centric query subpopulations by integrating various server-side LMs compared to performing ASR on-device only. We also perform a comparison between LMs trained on domain data and a GPT-3 variant offered by OpenAI as a baseline. Furthermore, we also show that model fusion of multiple server-side LMs trained from scratch most effectively combines complementary strengths of each model and integrates knowledge learned from domain-specific data to a VA ASR system. | 翻訳日:2023-11-03 12:35:21 公開日:2023-11-02 |
# 閉ループにおける現実的交通エージェントの学習 Learning Realistic Traffic Agents in Closed-loop ( http://arxiv.org/abs/2311.01394v1 ) ライセンス: Link先を確認 | Chris Zhang, James Tu, Lunjun Zhang, Kelvin Wong, Simon Suo, Raquel Urtasun | (参考訳) 現実的な交通シミュレーションは、現実の展開の前に安全でスケーラブルな方法で自動運転ソフトウェアを開発するために不可欠である。
通常、模倣学習(IL)は、オフラインで収集された実世界の観測から人間のような交通エージェントを直接学習するために使用されるが、交通規則の明示的な仕様がなければ、ILから訓練されたエージェントは、衝突や道路の運転のような非現実的な違反を頻繁に表示する。
この問題はアウト・オブ・ディストリビューションとロングテールのシナリオで悪化する。
一方、強化学習(RL)は、違反を避けるために交通エージェントを訓練することができるが、RLのみを使用することで非人間的な運転行動をもたらす。
本稿では,交通規制制約の下で専門家のデモンストレーションに適合する総合的な閉ループ学習目標であるReinforcecing Traffic Rules (RTR)を提案する。
提案手法は,実世界のデータセットと手続き的に生成されたロングテールシナリオから,名目シナリオのクローズドループシミュレーションで学習する。
我々の実験は、RTRがより現実的で一般化可能な交通シミュレーションポリシーを学習し、名目と長距離の両方のシナリオにおいて、人間ライクな運転と交通コンプライアンスのトレードオフを著しく改善することを示した。
さらに,予測モデルをトレーニングするためのデータ生成ツールとして使用する場合,学習したトラヒックポリシは,ベースライントラヒックエージェントと比較して,ダウンストリーム予測指標を大幅に改善する。
詳細はプロジェクトのWebサイトを参照してください。 Realistic traffic simulation is crucial for developing self-driving software in a safe and scalable manner prior to real-world deployment. Typically, imitation learning (IL) is used to learn human-like traffic agents directly from real-world observations collected offline, but without explicit specification of traffic rules, agents trained from IL alone frequently display unrealistic infractions like collisions and driving off the road. This problem is exacerbated in out-of-distribution and long-tail scenarios. On the other hand, reinforcement learning (RL) can train traffic agents to avoid infractions, but using RL alone results in unhuman-like driving behaviors. We propose Reinforcing Traffic Rules (RTR), a holistic closed-loop learning objective to match expert demonstrations under a traffic compliance constraint, which naturally gives rise to a joint IL + RL approach, obtaining the best of both worlds. Our method learns in closed-loop simulations of both nominal scenarios from real-world datasets as well as procedurally generated long-tail scenarios. Our experiments show that RTR learns more realistic and generalizable traffic simulation policies, achieving significantly better tradeoffs between human-like driving and traffic compliance in both nominal and long-tail scenarios. Moreover, when used as a data generation tool for training prediction models, our learned traffic policy leads to considerably improved downstream prediction metrics compared to baseline traffic agents. For more information, visit the project website: https://waabi.ai/rtr | 翻訳日:2023-11-03 12:35:00 公開日:2023-11-02 |
# 長距離絡み付き有限局所深さ回路における不毛高原の欠如 Absence of barren plateaus in finite local-depth circuits with long-range entanglement ( http://arxiv.org/abs/2311.01393v1 ) ライセンス: Link先を確認 | Hao-Kai Zhang, Shuo Liu, and Shi-Xin Zhang | (参考訳) 基底状態の準備は古典的には一般のハミルトニアンには難解である。
量子デバイスにおいて、浅いパラメータ化回路は、変分量子固有解法というパラダイムの下で短距離の絡み合った状態を得るために効果的に訓練することができる。
このレターでは、局所的な2次元設計からなる任意の量子回路に対して、回路勾配のばらつきに関する一般的な下界を与える。
統一された枠組みに基づいて、局所ハミルトンの基底状態に対する有限局所深度回路のトレーニングにおけるバレンプラトーの欠如を証明した。
これらの回路は、従来の回路の深さの定義において、長距離の絡み合いを生じさせるように深く定義することができるが、その局所的な深さは有限であり、すなわち、個々のキュービットに作用する非可換ゲートは有限個しかない。
この事実は、トポロジカルに順序づけられた状態のような長距離の絡み合った基底状態が、変分法によって量子デバイス上で効率的に準備可能であることを示唆している。
解析結果を広範囲な数値シミュレーションで検証し,一般化トーリック符号モデルを用いた変分訓練の有効性を示す。 Ground state preparation is classically intractable for general Hamiltonians. On quantum devices, shallow parameterized circuits can be effectively trained to obtain short-range entangled states under the paradigm of variational quantum eigensolver, while deep circuits are generally untrainable due to the barren plateau phenomenon. In this Letter, we give a general lower bound on the variance of circuit gradients for arbitrary quantum circuits composed of local 2-designs. Based on our unified framework, we prove the absence of barren plateaus in training finite local-depth circuits for the ground states of local Hamiltonians. These circuits are allowed to be deep in the conventional definition of circuit depth so that they can generate long-range entanglement, but their local depths are finite, i.e., there is only a finite number of non-commuting gates acting on individual qubits. This fact suggests that long-range entangled ground states, such as topologically ordered states, are in general possible to be prepared efficiently on quantum devices via variational methods. We validate our analytical results with extensive numerical simulations and demonstrate the effectiveness of variational training using the generalized toric code model. | 翻訳日:2023-11-03 12:34:34 公開日:2023-11-02 |
# 偏光流体中の効果的に曲がった時空における励起スペクトルの分光計測 Spectroscopic measurement of the excitation spectrum on effectively curved spacetimes in a polaritonic fluid of light ( http://arxiv.org/abs/2311.01392v1 ) ライセンス: Link先を確認 | K\'evin Falque, Quentin Glorieux, Elisabeth Giacobino, Alberto Bramati and Maxime J Jacquet | (参考訳) 極端な時空曲率の領域の量子場は、ブラックホールの地平線のホーキング放射のような豊富な効果をもたらす。
量子場理論は理論上はブラックホールでしか研究できないが、制御された実験実験で試すことができる。
典型的には、亜音速から超音速に加速する流体は、音速と流体の速度が等しい見かけ上の地平線を持つ音場に対して効果的に湾曲した時空を作り出す。
ここでは、滑らかで急な音響水平線と様々な超音速流体速度を持つ、光の量子流体による効果的な曲線時空を作成する。
本研究では,最近開発された分光法を用いて,これらの時空上の音響励起スペクトルを測定し,超音速領域における負のエネルギーモードを観測した。
これは、曲がった時空の場の理論を研究するための光の量子流体のポテンシャルを示す。 Quantum fields in regions of extreme spacetime curvature give rise to a wealth of effects, like Hawking radiation at the horizon of black holes. While quantum field theory can only be studied theoretically in black holes, it can be tested in controlled laboratory experiments. Typically, a fluid accelerating from sub- to supersonic speed will create an effectively curved spacetime for the acoustic field, with an apparent horizon where the speed of the fluid equals the speed of sound. Here we create effective curved spacetimes with a quantum fluid of light, with smooth and steep acoustic horizons and various supersonic fluid speeds. We use a recently developed spectroscopy method to measure the spectrum of acoustic excitations on these spacetimes, thus observing negative energy modes in the supersonic regions. This demonstrates the potential of quantum fluids of light for the study of field theories on curved spacetimes. | 翻訳日:2023-11-03 12:34:13 公開日:2023-11-02 |
# コントラスト模倣による時系列生成 Time-series Generation by Contrastive Imitation ( http://arxiv.org/abs/2311.01388v1 ) ライセンス: Link先を確認 | Daniel Jarrett, Ioana Bica, Mihaela van der Schaar | (参考訳) 時系列データの生成モデルを学ぶことを考える。
ジェネレータが(ステップごとに)遷移の条件付きダイナミクスをキャプチャするだけでなく、そのオープンループロールアウトは(複数ステップの)軌道のジョイント分布を保持すべきである。
一方、MLEによって訓練された自己回帰モデルは、明示的な遷移分布の学習と計算を可能にするが、ロールアウト時に複雑なエラーに悩まされる。
一方、GANトレーニングに基づく敵対モデルは、そのような露出バイアスを緩和するが、遷移は暗黙的で評価しにくい。
本研究では, 合成誤差を軽減するため, モーメントマッチング目標により動機付け, 局所的(しかし前方的な)遷移ポリシーを最適化し, その強化信号は, 対照的な推定によって訓練された大域的(ただし, 段階的に分解可能な)エネルギーモデルによって提供される。
トレーニングでは、2つのコンポーネントを協調的に学習し、敵の目的に典型的な不安定さを避ける。
推論では、学習されたポリシーは反復的なサンプリングのジェネレータとなり、学習されたエネルギーはサンプルの品質を評価するための軌道レベルの尺度となる。
データセット内の時系列特徴のシーケンシャルな振る舞いを模倣するポリシーを明示的に訓練することにより、このアプローチは「模倣による世代」を具現化する。
理論的には、この定式化の正確性とアルゴリズムの一貫性を示す。
実世界のデータセットから予測的に有用なサンプルを生成する能力を評価し、既存のベンチマークの標準で実行されることを検証します。 Consider learning a generative model for time-series data. The sequential setting poses a unique challenge: Not only should the generator capture the conditional dynamics of (stepwise) transitions, but its open-loop rollouts should also preserve the joint distribution of (multi-step) trajectories. On one hand, autoregressive models trained by MLE allow learning and computing explicit transition distributions, but suffer from compounding error during rollouts. On the other hand, adversarial models based on GAN training alleviate such exposure bias, but transitions are implicit and hard to assess. In this work, we study a generative framework that seeks to combine the strengths of both: Motivated by a moment-matching objective to mitigate compounding error, we optimize a local (but forward-looking) transition policy, where the reinforcement signal is provided by a global (but stepwise-decomposable) energy model trained by contrastive estimation. At training, the two components are learned cooperatively, avoiding the instabilities typical of adversarial objectives. At inference, the learned policy serves as the generator for iterative sampling, and the learned energy serves as a trajectory-level measure for evaluating sample quality. By expressly training a policy to imitate sequential behavior of time-series features in a dataset, this approach embodies "generation by imitation". Theoretically, we illustrate the correctness of this formulation and the consistency of the algorithm. Empirically, we evaluate its ability to generate predictively useful samples from real-world datasets, verifying that it performs at the standard of existing benchmarks. | 翻訳日:2023-11-03 12:33:57 公開日:2023-11-02 |
# 言語モデルは言語錯誤によって引き起こせるか?
構文が簡単で 意味論が難しい Can Language Models Be Tricked by Language Illusions? Easier with Syntax, Harder with Semantics ( http://arxiv.org/abs/2311.01386v1 ) ライセンス: Link先を確認 | Yuhan Zhang, Edward Gibson, Forrest Davis | (参考訳) 言語モデル(LM)は文法的判断タスクにおいて人間と大きく重なると議論されている。
しかし、人間が体系的に言語処理の誤りを犯すとき、lmsは言語の認知モデルのように振る舞うことを期待し、人間の行動を模倣すべきだろうか?
我々は、lmsが「言語錯覚」に関連するより微妙な判断を調査することによって、この疑問に答える。
比較錯視(例:「私より多くの人がロシアに行った」)、深度チャージ錯視(例:「頭部の損傷は無視できないほど単純すぎる」)、負極性アイテム(例:「信頼できる村人がいないと信じているハンターが熊を撃つ」)の3つの錯視を調べた。
その結果,ALMで表される確率は,高度な意味理解を必要とする比較と深さ電荷の錯覚と比較して,構造的依存性を調べるNPIイリュージョンによって「複雑化」されるという人間の判断と一致している可能性が示唆された。
人間の行動と完全に一致した単一のLMや測定結果は得られない。
最終的に、LMは人間の言語処理の認知モデルとしてのコントラストと、複雑な言語材料におけるニュアンスだが重要な情報を認識する能力の両方に制限されていることを示す。 Language models (LMs) have been argued to overlap substantially with human beings in grammaticality judgment tasks. But when humans systematically make errors in language processing, should we expect LMs to behave like cognitive models of language and mimic human behavior? We answer this question by investigating LMs' more subtle judgments associated with "language illusions" -- sentences that are vague in meaning, implausible, or ungrammatical but receive unexpectedly high acceptability judgments by humans. We looked at three illusions: the comparative illusion (e.g. "More people have been to Russia than I have"), the depth-charge illusion (e.g. "No head injury is too trivial to be ignored"), and the negative polarity item (NPI) illusion (e.g. "The hunter who no villager believed to be trustworthy will ever shoot a bear"). We found that probabilities represented by LMs were more likely to align with human judgments of being "tricked" by the NPI illusion which examines a structural dependency, compared to the comparative and the depth-charge illusions which require sophisticated semantic understanding. No single LM or metric yielded results that are entirely consistent with human behavior. Ultimately, we show that LMs are limited both in their construal as cognitive models of human language processing and in their capacity to recognize nuanced but critical information in complicated language materials. | 翻訳日:2023-11-03 12:33:28 公開日:2023-11-02 |
# sim2real bilevel adaptation for object surface classification using vision-based tactile sensors (情報ネットワーク) Sim2Real Bilevel Adaptation for Object Surface Classification using Vision-Based Tactile Sensors ( http://arxiv.org/abs/2311.01380v1 ) ライセンス: Link先を確認 | Gabriele M. Caddeo, Andrea Maracani, Paolo D. Alfano, Nicola A. Piga, Lorenzo Rosasco and Lorenzo Natale | (参考訳) 本稿では,物体表面の分類のための視覚ベース触覚センサの分野におけるSim2Realギャップに対処する。
我々はこのギャップを埋めるために拡散モデルを訓練し,無ラベルの日常物体からランダムに収集した実世界画像の比較的小さなデータセットをデジットセンサで構築した。
その後,YCBモデルセットから物体表面を均一にサンプリングして画像を生成するシミュレータを用いた。
これらのシミュレーション画像は拡散モデルを使って実領域に変換され、自動的に分類器を訓練するラベルが付けられる。
この訓練中、我々は2つのドメインの特徴をさらに相反する手順を用いて整列する。
3dプリントされたycbオブジェクト10セットから得られた触覚画像のデータセットを用いて評価を行った。
その結果、シミュレート画像のみを訓練した分類器が達成した34.7%と比較して、合計81.9%の精度が向上した。
これは我々のアプローチの有効性を示している。
触覚データから6次元オブジェクトのポーズ推定タスクの分類器を用いたアプローチをさらに検証する。 In this paper, we address the Sim2Real gap in the field of vision-based tactile sensors for classifying object surfaces. We train a Diffusion Model to bridge this gap using a relatively small dataset of real-world images randomly collected from unlabeled everyday objects via the DIGIT sensor. Subsequently, we employ a simulator to generate images by uniformly sampling the surface of objects from the YCB Model Set. These simulated images are then translated into the real domain using the Diffusion Model and automatically labeled to train a classifier. During this training, we further align features of the two domains using an adversarial procedure. Our evaluation is conducted on a dataset of tactile images obtained from a set of ten 3D printed YCB objects. The results reveal a total accuracy of 81.9%, a significant improvement compared to the 34.7% achieved by the classifier trained solely on simulated images. This demonstrates the effectiveness of our approach. We further validate our approach using the classifier on a 6D object pose estimation task from tactile data. | 翻訳日:2023-11-03 12:32:44 公開日:2023-11-02 |
# LabelFormer: LiDARポイントクラウドからのオフボード知覚のためのオブジェクトトラジェクトリリファインメント LabelFormer: Object Trajectory Refinement for Offboard Perception from LiDAR Point Clouds ( http://arxiv.org/abs/2311.01444v1 ) ライセンス: Link先を確認 | Anqi Joyce Yang, Sergio Casas, Nikita Dvornik, Sean Segal, Yuwen Xiong, Jordan Sir Kwang Hu, Carter Fang, Raquel Urtasun | (参考訳) 自動運転認識システムのスケールアップトレーニングにおける大きなボトルネックは、監視に必要な人間のアノテーションである。
有望な選択肢は、低コストで生のlidarポイントクラウドからアノテーションを自動的に生成するように訓練された"自動ラベリング"オフボード知覚モデルを活用することだ。
オートラベルは2段階のアプローチで生成され、最初のオブジェクトは時間とともに検出・追跡され、各オブジェクトの軌道は学習された洗練モデルに渡されて精度が向上する。
既存のリファインメントモデルは複雑すぎ、時間的推論能力に乏しいため、本研究では、単純で効率的で効果的な軌道レベルのリファインメントアプローチである labelformer を提案する。
提案手法では,まず各フレームの観察を別々にエンコードし,その後,完全な時間的文脈で軌道を判断し,最後に洗練されたオブジェクトサイズとフレーム毎ポーズを復号する。
都市と高速道路のデータセットの評価は、LabelFormerが既存の作品を大きなマージンで上回っていることを示している。
最後に,本手法により自動ラベルを付加したデータセットのトレーニングにより,既存の手法と比較して下流検出性能が向上することを示す。
詳細はプロジェクトのwebサイトへ。 https://waabi.ai/labelformer A major bottleneck to scaling-up training of self-driving perception systems are the human annotations required for supervision. A promising alternative is to leverage "auto-labelling" offboard perception models that are trained to automatically generate annotations from raw LiDAR point clouds at a fraction of the cost. Auto-labels are most commonly generated via a two-stage approach -- first objects are detected and tracked over time, and then each object trajectory is passed to a learned refinement model to improve accuracy. Since existing refinement models are overly complex and lack advanced temporal reasoning capabilities, in this work we propose LabelFormer, a simple, efficient, and effective trajectory-level refinement approach. Our approach first encodes each frame's observations separately, then exploits self-attention to reason about the trajectory with full temporal context, and finally decodes the refined object size and per-frame poses. Evaluation on both urban and highway datasets demonstrates that LabelFormer outperforms existing works by a large margin. Finally, we show that training on a dataset augmented with auto-labels generated by our method leads to improved downstream detection performance compared to existing methods. Please visit the project website for details https://waabi.ai/labelformer | 翻訳日:2023-11-03 12:24:41 公開日:2023-11-02 |
# 時系列予測のための深度重み付け:未学習モデルを避ける Deep Double Descent for Time Series Forecasting: Avoiding Undertrained Models ( http://arxiv.org/abs/2311.01442v1 ) ライセンス: Link先を確認 | Valentino Assandri, Sam Heshmati, Burhaneddin Yaman, Anton Iakovlev, Ariel Emiliano Repetur | (参考訳) ディープラーニングモデル、特にトランスフォーマーは、時系列予測を含むさまざまな領域で素晴らしい結果をもたらしています。
既存の時系列文献は、主にモデルアーキテクチャの変更とデータ拡張技術に焦点を当てているが、本論文では、時系列のディープラーニングモデルのトレーニングスキーマについて検討する。
公開時系列データセット上で訓練された複数の変圧器モデルにおいて, 深い二重降下が発生することを調べるために, 広範囲にわたる実験を行った。
我々は,エポック方向の深い二重降下を示し,さらに多くのエポックを用いてオーバーフィッティングを戻すことができることを示した。
これらの知見を活かして,72ベンチマークの70%近くで長期時系列予測を行い,最新の結果を得た。
これは、文献の多くのモデルが未解決のポテンシャルを持っていることを示唆している。
さらに,データ拡張,モデル入力,モデルターゲット,モデル毎の時系列,計算予算をカバーする,トレーニングスキーマ修正を分類する分類法を提案する。 Deep learning models, particularly Transformers, have achieved impressive results in various domains, including time series forecasting. While existing time series literature primarily focuses on model architecture modifications and data augmentation techniques, this paper explores the training schema of deep learning models for time series; how models are trained regardless of their architecture. We perform extensive experiments to investigate the occurrence of deep double descent in several Transformer models trained on public time series data sets. We demonstrate epoch-wise deep double descent and that overfitting can be reverted using more epochs. Leveraging these findings, we achieve state-of-the-art results for long sequence time series forecasting in nearly 70% of the 72 benchmarks tested. This suggests that many models in the literature may possess untapped potential. Additionally, we introduce a taxonomy for classifying training schema modifications, covering data augmentation, model inputs, model targets, time series per model, and computational budget. | 翻訳日:2023-11-03 12:24:19 公開日:2023-11-02 |
# 視覚言語基礎モデルからの分布外ロバスト性蒸留 Distilling Out-of-Distribution Robustness from Vision-Language Foundation Models ( http://arxiv.org/abs/2311.01441v1 ) ライセンス: Link先を確認 | Andy Zhou and Jindong Wang and Yu-Xiong Wang and Haohan Wang | (参考訳) 本稿では,知識蒸留とデータ拡張を組み合わせた視覚モデルの堅牢性向上を目的とした,概念的にシンプルで軽量なフレームワークを提案する。
我々は, 基礎モデルから蒸留する場合, より大きなモデルでは分散性が強く向上することを示すことにより, より良い教師には役に立たない, という予想に対処した。
そこで,本研究では,教師の頑健さを活かした離散逆蒸留法 (dad) を提案し,vqgan を用いてそれを識別し,標準データ拡張法よりも有意義なサンプルを生成する。
本研究では,データ拡張設定による知識蒸留におけるロバストな教師の利用に関する理論的枠組みを提案し,分散的ロバスト性,クリーンな精度の高向上を示す。
特に,類似技術と比較して計算オーバーヘッドが小さいこと,改良のために他のデータ拡張と組み合わせることが容易である。 We propose a conceptually simple and lightweight framework for improving the robustness of vision models through the combination of knowledge distillation and data augmentation. We address the conjecture that larger models do not make for better teachers by showing strong gains in out-of-distribution robustness when distilling from pretrained foundation models. Following this finding, we propose Discrete Adversarial Distillation (DAD), which leverages a robust teacher to generate adversarial examples and a VQGAN to discretize them, creating more informative samples than standard data augmentation techniques. We provide a theoretical framework for the use of a robust teacher in the knowledge distillation with data augmentation setting and demonstrate strong gains in out-of-distribution robustness and clean accuracy across different student architectures. Notably, our method adds minor computational overhead compared to similar techniques and can be easily combined with other data augmentations for further improvements. | 翻訳日:2023-11-03 12:24:03 公開日:2023-11-02 |
# 1次元量子格子モデルにおける双対性のための低深さユニタリ量子回路 Low-depth unitary quantum circuits for dualities in one-dimensional quantum lattice models ( http://arxiv.org/abs/2311.01439v1 ) ライセンス: Link先を確認 | Laurens Lootens, Clement Delcamp, Dominic Williamson, Frank Verstraete | (参考訳) 対称(1+1)次元量子格子モデルの双対性に対する体系的アプローチは、対称性融合圏上の加群圏の観点から最近提案されている。
双対性が閉境界条件や電荷セクターと交わる非自明な方法を特徴付けることにより、これらはユニタリ行列積作用素によって実装できる。
本稿では,このような双対性演算子を,各分野を追尾する自由度を導入して,ユニタリ線形深度量子回路に変換する方法について解説する。
線形深さは、これらの双対性がそれらが作用する状態の位相を変えるという事実と一致する。
測定を補足すると、零核融合圏に符号化された対称性に関する双対性は一定の深さで実現できることを示す。
得られた回路は、例えば、(2+1)d位相モデルの異なるガッピング境界の間の短距離および長距離の絡み合い状態やマップを効率的に作成するために使うことができる。 A systematic approach to dualities in symmetric (1+1)d quantum lattice models has recently been proposed in terms of module categories over the symmetry fusion categories. By characterizing the non-trivial way in which dualities intertwine closed boundary conditions and charge sectors, these can be implemented by unitary matrix product operators. In this manuscript, we explain how to turn such duality operators into unitary linear depth quantum circuits via the introduction of ancillary degrees of freedom that keep track of the various sectors. The linear depth is consistent with the fact that these dualities change the phase of the states on which they act. When supplemented with measurements, we show that dualities with respect to symmetries encoded into nilpotent fusion categories can be realised in constant depth. The resulting circuits can for instance be used to efficiently prepare short- and long-range entangled states or map between different gapped boundaries of (2+1)d topological models. | 翻訳日:2023-11-03 12:23:43 公開日:2023-11-02 |
# 対比モーメント:多項式時間における教師なし半空間学習 Contrastive Moments: Unsupervised Halfspace Learning in Polynomial Time ( http://arxiv.org/abs/2311.01435v1 ) ライセンス: Link先を確認 | Xinyuan Cao, Santosh S. Vempala | (参考訳) 本研究では,(未知)対称一次元対数凸分布のd$-fold積の未知アフィン変換であるとき,d$次元空間のマージンが所望のテレビ距離内にある高次元のハーフスペースを学習するための多項式時間アルゴリズムを与え,そのハーフスペースは,少なくとも$\epsilon$の分数を1つの成分分布から削除することにより導入する。
特に,本アルゴリズムはラベルを必要とせず,この分布仮定の下で隠れた半空間のユニークな(かつ効率的な)識別性を確立する。
アルゴリズムのサンプルと時間の複雑さは、次元の多項式と1/\epsilon$である。
このアルゴリズムは、我々がコントラストモーメントと呼ぶ経験的分布の適切な再重み付けの最初の2つのモーメントのみを使用し、解析は一般化されたディリクレ多項式に関する古典的な事実を使用し、ログコンケーブ分布の切り欠きのモーメント比の新たな単調性に大きく依存する。
このようなアルゴリズムは、初期の研究で第1と第2の瞬間のみに基づいて提案されたが、ヒッヘルトは厳密な保証を免れた。
以前の研究は、基礎となる分布がガウス成分分析(英語版)によるガウス分布である特別なケースに対処した。
我々は、超多項化可能な既存のモーメントバウンド保証の代わりに、全変動(tv)距離に基づくポリタイム保証を提供することにより、これを改善する。
私たちの作品は、この設定でガウシアンを超えた最初の作品です。 We give a polynomial-time algorithm for learning high-dimensional halfspaces with margins in $d$-dimensional space to within desired TV distance when the ambient distribution is an unknown affine transformation of the $d$-fold product of an (unknown) symmetric one-dimensional logconcave distribution, and the halfspace is introduced by deleting at least an $\epsilon$ fraction of the data in one of the component distributions. Notably, our algorithm does not need labels and establishes the unique (and efficient) identifiability of the hidden halfspace under this distributional assumption. The sample and time complexity of the algorithm are polynomial in the dimension and $1/\epsilon$. The algorithm uses only the first two moments of suitable re-weightings of the empirical distribution, which we call contrastive moments; its analysis uses classical facts about generalized Dirichlet polynomials and relies crucially on a new monotonicity property of the moment ratio of truncations of logconcave distributions. Such algorithms, based only on first and second moments were suggested in earlier work, but hitherto eluded rigorous guarantees. Prior work addressed the special case when the underlying distribution is Gaussian via Non-Gaussian Component Analysis. We improve on this by providing polytime guarantees based on Total Variation (TV) distance, in place of existing moment-bound guarantees that can be super-polynomial. Our work is also the first to go beyond Gaussians in this setting. | 翻訳日:2023-11-03 12:23:27 公開日:2023-11-02 |
# カーネルワープ機能を用いたデータへの混合処理 Tailoring Mixup to Data using Kernel Warping functions ( http://arxiv.org/abs/2311.01434v1 ) ライセンス: Link先を確認 | Quentin Bouniot, Pavlo Mozharovskyi, Florence d'Alch\'e-Buc | (参考訳) データ拡張は、効率的なディープラーニングモデルを学ぶために不可欠なビルディングブロックである。
これまでに提案されている拡張手法の中で、トレーニングデータポイントの線形補間(mixupとも呼ばれる)は、大規模なアプリケーションで有効であることが判明した。
多くの作品が混合する適切な点の選択や複雑な非線形補間に焦点を当てているが、類似点をより頻繁に強く混合することに関心を持っている。
そこで本稿では,データ点間の類似度に応じて,ワープ関数によって補間係数の基底分布を動的に変化させることを提案する。
多様性を損なうことなく、効率的で柔軟なフレームワークを定義します。
分類と回帰タスクに関する広範な実験を行い,提案手法がモデルの性能とキャリブレーションの両方を改善することを示した。
https://github.com/ENSTA-U2IS/torch-uncertaintyで利用可能なコード Data augmentation is an essential building block for learning efficient deep learning models. Among all augmentation techniques proposed so far, linear interpolation of training data points, also called mixup, has found to be effective for a large panel of applications. While the majority of works have focused on selecting the right points to mix, or applying complex non-linear interpolation, we are interested in mixing similar points more frequently and strongly than less similar ones. To this end, we propose to dynamically change the underlying distribution of interpolation coefficients through warping functions, depending on the similarity between data points to combine. We define an efficient and flexible framework to do so without losing in diversity. We provide extensive experiments for classification and regression tasks, showing that our proposed method improves both performance and calibration of models. Code available in https://github.com/ENSTA-U2IS/torch-uncertainty | 翻訳日:2023-11-03 12:22:53 公開日:2023-11-02 |
# 分散型金融アプリケーションにおけるガバナンス問題に関する総合的研究 A Comprehensive Study of Governance Issues in Decentralized Finance Applications ( http://arxiv.org/abs/2311.01433v1 ) ライセンス: Link先を確認 | Wei Ma, Chenguang Zhu, Ye Liu, Xiaofei Xie, Yi Li | (参考訳) 分散型金融(DeFi)は、集中型金融とは対照的に、新たな金融パラダイムであるスマートコントラクトの顕著な応用である。
DeFiアプリケーションは主流のブロックチェーンプラットフォームで急速に普及しているが、その品質は大きく異なり、特にスマートコントラクトガバナンスに関して、多くの課題が提示されている。
本稿では,defiアプリケーションにおけるガバナンス問題に関する包括的考察を行う。
産業報告や学術研究論文から洞察を得て,これらの問題を調査するガバナンス分類学を開発する。
我々は17社のweb3セキュリティ企業から4,446件の監査報告を集め分析し、構築した分類に従ってガバナンス問題を分類した。
さらに、ガバナンス設計および実装プロセスにおける脆弱性、例えばフラッシュローン攻撃や再エンタシー攻撃を特定します。
ガバナンス問題の主要なトピックの特定を支援するために、自然言語処理(NLP)技術を採用しています。
さらに,defiアプリケーションにおけるコードとホワイトペーパーの一貫性を維持する上での課題についても検討し,今後の課題に対する貴重な洞察を提供する。
我々は人工知能(AI)に基づくプロトタイプツールを構築し、潜在的な解決策を明らかにするための最初の試みを示す。
このプロトタイプを8つのDeFiプロジェクトで検証し、56.14%のF1スコアと80%のリコールを達成した。
本研究では,defiアプリケーションの設計と開発チーム,およびユーザ,研究者,規制当局を支援し,ガバナンスの課題の理解と対処を行い,defiの健全な発展を促進することを期待する。 Decentralized finance (DeFi) is a prominent application of smart contracts, representing a novel financial paradigm in contrast to centralized finance. While DeFi applications are rapidly emerging on mainstream blockchain platforms, their quality varies greatly, presenting numerous challenges, particularly in terms of smart contract governance. This paper presents a comprehensive study of governance issues in DeFi applications. Drawing upon insights from industry reports and academic research papers, we develop a governance taxonomy to examine these issues. We collect and analyze 4,446 audit reports from 17 reputable Web3 security companies, categorizing the governance issues according to our constructed taxonomy. In addition, we identify vulnerabilities in the governance design and implementation processes, e.g., flash loan attacks and reentrancy attacks. To aid in the identification of the main topics of governance issues, we employ Natural Language Processing (NLP) techniques. Moreover, we explore the challenges associated with maintaining consistency between the code and the whitepaper in DeFi applications, providing valuable insights for addressing this issue in the future. We build a prototype tool based on artificial intelligence (AI), representing an initial attempt to uncover potential solutions. We validate this prototype across eight DeFi projects, achieving a 56.14% F1 score and a 80% recall. Through this study, we expect to assist the design and development teams of DeFi applications, as well as users, researchers, and regulators, in better understanding and addressing governance challenges, thereby fostering the healthy development of DeFi. | 翻訳日:2023-11-03 12:22:38 公開日:2023-11-02 |
# 重力前もって決定論的ポイントクラウド登録のためのねじ理論に基づく変換分離戦略 Transformation Decoupling Strategy based on Screw Theory for Deterministic Point Cloud Registration with Gravity Prior ( http://arxiv.org/abs/2311.01432v1 ) ライセンス: Link先を確認 | Xinyi Li, Zijian Ma, Yinlong Liu, Walter Zimmer, Hu Cao, Feihu Zhang and Alois Knoll | (参考訳) ポイントクラウドの登録は、重いアウトリール対応の存在下では困難である。
本稿では,実際に頻繁に発生する重力によるロバスト対応に基づく登録問題に対処することに焦点を当てる。
重力方向は通常慣性測定ユニット(IMU)によって得られ、回転の自由度(DOF)を3から1に下げることができる。
スクリュー理論を利用した新しい変換デカップリング戦略を提案する。
この戦略は、元の 4-DOF 問題を 1-DOF と 2-DOF と 1-DOF の 3 つのサブプロブレムに分解し、計算効率を向上する。
具体的には、第1の1-DOFは回転軸に沿った変換を表現し、間隔スタビングに基づく解法を提案する。
第2の2-DOFは、スクリュー理論の補助変数である極を表し、その解法としてブランチ・アンド・バウンド法を用いる。
最後の1-DOFは回転角を表し,その推定のための大域的投票法を提案する。
提案手法は,3つのコンセンサス最大化部分問題の逐次解法である。
特に、相当な堅牢性のため、対応のない登録問題にも対処できる。
人工と実世界の両方のデータセットに対する大規模な実験は、我々の手法が最先端の手法よりも効率的で堅牢であることを示した。 Point cloud registration is challenging in the presence of heavy outlier correspondences. This paper focuses on addressing the robust correspondence-based registration problem with gravity prior that often arises in practice. The gravity directions are typically obtained by inertial measurement units (IMUs) and can reduce the degree of freedom (DOF) of rotation from 3 to 1. We propose a novel transformation decoupling strategy by leveraging screw theory. This strategy decomposes the original 4-DOF problem into three sub-problems with 1-DOF, 2-DOF, and 1-DOF, respectively, thereby enhancing the computation efficiency. Specifically, the first 1-DOF represents the translation along the rotation axis and we propose an interval stabbing-based method to solve it. The second 2-DOF represents the pole which is an auxiliary variable in screw theory and we utilize a branch-and-bound method to solve it. The last 1-DOF represents the rotation angle and we propose a global voting method for its estimation. The proposed method sequentially solves three consensus maximization sub-problems, leading to efficient and deterministic registration. In particular, it can even handle the correspondence-free registration problem due to its significant robustness. Extensive experiments on both synthetic and real-world datasets demonstrate that our method is more efficient and robust than state-of-the-art methods, even when dealing with outlier rates exceeding 99%. | 翻訳日:2023-11-03 12:22:13 公開日:2023-11-02 |
# 機械学習を用いたアルツハイマー病認知度の同定 Identifying Alzheimer Disease Dementia Levels Using Machine Learning Methods ( http://arxiv.org/abs/2311.01428v1 ) ライセンス: Link先を確認 | Md Gulzar Hussain, Ye Shiren | (参考訳) 認知症(Dementia)は、アルツハイマー病(AD)の主要な症状である。
症状が軽度から重度に進行するにつれて、個人が単独で日常業務を行う能力が著しく低下し、時間的かつ正確なAD分類の必要性が増す。
機械学習やディープラーニングモデルがこの目的のために効果的なツールとして登場した。
本研究では, RF, SVM, CNNアルゴリズムを用いて認知症の4段階を分類する手法を提案する。
以上の結果から,浸水特性を持つSVMの精度は96.25%であり,他の分類法よりも高いことがわかった。
本手法の有効性を評価するためにadniデータセットを用いて,流域セグメンテーションの導入がモデルの性能向上に寄与することを確認した。 Dementia, a prevalent neurodegenerative condition, is a major manifestation of Alzheimer's disease (AD). As the condition progresses from mild to severe, it significantly impairs the individual's ability to perform daily tasks independently, necessitating the need for timely and accurate AD classification. Machine learning or deep learning models have emerged as effective tools for this purpose. In this study, we suggested an approach for classifying the four stages of dementia using RF, SVM, and CNN algorithms, augmented with watershed segmentation for feature extraction from MRI images. Our results reveal that SVM with watershed features achieves an impressive accuracy of 96.25%, surpassing other classification methods. The ADNI dataset is utilized to evaluate the effectiveness of our method, and we observed that the inclusion of watershed segmentation contributes to the enhanced performance of the models. | 翻訳日:2023-11-03 12:21:47 公開日:2023-11-02 |
# 緑内障検出のための深層学習手法の概観 Exploring Deep Learning Techniques for Glaucoma Detection: A Comprehensive Review ( http://arxiv.org/abs/2311.01425v1 ) ライセンス: Link先を確認 | Aized Amin Soofi, Fazal-e-Amin | (参考訳) 緑内障は世界中の視覚障害の主要な原因の1つであり、正確かつ効率的な検出方法を必要とする。
従来の手動検出アプローチは、コスト、時間、主観性の面で制限がある。
近年のディープラーニングアプローチの発展は網膜基底画像から関連する特徴を検出することにより緑内障検出の自動化の可能性を示している。
本稿では,緑内障の分類,分類,検出に使用される最先端の深層学習手法について概説する。
近年の研究では,これらの手法の有効性と限界が評価され,重要な知見が浮き彫りにされ,さらなる研究の可能性を秘めている。
深層学習アルゴリズムの使用は緑内障検出の有効性、有用性、正確性を大幅に改善する可能性がある。
本研究の知見は緑内障自動検出の継続的な進歩に寄与し,患者の予後改善と緑内障の世界的な負担軽減に寄与する。 Glaucoma is one of the primary causes of vision loss around the world, necessitating accurate and efficient detection methods. Traditional manual detection approaches have limitations in terms of cost, time, and subjectivity. Recent developments in deep learning approaches demonstrate potential in automating glaucoma detection by detecting relevant features from retinal fundus images. This article provides a comprehensive overview of cutting-edge deep learning methods used for the segmentation, classification, and detection of glaucoma. By analyzing recent studies, the effectiveness and limitations of these techniques are evaluated, key findings are highlighted, and potential areas for further research are identified. The use of deep learning algorithms may significantly improve the efficacy, usefulness, and accuracy of glaucoma detection. The findings from this research contribute to the ongoing advancements in automated glaucoma detection and have implications for improving patient outcomes and reducing the global burden of glaucoma. | 翻訳日:2023-11-03 12:21:33 公開日:2023-11-02 |
# CenterRadarNet: 4D FMCWレーダを用いた3次元物体検出・追跡フレームワーク CenterRadarNet: Joint 3D Object Detection and Tracking Framework using 4D FMCW Radar ( http://arxiv.org/abs/2311.01423v1 ) ライセンス: Link先を確認 | Jen-Hao Cheng, Sheng-Yao Kuan, Hugo Latapie, Gaowen Liu, Jenq-Neng Hwang | (参考訳) ロバストな認識は、安全な自律運転と補助運転を確保する上で不可欠な要素である。
耐候性センサーを提供する自動車レーダー(77 - 81 GHz)は、先進的なLiDARベースの自動運転システムに補完機能を提供する。
無線周波数(RF)レーダーテンソルは3D位置情報以外に、時空間のセマンティクスが豊富である。
従来の手法のほとんどは3D (Doppler-range-azimuth) RFレーダーテンソルを用いており、鳥の目視(BEV)における物体の位置、方向角、大きさを予測できる。
しかし、3D空間におけるオブジェクトのサイズ、向き、アイデンティティを同時に推測する能力は欠如している。
この制限を克服するために,3次元物体検出および再同定(re-ID)タスクのための4Dレーダデータからの高分解能表現学習を容易にするために,CenterRadarNetと呼ばれる効率的なジョイントアーキテクチャを提案する。
シングルステージの3Dオブジェクト検出器として、CenterRadarNetはBEVオブジェクト分布の信頼性マップ、対応する3Dバウンディングボックス属性、各ピクセルの外観埋め込みを直接推論する。
さらに,学習した外見埋め込みをre-IDに応用したオンライントラッカーを構築した。
CenterRadarNetは、K-Radar 3Dオブジェクト検出ベンチマークで最先端の結果を達成する。
さらに、K-RadarデータセットV2にレーダーを用いた最初の3次元オブジェクト追跡結果を示す。
さまざまな駆動シナリオにおいて、CenterRadarNetは一貫性があり、堅牢なパフォーマンスを示し、その広範な適用性を強調している。 Robust perception is a vital component for ensuring safe autonomous and assisted driving. Automotive radar (77 to 81 GHz), which offers weather-resilient sensing, provides a complementary capability to the vision- or LiDAR-based autonomous driving systems. Raw radio-frequency (RF) radar tensors contain rich spatiotemporal semantics besides 3D location information. The majority of previous methods take in 3D (Doppler-range-azimuth) RF radar tensors, allowing prediction of an object's location, heading angle, and size in bird's-eye-view (BEV). However, they lack the ability to at the same time infer objects' size, orientation, and identity in the 3D space. To overcome this limitation, we propose an efficient joint architecture called CenterRadarNet, designed to facilitate high-resolution representation learning from 4D (Doppler-range-azimuth-elevation) radar data for 3D object detection and re-identification (re-ID) tasks. As a single-stage 3D object detector, CenterRadarNet directly infers the BEV object distribution confidence maps, corresponding 3D bounding box attributes, and appearance embedding for each pixel. Moreover, we build an online tracker utilizing the learned appearance embedding for re-ID. CenterRadarNet achieves the state-of-the-art result on the K-Radar 3D object detection benchmark. In addition, we present the first 3D object-tracking result using radar on the K-Radar dataset V2. In diverse driving scenarios, CenterRadarNet shows consistent, robust performance, emphasizing its wide applicability. | 翻訳日:2023-11-03 12:21:19 公開日:2023-11-02 |
# ホロスティックトランスファー:部分目標データを用いた非破壊的微調整を目指して Holistic Transfer: Towards Non-Disruptive Fine-Tuning with Partial Target Data ( http://arxiv.org/abs/2311.01420v1 ) ライセンス: Link先を確認 | Cheng-Hao Tu, Hong-You Chen, Zheda Mai, Jike Zhong, Vardaan Pahuja, Tanya Berger-Wolf, Song Gao, Charles Stewart, Yu Su, Wei-Lun Chao | (参考訳) 本稿では,事前学習したソースモデルを対象領域に適応させて,部分ラベル空間のみをカバーするターゲットデータを用いて,ソースデータに現れるクラスを分類する学習問題を提案する。
対象のエンドユーザが適応前にすべてのクラスのデータを集めるのは現実的ではないため,この問題は現実的だ。
しかし、文献にはほとんど注目されていない。
この問題を明らかにするために、ベンチマークデータセットを構築し、固有の課題を明らかにするために広範な実験を行う。
一方,新たな対象領域に適応するジレンマは,より優れた性能を主張する上で重要である。一方,対象適応データに欠落するクラスの分類精度の維持は極めて困難である。
これに取り組むために、私たちは2つの重要な方向を特定します。
1)分類勾配からドメイン勾配を分離すること、及び
2)階級関係を維持する。
本稿では,不足するクラスの精度を維持し,全体的な性能を向上させるための有効解を提案し,部分的対象データを用いた事前学習モデルの全体的移動のためのソリッドベースラインを確立する。 We propose a learning problem involving adapting a pre-trained source model to the target domain for classifying all classes that appeared in the source data, using target data that covers only a partial label space. This problem is practical, as it is unrealistic for the target end-users to collect data for all classes prior to adaptation. However, it has received limited attention in the literature. To shed light on this issue, we construct benchmark datasets and conduct extensive experiments to uncover the inherent challenges. We found a dilemma -- on the one hand, adapting to the new target domain is important to claim better performance; on the other hand, we observe that preserving the classification accuracy of classes missing in the target adaptation data is highly challenging, let alone improving them. To tackle this, we identify two key directions: 1) disentangling domain gradients from classification gradients, and 2) preserving class relationships. We present several effective solutions that maintain the accuracy of the missing classes and enhance the overall performance, establishing solid baselines for holistic transfer of pre-trained models with partial target data. | 翻訳日:2023-11-03 12:20:54 公開日:2023-11-02 |
# 新しい戦略による多軸場によるSABRE超分極促進 Multi-axis fields boost SABRE hyperpolarization via new strategies ( http://arxiv.org/abs/2311.01417v1 ) ライセンス: Link先を確認 | Jacob R. Lindale, Loren L. Smith, Mathew W. Mammen, Shannon L. Eriksson, Lucas Everhart, Warren S. Warren | (参考訳) NMRとMRIの信号対雑音比は本質的に低いが、現在では超分極法によって対処されている。
例えば、溶液中でパラ水素とリガンドの両方を可逆的に結合するイリジウム系触媒は、スピンダイナミクスと化学交換過程の複雑な相互作用を用いて、プロトン(SABRE)またはヘテロヌクレ(X-SABRE)を様々なリガンド上で超分極することができる。
これは明らかな理論上の限界に近づかず、多くの応用(in vivoでのmM濃度のイメージングなど)においてさらなる増強が有用であろう。
SABRE/X-SABREの実装の多くは、標準磁気共鳴(>1T)よりもはるかに低い磁場({\mu}T-mT$)を必要とする。
しかし、磁気共鳴の理論的仮定を単純化する標準を再検討する必要があるため、これは過小評価されている。
ここでは,数値最適化のための進化戦略アルゴリズムであるsabre (machete-sabre) の多軸計算機支援ヘテロ核移動促進法について述べる。
非直感的だが高効率な多軸パルス列は連続励起よりも10倍の偏極改善を実験的に得る。
このアプローチは従来の方法とは異なる分極を最適化し、余分な効率を得る。 The inherently low signal-to-noise ratio of NMR and MRI is now being addressed by hyperpolarization methods. For example, iridium-based catalysts that reversibly bind both parahydrogen and ligands in solution can hyperpolarize protons (SABRE) or heteronuclei (X-SABRE) on a wide variety of ligands, using a complex interplay of spin dynamics and chemical exchange processes, with common signal enhancements between $10^3-10^4$. This does not approach obvious theoretical limits, and further enhancement would be valuable in many applications (such as imaging mM concentration species in vivo). Most SABRE/X-SABRE implementations require far lower fields (${\mu}T-mT$) than standard magnetic resonance (>1T), and this gives an additional degree of freedom: the ability to fully modulate fields in three dimensions. However, this has been underexplored because the standard simplifying theoretical assumptions in magnetic resonance need to be revisited. Here we take a different approach, an evolutionary strategy algorithm for numerical optimization, Multi-Axis Computer-aided HEteronuclear Transfer Enhancement for SABRE (MACHETE-SABRE). We find nonintuitive but highly efficient multi-axial pulse sequences which experimentally can produce a 10-fold improvement in polarization over continuous excitation. This approach optimizes polarization differently than traditional methods, thus gaining extra efficiency. | 翻訳日:2023-11-03 12:20:35 公開日:2023-11-02 |
# mocheqos: 通信システムのサービス品質の自動分析 MoCheQoS: Automated Analysis of Quality of Service Properties of Communicating Systems ( http://arxiv.org/abs/2311.01415v1 ) ライセンス: Link先を確認 | Carlos G. Lopez Pombo, Agust\'in E. Martinez Su\~n\'e, Emilio Tuosto | (参考訳) メッセージパッシングシステムのqos(quality of service)特性を分析するツールであるmocheqosを提案する。
最近の論文で定義した論理と振付モデルに基づいて、MoCheQoSは境界モデルチェックアルゴリズムを実装している。
いくつかのケーススタディを通してMoCheQoSの強みと弱みについて論じる。 We present MoCheQoS, a tool to analyse quality of service (QoS) properties of message-passing systems. Building on the logic and the choreographic model we defined in recently published work, MoCheQoS implements a bounded model checking algorithm. We discuss strengths and weaknesses of MoCheQoS through some case studies. | 翻訳日:2023-11-03 12:20:05 公開日:2023-11-02 |
# イデムポテント生成ネットワーク Idempotent Generative Network ( http://arxiv.org/abs/2311.01462v1 ) ライセンス: Link先を確認 | Assaf Shocher, Amil Dravid, Yossi Gandelsman, Inbar Mosseri, Michael Rubinstein, Alexei A. Efros | (参考訳) そこで我々は,ニューラルネットワークの学習に基づく生成モデリングの新しい手法を提案する。
idempotent operator は、初期アプリケーションを超えて結果を変更することなく順次適用できる演算子で、$f(f(z))=f(z)$ である。
提案されたモデル$f$は、ソース分布(例えばガウスノイズ)を対象の分布(例えば現実的な画像)に、次の目的を用いてマッピングするように訓練されている。
対象多様体を、$f$が自身にマップするすべてのインスタンスの集合として定義する。
(2) ソース分布を形成するインスタンスは、定義されたターゲット多様体にマップすべきである。
これは、目的多様体上の$f(z)$の範囲を奨励するイデオポテンス項 $f(f(z))=f(z)$ を最適化することで達成される。
理想的な仮定の下では、そのようなプロセスは目標分布に確実に収束する。
この戦略により、モデルが1ステップで出力を生成でき、一貫した潜在空間を維持しながら、改良のためのシーケンシャルなアプリケーションを可能にする。
さらに,ターゲット分布とソース分布の両方から入力を処理することで,モデルが劣化したり,修正されたデータを対象多様体に戻すことを発見した。
この作業は‘グローバルプロジェクタ’への第一歩であり、任意の入力をターゲットデータ分布に投影することができる。 We propose a new approach for generative modeling based on training a neural network to be idempotent. An idempotent operator is one that can be applied sequentially without changing the result beyond the initial application, namely $f(f(z))=f(z)$. The proposed model $f$ is trained to map a source distribution (e.g, Gaussian noise) to a target distribution (e.g. realistic images) using the following objectives: (1) Instances from the target distribution should map to themselves, namely $f(x)=x$. We define the target manifold as the set of all instances that $f$ maps to themselves. (2) Instances that form the source distribution should map onto the defined target manifold. This is achieved by optimizing the idempotence term, $f(f(z))=f(z)$ which encourages the range of $f(z)$ to be on the target manifold. Under ideal assumptions such a process provably converges to the target distribution. This strategy results in a model capable of generating an output in one step, maintaining a consistent latent space, while also allowing sequential applications for refinement. Additionally, we find that by processing inputs from both target and source distributions, the model adeptly projects corrupted or modified data back to the target manifold. This work is a first step towards a ``global projector'' that enables projecting any input into a target data distribution. | 翻訳日:2023-11-03 12:12:34 公開日:2023-11-02 |
# 暗号トークンの財産法 The Property Law of Crypto Tokens ( http://arxiv.org/abs/2311.01461v1 ) ライセンス: Link先を確認 | Jakub Wyczik | (参考訳) 本稿では,Web3技術に関する包括的な研究の欠如について論じる。
基礎となる技術基盤を理解することは、法的意見の信頼性を高めるために不可欠である。
本稿は、これらの基礎を照らし、神話を破滅させ、分散経済における財産権の文脈における暗号資産の法的地位を決定することに集中することを目的とする。
さらに、本稿は、分散レジストリから価値を導き出す暗号資産の無形の性質と、その削除に対する抵抗が、物理メディアよりも知的財産の自律性に類似していることを指摘する。
この記事は、共通法(アメリカ合衆国、イギリス、ニュージーランド)と民法(ドイツ、オーストリア、ポーランド)の例を示す。
普遍的なソリューションの提案として、デジタルプロパティ(データ所有権)を保護する包括的なフレームワークを提唱している。
本稿では,デジタルコンテンツや仮想グッズとしてのトークン分析に対する包括的で多層的なアプローチを提案する。
このアプローチは、様々な商品に普遍的に当てはまるもので、3つの異なる層(第一に、仮想善そのものの権利、第二に、仮想善に結びついた資産の権利、第三に、トークンに複雑に関連する知的財産権の権利)で資産を精査する。
また,本論文は,仮想グッズに適用される法律規則の衝突を簡潔に分析するものである。
また、知的財産権の移転、ライセンス、最初の販売(売却)ドクトリン、合法的取得者の概念、特に新興メタバースにおける仮想財の領域における知的財産の重要な側面に関する形式的要件に関する問題にも対処している。 This article addresses the lack of comprehensive studies on Web3 technologies, primarily due to lawyers' reluctance to explore technical intricacies. Understanding the underlying technological foundations is crucial to enhance the credibility of legal opinions. This article aims to illuminate these foundations, debunk myths, and concentrate on determining the legal status of crypto-assets in the context of property rights within the distributed economy. In addition, this article notes that the intangible nature of crypto-assets that derive value from distributed registries, and their resistance to deletion, makes crypto-assets more akin to the autonomy of intellectual property than physical media. The article presents illustrative examples from common law (United States, United Kingdom, New Zealand) and civil law (Germany, Austria, Poland) systems. Proposing a universal solution, it advocates a comprehensive framework safeguarding digital property - data ownership - extending beyond the confines of Web3. This article presents a comprehensive, multi-layered approach to the analysis of tokens as digital content and virtual goods. The approach, universally applicable to various of such goods, scrutinizes property on three distinct layers: first, the rights to the virtual good itself; second, the rights to the assets linked to the virtual good; and third, the rights to the intellectual property intricately associated with the token. Additionally, the paper provides concise analysis of the conflict of laws rules applicable to virtual goods. It also delves into issues concerning formal requirements for the transfer of intellectual property rights, licensing, the first sale (exhaustion) doctrine, the concept of the lawful acquirer, and other crucial aspects of intellectual property in the realm of virtual goods, particularly within the emerging metaverse. | 翻訳日:2023-11-03 12:12:07 公開日:2023-11-02 |
# 知識蒸留による思考推論の暗黙的連鎖 Implicit Chain of Thought Reasoning via Knowledge Distillation ( http://arxiv.org/abs/2311.01460v1 ) ライセンス: Link先を確認 | Yuntian Deng, Kiran Prasad, Roland Fernandez, Paul Smolensky, Vishrav Chaudhary, Stuart Shieber | (参考訳) 推論能力を持つ言語モデルを強化するために、研究者は通常、最終的な答えを生成する前に思考推論の連鎖を生成するように促すか、あるいは微調整する。
しかしながら、人々は自然言語を効果的に推論するために利用するが、LMは自然言語にはない中間計算でより効果的に推論できるかもしれない。
本研究では、思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を用いて暗黙の推論を行う。
暗黙の推論ステップは、明示的な連鎖推論に基づいて訓練された教師モデルから蒸留され、中間語を1つずつ生成することで「水平に」推論する代わりに、異なる階層の隠れ状態の間に「垂直に」推論が起こるように蒸留する。
我々は,マルチ桁乗算課題と小学校数学問題データセットの実験を行い,この手法により,従来,明示的なチェーン・オブ・マインドなしでは解決できなかった課題を,チェーン・オブ・マインドに匹敵する速度で解くことができることを見出した。 To augment language models with the ability to reason, researchers usually prompt or finetune them to produce chain of thought reasoning steps before producing the final answer. However, although people use natural language to reason effectively, it may be that LMs could reason more effectively with some intermediate computation that is not in natural language. In this work, we explore an alternative reasoning approach: instead of explicitly producing the chain of thought reasoning steps, we use the language model's internal hidden states to perform implicit reasoning. The implicit reasoning steps are distilled from a teacher model trained on explicit chain-of-thought reasoning, and instead of doing reasoning "horizontally" by producing intermediate words one-by-one, we distill it such that the reasoning happens "vertically" among the hidden states in different layers. We conduct experiments on a multi-digit multiplication task and a grade school math problem dataset and find that this approach enables solving tasks previously not solvable without explicit chain-of-thought, at a speed comparable to no chain-of-thought. | 翻訳日:2023-11-03 12:11:36 公開日:2023-11-02 |
# プロンプトの調整:ゼロショット一般化のための分散アライメントによるテスト時間プロンプト Align Your Prompts: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization ( http://arxiv.org/abs/2311.01459v1 ) ライセンス: Link先を確認 | Jameel Hassan, Hanan Gani, Noor Hussein, Muhammad Uzair Khattak, Muzammal Naseer, Fahad Shahbaz Khan and Salman Khan | (参考訳) CLIPのような視覚言語モデルのゼロショット一般化は、多くのダウンストリームタスクに即時学習を使用することで採用されている。
以前の研究では、エントロピー最小化を用いたテスト時のプロンプトチューニングが、未認識のドメインにテキストプロンプトを適用している。
効果的ではあるが、これは未認識のドメイン -- 分散シフトに対するパフォーマンス低下の主な原因を見落としている。
本研究では,ood(out-of-distribution)テストサンプル統計をプロンプトチューニングを用いてソースデータと整合させることで,この問題を明示的に解決する。
テストドメインのギャップを埋めるために、機能分散シフトを最小化し、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,領域一般化ベンチマークに対して,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
10個のデータセットを対象とするクロスデータセットの一般化において,提案手法は既存の最先端技術と比較して,すべてのデータセットに対して一貫して改善されている。
ソースコードとモデルはhttps://jameelhassan.github.io/promptalign.com/で利用可能です。 The promising zero-shot generalization of vision-language models such as CLIP has led to their adoption using prompt learning for numerous downstream tasks. Previous works have shown test-time prompt tuning using entropy minimization to adapt text prompts for unseen domains. While effective, this overlooks the key cause for performance degradation to unseen domains -- distribution shift. In this work, we explicitly handle this problem by aligning the out-of-distribution (OOD) test sample statistics to those of the source data using prompt tuning. We use a single test sample to adapt multi-modal prompts at test time by minimizing the feature distribution shift to bridge the gap in the test domain. Evaluating against the domain generalization benchmark, our method improves zero-shot top- 1 accuracy beyond existing prompt-learning techniques, with a 3.08% improvement over the baseline MaPLe. In cross-dataset generalization with unseen categories across 10 datasets, our method improves consistently across all datasets compared to the existing state-of-the-art. Our source code and models are available at https://jameelhassan.github.io/promptalign. | 翻訳日:2023-11-03 12:11:16 公開日:2023-11-02 |
# 何も見ずにディープフェイクを検出する Detecting Deepfakes Without Seeing Any ( http://arxiv.org/abs/2311.01458v1 ) ライセンス: Link先を確認 | Tal Reiss, Bar Cavia, Yedid Hoshen | (参考訳) ディープフェイク攻撃、人を含むメディアの悪意ある操作は、社会にとって深刻な懸念である。
従来のディープフェイク検出法は、以前に遭遇したディープフェイクと実際のメディアを区別するために教師付き分類器を訓練する。
このようなテクニックは、以前見たようなディープフェイクしか検出できないが、ゼロデイ(以前は見えなかった)攻撃タイプは検出できない。
現在のディープフェイク生成技術は呼吸速度で変化しているため、新たな攻撃タイプが頻繁に提案されており、これが大きな問題となっている。
私たちの主な観察は
一 多くの効果的なディープフェイク攻撃において、偽のメディアは、その人物の身元、発言、運動又は外観に関する虚偽の事実を伴わなければならない。
例えば、オバマを偽装すると、攻撃者は明示的にまたは暗黙的に、偽のメディアがオバマを見せると主張している。
二 現在の生成技術は、攻撃者が主張する虚偽事実を完全に合成することはできない。
そこで我々は,ゼロデイディープフェイク攻撃の検出に偽ニュース検出を応用した「ファクトチェック」の概念を導入する。
事実チェックは、主張された事実(例えば、アイデンティティはオバマ)が観察されたメディアと一致していることを検証する(例えば、顔は本当にオバマのものなのか?
その結果,顔交換や音声視覚合成といった重要な攻撃環境において,ファクトチェックの実践的手法であるFACTORを導入し,その能力を実証した。
トレーニングフリーであり、既製の機能のみに依存しており、実装が非常に簡単であり、ディープフェイクは見られないが、最先端の精度よりも優れている。 Deepfake attacks, malicious manipulation of media containing people, are a serious concern for society. Conventional deepfake detection methods train supervised classifiers to distinguish real media from previously encountered deepfakes. Such techniques can only detect deepfakes similar to those previously seen, but not zero-day (previously unseen) attack types. As current deepfake generation techniques are changing at a breathtaking pace, new attack types are proposed frequently, making this a major issue. Our main observations are that: i) in many effective deepfake attacks, the fake media must be accompanied by false facts i.e. claims about the identity, speech, motion, or appearance of the person. For instance, when impersonating Obama, the attacker explicitly or implicitly claims that the fake media show Obama; ii) current generative techniques cannot perfectly synthesize the false facts claimed by the attacker. We therefore introduce the concept of "fact checking", adapted from fake news detection, for detecting zero-day deepfake attacks. Fact checking verifies that the claimed facts (e.g. identity is Obama), agree with the observed media (e.g. is the face really Obama's?), and thus can differentiate between real and fake media. Consequently, we introduce FACTOR, a practical recipe for deepfake fact checking and demonstrate its power in critical attack settings: face swapping and audio-visual synthesis. Although it is training-free, relies exclusively on off-the-shelf features, is very easy to implement, and does not see any deepfakes, it achieves better than state-of-the-art accuracy. | 翻訳日:2023-11-03 12:10:54 公開日:2023-11-02 |
# 分散シフト下におけるセンサモレータ制御のためのコンフォーマルポリシー学習 Conformal Policy Learning for Sensorimotor Control Under Distribution Shifts ( http://arxiv.org/abs/2311.01457v1 ) ライセンス: Link先を確認 | Huang Huang, Satvik Sharma, Antonio Loquercio, Anastasios Angelopoulos, Ken Goldberg, Jitendra Malik | (参考訳) 本稿では,センサ制御器のオブザーバブル分布の変化を検知し,それに対応する問題に着目する。
鍵となる考え方は、整合的量子化を入力として扱うことができるポリシーを切り替えることであり、我々は整合的ポリシー学習と定義し、ロボットが正式な統計的保証で分布シフトを検出できるようにする。
本研究では, コンフォーマル量子化を用いて, 安全性や速度など, 異なる特徴を持つ基本方針を切り替えたり, あるいは, 量子化による政策観察を直接増強したり, 強化学習で学習したりすることで, このような政策を設計する方法を示す。
理論的には、そのような政策が有限時間で公式収束を保証することを示す。
さらに,自律運転のシミュレーションと,身体的四足歩行による能動的知覚という,2つの魅力的なユースケースに対する利点と限界を徹底的に評価した。
実証的な結果は、我々のアプローチが5つのベースラインを上回ることを示している。
これは1つのアブレーション以外にベースライン戦略の最も単純なものである。
使い易く、柔軟性があり、形式的な保証があるため、不確実性下でのセンサモデレータ学習において、コンフォーメーション予測がいかに有効なツールであるかを実証する。 This paper focuses on the problem of detecting and reacting to changes in the distribution of a sensorimotor controller's observables. The key idea is the design of switching policies that can take conformal quantiles as input, which we define as conformal policy learning, that allows robots to detect distribution shifts with formal statistical guarantees. We show how to design such policies by using conformal quantiles to switch between base policies with different characteristics, e.g. safety or speed, or directly augmenting a policy observation with a quantile and training it with reinforcement learning. Theoretically, we show that such policies achieve the formal convergence guarantees in finite time. In addition, we thoroughly evaluate their advantages and limitations on two compelling use cases: simulated autonomous driving and active perception with a physical quadruped. Empirical results demonstrate that our approach outperforms five baselines. It is also the simplest of the baseline strategies besides one ablation. Being easy to use, flexible, and with formal guarantees, our work demonstrates how conformal prediction can be an effective tool for sensorimotor learning under uncertainty. | 翻訳日:2023-11-03 12:10:27 公開日:2023-11-02 |
# robogen: 生成シミュレーションによるロボットの自動学習のための無限データを解き放つ RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation ( http://arxiv.org/abs/2311.01455v1 ) ライセンス: Link先を確認 | Yufei Wang, Zhou Xian, Feng Chen, Tsun-Hsuan Wang, Yian Wang, Katerina Fragkiadaki, Zackory Erickson, David Held, Chuang Gan | (参考訳) 生成型ロボットエージェントであるRoboGenは、生成型シミュレーションにより、さまざまなロボットスキルを大規模に学習する。
RoboGenは、基礎と生成モデルの最新の進歩を活用している。
これらのモデルを直接使用したり、低レベルのアクションを生成する代わりに、我々は、これらのモデルを使用して、多種多様なタスク、シーン、トレーニングの監督を自動的に生成し、人間の監督を最小限に抑えてロボットスキル学習をスケールアップする生成スキームを提唱する。
提案手法は,ロボットエージェントに自己誘導型提案-生成-学習サイクルを付与する。エージェントはまず,開発する興味深いタスクとスキルを提案し,それに対応するシミュレーション環境を生成する。
その後、提案するハイレベルタスクをサブタスクに分解し、最適な学習アプローチ(強化学習、モーションプランニング、軌道最適化)を選択し、必要なトレーニング監督を生成し、そのスキルを取得するためのポリシーを学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
当社の完全な生成パイプラインは繰り返しクエリされ、さまざまなタスクや環境に関連するスキルデモンストレーションの無限のストリームを生成します。 We present RoboGen, a generative robotic agent that automatically learns diverse robotic skills at scale via generative simulation. RoboGen leverages the latest advancements in foundation and generative models. Instead of directly using or adapting these models to produce policies or low-level actions, we advocate for a generative scheme, which uses these models to automatically generate diversified tasks, scenes, and training supervisions, thereby scaling up robotic skill learning with minimal human supervision. Our approach equips a robotic agent with a self-guided propose-generate-learn cycle: the agent first proposes interesting tasks and skills to develop, and then generates corresponding simulation environments by populating pertinent objects and assets with proper spatial configurations. Afterwards, the agent decomposes the proposed high-level task into sub-tasks, selects the optimal learning approach (reinforcement learning, motion planning, or trajectory optimization), generates required training supervision, and then learns policies to acquire the proposed skill. Our work attempts to extract the extensive and versatile knowledge embedded in large-scale models and transfer them to the field of robotics. Our fully generative pipeline can be queried repeatedly, producing an endless stream of skill demonstrations associated with diverse tasks and environments. | 翻訳日:2023-11-03 12:10:06 公開日:2023-11-02 |
# NOIR: 神経信号で動くインテリジェントなロボット NOIR: Neural Signal Operated Intelligent Robots for Everyday Activities ( http://arxiv.org/abs/2311.01454v1 ) ライセンス: Link先を確認 | Ruohan Zhang, Sharon Lee, Minjune Hwang, Ayano Hiranaka, Chen Wang, Wensi Ai, Jin Jie Ryan Tan, Shreya Gupta, Yilun Hao, Gabrael Levine, Ruohan Gao, Anthony Norcia, Li Fei-Fei, Jiajun Wu | (参考訳) 我々は,脳信号を介してロボットに日常の活動を指示する汎用知能脳ロボットインタフェースシステムであるNeural Signal Operated Intelligent Robots(NOIR)を提案する。
このインターフェースを通じて、人間は脳波(EEG)を用いて、意図した関心や行動のオブジェクトをロボットに伝達する。
本システムでは, 料理, 清掃, パーソナルケア, エンターテイメントなど, 日常的な生活活動に挑戦する20の課題が展開されている。
システムの有効性は、ロボット学習アルゴリズムのシナジスティックな統合によって改善され、NOIRは個々のユーザーに適応し、意図を予測することができる。
私たちの仕事は、人間がロボットと対話する方法を強化し、従来のインタラクションチャネルを、直接的な神経コミュニケーションに置き換えます。
プロジェクトウェブサイト: https://noir-corl.github.io/ We present Neural Signal Operated Intelligent Robots (NOIR), a general-purpose, intelligent brain-robot interface system that enables humans to command robots to perform everyday activities through brain signals. Through this interface, humans communicate their intended objects of interest and actions to the robots using electroencephalography (EEG). Our novel system demonstrates success in an expansive array of 20 challenging, everyday household activities, including cooking, cleaning, personal care, and entertainment. The effectiveness of the system is improved by its synergistic integration of robot learning algorithms, allowing for NOIR to adapt to individual users and predict their intentions. Our work enhances the way humans interact with robots, replacing traditional channels of interaction with direct, neural communication. Project website: https://noir-corl.github.io/. | 翻訳日:2023-11-03 12:09:42 公開日:2023-11-02 |
# PPI++: 効率的な予測駆動推論 PPI++: Efficient Prediction-Powered Inference ( http://arxiv.org/abs/2311.01453v1 ) ライセンス: Link先を確認 | Anastasios N. Angelopoulos and John C. Duchi and Tijana Zrnic | (参考訳) PPI++: 小さなラベル付きデータセットと、通常より大規模な機械学習予測データセットに基づく、計算的に軽量な推定と推測手法を提案する。
これらの手法は利用可能な予測の品質に自動的に適応し、任意の次元のパラメータに対して容易に計算可能な信頼セットを得る。
PPI++は予測駆動推論(PPI)に基づいており、同じ問題設定をターゲットとし、計算効率と統計効率を改善している。
実および合成実験は、提案された適応の利点を示す。 We present PPI++: a computationally lightweight methodology for estimation and inference based on a small labeled dataset and a typically much larger dataset of machine-learning predictions. The methods automatically adapt to the quality of available predictions, yielding easy-to-compute confidence sets -- for parameters of any dimensionality -- that always improve on classical intervals using only the labeled data. PPI++ builds on prediction-powered inference (PPI), which targets the same problem setting, improving its computational and statistical efficiency. Real and synthetic experiments demonstrate the benefits of the proposed adaptations. | 翻訳日:2023-11-03 12:09:27 公開日:2023-11-02 |
# 拡散モデルを用いた時系列異常検出 Time Series Anomaly Detection using Diffusion-based Models ( http://arxiv.org/abs/2311.01452v1 ) ライセンス: Link先を確認 | Ioana Pintilie, Andrei Manolache and Florin Brad | (参考訳) 拡散モデルは画像の異常検出(AD)に最近使用されている。
本稿では,多変量時系列(MTS)上でのADにも活用できるかどうかを検討する。
2つの拡散モデルを試し、それらをいくつかの強い神経ベースラインと比較する。
また,検出しきい値と検出された点の比率Kの両方に依存しないROCK-AUCメトリックを演算することにより,PA%Kプロトコルを拡張した。
我々のモデルは, 合成データセットのベースラインよりも優れており, 多変量時系列におけるAD拡散法の可能性を示している。 Diffusion models have been recently used for anomaly detection (AD) in images. In this paper we investigate whether they can also be leveraged for AD on multivariate time series (MTS). We test two diffusion-based models and compare them to several strong neural baselines. We also extend the PA%K protocol, by computing a ROCK-AUC metric, which is agnostic to both the detection threshold and the ratio K of correctly detected points. Our models outperform the baselines on synthetic datasets and are competitive on real-world datasets, illustrating the potential of diffusion-based methods for AD in multivariate time series. | 翻訳日:2023-11-03 12:09:16 公開日:2023-11-02 |
# DreamSmooth: Reward Smoothingによるモデルベース強化学習の改善 DreamSmooth: Improving Model-based Reinforcement Learning via Reward Smoothing ( http://arxiv.org/abs/2311.01450v1 ) ライセンス: Link先を確認 | Vint Lee, Pieter Abbeel, Youngwoon Lee | (参考訳) モデルベース強化学習(MBRL)は、複雑な振る舞いをサンプル効率のよい方法で学習する能力で注目を集めている。
その成功にもかかわらず、驚くべきことに、報酬予測はMBRLのボトルネックとなることが多い。
人間が大まかな報酬推定から学べる直感に触発され、与えられた報酬の正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ、単純で効果的な報酬平滑化アプローチDreamSmoothを提案する。
dreamsmoothはdeepmind control suiteやatari benchmarksといった一般的なベンチマークのパフォーマンスを損なうことなく、サンプル効率と最終パフォーマンスの両方において、長時間ホリゾンスパースリワードタスクで最先端のパフォーマンスを達成している。 Model-based reinforcement learning (MBRL) has gained much attention for its ability to learn complex behaviors in a sample-efficient way: planning actions by generating imaginary trajectories with predicted rewards. Despite its success, we found that surprisingly, reward prediction is often a bottleneck of MBRL, especially for sparse rewards that are challenging (or even ambiguous) to predict. Motivated by the intuition that humans can learn from rough reward estimates, we propose a simple yet effective reward smoothing approach, DreamSmooth, which learns to predict a temporally-smoothed reward, instead of the exact reward at the given timestep. We empirically show that DreamSmooth achieves state-of-the-art performance on long-horizon sparse-reward tasks both in sample efficiency and final performance without losing performance on common benchmarks, such as Deepmind Control Suite and Atari benchmarks. | 翻訳日:2023-11-03 12:09:06 公開日:2023-11-02 |
# TopicGPT: プロンプトベースのトピックモデリングフレームワーク TopicGPT: A Prompt-based Topic Modeling Framework ( http://arxiv.org/abs/2311.01449v1 ) ライセンス: Link先を確認 | Chau Minh Pham, Alexander Hoyle, Simeng Sun, Mohit Iyyer | (参考訳) トピックモデリングはテキストコーパスを探索するための確立した手法である。
従来のトピックモデル(例えば、LDA)は、トピックを解釈するために「茶葉を読む」ことを必要とする単語の袋として表現する。
これらの問題に対処するため,提案するテキストコレクション内の潜在トピックを明らかにするために,大規模言語モデル(LLM)を用いたプロンプトベースのフレームワークであるTopicGPTを紹介した。
TopicGPTは、競合する手法と比較して人間の分類によく適合するトピックを生成している。例えば、最強のベースラインでは0.64に比べて、人間の注釈付きウィキペディアのトピックに対して0.74の平均純度を達成する。
そのトピックはより解釈可能で、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
さらに、このフレームワークは高度に適応可能であり、モデルの再トレーニングを必要とせずに制約を指定したりトピックを変更することができる。
topicgptは階層的なトピックモデリングにも拡張でき、ユーザーは様々なレベルの粒度のトピックを探索できる。
高品質で解釈可能なトピックへのアクセスを合理化することによって、TopicGPTは、トピックモデリングに対する魅力的な人間中心のアプローチを示す。 Topic modeling is a well-established technique for exploring text corpora. Conventional topic models (e.g., LDA) represent topics as bags of words that often require "reading the tea leaves" to interpret; additionally, they offer users minimal semantic control over topics. To tackle these issues, we introduce TopicGPT, a prompt-based framework that uses large language models (LLMs) to uncover latent topics within a provided text collection. TopicGPT produces topics that align better with human categorizations compared to competing methods: for example, it achieves a harmonic mean purity of 0.74 against human-annotated Wikipedia topics compared to 0.64 for the strongest baseline. Its topics are also more interpretable, dispensing with ambiguous bags of words in favor of topics with natural language labels and associated free-form descriptions. Moreover, the framework is highly adaptable, allowing users to specify constraints and modify topics without the need for model retraining. TopicGPT can be further extended to hierarchical topical modeling, enabling users to explore topics at various levels of granularity. By streamlining access to high-quality and interpretable topics, TopicGPT represents a compelling, human-centered approach to topic modeling. | 翻訳日:2023-11-03 12:08:40 公開日:2023-11-02 |
# UltraLiDAR:LiDARの補完と生成のためのコンパクト表現の学習 UltraLiDAR: Learning Compact Representations for LiDAR Completion and Generation ( http://arxiv.org/abs/2311.01448v1 ) ライセンス: Link先を確認 | Yuwen Xiong, Wei-Chiu Ma, Jingkang Wang, Raquel Urtasun | (参考訳) LiDARは3D世界の正確な幾何学的計測を提供する。
残念ながら、高密度のLiDARは非常に高価であり、低ビームのLiDARによって捕獲される点の雲は、しばしば希薄である。
これらの問題に対処するために、シーンレベルのLiDAR補完、LiDAR生成、LiDAR操作のためのデータ駆動フレームワークであるUltraLiDARを提案する。
UltraLiDARのクルックスは、点雲の幾何学的構造を符号化するコンパクトで離散的な表現であり、ノイズに対して堅牢であり、操作が容易である。
疎点雲の表現と密点雲の表現を整合させることにより、疎点雲を本物の高密度LiDARに捕捉されたかのように密度化することができ、コストを大幅に削減できることを示す。
さらに、離散的なコードブックで事前学習することで、自動運転のための多様で現実的なlidarポイントクラウドを生成することができる。
我々は,Sparse-to-Dense LiDARとLiDAR生成におけるUltraLiDARの有効性を評価する。
実験により,我々のアプローチによる実世界の点雲の密度化は下流認識システムの性能を著しく向上させることが示された。
従来のLiDAR生成技術と比較して、我々のアプローチはより現実的な点雲を生成する。
a/bテストによると、被験者の98.5\%以上が従来の方法よりも結果を好む。 LiDAR provides accurate geometric measurements of the 3D world. Unfortunately, dense LiDARs are very expensive and the point clouds captured by low-beam LiDAR are often sparse. To address these issues, we present UltraLiDAR, a data-driven framework for scene-level LiDAR completion, LiDAR generation, and LiDAR manipulation. The crux of UltraLiDAR is a compact, discrete representation that encodes the point cloud's geometric structure, is robust to noise, and is easy to manipulate. We show that by aligning the representation of a sparse point cloud to that of a dense point cloud, we can densify the sparse point clouds as if they were captured by a real high-density LiDAR, drastically reducing the cost. Furthermore, by learning a prior over the discrete codebook, we can generate diverse, realistic LiDAR point clouds for self-driving. We evaluate the effectiveness of UltraLiDAR on sparse-to-dense LiDAR completion and LiDAR generation. Experiments show that densifying real-world point clouds with our approach can significantly improve the performance of downstream perception systems. Compared to prior art on LiDAR generation, our approach generates much more realistic point clouds. According to A/B test, over 98.5\% of the time human participants prefer our results over those of previous methods. | 翻訳日:2023-11-03 12:08:18 公開日:2023-11-02 |
# CADSim:制御可能なセンサシミュレーションのためのロバストでスケーラブルな3次元再構成 CADSim: Robust and Scalable in-the-wild 3D Reconstruction for Controllable Sensor Simulation ( http://arxiv.org/abs/2311.01447v1 ) ライセンス: Link先を確認 | Jingkang Wang, Sivabalan Manivasagam, Yun Chen, Ze Yang, Ioan Andrei B\^arsan, Anqi Joyce Yang, Wei-Chiu Ma, Raquel Urtasun | (参考訳) 現実的なシミュレーションは、%の自動運転車の安全でスケーラブルな開発を可能にする鍵となる。
コアコンポーネントがセンサーをシミュレートして、自律システム全体をシミュレーションでテストできるようにしている。
センサシミュレーションは、車両などの交通参加者を高品質な外観と明瞭な形状でモデル化し、リアルタイムでレンダリングする。
自動運転車産業は通常、アーティストを雇ってこれらの資産を構築してきた。
しかし、これは高価で遅く、現実を反映しないかもしれない。
代わりに、野生で収集されたセンサーデータから自動的にアセットを再構築することは、現実世界をよくカバーした多様で大きなセットを生成するためのより良い道をもたらすだろう。
しかし、現在の再構築アプローチは、その広さとノイズのために、Wildのセンサーデータに苦戦している。
これらの問題に対処するため,我々はcadsimを提案する。このcadsimは,小さなcadモデルセットと微分可能なレンダリングにより,車体形状を自動的に再構築する。
提案手法は,従来の手法に比べ,スパースデータからより正確な形状を復元することを示す。
また、効率よく訓練やレンダリングを行う。
我々は、自律認識システムの正確なテストを含む、再建された車両をいくつかのアプリケーションで実演する。 Realistic simulation is key to enabling safe and scalable development of % self-driving vehicles. A core component is simulating the sensors so that the entire autonomy system can be tested in simulation. Sensor simulation involves modeling traffic participants, such as vehicles, with high quality appearance and articulated geometry, and rendering them in real time. The self-driving industry has typically employed artists to build these assets. However, this is expensive, slow, and may not reflect reality. Instead, reconstructing assets automatically from sensor data collected in the wild would provide a better path to generating a diverse and large set with good real-world coverage. Nevertheless, current reconstruction approaches struggle on in-the-wild sensor data, due to its sparsity and noise. To tackle these issues, we present CADSim, which combines part-aware object-class priors via a small set of CAD models with differentiable rendering to automatically reconstruct vehicle geometry, including articulated wheels, with high-quality appearance. Our experiments show our method recovers more accurate shapes from sparse data compared to existing approaches. Importantly, it also trains and renders efficiently. We demonstrate our reconstructed vehicles in several applications, including accurate testing of autonomy perception systems. | 翻訳日:2023-11-03 12:07:56 公開日:2023-11-02 |
# Adv3D:クローズドループシミュレーションによる安全臨界3次元物体の生成 Adv3D: Generating Safety-Critical 3D Objects through Closed-Loop Simulation ( http://arxiv.org/abs/2311.01446v1 ) ライセンス: Link先を確認 | Jay Sarva, Jingkang Wang, James Tu, Yuwen Xiong, Sivabalan Manivasagam, Raquel Urtasun | (参考訳) 自動運転車(SDV)は安全な配置を確保するために、幅広いシナリオで厳格にテストされなければならない。
業界は一般的に、SDVが合成シナリオと実際のシナリオのコーパスでどのように相互作用し、適切に動作しているかを評価するためにクローズドループシミュレーションに依存している。
しかし、それらは主にシステムの動作計画モジュールのみをテストし、振る舞いのバリエーションのみを考慮する。
クローズドループにおける完全自律システムの評価と,アクターの形状などのシーンの外観に基づくセンサデータの変動がシステムパフォーマンスに与える影響を理解することが重要である。
本稿では,実世界のシナリオを取り込んで,自律性評価のためのクローズドループセンサシミュレーションを行い,シナリオをより難しいものにする車両形状を見いだし,自律性障害と不快なsdv操作をもたらすフレームワークadv3dを提案する。
車両の屋根上や路傍に対向形を付加して知覚のみを損なう先行作品とは異なり、低次元形状表現を最適化し、車両形状自体を現実的な方法で修正し、自律性能(例えば、知覚、予測、運動計画)を低下させる。
さらに,クローズドループで最適化されたadv3dの形状変化は,オープンループの形状変化よりもはるかに有効であり,対話環境における自律性に影響を与えるシーン出現変動の探索の重要性が示された。 Self-driving vehicles (SDVs) must be rigorously tested on a wide range of scenarios to ensure safe deployment. The industry typically relies on closed-loop simulation to evaluate how the SDV interacts on a corpus of synthetic and real scenarios and verify it performs properly. However, they primarily only test the system's motion planning module, and only consider behavior variations. It is key to evaluate the full autonomy system in closed-loop, and to understand how variations in sensor data based on scene appearance, such as the shape of actors, affect system performance. In this paper, we propose a framework, Adv3D, that takes real world scenarios and performs closed-loop sensor simulation to evaluate autonomy performance, and finds vehicle shapes that make the scenario more challenging, resulting in autonomy failures and uncomfortable SDV maneuvers. Unlike prior works that add contrived adversarial shapes to vehicle roof-tops or roadside to harm perception only, we optimize a low-dimensional shape representation to modify the vehicle shape itself in a realistic manner to degrade autonomy performance (e.g., perception, prediction, and motion planning). Moreover, we find that the shape variations found with Adv3D optimized in closed-loop are much more effective than those in open-loop, demonstrating the importance of finding scene appearance variations that affect autonomy in the interactive setting. | 翻訳日:2023-11-03 12:07:37 公開日:2023-11-02 |
# 分散メタ強化学習による集合的オープンエンド探索の創発 Emergence of Collective Open-Ended Exploration from Decentralized Meta-Reinforcement Learning ( http://arxiv.org/abs/2311.00651v2 ) ライセンス: Link先を確認 | Richard Bornemann, Gautier Hamon, Eleni Nisioti, Cl\'ement Moulin-Frier | (参考訳) 近年の研究では、メタ強化学習を用いて訓練されたエージェントに複雑な協調行動が現れることが証明されている。
結果は印象的なものだが、自己組織化やその他の集中型トレーニング技術は、自然界における集団的探索戦略の全体像を正確に反映していない。
そこで本研究では,複数のエージェントがタスクのオープンエンド配布に関する独立した再帰政策をメタリードする集団的探索戦略の出現について検討する。
そこで本研究では,5種類のタスクタイプから抽出した複数のサブタスクを動的に組み合わせ,タスクツリーを広範囲に分布させるオープンエンドプロシージャ生成タスク空間を提案する。
我々の環境で訓練された分散エージェントは、テスト時に新しいオブジェクトに直面すると強い一般化能力を示す。
さらに、訓練中に決して協力せざるを得なかったにもかかわらず、エージェントは訓練中に遭遇したことのない新しい課題を解決するための集団探索戦略を学ぶ。
さらに,エージェントが集団的探索戦略をオープンエンドタスク設定まで拡張し,トレーニング中に見たタスクツリーに比べて2倍の深さのタスクツリーを解くことができたことも分かった。
当社のオープンソースコードとエージェントのビデオは、当社のコンパニオンwebサイトにある。 Recent works have proven that intricate cooperative behaviors can emerge in agents trained using meta reinforcement learning on open ended task distributions using self-play. While the results are impressive, we argue that self-play and other centralized training techniques do not accurately reflect how general collective exploration strategies emerge in the natural world: through decentralized training and over an open-ended distribution of tasks. In this work we therefore investigate the emergence of collective exploration strategies, where several agents meta-learn independent recurrent policies on an open ended distribution of tasks. To this end we introduce a novel environment with an open ended procedurally generated task space which dynamically combines multiple subtasks sampled from five diverse task types to form a vast distribution of task trees. We show that decentralized agents trained in our environment exhibit strong generalization abilities when confronted with novel objects at test time. Additionally, despite never being forced to cooperate during training the agents learn collective exploration strategies which allow them to solve novel tasks never encountered during training. We further find that the agents learned collective exploration strategies extend to an open ended task setting, allowing them to solve task trees of twice the depth compared to the ones seen during training. Our open source code as well as videos of the agents can be found on our companion website. | 翻訳日:2023-11-03 10:19:09 公開日:2023-11-02 |
# ナッシュ平衡と値を達成するためにマルコフゲームを最小限に修正する Minimally Modifying a Markov Game to Achieve Any Nash Equilibrium and Value ( http://arxiv.org/abs/2311.00582v2 ) ライセンス: Link先を確認 | Young Wu, Jeremy McMahan, Yiding Chen, Yudong Chen, Xiaojin Zhu, Qiaomin Xie | (参考訳) 本研究は,ゼロサムマルコフゲームの報奨機能を好意的ゲームデザイナーまたは好意的敵が修正することにより,目標決定論的又は確率的ポリシープロファイルがユニークなマルコフ完全ナッシュ均衡となり,目標範囲内での値を有するように修正コストを最小化するゲーム修正問題について検討する。
我々は,あるゲームのユニークな均衡としてインストール可能な一連のポリシープロファイルを特徴付け,インストール成功に必要な十分かつ必要な条件を確立する。
線形制約で凸最適化問題を解き、次にランダムな摂動を行い、ほぼ最適コストで修正計画を得る効率的なアルゴリズムを提案する。 We study the game modification problem, where a benevolent game designer or a malevolent adversary modifies the reward function of a zero-sum Markov game so that a target deterministic or stochastic policy profile becomes the unique Markov perfect Nash equilibrium and has a value within a target range, in a way that minimizes the modification cost. We characterize the set of policy profiles that can be installed as the unique equilibrium of some game, and establish sufficient and necessary conditions for successful installation. We propose an efficient algorithm, which solves a convex optimization problem with linear constraints and then performs random perturbation, to obtain a modification plan with a near-optimal cost. | 翻訳日:2023-11-03 10:18:44 公開日:2023-11-02 |
# 前立腺MRIの連続的アトラスによるセグメンテーション Continual atlas-based segmentation of prostate MRI ( http://arxiv.org/abs/2311.00548v2 ) ライセンス: Link先を確認 | Amin Ranem, Camila Gonz\'alez, Daniel Pinto dos Santos, Andreas Michael Bucher, Ahmed Ezzat Othman, Anirban Mukhopadhyay | (参考訳) 自然画像分類のための連続学習(cl)手法は、医用画像分割の基本品質基準に達しないことが多い。
アトラスに基づくセグメンテーション(Atlas-based segmentation)は、医用画像において確立されたアプローチであり、関心領域に関するドメイン知識を取り入れ、意味的に一貫性のある予測をもたらす。
これはCLにとって特に有望であり、構造情報を活用し、時間とともにモデル剛性と塑性の最適なバランスをとることができる。
プライバシ保存プロトタイプと組み合わせることで、このプロセスは患者のプライバシを損なうことなく、リハーサルベースのclの利点を提供する。
我々は,アトラスを用いたセグメンテーション手法であるAtlas Replayを提案し,トレーニング分布が変化しても整合性を維持する画像登録により,プロトタイプを用いて高品質セグメンテーションマスクを生成する。
提案手法は,7つのプレステートセグメンテーションデータセット間の知識伝達可能性の観点から,最先端のCL手法と比較してどのように機能するかを考察する。
前立腺セグメンテーションは前立腺がんの診断において重要な役割を担っているが、解剖学的変異、高齢者群の構造的相違、獲得パラメータの変動などにより課題が生じる。
その結果,atlas replayは,エンド・ツー・エンドのセグメンテーション手法とは異なり,知識を維持しつつ,未熟な領域に十分に一般化できることがわかった。
私たちのコードベースはhttps://github.com/MECLabTUDA/Atlas-Replayで利用可能です。 Continual learning (CL) methods designed for natural image classification often fail to reach basic quality standards for medical image segmentation. Atlas-based segmentation, a well-established approach in medical imaging, incorporates domain knowledge on the region of interest, leading to semantically coherent predictions. This is especially promising for CL, as it allows us to leverage structural information and strike an optimal balance between model rigidity and plasticity over time. When combined with privacy-preserving prototypes, this process offers the advantages of rehearsal-based CL without compromising patient privacy. We propose Atlas Replay, an atlas-based segmentation approach that uses prototypes to generate high-quality segmentation masks through image registration that maintain consistency even as the training distribution changes. We explore how our proposed method performs compared to state-of-the-art CL methods in terms of knowledge transferability across seven publicly available prostate segmentation datasets. Prostate segmentation plays a vital role in diagnosing prostate cancer, however, it poses challenges due to substantial anatomical variations, benign structural differences in older age groups, and fluctuating acquisition parameters. Our results show that Atlas Replay is both robust and generalizes well to yet-unseen domains while being able to maintain knowledge, unlike end-to-end segmentation methods. Our code base is available under https://github.com/MECLabTUDA/Atlas-Replay. | 翻訳日:2023-11-03 10:18:29 公開日:2023-11-02 |
# 超音節時間特徴を学習しない話者認識のためのディープニューラルネットワーク Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features ( http://arxiv.org/abs/2311.00489v2 ) ライセンス: Link先を確認 | Daniel Neururer, Volker Dellwo, Thilo Stadelmann | (参考訳) ディープニューラルネットワークは、自動話者認識と関連するタスクで印象的な結果を示しているが、これらの結果に対する正確な責任について、どの程度理解されていないかは不満である。
その成功の一部は、スペクトル的特徴に加えて、音声のリズミカル・プロソディックな特徴を学習するsst(supra-segmental temporal information)をモデル化する能力によるものである。
本稿では,
i) 話者認識のための最先端ニューラルネットワークの性能が、SSTをモデル化することによってどの程度の程度で説明できるかを定量化するための新しい試験および適用方法。
(ii)各ネットにsstをより重視させ、そのメリットを評価する手段をいくつか提示する。
話者認識のための様々なCNNおよびRNNベースのニューラルネットワークアーキテクチャは、強制してもSSTを十分な程度にモデル化していない。
本研究は,完全音声信号の活用性の向上と,そのネットワークの内部動作に関する洞察を与え,音声技術における深層学習の理解可能性を高めることを目的としている。 While deep neural networks have shown impressive results in automatic speaker recognition and related tasks, it is dissatisfactory how little is understood about what exactly is responsible for these results. Part of the success has been attributed in prior work to their capability to model supra-segmental temporal information (SST), i.e., learn rhythmic-prosodic characteristics of speech in addition to spectral features. In this paper, we (i) present and apply a novel test to quantify to what extent the performance of state-of-the-art neural networks for speaker recognition can be explained by modeling SST; and (ii) present several means to force respective nets to focus more on SST and evaluate their merits. We find that a variety of CNN- and RNN-based neural network architectures for speaker recognition do not model SST to any sufficient degree, even when forced. The results provide a highly relevant basis for impactful future research into better exploitation of the full speech signal and give insights into the inner workings of such networks, enhancing explainability of deep learning for speech technologies. | 翻訳日:2023-11-03 10:18:02 公開日:2023-11-02 |
# ロボット設計における双曲埋め込みの活用 Leveraging Hyperbolic Embeddings for Coarse-to-Fine Robot Design ( http://arxiv.org/abs/2311.00462v2 ) ライセンス: Link先を確認 | Heng Dong, Junyu Zhang, Chongjie Zhang | (参考訳) 多細胞ロボットの設計の目的は、多様なタスクを効率的に制御できる多数の細胞からなるロボットを作ることである。
これまでの研究では、さまざまなタスクのためのロボットを生成する能力が実証されてきたが、これらのアプローチは、しばしば広大なデザイン空間でロボットを直接最適化する。
そこで本研究では,多細胞ロボットを設計する手法を提案する。
まず、この戦略は最適な粗粒ロボットを探し、段階的に精製する。
本稿では,ロボット設計のための双曲組込み(herd)フレームワークを提案する。
HERDは共有双曲空間内で様々な粒度のロボットを統一し、最適化のために洗練されたクロスエントロピー法を利用する。
本手法は,双曲空間における探索領域を自律的に同定し,将来性を示す領域に集中することを可能にする。
最後に、EvoGymから得られた様々な課題に関する広範な実証研究は、我々のアプローチの優れた効率性と一般化能力を示している。 Multi-cellular robot design aims to create robots comprised of numerous cells that can be efficiently controlled to perform diverse tasks. Previous research has demonstrated the ability to generate robots for various tasks, but these approaches often optimize robots directly in the vast design space, resulting in robots with complicated morphologies that are hard to control. In response, this paper presents a novel coarse-to-fine method for designing multi-cellular robots. Initially, this strategy seeks optimal coarse-grained robots and progressively refines them. To mitigate the challenge of determining the precise refinement juncture during the coarse-to-fine transition, we introduce the Hyperbolic Embeddings for Robot Design (HERD) framework. HERD unifies robots of various granularity within a shared hyperbolic space and leverages a refined Cross-Entropy Method for optimization. This framework enables our method to autonomously identify areas of exploration in hyperbolic space and concentrate on regions demonstrating promise. Finally, the extensive empirical studies on various challenging tasks sourced from EvoGym show our approach's superior efficiency and generalization capability. | 翻訳日:2023-11-03 10:17:41 公開日:2023-11-02 |
# ゴールコンディショニングエージェントのためのオープンエンド学習問題の定義 A Definition of Open-Ended Learning Problems for Goal-Conditioned Agents ( http://arxiv.org/abs/2311.00344v2 ) ライセンス: Link先を確認 | Olivier Sigaud, Gianluca Baldassarre, Cedric Colas, Stephane Doncieux, Richard Duro, Nicolas Perrin-Gilbert, Vieri Giuliano Santucci | (参考訳) 最近の機械学習の研究論文の多くは、タイトルに"open-ended learning"がある。
しかし、その用語を使うことの意味を定義する試みはごくわずかである。
さらに悪いことに、より綿密に見ると、オープンエンド学習と継続的学習、生涯学習、オートテリック学習といった関連する概念の違いについてのコンセンサスはないようだ。
本稿では,この状況の解決に寄与する。
概念の系図と、それが本当に何を意味するのかのより最近の視点を図解した後、オープン・エンド・ラーニングは一般に多様な特性の集合を包含する複合概念として考えられていることを概説する。
これらのアプローチとは対照的に,我々は,無限の地平線上で常に新しい要素を創り出すオープンエンドプロセスの重要な基本特性を分離することを提案する。
そこで我々は,オープンディビジョン学習問題の概念を構築し,特にオープンディビジョン目標条件強化学習問題のサブセットに焦点をあてる。
最後に、私たちの基本的な定義と、発達型AI研究者が念頭に置いているであろうオープンエンドラーニングの概念とのギャップを埋めるために、まだ実行すべき作業を強調します。 A lot of recent machine learning research papers have "Open-ended learning" in their title. But very few of them attempt to define what they mean when using the term. Even worse, when looking more closely there seems to be no consensus on what distinguishes open-ended learning from related concepts such as continual learning, lifelong learning or autotelic learning. In this paper, we contribute to fixing this situation. After illustrating the genealogy of the concept and more recent perspectives about what it truly means, we outline that open-ended learning is generally conceived as a composite notion encompassing a set of diverse properties. In contrast with these previous approaches, we propose to isolate a key elementary property of open-ended processes, which is to always produce novel elements from time to time over an infinite horizon. From there, we build the notion of open-ended learning problems and focus in particular on the subset of open-ended goal-conditioned reinforcement learning problems, as this framework facilitates the definition of learning a growing repertoire of skills. Finally, we highlight the work that remains to be performed to fill the gap between our elementary definition and the more involved notions of open-ended learning that developmental AI researchers may have in mind. | 翻訳日:2023-11-03 10:17:26 公開日:2023-11-02 |
# JADE:LLMのための言語ベースの安全評価プラットフォーム JADE: A Linguistics-based Safety Evaluation Platform for LLM ( http://arxiv.org/abs/2311.00286v2 ) ライセンス: Link先を確認 | Mi Zhang and Xudong Pan and Min Yang | (参考訳) 本稿では, シード質問の言語的複雑さを強化し, 広範に使用されているLLMを, オープンソース中国語8種, 商用中国語6種, 商用英語4種に分類し, 同時に一貫的に破壊する言語ファジリングプラットフォームであるJADEを提案する。
質問は同時に複数のLSMの有害な生成を誘発し、平均的な安全でない生成比は$70\%$(下表を参照)であるが、依然として自然の質問であり、コアの安全でないセマンティクスは流動的で保存されている。
我々は、商用のLLMとオープンソースのLLM向けに生成されたベンチマークデモを、以下のリンクでリリースする。
JADEによって生成されたより多くの質問を評価することに興味がある読者には、ご連絡ください。
JADEはノーム・チョムスキーの変質生成文法の理論に基づいている。
シード質問が安全でない意図で与えられると、JADEは、安全ガードレールが壊れるまで、元の質問の構文構造の複雑さを増すために、生成規則と変換規則のシーケンスを起動する。
我々の重要な洞察は: 人間の言語の複雑さのため、現在の最高のLLMのほとんどは、完全にカバーできない無制限の例空間を形成する無限の異なる構文構造から、不変の悪をほとんど認識できない。
技術的には、生成/変換規則は言語のネイティブな話者によって構築され、一旦開発されていれば、ガードレールが壊れるまで、ある質問のパースツリーを自動成長させ変換するのに使うことができる。
さらなる評価結果とデモについては、Webサイトを参照してください。 In this paper, we present JADE, a targeted linguistic fuzzing platform which strengthens the linguistic complexity of seed questions to simultaneously and consistently break a wide range of widely-used LLMs categorized in three groups: eight open-sourced Chinese, six commercial Chinese and four commercial English LLMs. JADE generates three safety benchmarks for the three groups of LLMs, which contain unsafe questions that are highly threatening: the questions simultaneously trigger harmful generation of multiple LLMs, with an average unsafe generation ratio of $70\%$ (please see the table below), while are still natural questions, fluent and preserving the core unsafe semantics. We release the benchmark demos generated for commercial English LLMs and open-sourced English LLMs in the following link: https://github.com/whitzard-ai/jade-db. For readers who are interested in evaluating on more questions generated by JADE, please contact us. JADE is based on Noam Chomsky's seminal theory of transformational-generative grammar. Given a seed question with unsafe intention, JADE invokes a sequence of generative and transformational rules to increment the complexity of the syntactic structure of the original question, until the safety guardrail is broken. Our key insight is: Due to the complexity of human language, most of the current best LLMs can hardly recognize the invariant evil from the infinite number of different syntactic structures which form an unbound example space that can never be fully covered. Technically, the generative/transformative rules are constructed by native speakers of the languages, and, once developed, can be used to automatically grow and transform the parse tree of a given question, until the guardrail is broken. For more evaluation results and demo, please check our website: https://whitzard-ai.github.io/jade.html. | 翻訳日:2023-11-03 10:17:04 公開日:2023-11-02 |
# OpenForest:森林モニタリングにおける機械学習のためのデータカタログ OpenForest: A data catalogue for machine learning in forest monitoring ( http://arxiv.org/abs/2311.00277v2 ) ライセンス: Link先を確認 | Arthur Ouaknine, Teja Kattenborn, Etienne Lalibert\'e, David Rolnick | (参考訳) 森林は地球のシステムプロセスにおいて重要な役割を担い、社会と経済の生態系の一連のサービスを提供しているが、人間の活動に大きく影響され、生態系内の均衡が著しく崩壊する。
世界規模での森林モニタリングの進歩は、気候変動の影響とともに、人的影響の緩和と森林構成の理解の強化に利点をもたらす。
統計モデリングは伝統的に森林生物学に応用されてきたが、最近の機械学習とコンピュータビジョンの進歩は、樹種識別、樹冠分割、森林バイオマス評価などのリモートセンシングデータを用いて重要なマイルストーンに達した。
そのため、オープンアクセスデータの重要さは、このようなデータ駆動型アルゴリズムと方法論の強化に不可欠である。
ここでは,86のオープンアクセスフォレストデータセットを包括的かつ広範囲に概観し,目録,地上情報,航空情報,衛星データ,国・世界地図について概観する。
これらのデータセットは、すべての利用可能なオープンアクセスフォレストデータセットを参照しようとするコントリビューションにオープンな動的カタログであるOpenForestにグループ化されている。
さらに,これらのデータセットの文脈において,両領域に固有のトピック,視点,課題の関連性を確立することにより,森林生物学に応用された機械学習の研究を刺激することを目的とする。
大規模森林モニタリングへの機械学習手法の適用を通じて、科学者間のコラボレーションを奨励し、多様なデータセットの共有と探索を促進したいと考えています。
OpenForestはhttps://github.com/RolnickLab/OpenForestで入手できる。 Forests play a crucial role in Earth's system processes and provide a suite of social and economic ecosystem services, but are significantly impacted by human activities, leading to a pronounced disruption of the equilibrium within ecosystems. Advancing forest monitoring worldwide offers advantages in mitigating human impacts and enhancing our comprehension of forest composition, alongside the effects of climate change. While statistical modeling has traditionally found applications in forest biology, recent strides in machine learning and computer vision have reached important milestones using remote sensing data, such as tree species identification, tree crown segmentation and forest biomass assessments. For this, the significance of open access data remains essential in enhancing such data-driven algorithms and methodologies. Here, we provide a comprehensive and extensive overview of 86 open access forest datasets across spatial scales, encompassing inventories, ground-based, aerial-based, satellite-based recordings, and country or world maps. These datasets are grouped in OpenForest, a dynamic catalogue open to contributions that strives to reference all available open access forest datasets. Moreover, in the context of these datasets, we aim to inspire research in machine learning applied to forest biology by establishing connections between contemporary topics, perspectives and challenges inherent in both domains. We hope to encourage collaborations among scientists, fostering the sharing and exploration of diverse datasets through the application of machine learning methods for large-scale forest monitoring. OpenForest is available at https://github.com/RolnickLab/OpenForest . | 翻訳日:2023-11-03 10:16:15 公開日:2023-11-02 |
# ビジネスおよびIT可観測データに基づく多変量時系列予測の改善のためのAutoMixer AutoMixer for Improved Multivariate Time-Series Forecasting on Business and IT Observability Data ( http://arxiv.org/abs/2310.20280v2 ) ライセンス: Link先を確認 | Santosh Palaskar, Vijay Ekambaram, Arindam Jati, Neelamadhav Gantayat, Avirup Saha, Seema Nagar, Nam H. Nguyen, Pankaj Dayama, Renuka Sindhgatta, Prateeti Mohapatra, Harshit Kumar, Jayant Kalagnanam, Nandyala Hemachandra, Narayan Rangaraj | (参考訳) ビジネスプロセスの効率性はビジネスキーのパフォーマンス指標(Biz-KPI)に依存します。
ビジネスおよびIT可観測性(BizITObs)データは、Biz-KPIとITイベントチャネルを多変量時系列データとして融合する。
前もってBiz-KPIを予測することは、積極的な補正措置によって効率と収益を高めることができる。
しかし、BizITObsのデータは一般的に、効果的に分離する必要があるBiz-KPIとITイベントの間のチャネル間の有用な相互作用とノイズの両方を示す。
これにより、既存の多変量予測モデルを用いる場合の最適下予測性能が向上する。
そこで我々は,チャネル圧縮プレトレインおよびファインチューンワークフローの新たな技術に基づいて,時系列ファウンデーションモデル(FM)アプローチであるAutoMixerを紹介する。
AutoMixerはチャネル圧縮プレトレーニングにAutoEncoderを活用し、マルチ変数時系列予測のための高度なTSMixerモデルと統合する。
この融合により、正確な予測のためのTSMixerの有効性が大幅に向上し、下流のタスクをうまく一般化する。
詳細な実験とダッシュボード分析を通じて、行動可能なビジネスインサイトに直接変換するBiz-KPIの予測精度(11~15\%)を一貫して改善するAutoMixerの機能を示す。 The efficiency of business processes relies on business key performance indicators (Biz-KPIs), that can be negatively impacted by IT failures. Business and IT Observability (BizITObs) data fuses both Biz-KPIs and IT event channels together as multivariate time series data. Forecasting Biz-KPIs in advance can enhance efficiency and revenue through proactive corrective measures. However, BizITObs data generally exhibit both useful and noisy inter-channel interactions between Biz-KPIs and IT events that need to be effectively decoupled. This leads to suboptimal forecasting performance when existing multivariate forecasting models are employed. To address this, we introduce AutoMixer, a time-series Foundation Model (FM) approach, grounded on the novel technique of channel-compressed pretrain and finetune workflows. AutoMixer leverages an AutoEncoder for channel-compressed pretraining and integrates it with the advanced TSMixer model for multivariate time series forecasting. This fusion greatly enhances the potency of TSMixer for accurate forecasts and also generalizes well across several downstream tasks. Through detailed experiments and dashboard analytics, we show AutoMixer's capability to consistently improve the Biz-KPI's forecasting accuracy (by 11-15\%) which directly translates to actionable business insights. | 翻訳日:2023-11-03 10:15:50 公開日:2023-11-02 |
# 勾配流をもつガウス型マルチインデックスモデルの学習について On Learning Gaussian Multi-index Models with Gradient Flow ( http://arxiv.org/abs/2310.19793v2 ) ライセンス: Link先を確認 | Alberto Bietti, Joan Bruna and Loucas Pillaud-Vivien | (参考訳) 高次元ガウスデータに対するマルチインデックス回帰問題における勾配流れについて検討する。
マルチインデックス関数は、未知の低ランク線形射影と任意の未知の低次元リンク関数からなる。
そのため、ニューラルネットワークにおける特徴学習の自然なテンプレートを構成する。
低階射影をパラメトリする部分空間よりも、非パラメトリックモデルで低次元リンク関数を無限に高速に学習する2時間スケールのアルゴリズムを考える。
部分空間相関行列上で生じる行列半群構造を適切に活用することにより、結果として生じるグラスマン人口勾配流れのグローバル収束を確立し、関連する「サドル・ツー・サドル」ダイナミクスの定量的記述を提供する。
特に、各サドルに関連する時間スケールは、ターゲットリンク関数の適切なエルミート分解の観点から明確に特徴づけることができる。
これらのポジティブな結果とは対照的に、リンク関数が知られ固定されている場合の関連する \emph{planted} 問題は、実際には勾配流れのダイナミクスが高い確率で捕捉されるような大まかな最適化のランドスケープを持っていることも示している。 We study gradient flow on the multi-index regression problem for high-dimensional Gaussian data. Multi-index functions consist of a composition of an unknown low-rank linear projection and an arbitrary unknown, low-dimensional link function. As such, they constitute a natural template for feature learning in neural networks. We consider a two-timescale algorithm, whereby the low-dimensional link function is learnt with a non-parametric model infinitely faster than the subspace parametrizing the low-rank projection. By appropriately exploiting the matrix semigroup structure arising over the subspace correlation matrices, we establish global convergence of the resulting Grassmannian population gradient flow dynamics, and provide a quantitative description of its associated `saddle-to-saddle' dynamics. Notably, the timescales associated with each saddle can be explicitly characterized in terms of an appropriate Hermite decomposition of the target link function. In contrast with these positive results, we also show that the related \emph{planted} problem, where the link function is known and fixed, in fact has a rough optimization landscape, in which gradient flow dynamics might get trapped with high probability. | 翻訳日:2023-11-03 10:15:30 公開日:2023-11-02 |
# 物理視聴覚コモンセンス推論のための不連続反事実学習 Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning ( http://arxiv.org/abs/2310.19559v2 ) ライセンス: Link先を確認 | Changsheng Lv and Shuai Zhang and Yapeng Tian and Mengshi Qi and Huadong Ma | (参考訳) 本稿では,物理視聴覚コモンセンス推論のためのdcl(disentangleed counterfactual learning)アプローチを提案する。
このタスクは、ビデオとオーディオの両方の入力に基づいて物体の物理常識を推論することを目的としており、主な課題は人間の推論能力を模倣する方法である。
現在の手法のほとんどは、マルチモーダルデータにおける異なる特徴を十分に活用できず、モデルの因果推論能力の欠如は、暗黙の物理的知識の推論の進歩を妨げる。
これらの問題に対処するために,本提案手法では,可変オートエンコーダ (vae) を応用し,相互情報をコントラスト損失関数で最大化する不連続シーケンシャルエンコーダ (disentangled sequential encoder) による潜在空間内の静的(時間不変)および動的(時変)要素に映像を分離する。
さらに,異なる物体間の物理的知識関係のモデル化により,モデルの推論能力を増強する対実的学習モジュールを導入する。
提案手法は,任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
実験では,提案手法はベースライン法を改良し,最先端の性能を実現する。
ソースコードはhttps://github.com/andy20178/dclで入手できます。 In this paper, we propose a Disentangled Counterfactual Learning~(DCL) approach for physical audiovisual commonsense reasoning. The task aims to infer objects' physics commonsense based on both video and audio input, with the main challenge is how to imitate the reasoning ability of humans. Most of the current methods fail to take full advantage of different characteristics in multi-modal data, and lacking causal reasoning ability in models impedes the progress of implicit physical knowledge inferring. To address these issues, our proposed DCL method decouples videos into static (time-invariant) and dynamic (time-varying) factors in the latent space by the disentangled sequential encoder, which adopts a variational autoencoder (VAE) to maximize the mutual information with a contrastive loss function. Furthermore, we introduce a counterfactual learning module to augment the model's reasoning ability by modeling physical knowledge relationships among different objects under counterfactual intervention. Our proposed method is a plug-and-play module that can be incorporated into any baseline. In experiments, we show that our proposed method improves baseline methods and achieves state-of-the-art performance. Our source code is available at https://github.com/Andy20178/DCL. | 翻訳日:2023-11-03 10:15:12 公開日:2023-11-02 |
# ニューラルエミュレータを用いたサブグリッドスケールダイナミックスのグラディエントフリーオンライン学習 Gradient-free online learning of subgrid-scale dynamics with neural emulators ( http://arxiv.org/abs/2310.19385v2 ) ライセンス: Link先を確認 | Hugo Frezat, Ronan Fablet, Guillaume Balarac, Julien Le Sommer | (参考訳) 本稿では,非微分型数値解法に対する$\textit{a posteriori}$損失関数を用いて,オンライン上で機械学習に基づくサブグリッドパラメータ化を学習する汎用アルゴリズムを提案する。
提案手法では, ニューラルネットワークを用いて, 時間積分ステップによる勾配伝播を可能にするために, 低減状態空間ソルバの近似を学習する。
このアルゴリズムは、元の解法の勾配を計算することなく、オンライン戦略の利点のほとんどを回復することができる。
近似バイアスの伝播を最小化するために,各損失量と神経エミュレータとパラメトリゼーション成分を別々に訓練する必要があることを実証した。 In this paper, we propose a generic algorithm to train machine learning-based subgrid parametrizations online, i.e., with $\textit{a posteriori}$ loss functions for non-differentiable numerical solvers. The proposed approach leverage neural emulators to train an approximation of the reduced state-space solver, which is then used to allows gradient propagation through temporal integration steps. The algorithm is able to recover most of the benefit of online strategies without having to compute the gradient of the original solver. It is demonstrated that training the neural emulator and parametrization components separately with respective loss quantities is necessary in order to minimize the propagation of some approximation bias. | 翻訳日:2023-11-03 10:14:48 公開日:2023-11-02 |
# 不均一相互作用をもつ量子スピン鎖の固有状態熱化とその分解 Eigenstate Thermalization and its breakdown in Quantum Spin Chains with Inhomogeneous Interactions ( http://arxiv.org/abs/2310.19333v2 ) ライセンス: Link先を確認 | Ding-Zu Wang, Hao Zhu, Jian Cui, Javier Arg\"uello-Luengo, Maciej Lewenstein, Guo-Feng Zhang, Piotr Sierant, Shi-Ju Ran | (参考訳) 固有状態熱化仮説 (ETH) は、孤立量子多体系におけるエルゴディディティと熱化の基準を確立する成功理論である。
本研究では,線形不斉相互作用を持つスピン-1/2$ xxz鎖の熱化特性について検討する。
不均質な相互作用の導入は、量子カオスと熱化の開始に繋がるが、十分に強い不均一性のために阻害される。
ETHを発現させ,相互作用の強度の変化による分解を示すため,不均一なXXZスピン鎖の固有状態における局所可観測体の行列要素のエネルギーレベルと特性の統計を探索する。
さらに, エンタングルメントエントロピーの力学と生存確率について検討し, 熱化とその破壊を考察した。
超低温原子系における線形不均一相互作用でXXZ鎖を実験的に実現する方法を概説する。
以上の結果から,不均一性の挿入によるETHの出現機構が明らかとなり,強い相互作用が存在する場合の量子力学の停止が示唆された。 The eigenstate thermalization hypothesis (ETH) is a successful theory that establishes the criteria for ergodicity and thermalization in isolated quantum many-body systems. In this work, we investigate the thermalization properties of spin-$ 1/2 $ XXZ chain with linearly-inhomogeneous interactions. We demonstrate that introduction of the inhomogeneous interactions leads to an onset of quantum chaos and thermalization, which, however, becomes inhibited for sufficiently strong inhomogeneity. To exhibit ETH, and to display its breakdown upon varying the strength of interactions, we probe statistics of energy levels and properties of matrix elements of local observables in eigenstates of the inhomogeneous XXZ spin chain. Moreover, we investigate the dynamics of the entanglement entropy and the survival probability which further evidence the thermalization and its breakdown in the considered model. We outline a way to experimentally realize the XXZ chain with linearly-inhomogeneous interactions in systems of ultracold atoms. Our results highlight a mechanism of emergence of ETH due to insertion of inhomogeneities in an otherwise integrable system and illustrate the arrest of quantum dynamics in presence of strong interactions. | 翻訳日:2023-11-03 10:14:35 公開日:2023-11-02 |
# 大規模テキスト・画像モデルにおける不適切なステレオタイプ検出のための言語エージェント Language Agents for Detecting Implicit Stereotypes in Text-to-image Models at Scale ( http://arxiv.org/abs/2310.11778v3 ) ライセンス: Link先を確認 | Qichao Wang, Tian Bian, Yian Yin, Tingyang Xu, Hong Cheng, Helen M. Meng, Zibin Zheng, Liang Chen, Bingzhe Wu | (参考訳) 最近の拡散モデルの研究の急増は、様々な人工知能生成コンテンツ(aigc)製品におけるテキストから画像へのモデルの採用を加速させた。
これらの例外的なaigc製品は、消費者の認知と熱意の高まりを招いているが、これらのモデルが既存の社会ステレオタイプを意図せず強化するかどうか、いつ、そしてどのように疑問を抱いている。
近年の言語エージェントの進歩に触発され,テキストから画像へのステレオタイプ検出に適した新しいエージェントアーキテクチャを導入する。
この多用途エージェントアーキテクチャは、フリーフォーム検出タスクを収容することができ、対応する命令や画像の生成からステレオタイプの検出まで、プロセス全体を容易にするための様々なツールを自律的に呼び出すことができる。
我々は,複数のオープンテキストデータセットに基づくステレオタイプ対応ベンチマークを構築し,このアーキテクチャを商用製品や一般的なオープンソースのテキスト・ツー・イメージモデルに適用する。
これらのモデルは、個人的特徴、社会的文化的文脈、犯罪関連側面に関する特定のプロンプトに関して、深刻なステレオタイプを示すことが多い。
要約すると、これらの経験的発見は、ジェンダー、人種、宗教を含む社会次元にまたがるステレオタイプの存在を浮き彫りにして、提案手法の有効性を検証するだけでなく、AIGCの急成長する領域における潜在的な倫理的リスクに対処する上で重要な必要性を強調している。
aigcは急速に拡大を続け、新しいモデルとプラグインが日々驚くべき数で出現するにつれ、これらのモデル内の潜在的なバイアスをタイムリーに検出し緩和することが課題となっている。 The recent surge in the research of diffusion models has accelerated the adoption of text-to-image models in various Artificial Intelligence Generated Content (AIGC) commercial products. While these exceptional AIGC products are gaining increasing recognition and sparking enthusiasm among consumers, the questions regarding whether, when, and how these models might unintentionally reinforce existing societal stereotypes remain largely unaddressed. Motivated by recent advancements in language agents, here we introduce a novel agent architecture tailored for stereotype detection in text-to-image models. This versatile agent architecture is capable of accommodating free-form detection tasks and can autonomously invoke various tools to facilitate the entire process, from generating corresponding instructions and images, to detecting stereotypes. We build the stereotype-relevant benchmark based on multiple open-text datasets, and apply this architecture to commercial products and popular open source text-to-image models. We find that these models often display serious stereotypes when it comes to certain prompts about personal characteristics, social cultural context and crime-related aspects. In summary, these empirical findings underscore the pervasive existence of stereotypes across social dimensions, including gender, race, and religion, which not only validate the effectiveness of our proposed approach, but also emphasize the critical necessity of addressing potential ethical risks in the burgeoning realm of AIGC. As AIGC continues its rapid expansion trajectory, with new models and plugins emerging daily in staggering numbers, the challenge lies in the timely detection and mitigation of potential biases within these models. | 翻訳日:2023-11-03 10:14:16 公開日:2023-11-02 |
# 未特定視覚課題におけるショートカットの緩和のための拡散不整合表現の活用 Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts in Underspecified Visual Tasks ( http://arxiv.org/abs/2310.02230v4 ) ライセンス: Link先を確認 | Luca Scimeca, Alexander Rubinstein, Armand Mihai Nicolicioiu, Damien Teney and Yoshua Bengio | (参考訳) 複数の手がかりがターゲットラベルを予測しているデータにおける散発的な相関は、しばしば近距離学習現象につながり、モデルが信頼できるものを無視しながら、誤った、分かりやすい手がかりに依存する可能性がある。
本研究では,拡散確率モデル(dpms)を用いた合成反事実生成を利用したアンサンブル多様化フレームワークを提案する。
DPMは、トレーニングデータに大きく相関している場合でも、複数の視覚的手がかりを独立して表現できる固有の能力を持っていることがわかった。
この特徴を利用して、モデルの多様性を奨励し、いくつかの多様化目標に対するアプローチの有効性を実証的に示す。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成できることを示す。 Spurious correlations in the data, where multiple cues are predictive of the target labels, often lead to shortcut learning phenomena, where a model may rely on erroneous, easy-to-learn, cues while ignoring reliable ones. In this work, we propose an ensemble diversification framework exploiting the generation of synthetic counterfactuals using Diffusion Probabilistic Models (DPMs). We discover that DPMs have the inherent capability to represent multiple visual cues independently, even when they are largely correlated in the training data. We leverage this characteristic to encourage model diversity and empirically show the efficacy of the approach with respect to several diversification objectives. We show that diffusion-guided diversification can lead models to avert attention from shortcut cues, achieving ensemble diversity performance comparable to previous methods requiring additional data collection. | 翻訳日:2023-11-03 10:13:46 公開日:2023-11-02 |