このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231012となっている論文です。

PDF登録状況(公開日: 20231012)

TitleAuthorsAbstract論文公表日・翻訳日
# 暗号ライブラリにおけるサイドチャネル脆弱性検出自動化ツールの体系的評価

A Systematic Evaluation of Automated Tools for Side-Channel Vulnerabilities Detection in Cryptographic Libraries ( http://arxiv.org/abs/2310.08153v1 )

ライセンス: Link先を確認
Antoine Geimer, Mathéo Vergnolle, Frédéric Recoules, Lesly-Ann Daniel, Sébastien Bardin, Clémentine Maurice, (参考訳) 暗号実装をサイドチャネルの脆弱性から保護するためには、開発者は定時プログラミングプラクティスを採用する必要がある。 エラーが発生しやすいため、多くのサイドチャネル検出ツールが提案されている。 それにもかかわらず、このような脆弱性はいまだに暗号化ライブラリに手作業で発見されている。 Jancar氏らによる最近の論文では、開発者はサイドチャネル検出をめったに行わないが、既存の検出ツールがこれらの脆弱性を最初に発見できたかどうかは不明だ。 この問いに答えるために、文献を調査し、34のサイドチャネル検出フレームワークの分類を構築した。 提案する分類では,使用方法,分析のスケーラビリティ,検討対象の脅威モデルなど,複数の基準を比較した。 次に、5つの有望な検出ツールの選択に基づいて、代表暗号操作の統一的な共通ベンチマークを構築した。 このベンチマークにより、各ツールの機能と、その分析のスケーラビリティをよりよく比較できます。 さらに、最近公開されたサイドチャネル脆弱性の分類も提供する。 次に、選択したツールをベンチマークでテストし、これらの脆弱性のサブセットとそれらが現れるコンテキストを再現します。 既存のツールでは,SIMD命令のサポートの欠如,暗黙のフロー,内部シークレット生成など,さまざまな理由から脆弱性を見つけるのに苦労しています。 本研究は,研究コミュニティと暗号ライブラリ開発者を対象に,サイドチャネル検出ツールの有効性向上を目的とした一連のレコメンデーションを開発する。

To protect cryptographic implementations from side-channel vulnerabilities, developers must adopt constant-time programming practices. As these can be error-prone, many side-channel detection tools have been proposed. Despite this, such vulnerabilities are still manually found in cryptographic libraries. While a recent paper by Jancar et al. shows that developers rarely perform side-channel detection, it is unclear if existing detection tools could have found these vulnerabilities in the first place. To answer this question, we surveyed the literature to build a classification of 34 side-channel detection frameworks. The classification we offer compares multiple criteria, including the methods used, the scalability of the analysis or the threat model considered. We then built a unified common benchmark of representative cryptographic operations on a selection of 5 promising detection tools. This benchmark allows us to better compare the capabilities of each tool, and the scalability of their analysis. Additionally, we offer a classification of recently published side-channel vulnerabilities. We then test each of the selected tools on benchmarks reproducing a subset of these vulnerabilities as well as the context in which they appear. We find that existing tools can struggle to find vulnerabilities for a variety of reasons, mainly the lack of support for SIMD instructions, implicit flows, and internal secret generation. Based on our findings, we develop a set of recommendations for the research community and cryptographic library developers, with the goal to improve the effectiveness of side-channel detection tools.
翻訳日:2024-03-19 02:33:12 公開日:2023-10-12
# プライバシ質問回答アシスタントによるデータプライバシに関するブラインドと低ビジョンユーザへのインフォーム方法の理解

Understanding How to Inform Blind and Low-Vision Users about Data Privacy through Privacy Question Answering Assistants ( http://arxiv.org/abs/2310.08687v1 )

ライセンス: Link先を確認
Yuanyuan Feng, Abhilasha Ravichander, Yaxing Yao, Shikun Zhang, Rex Chen, Shomir Wilson, Norman Sadeh, (参考訳) デジタル世界でデータプライバシを理解し、管理することは、視覚障害者(BLV)ユーザだけでなく、視覚障害者にとっても難しい。 特別なアクセシビリティを必要とするBLVユーザ、データプライバシのナビゲート、潜在的なプライバシツールがそれらを支援する方法については、限定的な研究がなされている。 我々は、21人のBLV参加者と詳細な質的研究を行い、データプライバシーに関する情報行動だけでなく、データプライバシーの認識と緩和について理解した。 また、データプライバシ情報のナビゲートをより良くするための、潜在的なプライバシ質問応答(Q&A)アシスタントに対するBLVユーザの態度についても検討した。 BLVユーザはセキュリティとプライバシのリスクが高くなるが、リスク軽減は不十分であることが多い。 データプライバシ情報を求める必要はないが、潜在的なプライバシQ&Aアシスタントのメリットを明確に認識している。 彼らはまた、プライバシQ&Aアシスタントがクロスプラットフォーム互換性を持ち、マルチモダリティをサポートし、堅牢な機能を示すことを期待している。 我々の研究は、ユーザビリティ、アクセシビリティ、信頼、およびデジタルデータのプライバシに関する株式問題に関して、BLVユーザの期待に光を当てています。

Understanding and managing data privacy in the digital world can be challenging for sighted users, let alone blind and low-vision (BLV) users. There is limited research on how BLV users, who have special accessibility needs, navigate data privacy, and how potential privacy tools could assist them. We conducted an in-depth qualitative study with 21 US BLV participants to understand their data privacy risk perception and mitigation, as well as their information behaviors related to data privacy. We also explored BLV users' attitudes towards potential privacy question answering (Q&A) assistants that enable them to better navigate data privacy information. We found that BLV users face heightened security and privacy risks, but their risk mitigation is often insufficient. They do not necessarily seek data privacy information but clearly recognize the benefits of a potential privacy Q&A assistant. They also expect privacy Q&A assistants to possess cross-platform compatibility, support multi-modality, and demonstrate robust functionality. Our study sheds light on BLV users' expectations when it comes to usability, accessibility, trust and equity issues regarding digital data privacy.
翻訳日:2024-03-19 02:33:12 公開日:2023-10-12
# ブラウザフィンガープリントの特徴と軽減

Characterizing Browser Fingerprinting and its Mitigations ( http://arxiv.org/abs/2311.12197v1 )

ライセンス: Link先を確認
Alisha Ukani, (参考訳) ユーザのブラウザ履歴の再構築が機密情報を明らかにするため、特に広告会社がWebサイトを横断的に追跡する方法(クロスサイトトラッキングと呼ばれるプラクティス)について、オンラインプライバシに対する関心がますます高まっている。 一般データ保護規則(GDPR)やカリフォルニア州消費者プライバシ法(California Consumer Privacy Act)のような最近の法律は、サードパーティがクロスサイト追跡を行う範囲を制限しようとしている。 しかし、オンライン広告会社はクッキーに依存しない他のメカニズムを通じてユーザーを追跡し続けている。 この研究は、ブラウザのフィンガープリントという、トラッキング技術の1つを探求している。 ブラウザのフィンガープリントの仕組み、それがどの程度普及しているか、どんな防御効果を軽減できるか、などについて詳述する。

People are becoming increasingly concerned with their online privacy, especially with how advertising companies track them across websites (a practice called cross-site tracking), as reconstructing a user's browser history can reveal sensitive information. Recent legislation like the General Data Protection Regulation (GDPR) and the California Consumer Privacy Act have tried to limit the extent to which third parties perform cross-site tracking, and browsers have also made tracking more difficult by deprecating the most-common tracking mechanism: third-party cookies. However, online advertising companies continue to track users through other mechanisms that do not rely on cookies. This work explores one of these tracking techniques: browser fingerprinting. We detail how browser fingerprinting works, how prevalent it is, and what defenses can mitigate it.
翻訳日:2024-03-18 15:51:52 公開日:2023-10-12
# DCT特徴とPCNN構造に基づく新しいデフォーカス・ブル領域検出手法

A Novel Defocus-Blur Region Detection Approach Based on DCT Feature and PCNN Structure ( http://arxiv.org/abs/2311.12845v1 )

ライセンス: Link先を確認
Sadia Basar, Mushtaq Ali, Abdul Waheed, Muneer Ahmad and Mahdi H. Miraz(参考訳) デジタル画像における動きや焦点のずれの影響は、焦点がずれた画像のぼやけた領域の主な原因である。 テクスチャ、ピクセル、領域といった様々な画像特徴に悪影響を及ぼす可能性がある。 したがって、ぼやけた領域と非ぼやけた領域のセグメンテーション後、ぼやけた画像中の被写体を検出することが重要である。 最先端技術はノイズの多いピクセルに傾向があり、セグメンテーションメトリクスを開発するためのローカル記述子も複雑である。 そこで本研究では,離散コサイン変換(dct)係数とpcニューラルネット(pcnn)構造に基づく新しいハイブリッド型検出手法を提案する。 提案手法は,既存のコントラストスキームの制約を部分的に解決し,デフォーカスデータセットの領域外から焦点内滑らかな物体を検出する。 視覚的・定量的評価は,提案手法が参照アルゴリズムの精度と効率の面で優れていることを示す。 提案されたZhaoのデータセットに対するアプローチの最高スコアは0.7940であり、Shiのデータセットは0.9178である。

The motion or out-of-focus effect in digital images is the main reason for the blurred regions in defocused-blurred images. It may adversely affect various image features such as texture, pixel, and region. Therefore, it is important to detect in-focused objects in defocused-blurred images after the segmentation of blurred and non-blurred regions. The state-of-the-art techniques are prone to noisy pixels, and their local descriptors for developing segmentation metrics are also complex. To address these issues, this research, therefore, proposed a novel and hybrid-focused detection approach based on Discrete Cosine Transform (DCT) coefficients and PC Neural Net (PCNN) structure. The proposed approach partially resolves the limitations of the existing contrast schemes to detect in-focused smooth objects from the out-of-focused smooth regions in the defocus dataset. The visual and quantitative evaluation illustrates that the proposed approach outperformed in terms of accuracy and efficiency to referenced algorithms. The highest F-score of the proposed approach on Zhao's dataset is 0.7940 whereas on Shi's dataset is 0.9178.
翻訳日:2024-01-15 15:20:31 公開日:2023-10-12
# RLaGA: 実・異種マーカーに基づくランディング違反検索のための強化学習型遺伝的アルゴリズム

RLaGA: A Reinforcement Learning Augmented Genetic Algorithm For Searching Real and Diverse Marker-Based Landing Violations ( http://arxiv.org/abs/2310.07378v2 )

ライセンス: Link先を確認
Linfeng Liang, Yao Deng, Kye Morton, Valtteri Kallinen, Alice James, Avishkar Seth, Endrowednes Kuantama, Subhas Mukhopadhyay, Richard Han, Xi Zheng(参考訳) マルチロータードローンのような無人航空機(uav)の自動着陸には、制御アルゴリズム、障害物回避、および特に着陸マーカーが補助する機械ビジョンを含む複雑なソフトウェアが必要である。 着陸に失敗した場合、損傷したドローンやペイロードからかなりのコストがかかり、代替の着陸ソリューションを探すのに費やされる。 そのため,安全性を確保するために,シミュレーションを通じて自動着陸システムを完全にテストすることが重要である。 本稿では,RLaGAを提案する。RLaGAは,安全違反を含む多種多様なマーカーベースのランディングケースを構築する,強化学習(RL)拡張検索ベースのテストフレームワークである。 具体的には、RLaGAは、さまざまな静的環境構成をオフラインで保存的に検索する遺伝的アルゴリズム(GA)を導入し、RLは、動的オブジェクトの軌道をオンラインで積極的に操作して、ターゲットデプロイメント環境の潜在的な脆弱性を見つける。 定量的結果から,本手法では最大22.19%の違反事例が生成され,また,基準法と比較してほぼ2倍の多様性が得られた。 定性的に、この手法は最先端のアルゴリズムで見逃されるようなコーナーケースを発見できる。 これらのコーナーケースの特定のタイプは、現場のドローンによる実地テストによって確認可能であることを実証する。

Automated landing for Unmanned Aerial Vehicles (UAVs), like multirotor drones, requires intricate software encompassing control algorithms, obstacle avoidance, and machine vision, especially when landing markers assist. Failed landings can lead to significant costs from damaged drones or payloads and the time spent seeking alternative landing solutions. Therefore, it's important to fully test auto-landing systems through simulations before deploying them in the real-world to ensure safety. This paper proposes RLaGA, a reinforcement learning (RL) augmented search-based testing framework, which constructs diverse and real marker-based landing cases that involve safety violations. Specifically, RLaGA introduces a genetic algorithm (GA) to conservatively search for diverse static environment configurations offline and RL to aggressively manipulate dynamic objects' trajectories online to find potential vulnerabilities in the target deployment environment. Quantitative results reveal that our method generates up to 22.19% more violation cases and nearly doubles the diversity of generated violation cases compared to baseline methods. Qualitatively, our method can discover those corner cases which would be missed by state-of-the-art algorithms. We demonstrate that select types of these corner cases can be confirmed via real-world testing with drones in the field.
翻訳日:2023-10-23 03:12:41 公開日:2023-10-12
# パンデミックを超えて - IJARSモデルによるウェルビーイングとレジリエンスによるソフトウェア開発の変革

Beyond the Pandemic: Transforming Software Development with the IJARS Model for Wellbeing and Resilience ( http://arxiv.org/abs/2310.08242v1 )

ライセンス: Link先を確認
Daniel Russo(参考訳) この記事では、学んだ教訓を掘り下げ、開発者の幸福の重要性を強調します。 本稿では、パンデミック時代の生産性を包括的に理解するための統合的求人需要資源・自己決定モデル(IJARS)を紹介する。 アジャイルの価値、メンタルヘルスイニシアティブ、ディスラプションからの学習を強調し、ワークライフバランスとハイブリッドモデルを優先し、将来の課題に備える、職場の再構築を提唱します。 このガイダンスは、レジリエントで適応的な未来を目指しており、逆境を機会に変える。

This article delves into the lessons learned, highlighting the importance of developer wellbeing. We introduce the Integrated Job Demands-Resources and Self-Determination Model (IJARS) for a comprehensive understanding of pandemic-era productivity. Emphasizing Agile values, mental health initiatives, and learning from disruptions, we advocate for reshaped workplaces that prioritize work-life balance and hybrid models, preparing for future challenges. This guidance aims for a resilient and adaptive future, turning adversity into opportunity.
翻訳日:2023-10-23 03:02:46 公開日:2023-10-12
# CiRA: 自然言語要求からテストケース記述の自動生成のためのオープンソースのPythonパッケージ

CiRA: An Open-Source Python Package for Automated Generation of Test Case Descriptions from Natural Language Requirements ( http://arxiv.org/abs/2310.08234v1 )

ライセンス: Link先を確認
Julian Frattini, Jannik Fischbach, Andreas Bauer(参考訳) 完全カバレッジを達成する高レベルな自然言語要件からの受け入れテストの導出は、要件工学とテストの間のインターフェースにおいて、手作業による大きな課題である。 条件付き要件(例: "if a or b then c.")は、抽出された場合、これらの受け入れテストを自動的に生成できる因果関係を示す。 本稿では,CiRA(Causality In Requirements Artifacts)イニシアチブから,条件付き自然言語要求を自動的に処理し,完全なカバレッジを実現するための最小限のテストケース記述を生成するツールを提案する。 我々は、ドイツのコロナ・ワーン・アプリの要求仕様から、61の要件の公開データセット上でツールを評価する。 このツールは、84.5%の正しいテスト変数と、すべてのケースの92.3%の正しい変数構成を推定します。

Deriving acceptance tests from high-level, natural language requirements that achieve full coverage is a major manual challenge at the interface between requirements engineering and testing. Conditional requirements (e.g., "If A or B then C.") imply causal relationships which - when extracted - allow to generate these acceptance tests automatically. This paper presents a tool from the CiRA (Causality In Requirements Artifacts) initiative, which automatically processes conditional natural language requirements and generates a minimal set of test case descriptions achieving full coverage. We evaluate the tool on a publicly available data set of 61 requirements from the requirements specification of the German Corona-Warn-App. The tool infers the correct test variables in 84.5% and correct variable configurations in 92.3% of all cases, which corroborates the feasibility of our approach.
翻訳日:2023-10-23 03:02:37 公開日:2023-10-12
# GUIインタラクションデータを用いたテキスト検索に基づくバグの局所化

On Using GUI Interaction Data to Improve Text Retrieval-based Bug Localization ( http://arxiv.org/abs/2310.08083v1 )

ライセンス: Link先を確認
Junayed Mahmud, Nadeeshan De Silva, Safwat Ali Khan, Seyed Hooman Mostafavi, SM Hasan Mansur, Oscar Chaparro, Andrian Marcus, and Kevin Moran(参考訳) バグレポートの管理に関する最も重要なタスクの1つは、修正を適用できるように障害をローカライズすることである。 そこで,従来の作業では,このタスクを情報検索問題として定式化し,与えられたバグレポートとテキストの類似性に応じて,潜在的バグファイルの検索とランク付けを行うことで,このタスクを自動化することを目標にしている。 しかしながら、バグレポートに含まれる情報と、ソースコードファイルに含まれる識別子や自然言語の間には、しばしば顕著な意味的ギャップがある。 ユーザ向けソフトウェアには、現在、バグのローカライゼーションに役立つ重要な情報ソースがあるが、GUIから徹底的に調査されていない。 エンドユーザー向けアプリケーションでは、バグレポート内の情報とGUIの情報とを結びつけることにより、潜在的なバグファイルの検索を支援することによって、既存のバグローカライゼーション技術を改善することができるという仮説を考察する。 この現象を調べるために,本研究は,再現シナリオからguiインタラクション情報を含む4つのバグローカライズ手法を補完する総合的な実証実験を行った。 i) 潜在的に無関係なファイルをフィルタリングする。 (ii)潜在的関連ファイルの増加、及び (iii)テキスト検索クエリを書き換える。 調査を実施するため、39の人気のあるオープンソースアプリから80のバグレポートを含む、Androidアプリの完全にローカライズされ再現可能な真のバグのデータセットを、現在最大規模で公開しています。 以上の結果から,GUI情報を用いた従来手法の強化は,Hits@10の13-18%の相対的な増加を含む,複数の指標において顕著な有効性向上につながることが示された。 さらに,さらなる分析により,本研究は既存の手法を補完するものであることがわかった。

One of the most important tasks related to managing bug reports is localizing the fault so that a fix can be applied. As such, prior work has aimed to automate this task of bug localization by formulating it as an information retrieval problem, where potentially buggy files are retrieved and ranked according to their textual similarity with a given bug report. However, there is often a notable semantic gap between the information contained in bug reports and identifiers or natural language contained within source code files. For user-facing software, there is currently a key source of information that could aid in bug localization, but has not been thoroughly investigated - information from the GUI. We investigate the hypothesis that, for end user-facing applications, connecting information in a bug report with information from the GUI, and using this to aid in retrieving potentially buggy files, can improve upon existing techniques for bug localization. To examine this phenomenon, we conduct a comprehensive empirical study that augments four baseline techniques for bug localization with GUI interaction information from a reproduction scenario to (i) filter out potentially irrelevant files, (ii) boost potentially relevant files, and (iii) reformulate text-retrieval queries. To carry out our study, we source the current largest dataset of fully-localized and reproducible real bugs for Android apps, with corresponding bug reports, consisting of 80 bug reports from 39 popular open-source apps. Our results illustrate that augmenting traditional techniques with GUI information leads to a marked increase in effectiveness across multiple metrics, including a relative increase in Hits@10 of 13-18%. Additionally, through further analysis, we find that our studied augmentations largely complement existing techniques.
翻訳日:2023-10-23 03:01:57 公開日:2023-10-12
# 実行可能バイナリに出現する稀なインストラクションの検討

A Study of Rarely Appeared Instructions in an Executable Binary ( http://arxiv.org/abs/2310.08011v1 )

ライセンス: Link先を確認
Nozima Murodova, Hyungjoon Koo(参考訳) 実行可能バイナリは通常、多数のマシン命令を含む。 一般的な命令の統計はよく知られているが、非人気命令の分布は比較的研究されている。 我々の発見は、任意のバイナリ群が両方と一致することを示している。 一 共通機械命令の類似の分布、及び 二 分布とは別に、稀に現れる指示(例5つ未満の指示)がかなり少ないこと。 その頻度はコードチャンクの署名やバイナリのフットプリントを表すこともある。 そこで本研究では,これらを4つのカテゴリに分類し,ソースレベルでの詳細な解析を行う。

An executable binary typically contains a large number of machine instructions. Although the statistics of popular instructions is well known, the distribution of non-popular instructions has been relatively under explored. Our finding shows that an arbitrary group of binaries com es with both i) a similar distribution of common machine instructions, and ii) quite a few rarely appeared instructions (e.g., less than five occurrences) apart from the distribution. Their infrequency may represent the signature of a code chunk or the footprint of a binary. In this work, we investigate such rare instructions with an in-depth analysis at the source level, clas sifying them into four categories.
翻訳日:2023-10-23 03:01:27 公開日:2023-10-12
# フォーク中のオープンソースライセンスにおける修正条項違反の検出と修正

Detecting and Fixing Violations of Modification Terms in Open Source Licenses during Forking ( http://arxiv.org/abs/2310.07991v1 )

ライセンス: Link先を確認
Kaifeng Huang, Yingfeng Xia, Bihuan Chen, Zhuotong Zhou, Jin Guo, Xin Peng(参考訳) オープンソースソフトウェアはソフトウェアコミュニティに利益をもたらすが、ライセンス違反による法的リスクも生じ、訴訟や金銭的損失などの重大な結果をもたらす。 法的なリスクを軽減するために、ライセンスを特定し、ライセンスの不互換性と矛盾を検出し、ライセンスを推奨するアプローチが提案されている。 しかし、私たちが知る限り、オープンソースライセンスの修正条項を理解したり、修正条項違反を検出し修正したりする以前の作業はありません。 このギャップを埋めるために、まず47のオープンソースライセンスの修正項を経験的に特徴付ける。 これらのライセンスはすべて、オリジナルの作品に施された変更を記述するために、ある種の「通知」を必要とする。 この研究に触発されて、オープンソースライセンスの修正条項違反を自動的に検出し修正するためにlivoを設計しました。 評価の結果,LiVoの有効性と有効性が確認された。 修正期間違反に対するプルリクエストが18件,肯定的な回答が得られた。 8両が合併した。

Open source software brings benefit to software community, but also introduces legal risks caused by license violations, which result in serious consequences such as lawsuits and financial losses. To mitigate legal risks, some approaches have been proposed to identify licenses, detect license incompatibilities and inconsistencies, and recommend licenses. As far as we know, however, there is no prior work to understand modification terms in open source licenses or to detect and fix violations of modification terms. To bridge this gap, we first empirically characterize modification terms in 47 open source licenses. These licenses all require certain forms of "notice" to describe the modifications made to the original work. Inspired by our study, we then design LiVo to automatically detect and fix violations of modification terms in open source licenses during forking. Our evaluation has shown the effectiveness and efficiency of LiVo. 18 pull requests of fixing modification term violations have received positive responses. 8 have been merged.
翻訳日:2023-10-23 03:01:14 公開日:2023-10-12
# CoLadder: 階層的なコード生成を多層抽象化でサポートするプログラマ

CoLadder: Supporting Programmers with Hierarchical Code Generation in Multi-Level Abstraction ( http://arxiv.org/abs/2310.08699v1 )

ライセンス: Link先を確認
Ryan Yen, Jiawen Zhu, Sangho Suh, Haijun Xia, Jian Zhao(参考訳) プログラマはコード生成にLarge Language Models (LLM) をますます頼りにしている。 しかし現在では、プログラマのプロンプトと生成されたコードの不一致によって引き起こされるコードの生成と検証を常に切り替えるといった問題に対処する必要がある。 残念なことに、現在のllm駆動のコードアシスタントは、プロンプトオーサリングプロセス中に不十分なサポートを提供し、プログラマが新しいワークフローから出現するこれらの課題に取り組むのを助ける。 これらの課題に対処するために、LLMでプログラミングするプログラマの戦略を理解するために、反復的な設計プロセスを採用しました。 そこで我々は,階層的なタスク分解,インクリメンタルコード生成,即時オーサリングにおける結果の検証を可能にすることで,プログラマを支援するシステムCoLadderを開発した。 12人の経験豊富なプログラマによるユーザスタディによると、CoLadderは、プログラマがメンタルモデルを柔軟に外部化するのを支援し、初期意図から最終的なコード実装に至るまで、さまざまな抽象化レベルでコードをナビゲートし、編集する能力を向上する。

Programmers increasingly rely on Large Language Models (LLMs) for code generation. However, they now have to deal with issues like having to constantly switch between generating and verifying code, caused by misalignment between programmers' prompts and the generated code. Unfortunately, current LLM-driven code assistants provide insufficient support during the prompt authoring process to help programmers tackle these challenges emerging from the new workflow. To address these challenges, we employed an iterative design process to understand programmers' strategies when programming with LLMs. Based on our findings, we developed CoLadder, a system that assists programmers by enabling hierarchical task decomposition, incremental code generation, and verification of results during prompt authoring. A user study with 12 experienced programmers showed that CoLadder is effective in helping programmers externalize their mental models flexibly, improving their ability to navigate and edit code across various abstraction levels, from initial intent to final code implementation.
翻訳日:2023-10-23 02:53:00 公開日:2023-10-12
# Yuga: Rust言語のライフタイムアノテーションバグを自動的に検出する

Yuga: Automatically Detecting Lifetime Annotation Bugs in the Rust Language ( http://arxiv.org/abs/2310.08507v1 )

ライセンス: Link先を確認
Vikram Nitin, Anne Mulhern, Sanjay Arora, Baishakhi Ray(参考訳) Rustプログラミング言語は、効率的なパフォーマンスと堅牢なメモリ安全性を保証するため、システムプログラマの間で人気が高まっている。 Rustでは、この保証を保証するために、各値を一度に1つの識別子だけで所有できるようにすることで、オーナシップモデルを採用している。 さらに、ある条件下で他の変数が一時的に値を借りられるように借用と寿命の概念を導入する。 そのメリットにもかかわらず、セキュリティ上の脆弱性はRustプロジェクトで報告されている。 これらの脆弱性の一部は、関数シグネチャの誤った終身アノテーションから生じる。 しかし、既存のツールはこれらのバグの検出に失敗している。なぜなら、そのようなバグは稀で、動的解析による検出が困難であり、明示的なメモリモデルを必要とするからだ。 これらの制約を克服するために,まず,不正確なライフタイムアノテーションをメモリ安全性バグの原因として特徴付けるとともに,この理解を利用して新たな静的解析ツールであるyugaを開発し,潜在的なライフタイムアノテーションバグを検出する。 Yugaは、高速なパターンマッチングアルゴリズムから潜在的なバグコンポーネントを特定し、フローとフィールドに敏感なエイリアス分析を実行してバグを確認する、多相分析アプローチを採用している。 また、ライフタイムアノテーションのバグの新しいデータセットをキュレートします。 Yugaはこれらのデータセットの精度よくバグを検出し、コードとデータセットを公開してレビューします。

The Rust programming language is becoming increasingly popular among systems programmers due to its efficient performance and robust memory safety guarantees. Rust employs an ownership model to ensure this guarantee by allowing each value to be owned by only one identifier at a time. Additionally, it introduces the concept of borrowing and lifetimes to enable other variables to borrow the values under certain conditions temporarily. Despite its benefits, security vulnerabilities have been reported in Rust projects, often attributed to the use of "unsafe" Rust code. These vulnerabilities, in part, arise from incorrect lifetime annotations on function signatures. However, existing tools fail to detect these bugs, primarily because such bugs are rare, challenging to detect through dynamic analysis, and require explicit memory models. To overcome these limitations, first, we characterize incorrect lifetime annotations as a source of memory safety bugs and leverage this understanding to devise a novel static analysis tool, Yuga, to detect potential lifetime annotation bugs. Yuga uses a multi-phase analysis approach, starting with a quick pattern-matching algorithm to identify potential buggy components and then conducting a flow and field-sensitive alias analysis to confirm the bugs. We also curate new datasets of lifetime annotation bugs. Yuga successfully detects bugs with good precision on these datasets, and we make the code and datasets publicly available for review.
翻訳日:2023-10-23 02:51:06 公開日:2023-10-12
# LLMの力の調和による二分音素解析支援

Harnessing the Power of LLM to Support Binary Taint Analysis ( http://arxiv.org/abs/2310.08275v1 )

ライセンス: Link先を確認
Puzhuo Liu and Chengnian Sun and Yaowen Zheng and Xuan Feng and Chuan Qin and Yuncheng Wang and Zhi Li and Limin Sun(参考訳) 本稿では,大規模言語モデル (LLM) を利用した最初の静的バイナリ・テナント解析である LATTE を提案する。 LATTEは3つの面で芸術の状況(例:Emtaint、Arbiter、Karonte)よりも優れている。 まず、latteは完全に自動化され、以前の静的バイナリのtaintアナライザは、手動でtaint伝播ルールと脆弱性検査ルールをカスタマイズするために人間の専門知識に依存する必要がある。 第2に,latteは脆弱性検出において極めて効果的である。 例えば、LATTEは、ベースラインが見つからなかった現実世界のファームウェアに37の新しいバグを発見し、7つのバグがCVE番号に割り当てられた。 最後に、latteはエンジニアリングコストが非常に低く、セキュリティ研究者や実践者にとってコスト効率が高くスケーラブルなソリューションになります。 LATTEはLLMの最近の進歩を活用し、バイナリプログラムの脆弱性分析を改善するために、新たな方向性を開くと強く信じている。

This paper proposes LATTE, the first static binary taint analysis that is powered by a large language model (LLM). LATTE is superior to the state of the art (e.g., Emtaint, Arbiter, Karonte) in three aspects. First, LATTE is fully automated while prior static binary taint analyzers need rely on human expertise to manually customize taint propagation rules and vulnerability inspection rules. Second, LATTE is significantly effective in vulnerability detection, demonstrated by our comprehensive evaluations. For example, LATTE has found 37 new bugs in real-world firmware which the baselines failed to find, and 7 of them have been assigned CVE numbers. Lastly, LATTE incurs remarkably low engineering cost, making it a cost-efficient and scalable solution for security researchers and practitioners. We strongly believe that LATTE opens up a new direction to harness the recent advance in LLMs to improve vulnerability analysis for binary programs.
翻訳日:2023-10-23 02:50:26 公開日:2023-10-12
# データとビジュアルデザインプローブによるユーザからのモデルステアリングインタラクションの抽出

Eliciting Model Steering Interactions from Users via Data and Visual Design Probes ( http://arxiv.org/abs/2310.09314v1 )

ライセンス: Link先を確認
Anamaria Crisan, Maddie Shang, Eric Brochu(参考訳) ドメインの専門家は、機械学習(ml)モデルを仕事に組み込むために、自動化されたデータサイエンスツールを使うことがますます増えています。 これらの専門家にとって、セマンティックインタラクションは、技術的詳細をプログラム的に掘り下げることなく、MLモデルをガイドし、洗練するためのアクセス可能な道を提供することができる。 本研究では、データとビジュアルデザインプローブを用いて、機械学習の専門知識を持つ専門家が意味的相互作用を用いて、単純な分類モデルを更新するかどうかを調査する。 我々は,20人の参加者との対話を促進するためにデザインプローブを使用し,そのインタラクションをターゲット-インタラクションペアのセットとしてコーデレートする。 興味深いことに、セマンティックインタラクションのターゲットの多くはMLモデルパラメータに直接マッピングするのではなく、モデルがトレーニングに使用するデータの拡張を目指している。 また、認知負荷の負担やバイアス注入の懸念など、参加者がMLモデルとの相互作用をためらう理由も明らかにした。 予想外の参加者は、チームのメンバと協力して働くためにセマンティックなインタラクションを使うことの価値も見ていた。 MLの専門知識が乏しい参加者は、自身の懸念をMLの専門家に伝える上で有用なメカニズムであると判断した。 これは特に重要な観察であり、我々の研究は多様なML専門知識に対応する異なるニーズも示している。 総合的に,対話型機械学習システムにおいて提供すべき余裕を積極的に収集するための設計プローブが有効であることを示す。

Domain experts increasingly use automated data science tools to incorporate machine learning (ML) models in their work but struggle to "debug" these models when they are incorrect. For these experts, semantic interactions can provide an accessible avenue to guide and refine ML models without having to programmatically dive into its technical details. In this research, we conduct an elicitation study using data and visual design probes to examine if and how experts with a spectrum of ML expertise use semantic interactions to update a simple classification model. We use our design probes to facilitate an interactive dialogue with 20 participants and codify their interactions as a set of target-interaction pairs. Interestingly, our findings revealed that many targets of semantic interactions do not directly map to ML model parameters, but instead aim to augment the data a model uses for training. We also identify reasons that participants would hesitate to interact with ML models, including burdens of cognitive load and concerns of injecting bias. Unexpectedly participants also saw the value of using semantic interactions to work collaboratively with members of their team. Participants with less ML expertise found this to be a useful mechanism for communicating their concerns to ML experts. This was an especially important observation, as our study also shows the different needs that correspond to diverse ML expertise. Collectively, we demonstrate that design probes are effective tools for proactively gathering the affordances that should be offered in an interactive machine learning system.
翻訳日:2023-10-23 02:41:41 公開日:2023-10-12
# 大規模言語モデルは人格の文化的差異を再現できる

Large language models can replicate cross-cultural differences in personality ( http://arxiv.org/abs/2310.10679v1 )

ライセンス: Link先を確認
Pawe{\l} Niszczota and Mateusz Janczak(参考訳) 我々は大規模な実験(N=8000)を用いて、GPT-4がビッグファイブの異文化間差異を再現できるかどうかをテンアイテムパーソナリティ・インベントリで測定した。 米国と韓国を文化の対として用いたのは、この2カ国の人々の人格差がかなり大きいことが、以前の研究で示唆されていたからです。 シミュレーションの対象(米国対韓国)、在庫の言語(英対韓国)、言語モデル(GPT-4対GPT-3.5)を操作した。 GPT-4は各因子の異文化間差異を再現した。 しかし、平均評価は上向きのバイアスを示し、ヒトのサンプルよりも低い変動を示し、構造的妥当性も低下した。 全体として、LLMが異文化心理学研究に役立つという予備的な証拠を提供する。

We use a large-scale experiment (N=8000) to determine whether GPT-4 can replicate cross-cultural differences in the Big Five, measured using the Ten-Item Personality Inventory. We used the US and South Korea as the cultural pair, given that prior research suggests substantial personality differences between people from these two countries. We manipulated the target of the simulation (US vs. Korean), the language of the inventory (English vs. Korean), and the language model (GPT-4 vs. GPT-3.5). Our results show that GPT-4 replicated the cross-cultural differences for each factor. However, mean ratings had an upward bias and exhibited lower variation than in the human samples, as well as lower structural validity. Overall, we provide preliminary evidence that LLMs can aid cross-cultural psychological research.
翻訳日:2023-10-23 02:21:02 公開日:2023-10-12
# ロバストナビゲーションエージェント学習のためのベンチマーク強化手法--2021年iGibsonチャレンジの勝者として

Benchmarking Augmentation Methods for Learning Robust Navigation Agents: the Winning Entry of the 2021 iGibson Challenge ( http://arxiv.org/abs/2109.10493v3 )

ライセンス: Link先を確認
Naoki Yokoyama, Qian Luo, Dhruv Batra, Sehoon Ha(参考訳) 深層強化学習とスケーラブルなフォトリアリスティックシミュレーションの最近の進歩により、ナビゲーションを含む様々な視覚タスクのための具体化aiがますます成熟している。 しかし、静的な環境をナビゲートするエンボディードエージェントの指導には目覚ましい進歩があったが、歩行者の移動や障害物の移動など、よりダイナミックな環境での進歩はずっと少ない。 本研究では,これらの挑戦環境におけるエージェントの性能向上のために,様々な拡張手法のベンチマークを行う。 トレーニング中にいくつかの動的障害を加えることで,テストタイムの一般化が大幅に向上し,ベースラインエージェントよりも高い成功率が得られることを示す。 このアプローチは、さらに高い成功率を達成するために、画像拡張手法と組み合わせることができる。 さらに,この手法は画像拡張法よりもsim-to-sim転送に頑健であることを示す。 最後に, cvprにおける2021 igibson challengeのエージェントを訓練することにより, この動的障害物強化手法の有効性を実証し, 対話型ナビゲーションにおいて1位となった。 ビデオリンク: https://www.youtube.com/watch? v=HxUX2HeOSE4

Recent advances in deep reinforcement learning and scalable photorealistic simulation have led to increasingly mature embodied AI for various visual tasks, including navigation. However, while impressive progress has been made for teaching embodied agents to navigate static environments, much less progress has been made on more dynamic environments that may include moving pedestrians or movable obstacles. In this study, we aim to benchmark different augmentation techniques for improving the agent's performance in these challenging environments. We show that adding several dynamic obstacles into the scene during training confers significant improvements in test-time generalization, achieving much higher success rates than baseline agents. We find that this approach can also be combined with image augmentation methods to achieve even higher success rates. Additionally, we show that this approach is also more robust to sim-to-sim transfer than image augmentation methods. Finally, we demonstrate the effectiveness of this dynamic obstacle augmentation approach by using it to train an agent for the 2021 iGibson Challenge at CVPR, where it achieved 1st place for Interactive Navigation. Video link: https://www.youtube.com/watch?v=HxUX2HeOSE4
翻訳日:2023-10-17 02:11:28 公開日:2023-10-12
# ワンショット量子状態再分配と量子マルコフ鎖

One-shot quantum state redistribution and quantum Markov chains ( http://arxiv.org/abs/2104.08753v2 )

ライセンス: Link先を確認
Anurag Anshu, Shima Bab Hadiashar, Rahul Jain, Ashwin Nayak, Dave Touchette(参考訳) 我々は,1ショット設定で量子状態再分配のタスクを再検討し,量子マルコフ連鎖からの距離の尺度を用いて,通信コストでこのタスクのプロトコルを設計する。 より正確には、距離は量子最大関係エントロピーと量子仮説テストエントロピーによって定義される。 我々の結果は、量子状態の再分配と量子マルコフ連鎖を操作的に結合する最初のものであり、量子条件相互情報の1ショットアナログの操作解釈として解釈できる。 プロトコルの通信コストは、従来知られていた全てのプロトコルよりも低く、量子条件相互情報の周知率を漸近的に達成する。 したがって、我々の研究は、一発の量子状態の再分配のほぼ最適キャラクタリゼーションに関する重要なオープン問題に向けて一歩前進する。

We revisit the task of quantum state redistribution in the one-shot setting, and design a protocol for this task with communication cost in terms of a measure of distance from quantum Markov chains. More precisely, the distance is defined in terms of quantum max-relative entropy and quantum hypothesis testing entropy. Our result is the first to operationally connect quantum state redistribution and quantum Markov chains, and can be interpreted as an operational interpretation for a possible one-shot analogue of quantum conditional mutual information. The communication cost of our protocol is lower than all previously known ones and asymptotically achieves the well-known rate of quantum conditional mutual information. Thus, our work takes a step towards the important open question of near-optimal characterization of the one-shot quantum state redistribution.
翻訳日:2023-10-17 02:11:07 公開日:2023-10-12
# 完了時間による成功度:身体的ナビゲーションのためのダイナミクスを考慮した評価基準

Success Weighted by Completion Time: A Dynamics-Aware Evaluation Criteria for Embodied Navigation ( http://arxiv.org/abs/2103.08022v2 )

ライセンス: Link先を確認
Naoki Yokoyama, Sehoon Ha, Dhruv Batra(参考訳) 我々は,移動ロボットのナビゲーション性能を評価するための新しい指標であるCompletion Time (SCT) により,Successを重み付けした。 ナビゲーションに関するいくつかの関連する研究は、エージェントが目標とする経路を評価する主要な方法として、パス長(SPL)で重み付けされたSuccessを使用してきたが、SPLは複雑なダイナミクスを持つエージェントを適切に評価する能力に限られている。 対照的に、sctはエージェントのダイナミクスモデルを明示的に考慮し、エージェントがそのダイナミクスによって与えられる最速のナビゲーション動作をいかに正確に把握することを目的としている。 いくつかの具体的ナビゲーションはポイントターンダイナミクスを使用しているが、我々はエージェントのための一輪車動力学に焦点を当てており、人気のあるモバイルロボティクスプラットフォーム(例えば、LoCoBot、TurtleBot、Fetchなど)のダイナミクスモデルをよりよく例示している。 RRT*-Unicycleは、障害物を含む環境において、開始ポーズから目標位置までの衝突のない経路と完了時間を推定する一輪動力学のアルゴリズムである。 深層強化学習と報酬形成の実験を行い,エージェントのナビゲーション性能を異なる動的モデルと比較した。 これらのエージェントの評価において、SPLとは対照的に、一輪車モデルではより単純なポイントターンモデルよりも、航法速度の利点を捉えることができる。 最後に、実世界のシミュレーション以外で、トレーニングされたモデルとアルゴリズムをうまくデプロイできることを示します。 私たちはエージェントを本物のロボットに具体化し、アパートをナビゲートし、ゼロショットで一般化できることを示します。

We present Success weighted by Completion Time (SCT), a new metric for evaluating navigation performance for mobile robots. Several related works on navigation have used Success weighted by Path Length (SPL) as the primary method of evaluating the path an agent makes to a goal location, but SPL is limited in its ability to properly evaluate agents with complex dynamics. In contrast, SCT explicitly takes the agent's dynamics model into consideration, and aims to accurately capture how well the agent has approximated the fastest navigation behavior afforded by its dynamics. While several embodied navigation works use point-turn dynamics, we focus on unicycle-cart dynamics for our agent, which better exemplifies the dynamics model of popular mobile robotics platforms (e.g., LoCoBot, TurtleBot, Fetch, etc.). We also present RRT*-Unicycle, an algorithm for unicycle dynamics that estimates the fastest collision-free path and completion time from a starting pose to a goal location in an environment containing obstacles. We experiment with deep reinforcement learning and reward shaping to train and compare the navigation performance of agents with different dynamics models. In evaluating these agents, we show that in contrast to SPL, SCT is able to capture the advantages in navigation speed a unicycle model has over a simpler point-turn model of dynamics. Lastly, we show that we can successfully deploy our trained models and algorithms outside of simulation in the real world. We embody our agents in an real robot to navigate an apartment, and show that they can generalize in a zero-shot manner.
翻訳日:2023-10-17 02:10:54 公開日:2023-10-12
# 変分マイクロカノニカル推定器

Variational Microcanonical Estimator ( http://arxiv.org/abs/2301.04129v3 )

ライセンス: Link先を確認
Kl\'ee Pollock, Peter P. Orth and Thomas Iadecola(参考訳) 固有状態熱化仮説に従うモデルにおけるマイクロカノニカル期待値を推定するための変分量子アルゴリズムを提案する。 変動最適化ループの収束に緩和された基準を用いて、アルゴリズムは与えられた目標エネルギー密度で固有状態の弱い絡み合った重ね合わせを生成する。 これらの変分状態のアンサンブルは、局所作用素のマイクロカノニカル平均を推定するために使用され、アンサンブルの大きさのパワー則として最初に支配的な寄与が減少し、最終的には小さなバイアスによって制限される誤差を持つ。 このアルゴリズムを1次元混合場Isingモデルに適用し,システムサイズにほぼ線形な深さのアンザッツ回路に収束する。 最も正確な熱推定は中間エネルギー密度に対して行われる。 誤差解析では, 固有状態熱化仮説の基盤を解明する最近の研究とのつながりを見出した。 特に、局所作用素が \textit{independent} 確率変数として振る舞うためのエネルギー-ベイシ行列要素の失敗は、変分状態のアンサンブル上で平均化することでアルゴリズムが克服できる潜在的な誤差源である。

We propose a variational quantum algorithm for estimating microcanonical expectation values in models obeying the eigenstate thermalization hypothesis. Using a relaxed criterion for convergence of the variational optimization loop, the algorithm generates weakly entangled superpositions of eigenstates at a given target energy density. An ensemble of these variational states is then used to estimate microcanonical averages of local operators, with an error whose dominant contribution decreases initially as a power law in the size of the ensemble and is ultimately limited by a small bias. We apply the algorithm to the one-dimensional mixed-field Ising model, where it converges for ansatz circuits of depth roughly linear in system size. The most accurate thermal estimates are produced for intermediate energy densities. In our error analysis, we find connections with recent works investigating the underpinnings of the eigenstate thermalization hypothesis. In particular, the failure of energy-basis matrix elements of local operators to behave as \textit{independent} random variables is a potential source of error that the algorithm can overcome by averaging over an ensemble of variational states.
翻訳日:2023-10-17 02:08:07 公開日:2023-10-12
# ナノファイバー系光双極子トラップにおけるアルカリ土類原子の無感なトッピング

State-Insensitive Trapping of Alkaline-Earth Atoms in a Nanofiber-Based Optical Dipole Trap ( http://arxiv.org/abs/2211.04004v2 )

ライセンス: Link先を確認
K. Ton, G. Kestler, D. Filin, C. Cheung, P. Schneeweiss, T. Hoinkes, J. Volz, M. S. Safronova, A. Rauschenbeutel, and J. T. Barreiro(参考訳) ナノテーパ光ファイバのエバネッセント光ポテンシャルに閉じ込められた中性原子は、量子技術を開発し、量子ネットワークや量子電磁力学のような基礎科学を探求するための有望なプラットフォームである。 ここでは, 閉じ込められたアルカリ原子による進展を実証し, ナノテーパー光ファイバーのエバネッセンス場を用いたストロンチウム88の高感度光双極子トラップについて述べる。 レーザー冷却の低い温度を$\sim\! \! 1~\mu$Kはストロンチウムで容易に達成でき、記録的な低トラップ深さのトラップを$\sim\! \! 3〜\mu$K。 さらに、二重魔法の波長トラップ方式を用いて、キロヘルツ幅5s^{2}\;^{1}\! S_{0}-5s5p\;^{3}\! P_{1,|m|=1}$冷却遷移、原子遷移の準表面高分解能分光によって検証する。 これにより、理論上予測される435.827(25)nmの魔法の波長付近のトラップの状態過敏性を実験的に見つけ検証することができる。 非磁性基底状態とストロンチウム88の低衝突散乱長を考えると、この研究はナノフォトニック導波路上の多用途で堅牢な物質波アトムトロニクス回路の開発の基礎でもある。

Neutral atoms trapped in the evanescent optical potentials of nanotapered optical fibers are a promising platform for developing quantum technologies and exploring fundamental science, such as quantum networks and quantum electrodynamics. Building on the successful advancements with trapped alkali atoms, here we demonstrate a state-insensitive optical dipole trap for strontium-88, an alkaline-earth atom, using the evanescent fields of a nanotapered optical fiber. Leveraging the low laser-cooling temperatures of $\sim\!\!1~\mu$K readily achievable with strontium, we demonstrate trapping in record low trap depths corresponding to $\sim\!\!3~\mu$K. Further, employing a double magic wavelength trapping scheme, we realize state-insensitive trapping on the kilohertz-wide $5s^{2}\;^{1}\!S_{0}-5s5p\;^{3}\!P_{1,|m|=1}$ cooling transition, which we verify by performing near-surface high-resolution spectroscopy of the atomic transition. This allows us to experimentally find and verify the state insensitivity of the trap nearby a theoretically predicted magic wavelength of 435.827(25) nm. Given the non-magnetic ground state and low collisional scattering length of strontium-88, this work also lays the foundation for developing versatile and robust matter-wave atomtronic circuits over nanophotonic waveguides.
翻訳日:2023-10-17 02:06:11 公開日:2023-10-12
# ログ精度変換器の論理

A Logic for Expressing Log-Precision Transformers ( http://arxiv.org/abs/2210.02671v5 )

ライセンス: Link先を確認
William Merrill and Ashish Sabharwal(参考訳) トランスフォーマーベースの言語モデルの推論能力を理解する一つの方法は、入力テキストで解決できる論理規則の種類を記述することである。 近年、Chiangら (2023) は、有限精度変換器は一階述語論理の一般化において等価に表現できることを示した。 しかし、有限精度変圧器は弱い変圧器変圧器であり、これは我々が示すように、単一のヘッドは一定数のトークンにしか対応できず、特に均一な注意を表現できないためである。 広く参加することは変圧器のコア機能であるため、普遍的に参加できる最小限の表現モデルが論理的にも特徴付けられるかどうかを問う。 この目的のために、前方パスが$\log n$の精度で計算される変圧器を長さ$n$の文脈で解析する。 我々は,任意の対数精度変換器を一階述語論理文として等価に表現できることを証明した。 これは最も強い既知の上界であり、対数精度変換器の論理的特徴である。

One way to interpret the reasoning power of transformer-based language models is to describe the types of logical rules they can resolve over some input text. Recently, Chiang et al. (2023) showed that finite-precision transformers can be equivalently expressed in a generalization of first-order logic. However, finite-precision transformers are a weak transformer variant because, as we show, a single head can only attend to a constant number of tokens and, in particular, cannot represent uniform attention. Since attending broadly is a core capability for transformers, we ask whether a minimally more expressive model that can attend universally can also be characterized in logic. To this end, we analyze transformers whose forward pass is computed in $\log n$ precision on contexts of length $n$. We prove that any log-precision transformer can be equivalently expressed as a first-order logic sentence that, in addition to standard universal and existential quantifiers, may also contain majority-vote quantifiers. This is the tightest known upper bound and first logical characterization of log-precision transformers.
翻訳日:2023-10-17 02:05:04 公開日:2023-10-12
# 動的シナリオ変更のための隠れパラメータリカレント状態空間モデル

Hidden Parameter Recurrent State Space Models For Changing Dynamics Scenarios ( http://arxiv.org/abs/2206.14697v3 )

ライセンス: Link先を確認
Vaisakh Shaj, Dieter Buchler, Rohit Sonker, Philipp Becker, Gerhard Neumann(参考訳) リカレントステートスペースモデル(Recurrent State-space Model, RSSMs)は、時系列データとシステム識別におけるパターンの学習モデルである。 しかし、これらのモデルは力学が固定され、変化しないと仮定し、現実のシナリオではまれである。 多くの制御アプリケーションはよく類似しているが、潜在変数としてモデル化できる同一の動的タスクを示す。 隠れパラメータ再帰状態空間モデル(hip-rssms, hidden parameter recurrent state space model)を導入する。 本稿では,このガウス図形モデルに対して,変分推論のような近似を避けるための,単純かつ効果的な学習方法を提案する。 ヒップrssmは実世界のシステムとシミュレーションの両方でいくつかの挑戦的なロボットベンチマークでrssmと競合するマルチタスクモデルよりも優れています。

Recurrent State-space models (RSSMs) are highly expressive models for learning patterns in time series data and system identification. However, these models assume that the dynamics are fixed and unchanging, which is rarely the case in real-world scenarios. Many control applications often exhibit tasks with similar but not identical dynamics which can be modeled as a latent variable. We introduce the Hidden Parameter Recurrent State Space Models (HiP-RSSMs), a framework that parametrizes a family of related dynamical systems with a low-dimensional set of latent factors. We present a simple and effective way of learning and performing inference over this Gaussian graphical model that avoids approximations like variational inference. We show that HiP-RSSMs outperforms RSSMs and competing multi-task models on several challenging robotic benchmarks both on real-world systems and simulations.
翻訳日:2023-10-17 02:04:44 公開日:2023-10-12
# 無バイアス測定, アダマール行列および超高密度符号化

Mutually Unbiased Measurements, Hadamard Matrices, and Superdense Coding ( http://arxiv.org/abs/2204.11886v2 )

ライセンス: Link先を確認
M\'at\'e Farkas, J\k{e}drzej Kaniewski, Ashwin Nayak(参考訳) 相互非バイアス基底(MUB)は複素ヒルベルト空間上の高度対称基底であり、対応するランク-1射影測度は量子情報理論においてユビキタスである。 本研究では,最近導入されたmubの一般化である相互非バイアス測定(mums)について検討する。 これらの測定はmubから相補性の本質的性質を継承するが、ヒルベルト空間次元は結果の数に合致する必要がない。 この操作的相補性により、MUMはデバイス非依存の量子情報処理に非常に有用である。 MUM は MUB よりも厳密に一般であることが示されている。 本研究では, MUB の直和である MUM のキャラクタリゼーションの完全証明を提供する。 次に, MUB の直和ではない MUM の新たな例を構築する。 これらの構成において重要な技術的ツールは四元数アダマール行列との対応であり、これらの行列の既知の例を MUB の直接和ではない MUM にマッピングすることができる。 さらに, MUB とは対照的に, 固定結果数に対する MUM の数は非有界であることを示す。 次に、量子通信におけるMUMの利用に焦点を当てる。 D 結果を持つ任意の MUM 対が、どのように d 次元超実数符号化プロトコルを定義するかを示す。 MUB の直和ではない MUM を用いて、無限次元の超デンス符号化の剛性について、Nayak と Yuen による最近の予想を反証する。 反論で生じるスーパーデンス符号化プロトコルは、現在不明な方法で共有の絡み合いがどのように使われるかを明らかにしている。

Mutually unbiased bases (MUBs) are highly symmetric bases on complex Hilbert spaces, and the corresponding rank-1 projective measurements are ubiquitous in quantum information theory. In this work, we study a recently introduced generalization of MUBs called mutually unbiased measurements (MUMs). These measurements inherit the essential property of complementarity from MUBs, but the Hilbert space dimension is no longer required to match the number of outcomes. This operational complementarity property renders MUMs highly useful for device-independent quantum information processing. It has been shown that MUMs are strictly more general than MUBs. In this work we provide a complete proof of the characterization of MUMs that are direct sums of MUBs. We then proceed to construct new examples of MUMs that are not direct sums of MUBs. A crucial technical tool for these construction is a correspondence with quaternionic Hadamard matrices, which allows us to map known examples of such matrices to MUMs that are not direct sums of MUBs. Furthermore, we show that -- in stark contrast with MUBs -- the number of MUMs for a fixed outcome number is unbounded. Next, we focus on the use of MUMs in quantum communication. We demonstrate how any pair of MUMs with d outcomes defines a d-dimensional superdense coding protocol. Using MUMs that are not direct sums of MUBs, we disprove a recent conjecture due to Nayak and Yuen on the rigidity of superdense coding for infinitely many dimensions. The superdense coding protocols arising in the refutation reveal how shared entanglement may be used in a manner heretofore unknown.
翻訳日:2023-10-17 02:04:30 公開日:2023-10-12
# 散逸で安定化した位相エッジ状態の観察

Observation of a topological edge state stabilized by dissipation ( http://arxiv.org/abs/2303.07346v2 )

ライセンス: Link先を確認
Helene Wetter, Michael Fleischhauer, Stefan Linden, Julian Schmitt(参考訳) システムの境界に現れるロバストな状態は、トポロジカルなバンド構造の特徴を構成する。 閉じた系以外では、位相的に保護された状態は自明なバンド構造を持つ系でも起こりうる。 そこで本研究では,非エルミートな一次元格子系における位相的バンド構造の散逸による出現を,予備損失を持つプラズモニック導波路の配列によって実現している。 バンドギャップの中心に存在する位相的エッジ状態の直接的な証拠を得る。 散逸とホッピングのチューニングにより、位相的に異なる領域間の界面状態の形成と破壊が示される。

Robust states emerging at the boundary of a system constitute a hallmark for topological band structures. Other than in closed systems, topologically protected states can occur even in systems with a trivial band structure, if exposed to suitably modulated losses. Here, we study the dissipation-induced emergence of a topological band structure in a non-Hermitian one-dimensional lattice system, realized by arrays of plasmonic waveguides with tailored loss. We obtain direct evidence for a topological edge state that resides in the center of the band gap. By tuning dissipation and hopping, the formation and breakdown of an interface state between topologically distinct regions is demonstrated.
翻訳日:2023-10-17 01:44:37 公開日:2023-10-12
# ベクトル量子化近接場と高速高分解能テンプレートマッチング

Efficient High-Resolution Template Matching with Vector Quantized Nearest Neighbour Fields ( http://arxiv.org/abs/2306.15010v2 )

ライセンス: Link先を確認
Ankit Gupta and Ida-Maria Sintorn(参考訳) テンプレートマッチングはコンピュータビジョンにおける基本的な問題であり、オブジェクト検出、画像登録、オブジェクト追跡などの分野への応用がある。 現在の手法は近辺のNNマッチングに依存しており、クエリの特徴空間はテンプレート内の各クエリピクセルをNNで表現することでNN空間に変換される。 NNベースの手法は、オクルージョン、外観変化、非剛体変換においてより良い性能を示すことが示されているが、高分解能データと高機能次元ではあまりスケールしない。 本稿では,NN計算を効率よく削減し,NNフィールド(NNF)にフィルタリングを導入するNNベースの手法を提案する。 NN計算の前に、$k$機能でテンプレートを表現するベクトル量子化ステップを導入し、NNF上のフィルタ応答を使用して、機能上のテンプレートとクエリ分布を比較する。 その結果,低解像度データでは最先端の性能が得られ,高分解能では従来の手法を上回っていることがわかった。

Template matching is a fundamental problem in computer vision with applications in fields including object detection, image registration, and object tracking. Current methods rely on nearest-neighbour (NN) matching, where the query feature space is converted to NN space by representing each query pixel with its NN in the template. NN-based methods have been shown to perform better in occlusions, appearance changes, and non-rigid transformations; however, they scale poorly with high-resolution data and high feature dimensions. We present an NN-based method which efficiently reduces the NN computations and introduces filtering in the NN fields (NNFs). A vector quantization step is introduced before the NN calculation to represent the template with $k$ features, and the filter response over the NNFs is used to compare the template and query distributions over the features. We show that state-of-the-art performance is achieved in low-resolution data, and our method outperforms previous methods at higher resolution.
翻訳日:2023-10-17 01:36:22 公開日:2023-10-12
# DOCTOR:ウェアラブル・メディカル・センサを用いたマルチ障害検出連続学習フレームワーク

DOCTOR: A Multi-Disease Detection Continual Learning Framework Based on Wearable Medical Sensors ( http://arxiv.org/abs/2305.05738v3 )

ライセンス: Link先を確認
Chia-Hao Li and Niraj K. Jha(参考訳) エッジデバイスにおける機械学習(ML)とウェアラブル医療センサ(WMS)の最近の進歩により、スマートヘルスケアのためのML駆動型疾患検出が可能になった。 従来のML駆動型疾患検出法は、各疾患の個々のモデルとその対応するWMSデータのカスタマイズに依存している。 しかし、このような方法は分散シフトや新しいタスク分類クラスへの適応性に欠ける。 さらに、新しい疾患ごとに再設計し、スクラッチから再訓練する必要がある。 さらに、エッジデバイスに複数のMLモデルをインストールすると、過剰なメモリを消費し、バッテリのドレインが速くなり、検出プロセスが複雑になる。 これらの課題に対処するために,WMSに基づく多相検出連続学習(CL)フレームワークであるDOCTORを提案する。 マルチヘッドディープニューラルネットワーク(DNN)とリプレイスタイルのCLアルゴリズムを採用している。 clアルゴリズムは、異なるデータ分布、分類クラス、病気検出タスクが順次導入される新しいミッションを継続的に学習することを可能にする。 データ保存方法と合成データ生成(SDG)モジュールとで破滅的な忘れを対処する。 データ保存方法は、exemplar replayの以前のミッションから得られた、実トレーニングデータの最も有益なサブセットを保存する。 sdgモジュールは、実際のトレーニングデータの確率分布をモデル化し、データプライバシを保持しながら生成再生のための合成データを生成する。 マルチヘッドDNNにより、DOCTORはユーザWMSデータに基づいて複数の疾患を同時に検出できる。 様々なcl実験において,単一のdnnモデルを用いて高い疾患分類精度を維持するための医師の有効性を示す。 複雑なシナリオでは、DOCTORは平均的なテスト精度の1.43倍、F1スコアの1.25倍、および350KB未満の小さなモデルサイズを持つ単純な微調整フレームワークよりも0.41高い後方転送を実現する。

Modern advances in machine learning (ML) and wearable medical sensors (WMSs) in edge devices have enabled ML-driven disease detection for smart healthcare. Conventional ML-driven methods for disease detection rely on customizing individual models for each disease and its corresponding WMS data. However, such methods lack adaptability to distribution shifts and new task classification classes. In addition, they need to be rearchitected and retrained from scratch for each new disease. Moreover, installing multiple ML models in an edge device consumes excessive memory, drains the battery faster, and complicates the detection process. To address these challenges, we propose DOCTOR, a multi-disease detection continual learning (CL) framework based on WMSs. It employs a multi-headed deep neural network (DNN) and a replay-style CL algorithm. The CL algorithm enables the framework to continually learn new missions where different data distributions, classification classes, and disease detection tasks are introduced sequentially. It counteracts catastrophic forgetting with a data preservation method and a synthetic data generation (SDG) module. The data preservation method preserves the most informative subset of real training data from previous missions for exemplar replay. The SDG module models the probability distribution of the real training data and generates synthetic data for generative replay while retaining data privacy. The multi-headed DNN enables DOCTOR to detect multiple diseases simultaneously based on user WMS data. We demonstrate DOCTOR's efficacy in maintaining high disease classification accuracy with a single DNN model in various CL experiments. In complex scenarios, DOCTOR achieves 1.43 times better average test accuracy, 1.25 times better F1-score, and 0.41 higher backward transfer than the naive fine-tuning framework with a small model size of less than 350KB.
翻訳日:2023-10-17 01:34:21 公開日:2023-10-12
# 因果推論における二重・単一降下と高次元合成制御への応用

Double and Single Descent in Causal Inference with an Application to High-Dimensional Synthetic Control ( http://arxiv.org/abs/2305.00700v3 )

ライセンス: Link先を確認
Jann Spiess, Guido Imbens, Amar Venugopal(参考訳) 機械学習における二重発色現象に関する最近の文献に触発され、多くの制御ユニットによる合成制御を含む、因果推論における高度に過度なパラメータ化モデルを考える。 このようなモデルでは、多くの自由パラメータが存在するため、モデルは完全にトレーニングデータに適合する。 まず,賃金データを示唆する高次元線形回帰と平均治療効果の推定を行い,サンプルサイズよりも多くの共変量を持つモデルが単純なモデルを上回ることを見出した。 次に,多数の制御ユニットを有する高次元合成制御推定器の性能を文書化する。 制御ユニットの追加は, 処理前適合が完璧である点を超えても, 計算性能の向上に有効であることがわかった。 これらの高次元モデルの性能に関する統一的な理論的視点を提供する。 具体的には,より単純なモデルよりも複雑なモデルの方が,平均性能の向上に結びついていることを示す。 この視点は、制御ユニットが前処理期間の数に対して多くの場合、合成制御の使用に関する具体的な洞察を与える。

Motivated by a recent literature on the double-descent phenomenon in machine learning, we consider highly over-parameterized models in causal inference, including synthetic control with many control units. In such models, there may be so many free parameters that the model fits the training data perfectly. We first investigate high-dimensional linear regression for imputing wage data and estimating average treatment effects, where we find that models with many more covariates than sample size can outperform simple ones. We then document the performance of high-dimensional synthetic control estimators with many control units. We find that adding control units can help improve imputation performance even beyond the point where the pre-treatment fit is perfect. We provide a unified theoretical perspective on the performance of these high-dimensional models. Specifically, we show that more complex models can be interpreted as model-averaging estimators over simpler ones, which we link to an improvement in average performance. This perspective yields concrete insights into the use of synthetic control when control units are many relative to the number of pre-treatment periods.
翻訳日:2023-10-17 01:33:51 公開日:2023-10-12
# ZnOにおける単一ドナーの分離

Isolation of Single Donors in ZnO ( http://arxiv.org/abs/2310.05806v2 )

ライセンス: Link先を確認
Ethan R. Hansen, Vasileios Niaouris, Bethany E. Matthews, Christian Zimmermann, Xingyi Wang, Roman Kolodka, Lasse Vines, Steven R. Spurgeon, Kai-Mei C. Fu(参考訳) 酸化亜鉛(ZnO)の浅いドナーは光アクセスを持つ有望な半導体スピンキュービットである。 単一インジウム供与体は、プラズマ集光イオンビーム(PFIB)ミリングを用いて市販のZnO基板に分離される。 量子エミッタは空間および周波数フィルタリングによって光学的に識別される。 インジウムドナーの割り当ては、光学束縛励起子遷移エネルギーと磁気依存に基づいている。 単一ドナー放出は強度と周波数が安定であり、遷移線幅は寿命の2倍未満である。 fib製造後の光学安定なシングルドナーの分離は、直接バンドギャップ半導体の単一ドナーに基づくスケーラブルな量子技術に必要な光学デバイス統合に有望である。

The shallow donor in zinc oxide (ZnO) is a promising semiconductor spin qubit with optical access. Single indium donors are isolated in a commercial ZnO substrate using plasma focused ion beam (PFIB) milling. Quantum emitters are identified optically by spatial and frequency filtering. The indium donor assignment is based on the optical bound exciton transition energy and magnetic dependence. The single donor emission is intensity and frequency stable with a transition linewidth less than twice the lifetime limit. The isolation of optically stable single donors post-FIB fabrication is promising for optical device integration required for scalable quantum technologies based on single donors in direct band gap semiconductors.
翻訳日:2023-10-17 01:16:27 公開日:2023-10-12
# オンライン蒸留ガイド:オフラインによる安全強化学習の促進

Guided Online Distillation: Promoting Safe Reinforcement Learning by Offline Demonstration ( http://arxiv.org/abs/2309.09408v2 )

ライセンス: Link先を確認
Jinning Li, Xinyi Liu, Banghua Zhu, Jiantao Jiao, Masayoshi Tomizuka, Chen Tang, Wei Zhan(参考訳) 安全強化学習(RL)は、コスト制約を満たしつつ高い報酬を達成する政策を見つけることを目的としている。 スクラッチから学ぶと、安全なRLエージェントは過度に保守的になり、探索を妨げ、全体的なパフォーマンスを抑制する。 多くの現実的なタスク、例えば自動運転では、大規模な専門家によるデモンストレーションデータが利用可能である。 オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。 意思決定変換器(DT)のような大容量モデルは、オフラインのポリシー学習に適していることが証明されている。 しかし、現実のシナリオで収集されたデータは、危険なケース(例えば衝突)をほとんど含まないため、安全概念を学ぶための政策が禁止される。 さらに、これらのバルクポリシネットワークは、自動運転のような現実世界のタスクにおいて、推論時に計算速度の要求を満たせない。 そこで本研究では,オフラインからオンラインへの安全なrlフレームワークであるgoldを提案する。 GOLDは、オフラインDTポリシーとオンライン安全なRLアルゴリズムの両方を上回り、オンライン安全なRLトレーニングを通じて、オフラインDTポリシーを軽量なポリシーネットワークに蒸留する。 Waymo Open Motion Dataset(WOMD)に基づくベンチマークセーフなRLタスクと実世界の運転タスクの両方の実験では、GOLDは軽量なポリシーの蒸留に成功し、安全クリティカルなシナリオに挑戦して意思決定問題を解決することができることを示した。

Safe Reinforcement Learning (RL) aims to find a policy that achieves high rewards while satisfying cost constraints. When learning from scratch, safe RL agents tend to be overly conservative, which impedes exploration and restrains the overall performance. In many realistic tasks, e.g. autonomous driving, large-scale expert demonstration data are available. We argue that extracting expert policy from offline data to guide online exploration is a promising solution to mitigate the conserveness issue. Large-capacity models, e.g. decision transformers (DT), have been proven to be competent in offline policy learning. However, data collected in real-world scenarios rarely contain dangerous cases (e.g., collisions), which makes it prohibitive for the policies to learn safety concepts. Besides, these bulk policy networks cannot meet the computation speed requirements at inference time on real-world tasks such as autonomous driving. To this end, we propose Guided Online Distillation (GOLD), an offline-to-online safe RL framework. GOLD distills an offline DT policy into a lightweight policy network through guided online safe RL training, which outperforms both the offline DT policy and online safe RL algorithms. Experiments in both benchmark safe RL tasks and real-world driving tasks based on the Waymo Open Motion Dataset (WOMD) demonstrate that GOLD can successfully distill lightweight policies and solve decision-making problems in challenging safety-critical scenarios.
翻訳日:2023-10-17 01:13:54 公開日:2023-10-12
# アルゴリズム列挙による最適フェルミオン量子ビット写像の発見

Discovering optimal fermion-qubit mappings through algorithmic enumeration ( http://arxiv.org/abs/2110.12792v6 )

ライセンス: Link先を確認
Mitchell Chiew, Sergii Strelchuk(参考訳) 量子コンピュータ上のフェルミオン系をシミュレーションするには、フェルミオン状態の量子ビットへの高速なマッピングが必要である。 効率的なマッピングの特徴は、局所的なフェルミオン相互作用を局所的な量子ビット相互作用に変換する能力である。 すべてのフェルミオン・クビット写像は、クビット演算への変換のためにフェルミオンモードの番号スキームを使用する必要がある。 順序付けされていないフェルミオンのラベル付けと順序付けされたクォービットのラベル付けとを区別する。 この分離はフェルミオンモードの列挙スキームを利用してフェルミオン量子ビットマッピングを設計する新しい方法に光を当てる。 本論文の目的は,この概念が任意のコスト関数に対して最適であるフェルミオン量子ビット写像の概念を許容することを示すことである。 我々の主な例は、正方格子配置で相互作用するフェルミオンに対するハミルトニアンのヨルダン・ウィグナー変換におけるパウリ行列の平均数の最小化である。 ヨルダン・ウィグナー変換に最適なフェルミオンモードを選択する際、他の一般的な修正とは異なり、我々の処方薬はアンシラキュービットのような追加のリソースを消費しない。 ミッチソンとダービンの列挙パターンは、正方格子で相互作用するシステムのヨルダン・ウィグナー変換の平均ポーリ重みを最小化する。 これにより、クビット・ハミルトニアン(qubit hamiltonian)は、パウリの平均重量が13.9%短くなる。 わずか2つのアンシラ量子ビットを加えることで、新しいフェルミオン-量子写像のクラスを導入し、以前の方法と比較してハミルトン項の平均パウリ重量を37.9%削減する。 セルアレンジメントにおけるn$-モードフェルミオン系では、na\" スキームよりも平均的なパウリ重量が$n^{1/4}$向上する列挙パターンが見つかる。

Simulating fermionic systems on a quantum computer requires a high-performing mapping of fermionic states to qubits. A characteristic of an efficient mapping is its ability to translate local fermionic interactions into local qubit interactions, leading to easy-to-simulate qubit Hamiltonians. All fermion-qubit mappings must use a numbering scheme for the fermionic modes in order for translation to qubit operations. We make a distinction between the unordered labelling of fermions and the ordered labelling of the qubits. This separation shines light on a new way to design fermion-qubit mappings by making use of the enumeration scheme for the fermionic modes. The purpose of this paper is to demonstrate that this concept permits notions of fermion-qubit mappings that are optimal with regard to any cost function one might choose. Our main example is the minimisation of the average number of Pauli matrices in the Jordan-Wigner transformations of Hamiltonians for fermions interacting in square lattice arrangements. In choosing the best ordering of fermionic modes for the Jordan-Wigner transformation, and unlike other popular modifications, our prescription does not cost additional resources such as ancilla qubits. We demonstrate how Mitchison and Durbin's enumeration pattern minimises the average Pauli weight of Jordan-Wigner transformations of systems interacting in square lattices. This leads to qubit Hamiltonians consisting of terms with average Pauli weights 13.9% shorter than previously known. By adding only two ancilla qubits we introduce a new class of fermion-qubit mappings, and reduce the average Pauli weight of Hamiltonian terms by 37.9% compared to previous methods. For $n$-mode fermionic systems in cellular arrangements, we find enumeration patterns which result in $n^{1/4}$ improvement in average Pauli weight over na\"ive schemes.
翻訳日:2023-10-16 18:45:11 公開日:2023-10-12
# 過パラメータモデルにおける最小記述長複雑性の再検討

Revisiting minimum description length complexity in overparameterized models ( http://arxiv.org/abs/2006.10189v4 )

ライセンス: Link先を確認
Raaz Dwivedi, Chandan Singh, Bin Yu, Martin J. Wainwright(参考訳) 複雑性は、一般化性能の伝達を目的とした統計学習理論の基礎概念である。 パラメータカウントは低次元設定で成功したが、パラメータの数がトレーニングサンプルの数以上である場合、過度なパラメータ化設定には適していない。 我々は、リッサネンの最小記述長(MDL)の原理に基づく複雑性対策を再検討し、過パラメータ化モデルに有効な新しいMDLベースの複雑性(MDL-COMP)を定義する。 mdl-comp は good ridge estimator クラスによって引き起こされる符号化の最適性基準によって定義される。 線形モデルとカーネル法に対するmdl-compの広範な理論的特徴付けを行い,パラメータカウントの関数であるだけでなく,設計やカーネル行列の特異値や信号対雑音比の関数であることを示した。 n$ の観測値、$d$パラメータ、および i.i.d.ガウス予測値を持つ線形モデルの場合、mdl-comp は $d<n$ のとき$d$ で線形にスケールするが、スケーリングは指数関数的に小さく、$\log d$ は $d>n$ である。 カーネル法では,MDL-COMPがサンプル内誤差を最小化し,入力の次元が増加するにつれて減少することを示す。 また,MDL-COMP上界が平均二乗誤差(MSE)であることを示す。 データ駆動型Prac-MDL-COMPは、シミュレーションと実データ実験により、制限されたデータ設定でのリッジ回帰によるテストMSEの最適化、時にはクロスバリデーションや(常に)計算コストの削減のために、ハイパーパラメータチューニングを通知する。 最後に, 過パラメータモデルにおける最近観測された2重のまともな現象は, 非理想的推定者の選択の結果である可能性が示唆された。

Complexity is a fundamental concept underlying statistical learning theory that aims to inform generalization performance. Parameter count, while successful in low-dimensional settings, is not well-justified for overparameterized settings when the number of parameters is more than the number of training samples. We revisit complexity measures based on Rissanen's principle of minimum description length (MDL) and define a novel MDL-based complexity (MDL-COMP) that remains valid for overparameterized models. MDL-COMP is defined via an optimality criterion over the encodings induced by a good Ridge estimator class. We provide an extensive theoretical characterization of MDL-COMP for linear models and kernel methods and show that it is not just a function of parameter count, but rather a function of the singular values of the design or the kernel matrix and the signal-to-noise ratio. For a linear model with $n$ observations, $d$ parameters, and i.i.d. Gaussian predictors, MDL-COMP scales linearly with $d$ when $d<n$, but the scaling is exponentially smaller -- $\log d$ for $d>n$. For kernel methods, we show that MDL-COMP informs minimax in-sample error, and can decrease as the dimensionality of the input increases. We also prove that MDL-COMP upper bounds the in-sample mean squared error (MSE). Via an array of simulations and real-data experiments, we show that a data-driven Prac-MDL-COMP informs hyper-parameter tuning for optimizing test MSE with ridge regression in limited data settings, sometimes improving upon cross-validation and (always) saving computational costs. Finally, our findings also suggest that the recently observed double decent phenomenons in overparameterized models might be a consequence of the choice of non-ideal estimators.
翻訳日:2023-10-16 18:44:20 公開日:2023-10-12
# stylized innovation:インクリメンタルに利用可能なランダム化辞書の尋問によるタイムライン生成

Stylized innovation: generating timelines by interrogating incrementally available randomised dictionaries ( http://arxiv.org/abs/1806.07722v3 )

ライセンス: Link先を確認
Paul Kinsler(参考訳) イノベーションを理解する上で重要な課題は、それが動的で進行中のプロセスであり、文化、経済学、運といった短命な要因に強く依存していることだ。 これはつまり、現実世界のプロセスのあらゆる分析は、必ず歴史的であり、したがっておそらく最も有用になるには遅すぎる。 ここでは、サンプル化されたイノベーションタイムラインをホストし、これらのプロセスの全体的な統計と振る舞いを調査し、それらの構造や生成アルゴリズムへの依存度を決定するために使用できる一連の総合的なイノベーションWeb"辞書"を設計し、生成することで、この問題に対処しようとします。 そこで, Fink, Reeves, Palma, Farr (2017) の言語, 胃科, 技術革新に関する業績に触発されて, 有限個の記号から生成された辞書から得られる「単語」の語彙が, 新たな記号発見にどのように影響するかを考察した。 複数の異なる辞書生成モデルを数値シミュレーションを用いて検討し,辞書生成器やパラメータとしての知識のスケーリングに着目し,記号の順序が現れる役割について検討した。

A key challenge when trying to understand innovation is that it is a dynamic, ongoing process, which can be highly contingent on ephemeral factors such as culture, economics, or luck. This means that any analysis of the real-world process must necessarily be historical - and thus probably too late to be most useful - but also cannot be sure what the properties of the web of connections between innovations is or was. Here I try to address this by designing and generating a set of synthetic innovation web "dictionaries" that can be used to host sampled innovation timelines, probe the overall statistics and behaviours of these processes, and determine the degree of their reliance on the structure or generating algorithm. Thus, inspired by the work of Fink, Reeves, Palma and Farr (2017) on innovation in language, gastronomy, and technology, I study how new symbol discovery manifests itself in terms of additional "word" vocabulary being available from dictionaries generated from a finite number of symbols. Several distinct dictionary generation models are investigated using numerical simulation, with emphasis on the scaling of knowledge as dictionary generators and parameters are varied, and the role of which order the symbols are discovered in.
翻訳日:2023-10-16 18:43:45 公開日:2023-10-12
# 視覚的デキスタリティ:奥行きによる手動デキスタラスマニピュレーション

Visual Dexterity: In-hand Dexterous Manipulation from Depth ( http://arxiv.org/abs/2211.11744v2 )

ライセンス: Link先を確認
Tao Chen, Megha Tippur, Siyang Wu, Vikash Kumar, Edward Adelson, Pulkit Agrawal(参考訳) 道具の使用など、現在のロボットの到達範囲を超えているあまり構造化されていない環境において、多くの巧妙な操作を行うためには、手動で物体の向きを変える必要がある。 従来の作業では、単純な形状で特定のオブジェクトのみを並べ替えること、遅いまたは準静的な操作の制限、シミュレーションのみの結果、特殊でコストのかかるセンサースイートの必要性、その他の制約により、実際の配置ではシステムが利用できないと仮定していた。 このような仮定を行わない汎用オブジェクトリオリエンテーションコントローラを提案する。 単一の商品の奥行きカメラからの読み出しを使って、動的にリオリエントされたコンプレックスと新しい物体の形をリアルタイムに回転させ、中央のリオリエンテーション時間は7秒近くになる。 このコントローラーは、シミュレーションで強化学習を用いて訓練され、訓練に使われていない新しい物体の形状について現実世界で評価される。 私たちのハードウェアプラットフォームは、500ドル未満のオープンソースコンポーネントのみを使用します。 事前の作業で仮定を克服する能力を示す一方で、絶対的なパフォーマンスを改善するための十分な範囲があります。 例えば、訓練に使用されない挑戦的なダック型の物体は、試験の56%で取り下げられた。 落下しなかった場合、制御器は0.4ラディアン(すなわち23度)の75%の範囲内で物体を方向転換した。 ビデオは、https://taochenshh.github.io/projects/visual-dexterity.comで公開されている。

In-hand object reorientation is necessary for performing many dexterous manipulation tasks, such as tool use in less structured environments that remain beyond the reach of current robots. Prior works built reorientation systems assuming one or many of the following: reorienting only specific objects with simple shapes, limited range of reorientation, slow or quasistatic manipulation, simulation-only results, the need for specialized and costly sensor suites, and other constraints which make the system infeasible for real-world deployment. We present a general object reorientation controller that does not make these assumptions. It uses readings from a single commodity depth camera to dynamically reorient complex and new object shapes by any rotation in real-time, with the median reorientation time being close to seven seconds. The controller is trained using reinforcement learning in simulation and evaluated in the real world on new object shapes not used for training, including the most challenging scenario of reorienting objects held in the air by a downward-facing hand that must counteract gravity during reorientation. Our hardware platform only uses open-source components that cost less than five thousand dollars. While we demonstrate the ability to overcome assumptions in prior work, there is ample scope for improving absolute performance. For instance, the challenging duck-shaped object not used for training was dropped in 56% of the trials. When it was not dropped, our controller reoriented the object within 0.4 radians (i.e., 23 degrees) 75% of the time. Videos are available at: https://taochenshh.github.io/projects/visual-dexterity.
翻訳日:2023-10-16 18:39:07 公開日:2023-10-12
# CUTS: マルチグラニュラー非教師型医用画像分割のためのフレームワーク

CUTS: A Framework for Multigranular Unsupervised Medical Image Segmentation ( http://arxiv.org/abs/2209.11359v6 )

ライセンス: Link先を確認
Chen Liu, Matthew Amodio, Liangbo L. Shen, Feng Gao, Arman Avesta, Sanjay Aneja, Jay C. Wang, Lucian V. Del Priore, Smita Krishnaswamy(参考訳) 医療画像のセグメンテーションは、患者の診断と定量的研究の促進に不可欠である。 主な制限要因はラベル付きデータの欠如である。新しい画像データやタスクのセットごとに専門家のアノテーションを取得することは、アノテータ間でコストがかかり、労力がかかり、一貫性がない。 そこで本研究では,医療画像分割のための教師なしディープラーニングフレームワークであるcut(contrastive and unsupervised training for multi-granular medical image segmentation)を提案する。 CUTSは、新しい2段階アプローチを活用することで機能する。 まず画像固有の埋め込みマップを画像内コントラスト損失と局所的なパッチ再構成の目的により生成する。 第二に、これらの埋め込みはデータトポロジに対応する動的レベルの粒度で分割される。 最終的に、カットは様々なスケールで画像の特徴を強調する一連の粗粒度のセグメンテーションをもたらす。 網膜基底画像と2種類の脳MRI画像にCUTSを適用し、異なるスケールで構造とパターンを記述し、臨床医に異なる情報を提供する。 与えられた粒度で予め定義された解剖学的マスクに対して評価すると、CUTSは既存の教師なし法に比べて10%から200%のダイス係数とハウスドルフ距離の改善を示す。 さらにcutsは、1100万枚の画像と11億枚のマスクで事前訓練された最新のsegment anythingモデルと同等のパフォーマンスを示している。 まとめると、CUTSでは、大規模なラベル付きデータセットや膨大な計算資源に頼ることなく、医療画像のセグメンテーションを効果的に解決できることを示した。

Segmenting medical images is critical to facilitating both patient diagnoses and quantitative research. A major limiting factor is the lack of labeled data, as obtaining expert annotations for each new set of imaging data or task can be expensive, labor intensive, and inconsistent among annotators. To address this, we present CUTS (Contrastive and Unsupervised Training for multi-granular medical image Segmentation), a fully unsupervised deep learning framework for medical image segmentation to better utilize the vast majority of imaging data that are not labeled or annotated. CUTS works by leveraging a novel two-stage approach. First, it produces an image-specific embedding map via intra-image contrastive loss and a local patch reconstruction objective. Second, these embeddings are partitioned at dynamic levels of granularity that correspond to the data topology. Ultimately, CUTS yields a series of coarse-to-fine-grained segmentations that highlight image features at various scales. We apply CUTS to retinal fundus images and two types of brain MRI images in order to delineate structures and patterns at different scales, providing distinct information relevant for clinicians. When evaluated against predefined anatomical masks at a given granularity, CUTS demonstrates improvements ranging from 10% to 200% on dice coefficient and Hausdorff distance compared to existing unsupervised methods. Further, CUTS shows performance on par with the latest Segment Anything Model which was pre-trained in a supervised fashion on 11 million images and 1.1 billion masks. In summary, with CUTS we demonstrate that medical image segmentation can be effectively solved without relying on large, labeled datasets or vast computational resources.
翻訳日:2023-10-16 18:38:24 公開日:2023-10-12
# 言語モデルの重み付けによるデータレス知識融合

Dataless Knowledge Fusion by Merging Weights of Language Models ( http://arxiv.org/abs/2212.09849v5 )

ライセンス: Link先を確認
Xisen Jin, Xiang Ren, Daniel Preotiuc-Pietro, Pengxiang Cheng(参考訳) 微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。 多くの場合、微調整されたモデルは簡単に利用できるが、データのプライバシーや知的財産の懸念からトレーニングデータは利用できない。 これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。 本稿では、異なるトレーニングデータセット上に構築された個別モデルをマージして、すべてのデータセットドメインでよく機能し、ドメイン外のデータで一般化できる単一モデルを得るという課題について考察する。 本稿では,モデルと各モデルとの予測差を最小化する重み付けにより,パラメータ空間でモデルをマージするデータレス知識融合手法を提案する。 評価設定のバッテリ上では,提案手法がフィッシャー重み付け平均化やモデルアンサンブルなどのベースラインを著しく上回ることを示す。 さらに,本手法は,学習データにアクセスせずに個々のモデルを保存・改善できるマルチタスク学習に代わる有望な方法であることがわかった。 最後に、モデルマージはマルチタスクモデルのトレーニングよりも効率的であるため、より広範なシナリオに適用できる。

Fine-tuning pre-trained language models has become the prevalent paradigm for building downstream NLP models. Oftentimes fine-tuned models are readily available but their training data is not, due to data privacy or intellectual property concerns. This creates a barrier to fusing knowledge across individual models to yield a better single model. In this paper, we study the problem of merging individual models built on different training data sets to obtain a single model that performs well both across all data set domains and can generalize on out-of-domain data. We propose a dataless knowledge fusion method that merges models in their parameter space, guided by weights that minimize prediction differences between the merged model and the individual models. Over a battery of evaluation settings, we show that the proposed method significantly outperforms baselines such as Fisher-weighted averaging or model ensembling. Further, we find that our method is a promising alternative to multi-task learning that can preserve or sometimes improve over the individual models without access to the training data. Finally, model merging is more efficient than training a multi-task model, thus making it applicable to a wider set of scenarios.
翻訳日:2023-10-16 18:29:36 公開日:2023-10-12
# ViNL: 障害物に対する視覚ナビゲーションと移動

ViNL: Visual Navigation and Locomotion Over Obstacles ( http://arxiv.org/abs/2210.14791v3 )

ライセンス: Link先を確認
Simar Kareer, Naoki Yokoyama, Dhruv Batra, Sehoon Ha, Joanne Truong(参考訳) 視覚ナビゲーションと障害物の移動(ViNL)は、人間やペットが歩きながら足を持ち上げるのと同じように、四足歩行ロボットが見えないアパートを移動しながら、その道にある小さな障害物(靴、おもちゃ、ケーブルなど)を踏むことができる。 ViNLは,(1)不慣れな屋内環境における目標座標にロボットを誘導する線形および角速度コマンドを出力する視覚的ナビゲーションポリシーと,(2)ロボットの関節を制御し,提供された速度コマンドに従って障害物を踏むことを避ける視覚的移動ポリシーとから構成される。 どちらのポリシーも完全に"モデルフリー"、すなわちエンドツーエンドにトレーニングされたセンサー間ニューラルネットワークである。 2つは2つの全く異なるシミュレータで独立に訓練され、ナビゲータからの速度コマンドをロコモターに供給することでシームレスに共存し、完全に「ゼロショット」となる(コトレーニングは一切行わない)。 従来,視覚的ナビゲーションや視覚的移動の学習手法が開発されてきたが,この手法は,(1)新しい環境におけるインテリジェントなナビゲーションと(2)障害物を乱さずに散らばった環境を横断するインテリジェントな視覚的移動の両方を達成するために,視覚を利用する最初の完全学習手法である。 未知環境における遠隔目標へのナビゲーションのタスクにおいて、vinlは、特権付き地形地図を用いたロバストなロコモーション(+32.8%の成功と4.42mの衝突)の以前の作業を大きく上回っている。 さらに,ロコモーションポリシを緩和して,アプローチの各側面が障害物衝突の低減に役立つことを示す。 ビデオとコード: http://www.joannetruong.com/projects/vinl.html

We present Visual Navigation and Locomotion over obstacles (ViNL), which enables a quadrupedal robot to navigate unseen apartments while stepping over small obstacles that lie in its path (e.g., shoes, toys, cables), similar to how humans and pets lift their feet over objects as they walk. ViNL consists of: (1) a visual navigation policy that outputs linear and angular velocity commands that guides the robot to a goal coordinate in unfamiliar indoor environments; and (2) a visual locomotion policy that controls the robot's joints to avoid stepping on obstacles while following provided velocity commands. Both the policies are entirely "model-free", i.e. sensors-to-actions neural networks trained end-to-end. The two are trained independently in two entirely different simulators and then seamlessly co-deployed by feeding the velocity commands from the navigator to the locomotor, entirely "zero-shot" (without any co-training). While prior works have developed learning methods for visual navigation or visual locomotion, to the best of our knowledge, this is the first fully learned approach that leverages vision to accomplish both (1) intelligent navigation in new environments, and (2) intelligent visual locomotion that aims to traverse cluttered environments without disrupting obstacles. On the task of navigation to distant goals in unknown environments, ViNL using just egocentric vision significantly outperforms prior work on robust locomotion using privileged terrain maps (+32.8% success and -4.42 collisions per meter). Additionally, we ablate our locomotion policy to show that each aspect of our approach helps reduce obstacle collisions. Videos and code at http://www.joannetruong.com/projects/vinl.html
翻訳日:2023-10-16 18:27:45 公開日:2023-10-12
# 画像と映像のパノプティブ・セグメンテーションのための一般フレームワーク

A Generalist Framework for Panoptic Segmentation of Images and Videos ( http://arxiv.org/abs/2210.06366v4 )

ライセンス: Link先を確認
Ting Chen, Lala Li, Saurabh Saxena, Geoffrey Hinton, David J. Fleet(参考訳) panoptic segmentationはイメージの各ピクセルにセマンティックidとインスタンスidラベルを割り当てる。 インスタンスIDの置換も有効な解であるため、タスクは高次元の1対多マッピングの学習を必要とする。 その結果、最先端のアプローチはカスタマイズされたアーキテクチャとタスク固有の損失関数を使用する。 我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティックセグメンテーションを定式化する。 単純な構造と一般的な損失関数を持つパノスコープマスクをモデル化するための拡散モデルを提案する。 条件付け信号として過去の予測を加えるだけで、ビデオ(ストリーミング設定)をモデル化し、オブジェクトのインスタンスを自動的に追跡することが可能になる。 広範な実験により,我々のアプローチが類似した環境で最先端のスペシャリストメソッドと競合することを実証した。

Panoptic segmentation assigns semantic and instance ID labels to every pixel of an image. As permutations of instance IDs are also valid solutions, the task requires learning of high-dimensional one-to-many mapping. As a result, state-of-the-art approaches use customized architectures and task-specific loss functions. We formulate panoptic segmentation as a discrete data generation problem, without relying on inductive bias of the task. A diffusion model is proposed to model panoptic masks, with a simple architecture and generic loss function. By simply adding past predictions as a conditioning signal, our method is capable of modeling video (in a streaming setting) and thereby learns to track object instances automatically. With extensive experiments, we demonstrate that our simple approach can perform competitively to state-of-the-art specialist methods in similar settings.
翻訳日:2023-10-16 18:27:13 公開日:2023-10-12
# Habitat-Matterport 3Dセマンティックスデータセット

Habitat-Matterport 3D Semantics Dataset ( http://arxiv.org/abs/2210.05633v3 )

ライセンス: Link先を確認
Karmesh Yadav, Ram Ramrakhya, Santhosh Kumar Ramakrishnan, Theo Gervet, John Turner, Aaron Gokaslan, Noah Maestre, Angel Xuan Chang, Dhruv Batra, Manolis Savva, Alexander William Clegg, Devendra Singh Chaplot(参考訳) habitat-matterport 3d semantics (hm3dsem)データセットを提案する。 HM3DSEMは3次元現実空間の最大のデータセットであり、現在学術的なコミュニティで利用可能である。 216の3dスペースと3,100のルームにわたる142,646のオブジェクトインスタンスアノテーションで構成されている。 オブジェクトアノテーションのスケール、品質、多様性は、以前のデータセットよりもはるかに多い。 他のデータセットとHM3DSEMを区別する重要な違いは、テクスチャ情報を使用して画素精度のオブジェクト境界に注釈を付けることである。 hm3dsemデータセットを異なる手法を用いてオブジェクトゴールナビゲーションタスクに有効性を示す。 HM3DSEMを使用してトレーニングされたポリシーは、以前のデータセットでトレーニングされたものよりも優れています。 Habitat ObjectNav ChallengeにおけるHM3DSEMの導入は、2021年の400件から2022年の1022件に増加した。

We present the Habitat-Matterport 3D Semantics (HM3DSEM) dataset. HM3DSEM is the largest dataset of 3D real-world spaces with densely annotated semantics that is currently available to the academic community. It consists of 142,646 object instance annotations across 216 3D spaces and 3,100 rooms within those spaces. The scale, quality, and diversity of object annotations far exceed those of prior datasets. A key difference setting apart HM3DSEM from other datasets is the use of texture information to annotate pixel-accurate object boundaries. We demonstrate the effectiveness of HM3DSEM dataset for the Object Goal Navigation task using different methods. Policies trained using HM3DSEM perform outperform those trained on prior datasets. Introduction of HM3DSEM in the Habitat ObjectNav Challenge lead to an increase in participation from 400 submissions in 2021 to 1022 submissions in 2022.
翻訳日:2023-10-16 18:26:59 公開日:2023-10-12
# 知識は微調整言語モデルのための重み空間の領域である

Knowledge is a Region in Weight Space for Fine-tuned Language Models ( http://arxiv.org/abs/2302.04863v3 )

ライセンス: Link先を確認
Almog Gueta, Elad Venezian, Colin Raffel, Noam Slonim, Yoav Katz, Leshem Choshen(参考訳) ニューラルネットワークの研究は、単一のデータセットでトレーニングされた単一のモデルを理解することに集中している。 しかしながら、異なるモデル、特に異なるデータセットでトレーニングまたはテストされたモデル間の関係について、比較的知られていない。 我々は、異なるモデルの重み空間と下層の損失景観がどのように相互接続されているかを研究することでこの問題に対処する。 具体的には、高性能に最適化された微調整されたモデルが、重み空間内の明確に定義された領域に存在し、その逆もまた高いパフォーマンスを示すことを実証する。 特に、同じデータセットで微調整された言語モデルは重み空間において密なクラスタを形成し、同じタスクの異なるデータセットで微調整されたモデルはより疎いクラスタを形成する。 さらに、モデル間の領域を横切ると、元のモデルが微調整されていないタスクであっても、微調整によって得られるモデルと同等あるいはそれ以上の性能を発揮する新しいモデルが生まれる。 本研究は, モデル間の関係を考察し, 2つの類似モデルの間に配置されたモデルが両者の知識を得られることを示した。 これを利用して、効率的な微調整のためのより良いモデルを選択する方法を設計する。 具体的には、12データセット中11データセットで事前訓練されたモデルを使用するよりも、領域の中心から始める方が効果的であることが示され、平均精度は3.06。

Research on neural networks has focused on understanding a single model trained on a single dataset. However, relatively little is known about the relationships between different models, particularly those trained or tested on different datasets. We address this by studying how the weight space and the underlying loss landscape of different models are interconnected. Specifically, we demonstrate that finetuned models that were optimized for high performance, reside in well-defined regions in weight space, and vice versa -- that any model that resides anywhere in those regions also exhibits high performance. Notably, we show that language models that have been finetuned on the same dataset form a tight cluster in the weight space, while models finetuned on different datasets from the same underlying task form a looser cluster. Moreover, traversing around the region between the models leads to new models that perform comparably or even better than models obtained via finetuning, even on tasks that the original models were not finetuned on. Our findings provide insight into the relationships between models, demonstrating that a model positioned between two similar models can acquire the knowledge of both. We leverage this and design a method for selecting a better model for efficient finetuning. Specifically, we show that starting from the center of the region is as effective, if not more, than using the pretrained model in 11 out of 12 datasets, resulting in an average accuracy improvement of 3.06.
翻訳日:2023-10-16 18:17:39 公開日:2023-10-12
# a golden age:共謀説と偽情報、ニュースメディア、そしてより広いインターネットの関係

A Golden Age: Conspiracy Theories' Relationship with Misinformation Outlets, News Media, and the Wider Internet ( http://arxiv.org/abs/2301.10880v4 )

ライセンス: Link先を確認
Hans W. A. Hanley, Deepak Kumar, Zakir Durumeric(参考訳) 我々は「陰謀論の黄金時代」に生きているのか? 過去数十年間、陰謀説はインターネット上で広まり、現実世界では危険な結果をもたらしている。 1月6日の米国議会議事堂攻撃に参加した人々の多くは、QAnon陰謀説を熱心に信じていた。 本研究では,5つの有名な陰謀論(QAnon, COVID, UFO/Aliens, 9/11, Flat-Earth)と,それぞれのメディアとの関係について検討する。 5つの陰謀論を専門とする755の異なる陰謀論のwebサイトを同定し、公開することで、それぞれのセットが同じ外部ドメインにハイパーリンクされることが少なく、covid-19とqanon陰謀論のwebサイトが共有接続の量が最も多いことが分かりました。 ニュースメディアの役割を見てみると、私たちの陰謀論のウェブサイトに誤報のハイパーリンクを広めることで知られるメディアが、2018年から2021年にかけて、QAnonの出現と新型コロナウイルスのパンデミックの開始によって、そのハイパーリンクが劇的に増加したことも分かる。 誤報サイトからのハイパーリンクと陰謀論Webサイトの人気との間には,いくつかの肯定的な相関関係が発見され,誤報ニュースメディアが陰謀論の普及に果たす重要な役割が示唆された。

Do we live in a "Golden Age of Conspiracy Theories?" In the last few decades, conspiracy theories have proliferated on the Internet with some having dangerous real-world consequences. A large contingent of those who participated in the January 6th attack on the US Capitol fervently believed in the QAnon conspiracy theory. In this work, we study the relationships amongst five prominent conspiracy theories (QAnon, COVID, UFO/Aliens, 9/11, and Flat-Earth) and each of their respective relationships to the news media, both authentic news and misinformation. Identifying and publishing a set of 755 different conspiracy theory websites dedicated to our five conspiracy theories, we find that each set often hyperlinks to the same external domains, with COVID and QAnon conspiracy theory websites having the largest amount of shared connections. Examining the role of news media, we further find that not only do outlets known for spreading misinformation hyperlink to our set of conspiracy theory websites more often than authentic news websites but also that this hyperlinking increased dramatically between 2018 and 2021, with the advent of QAnon and the start of COVID-19 pandemic. Using partial Granger-causality, we uncover several positive correlative relationships between the hyperlinks from misinformation websites and the popularity of conspiracy theory websites, suggesting the prominent role that misinformation news outlets play in popularizing many conspiracy theories.
翻訳日:2023-10-16 18:16:28 公開日:2023-10-12
# ゴール認識表現学習と適応水平予測によるオープンワールドマルチタスク制御

Open-World Multi-Task Control Through Goal-Aware Representation Learning and Adaptive Horizon Prediction ( http://arxiv.org/abs/2301.10034v3 )

ライセンス: Link先を確認
Shaofei Cai, Zihao Wang, Xiaojian Ma, Anji Liu, Yitao Liang(参考訳) 我々は、人間レベルのマルチタスクエージェントを開発するために、普及し、広くアクセスしやすく、挑戦的なオープンエンド環境であるMinecraftの目標条件ポリシーを学習する問題について研究する。 まず、このような政策を学ぶ上での2つの主な課題を特定します。 1)広い場面の多様性により、国家分布からタスクが区別できないこと、及び 2)部分的可観測性に起因する環境力学の非定常性。 最初の課題に取り組むために,目標関連視覚状態表現の出現を促す政策として,目標感性バックボーン(GSB)を提案する。 第2の課題に取り組むために、このポリシーは非定常力学による学習の不確実性を緩和する適応的な水平予測モジュールによってさらに加速される。 20のMinecraftタスクの実験では、我々のメソッドが今までで最高のベースラインを大幅に上回っていることが示されています。 我々のアブレーションと探索研究は、我々のアプローチがどのように相手を圧倒するかを説明し、新しいシーン(バイオーム)にゼロショットの一般化の驚くべきボーナスを明らかにします。 当社のエージェントが,minecraftのようなオープンな環境において,目標条件とマルチタスクエージェントの学習に光を当ててくれることを願っています。

We study the problem of learning goal-conditioned policies in Minecraft, a popular, widely accessible yet challenging open-ended environment for developing human-level multi-task agents. We first identify two main challenges of learning such policies: 1) the indistinguishability of tasks from the state distribution, due to the vast scene diversity, and 2) the non-stationary nature of environment dynamics caused by partial observability. To tackle the first challenge, we propose Goal-Sensitive Backbone (GSB) for the policy to encourage the emergence of goal-relevant visual state representations. To tackle the second challenge, the policy is further fueled by an adaptive horizon prediction module that helps alleviate the learning uncertainty brought by the non-stationary dynamics. Experiments on 20 Minecraft tasks show that our method significantly outperforms the best baseline so far; in many of them, we double the performance. Our ablation and exploratory studies then explain how our approach beat the counterparts and also unveil the surprising bonus of zero-shot generalization to new scenes (biomes). We hope our agent could help shed some light on learning goal-conditioned, multi-task agents in challenging, open-ended environments like Minecraft.
翻訳日:2023-10-16 18:16:01 公開日:2023-10-12
# プログラミングコースでフィードバックを提供するスマートチューター

Smart tutor to provide feedback in programming courses ( http://arxiv.org/abs/2301.09918v2 )

ライセンス: Link先を確認
David Rold\'an-\'Alvarez(参考訳) 人工知能(AI)は、時間経過とともにますます人気を増し、過去には困難だったタスクの実行を可能にしている。 予測からカスタマイズに至るまで、AIはこの状況以外の教育環境ではなく、多くの分野で使用されている。 AIは、コンテンツをカスタマイズしたり、生徒にパーソナライズされたフィードバックを提供するために、教育現場で使われている。 このシナリオでは、プログラミング教育におけるaiは、まだ検討する必要のあるものだ。この領域では、通常、学生の仕事を評価するための評価ツールを見つけるが、プログラムの作成プロセスにおいて、学生にフィードバックを提供するためのツールは多くない。 この研究では、学生がプログラミングの質問に答えるAIベースのインテリジェントチューターを提示する。 このツールは、URJCの全コースで大学生によってテストされている。 たとえそのツールがまだ予備段階にあるとしても、学生が質問をし、正確な回答とサンプルを提供した。 学生たちは知的な家庭教師を簡単に使えるようになり、他のコースで使うのに便利なツールだと考えた。

Artificial Intelligence (AI) is becoming more and more popular as time passes, allowing to perform tasks that were difficult to do in the past. From predictions to customization, AI is being used in many areas, not being educational environments outside this situation. AI is being used in educational settings to customize contents or to provide personalized feedback to the students, among others. In this scenario, AI in programming teaching is something that still has to be explored, since in this area we usually find assessment tools that allow grading the students work, but we can not find many tools aimed towards providing feedback to the students in the process of creating their program. In this work we present an AI based intelligent tutor that answers students programming questions. The tool has been tested by university students at the URJC along a whole course. Even if the tool is still in its preliminary phase, it helped the students with their questions, providing accurate answers and examples. The students were able to use the intelligent tutor easily and they thought that it could be a useful tool to use in other courses.
翻訳日:2023-10-16 18:15:40 公開日:2023-10-12
# パーキンソン病におけるドーパミンニューロンのセグメンテーションと定量化のための自己教師型学習

Self-supervised Learning for Segmentation and Quantification of Dopamine Neurons in Parkinson's Disease ( http://arxiv.org/abs/2301.08141v2 )

ライセンス: Link先を確認
Fatemeh Haghighi, Soumitra Ghosh, Hai Ngu, Sarah Chu, Han Lin, Mohsen Hejrati, Baris Bingol, Somaye Hashemifar(参考訳) パーキンソン病はヒトで2番目に多い神経変性疾患である。 PDの特徴は、Instantia Nigra(SN)におけるドパミン作動性ニューロンの段階的な消失である。 SNのドーパミン作動性ニューロン数を数えることは、PD動物モデルにおける薬効を評価する上で最も重要な指標の1つである。 現在, ドパミン作動性ニューロンの解析と定量化は, 手間がかかり, 時間を要する, 主観的なデジタル病理画像の解析を通じて, 専門家によって手作業で行われている。 そのため、デジタル病理画像におけるドーパミン作動性ニューロンの定量化には、信頼性と偏りのない自動システムが必要である。 近年、医療画像処理におけるディープラーニングソリューションの採用が急増している。 しかし、高性能なディープラーニングモデルの開発は、特にデジタル病理画像解析のようなアプリケーションにおいて、取得にコストがかかるような、大規模で高品質な注釈付きデータの可用性に頼っている。 そこで本研究では,PD動物モデルにおけるドーパミン作動性ニューロンの分節と定量化のための自己教師型学習に基づくエンドツーエンドディープラーニングフレームワークを提案する。 我々の知る限り、これはドーパミン作動性ニューロンの細胞体を検出し、ドーパミン作動性ニューロンの数を数え、個々のドーパミン作動性ニューロンの特徴を数値出力として提供する最初のディープラーニングモデルである。 広範囲な実験により,高い精度でニューロンを定量化するためのモデルの有効性が示され,薬物有効性の研究,ドーパミン作動性ニューロンの健康状態の理解向上,pd前臨床研究における偏りのない結果が得られている。 また, TH陽性神経ソーマのセグメンテーションのための専門家アノテーションとともに, 初めて公開された組織学的デジタル画像のデータセットも提供した。

Parkinson's Disease (PD) is the second most common neurodegenerative disease in humans. PD is characterized by the gradual loss of dopaminergic neurons in the Substantia Nigra (SN). Counting the number of dopaminergic neurons in the SN is one of the most important indexes in evaluating drug efficacy in PD animal models. Currently, analyzing and quantifying dopaminergic neurons is conducted manually by experts through analysis of digital pathology images which is laborious, time-consuming, and highly subjective. As such, a reliable and unbiased automated system is demanded for the quantification of dopaminergic neurons in digital pathology images. Recent years have seen a surge in adopting deep learning solutions in medical image processing. However, developing high-performing deep learning models hinges on the availability of large-scale, high-quality annotated data, which can be expensive to acquire, especially in applications like digital pathology image analysis. To this end, we propose an end-to-end deep learning framework based on self-supervised learning for the segmentation and quantification of dopaminergic neurons in PD animal models. To the best of our knowledge, this is the first deep learning model that detects the cell body of dopaminergic neurons, counts the number of dopaminergic neurons, and provides characteristics of individual dopaminergic neurons as a numerical output. Extensive experiments demonstrate the effectiveness of our model in quantifying neurons with high precision, which can provide a faster turnaround for drug efficacy studies, better understanding of dopaminergic neuronal health status, and unbiased results in PD pre-clinical research. As part of our contributions, we also provide the first publicly available dataset of histology digital images along with expert annotations for the segmentation of TH-positive DA neuronal soma.
翻訳日:2023-10-16 18:15:22 公開日:2023-10-12
# ガイド遊びからの学習:単純な補助的タスクによる敵模倣学習の探索の改善

Learning from Guided Play: Improving Exploration for Adversarial Imitation Learning with Simple Auxiliary Tasks ( http://arxiv.org/abs/2301.00051v2 )

ライセンス: Link先を確認
Trevor Ablett, Bryan Chan, Jonathan Kelly(参考訳) 逆模倣学習(Adversarial mimicion learning, AIL)は、後者が被る分布シフトを低減する教師付き模倣学習の代替として人気がある。 しかし、AILはオンライン強化学習フェーズにおいて効果的な探索を必要とする。 本研究は,ailで学習した方針が専門的分布と十分に一致する場合に,所望のタスクを十分に学習することなく,標準的かつナイーブな探索アプローチが最適の局所的最大値として現れることを示す。 これは特に、専門家と専門家でない状態-アクションペアの違いが微妙な操作タスクでは破滅的です。 本稿では,主課題に加えて,複数の探索的補助課題のエキスパートによる実演を活用できるフレームワークであるLearning from Guided Play (LfGP)を紹介する。 これらの補助的なタスクを追加することで、エージェントは標準のAILが無視することを学べる状態や行動を探さざるを得なくなる。 さらに、この特別な定式化により、メインタスク間の専門家データの再利用が可能になる。 実験結果から,多タスクロボット操作領域において,lfgpはailと行動クローンの両方よりも有意に優れており,また,これらのベースラインよりもエキスパートサンプル効率が高いことが示された。 この性能の差を説明するために,局所的な最大値と貧弱な探索の結合を強調する玩具問題のさらなる解析と,ailから学習したモデルとlfgpとの差異を可視化する。

Adversarial imitation learning (AIL) has become a popular alternative to supervised imitation learning that reduces the distribution shift suffered by the latter. However, AIL requires effective exploration during an online reinforcement learning phase. In this work, we show that the standard, naive approach to exploration can manifest as a suboptimal local maximum if a policy learned with AIL sufficiently matches the expert distribution without fully learning the desired task. This can be particularly catastrophic for manipulation tasks, where the difference between an expert and a non-expert state-action pair is often subtle. We present Learning from Guided Play (LfGP), a framework in which we leverage expert demonstrations of multiple exploratory, auxiliary tasks in addition to a main task. The addition of these auxiliary tasks forces the agent to explore states and actions that standard AIL may learn to ignore. Additionally, this particular formulation allows for the reusability of expert data between main tasks. Our experimental results in a challenging multitask robotic manipulation domain indicate that LfGP significantly outperforms both AIL and behaviour cloning, while also being more expert sample efficient than these baselines. To explain this performance gap, we provide further analysis of a toy problem that highlights the coupling between a local maximum and poor exploration, and also visualize the differences between the learned models from AIL and LfGP.
翻訳日:2023-10-16 18:14:55 公開日:2023-10-12
# ゼロサムマルコフゲームにおける強化学習のための新しいポリシー反復アルゴリズム

A New Policy Iteration Algorithm For Reinforcement Learning in Zero-Sum Markov Games ( http://arxiv.org/abs/2303.09716v3 )

ライセンス: Link先を確認
Anna Winnicki, R. Srikant(参考訳) 標準のMDPにおける最適ポリシーは、値反復またはポリシー反復のいずれかを使って得ることができる。 しかし、ゼロサムマルコフゲームの場合、効率的なポリシー反復アルゴリズムは存在せず、例えば(hansen et al., 2013)、alphaが割引要因であるomega(1/(1-alpha)) mdpsを解き、唯一知られているポリシー反復の収束バージョンを実装する必要があることが示されている。 マルコフゼロサムゲームのための別のアルゴリズムはナイーブ・ポリシー・イテレーション(naive policy iteration)と呼ばれ、実装が容易であるが、非常に制限された仮定の下でのみ確実に収束する。 単純ポリシー反復アルゴリズムの修正の試みにはいくつかの制限がある。 ここでは,ゲームに対するナイーブなポリシー反復の簡単な変形が収束し,指数関数的に速く収束することを示す。 政策反復を示唆する唯一の追加は、政策改善フェーズにおけるルックアヘッドの使用です。 lookaheadはゲームのための実用的な学習アルゴリズムで使われているので、これは魅力的です。 さらに,よく研究されている線形mdpに対応する線形マルコフゲームにおいて,lookaheadを効率的に実装できることを示した。 本稿では,ポリシーベースrl(reinforcement learning)アルゴリズムのサンプルおよび時間複雑性境界を提供することにより,新しいポリシー反復アルゴリズムの適用例を示す。

Optimal policies in standard MDPs can be obtained using either value iteration or policy iteration. However, in the case of zero-sum Markov games, there is no efficient policy iteration algorithm; e.g., it has been shown in (Hansen et al., 2013) that one has to solve Omega(1/(1-alpha)) MDPs, where alpha is the discount factor, to implement the only known convergent version of policy iteration. Another algorithm for Markov zero-sum games, called naive policy iteration, is easy to implement but is only provably convergent under very restrictive assumptions. Prior attempts to fix naive policy iteration algorithm have several limitations. Here, we show that a simple variant of naive policy iteration for games converges, and converges exponentially fast. The only addition we propose to naive policy iteration is the use of lookahead in the policy improvement phase. This is appealing because lookahead is anyway used in practical learning algorithms for games. We further show that lookahead can be implemented efficiently in linear Markov games, which are the counterpart of the much-studied linear MDPs. We illustrate the application of our new policy iteration algorithm by providing sample and time complexity bounds for policy-based RL (reinforcement learning) algorithms.
翻訳日:2023-10-16 18:09:12 公開日:2023-10-12
# カーネル密度ベイズ逆強化学習

Kernel Density Bayesian Inverse Reinforcement Learning ( http://arxiv.org/abs/2303.06827v2 )

ライセンス: Link先を確認
Aishwarya Mandyam, Didong Li, Diana Cai, Andrew Jones, Barbara E. Engelhardt(参考訳) 逆強化学習(irl)はエージェントの報酬関数の振る舞いを観察することで推測する強力なフレームワークであるが、報酬関数のポイント推定を学習するirlアルゴリズムは、エージェントの振る舞いを等しく記述するいくつかの関数が存在するため、誤解を招く可能性がある。 IRLに対するベイズ的アプローチは、候補報酬関数上の分布をモデル化し、点推定を学習する際の欠点を緩和する。 しかし、いくつかのベイジアンIRLアルゴリズムは、確率関数の代わりに$Q$値関数を使用する。 結果として得られる後続関数は計算に集約的であり、理論的な保証はほとんどなく、$Q$-値関数は可能性の低い近似であることが多い。 本稿では,カーネル密度IRL(KD-BIRL)を導入し,条件付きカーネル密度推定を用いてその可能性を直接近似し,複雑な状態空間と無限の状態空間を持つ環境に適用可能な,報酬関数のパラメータ化を改良した効率的なフレームワークを提供する。 KD-BIRLの利点をグリッドワールド環境における一連の実験とシミュレートされたセシス処理タスクを通じて実証する。

Inverse reinforcement learning~(IRL) is a powerful framework to infer an agent's reward function by observing its behavior, but IRL algorithms that learn point estimates of the reward function can be misleading because there may be several functions that describe an agent's behavior equally well. A Bayesian approach to IRL models a distribution over candidate reward functions, alleviating the shortcomings of learning a point estimate. However, several Bayesian IRL algorithms use a $Q$-value function in place of the likelihood function. The resulting posterior is computationally intensive to calculate, has few theoretical guarantees, and the $Q$-value function is often a poor approximation for the likelihood. We introduce kernel density Bayesian IRL (KD-BIRL), which uses conditional kernel density estimation to directly approximate the likelihood, providing an efficient framework that, with a modified reward function parameterization, is applicable to environments with complex and infinite state spaces. We demonstrate KD-BIRL's benefits through a series of experiments in Gridworld environments and a simulated sepsis treatment task.
翻訳日:2023-10-16 18:08:02 公開日:2023-10-12
# DP-Fast MH:大規模ベイズ推定のためのプライベート,高速,高精度メトロポリスハスティング

DP-Fast MH: Private, Fast, and Accurate Metropolis-Hastings for Large-Scale Bayesian Inference ( http://arxiv.org/abs/2303.06171v4 )

ライセンス: Link先を確認
Wanrong Zhang, Ruqi Zhang(参考訳) ベイズ推論は、複雑なデータから学習し、不確実性の下で推論するための原則付きフレームワークを提供する。 医学的診断、薬物設計、政策立案といった機械学習のタスクに広く応用されている。 これらの一般的なアプリケーションでは、データは極めて敏感である。 differential privacy (dp)は、強力な最悪ケースのプライバシー保証を備えたデータ分析ツールを提供し、プライバシ保存データ解析における主要なアプローチとして開発されている。 本稿では,最も基本的なMCMC手法の一つであるMetropolis-Hastings(MH)について,差分プライバシー下での大規模ベイズ推定について検討する。 既存のプライベートmcmcアルゴリズムの多くは、プライバシを得るために精度と効率を犠牲にしているが、ほとんどのイテレーションでデータのミニバッチのみを使用して、初めて正確かつ高速なdp mhアルゴリズムを提供する。 さらに,プライバシ,スケーラビリティ(バッチサイズ),効率性(収束率)の3方向トレードオフを初めて明らかにし,ベイズ推論におけるプライバシが実用性や計算コストに与える影響を理論的に特徴付ける。 我々は,様々な実験において,アルゴリズムの有効性と効率を実証する。

Bayesian inference provides a principled framework for learning from complex data and reasoning under uncertainty. It has been widely applied in machine learning tasks such as medical diagnosis, drug design, and policymaking. In these common applications, data can be highly sensitive. Differential privacy (DP) offers data analysis tools with powerful worst-case privacy guarantees and has been developed as the leading approach in privacy-preserving data analysis. In this paper, we study Metropolis-Hastings (MH), one of the most fundamental MCMC methods, for large-scale Bayesian inference under differential privacy. While most existing private MCMC algorithms sacrifice accuracy and efficiency to obtain privacy, we provide the first exact and fast DP MH algorithm, using only a minibatch of data in most iterations. We further reveal, for the first time, a three-way trade-off among privacy, scalability (i.e. the batch size), and efficiency (i.e. the convergence rate), theoretically characterizing how privacy affects the utility and computational cost in Bayesian inference. We empirically demonstrate the effectiveness and efficiency of our algorithm in various experiments.
翻訳日:2023-10-16 18:07:34 公開日:2023-10-12
# 異種分布シフトによる統計的学習

Statistical Learning under Heterogenous Distribution Shift ( http://arxiv.org/abs/2302.13934v3 )

ライセンス: Link先を確認
Max Simchowitz, Anurag Ajay, Pulkit Agrawal, Akshay Krishnamurthy(参考訳) 本論では、一対の確率変数 $(\mathbf{x},\mathbf{y})$ からターゲット $\mathbf{z}$ の予測について検討する。そこで、基底トラス予測子は加法的 $\mathbb{E}[\mathbf{z} \mid \mathbf{x},\mathbf{y}] = f_\star(\mathbf{x}) +g_{\star}(\mathbf{y})$ である。 実験的リスク最小化(ERM)を,与えられたトレーニング分布に適合する関数$f+g$,$f \in F$,$g \in G$に対して検討するが,共変量シフトを示すテスト分布で評価する。 我々は、クラス$F$が$G$よりも「単純」であるとき(例えば、計量エントロピーの観点から測れば)、我々の予測子は、$\mathbf{x}$のシフトが$\mathbf{y}$のそれよりもはるかに大きい異種共変シフトに対してより弾力的であることを示す。 ERMが予測器の$f$-componentを回復する速度は、加法構造によって導入された部分的不確定性のために調整されたクラス$G$の複雑さへの低次依存しか持たない。 これらの結果は,ダドリー積分に対する新しいH\"古いスタイルの不等式に依存しており,多くの領域にまたがる「単純"な特徴の変化に対するレジリエンスの向上を示す実験により,我々の理論的知見を裏付けるものである。

This paper studies the prediction of a target $\mathbf{z}$ from a pair of random variables $(\mathbf{x},\mathbf{y})$, where the ground-truth predictor is additive $\mathbb{E}[\mathbf{z} \mid \mathbf{x},\mathbf{y}] = f_\star(\mathbf{x}) +g_{\star}(\mathbf{y})$. We study the performance of empirical risk minimization (ERM) over functions $f+g$, $f \in F$ and $g \in G$, fit on a given training distribution, but evaluated on a test distribution which exhibits covariate shift. We show that, when the class $F$ is "simpler" than $G$ (measured, e.g., in terms of its metric entropy), our predictor is more resilient to heterogenous covariate shifts} in which the shift in $\mathbf{x}$ is much greater than that in $\mathbf{y}$. Our analysis proceeds by demonstrating that ERM behaves qualitatively similarly to orthogonal machine learning: the rate at which ERM recovers the $f$-component of the predictor has only a lower-order dependence on the complexity of the class $G$, adjusted for partial non-indentifiability introduced by the additive structure. These results rely on a novel H\"older style inequality for the Dudley integral which may be of independent interest. Moreover, we corroborate our theoretical findings with experiments demonstrating improved resilience to shifts in "simpler" features across numerous domains.
翻訳日:2023-10-16 18:06:18 公開日:2023-10-12
# SO(3)等価な暗黙的神経表現を持つ生体細胞の生成モデル

Generative modeling of living cells with SO(3)-equivariant implicit neural representations ( http://arxiv.org/abs/2304.08960v2 )

ライセンス: Link先を確認
David Wiesner, Julian Suk, Sven Dummer, Tereza Ne\v{c}asov\'a, Vladim\'ir Ulman, David Svoboda, Jelmer M. Wolterink(参考訳) バイオメディカルイメージングにおけるデータ駆動型細胞追跡とセグメンテーション手法は、多様な情報豊富なトレーニングデータを必要とする。 トレーニングサンプル数が限られている場合、これらの手法を改善するために合成コンピュータ生成データセットを使用することができる。 これは、生成モデルを用いて細胞形状と対応する顕微鏡画像の合成を必要とする。 現実的な生きた細胞形状を合成するために、生成モデルで使われる形状表現は、細胞に共通するトポロジーの細部や変化を正確に表現できるべきである。 これらの要件は、解像度が制限された3dボクセルマスクや、細胞の成長や分裂などのプロセスを簡単にモデル化できないポリゴンメッシュでは満たされない。 本研究では,ニューラルネットワークによって推定される符号付き距離関数(SDF)のレベルセットとして,生きた細胞形状を表現することを提案する。 3D+時間領域の任意の点におけるSDF値の暗黙的な表現をセル形状の回転から切り離された学習潜在コードに条件付けるために、完全に接続されたニューラルネットワークを最適化する。 本研究では, 急激な変形を示す細胞 (Platynereis dumerilii) , 増殖・分裂する細胞 (C. elegans) および糸状体前駆細胞 (A549ヒト肺癌細胞) に対するこのアプローチの有効性を示す。 実細胞形状および合成細胞形状の形状特徴とサイス類似度係数を用いた定量的評価により,本モデルが実細胞形状と高い類似度を有する3d+時間における位相的可算複素細胞形状を生成できることを示した。 最後に,我々の生成した細胞形状に対応する生体細胞の顕微鏡像を画像から画像へのモデルを用いて合成する方法を示す。

Data-driven cell tracking and segmentation methods in biomedical imaging require diverse and information-rich training data. In cases where the number of training samples is limited, synthetic computer-generated data sets can be used to improve these methods. This requires the synthesis of cell shapes as well as corresponding microscopy images using generative models. To synthesize realistic living cell shapes, the shape representation used by the generative model should be able to accurately represent fine details and changes in topology, which are common in cells. These requirements are not met by 3D voxel masks, which are restricted in resolution, and polygon meshes, which do not easily model processes like cell growth and mitosis. In this work, we propose to represent living cell shapes as level sets of signed distance functions (SDFs) which are estimated by neural networks. We optimize a fully-connected neural network to provide an implicit representation of the SDF value at any point in a 3D+time domain, conditioned on a learned latent code that is disentangled from the rotation of the cell shape. We demonstrate the effectiveness of this approach on cells that exhibit rapid deformations (Platynereis dumerilii), cells that grow and divide (C. elegans), and cells that have growing and branching filopodial protrusions (A549 human lung carcinoma cells). A quantitative evaluation using shape features and Dice similarity coefficients of real and synthetic cell shapes shows that our model can generate topologically plausible complex cell shapes in 3D+time with high similarity to real living cell shapes. Finally, we show how microscopy images of living cells that correspond to our generated cell shapes can be synthesized using an image-to-image model.
翻訳日:2023-10-16 17:56:00 公開日:2023-10-12
# グラフニューラルネットワークにおけるプールの表現力

The expressive power of pooling in Graph Neural Networks ( http://arxiv.org/abs/2304.01575v3 )

ライセンス: Link先を確認
Filippo Maria Bianchi, Veronica Lachi(参考訳) グラフニューラルネットワーク(GNN)では、階層的なプーリング演算子は、グラフ構造と頂点の特徴を粗くすることで、データの局所的な要約を生成する。 GNNにおけるメッセージパッシング(MP)層の表現力の分析に多大な注意が払われているが、グラフプーリングがGNNの表現性にどのように影響するかの研究はいまだに不足している。 また、最近のプール演算子の設計の進歩にもかかわらず、比較する原則的な基準は存在しない。 本研究では, プール演算子がMP層の表現力を完全に維持するために必要な条件を導出する。 これらの条件は、既存のプーリング演算子の中から選択したり、新しいものを設計するための普遍的で理論的に根拠づけられた基準として機能する。 理論的な知見に基づき,既存のプーリング演算子を複数解析し,表現性の条件を満たすことができないものを同定する。 最後に,グラフ同型テストの実行能力の観点から,プール層を備えたGNNの表現力を実証的に検証する実験装置を提案する。

In Graph Neural Networks (GNNs), hierarchical pooling operators generate local summaries of the data by coarsening the graph structure and the vertex features. While considerable attention has been devoted to analyzing the expressive power of message-passing (MP) layers in GNNs, a study on how graph pooling affects the expressiveness of a GNN is still lacking. Additionally, despite the recent advances in the design of pooling operators, there is not a principled criterion to compare them. In this work, we derive sufficient conditions for a pooling operator to fully preserve the expressive power of the MP layers before it. These conditions serve as a universal and theoretically grounded criterion for choosing among existing pooling operators or designing new ones. Based on our theoretical findings, we analyze several existing pooling operators and identify those that fail to satisfy the expressiveness conditions. Finally, we introduce an experimental setup to verify empirically the expressive power of a GNN equipped with pooling layers, in terms of its capability to perform a graph isomorphism test.
翻訳日:2023-10-16 17:54:37 公開日:2023-10-12
# トランスフォーマー言語モデルにおける関係課題の解法

A Mechanism for Solving Relational Tasks in Transformer Language Models ( http://arxiv.org/abs/2305.16130v2 )

ライセンス: Link先を確認
Jack Merullo, Carsten Eickhoff, Ellie Pavlick(参考訳) 言語モデル(LM)に対する主要な批判は、その調査性である。 本稿では,そのサイズと複雑さにもかかわらず,一対一のリレーショナルタスク( capital_of(poland)=warsaw など)を解決するための単純な計算機構を lms が利用することがあることを示す。 学習環境における言語モデルのサイズ(124mパラメーターから176bパラメーター)を調査し、様々なタスク(資本都市、上向き、過去型)において、機構の重要な部分がfeedforward(ffn)ネットワークで典型的に適用される単純な線形更新に還元されることを示す。 これらの更新はまた、コンテンツに依存しない方法で関係の出力を促進する傾向がある(例えば、ポーランド:ワルシャワ::china:beijingをエンコーディング)。 さらに, このメカニズムは, ローカルコンテキストからの検索ではなく, 事前学習メモリからの検索を必要とするタスクに特有であることを示した。 この結果は,LLMの機械的解釈可能性の向上に寄与し,モデルが大規模かつ非線形であるにもかかわらず,最終的に課題を解決するために使用する戦略が,慣れ親しんだアルゴリズムや直感的なアルゴリズムに還元されるという楽観的な理由を与える。

A primary criticism towards language models (LMs) is their inscrutability. This paper presents evidence that, despite their size and complexity, LMs sometimes exploit a simple computational mechanism to solve one-to-one relational tasks (e.g., capital_of(Poland)=Warsaw). We investigate a range of language model sizes (from 124M parameters to 176B parameters) in an in-context learning setting, and find that for a variety of tasks (involving capital cities, upper-casing, and past-tensing) a key part of the mechanism reduces to a simple linear update typically applied by the feedforward (FFN) networks. These updates also tend to promote the output of the relation in a content-independent way (e.g., encoding Poland:Warsaw::China:Beijing), revealing a predictable pattern that these models take in solving these tasks. We further show that this mechanism is specific to tasks that require retrieval from pretraining memory, rather than retrieval from local context. Our results contribute to a growing body of work on the mechanistic interpretability of LLMs, and offer reason to be optimistic that, despite the massive and non-linear nature of the models, the strategies they ultimately use to solve tasks can sometimes reduce to familiar and even intuitive algorithms.
翻訳日:2023-10-16 17:47:52 公開日:2023-10-12
# 時変処理のための相反的生成モデル

Counterfactual Generative Models for Time-Varying Treatments ( http://arxiv.org/abs/2305.15742v2 )

ライセンス: Link先を確認
Shenghao Wu, Wenbin Zhou, Minshuo Chen, Shixiang Zhu(参考訳) 公衆衛生や臨床科学の意思決定には,治療の反事実的成果を推定することが不可欠である。 多くの場合、治療はシーケンシャルな時間的変化で行われ、その結果は指数関数的に増加する。 さらに、現代の応用では、結果は高次元であり、従来の平均治療効果推定では個人差を捉えることができない。 そこで本研究では, 時変処理下において, 明示的な密度推定を必要とせず, 対物サンプルを生成できる条件付き生成フレームワークを提案する。 本手法は逆確率重み付けに基づく損失関数を介して観測分布と反事実分布の分布ミスマッチを慎重に扱う。 合成データと実世界のデータの両方を用いて,本手法の徹底的な評価を行う。 提案手法は,高品質な反ファクトサンプルを生成でき,最先端のベースラインよりも優れていることを示す。

Estimating the counterfactual outcome of treatment is essential for decision-making in public health and clinical science, among others. Often, treatments are administered in a sequential, time-varying manner, leading to an exponentially increased number of possible counterfactual outcomes. Furthermore, in modern applications, the outcomes are high-dimensional and conventional average treatment effect estimation fails to capture disparities in individuals. To tackle these challenges, we propose a novel conditional generative framework capable of producing counterfactual samples under time-varying treatment, without the need for explicit density estimation. Our method carefully addresses the distribution mismatch between the observed and counterfactual distributions via a loss function based on inverse probability weighting. We present a thorough evaluation of our method using both synthetic and real-world data. Our results demonstrate that our method is capable of generating high-quality counterfactual samples and outperforms the state-of-the-art baselines.
翻訳日:2023-10-16 17:47:27 公開日:2023-10-12
# SciFix:科学的エラー訂正におけるGPT3のパフォーマンス

SciFix: Outperforming GPT3 on Scientific Factual Error Correction ( http://arxiv.org/abs/2305.14707v2 )

ライセンス: Link先を確認
Dhananjay Ashok, Atharva Kulkarni, Hai Pham, Barnab\'as P\'oczos(参考訳) 誤り訂正データセットを作成するコストが極端に高いため、ほとんどのFactual Claim Correction法は修正プロセスを導くために強力な検証モデルに依存している。 これにより、優れた検証モデルが存在するとは限らない、科学的な主張のようなドメインのパフォーマンスが大幅に低下する。 そこで本研究では,scifactデータセットでは84%,scifact-openデータセットでは77%,covid-19factデータセットでは72%,scifixは7%,5%,15%,それぞれ同一データセットでは7%,15%と,既存の手法をかなり超えている科学クレーム補正システムを提案する。 本手法は,LLMを学習中に促す力を利用して,十分に教師付きトレーニングや正規化に使用できるリッチな注釈付きデータセットを作成する。 さらに,クレームアウェア復号法を用いて,補正されたクレームの品質を向上させる。 この方法は注釈付きデータセットを生成するのに使われた非常にllmよりも優れており、gpt3.5上では、各データセットで58%、61%、64%を達成する数少ないプロンプトが、我々のモデルに800倍近いパラメータを使用しても、一貫して精度を低下させる。

Due to the prohibitively high cost of creating error correction datasets, most Factual Claim Correction methods rely on a powerful verification model to guide the correction process. This leads to a significant drop in performance in domains like scientific claims, where good verification models do not always exist. In this work, we introduce SciFix, a scientific claim correction system that does not require a verifier but can outperform existing methods by a considerable margin -- achieving correction accuracy of 84% on the SciFact dataset, 77% on SciFact-Open and 72% on the CovidFact dataset, compared to next best accuracies of 7%, 5%, and 15% on the same datasets respectively. Our method leverages the power of prompting with LLMs during training to create a richly annotated dataset that can be used for fully supervised training and regularization. We additionally use a claim-aware decoding procedure to improve the quality of corrected claims. Our method outperforms the very LLM that was used to generate the annotated dataset -- with Few-Shot Prompting on GPT3.5 achieving 58%, 61%, and 64% on the respective datasets, a consistently lower correction accuracy, despite using nearly 800 times as many parameters as our model.
翻訳日:2023-10-16 17:46:54 公開日:2023-10-12
# 適合ラベル配列から意味的役割ラベルを学習する

Learning Semantic Role Labeling from Compatible Label Sequences ( http://arxiv.org/abs/2305.14600v2 )

ライセンス: Link先を確認
Tao Li, Ghazaleh Kazeminejad, Susan W. Brown, Martha Palmer, Vivek Srikumar(参考訳) 意味的役割ラベリング (srl) は複数の異なるラベルセット(例えば verbnet や propbank)を持っている。 これらのデータセットの作成は難しいため、互いにどのように助け合うかという自然な疑問がある。 以前の研究では、クロスタスクインタラクションは役に立つが、これまではマルチタスク学習のみを探求している。 マルチタスク設定の一般的な問題は、引数シーケンスが別々にデコードされていることであり、構造的に一貫性のないラベルシーケンスを生成するリスクがある(semlinkのようなレキシコン)。 本稿では,VerbNetとPropBankのラベルを1つのシーケンスとしてモデル化するフレームワークを用いて,このような問題を解消する。 この設定では、デコード中のSemlink制約の強制は、F1全体を改善する。 特別な入力構成により,99 f1以上のpropbank引数から動詞引数を推測する。 学習のために,Semlinkで定義された知識を用いて学習し,PropBankのみの膨大なデータからさらに恩恵を受ける制約付き限界モデルを提案する。 conll05に基づくジョイントベンチマークでは,最先端のf1モデルを実現し,従来の最良ドメインモデルである3.5 (verbnet) と0.8 (propbank) を上回った。 ドメイン外一般化では、当社のモデルは以前の3.4(VerbNet)と0.2(PropBank)を上回ります。

Semantic role labeling (SRL) has multiple disjoint label sets, e.g., VerbNet and PropBank. Creating these datasets is challenging, therefore a natural question is how to use each one to help the other. Prior work has shown that cross-task interaction helps, but only explored multitask learning so far. A common issue with multi-task setup is that argument sequences are still separately decoded, running the risk of generating structurally inconsistent label sequences (as per lexicons like Semlink). In this paper, we eliminate such issue with a framework that jointly models VerbNet and PropBank labels as one sequence. In this setup, we show that enforcing Semlink constraints during decoding constantly improves the overall F1. With special input constructions, our joint model infers VerbNet arguments from given PropBank arguments with over 99 F1. For learning, we propose a constrained marginal model that learns with knowledge defined in Semlink to further benefit from the large amounts of PropBank-only data. On the joint benchmark based on CoNLL05, our models achieve state-of-the-art F1's, outperforming the prior best in-domain model by 3.5 (VerbNet) and 0.8 (PropBank). For out-of-domain generalization, our models surpass the prior best by 3.4 (VerbNet) and 0.2 (PropBank).
翻訳日:2023-10-16 17:46:30 公開日:2023-10-12
# セレンディピティーの獲得:オフポリティアクター批判における過去の成功価値の爆発

Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic ( http://arxiv.org/abs/2306.02865v3 )

ライセンス: Link先を確認
Tianying Ji, Yu Luo, Fuchun Sun, Xianyuan Zhan, Jianwei Zhang, Huazhe Xu(参考訳) 高品質なQ値関数の学習は、多くの現代のオフポリティ深い強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。 これまでの研究では、価値の過大評価問題、関数近似子の採用とオフポリティミー学習の成果に焦点が当てられている。 共通視点から考えると、RLトレーニングプロセスの後半段階では、Q値が実際に過小評価され、主にリプレイバッファのより最適なアクションサンプルと比較して、ベルマン更新における現在のポリシーからの劣るアクションの使用に関連している。 この長期にわたる現象が政策学習を妨げる可能性があり、サンプル効率を低下させるという仮説を立てる。 この問題に対処するための私たちの洞察は、探索の楽観性を維持しながら、過去の成功の十分な活用を組み込むことです。 我々は,過去のベストパフォーマンスアクションと現在のポリシの両方を使用してq値を更新する,単純かつ効果的なアプローチであるmixed exploitation and exploration (bee)オペレータを提案する。 モデルフリーとモデルベースの両方の設定における本手法のインスタンス化は, 各種連続制御タスクにおける最先端の手法よりも優れ, 障害発生シナリオや実世界のロボットタスクにおいて高い性能を実現する。

Learning high-quality Q-value functions plays a key role in the success of many modern off-policy deep reinforcement learning (RL) algorithms. Previous works focus on addressing the value overestimation issue, an outcome of adopting function approximators and off-policy learning. Deviating from the common viewpoint, we observe that Q-values are indeed underestimated in the latter stage of the RL training process, primarily related to the use of inferior actions from the current policy in Bellman updates as compared to the more optimal action samples in the replay buffer. We hypothesize that this long-neglected phenomenon potentially hinders policy learning and reduces sample efficiency. Our insight to address this issue is to incorporate sufficient exploitation of past successes while maintaining exploration optimism. We propose the Blended Exploitation and Exploration (BEE) operator, a simple yet effective approach that updates Q-value using both historical best-performing actions and the current policy. The instantiations of our method in both model-free and model-based settings outperform state-of-the-art methods in various continuous control tasks and achieve strong performance in failure-prone scenarios and real-world robot tasks.
翻訳日:2023-10-16 17:34:56 公開日:2023-10-12
# 学習特徴のボトルネック構造:低次元対正規性トレードオフ

Bottleneck Structure in Learned Features: Low-Dimension vs Regularity Tradeoff ( http://arxiv.org/abs/2305.19008v2 )

ライセンス: Link先を確認
Arthur Jacot(参考訳) 以前の研究では、大深度の$l$ と $l_{2}$-正規化を持つdnnは入力の低次元表現の学習に偏りがあり、これはボトルネックランクであると推測された学習関数 $f$ のランク $r^{(0)}(f)$ の概念の最小化と解釈できる。 この結果に対する有限深度補正を計算し、ヤコビアン $\left|Jf(x)\right|_{+}$ の擬行列式を有界とする正則性の測度 $R^{(1)}$ を明らかにし、合成と加法の下で加法的である。 これは低次元表現の学習と特徴写像における複雑性/不規則性の最小化のバランスを形式化し、ネットワークが'右'内部次元を学習できるようにする。 最後に、学習した特徴のボトルネック構造を$L\to\infty$: 大深度の場合、ほとんどすべての隠れ表現はおよそ$R^{(0)}(f)$-次元であり、ほとんどすべての重み行列は$W_{\ell}$ have $R^{(0)}(f)$特異値が 1 に近く、その他のものは$O(L^{-\frac{1}{2}})$である。 興味深いことに、大きな学習率の使用は、ほぼすべての層の表現の無限深度収束を保証する注文$O(L)$ NTKを保証するために要求される。

Previous work has shown that DNNs with large depth $L$ and $L_{2}$-regularization are biased towards learning low-dimensional representations of the inputs, which can be interpreted as minimizing a notion of rank $R^{(0)}(f)$ of the learned function $f$, conjectured to be the Bottleneck rank. We compute finite depth corrections to this result, revealing a measure $R^{(1)}$ of regularity which bounds the pseudo-determinant of the Jacobian $\left|Jf(x)\right|_{+}$ and is subadditive under composition and addition. This formalizes a balance between learning low-dimensional representations and minimizing complexity/irregularity in the feature maps, allowing the network to learn the `right' inner dimension. Finally, we prove the conjectured bottleneck structure in the learned features as $L\to\infty$: for large depths, almost all hidden representations are approximately $R^{(0)}(f)$-dimensional, and almost all weight matrices $W_{\ell}$ have $R^{(0)}(f)$ singular values close to 1 while the others are $O(L^{-\frac{1}{2}})$. Interestingly, the use of large learning rates is required to guarantee an order $O(L)$ NTK which in turns guarantees infinite depth convergence of the representations of almost all layers.
翻訳日:2023-10-16 17:34:11 公開日:2023-10-12
# 注意ネットワークの学習ダイナミクスについて

On the Learning Dynamics of Attention Networks ( http://arxiv.org/abs/2307.13421v5 )

ライセンス: Link先を確認
Rahul Vashisht and Harish G. Ramaswamy(参考訳) 注意モデルは一般的に、ソフトアテンション(Soft attention)、ハードアテンション(ハードアテンション)、潜在変数の辺縁的可能性(Latent variable marginal chance, LVML)という3つの標準的な損失関数のうちの1つを最適化することによって学習される。これら3つのパラダイムは、入力の右 \textit{segment} を 'select' する 'focus' モデルと、選択したセグメントをターゲットラベルに処理する 'classification' モデルである。 しかし、これらは選択されたセグメントを集約する方法で大きく異なり、異なるダイナミクスと最終的な結果をもたらす。 これらのパラダイムを用いて学習したモデルのユニークなシグネチャを観察し,フォーカスモデルが固定された場合の勾配降下下での分類モデルの進化の帰結として説明する。 また,これらのパラダイムを簡単な設定で解析し,勾配流下のパラメータ軌跡の閉形式式を導出する。 ソフトアテンションの損失により、フォーカスモデルは初期化と後続のスパッタで急速に改善する。 一方、注意喪失は反対方向に振る舞う。 我々の観測に基づいて、異なる損失関数の利点を組み合わせた単純なハイブリッドアプローチを提案し、半合成および実世界のデータセットの集合上でそれを実証する。

Attention models are typically learned by optimizing one of three standard loss functions that are variously called -- soft attention, hard attention, and latent variable marginal likelihood (LVML) attention. All three paradigms are motivated by the same goal of finding two models -- a `focus' model that `selects' the right \textit{segment} of the input and a `classification' model that processes the selected segment into the target label. However, they differ significantly in the way the selected segments are aggregated, resulting in distinct dynamics and final results. We observe a unique signature of models learned using these paradigms and explain this as a consequence of the evolution of the classification model under gradient descent when the focus model is fixed. We also analyze these paradigms in a simple setting and derive closed-form expressions for the parameter trajectory under gradient flow. With the soft attention loss, the focus model improves quickly at initialization and splutters later on. On the other hand, hard attention loss behaves in the opposite fashion. Based on our observations, we propose a simple hybrid approach that combines the advantages of the different loss functions and demonstrates it on a collection of semi-synthetic and real-world datasets
翻訳日:2023-10-16 17:28:02 公開日:2023-10-12
# SIMMF:自動運転のためのセマンティック認識型対話型マルチエージェントモーション予測

SIMMF: Semantics-aware Interactive Multiagent Motion Forecasting for Autonomous Vehicle Driving ( http://arxiv.org/abs/2306.14941v2 )

ライセンス: Link先を確認
Vidyaa Krishnan Nivash, Ahmed H. Qureshi(参考訳) 自律走行車両は周囲のマルチエージェント(歩行者と車両)の動きを予測し、ナビゲーションに最適な判断を下す必要がある。 既存の手法では,これらのエージェントの位置と速度を活用し,シーンから意味情報を取り込む手法に着目している。 さらに,シーン内のエージェント数に伴う計算複雑性の増大を緩和するため,遠方エージェントを遠方から遠ざけるためにユークリッド距離を利用する作品もある。 しかし、距離に基づく計量だけでは、関連するエージェントを選択し、正確に予測を行うには不十分である。 そこで本研究では,空間情報とともに意味を捉え,関連するエージェントを最適に選択するマルチエージェント・モーション・予測手法であるsemantics-aware multiagent motion forecasting (simmf) を提案する。 具体的には、シーンから関連するエージェントを意味認識的に選択し、注意機構を通してグローバルエンコーディングを抽出することにより、これを実現する。 これらのエンコーディングはエージェントのローカル情報とともにエンコーダを通過し、将来の軌跡を予測する動作ポリシーのための時間依存潜在変数を得る。 提案手法は最先端のベースラインよりも優れており,より正確かつシーン一貫性のある予測を提供する。

Autonomous vehicles require motion forecasting of their surrounding multiagents (pedestrians and vehicles) to make optimal decisions for navigation. The existing methods focus on techniques to utilize the positions and velocities of these agents and fail to capture semantic information from the scene. Moreover, to mitigate the increase in computational complexity associated with the number of agents in the scene, some works leverage Euclidean distance to prune far-away agents. However, distance-based metric alone is insufficient to select relevant agents and accurately perform their predictions. To resolve these issues, we propose the Semantics-aware Interactive Multiagent Motion Forecasting (SIMMF) method to capture semantics along with spatial information and optimally select relevant agents for motion prediction. Specifically, we achieve this by implementing a semantic-aware selection of relevant agents from the scene and passing them through an attention mechanism to extract global encodings. These encodings along with agents' local information, are passed through an encoder to obtain time-dependent latent variables for a motion policy predicting the future trajectories. Our results show that the proposed approach outperforms state-of-the-art baselines and provides more accurate and scene-consistent predictions.
翻訳日:2023-10-16 17:25:05 公開日:2023-10-12
# Rationale 生成とDense Retrieval を用いた小型言語モデルによる未知の質問への回答

Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval ( http://arxiv.org/abs/2308.04711v3 )

ライセンス: Link先を確認
Tim Hartill, Diana Benavides-Prado, Michael Witbrock, Patricia J. Riddle(参考訳) 十分な説明的文脈が与えられると、より小さな言語モデルが、質問が訓練中に見当たらない短い質問応答タスクに対して強い推論能力を示すことが示される。 この設定でさらに改善する2つの方法を評価する。 どちらの手法も、より大きな言語モデルによって生成される有理性と、マルチホップ高密度検索システムから生成される長いコンテキストを組み合わせることに重点を置いている。 最初のメソッド($\textit{RR}$)では、Rationale Rankingモデルをトレーニングして、生成した有理性と検索されたコンテキストの両方を関連性および真理性に関してスコア付けする。 次に、これらのスコアを用いて、複数の組み合わせ戦略を用いて、両方の知識ソースから組み合わせたコンテキストを導出する。 第2のメソッド($\textit{ratd}$)については、hartill氏らによって開発された検索型トレーニングデータセットを使用して、より小さな推論モデルのトレーニングを行い、部分的な証拠的かつ頻繁に無関係な文を含む長いテキストシーケンスから関連する情報を活用できるようにします。 いずれの手法も結果を大幅に改善する。 我々の最高の推論モデルは、目に見えない評価データセット(StrategyQA 58.9 $\rightarrow$ 61.7 acc)に対して、強力な比較前のベースラインを大幅に改善します。 詳細はCommonsenseQA 63.6 $\rightarrow$ 72.7 acc. を参照のこと。 ARC-DA 31.6 $\rightarrow$ 52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1 と、コンテキストの組み合わせ戦略を選択する際の各質問の事前知識を利用するバージョンは、さらに優れている。 また,提案モデルでは,提案モデルがより大規模モデル (bloom 175bとstablevicuna 13b) に対する直接プロンプトよりも優れていた。

When provided with sufficient explanatory context, smaller Language Models have been shown to exhibit strong reasoning ability on challenging short-answer question-answering tasks where the questions are unseen in training. We evaluate two methods for further improvement in this setting. Both methods focus on combining rationales generated by a larger Language Model with longer contexts created from a multi-hop dense retrieval system. The first method ($\textit{RR}$) involves training a Rationale Ranking model to score both generated rationales and retrieved contexts with respect to relevance and truthfulness. We then use the scores to derive combined contexts from both knowledge sources using a number of combinatory strategies. For the second method ($\textit{RATD}$) we utilise retrieval-augmented training datasets developed by Hartill et al. 2023 to train a smaller Reasoning model such that it becomes proficient at utilising relevant information from longer text sequences that may be only partially evidential and frequently contain many irrelevant sentences. We find that both methods significantly improve results. Our single best Reasoning model materially improves upon strong comparable prior baselines for unseen evaluation datasets (StrategyQA 58.9 $\rightarrow$ 61.7 acc., CommonsenseQA 63.6 $\rightarrow$ 72.7 acc., ARC-DA 31.6 $\rightarrow$ 52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1) and a version utilising our prior knowledge of each type of question in selecting a context combination strategy does even better. Our proposed models also generally outperform direct prompts against much larger models (BLOOM 175B and StableVicuna 13B) in both few-shot chain-of-thought and standard few-shot settings.
翻訳日:2023-10-16 17:14:40 公開日:2023-10-12
# ユニモン回路のマルチモード物理

Multimode physics of the unimon circuit ( http://arxiv.org/abs/2309.09732v2 )

ライセンス: Link先を確認
Sasu Tuohino, Vasilii Vadimov, Wallace S. Teixeira, Tommi Malmelin, Matti Silveri, Mikko M\"ott\"onen(参考訳) 超伝導半波長共振器を両端に接地し、ジョセフソン接合を1つ含むと考える。 以前は、この回路は単モード近似の単一量子ビットと見なされ、dc相が結合を$$\pi$にバイアスすることで非調和性が増加し、99.9%の実験的に観察された。 有望な最初の実験結果に触発されて、単調回路の多モード物理を詳細に理解するための理論的および数値モデルを開発した。 この目的のために、まず、単調回路の高周波モードを検討し、これらのモードがその基底状態にあるとしても、ジョセフソンエネルギーに対する顕著な再正規化を示唆する。 そこで本研究では,関連するモードを十分に考慮した効率的な手法を提案し,非励起高次モードが量子エネルギーと非調和性の補正につながることを示す。 興味深いことに、ジャンクションが回路の中央からオフセットされていることを考えると、いくつかの低層モード間の強いクロスカー結合強度が見つかる。 この観察は、例えば複数の量子ビットが1つのユニモン回路に埋め込まれるなど、マルチモード構造の利用の道を開く。

We consider a superconducting half-wavelength resonator that is grounded at its both ends and contains a single Josephson junction. Previously this circuit was considered as a unimon qubit in the single-mode approximation where dc-phase-biasing the junction to $\pi$ leads to increased anharmonicity and 99.9% experimentally observed single-qubit gate fidelity. Inspired by the promising first experimental results, we develop here a theoretical and numerical model for the detailed understanding of the multimode physics of the unimon circuit. To this end, first, we consider the high-frequency modes of the unimon circuit and find that even though these modes are at their ground state, they imply a significant renormalization to the Josephson energy. We introduce an efficient method how the relevant modes can be fully taken into account and show that unexcited high-lying modes lead to corrections in the qubit energy and anharmonicity. Interestingly, provided that the junction is offset from the middle of the circuit, we find strong cross-Kerr coupling strengths between a few low-lying modes. This observation paves the way for the utilization of the multimode structure, for example, as several qubits embedded into a single unimon circuit.
翻訳日:2023-10-16 17:06:22 公開日:2023-10-12
# MusiLingo: 音楽キャプションとクエリ応答のための事前学習言語モデルによる音楽とテキストのブリッジ

MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response ( http://arxiv.org/abs/2309.08730v2 )

ライセンス: Link先を確認
Zihao Deng, Yinghao Ma, Yudong Liu, Rongchen Guo, Ge Zhang, Wenhu Chen, Wenhao Huang, Emmanouil Benetos(参考訳) 大規模言語モデル(llm)はマルチモーダルアプリケーションにおいて大きな可能性を示しているが、テキストと音楽の領域の収束は比較的未開拓である。 このギャップに対処するために,音楽キャプション生成と音楽関連クエリ応答のための新しいシステムMusiLingoを提案する。 MusiLingoは、事前訓練された冷凍音楽オーディオモデルMERTから、凍結したVicuna-7B言語モデル(LLaMAの適応)に、単一のプロジェクション層を使用して、音楽オーディオとテキストコンテキストのギャップを埋める。 広範な音楽キャプションデータセットでトレーニングし、指導データで微調整する。 高品質な音楽Q\&Aデータセットが不足しているため、我々はMusicCapsデータセットのキャプションからMusic Instruct(MI)データセットを作成しました。 音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。

Large Language Models (LLMs) have shown immense potential in multimodal applications, yet the convergence of textual and musical domains remains relatively unexplored. To address this gap, we present MusiLingo, a novel system for music caption generation and music-related query responses. MusiLingo employs a single projection layer to align music representations from the pre-trained frozen music audio model MERT with the frozen Vicuna-7B language model (an adaption of LLaMA), bridging the gap between music audio and textual contexts. We train it on an extensive music caption dataset and fine-tune it with instructional data. Due to the scarcity of high-quality music Q\&A datasets, we created the Music Instruct (MI) dataset from captions in the MusicCaps datasets, tailored for open-ended music inquiries. Empirical evaluations demonstrate its competitive performance in generating music captions and composing music-related Q&A pairs.
翻訳日:2023-10-16 17:05:07 公開日:2023-10-12
# HandNeRF: 単一のRGB画像から手動インタラクションシーンを再構築する学習

HandNeRF: Learning to Reconstruct Hand-Object Interaction Scene from a Single RGB Image ( http://arxiv.org/abs/2309.07891v2 )

ライセンス: Link先を確認
Hongsuk Choi, Nikhil Chavan-Dafle, Jiacheng Yuan, Volkan Isler, and Hyunsoo Park(参考訳) 本稿では,単一のrgb画像から3次元ハンドオブジェクトシーンを再構成する前に,ハンドオブジェクトインタラクションを学習する手法を提案する。 3次元ハンドオブジェクトシーン再構成のためのトレーニングデータ生成と推論は、単一の画像の奥行きあいまいさと、手とオブジェクトによるオクルージョンのため困難である。 我々はこの課題を、手の形を利用して、手と物体形状の相対的な構成を制限し、機会に変える。 我々は3次元手形特徴と2次元オブジェクト特徴との相関を明示的にエンコードし,手と物体のシーン形状を予測する一般化可能な暗黙関数HandNeRFを設計する。 実世界のデータセットを用いた実験により、HandNeRFは、新しいグリップ構成のハンドオブジェクトシーンを、同等の手法よりも正確に再構築可能であることを示す。 さらに,HandNeRFからのオブジェクト再構成により,ロボットハンドオーバや操作のための把握や動作計画などの下流タスクをより正確に実行できることが実証された。 コードはここでリリースされる。 https://gitbhub.com/SamsungLabs/HandNeRF

This paper presents a method to learn hand-object interaction prior for reconstructing a 3D hand-object scene from a single RGB image. The inference as well as training-data generation for 3D hand-object scene reconstruction is challenging due to the depth ambiguity of a single image and occlusions by the hand and object. We turn this challenge into an opportunity by utilizing the hand shape to constrain the possible relative configuration of the hand and object geometry. We design a generalizable implicit function, HandNeRF, that explicitly encodes the correlation of the 3D hand shape features and 2D object features to predict the hand and object scene geometry. With experiments on real-world datasets, we show that HandNeRF is able to reconstruct hand-object scenes of novel grasp configurations more accurately than comparable methods. Moreover, we demonstrate that object reconstruction from HandNeRF ensures more accurate execution of downstream tasks, such as grasping and motion planning for robotic hand-over and manipulation. The code will be release here: https://gitbhub.com/SamsungLabs/HandNeRF
翻訳日:2023-10-16 17:04:45 公開日:2023-10-12
# Text2NKG:N-aryリレーショナル知識グラフ構築のための微細粒度N-aryリレーショナル抽出

Text2NKG: Fine-Grained N-ary Relation Extraction for N-ary relational Knowledge Graph Construction ( http://arxiv.org/abs/2310.05185v2 )

ライセンス: Link先を確認
Haoran Luo, Haihong E, Yuhao Yang, Tianyu Yao, Yikai Guo, Zichen Tang, Wentai Zhang, Kaiyang Wan, Shiyao Peng, Meina Song, Wei Lin(参考訳) n-ary relational knowledge graph (nkgs) は、従来のバイナリリレーショナルファクトを超えて、2つ以上のエンティティを含むn-aryリレーショナルファクトで構成される。 しかし、nkgの構築は依然として手作業に大きく依存しており、n-ary関係抽出は常に単一のスキーマと固定されたエンティティのアーリティー内にあるコースグレードレベルのままである。 このような制約に対処するため,我々は,n-aryリレーショナル知識グラフ構築のための新しい微細なn-ary関係抽出フレームワークであるText2NKGを提案する。 ヘテロオーダードマージを用いたスパンタプル分類手法を導入し,n-ary関係の細粒度抽出を行う。 さらに、Text2NKGは、ハイパーリレーショナルスキーマ、イベントベースのスキーマ、ロールベースのスキーマ、ハイパーグラフベースのスキーマの4つの典型的なNKGスキーマをサポートし、柔軟性と実用性が高い。 実験結果から,Text2NKGは,高関係スキーマのn-ary関係抽出ベンチマークにおいて,F_1$のスコアにおいて,従来の最先端モデルよりも20倍近い性能を示した。 コードとデータセットは公開されています。

Beyond traditional binary relational facts, n-ary relational knowledge graphs (NKGs) are comprised of n-ary relational facts containing more than two entities, which are closer to real-world facts with broader applications. However, the construction of NKGs still significantly relies on manual labor, and n-ary relation extraction still remains at a course-grained level, which is always in a single schema and fixed arity of entities. To address these restrictions, we propose Text2NKG, a novel fine-grained n-ary relation extraction framework for n-ary relational knowledge graph construction. We introduce a span-tuple classification approach with hetero-ordered merging to accomplish fine-grained n-ary relation extraction in different arity. Furthermore, Text2NKG supports four typical NKG schemas: hyper-relational schema, event-based schema, role-based schema, and hypergraph-based schema, with high flexibility and practicality. Experimental results demonstrate that Text2NKG outperforms the previous state-of-the-art model by nearly 20\% points in the $F_1$ scores on the fine-grained n-ary relation extraction benchmark in the hyper-relational schema. Our code and datasets are publicly available.
翻訳日:2023-10-16 16:57:54 公開日:2023-10-12
# 適応検索改訂による大規模言語モデルのドメイン適応の再構築

Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise ( http://arxiv.org/abs/2310.03328v2 )

ライセンス: Link先を確認
Zhen wan, Yating Zhang, Yexiang Wang, Fei Cheng, Sadao Kurohashi(参考訳) gpt-4のような大規模言語モデル(llm)は、最近、一般的なドメインタスクでゼロショット機能を驚くべきものにすることを示したが、中国の法則のような特定のドメインで幻覚を伴うコンテンツを生成することが多く、これらの領域での応用を妨げている。 これは通常、そのような特定のドメインを含むトレーニングデータがないためであり、GPT-4がドメイン内の知識を取得するのを妨げている。 強調すべき課題は、ドメイン内のデータでそのような規模のLLMをトレーニングし続けることが不可能であることです。 本稿では,GPT-4の簡易かつ効果的なドメイン適応フレームワークを提案する。 最初のステップは、ドメイン内のデータについて学び続けることで、ターゲットドメインに安価な7B LLMを \textbf{adapt} することです。 タスクを解く際には、順応したLCMを利用してタスククエリを与えられたドラフト回答を生成する。 次に、ドラフトの回答は、外部のドメイン内知識ベースから証拠候補をサポートする \textbf{retrieve} に使用される。 最後に、ドラフト回答と検索された証拠は、gpt-4に証拠を評価するための全プロンプトにまとめられ、最終回答を生成するためにドラフト回答を \textbf{revise} する。 本提案では,より小型の7BモデルとGPT-4のエビデンス評価能力を併用することにより,GPT-4の幻覚内容の生成を効果的に防止する。 4つの中国の法的タスクのゼロショット設定では、gpt-4による直接生成に比べて33.3\%精度が向上する。 2つのより強い検索ベースラインと比較すると、15.4\%と23.9\%に優れる。 私たちのコードはリリースされます

While large language models (LLMs) like GPT-4 have recently demonstrated astonishing zero-shot capabilities in general domain tasks, they often generate content with hallucinations in specific domains such as Chinese law, hindering their application in these areas. This is typically due to the absence of training data that encompasses such a specific domain, preventing GPT-4 from acquiring in-domain knowledge. A pressing challenge is that it's not plausible to continue training LLMs of such scale on in-domain data. This paper introduces a simple and effective domain adaptation framework for GPT-4 by reformulating generation as an \textbf{adapt-retrieve-revise} process. The initial step is to \textbf{adapt} an affordable 7B LLM to the target domain by continuing learning on in-domain data. When solving a task, we leverage the adapted LLM to generate a draft answer given a task query. Then, the draft answer will be used to \textbf{retrieve} supporting evidence candidates from an external in-domain knowledge base. Finally, the draft answer and retrieved evidence are concatenated into a whole prompt to let GPT-4 assess the evidence and \textbf{revise} the draft answer to generate the final answer. Our proposal combines the advantages of the efficiency of adapting a smaller 7B model with the evidence-assessing capability of GPT-4 and effectively prevents GPT-4 from generating hallucinatory content. In the zero-shot setting of four Chinese legal tasks, our method improves accuracy by 33.3\% compared to the direct generation by GPT-4. When compared to two stronger retrieval-based baselines, our method outperforms them by 15.4\% and 23.9\%. Our code will be released
翻訳日:2023-10-16 16:57:29 公開日:2023-10-12
# BioBridge:知識グラフによるバイオメディカル基礎モデルのブリッジ

BioBridge: Bridging Biomedical Foundation Models via Knowledge Graph ( http://arxiv.org/abs/2310.03320v2 )

ライセンス: Link先を確認
Zifeng Wang, Zichen Wang, Balasubramaniam Srinivasan, Vassilis N. Ioannidis, Huzefa Rangwala, Rishita Anubhai(参考訳) 基盤モデル(fms)は、大量のラベルのないデータを活用し、幅広いタスクで優れたパフォーマンスを示すことができる。 しかし、生体医学領域向けに開発されたfmsは、独立に訓練され、タンパク質配列のみ、小分子構造のみ、臨床データのみのタスクに使用されている。 このようなバイオメディカルFMの限界を克服するため,新しいパラメータ効率学習フレームワークであるBioBridgeを提案し,独立に訓練された単調FMを橋渡しし,マルチモーダルな動作を確立する。 BioBridgeは、知識グラフ(KG)を使用して、基礎となる一助的FMを微調整することなく、1つの一助的FMともう1つの間の変換を学習する。 実験の結果,BioBridgeは,クロスモーダル検索タスクにおいて,最高のベースラインKG埋め込み手法(平均76.3%)を克服できることが示された。 また、BioBridgeは、未知のモダリティや関係を外挿することで、ドメイン外一般化能力を示す。 また,バイオブリッジは,生物医学的マルチモーダル質問応答を支援できる汎用レトリバーとして自らを提示し,新規医薬品の誘導生成を促進する。

Foundation models (FMs) are able to leverage large volumes of unlabeled data to demonstrate superior performance across a wide range of tasks. However, FMs developed for biomedical domains have largely remained unimodal, i.e., independently trained and used for tasks on protein sequences alone, small molecule structures alone, or clinical data alone. To overcome this limitation of biomedical FMs, we present BioBridge, a novel parameter-efficient learning framework, to bridge independently trained unimodal FMs to establish multimodal behavior. BioBridge achieves it by utilizing Knowledge Graphs (KG) to learn transformations between one unimodal FM and another without fine-tuning any underlying unimodal FMs. Our empirical results demonstrate that BioBridge can beat the best baseline KG embedding methods (on average by around 76.3%) in cross-modal retrieval tasks. We also identify BioBridge demonstrates out-of-domain generalization ability by extrapolating to unseen modalities or relations. Additionally, we also show that BioBridge presents itself as a general purpose retriever that can aid biomedical multimodal question answering as well as enhance the guided generation of novel drugs.
翻訳日:2023-10-16 16:56:58 公開日:2023-10-12
# 画像に基づくプレイリスト記述と音楽トピックにおける感情表現と凝集の改善:連続パラメータ化アプローチ

Improving Emotional Expression and Cohesion in Image-Based Playlist Description and Music Topics: A Continuous Parameterization Approach ( http://arxiv.org/abs/2310.01248v2 )

ライセンス: Link先を確認
Yuelyu Ji, Yuheng Song, Wei Wang, Ruoyi Xu, Zhongqian Xie, Huiyun Liu(参考訳) 画像ベースのプラットフォーム、特に音楽関連コンテンツにおけるテキスト生成には、テキストスタイルの精密な制御と感情表現の取り込みが必要である。 しかしながら、既存のアプローチでは、生成されたテキストにおける外部要因の比率を制御し、望ましいテキスト生成のための連続制御条件を欠いた離散入力に依存することがしばしば必要となる。 本研究では,これらの制約を克服するためのCPCTG(Continuous Parameterization for Controled Text Generation)を提案する。 本稿では,言語モデル(LM)をスタイル学習の手段として活用し,セマンティック・コヒージョン(SC)と感情表現抽出(EEP)を統合した。 報酬法の強化とCPCTGレベルの操作により,プレイリスト記述と音楽トピック生成タスクの実験により,ROUGEスコアの大幅な改善が示され,生成したテキストの関連性と一貫性が向上した。

Text generation in image-based platforms, particularly for music-related content, requires precise control over text styles and the incorporation of emotional expression. However, existing approaches often need help to control the proportion of external factors in generated text and rely on discrete inputs, lacking continuous control conditions for desired text generation. This study proposes Continuous Parameterization for Controlled Text Generation (CPCTG) to overcome these limitations. Our approach leverages a Language Model (LM) as a style learner, integrating Semantic Cohesion (SC) and Emotional Expression Proportion (EEP) considerations. By enhancing the reward method and manipulating the CPCTG level, our experiments on playlist description and music topic generation tasks demonstrate significant improvements in ROUGE scores, indicating enhanced relevance and coherence in the generated text.
翻訳日:2023-10-16 16:54:17 公開日:2023-10-12
# 解釈可能な模倣学習のための動的DAG探索

Dynamic DAG Discovery for Interpretable Imitation Learning ( http://arxiv.org/abs/2310.00489v2 )

ライセンス: Link先を確認
ianxiang Zhao, Wenchao Yu, Suhang Wang, Lu Wang, Xiang Zhang, Yuncong Chen, Yanchi Liu, Wei Cheng, Haifeng Chen(参考訳) 専門家のデモンストレーションを模倣してエージェントポリシーを学ぶImitation Learningは、医療制度や自動運転車など多くの応用において有望な結果を示している。 しかし,エージェントが学習した制御方針を解釈することは依然として難しい課題である。 困難は主に2つの側面から生じる。 1)模倣学習のエージェントは通常,ブラックボックスモデルであり,解釈性に欠けるディープニューラルネットワークとして実装される。 2) エージェントの判断の背景にある因果的メカニズムは, 時間経過を通じて静的に留まるのではなく, 軌道に沿って変化する可能性がある。 透明性を高め,ニューラルネットワークの解釈可能性を高めるために,ノードが動作し,状態変数とエッジが予測の背後にある因果関係を示すような,有向非巡回因果グラフの形で取得した知識を公開することを提案する。 さらに,この因果発見プロセスを状態依存的に設計し,潜在因果グラフのダイナミクスをモデル化する。 具体的には, グレンジャー因果関係の観点から因果関係の発見を行い, 自己説明可能な模倣学習フレームワーク, {\method} を提案する。 提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。 モデルが学習されると、その決定の背後にある状態と行動変数間の因果関係が得られ、そこから学んだポリシーを公開する。 合成および実世界の両方のデータセットに対する実験結果から,提案手法の動的因果グラフ学習における有効性を示し,予測精度を高く保ちながら模倣学習の意思決定を理解する。

Imitation learning, which learns agent policy by mimicking expert demonstration, has shown promising results in many applications such as medical treatment regimes and self-driving vehicles. However, it remains a difficult task to interpret control policies learned by the agent. Difficulties mainly come from two aspects: 1) agents in imitation learning are usually implemented as deep neural networks, which are black-box models and lack interpretability; 2) the latent causal mechanism behind agents' decisions may vary along the trajectory, rather than staying static throughout time steps. To increase transparency and offer better interpretability of the neural agent, we propose to expose its captured knowledge in the form of a directed acyclic causal graph, with nodes being action and state variables and edges denoting the causal relations behind predictions. Furthermore, we design this causal discovery process to be state-dependent, enabling it to model the dynamics in latent causal graphs. Concretely, we conduct causal discovery from the perspective of Granger causality and propose a self-explainable imitation learning framework, {\method}. The proposed framework is composed of three parts: a dynamic causal discovery module, a causality encoding module, and a prediction module, and is trained in an end-to-end manner. After the model is learned, we can obtain causal relations among states and action variables behind its decisions, exposing policies learned by it. Experimental results on both synthetic and real-world datasets demonstrate the effectiveness of the proposed {\method} in learning the dynamic causal graphs for understanding the decision-making of imitation learning meanwhile maintaining high prediction accuracy.
翻訳日:2023-10-16 16:54:00 公開日:2023-10-12
# パーソナライズされたオウムはより危険か? 対話システムにおけるペルソナバイアスの評価

Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona Biases in Dialogue Systems ( http://arxiv.org/abs/2310.05280v3 )

ライセンス: Link先を確認
Yixin Wan, Jieyu Zhao, Aman Chadha, Nanyun Peng, Kai-Wei Chang(参考訳) 大規模言語モデルの最近の進歩は、会話における一般的な人格や特定の人格を模倣するなど、フリーフォームの指示に従うことを可能にする。 一般的なパーソナラは人口統計グループ(例えばアジア人)の個人を指し、特定のパーソナラは歴史的人物の実際の名前である。 ペルソナの採用により、対話システムはユーザに対してより魅力的で親しみやすいものになる一方で、モデル応答における社会的バイアスを悪化させ、さらにユーザとのインタラクションを通じて社会的な危害を生じさせる潜在的なリスクもある。 本稿では,有害な対話モデル行動の異なる人格的適応に対する感受性を規定する「人格バイアス」を体系的に研究する。 我々は、ペルソナバイアスを有害表現と有害合意のバイアスに分類し、攻撃性、有害継続性、配慮、ステレオタイプ合意、有害合意の5つの側面におけるパーソナバイアスを測定する包括的な評価枠組みを確立する。 さらに,汎用型および特定型モデルペルソナの包括的リストを持つ体系化されたペルソナデータセットであるuniversalpersonaを用いて,パーソナバイアスを総合的に調査する。 blender、chatgpt、alpaca、vicunaの4つの異なるモデルのベンチマークによって、これらの対話システムにおける重要なペルソナバイアスが明らかになった。

Recent advancements in Large Language Models empower them to follow freeform instructions, including imitating generic or specific demographic personas in conversations. Generic personas refer to an individual from a demographic group (e.g. an Asian person), whereas specific personas can be actual names of historical figures. While the adoption of personas allows dialogue systems to be more engaging and approachable to users, it also carries the potential risk of exacerbating social biases in model responses, further causing societal harms through interactions with users. In this paper, we systematically study "persona biases", which we define to be the sensitivity of harmful dialogue model behaviors to different persona adoptions. We categorize persona biases into biases in harmful expression and harmful agreement, as well as establish a comprehensive evaluation framework to measure persona biases in five aspects: Offensiveness, Toxic Continuation, Regard, Stereotype Agreement, and Toxic Agreement. Additionally, we propose to comprehensively investigate persona biases through experimenting with UniversalPersona, a systematized persona dataset with a comprehensive list of both generic and specific model personas. Through benchmarking on four different models, including Blender, ChatGPT, Alpaca, and Vicuna, our study uncovers significant persona biases in these dialogue systems.Findings of our study underscores the immediate need to revisit the use of persona traits in dialogue agents, to ensure their safe application.
翻訳日:2023-10-16 16:48:06 公開日:2023-10-12
# 大規模言語モデル(LLMS)を用いたグラフ上のラベルなしノード分類

Label-free Node Classification on Graphs with Large Language Models (LLMS) ( http://arxiv.org/abs/2310.04668v2 )

ライセンス: Link先を確認
Zhikai Chen, Haitao Mao, Hongzhi Wen, Haoyu Han, Wei Jin, Haiyang Zhang, Hui Liu, Jiliang Tang(参考訳) 近年,グラフニューラルネットワーク(gnns)によるノード分類が著しく進歩している。 しかし、有望なパフォーマンスを保証するためには、豊富な高品質なラベルが必要である。 対照的に、Large Language Models (LLMs) は、テキスト分散グラフに印象的なゼロショットの習熟度を示す。 しかし、効率的な構造データ処理の課題に直面し、高い推論コストを被る。 これらの観測から, LLMsパイプラインを用いたグラフ上のラベルなしノード分類, LLM-GNNを導入する。 制限を緩和しながら、gnnとllmの両方の強みを融合させる。 特に、llmは少数のノードに注釈をつけるために利用され、gnnはllmsのアノテーションで訓練され、残りのノードの大部分が予測される。 llm-gnnの実装は、いかに積極的にllmのノードを選択してアノテートし、gnnトレーニングを強化するかという、ユニークな課題に直面している。 高品質、代表性、多様性のアノテーションを得るためにLLMをどのように活用すれば、より低コストでGNN性能を向上させることができるのか? この課題に取り組むために,アノテーションの品質ヒューリスティックを開発し,llmから得られた信頼度スコアを高度なノード選択に活用する。 LLM-GNNの有効性を総合的に検証した。 特に、LLM-GNNは1ドル未満の大規模データセット \products において74.9%の精度を達成できる。

In recent years, there have been remarkable advancements in node classification achieved by Graph Neural Networks (GNNs). However, they necessitate abundant high-quality labels to ensure promising performance. In contrast, Large Language Models (LLMs) exhibit impressive zero-shot proficiency on text-attributed graphs. Yet, they face challenges in efficiently processing structural data and suffer from high inference costs. In light of these observations, this work introduces a label-free node classification on graphs with LLMs pipeline, LLM-GNN. It amalgamates the strengths of both GNNs and LLMs while mitigating their limitations. Specifically, LLMs are leveraged to annotate a small portion of nodes and then GNNs are trained on LLMs' annotations to make predictions for the remaining large portion of nodes. The implementation of LLM-GNN faces a unique challenge: how can we actively select nodes for LLMs to annotate and consequently enhance the GNN training? How can we leverage LLMs to obtain annotations of high quality, representativeness, and diversity, thereby enhancing GNN performance with less cost? To tackle this challenge, we develop an annotation quality heuristic and leverage the confidence scores derived from LLMs to advanced node selection. Comprehensive experimental results validate the effectiveness of LLM-GNN. In particular, LLM-GNN can achieve an accuracy of 74.9% on a vast-scale dataset \products with a cost less than 1 dollar.
翻訳日:2023-10-16 16:46:38 公開日:2023-10-12
# 非ブロック型非対話型ゼロノウレッジ

Unclonable Non-Interactive Zero-Knowledge ( http://arxiv.org/abs/2310.07118v2 )

ライセンス: Link先を確認
Ruta Jawale and Dakshita Khurana(参考訳) 非対話的ZK(NIZK)証明は、秘密を明かさずにNPステートメントの検証を可能にする。 しかし、NIZK証明を得た敵は、この証明をクローンし、任意の数のコピーを様々な実体に分配することができるかもしれない。 本稿では,クローン化が不可能なNIZK証明システムを構築するために,量子情報に頼ることが可能かどうかを問う。 我々はnpの非対話的ゼロ知識証明(知識)を定義し、構成する。 ゼロ知識と知識特性の証明を満たすことに加えて、これらの証明は非行性も満たす。 概してこれは、NP言語$\mathcal{L}$でインスタンス$x$のメンバシップの正直に生成された証明を割り出し、コピーを複数のエンティティに分散させることが、すべてのエンティティが$x$のメンバシップの証明を$\mathcal{L}$で受け入れることを保証する。 結果として、この作業で定義し構築する知識の無防備なシグネチャへのアプリケーションが生まれました。

A non-interactive ZK (NIZK) proof enables verification of NP statements without revealing secrets about them. However, an adversary that obtains a NIZK proof may be able to clone this proof and distribute arbitrarily many copies of it to various entities: this is inevitable for any proof that takes the form of a classical string. In this paper, we ask whether it is possible to rely on quantum information in order to build NIZK proof systems that are impossible to clone. We define and construct unclonable non-interactive zero-knowledge proofs (of knowledge) for NP. Besides satisfying the zero-knowledge and proof of knowledge properties, these proofs additionally satisfy unclonability. Very roughly, this ensures that no adversary can split an honestly generated proof of membership of an instance $x$ in an NP language $\mathcal{L}$ and distribute copies to multiple entities that all obtain accepting proofs of membership of $x$ in $\mathcal{L}$. Our result has applications to unclonable signatures of knowledge, which we define and construct in this work; these non-interactively prevent replay attacks.
翻訳日:2023-10-16 16:35:46 公開日:2023-10-12
# ヘマトキシリンおよびエオシン画像による非小細胞肺癌のMET過剰発現の予測

Prediction of MET Overexpression in Non-Small Cell Lung Adenocarcinomas from Hematoxylin and Eosin Images ( http://arxiv.org/abs/2310.07682v2 )

ライセンス: Link先を確認
Kshitij Ingale, Sun Hae Hong, Josh S.K. Bell, Abbas Rizvi, Amy Welch, Lingdao Sha, Irvin Ho, Kunal Nagpal, Aicha BenTaieb, Rohan P Joshi, Martin C Stumpe(参考訳) MET蛋白過剰発現は非小細胞肺癌(NSCLC)の標的となり、活性薬物開発の対象となっている。 これらの治療法の患者を特定する上での課題は、標準化された免疫組織化学(IHC)の評価や、1つの遺伝子/タンパク質アッセイに有用な組織の使用など、検証済みのテストへのアクセスの欠如である。 MET過剰発現を予測するために、通常のデジタル化ヘマトキシリンとエオシン(H&E)スライスを用いた事前スクリーニングアルゴリズムの開発は、最も恩恵を受ける人々のためのテストを促進することができる。 IHCを用いたMET発現の評価は、現在、NSCLCでは定期的に行われていないが、次世代シークエンシングは一般的であり、RNA発現パネルテストを含む場合もある。 本研究では、H&E画像から直接MET RNA過剰発現を予測するために、マッチしたH&EスライドとRNA表現データの大規模なデータベースを活用し、弱教師付きモデルを訓練した。 本モデルでは,300名の過剰発現患者と289名の健常者を対象に,各患者の臨床変数の安定なパフォーマンス特性と,テストセット上での合成ノイズに対する頑健性を有するROC-AUC(95%パーセンタイル間隔:0.66~0.74)について検討した。 以上の結果から,H&Eに基づく予測モデルがMET蛋白またはMET遺伝子の発現状態の確認試験に有効であることが示唆された。

MET protein overexpression is a targetable event in non-small cell lung cancer (NSCLC) and is the subject of active drug development. Challenges in identifying patients for these therapies include lack of access to validated testing, such as standardized immunohistochemistry (IHC) assessment, and consumption of valuable tissue for a single gene/protein assay. Development of pre-screening algorithms using routinely available digitized hematoxylin and eosin (H&E)-stained slides to predict MET overexpression could promote testing for those who will benefit most. While assessment of MET expression using IHC is currently not routinely performed in NSCLC, next-generation sequencing is common and in some cases includes RNA expression panel testing. In this work, we leveraged a large database of matched H&E slides and RNA expression data to train a weakly supervised model to predict MET RNA overexpression directly from H&E images. This model was evaluated on an independent holdout test set of 300 over-expressed and 289 normal patients, demonstrating an ROC-AUC of 0.70 (95th percentile interval: 0.66 - 0.74) with stable performance characteristics across different patient clinical variables and robust to synthetic noise on the test set. These results suggest that H&E-based predictive models could be useful to prioritize patients for confirmatory testing of MET protein or MET gene expression status.
翻訳日:2023-10-16 16:26:04 公開日:2023-10-12
# mini-dalle3: 大きな言語モデルを促すことでインタラクティブなテキストから画像へ

Mini-DALLE3: Interactive Text to Image by Prompting Large Language Models ( http://arxiv.org/abs/2310.07653v2 )

ライセンス: Link先を確認
Zeqiang Lai, Xizhou Zhu, Jifeng Dai, Yu Qiao, Wenhai Wang(参考訳) 人工知能コンテンツ生成の革命は、テキスト・ツー・イメージ(T2I)拡散モデルによって急速に加速している。 開発からわずか2年で、最先端のモデルが生み出す品質、多様性、創造性は前例のないものだった。 しかし、定型拡散(英語版)のような一般的なT2Iモデルとの効果的な通信には、自然言語記述を用いた制限が持続する。 これにより、複雑な単語合成、マジックタグ、アノテーションを使ったプロンプトエンジニアリングの専門知識がなければ、魅力的なイメージを得るのが難しくなる。 最近リリースされたdalle3 - 人間の言語を話す直接内蔵のchatgptであるt2iモデルに触発されて、既存のt2iシステムが人間の意図を整合させ、新しいタスクであるinteractive text to image (it2i)を紹介します。 iT2I問題に対処するためには,iT2I の LLM を高速化する簡単なアプローチを提案する。 私たちは、chatgpt、llama、baichuan、internlmなど、さまざまなllm下でのさまざまな共通シナリオで、it2iのアプローチを評価しました。 我々は,既存のLLMやテキスト・ツー・イメージモデルに対して,LLM固有の能力,例えば質問応答やコード生成をほとんど劣化させることなく,iT2I機能をトレーニングなしで導入する上で,アプローチが便利で低コストな方法であることを実証した。 次世代のT2Iシステムの画質と並行して、人間と機械のインタラクションにおけるユーザー体験を高めるためのインスピレーションを得られることを願っている。

The revolution of artificial intelligence content generation has been rapidly accelerated with the booming text-to-image (T2I) diffusion models. Within just two years of development, it was unprecedentedly of high-quality, diversity, and creativity that the state-of-the-art models could generate. However, a prevalent limitation persists in the effective communication with these popular T2I models, such as Stable Diffusion, using natural language descriptions. This typically makes an engaging image hard to obtain without expertise in prompt engineering with complex word compositions, magic tags, and annotations. Inspired by the recently released DALLE3 - a T2I model directly built-in ChatGPT that talks human language, we revisit the existing T2I systems endeavoring to align human intent and introduce a new task - interactive text to image (iT2I), where people can interact with LLM for interleaved high-quality image generation/edit/refinement and question answering with stronger images and text correspondences using natural language. In addressing the iT2I problem, we present a simple approach that augments LLMs for iT2I with prompting techniques and off-the-shelf T2I models. We evaluate our approach for iT2I in a variety of common-used scenarios under different LLMs, e.g., ChatGPT, LLAMA, Baichuan, and InternLM. We demonstrate that our approach could be a convenient and low-cost way to introduce the iT2I ability for any existing LLMs and any text-to-image models without any training while bringing little degradation on LLMs' inherent capabilities in, e.g., question answering and code generation. We hope this work could draw broader attention and provide inspiration for boosting user experience in human-machine interactions alongside the image quality of the next-generation T2I systems.
翻訳日:2023-10-16 16:25:37 公開日:2023-10-12
# 単純変圧器における線形潜在世界モデル:オセロGPTの事例

Linear Latent World Models in Simple Transformers: A Case Study on Othello-GPT ( http://arxiv.org/abs/2310.07582v2 )

ライセンス: Link先を確認
Dean S. Hazineh, Zechen Zhang, Jeffery Chiu(参考訳) 基礎モデルは意思決定と論理的推論において重要な能力を示す。 それでも、ただの確率的模倣とは対照的に、世界に対する真の理解についての議論が続いている。 本稿は,Othello-GPTの創発的世界モデルの理解を深めるために,Othelloのために訓練された単純なトランスフォーマーを慎重に検討する。 調査の結果、Othello-GPTは反対のピースの線形表現をカプセル化しており、その決定過程を因果的に判断する要因であることがわかった。 本稿では,線形世界表現と因果決定の相互作用と,層深度とモデル複雑性への依存性をさらに解明する。 コードを公開しました。

Foundation models exhibit significant capabilities in decision-making and logical deductions. Nonetheless, a continuing discourse persists regarding their genuine understanding of the world as opposed to mere stochastic mimicry. This paper meticulously examines a simple transformer trained for Othello, extending prior research to enhance comprehension of the emergent world model of Othello-GPT. The investigation reveals that Othello-GPT encapsulates a linear representation of opposing pieces, a factor that causally steers its decision-making process. This paper further elucidates the interplay between the linear world representation and causal decision-making, and their dependence on layer depth and model complexity. We have made the code public.
翻訳日:2023-10-16 16:25:04 公開日:2023-10-12
# ODE系の時間ベクトル数値積分

Time-vectorized numerical integration for systems of ODEs ( http://arxiv.org/abs/2310.08649v1 )

ライセンス: Link先を確認
Mark C. Messner and Tianchen Hu and Tianju Chen(参考訳) 通常の微分方程式(ODE)とスパーストレーニングデータの厳密なシステムは科学的な問題でよく見られる。 本稿では, 常微分方程式の剛性系を時間的に積分し, 随伴法によるパラメータ勾配を計算するための, 効率的で暗黙的なベクトル化手法について述べる。 主要な革新は、独立時間系列の数と、逐次時間ステップのバッチまたは"チャンク"のどちらでも問題をベクトル化し、暗黙のODEシステムの集合を効果的にベクトル化することである。 後方ユーラー法に対する線形化暗黙体系のブロック-双対角構造は、並列環状還元(PCR)を用いたさらなるベクトル化を可能にする。 入力データの両軸のベクトル化により、コンピュータ装置の計算帯域幅が広くなり、比較的スパースなデータでさえも最新のGPUを完全に活用でき、標準のシーケンシャルな時間統合に比べて100倍以上のスピードアップを達成することができる。 解析的剛性モデルと非剛性ODEモデルとニューラルODEモデルの両方から引き出されたいくつかの例問題に対する暗黙的ベクトル化時間積分の利点を実証する。 また、ここで開発されたメソッドのオープンソース実装を自由に記述し、提供します。

Stiff systems of ordinary differential equations (ODEs) and sparse training data are common in scientific problems. This paper describes efficient, implicit, vectorized methods for integrating stiff systems of ordinary differential equations through time and calculating parameter gradients with the adjoint method. The main innovation is to vectorize the problem both over the number of independent times series and over a batch or "chunk" of sequential time steps, effectively vectorizing the assembly of the implicit system of ODEs. The block-bidiagonal structure of the linearized implicit system for the backward Euler method allows for further vectorization using parallel cyclic reduction (PCR). Vectorizing over both axes of the input data provides a higher bandwidth of calculations to the computing device, allowing even problems with comparatively sparse data to fully utilize modern GPUs and achieving speed ups of greater than 100x, compared to standard, sequential time integration. We demonstrate the advantages of implicit, vectorized time integration with several example problems, drawn from both analytical stiff and non-stiff ODE models as well as neural ODE models. We also describe and provide a freely available open-source implementation of the methods developed here.
翻訳日:2023-10-16 16:15:56 公開日:2023-10-12
# 機械学習による離婚予測:洞察とLIME解釈可能性

Divorce Prediction with Machine Learning: Insights and LIME Interpretability ( http://arxiv.org/abs/2310.08620v1 )

ライセンス: Link先を確認
Md Manjurul Ahsan(参考訳) 離婚はアメリカ合衆国のような先進国で最も一般的な社会問題の一つである。 最近の結婚の約50%は不随意の離婚または離婚になる。 人は様々であり、時が経つにつれて変わることは明らかであるが、Divorceのような出来事は個人の日常生活を妨げないが、Divorceは個人の精神状態や個人の生活に深刻な影響を与える。 本研究の範囲内では,6つの異なる機械学習アルゴリズム(ロジスティック回帰 (lr), 線形判別分析 (lda), k-nearest neighbors (knn), 分類と回帰木 (cart), gaussian na\"ive bayes (nb), サポートベクターマシン (svm) を用いて, 夫婦を正しく分類するために, 「離婚予測データセット」 が命名したデータセットを評価し, 離婚予測を行った。 予備的な計算結果は、SVM、KNN、LDAのようなアルゴリズムが98.57%の精度でそのタスクを実行できることを示している。 本研究の新たな貢献は、局所的解釈可能なモデル非依存説明(lime)を用いた予測確率の詳細な包括的説明である。 LIMEによる検査結果の分析は、離婚した夫婦の差別化の可能性を示している。 最後に,夫婦の離婚判断に影響を及ぼす可能性のある10の最も重要な機能を考慮した離婚予測アプリを開発した。

Divorce is one of the most common social issues in developed countries like in the United States. Almost 50% of the recent marriages turn into an involuntary divorce or separation. While it is evident that people vary to a different extent, and even over time, an incident like Divorce does not interrupt the individual's daily activities; still, Divorce has a severe effect on the individual's mental health, and personal life. Within the scope of this research, the divorce prediction was carried out by evaluating a dataset named by the 'divorce predictor dataset' to correctly classify between married and Divorce people using six different machine learning algorithms- Logistic Regression (LR), Linear Discriminant Analysis (LDA), K-Nearest Neighbors (KNN), Classification and Regression Trees (CART), Gaussian Na\"ive Bayes (NB), and, Support Vector Machines (SVM). Preliminary computational results show that algorithms such as SVM, KNN, and LDA, can perform that task with an accuracy of 98.57%. This work's additional novel contribution is the detailed and comprehensive explanation of prediction probabilities using Local Interpretable Model-Agnostic Explanations (LIME). Utilizing LIME to analyze test results illustrates the possibility of differentiating between divorced and married couples. Finally, we have developed a divorce predictor app considering ten most important features that potentially affect couples in making decisions in their divorce, such tools can be used by any one in order to identify their relationship condition.
翻訳日:2023-10-16 16:15:37 公開日:2023-10-12
# 説明が人間-AI意思決定の公正性に及ぼす影響:保護とプロキシの特徴

The Impact of Explanations on Fairness in Human-AI Decision-Making: Protected vs Proxy Features ( http://arxiv.org/abs/2310.08617v1 )

ライセンス: Link先を確認
Navita Goyal, Connor Baumler, Tin Nguyen, and Hal Daum\'e III(参考訳) AIシステムは、現実世界のデータにバイアスを増幅することが知られている。 説明は、人間とAIチームがより公平な意思決定のためにこれらのバイアスに対処するのに役立ちます。 通常、説明は健全な入力機能に焦点を当てる。 モデルが保護されたグループに対して偏りがある場合、このバイアスを示す特徴を含む場合もあるが、プロキシ機能によってバイアスが実現されると、このプロキシ機能と保護されたグループとの関係は人間には明らかでない。 本研究では,保護的特徴とプロキシ的特徴が,モデルフェアネスに対する参加者の認識と,AI単独による人口比率向上能力に及ぼす影響について検討する。 さらに, 異なる治療—説明, モデルバイアス開示, プロキシ相関開示—がフェアネス知覚とパリティにどのように影響するかを検討する。 説明は直接バイアスを検出するのに役立つが、間接バイアスは検出しない。 さらに、バイアスの種類にかかわらず、説明はモデルのバイアスとの一致を増加させる傾向がある。 開示は間接バイアスに対するこの効果を緩和し、不公平認識と意思決定公正の両方を改善するのに役立つ。 我々はこの発見が、公正な人間-AI意思決定を支援するための説明の進展に関するさらなる研究に役立つことを願っている。

AI systems have been known to amplify biases in real world data. Explanations may help human-AI teams address these biases for fairer decision-making. Typically, explanations focus on salient input features. If a model is biased against some protected group, explanations may include features that demonstrate this bias, but when biases are realized through proxy features, the relationship between this proxy feature and the protected one may be less clear to a human. In this work, we study the effect of the presence of protected and proxy features on participants' perception of model fairness and their ability to improve demographic parity over an AI alone. Further, we examine how different treatments -- explanations, model bias disclosure and proxy correlation disclosure -- affect fairness perception and parity. We find that explanations help people detect direct biases but not indirect biases. Additionally, regardless of bias type, explanations tend to increase agreement with model biases. Disclosures can help mitigate this effect for indirect biases, improving both unfairness recognition and the decision-making fairness. We hope that our findings can help guide further research into advancing explanations in support of fair human-AI decision-making.
翻訳日:2023-10-16 16:15:08 公開日:2023-10-12
# 電気機械式ナノストリングデバイスの実現

Realization of an electromechanical nano-string device ( http://arxiv.org/abs/2310.08612v1 )

ライセンス: Link先を確認
Armin Tabesh(参考訳) 電気力学はマイクロ波共振器と機械振動器の相互作用を研究する分野である。 これは、マクロな物体の基底状態冷却、量子センシング、量子メモリ、量子トランスダクションなど、科学と技術における多くの潜在的な応用のために、ここ10年で興味深いトピックとなっている。 本論文は、電気機械装置のシミュレーション、設計、モデリングに焦点を当てたプロジェクトの包括的分析を行い、その実装を成功させる究極の目的を示す。 論文を通じて、電気力学の理論モデルの概要を概説した後、デバイスの設計を紹介し、その特性を最適化するためのシミュレーション方法を説明します。 次に、デバイス用に開発したナノファブリケーションプロセスと、キャラクタリゼーション方法とセットアップの基本的な側面について論じる。 次に、電気機械学に基づいて開発した理論モデルを提示する。 このモデルは、現在のプロジェクトによって構築された基盤の上に構築され、将来の研究のための新たな道を開く大きな可能性を秘めている。

Electromechanics is the field of studying the interaction between microwave resonators and mechanical oscillators. It has been an interesting topic in the recent decade due to its numerous potential applications in science and technology, including ground-state cooling of macroscopic objects, quantum sensing, quantum memory, and quantum transduction. This thesis presents a comprehensive analysis of a project focused on simulating, designing, and modeling electromechanical devices with the ultimate objective of achieving their successful implementation. Through the thesis, after an overview of the theoretical model of electromechanics, I will introduce our design for the device and explain how we simulated it to optimize its characteristics. Next, I will discuss the nanofabrication process we have developed for the device, along with the fundamental aspects of the characterization method and setup. Subsequently, I will present the theoretical model I have developed based on electromechanics. This model has significant potential to open up new avenues for future research, building upon the foundation laid by the current project.
翻訳日:2023-10-16 16:14:50 公開日:2023-10-12
# アフガニスタンの武装紛争における人種分類のためのテキストデータの分析:BERTアプローチ

Analyzing Textual Data for Fatality Classification in Afghanistan's Armed Conflicts: A BERT Approach ( http://arxiv.org/abs/2310.08653v1 )

ライセンス: Link先を確認
Hikmatullah Mohammadi, Ziaullah Momand, Parwin Habibi, Nazifa Ramaki, Bibi Storay Fazli, Sayed Zobair Rohany, Iqbal Samsoor(参考訳) アフガニスタンは歴史上、特に過去20年間に多くの武力衝突を目撃してきた。 本研究では、現在最先端の機械学習技術を活用し、アフガニスタンの武装紛争の結果を、Armed Conflict Location & Event Data Project(ACLED)データセットが提供するテキスト記述に基づいて、致命的または非致命的のいずれかに分類することを目的とする。 このデータセットには、2021年8月から2023年3月までのアフガニスタンにおける武装紛争の包括的記述が含まれている。 提案手法は,自然言語処理における最先端言語表現モデルであるBERT(Bidirectional Encoder Representations from Transformers)のパワーを利用する。 分類器は、イベントの生のテキスト記述を利用して、イベントの死亡率を推定する。 このモデルは98.8%の精度、98.05%のリコール、99.6%の精度、98.82%のf1スコアで印象的な性能を達成した。 これらの結果は、アフガニスタンにおける資源配分、政策立案、人道支援など、さまざまな分野におけるモデルの有効性を浮き彫りにしている。 このモデルは、ACLEDデータセットを用いた機械学習ベースのテキスト分類アプローチを示し、アフガニスタンの武装紛争における死亡率を正確に分類し、BERTモデルによる堅牢なパフォーマンスを達成し、アフガニスタンにおける出来事の深刻度を予測するための将来の取り組みの道を開く。

Afghanistan has witnessed many armed conflicts throughout history, especially in the past 20 years; these events have had a significant impact on human lives, including military and civilians, with potential fatalities. In this research, we aim to leverage state-of-the-art machine learning techniques to classify the outcomes of Afghanistan armed conflicts to either fatal or non-fatal based on their textual descriptions provided by the Armed Conflict Location & Event Data Project (ACLED) dataset. The dataset contains comprehensive descriptions of armed conflicts in Afghanistan that took place from August 2021 to March 2023. The proposed approach leverages the power of BERT (Bidirectional Encoder Representations from Transformers), a cutting-edge language representation model in natural language processing. The classifier utilizes the raw textual description of an event to estimate the likelihood of the event resulting in a fatality. The model achieved impressive performance on the test set with an accuracy of 98.8%, recall of 98.05%, precision of 99.6%, and an F1 score of 98.82%. These results highlight the model's robustness and indicate its potential impact in various areas such as resource allocation, policymaking, and humanitarian aid efforts in Afghanistan. The model indicates a machine learning-based text classification approach using the ACLED dataset to accurately classify fatality in Afghanistan armed conflicts, achieving robust performance with the BERT model and paving the way for future endeavors in predicting event severity in Afghanistan.
翻訳日:2023-10-16 16:07:43 公開日:2023-10-12
# テンソル分解による電界異常検出

Electrical Grid Anomaly Detection via Tensor Decomposition ( http://arxiv.org/abs/2310.08650v1 )

ライセンス: Link先を確認
Alexander Most, Maksim Eren, Nigel Lawrence, Boian Alexandrov(参考訳) 監視制御およびデータ取得システム(scada)は、しばしば電力網内の変電所の神経系として機能する。 これらのシステムは、リアルタイムの監視、データ取得、機器の制御、変電所とその接続機器のスムーズかつ効率的な運用の確保を容易化する。 従来の研究は、主成分分析(PCA)のような次元減少に基づくアプローチがSCADAシステムにおける異常の正確な識別に利用できることを示した。 SCADAには特に適用されないが、非負行列分解(NMF)は無線センサネットワークにおける異常の検出において強い結果を示している。 これらの教師なしのアプローチは、通常の動作や期待された動作をモデル化し、期待される動作から逸脱するイベントを識別することによって、目に見えないタイプの攻撃や異常を検出する。 しかしながら、これらのアプローチはSCADAシステムに自然に存在する複雑な多次元相互作用をモデル化しない。 異なることに、非負のテンソル分解は、SCADAイベントの複雑で多面的なアクティビティの詳細をモデル化できる強力な教師なし機械学習(ML)手法である。 本研究は, 従来, サイバーネットワークデータ上での最先端の異常検出結果を示す確率的フレームワークを用いたテンソル分解手法であるCanonical Polyadic Alternating Poisson Regression (CP-APR) を用いて, SCADAシステムにおける異常の同定を行う。 テンソル分解によるSCADA通信の統計的挙動解析を用いることで,電力系統における異常同定の特異性と精度が向上することを示す。 実験では,ロスアラモス国立研究所(LANL)が運営する電力網から収集した実世界のSCADAシステムデータをモデル化し,ロスアラモス郡と共同で送電・配電サービスを行い,合成された異常を検出する。

Supervisory Control and Data Acquisition (SCADA) systems often serve as the nervous system for substations within power grids. These systems facilitate real-time monitoring, data acquisition, control of equipment, and ensure smooth and efficient operation of the substation and its connected devices. Previous work has shown that dimensionality reduction-based approaches, such as Principal Component Analysis (PCA), can be used for accurate identification of anomalies in SCADA systems. While not specifically applied to SCADA, non-negative matrix factorization (NMF) has shown strong results at detecting anomalies in wireless sensor networks. These unsupervised approaches model the normal or expected behavior and detect the unseen types of attacks or anomalies by identifying the events that deviate from the expected behavior. These approaches; however, do not model the complex and multi-dimensional interactions that are naturally present in SCADA systems. Differently, non-negative tensor decomposition is a powerful unsupervised machine learning (ML) method that can model the complex and multi-faceted activity details of SCADA events. In this work, we novelly apply the tensor decomposition method Canonical Polyadic Alternating Poisson Regression (CP-APR) with a probabilistic framework, which has previously shown state-of-the-art anomaly detection results on cyber network data, to identify anomalies in SCADA systems. We showcase that the use of statistical behavior analysis of SCADA communication with tensor decomposition improves the specificity and accuracy of identifying anomalies in electrical grid systems. In our experiments, we model real-world SCADA system data collected from the electrical grid operated by Los Alamos National Laboratory (LANL) which provides transmission and distribution service through a partnership with Los Alamos County, and detect synthetically generated anomalies.
翻訳日:2023-10-16 16:06:57 公開日:2023-10-12
# 転写学習手法を用いた3次元プリントシリンダ物体の欠陥解析

Defect Analysis of 3D Printed Cylinder Object Using Transfer Learning Approaches ( http://arxiv.org/abs/2310.08645v1 )

ライセンス: Link先を確認
Md Manjurul Ahsan, Shivakumar Raman and Zahed Siddique(参考訳) 付加製造業(AM)は、医療、航空宇宙、自動車など様々な産業で注目を集めている。 しかし、AMプロセスの早い段階で欠陥を特定することは、生産コストを削減し、生産性を向上させる。 本研究では3次元プリントシリンダの欠陥検出における機械学習(ML)アプローチ,特に伝達学習(TL)モデルの有効性について検討した。 VGG16, VGG19, ResNet50, ResNet101, InceptionResNetV2, MobileNetV2 などのモデルを用いてシリンダー画像の解析を行った。 精度、精度、リコール、f1-scoreメトリクスを使用して、パフォーマンスを2つのデータセットで比較した。 最初の研究で、VGG16、InceptionResNetV2、MobileNetV2は完璧なスコアを得た。 対照的に、ResNet50は最低性能であり、平均F1スコアは0.32である。 同様に、第2の研究では、MobileNetV2はすべてのインスタンスを正しく分類し、ResNet50は偽陽性と真陽性が減り、F1スコアは0.75となった。 全体として、MobileNetV2のようなTLモデルでは、アルゴリズムによって性能が異なるものの、AM欠陥分類の精度が高いことが示唆されている。 その結果、3Dプリンティング中の信頼性の高い自動欠陥解析のためのモデル最適化と統合の必要性に関する洞察が得られる。 本研究は,トップパフォーマンスのTL技術を特定することにより,堅牢な画像監視と検査により,AM製品の品質を向上させることを目的とする。

Additive manufacturing (AM) is gaining attention across various industries like healthcare, aerospace, and automotive. However, identifying defects early in the AM process can reduce production costs and improve productivity - a key challenge. This study explored the effectiveness of machine learning (ML) approaches, specifically transfer learning (TL) models, for defect detection in 3D-printed cylinders. Images of cylinders were analyzed using models including VGG16, VGG19, ResNet50, ResNet101, InceptionResNetV2, and MobileNetV2. Performance was compared across two datasets using accuracy, precision, recall, and F1-score metrics. In the first study, VGG16, InceptionResNetV2, and MobileNetV2 achieved perfect scores. In contrast, ResNet50 had the lowest performance, with an average F1-score of 0.32. Similarly, in the second study, MobileNetV2 correctly classified all instances, while ResNet50 struggled with more false positives and fewer true positives, resulting in an F1-score of 0.75. Overall, the findings suggest certain TL models like MobileNetV2 can deliver high accuracy for AM defect classification, although performance varies across algorithms. The results provide insights into model optimization and integration needs for reliable automated defect analysis during 3D printing. By identifying the top-performing TL techniques, this study aims to enhance AM product quality through robust image-based monitoring and inspection.
翻訳日:2023-10-16 16:05:50 公開日:2023-10-12
# 機械学習に基づく地球科学システムのモデリングのための質量保存型パーセプトロン

A Mass-Conserving-Perceptron for Machine Learning-Based Modeling of Geoscientific Systems ( http://arxiv.org/abs/2310.08644v1 )

ライセンス: Link先を確認
Yuan-Heng Wang, Hoshin V. Gupta(参考訳) 地学システムの時系列進化を予測する物理概念(PC)モデルの構築に何十年も取り組んできたが、最近の研究は機械学習(ML)ベースのGated Recurrent Neural Network技術が、はるかに正確なモデルの開発に利用できることを示している。 しかし,MLモデルから身体的理解を抽出することの難しさは,システム構造や機能に関する科学的知識の強化に有用である。 本稿では,PCベースとMLベースのモデリングアプローチのギャップを埋める手段として,物理的に解釈可能なMass Conserving Perceptron(MCP)を提案する。 MCPは、PCモデルとGRNNの両方の基盤となる有向グラフ構造間の固有同型を利用して、物理的プロセスの質量保存性を明確に表現し、それらのプロセスの機能的性質を、既製のML技術を用いて利用可能なデータから直接(解釈可能な方法で)学習できるようにする。 概念実証として,mcpの機能的表現力(能力)を調査し,リーフ川流域の降雨流出(rr)ダイナミクスを同時表現する能力について検討し,科学的仮説検証に有用性を示す。 結論として,この概念を拡張して,地学システムを通しての質量エネルギー情報流の結合特性のMLに基づく物理概念表現を可能にする。

Although decades of effort have been devoted to building Physical-Conceptual (PC) models for predicting the time-series evolution of geoscientific systems, recent work shows that Machine Learning (ML) based Gated Recurrent Neural Network technology can be used to develop models that are much more accurate. However, the difficulty of extracting physical understanding from ML-based models complicates their utility for enhancing scientific knowledge regarding system structure and function. Here, we propose a physically-interpretable Mass Conserving Perceptron (MCP) as a way to bridge the gap between PC-based and ML-based modeling approaches. The MCP exploits the inherent isomorphism between the directed graph structures underlying both PC models and GRNNs to explicitly represent the mass-conserving nature of physical processes while enabling the functional nature of such processes to be directly learned (in an interpretable manner) from available data using off-the-shelf ML technology. As a proof of concept, we investigate the functional expressivity (capacity) of the MCP, explore its ability to parsimoniously represent the rainfall-runoff (RR) dynamics of the Leaf River Basin, and demonstrate its utility for scientific hypothesis testing. To conclude, we discuss extensions of the concept to enable ML-based physical-conceptual representation of the coupled nature of mass-energy-information flows through geoscientific systems.
翻訳日:2023-10-16 16:05:15 公開日:2023-10-12
# SU($N$)$\times$U(1) Lattice Gauge Theoriesをシミュレートするためのスケーラブル、abイニシアトプロトコル

Scalable, ab initio protocol for quantum simulating SU($N$)$\times$U(1) Lattice Gauge Theories ( http://arxiv.org/abs/2310.08643v1 )

ライセンス: Link先を確認
Federica Maria Surace, Pierre Fromholz, Francesco Scazza, Marcello Dalmonte(参考訳) 本稿では,SU($N$)$\times$U(1)格子ゲージ理論のスケーラブルな量子シミュレーションのためのプロトコルを提案する。 このプロトコルは天然に存在するSU($N$)擬スピン対称性と、そのような原子種に特有の強い軌道間相互作用の組み合わせを利用する。 微視的力学の詳細な研究は、ゲージの不変性がパラメータ状態にどのように現れるかを示し、そのような理論のシミュレーションにおける主要な課題を特定することを可能にする。 量子シミュレーターとコンピュータの両方において、そのような理論のクラスの機能について、より深く分析するための重要な要素であるゲージ不変力学の観測に関する実験的安定性に関する要件に関する定量的結果を提供する。

We propose a protocol for the scalable quantum simulation of SU($N$)$\times$U(1) lattice gauge theories with alkaline-earth like atoms in optical lattices in both one- and two-dimensional systems. The protocol exploits the combination of naturally occurring SU($N$) pseudo-spin symmetry and strong inter-orbital interactions that is unique to such atomic species. A detailed ab initio study of the microscopic dynamics shows how gauge invariance emerges in an accessible parameter regime, and allows us to identify the main challenges in the simulation of such theories. We provide quantitative results about the requirements in terms of experimental stability in relation to observing gauge invariant dynamics, a key element for a deeper analysis on the functioning of such class of theories in both quantum simulators and computers.
翻訳日:2023-10-16 16:04:49 公開日:2023-10-12
# 混合状態量子相:再正規化と量子誤差補正

Mixed-state Quantum Phases: Renormalization and Quantum Error Correction ( http://arxiv.org/abs/2310.08639v1 )

ライセンス: Link先を確認
Shengqi Sang, Yijian Zou, Timothy H. Hsieh(参考訳) オープンシステム量子力学は、様々な長距離の絡み合った混合状態を生成することができるが、物質相を構成する意味は分かっていない。 2つの混合状態が、局所的な量子チャネルによる双方向接続によって定義される同じ位相にあることを示すために、再正規化群(RG)と量子誤り訂正符号の復号器を用いる。 局所チャネルに基づく混合状態に対する実空間RGスキームを導入し、相補的システムとの相関を理想的に保存し、これはチャネルの動作の可逆性に等価であることを示す。 例として,有限温度トーリック符号の2次元から無限温度への正確なrg流れを示し,自明な相にあることを証明した。 一方,局所的デファスメントを受けるトーリック符号に対しては,rg型デコーダと最小重みの完全一致するデコーダを切断した局所チャネルを用いて混合状態トーリック符号位相を確立する。 また、トリック符号に作用する局所雑音が、トリック符号位相から状態を取り出すことなく論理情報を破壊できないことを証明することで、混合状態位相とデオーダビリティの正確な関係を見出す。

Open system quantum dynamics can generate a variety of long-range entangled mixed states, yet it has been unclear in what sense they constitute phases of matter. To establish that two mixed states are in the same phase, as defined by their two-way connectivity via local quantum channels, we use the renormalization group (RG) and decoders of quantum error correcting codes. We introduce a real-space RG scheme for mixed states based on local channels which ideally preserve correlations with the complementary system, and we prove this is equivalent to the reversibility of the channel's action. As an application, we demonstrate an exact RG flow of finite temperature toric code in two dimensions to infinite temperature, thus proving it is in the trivial phase. In contrast, for toric code subject to local dephasing, we establish a mixed state toric code phase using local channels obtained by truncating an RG-type decoder and the minimum weight perfect matching decoder. We also discover a precise relation between mixed state phase and decodability, by proving that local noise acting on toric code cannot destroy logical information without bringing the state out of the toric code phase.
翻訳日:2023-10-16 16:04:35 公開日:2023-10-12
# 任意に小さい非局所性からの非有界デバイス非依存量子鍵レート

Unbounded device-independent quantum key rates from arbitrarily small non-locality ( http://arxiv.org/abs/2310.08635v1 )

ライセンス: Link先を確認
M\'at\'e Farkas(参考訳) デバイス非依存の量子キー分散は、潜在的に信頼できない2つのデバイス間で共有暗号キーのセキュリティを証明することができる。 セキュリティ証明はベル実験の測定結果統計(相関)に基づいており、セキュリティは量子理論の法則によって保証されている。 観測された相関はセキュリティを証明するためにベル非局所でなければならないことが知られているが、最近の結果はベル非局所性は一般に標準のデバイス非依存量子鍵分布には不十分であることを示している。 本研究では,デバイス非依存の量子鍵分布に十分である非局所性量に対する低い境界は存在しないことを示す。 さらに、任意に小さな非局所性を示す特定の相関から、非有界なデバイス非依存鍵レートを抽出できることを示す。 したがって、デバイス非依存の鍵レートとベル非局所性の間の定量的な関係は一般には引けない。 本手法は,最近発見されたベル不等式群に適用された,自己検査とデバイス非依存の量子鍵分布の厳密な接続から構成する。

Device-independent quantum key distribution allows for proving the security of a shared cryptographic key between two distant parties with potentially untrusted devices. The security proof is based on the measurement outcome statistics (correlation) of a Bell experiment, and security is guaranteed by the laws of quantum theory. While it is known that the observed correlation must be Bell non-local in order to prove security, recent results show that Bell non-locality is in general not sufficient for standard device-independent quantum key distribution. In this work, we show that conversely, there is no lower bound on the amount of non-locality that is sufficient for device-independent quantum key distribution. Even more so, we show that from certain correlations that exhibit arbitrarily small non-locality, one can still extract unbounded device-independent key rates. Therefore, a quantitative relation between device-independent key rates and Bell non-locality cannot be drawn in general. Our main technique comprises a rigorous connection between self-testing and device-independent quantum key distribution, applied to a recently discovered family of Bell inequalities with arbitrarily many measurement outcomes.
翻訳日:2023-10-16 16:04:13 公開日:2023-10-12
# 絡み合いによる集団多体干渉

Entanglement-induced collective many-body interference ( http://arxiv.org/abs/2310.08630v1 )

ライセンス: Link先を確認
Tommaso Faleo, Eric Brunner, Jonathan W. Webb, Alexander Pickston, Joseph Ho, Gregor Weihs, Andreas Buchleitner, Christoph Dittel, Gabriel Dufour, Alessandro Fedrizzi, Robert Keil(参考訳) 絡み合いと干渉はどちらも量子物理学の目覚ましい効果である。 特にリッチな力学は、複数の(少なくとも部分的に)識別不能な粒子がこれらの現象のいずれかに従属する場合に生じる。 エンタングルメントと多粒子干渉を組み合わせることで、n粒子干渉を観測できる干渉式設定を提案し、低次干渉は厳格に抑制される。 我々は、干渉が非局所的である4光子干渉計において、光子対のみが2つの独立したビームスプリッターで干渉するため、この効果を実験的に実証する。 4つの光子の共同検出により、その集合体4粒子相の関数として変化する高可視性干渉パターンが同定される。

Entanglement and interference are both hallmark effects of quantum physics. Particularly rich dynamics arise when multiple (at least partially) indistinguishable particles are subjected to either of these phenomena. By combining both entanglement and many-particle interference, we propose an interferometric setting through which N-particle interference can be observed, while any interference of lower orders is strictly suppressed. We experimentally demonstrate this effect in a four-photon interferometer, where the interference is nonlocal, in principle, as only pairs of photons interfere at two separate and independent beam splitters. A joint detection of all four photons identifies a high-visibility interference pattern varying as a function of their collective four-particle phase, a genuine four-body property.
翻訳日:2023-10-16 16:03:52 公開日:2023-10-12
# 実世界ツインフィールド量子鍵分布における位相ノイズ

Phase Noise in Real-World Twin-Field Quantum Key Distribution ( http://arxiv.org/abs/2310.08621v1 )

ライセンス: Link先を確認
Gianluca Bertaina, Cecilia Clivati, Simone Donadello, Carlo Liorni, Alice Meda, Salvatore Virz\`i, Marco Gramegna, Marco Genovese, Filippo Levi, Davide Calonico, Massimiliano Dispenza, Ivo Pietro Degiovanni(参考訳) 双フィールド量子鍵分布(tf-qkd)プロトコルの実装におけるノイズ源の影響について検討し、光子源と接続ファイバーの位相ノイズに着目した。 本研究は, レーザ品質, ネットワークトポロジ, 繊維長, アームバランス, 検出器性能のキーレート決定における役割を強調した。 注目すべきは、主要なTF-QKDプロトコルが異なるメカニズムにもかかわらず位相ノイズの影響を受けていることである。 本研究では,狭線幅レーザーと位相制御技術による2倍以上のデューティサイクルの改善を実証し,高精度時間/周波数分布サービスによる潜在的な相乗効果を強調した。 統合と小型化に向けて進化する超安定レーザーは、既存のネットワーク上でのアジャイルtf-qkd実装を約束する。 位相ノイズと実用的な制約に適切に対処することで、いくつかの国で開発中の量子通信インフラの安全な長距離リンクを確立するために重要な、一貫した鍵レート予測、プロトコルの選択、レイアウト設計が可能になる。

We investigate the impact of noise sources in real-world implementations of Twin-Field Quantum Key Distribution (TF-QKD) protocols, focusing on phase noise from photon sources and connecting fibers. Our work emphasizes the role of laser quality, network topology, fiber length, arm balance, and detector performance in determining key rates. Remarkably, it reveals that the leading TF-QKD protocols are similarly affected by phase noise despite different mechanisms. Our study demonstrates duty cycle improvements of over 2x through narrow-linewidth lasers and phase-control techniques, highlighting the potential synergy with high-precision time/frequency distribution services. Ultrastable lasers, evolving toward integration and miniaturization, offer promise for agile TF-QKD implementations on existing networks. Properly addressing phase noise and practical constraints allows for consistent key rate predictions, protocol selection, and layout design, crucial for establishing secure long-haul links for the Quantum Communication Infrastructures under development in several countries.
翻訳日:2023-10-16 16:03:38 公開日:2023-10-12
# 古典運動の量子制御:ラビ結合ボース・アインシュタイン凝縮体におけるピストンダイナミクス

Quantum control of classical motion: piston dynamics in a Rabi-coupled Bose-Einstein condensate ( http://arxiv.org/abs/2310.08675v1 )

ライセンス: Link先を確認
Jing Li, E. Ya. Sherman, Andreas Ruschhaupt(参考訳) 古典ピストンと自己相互作用する擬スピン1/2ボース=アインシュタイン凝縮と時間依存ラビカップリングからなるハイブリッド古典量子系のダイナミクスを考察する。 本研究では, 凝縮体の量子圧力によるピストン移動によって生じる機械的作用について検討する。 時間依存性のラビ場はスピン成分間の凝縮密度を再分配し、結果としてピストンに作用する時間依存性圧力を引き起こす。 対応するものとして、ピストンの運動は凝縮質量とスピン密度プロファイルの量子進化をもたらす。 本稿では,ラビ場の時間依存方向を最適に設計することにより,ピストンの位置と速度を制御できることを示す。

We explore the dynamics of a hybrid classical-quantum system consisting of a classical piston and a self-interacting pseudospin 1/2 Bose-Einstein condensate with a time-dependent Rabi coupling. We investigate the mechanical work produced by the piston moving as a result of the quantum pressure of the condensate. The time-dependent Rabi field redistributes the condensate density between the spin components and, as a result, causes a time dependent pressure acting on the piston. Correspondingly, the motion of the piston produces quantum evolution of the condensate mass- and spin density profiles. We show how by optimised design of the time-dependent direction of the Rabi field, one can control position and velocity of the piston.
翻訳日:2023-10-16 15:54:51 公開日:2023-10-12
# 学習する機械学習: 学生の金融支援更新に関するフィールド実験における因果対予測目標

Machine Learning Who to Nudge: Causal vs Predictive Targeting in a Field Experiment on Student Financial Aid Renewal ( http://arxiv.org/abs/2310.08672v1 )

ライセンス: Link先を確認
Susan Athey, Niall Keleher, Jann Spiess(参考訳) 多くの環境では、介入は他の個人よりも効果的であり、介入を標的にすることが有益である。 我々は,53,000人以上の大学生を対象に,大規模フィールド実験の文脈におけるターゲットの価値を分析し,非拘束期限前に学生がファイナンシャル・エイド・アプリケーションの更新を促すために「ナッジ」を使用することを目標とした。 まずはターゲティングに対するベースラインアプローチから始めます。 まず,不均一な治療効果を推定する因果樹林を対象とし,最も治療効果が高いと見積もられたものに応じて,学生に治療を割り当てる。 次に,治療の欠如時に財政援助を再開する可能性の低い学生を対象とし,その可能性の高い生徒を対象とする2つのターゲティング政策を評価する。 予測されたベースラインの結果は、ターゲティングの理想的な基準ではなく、低、高、または中間の予測確率を優先するかどうかを優先する基準でもない。 しかしながら、例えば、個々の特徴と治療効果の関係は、歴史的データで見積もることが困難または不可能である場合が多いため、低いベースライン結果のターゲティングは現実的には一般的である。 本稿では,予測的アプローチ(正確な推定)と因果的アプローチ(正確な基準)の両方の長所を取り入れたハイブリッドアプローチを提案する。 実験の1年で、すべての学生が早期申請を平均6.4ポイント改善し、平均37%の申請に対して平均6.4ポイント改善した。

In many settings, interventions may be more effective for some individuals than others, so that targeting interventions may be beneficial. We analyze the value of targeting in the context of a large-scale field experiment with over 53,000 college students, where the goal was to use "nudges" to encourage students to renew their financial-aid applications before a non-binding deadline. We begin with baseline approaches to targeting. First, we target based on a causal forest that estimates heterogeneous treatment effects and then assigns students to treatment according to those estimated to have the highest treatment effects. Next, we evaluate two alternative targeting policies, one targeting students with low predicted probability of renewing financial aid in the absence of the treatment, the other targeting those with high probability. The predicted baseline outcome is not the ideal criterion for targeting, nor is it a priori clear whether to prioritize low, high, or intermediate predicted probability. Nonetheless, targeting on low baseline outcomes is common in practice, for example because the relationship between individual characteristics and treatment effects is often difficult or impossible to estimate with historical data. We propose hybrid approaches that incorporate the strengths of both predictive approaches (accurate estimation) and causal approaches (correct criterion); we show that targeting intermediate baseline outcomes is most effective, while targeting based on low baseline outcomes is detrimental. In one year of the experiment, nudging all students improved early filing by an average of 6.4 percentage points over a baseline average of 37% filing, and we estimate that targeting half of the students using our preferred policy attains around 75% of this benefit.
翻訳日:2023-10-16 15:54:41 公開日:2023-10-12
# SSG2:セマンティックセグメンテーションのための新しいモデリングパラダイム

SSG2: A new modelling paradigm for semantic segmentation ( http://arxiv.org/abs/2310.08671v1 )

ライセンス: Link先を確認
Foivos I. Diakogiannis, Suzanne Furby, Peter Caccetta, Xiaoliang Wu, Rodrigo Ibata, Ondrej Hlinka, John Taylor(参考訳) セグメンテーションにおける最先端モデルは、主に単一の静的イメージで動作し、対応するセグメンテーションマスクを生成する。 このワンショットアプローチでは、モデルの精度向上のために複数の観測結果を統合できないため、エラー訂正の余地がほとんどない。 セマンティック・チェンジ検出の研究から着想を得たこの制限は,静的な入力画像毎に生成された可観測物のシーケンスを活用する手法を導入することで解決する。 この「時間的」次元を加えることで、連続する観測値間の強い信号相関を利用して誤り率を減少させる。 我々のフレームワークはSSG2(Semantic Segmentation Generation 2)と呼ばれ、シーケンスモデルで拡張されたデュアルエンコーダ、シングルデコーダベースネットワークを使用している。 基本モデルは、デュアル入力画像からのラベルのセットの交点、結合、および差を予測することを学ぶ。 固定された目標入力画像と一連の支持画像が与えられた場合、シーケンスモデルは、各シーケンスステップから部分ビューを合成し、ノイズを除去することにより、ターゲットの予測マスクを構築する。 われわれはSSG2を,オーストラリアのダーウィンで5つのスペクトル帯と0.2mの空間分解能を持つ正像タイルを特徴とするUrbanMonitor,複数のスペクトル帯を持つ真の正像像を含むISPRS Potsdam,皮膚病変のセグメンテーションに焦点を当てた医用データセットISIC2018の3つのデータセットで評価した。 ssg2モデルは、最初の数十年で急速に収束し、同じ数の勾配更新でunetライクなベースラインモデルを大きく上回っている。 しかし、時間次元が加わったことでメモリフットプリントが増加する。 これは制限かもしれないが、高メモリGPUの出現とコーディング最適化によってオフセットされる。

State-of-the-art models in semantic segmentation primarily operate on single, static images, generating corresponding segmentation masks. This one-shot approach leaves little room for error correction, as the models lack the capability to integrate multiple observations for enhanced accuracy. Inspired by work on semantic change detection, we address this limitation by introducing a methodology that leverages a sequence of observables generated for each static input image. By adding this "temporal" dimension, we exploit strong signal correlations between successive observations in the sequence to reduce error rates. Our framework, dubbed SSG2 (Semantic Segmentation Generation 2), employs a dual-encoder, single-decoder base network augmented with a sequence model. The base model learns to predict the set intersection, union, and difference of labels from dual-input images. Given a fixed target input image and a set of support images, the sequence model builds the predicted mask of the target by synthesizing the partial views from each sequence step and filtering out noise. We evaluate SSG2 across three diverse datasets: UrbanMonitor, featuring orthoimage tiles from Darwin, Australia with five spectral bands and 0.2m spatial resolution; ISPRS Potsdam, which includes true orthophoto images with multiple spectral bands and a 5cm ground sampling distance; and ISIC2018, a medical dataset focused on skin lesion segmentation, particularly melanoma. The SSG2 model demonstrates rapid convergence within the first few tens of epochs and significantly outperforms UNet-like baseline models with the same number of gradient updates. However, the addition of the temporal dimension results in an increased memory footprint. While this could be a limitation, it is offset by the advent of higher-memory GPUs and coding optimizations.
翻訳日:2023-10-16 15:54:09 公開日:2023-10-12
# パラメータのすべて:動的不均一モデル削減によるフェデレーション学習の収束性の確保

Every Parameter Matters: Ensuring the Convergence of Federated Learning with Dynamic Heterogeneous Models Reduction ( http://arxiv.org/abs/2310.08670v1 )

ライセンス: Link先を確認
Hanhan Zhou, Tian Lan, Guru Venkataramani and Wenbo Ding(参考訳) クロスデバイスフェデレーション学習(fl)は、リソースボトルネックのため、潜在的にユニークな貢献が可能なローエンドクライアントが大規模モデルのトレーニングから除外されるという、重大な課題に直面している。 近年,グローバルモデルから小型モデルを抽出し,それに応じてローカルクライアントに適用することによって,モデル不均一FLに焦点を当てている。 経験的成功にもかかわらず、この方法に対する一般的な理論的な収束の保証は未解決の問題である。 本稿では,オンラインモデル抽出を用いた不均一FLアルゴリズムの一元化フレームワークを提案し,一般収束解析を行う。 特に, 一定の条件下で, IIDおよび非IIDデータに対して, これらのアルゴリズムは一般のスムーズなコスト関数に対して標準FLの定常点に収束することを示す。 さらに,モデル抽出ノイズと最小被覆率の2つの要因を照らし,効率的な不均一flのための局所モデル抽出の合同設計を提唱する。

Cross-device Federated Learning (FL) faces significant challenges where low-end clients that could potentially make unique contributions are excluded from training large models due to their resource bottlenecks. Recent research efforts have focused on model-heterogeneous FL, by extracting reduced-size models from the global model and applying them to local clients accordingly. Despite the empirical success, general theoretical guarantees of convergence on this method remain an open question. In this paper, we present a unifying framework for heterogeneous FL algorithms with online model extraction and provide a general convergence analysis. In particular, we prove that under certain sufficient conditions and for both IID and non-IID data, these algorithms converge to a stationary point of standard FL for general smooth cost functions. Moreover, we illuminate two key factors impacting its convergence: model-extraction noise and minimum coverage index, advocating a joint design of local model extraction for efficient heterogeneous FL.
翻訳日:2023-10-16 15:53:35 公開日:2023-10-12
# 視覚ナビゲーションのためのマルチモーダル大言語モデル

Multimodal Large Language Model for Visual Navigation ( http://arxiv.org/abs/2310.08669v1 )

ライセンス: Link先を確認
Yao-Hung Hubert Tsai, Vansh Dhar, Jialu Li, Bowen Zhang, Jian Zhang(参考訳) 大規模言語モデルを用いた視覚ナビゲーションの実現に向けた最近の取り組みは、主に複雑なプロンプトシステムの開発に焦点を当てている。 これらのシステムは、指示、観察、歴史を巨大なテキストプロンプトに組み込んで、事前訓練された大きな言語モデルと組み合わせて視覚的なナビゲーションを容易にする。 対照的に,我々のアプローチは,大規模なプロンプトエンジニアリングを必要とせず,ビジュアルナビゲーションのための大規模言語モデルを微調整することを目指している。 我々の設計には、単純なテキストプロンプト、現在の観測、過去の観測から情報を入力として収集する履歴収集モデルが含まれる。 出力には,エージェントがナビゲーション中に行う可能性のある動作の確率分布が提供される。 habitat-matterport 3d dataset (hm3d) からの人間によるデモンストレーションと衝突信号を用いてモデルをトレーニングした。 実験の結果, 本手法は最先端の動作クローニング法を上回っており, 衝突率を効果的に低減できることがわかった。

Recent efforts to enable visual navigation using large language models have mainly focused on developing complex prompt systems. These systems incorporate instructions, observations, and history into massive text prompts, which are then combined with pre-trained large language models to facilitate visual navigation. In contrast, our approach aims to fine-tune large language models for visual navigation without extensive prompt engineering. Our design involves a simple text prompt, current observations, and a history collector model that gathers information from previous observations as input. For output, our design provides a probability distribution of possible actions that the agent can take during navigation. We train our model using human demonstrations and collision signals from the Habitat-Matterport 3D Dataset (HM3D). Experimental results demonstrate that our method outperforms state-of-the-art behavior cloning methods and effectively reduces collision rates.
翻訳日:2023-10-16 15:53:20 公開日:2023-10-12
# 変圧器を用いたカウントとアルゴリズム一般化

Counting and Algorithmic Generalization with Transformers ( http://arxiv.org/abs/2310.08661v1 )

ライセンス: Link先を確認
Simon Ouellette, Rolf Pfister, Hansueli Jud(参考訳) 機械学習におけるアルゴリズムの一般化は、アウト・オブ・ディストリビューションを一般化する方法でデータを生成する基礎となるアルゴリズムを学習する能力を指す。 これは一般的に、ほとんどの機械学習アルゴリズムにとって難しいタスクであると考えられている。 ここでは,暗黙的あるいは明示的にカウントが必要な場合のアルゴリズム一般化を分析する。 標準トランスフォーマーは、そのようなタスクの分散性能を妨げるアーキテクチャ上の決定に基づいている。 特に,層正規化とsoftmaxによる注意重みの正規化の結果について考察する。 問題となる演算のアブレーションにより、非常に軽量なアーキテクチャを用いて、修正トランスフォーマーがカウントに優れたアルゴリズム一般化性能を示すことを示す。

Algorithmic generalization in machine learning refers to the ability to learn the underlying algorithm that generates data in a way that generalizes out-of-distribution. This is generally considered a difficult task for most machine learning algorithms. Here, we analyze algorithmic generalization when counting is required, either implicitly or explicitly. We show that standard Transformers are based on architectural decisions that hinder out-of-distribution performance for such tasks. In particular, we discuss the consequences of using layer normalization and of normalizing the attention weights via softmax. With ablation of the problematic operations, we demonstrate that a modified transformer can exhibit a good algorithmic generalization performance on counting while using a very lightweight architecture.
翻訳日:2023-10-16 15:53:03 公開日:2023-10-12
# 探索を伴わない共同ビームフォーミングのためのRL-Policiesの学習--Batch Constrained Off-Policy アプローチ

Learning RL-Policies for Joint Beamforming Without Exploration: A Batch Constrained Off-Policy Approach ( http://arxiv.org/abs/2310.08660v1 )

ライセンス: Link先を確認
Heasung Kim and Sravan Ankireddy(参考訳) 本稿では,レート最大化のためのネットワークパラメータ最適化の問題を考える。 我々はこれを、電力制御、ビーム形成、干渉キャンセルの連立最適化問題とみなす。 複数の基地局(BS)が複数のユーザ機器(UE)と通信する環境を考える。 ブルート力探索の指数関数的計算複雑性のため、より深い強化学習(RL)技術を用いて、この非凸最適化問題を解く。 現代の通信システムは、行動を正確にモデル化することが難しいことで悪名高い。 これにより、エージェントが効率的に探索し学習するために必要な環境との相互作用として、RLベースのアルゴリズムを使用することが制限される。 さらに、失敗のコストが高いため、探索と学習のために現実世界にアルゴリズムをデプロイすることが不適切である。 ディープQネットワーク(DQN)ベースの制御など,従来のRLベースのソリューションとは対照的に,オフラインモデルベースのアプローチを提案する。 具体的には、離散バッチ制約深度Q-ラーニング(BCQ)について検討し、DQNに類似した性能は、データのごく一部で、探索を必要とせずに実現可能であることを示す。 その結果、サンプル効率を最大化し、新しいアルゴリズムを商用ネットワークに展開するリスクを最小化する。 コードとデータを含むプロジェクトのリソース全体を、以下のリンクで提供します。

In this project, we consider the problem of network parameter optimization for rate maximization. We frame this as a joint optimization problem of power control, beam forming, and interference cancellation. We consider the setting where multiple Base Stations (BSs) are communicating with multiple user equipments (UEs). Because of the exponential computational complexity of brute force search, we instead solve this non-convex optimization problem using deep reinforcement learning (RL) techniques. The modern communication systems are notorious for their difficulty in exactly modeling their behaviour. This limits us in using RL based algorithms as interaction with the environment is needed for the agent to explore and learn efficiently. Further, it is ill advised to deploy the algorithm in real world for exploration and learning because of the high cost of failure. In contrast to the previous RL-based solutions proposed, such as deep-Q network (DQN) based control, we propose taking an offline model based approach. We specifically consider discrete batch constrained deep Q-learning (BCQ) and show that performance similar to DQN can be acheived with only a fraction of the data and without the need for exploration. This results in maximizing sample efficiency and minimizing risk in the deployment of a new algorithm to commercial networks. We provide the entire resource of the project, including code and data, at the following link: https://github.com/Heasung-Kim/ safe-rl-deployment-for-5g.
翻訳日:2023-10-16 15:52:52 公開日:2023-10-12
# LoftQ: 大規模言語モデルのための LoRA-Fine-Tuning-Aware 量子化

LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models ( http://arxiv.org/abs/2310.08659v1 )

ライセンス: Link先を確認
Yixiao Li, Yifan Yu, Chen Liang, Pengcheng He, Nikos Karampatziakis, Weizhu Chen, Tuo Zhao(参考訳) 量子化は、LLM(Large Language Models)を提供するのに必須のテクニックであり、最近LoRAファインチューニングへの道を見つけた。 本研究では、事前学習モデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。 このような場合、完全な微調整と量子化とLoRA微調整のアプローチで下流タスクのパフォーマンスの一貫性のあるギャップを観察することが一般的である。 LLMの量子化を同時に行う新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。 このような初期化は量子化モデルと完全精度モデルの相違を緩和し、下流タスクの一般化を大幅に改善する。 本稿では,自然言語理解,質問応答,要約,自然言語生成タスクについて評価する。 実験により,本手法は既存の量子化法,特に2ビットと2/4ビットの混合精度で高い性能を示した。 私たちはコードを公開します。

Quantization is an indispensable technique for serving Large Language Models (LLMs) and has recently found its way into LoRA fine-tuning. In this work we focus on the scenario where quantization and LoRA fine-tuning are applied together on a pre-trained model. In such cases it is common to observe a consistent gap in the performance on downstream tasks between full fine-tuning and quantization plus LoRA fine-tuning approach. In response, we propose LoftQ (LoRA-Fine-Tuning-aware Quantization), a novel quantization framework that simultaneously quantizes an LLM and finds a proper low-rank initialization for LoRA fine-tuning. Such an initialization alleviates the discrepancy between the quantized and full-precision model and significantly improves the generalization in downstream tasks. We evaluate our method on natural language understanding, question answering, summarization, and natural language generation tasks. Experiments show that our method is highly effective and outperforms existing quantization methods, especially in the challenging 2-bit and 2/4-bit mixed precision regimes. We will release our code.
翻訳日:2023-10-16 15:52:25 公開日:2023-10-12
# SplitBeam: スプリットコンピューティングによるWi-Fiネットワークにおける効率的なビームフォーミング

SplitBeam: Effective and Efficient Beamforming in Wi-Fi Networks Through Split Computing ( http://arxiv.org/abs/2310.08656v1 )

ライセンス: Link先を確認
Niloofar Bahadori and Yoshitomo Matsubara and Marco Levorato and Francesco Restuccia(参考訳) 現代のieee 802.11 (wi-fi) ネットワークはスループットを大幅に改善するために多入力多重出力 (mimo) に依存している。 mimo伝送を正しくビームするには、アクセスポイントは各接続局からビームフォーミングマトリックス(bm)を頻繁に取得する必要がある。 しかし、アンテナやサブキャリアの数によってマトリックスのサイズが大きくなると、ステーションでのエアタイムのオーバーヘッドと計算負荷が増加する。 従来のアプローチでは、過剰な計算負荷やビームフォーミング精度の損失が伴う。 そこで我々は,チャネル状態情報(CSI)行列を入力としてBMを直接出力するために,分割深層ニューラルネットワーク(DNN)をトレーニングする新しいフレームワークであるSplitBeamを提案する。 我々は,アプリケーション要件以下で計算,空調オーバーヘッド,ビット誤り率(BER)を維持するために,ボトルネック最適化問題(BOP)を定式化し,解決する。 既製のWi-Fiデバイスを2つの異なる環境で使用し, BMフィードバックのための標準IEEE 802.11アルゴリズムと最先端DNNベースのLB-SciFiとの比較を行った。 実験の結果, SplitBeam は BER を 10^-3 に抑えながら, ビームフォーミングフィードバックサイズと計算複雑性を 81% と 84% に削減できることがわかった。 また、FPGAハードウェア上でSplitBeam DNNを実装し、エンドツーエンドのBMレポート遅延を推定し、後者が最も複雑なシナリオでは10ミリ秒未満であることを示す。

Modern IEEE 802.11 (Wi-Fi) networks extensively rely on multiple-input multiple-output (MIMO) to significantly improve throughput. To correctly beamform MIMO transmissions, the access point needs to frequently acquire a beamforming matrix (BM) from each connected station. However, the size of the matrix grows with the number of antennas and subcarriers, resulting in an increasing amount of airtime overhead and computational load at the station. Conventional approaches come with either excessive computational load or loss of beamforming precision. For this reason, we propose SplitBeam, a new framework where we train a split deep neural network (DNN) to directly output the BM given the channel state information (CSI) matrix as input. We formulate and solve a bottleneck optimization problem (BOP) to keep computation, airtime overhead, and bit error rate (BER) below application requirements. We perform extensive experimental CSI collection with off-the-shelf Wi-Fi devices in two distinct environments and compare the performance of SplitBeam with the standard IEEE 802.11 algorithm for BM feedback and the state-of-the-art DNN-based approach LB-SciFi. Our experimental results show that SplitBeam reduces the beamforming feedback size and computational complexity by respectively up to 81% and 84% while maintaining BER within about 10^-3 of existing approaches. We also implement the SplitBeam DNNs on FPGA hardware to estimate the end-to-end BM reporting delay, and show that the latter is less than 10 milliseconds in the most complex scenario, which is the target channel sounding frequency in realistic multi-user MIMO scenarios.
翻訳日:2023-10-16 15:52:04 公開日:2023-10-12
# ヒストグラムと拡散型医療アウトオブディストリビューション検出

Histogram- and Diffusion-Based Medical Out-of-Distribution Detection ( http://arxiv.org/abs/2310.08654v1 )

ライセンス: Link先を確認
Evi M.C. Huijben, Sina Amirrajab, Josien P.W. Pluim(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、特に医療領域において、人工知能アルゴリズムの安全性と信頼性に不可欠である。 医療用ood(mood)検出チャレンジ2023の文脈において,ヒストグラムに基づく手法と拡散に基づく手法を組み合わせたパイプラインを提案する。 ヒストグラムに基づく手法は、一定の強度値のブロブのような、課題のおもちゃの例における均質な異常を正確に検出するように設計されている。 この拡散法はDDPM-OODと呼ばれる最新の教師なし異常検出法に基づいている。 本手法について検討し,脳MRIおよび腹部CTデータを用いた画素レベルおよびサンプルレベルの異常検出のための広範な後処理手順を提案する。 以上の結果から, ddpm法はボケやバイアスフィールドのサンプルに敏感であるが, 解剖学的変形, 黒スライス, スワップパッチの課題に直面している。 これらの結果から,医療画像のOOD検出におけるDDPMの性能向上にはさらなる研究が必要であることが示唆された。

Out-of-distribution (OOD) detection is crucial for the safety and reliability of artificial intelligence algorithms, especially in the medical domain. In the context of the Medical OOD (MOOD) detection challenge 2023, we propose a pipeline that combines a histogram-based method and a diffusion-based method. The histogram-based method is designed to accurately detect homogeneous anomalies in the toy examples of the challenge, such as blobs with constant intensity values. The diffusion-based method is based on one of the latest methods for unsupervised anomaly detection, called DDPM-OOD. We explore this method and propose extensive post-processing steps for pixel-level and sample-level anomaly detection on brain MRI and abdominal CT data provided by the challenge. Our results show that the proposed DDPM method is sensitive to blur and bias field samples, but faces challenges with anatomical deformation, black slice, and swapped patches. These findings suggest that further research is needed to improve the performance of DDPM for OOD detection in medical images.
翻訳日:2023-10-16 15:51:33 公開日:2023-10-12
# waymax:大規模自動運転研究のための加速データ駆動シミュレータ

Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research ( http://arxiv.org/abs/2310.08710v1 )

ライセンス: Link先を確認
Cole Gulino, Justin Fu, Wenjie Luo, George Tucker, Eli Bronstein, Yiren Lu, Jean Harb, Xinlei Pan, Yan Wang, Xiangyu Chen, John D. Co-Reyes, Rishabh Agarwal, Rebecca Roelofs, Yao Lu, Nico Montali, Paul Mougin, Zoey Yang, Brandyn White, Aleksandra Faust, Rowan McAllister, Dragomir Anguelov, Benjamin Sapp(参考訳) シミュレーションは、自動運転車計画ソフトウェアを安全かつ費用対効果で開発し、ベンチマークするために必要なツールである。 しかし、現実的なシミュレーションには、ニュアンスと複雑なマルチエージェント対話行動の正確なモデリングが必要である。 これらの課題に対処するために,大規模シミュレーションとテスト用に設計された,マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータであるWaymaxを紹介した。 Waymaxは、公開リリースの現実世界の運転データ(例えばWaymo Open Motion Dataset)を使用して、さまざまなマルチエージェントシミュレーションシナリオを初期化または再生する。 TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートするため、現代の大規模分散機械学習ワークフローに適している。 オンライントレーニングと評価をサポートするため、Waymaxには、シミュレーション内で現実的なインタラクションを可能にする、学習とハードコーディングの動作モデルがいくつか含まれている。 Waymaxを補完するために、一般的な模倣と強化学習アルゴリズムをベンチマークし、異なる設計決定に関するアブレーション研究を行い、計画エージェントのガイダンスとしてルートの有効性とシミュレーションエージェントに対して過度に適合するRLの有効性を強調した。

Simulation is an essential tool to develop and benchmark autonomous vehicle planning software in a safe and cost-effective manner. However, realistic simulation requires accurate modeling of nuanced and complex multi-agent interactive behaviors. To address these challenges, we introduce Waymax, a new data-driven simulator for autonomous driving in multi-agent scenes, designed for large-scale simulation and testing. Waymax uses publicly-released, real-world driving data (e.g., the Waymo Open Motion Dataset) to initialize or play back a diverse set of multi-agent simulated scenarios. It runs entirely on hardware accelerators such as TPUs/GPUs and supports in-graph simulation for training, making it suitable for modern large-scale, distributed machine learning workflows. To support online training and evaluation, Waymax includes several learned and hard-coded behavior models that allow for realistic interaction within simulation. To supplement Waymax, we benchmark a suite of popular imitation and reinforcement learning algorithms with ablation studies on different design decisions, where we highlight the effectiveness of routes as guidance for planning agents and the ability of RL to overfit against simulated agents.
翻訳日:2023-10-16 15:45:03 公開日:2023-10-12
# ニューラルネットワークモデルの多項式時間クリプトアナリシス抽出

Polynomial Time Cryptanalytic Extraction of Neural Network Models ( http://arxiv.org/abs/2310.08708v1 )

ライセンス: Link先を確認
Adi Shamir, Isaac Canales-Martinez, Anna Hambitzer, Jorge Chavez-Saab, Francisco Rodrigez-Henriquez, and Nitin Satpute(参考訳) 現在、数十億ドルと数え切れないほどのGPU時間が、さまざまなタスクのためにDeep Neural Networks(DNN)のトレーニングに費やされている。 したがって、ブラックボックスの実装にアクセスできる場合、そのようなニューラルネットワークの全てのパラメータを抽出することの難しさを判断することが不可欠である。 この問題の多くのバージョンが過去30年間に研究され、Crypto 2020でCarini、Jagielski、Mironovによって、ReLUベースのディープニューラルネットワークに対する最良の攻撃が提示された。 ブラックボックスの実装に秘密鍵を組み込んでおり、多項式のクエリ数を必要とするが、指数関数的な時間(ニューロン数の関数として)を必要とする暗号システムに対する差分選択プレーンテキスト攻撃に似ている。 本稿では,ReLUベースのDNNの実数値パラメータを多項式数と多項式時間を用いて任意の精度で抽出できる新しい手法を開発し,この攻撃を改善する。 3072の入力を持つcifar10データセット、8つの隠れレイヤと256個のニューロン、そして100万以上のニューロンパラメータを分類する、フルサイズのニューラルネットワークに適用することで、その実用性を示す。 カルリーニらによる攻撃は、256個の可能性に対して2以上の徹底的な探索を必要とする。 我々の攻撃は256コアのコンピュータで30分しか必要としない新しい技術に取って代わる。

Billions of dollars and countless GPU hours are currently spent on training Deep Neural Networks (DNNs) for a variety of tasks. Thus, it is essential to determine the difficulty of extracting all the parameters of such neural networks when given access to their black-box implementations. Many versions of this problem have been studied over the last 30 years, and the best current attack on ReLU-based deep neural networks was presented at Crypto 2020 by Carlini, Jagielski, and Mironov. It resembles a differential chosen plaintext attack on a cryptosystem, which has a secret key embedded in its black-box implementation and requires a polynomial number of queries but an exponential amount of time (as a function of the number of neurons). In this paper, we improve this attack by developing several new techniques that enable us to extract with arbitrarily high precision all the real-valued parameters of a ReLU-based DNN using a polynomial number of queries and a polynomial amount of time. We demonstrate its practical efficiency by applying it to a full-sized neural network for classifying the CIFAR10 dataset, which has 3072 inputs, 8 hidden layers with 256 neurons each, and over million neuronal parameters. An attack following the approach by Carlini et al. requires an exhaustive search over 2 to the power 256 possibilities. Our attack replaces this with our new techniques, which require only 30 minutes on a 256-core computer.
翻訳日:2023-10-16 15:44:41 公開日:2023-10-12
# SAR色化のためのベンチマークプロトコル:回帰から深層学習へのアプローチ

A Benchmarking Protocol for SAR Colorization: From Regression to Deep Learning Approaches ( http://arxiv.org/abs/2310.08705v1 )

ライセンス: Link先を確認
Kangqing Shen, Gemine Vivone, Xiaoyuan Yang, Simone Lolli, Michael Schmitt(参考訳) 合成開口レーダ(SAR)画像はリモートセンシングに広く利用されている。 SAR画像の解釈は、固有のスペックルノイズとグレースケールの性質のため困難である。 この問題に対処するために、SARのカラー化は、元の空間情報とラジオメトリック情報を保存しながら、グレースケールのSAR画像をカラー化する研究の方向として登場した。 しかし、この研究分野はまだ初期段階にあり、多くの制限が強調されている。 本稿では,SARのカラー化に対する教師あり学習に基づくアプローチの完全な研究ラインを提案する。 提案手法は,合成色SAR画像を生成するプロトコル,いくつかのベースライン,およびSAR色化のための条件付き生成逆ネットワーク(cGAN)に基づく効果的な方法を含む。 また,問題に対する数値評価指標も提案する。 我々の知る限り、これはプロトコル、ベンチマーク、完全な性能評価を含むSAR色化の研究ラインを提案する最初の試みである。 提案するcganベースのネットワークによるsarカラー化の有効性を示す。 コードは公開される予定だ。

Synthetic aperture radar (SAR) images are widely used in remote sensing. Interpreting SAR images can be challenging due to their intrinsic speckle noise and grayscale nature. To address this issue, SAR colorization has emerged as a research direction to colorize gray scale SAR images while preserving the original spatial information and radiometric information. However, this research field is still in its early stages, and many limitations can be highlighted. In this paper, we propose a full research line for supervised learning-based approaches to SAR colorization. Our approach includes a protocol for generating synthetic color SAR images, several baselines, and an effective method based on the conditional generative adversarial network (cGAN) for SAR colorization. We also propose numerical assessment metrics for the problem at hand. To our knowledge, this is the first attempt to propose a research line for SAR colorization that includes a protocol, a benchmark, and a complete performance evaluation. Our extensive tests demonstrate the effectiveness of our proposed cGAN-based network for SAR colorization. The code will be made publicly available.
翻訳日:2023-10-16 15:44:19 公開日:2023-10-12
# ELDEN: ローカル依存による探索

ELDEN: Exploration via Local Dependencies ( http://arxiv.org/abs/2310.08702v1 )

ライセンス: Link先を確認
Jiaheng Hu, Zizhao Wang, Peter Stone, Roberto Martin-Martin(参考訳) 大きな州空間とまばらな報酬を持つタスクは、強化学習に長年挑戦してきた。 これらのタスクでは、エージェントが報酬を見つけるまで、状態空間を効率的に探索する必要がある。 この問題に対処するため、コミュニティは、エージェントが興味ある状態を訪れるように促すボーナス信号である本質的な報酬で報酬機能を増強することを提案した。 本研究では,因子状態空間と複雑な連鎖依存性を持つ環境に対して,エージェントのアクションが他のエンティティの値に影響を及ぼす可能性のあるエンティティの値を変える可能性のある,興味深い状態を定義する新しい方法を提案する。 私たちの見解では、これらの環境では、エージェントやオブジェクトのようなエンティティが互いに何らかの影響を与えるかどうか(どのように)エージェントが不明な状態である。 エンティティ間の新たなインタラクションの発見を促進する,新たな内在的な報酬です。 ELDENは、学習されたダイナミクスの部分微分を使って、エンティティ間の局所的な依存関係を正確かつ効率的にモデル化する。 予測された依存関係の不確実性は、新しい相互作用への探索を促進する本質的な報酬として使用される。 2次元グリッド世界から3次元ロボットタスクまで、複雑な依存関係を持つ4つの領域におけるEDDENの性能を評価する。 すべてのドメインにおいて、ELDENは局所的な依存関係を正しく識別し、成功したポリシーを学ぶ。

Tasks with large state space and sparse rewards present a longstanding challenge to reinforcement learning. In these tasks, an agent needs to explore the state space efficiently until it finds a reward. To deal with this problem, the community has proposed to augment the reward function with intrinsic reward, a bonus signal that encourages the agent to visit interesting states. In this work, we propose a new way of defining interesting states for environments with factored state spaces and complex chained dependencies, where an agent's actions may change the value of one entity that, in order, may affect the value of another entity. Our insight is that, in these environments, interesting states for exploration are states where the agent is uncertain whether (as opposed to how) entities such as the agent or objects have some influence on each other. We present ELDEN, Exploration via Local DepENdencies, a novel intrinsic reward that encourages the discovery of new interactions between entities. ELDEN utilizes a novel scheme -- the partial derivative of the learned dynamics to model the local dependencies between entities accurately and computationally efficiently. The uncertainty of the predicted dependencies is then used as an intrinsic reward to encourage exploration toward new interactions. We evaluate the performance of ELDEN on four different domains with complex dependencies, ranging from 2D grid worlds to 3D robotic tasks. In all domains, ELDEN correctly identifies local dependencies and learns successful policies, significantly outperforming previous state-of-the-art exploration methods.
翻訳日:2023-10-16 15:44:02 公開日:2023-10-12
# 進化を伴うグラフ上の状態伝達強度の定量化

Quantifying State Transfer Strength on Graphs with Involution ( http://arxiv.org/abs/2310.08690v1 )

ライセンス: Link先を確認
Gabor Lippner, Yujia Shi(参考訳) 本稿では,畳み込みを伴うグラフにおける連続時間量子ウォークと漸近状態伝達について論じる。 ハミルトニアンの固有ベクトルの定量的境界を提供することにより、グラフの最大度に基づいてエネルギーポテンシャルを戦略的に選択することで高忠実度状態移動を達成するアプローチを提供する。 この研究はまた、量子転移が起こるのに必要な時間の解析も含んでいる。

This paper discusses continuous-time quantum walks and asymptotic state transfer in graphs with an involution. By providing quantitative bounds on the eigenvectors of the Hamiltonian, it provides an approach to achieving high-fidelity state transfer by strategically selecting energy potentials based on the maximum degrees of the graphs. The study also involves an analysis of the time necessary for quantum transfer to occur.
翻訳日:2023-10-16 15:43:39 公開日:2023-10-12
# 分子設計のためのカーネル弾性オートエンコーダ

Kernel-Elastic Autoencoder for Molecular Design ( http://arxiv.org/abs/2310.08685v1 )

ライセンス: Link先を確認
Haote Li, Yu Shee, Brandon Allen, Federica Maschietto, Victor Batista(参考訳) 本稿では,分子設計のための性能を向上させるトランスフォーマアーキテクチャに基づく自己教師付き生成モデルであるkernel-elastic autoencoder (kae)について紹介する。 kaeは2つの新しい損失関数、modified maximum mean discrepancyとweighted reconstructionに基づいて定式化されている。 KAEは、有効な生成と正確な再構築を同時に達成するという長年にわたる課題に対処する。 KAEは、従来の分子生成モデルを超えながら、独立テストデータセット上でほぼ完璧な再構成を維持しながら、分子生成において顕著な多様性を実現している。 KAEは条件付き生成を可能にし、制約付き最適化における最先端性能をもたらすビームサーチに基づく復号を可能にする。 さらに、KAEは、AutoDock VinaとGlideのスコアが確認したように、ドッキングアプリケーションにおいて好ましい結合親和性を示す分子を生成することができ、トレーニングデータセットから既存のすべての候補より優れている。 分子設計以外では、KAEは幅広い応用で生成することで問題を解決することができると期待している。

We introduce the Kernel-Elastic Autoencoder (KAE), a self-supervised generative model based on the transformer architecture with enhanced performance for molecular design. KAE is formulated based on two novel loss functions: modified maximum mean discrepancy and weighted reconstruction. KAE addresses the long-standing challenge of achieving valid generation and accurate reconstruction at the same time. KAE achieves remarkable diversity in molecule generation while maintaining near-perfect reconstructions on the independent testing dataset, surpassing previous molecule-generating models. KAE enables conditional generation and allows for decoding based on beam search resulting in state-of-the-art performance in constrained optimizations. Furthermore, KAE can generate molecules conditional to favorable binding affinities in docking applications as confirmed by AutoDock Vina and Glide scores, outperforming all existing candidates from the training dataset. Beyond molecular design, we anticipate KAE could be applied to solve problems by generation in a wide range of applications.
翻訳日:2023-10-16 15:43:32 公開日:2023-10-12
# アタリ強化学習のための仮想拡張現実

Virtual Augmented Reality for Atari Reinforcement Learning ( http://arxiv.org/abs/2310.08683v1 )

ライセンス: Link先を確認
Christian A. Schiller(参考訳) 強化学習(Reinforcement Learning, RL)は、Google DeepMindのAlphaGoが人間の囲碁チャンピオンKen Jieを破り、ゲーム分野で大きなマイルストーンを達成した。 この勝利はatari learning environment(ale)を通じても可能になった: aleはrl研究の基盤となり、alphagoなどの重要なrlアルゴリズムの開発が促進された。 現在のAtariビデオゲームRL研究において、RLエージェントの環境に対する認識は、最小限の画像前処理によるAtariビデオゲーム画面からの生のピクセルデータに基づいている。 対照的に,Atari ゲーム RL 研究領域以外の最先端ML研究は,イメージ知覚の向上に重点を置いている。 注目すべき例として、Meta Researchの"Segment Anything Model"(SAM)がある。 SAMのような最先端のイメージセグメンテーションモデルは、アタリビデオゲームをプレイするRLエージェントの性能を改善することができるか? その結果、SAMはRLエージェントの「仮想拡張現実」として機能し、特定の条件下でのAtariビデオゲームのパフォーマンスを高めることが示唆された。 RLエージェントの性能を生および増設画素入力から比較すると,これらの条件に対する洞察が得られる。 本論文は計算制約により制限されていたが,RLエージェントの性能が向上し,RLエージェントをプレイするビデオゲームの仮想拡張現実」という領域において,より広範な研究課題が報告された。

Reinforcement Learning (RL) has achieved significant milestones in the gaming domain, most notably Google DeepMind's AlphaGo defeating human Go champion Ken Jie. This victory was also made possible through the Atari Learning Environment (ALE): The ALE has been foundational in RL research, facilitating significant RL algorithm developments such as AlphaGo and others. In current Atari video game RL research, RL agents' perceptions of its environment is based on raw pixel data from the Atari video game screen with minimal image preprocessing. Contrarily, cutting-edge ML research, external to the Atari video game RL research domain, is focusing on enhancing image perception. A notable example is Meta Research's "Segment Anything Model" (SAM), a foundation model capable of segmenting images without prior training (zero-shot). This paper addresses a novel methodical question: Can state-of-the-art image segmentation models such as SAM improve the performance of RL agents playing Atari video games? The results suggest that SAM can serve as a "virtual augmented reality" for the RL agent, boosting its Atari video game playing performance under certain conditions. Comparing RL agent performance results from raw and augmented pixel inputs provides insight into these conditions. Although this paper was limited by computational constraints, the findings show improved RL agent performance for augmented pixel inputs and can inform broader research agendas in the domain of "virtual augmented reality for video game playing RL agents".
翻訳日:2023-10-16 15:43:17 公開日:2023-10-12
# fed-safe: 医療におけるフェデレート学習の保護

Fed-Safe: Securing Federated Learning in Healthcare Against Adversarial Attacks ( http://arxiv.org/abs/2310.08681v1 )

ライセンス: Link先を確認
Erfan Darzi, Nanna M. Sijtsema, P.M.A van Ooijen(参考訳) 本稿では,医療画像解析における連合学習アプリケーションのセキュリティ面について検討する。 現在の堅牢性指向の手法である、敵のトレーニング、セキュアアグリゲーション、同型暗号化は、しばしばプライバシー侵害のリスクを負う。 中心的な目的は、敵の操作に対するモデル堅牢性を維持しながら、潜在的なプライバシー侵害からネットワークを守ることである。 フェデレートされた設定におけるプライバシー保証を基礎とした分散ノイズの導入により、フェデレーションされたプライバシ標準にも適合する、対向的に堅牢なモデルの開発が可能になることを示す。 病理,髄膜腫,グリオーマを中心に,がん画像における多様な攻撃シナリオ,パラメータ,使用事例を総合的に評価した。 その結果,分散ノイズが組み込まれれば,従来と同等のセキュリティレベルが達成でき,ロバストなモデルを確立するためにはサンプルの再トレーニングを少なくできることがわかった。

This paper explores the security aspects of federated learning applications in medical image analysis. Current robustness-oriented methods like adversarial training, secure aggregation, and homomorphic encryption often risk privacy compromises. The central aim is to defend the network against potential privacy breaches while maintaining model robustness against adversarial manipulations. We show that incorporating distributed noise, grounded in the privacy guarantees in federated settings, enables the development of a adversarially robust model that also meets federated privacy standards. We conducted comprehensive evaluations across diverse attack scenarios, parameters, and use cases in cancer imaging, concentrating on pathology, meningioma, and glioma. The results reveal that the incorporation of distributed noise allows for the attainment of security levels comparable to those of conventional adversarial training while requiring fewer retraining samples to establish a robust model.
翻訳日:2023-10-16 15:42:53 公開日:2023-10-12
# GPTモデルは金融アナリストになれるか? 模擬CFA試験におけるChatGPTとGPT-4の評価

Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4 on mock CFA Exams ( http://arxiv.org/abs/2310.08678v1 )

ライセンス: Link先を確認
Ethan Callanan, Amarachi Mbakwe, Antony Papadimitriou, Yulong Pei, Mathieu Sibue, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah(参考訳) 大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを示し、しばしば最先端のタスク固有のモデルにマッチしたり、打ち負かしたりする。 本研究は,LLMの財務的推論能力を評価することを目的とする。 我々は、ゼロショット(ZS)、Chain-of-Thought(CoT)、Few-Shot(FS)シナリオを考慮して、チャータード・ファイナンシャル・アナリスト(CFA)プログラムの模擬試験質問を利用して、財務分析においてChatGPTとGPT-4を総合的に評価する。 本稿では,モデルの性能と限界を詳細に分析し,CFA試験に合格する確率を推定する。 最後に、金融におけるLCMの適用性を高めるための潜在的戦略と改善に関する洞察を概説する。 この観点からは、厳格な評価を通じて、今後の研究が財政的理由からLLMの強化を継続する道を開くことを願っている。

Large Language Models (LLMs) have demonstrated remarkable performance on a wide range of Natural Language Processing (NLP) tasks, often matching or even beating state-of-the-art task-specific models. This study aims at assessing the financial reasoning capabilities of LLMs. We leverage mock exam questions of the Chartered Financial Analyst (CFA) Program to conduct a comprehensive evaluation of ChatGPT and GPT-4 in financial analysis, considering Zero-Shot (ZS), Chain-of-Thought (CoT), and Few-Shot (FS) scenarios. We present an in-depth analysis of the models' performance and limitations, and estimate whether they would have a chance at passing the CFA exams. Finally, we outline insights into potential strategies and improvements to enhance the applicability of LLMs in finance. In this perspective, we hope this work paves the way for future studies to continue enhancing LLMs for financial reasoning through rigorous evaluation.
翻訳日:2023-10-16 15:42:37 公開日:2023-10-12
# GDL-DS: 分布シフトによる幾何学的深層学習のベンチマーク

GDL-DS: A Benchmark for Geometric Deep Learning under Distribution Shifts ( http://arxiv.org/abs/2310.08677v1 )

ライセンス: Link先を確認
Deyu Zou, Shikun Liu, Siqi Miao, Victor Fung, Shiyu Chang, Pan Li(参考訳) 幾何学的深層学習(GDL)は様々な科学分野において注目されており、特に複雑な幾何学構造を持つデータモデリングの習熟度が高い。 しかし、多くの関連アプリケーションで一般的な課題である分散シフト問題に取り組む能力に目を向ける作品はほとんどない。 このギャップを埋めるため,分散シフトのあるシナリオにおけるGDLモデルの性能を評価するための総合ベンチマークであるGDL-DSを提案する。 我々の評価データセットは粒子物理学や材料科学から生化学まで幅広い科学領域をカバーし、条件、共変量、概念シフトを含む幅広い分布シフトをカプセル化する。 さらに,OOD 情報やラベルのない OOD 機能,ラベルのない OOD 機能,ラベルのない OOD 機能など,OOD テストデータからの3つのレベルの情報アクセスについて検討した。 ベンチマークの結果,30の異なる実験環境が得られ,それぞれ3つのGDLバックボーンと11の学習アルゴリズムが評価された。 評価結果の詳細な分析が提供され、アプリケーションでdglを使用するdgl研究者やドメイン実践者のための洞察を照らすことができる。

Geometric deep learning (GDL) has gained significant attention in various scientific fields, chiefly for its proficiency in modeling data with intricate geometric structures. Yet, very few works have delved into its capability of tackling the distribution shift problem, a prevalent challenge in many relevant applications. To bridge this gap, we propose GDL-DS, a comprehensive benchmark designed for evaluating the performance of GDL models in scenarios with distribution shifts. Our evaluation datasets cover diverse scientific domains from particle physics and materials science to biochemistry, and encapsulate a broad spectrum of distribution shifts including conditional, covariate, and concept shifts. Furthermore, we study three levels of information access from the out-of-distribution (OOD) testing data, including no OOD information, only OOD features without labels, and OOD features with a few labels. Overall, our benchmark results in 30 different experiment settings, and evaluates 3 GDL backbones and 11 learning algorithms in each setting. A thorough analysis of the evaluation results is provided, poised to illuminate insights for DGL researchers and domain practitioners who are to use DGL in their applications.
翻訳日:2023-10-16 15:42:15 公開日:2023-10-12
# 持続可能な石油産業のためのランダム森林と時間畳み込みネットワークを用いたリアルタイムイベント検出

Real-Time Event Detection with Random Forests and Temporal Convolutional Networks for More Sustainable Petroleum Industry ( http://arxiv.org/abs/2310.08737v1 )

ライセンス: Link先を確認
Yuanwei Qu, Baifan Zhou, Arild Waaler, David Cameron(参考訳) 石油産業は現代社会にとって重要であるが、生産プロセスは複雑で危険である。 生産中、望ましくない生産イベントによる事故や失敗は、環境や経済に深刻なダメージを与える可能性がある。 従来の研究では、望ましくない事象検出のための機械学習(ML)手法が研究されている。 しかし,イベント発生を想定した早期介入が重要であるため,リアルタイムの事象確率の予測が不十分であった。 本稿では,ランダムな森林と時間的畳み込みネットワークの2つのML手法を提案する。 その結果,本手法はイベントタイプを効果的に分類し,その出現確率を予測し,過去の研究で明らかになった課題に対処し,生産中の障害イベント管理に有効なソリューションを提供する。

The petroleum industry is crucial for modern society, but the production process is complex and risky. During the production, accidents or failures, resulting from undesired production events, can cause severe environmental and economic damage. Previous studies have investigated machine learning (ML) methods for undesired event detection. However, the prediction of event probability in real-time was insufficiently addressed, which is essential since it is important to undertake early intervention when an event is expected to happen. This paper proposes two ML approaches, random forests and temporal convolutional networks, to detect undesired events in real-time. Results show that our approaches can effectively classify event types and predict the probability of their appearance, addressing the challenges uncovered in previous studies and providing a more effective solution for failure event management during the production.
翻訳日:2023-10-16 15:33:51 公開日:2023-10-12
# ランダム化平滑化によるロバストなコストセンシティブ学習

Provably Robust Cost-Sensitive Learning via Randomized Smoothing ( http://arxiv.org/abs/2310.08732v1 )

ライセンス: Link先を確認
Yuan Xin, Michael Backes, Xiao Zhang(参考訳) 異なるクラス毎の逆変換の潜在的な害をバイナリコストマトリックスにエンコードする,コストに敏感なシナリオの下で,敵意にロバストな分類器を学習することに集中する。 既存の方法は、堅牢性を証明できない、または固有のスケーラビリティの問題に悩まされる経験的な方法である。 本研究では,よりスケーラブルなロバスト性認定フレームワークであるランダム化平滑化を,コストに敏感なロバスト性を保証するために活用できるか検討する。 コスト依存型認証半径の概念に基づいて,任意のコスト行列に対して厳密な堅牢性を保証するために,標準ランダム化スムージング認証パイプラインの適応方法を示す。 さらに,異なるデータサブグループに特化して設計された詳細な半径最適化手法を用いて,コスト感受性に最適化されたスムーズな分類器を訓練するアルゴリズムを提案する。 画像ベンチマークと実世界の医療データセットの大規模な実験により, 精度に悪影響を及ぼすことなく, 信頼性の高い信頼性を向上する上で, 提案手法の優位性を実証した。

We focus on learning adversarially robust classifiers under a cost-sensitive scenario, where the potential harm of different classwise adversarial transformations is encoded in a binary cost matrix. Existing methods are either empirical that cannot certify robustness or suffer from inherent scalability issues. In this work, we study whether randomized smoothing, a more scalable robustness certification framework, can be leveraged to certify cost-sensitive robustness. Built upon a notion of cost-sensitive certified radius, we show how to adapt the standard randomized smoothing certification pipeline to produce tight robustness guarantees for any cost matrix. In addition, with fine-grained certified radius optimization schemes specifically designed for different data subgroups, we propose an algorithm to train smoothed classifiers that are optimized for cost-sensitive robustness. Extensive experiments on image benchmarks and a real-world medical dataset demonstrate the superiority of our method in achieving significantly improved performance of certified cost-sensitive robustness while having a negligible impact on overall accuracy.
翻訳日:2023-10-16 15:33:36 公開日:2023-10-12
# 世界モデルにおける新規性検出の簡易化

A Simple Way to Incorporate Novelty Detection in World Models ( http://arxiv.org/abs/2310.08731v1 )

ライセンス: Link先を確認
Geigh Zollicoffer, Kenneth Eaton, Jonathan Balloch, Julia Kim, Mark O. Riedl, Robert Wright(参考訳) 世界モデルを用いた強化学習(RL)は近年大きな成功を収めている。 しかし、突然世界力学や性質が変化した場合、エージェントの性能と信頼性は劇的に低下する。 視覚特性や状態遷移の突然の変化を {\em novelties} と呼ぶ。 生成したワールドモデルフレームワークに新規性検出を実装することは、デプロイ時にエージェントを保護するための重要なタスクである。 本稿では,世界模型の幻覚状態と真の観測状態の誤配を異常スコアとして利用することにより,新規性検出を世界モデルRLエージェントに組み込むための単純なバウンダリング手法を提案する。 まず、逐次意思決定に関連する新規性検出のオントロジーを提供し、次いで、エージェントが世界モデルで学習した遷移の分布において、新規性を検出する効果的なアプローチを提案する。 最後に、従来の機械学習のノベルティ検出法や、現在受け入れられているrlにフォーカスしたノベルティ検出アルゴリズムと比較して、新しい環境での研究の利点を示す。

Reinforcement learning (RL) using world models has found significant recent successes. However, when a sudden change to world mechanics or properties occurs then agent performance and reliability can dramatically decline. We refer to the sudden change in visual properties or state transitions as {\em novelties}. Implementing novelty detection within generated world model frameworks is a crucial task for protecting the agent when deployed. In this paper, we propose straightforward bounding approaches to incorporate novelty detection into world model RL agents, by utilizing the misalignment of the world model's hallucinated states and the true observed states as an anomaly score. We first provide an ontology of novelty detection relevant to sequential decision making, then we provide effective approaches to detecting novelties in a distribution of transitions learned by an agent in a world model. Finally, we show the advantage of our work in a novel environment compared to traditional machine learning novelty detection methods as well as currently accepted RL focused novelty detection algorithms.
翻訳日:2023-10-16 15:33:13 公開日:2023-10-12
# ファブリペロキャビティにおける分子の集合に対する2光子遷移の性質について

On the nature of two-photon transitions for a Collection of Molecules in a Fabry-Perot Cavity ( http://arxiv.org/abs/2310.08730v1 )

ライセンス: Link先を確認
Zeyu Zhou, Hsing-Ta Chen, Maxim Sukharev, Joseph E. Subotnik, Abraham Nitzan(参考訳) 本研究では, キャビティが分子系の非線形2光子遷移に及ぼす影響と, キャビティ品質因子, フィールドエンハンスメントおよびデファスメントの可能性にどのように依存するかについて検討した。 異なる品質因子を持つキャビティ内の強い光場に対する分子応答は、バランスから生じるものと解釈できる。 (i)外部プローブの磁場を高め、多光子遷移をより容易に促進するためのキャビティの能力 (ii)キャビティ内の多光子遷移の厳密な選択規則が励起範囲内の1つの共振周波数のみをサポートするという事実。 過去のプラズモニック系およびポラリトニック系の研究におけるこのレベルの近似の経験に基づき、放射場の古典的記述(すなわち、電場-分子相互作用のエーレンフェスト近似におけるマクスウェル・ブロッホ方程式やマクスウェル・リオウヴィル方程式を解く)を用いるが、この結果は幅広い外部プローブで有効であると信じている。

We investigate the effect of a cavity on nonlinear two-photon transitions of a molecular system and how such an effect depends on the cavity quality factor, the field enhancement and the possibility of dephasing. We find that the molecular response to strong light fields in a cavity with variable quality factor can be understood as arising from a balance between (i) the ability of the cavity to enhance the field of an external probe and promote multiphoton transitions more easily and (ii) the fact that the strict selection rules on multiphoton transitions in a cavity support only one resonant frequency within the excitation range. Although our simulations use a classical-level description of the radiation field (i.e. we solve Maxwell-Bloch or Maxwell-Liouville equations within the Ehrenfest approximation for the field-molecule interaction), based on experience with this level of approximation in past studies of plasmonic and polaritonic systems, we believe that our results are valid over a wide range of external probing.
翻訳日:2023-10-16 15:32:58 公開日:2023-10-12
# 原子状薄膜半導体ヘテロ構造における複合電荷キャリア状態のfeshbach共鳴

Feshbach resonances of composite charge carrier states in atomically thin semiconductor heterostructures ( http://arxiv.org/abs/2310.08729v1 )

ライセンス: Link先を確認
Marcel Wagner, Rafa{\l} O{\l}dziejewski, F\'elix Rose, Verena K\"oder, Clemens Kuhlenkamp, Ata\c{c} \.Imamo\u{g}lu, Richard Schmidt(参考訳) フェシュバッハ共鳴は、強相関物理学を研究する冷原子の成功に重要な役割を果たしている。 遷移金属ジカルコゲナイド(schwartz et al., science 374, 336 (2021))におけるホールと層内励起子の散乱における固体アナログの最近の観察は、半導体の分野に完全に制御可能な相互作用をもたらすという説得力のある約束を持っている。 ここでは, トンネル誘起層ハイブリッド化がFeshbach共鳴の原子性半導体における2つの異なるクラスを発生させることを示す。 微視的散乱理論に基づき、これらの2種類のフェッシュバッハ共鳴は電子と短寿命の層内層と長寿命の層間励起子の間の相互作用を調整できることを示した。 第一原理から励起子電子散乱位相シフトを予測し、励起子電子カップリングが強い相互作用から消滅する相互作用まで完全に調整可能であることを示す。 相互作用のチューニング性は、かつて低温原子実験でしかアクセスできなかった状態の固体系のボース-フェルミ混合を探索する道を開く。

Feshbach resonances play a vital role in the success of cold atoms investigating strongly-correlated physics. The recent observation of their solid-state analog in the scattering of holes and intralayer excitons in transition metal dichalcogenides [Schwartz et al., Science 374, 336 (2021)] holds compelling promise for bringing fully controllable interactions to the field of semiconductors. Here, we demonstrate how tunneling-induced layer hybridization can lead to the emergence of two distinct classes of Feshbach resonances in atomically thin semiconductors. Based on microscopic scattering theory we show that these two types of Feshbach resonances allow to tune interactions between electrons and both short-lived intralayer, as well as long-lived interlayer excitons. We predict the exciton-electron scattering phase shift from first principles and show that the exciton-electron coupling is fully tunable from strong to vanishing interactions. The tunability of interactions opens the avenue to explore Bose-Fermi mixtures in solid-state systems in regimes that were previously only accessible in cold atom experiments.
翻訳日:2023-10-16 15:32:35 公開日:2023-10-12
# 量子通信対策

Quantum Communication Countermeasures ( http://arxiv.org/abs/2310.08728v1 )

ライセンス: Link先を確認
Michal Krelina(参考訳) 量子通信、特に量子鍵分布は、近い将来、我々の通信システムにおいて重要な役割を果たすだろう。 したがって、量子通信の脆弱性を盗聴(量子ハッキングの一側面)に評価するだけでなく、サービス拒否攻撃の実行可能性、特に量子通信の動作停止を精査することが不可欠である。 主に自由空間量子チャネルに焦点をあてて、戦略的観点からのサービス拒否攻撃の可能性の調査を行う。 これは様々なシナリオの分析、数値モデリング、リスク推定、攻撃分類を含んでいる。 現場外(視野外)攻撃は、ほぼすべてのシナリオで特に深刻な脅威として現れます。 対策や勧告が提案されている。

Quantum communication, particularly quantum key distribution, is poised to play a pivotal role in our communication system in the near future. Consequently, it is imperative to not only assess the vulnerability of quantum communication to eavesdropping (one aspect of quantum hacking), but also to scrutinise the feasibility of executing a denial-of-service attack, specifically, stopping quantum communication from working. Focusing primarily on the free-space quantum channel, the investigation of possible denial-of-service attacks from a strategic perspective is performed. This encompasses the analysis of various scenarios, numerical modelling, risk estimation and attack classification. The out-of-FOV (field of view) attack emerges as a particularly severe threat across nearly all scenarios. This is accompanied by proposed counter-countermeasures and recommendations.
翻訳日:2023-10-16 15:32:16 公開日:2023-10-12
# 不均衡分類のためのヘテロフィリベースグラフニューラルネットワーク

Heterophily-Based Graph Neural Network for Imbalanced Classification ( http://arxiv.org/abs/2310.08725v1 )

ライセンス: Link先を確認
Zirui Liang, Yuntao Li, Tianjin Huang, Akrati Saxena, Yulong Pei, Mykola Pechenizkiy(参考訳) グラフニューラルネットワーク(gnns)は、ノード分類を含むグラフ関連の問題に対処することに有望である。 しかし、従来のGNNでは、クラス間のデータの均等な分散を前提としており、特定のクラスが過小評価されている現実のシナリオではそうではないことが多い。 これにより、不均衡グラフ上の標準GNNの準最適性能が得られる。 本稿では,グラフの不均衡な分類をヘテロフィリーに考慮し,一意なアプローチを提案する。 本研究は, クラス不均衡とグラフヘテロフィリの複雑な関係を考察し, 少数クラスはサンプルの不足だけでなく, ホモフィリの低いレベルも示し, 近隣ノード間の誤情報の伝播を容易にすることを明らかにする。 そこで本研究では,Fast Im-GBKという手法を提案する。この手法は不均衡分類戦略をヘテロフィリ認識GNNと統合し,クラス不均衡問題を効果的に解決し,トレーニング時間を大幅に短縮する。 実世界のグラフに関する実験は,既存のベースラインと比較して,ノード分類タスクの分類性能と効率が優れていることを示す。

Graph neural networks (GNNs) have shown promise in addressing graph-related problems, including node classification. However, conventional GNNs assume an even distribution of data across classes, which is often not the case in real-world scenarios, where certain classes are severely underrepresented. This leads to suboptimal performance of standard GNNs on imbalanced graphs. In this paper, we introduce a unique approach that tackles imbalanced classification on graphs by considering graph heterophily. We investigate the intricate relationship between class imbalance and graph heterophily, revealing that minority classes not only exhibit a scarcity of samples but also manifest lower levels of homophily, facilitating the propagation of erroneous information among neighboring nodes. Drawing upon this insight, we propose an efficient method, called Fast Im-GBK, which integrates an imbalance classification strategy with heterophily-aware GNNs to effectively address the class imbalance problem while significantly reducing training time. Our experiments on real-world graphs demonstrate our model's superiority in classification performance and efficiency for node classification tasks compared to existing baselines.
翻訳日:2023-10-16 15:32:03 公開日:2023-10-12
# 深層学習による計測用オブザーバブルの設計

Designing Observables for Measurements with Deep Learning ( http://arxiv.org/abs/2310.08717v1 )

ライセンス: Link先を確認
Owen Long, Benjamin Nachman(参考訳) 粒子物理学や核物理学における多くの解析は、基礎となる物理学モデルの基礎的、効果的、あるいは現象論的パラメータを推測するためにシミュレーションを用いる。 展開された断面で推論を行う場合、観測対象は物理直観とヒューリスティックスを用いて設計される。 機械学習を用いた最適観測器の設計を提案する。 ニューラルネットワーク出力における微分断面積は、興味のあるパラメータに関する最も多くの情報を含み、構築によって適切に測定できる。 深部非弾性散乱の包括的測定に2つの物理モデルを用いてこのアイデアを実証する。

Many analyses in particle and nuclear physics use simulations to infer fundamental, effective, or phenomenological parameters of the underlying physics models. When the inference is performed with unfolded cross sections, the observables are designed using physics intuition and heuristics. We propose to design optimal observables with machine learning. Unfolded, differential cross sections in a neural network output contain the most information about parameters of interest and can be well-measured by construction. We demonstrate this idea using two physics models for inclusive measurements in deep inelastic scattering.
翻訳日:2023-10-16 15:31:45 公開日:2023-10-12
# 変圧器選択ネット:選択予測のための変圧器ニューラルネットワーク

Transformer Choice Net: A Transformer Neural Network for Choice Prediction ( http://arxiv.org/abs/2310.08716v1 )

ライセンス: Link先を確認
Hanzhao Wang, Xiaocheng Li, Kalyan Talluri(参考訳) 多項ロジット(multinomial logit)、プロビット(probit)、混合ロジット(mixed-logit)といった離散型チョイスモデルは、マーケティング、経済、オペレーションの研究において広く使われている。 しかし、このようなモデルを複数の商品(eコマースショッピングなど)を選択した状況に拡張することは問題視されている。 顧客行動の合理的なモデルを構築することはできるが、これらのモデルの推定は、アイテムのサブセットの数の組合せの爆発のために非常に困難になる。 本稿では,複数の選択肢を予測するのに適したトランスフォーマーニューラルネットワークアーキテクチャであるtransformer choice netを開発した。 トランスフォーマーネットワークはこのタスクに特に適しており、顧客とアイテムの特徴だけでなく、この場合において顧客の過去の選択と同様にソートも考慮している。 ベンチマークデータセットの幅では、各インスタンスのカスタムモデリングやチューニングを必要とせず、文献における主要なモデルと比較して、サンプル外の予測性能が均一に優れている。

Discrete-choice models, such as Multinomial Logit, Probit, or Mixed-Logit, are widely used in Marketing, Economics, and Operations Research: given a set of alternatives, the customer is modeled as choosing one of the alternatives to maximize a (latent) utility function. However, extending such models to situations where the customer chooses more than one item (such as in e-commerce shopping) has proven problematic. While one can construct reasonable models of the customer's behavior, estimating such models becomes very challenging because of the combinatorial explosion in the number of possible subsets of items. In this paper we develop a transformer neural network architecture, the Transformer Choice Net, that is suitable for predicting multiple choices. Transformer networks turn out to be especially suitable for this task as they take into account not only the features of the customer and the items but also the context, which in this case could be the assortment as well as the customer's past choices. On a range of benchmark datasets, our architecture shows uniformly superior out-of-sample prediction performance compared to the leading models in the literature, without requiring any custom modeling or tuning for each instance.
翻訳日:2023-10-16 15:31:37 公開日:2023-10-12
# 音声単位とテキストの結合言語モデリングに向けて

Toward Joint Language Modeling for Speech Units and Text ( http://arxiv.org/abs/2310.08715v1 )

ライセンス: Link先を確認
Ju-Chieh Chou, Chung-Ming Chien, Wei-Ning Hsu, Karen Livescu, Arun Babu, Alexis Conneau, Alexei Baevski, Michael Auli(参考訳) 音声とテキストは人間の言語の主要な2つの形態である。 研究コミュニティは長年にわたり、音声をテキストにマッピングすることに注力してきた。 しかし、言語モデリングの分野では、それらを共同でモデル化する努力はほとんど行われていない。 そこで本研究では,音声単位とテキストの共用言語モデリングについて検討する。 具体的には,連続音声信号を離散単位に変換するために異なる音声トークン化器を比較し,異なる手法を用いて混合音声テキストデータを構築する。 音声とテキストの混在度を評価するための自動計測手法を提案する。 また、異なるモダリティ(音声またはテキスト)を持つ下流言語理解(slu)タスクについてlmを微調整し、その性能をテストして共有表現のモデルの学習を評価する。 提案手法と音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良し,ゼロショットのクロスモーダル転送性を示した。

Speech and text are two major forms of human language. The research community has been focusing on mapping speech to text or vice versa for many years. However, in the field of language modeling, very little effort has been made to model them jointly. In light of this, we explore joint language modeling for speech units and text. Specifically, we compare different speech tokenizers to transform continuous speech signals into discrete units and use different methods to construct mixed speech-text data. We introduce automatic metrics to evaluate how well the joint LM mixes speech and text. We also fine-tune the LM on downstream spoken language understanding (SLU) tasks with different modalities (speech or text) and test its performance to assess the model's learning of shared representations. Our results show that by mixing speech units and text with our proposed mixing techniques, the joint LM improves over a speech-only baseline on SLU tasks and shows zero-shot cross-modal transferability.
翻訳日:2023-10-16 15:31:15 公開日:2023-10-12
# 未知制約の適応的アクティブ学習による拘束ベイズ最適化

Constrained Bayesian Optimization with Adaptive Active Learning of Unknown Constraints ( http://arxiv.org/abs/2310.08751v1 )

ライセンス: Link先を確認
Fengxue Zhang, Zejie Zhu, Yuxin Chen(参考訳) 目的と制約の両方がブラックボックス機能である制約下での目的の最適化は、科学実験設計、医療療法の設計、産業プロセス最適化といった現実の応用において一般的なシナリオである。 これらの複雑なシナリオを扱うための一般的なアプローチはベイズ最適化(BO)である。 理論的振る舞いの観点では、BOは、その原理がよく研究され、検証された制約のない環境で比較的よく理解されている。 しかしながら、ベイズ最適化(CBO)に関して、既存のフレームワークは、しばしば同じレベルの理論的保証を持たないヒューリスティックや近似に依存している。 本稿では,目的と制約を独立に評価し,ノイズの対象となる制約ベイズ最適化の理論的,実用的側面を考察する。 目的と制約の両方が、高信頼の関心領域(ROI)を特定するのに役立つことを認識することによって、各側面から特定されたROIを交差させて一般的なROIを決定する効率的なCBOフレームワークを提案する。 ROIは、目的の最適化と実現可能な領域の同定を適応的にバランスさせる新しい獲得関数と組み合わせることで、厳密な理論的正当化を導出することができる。 実証的エビデンスを通じて提案するcboフレームワークの効率性と頑健性を示し,cboアルゴリズムの実用的後悔境界を導出する根本的な課題について考察する。

Optimizing objectives under constraints, where both the objectives and constraints are black box functions, is a common scenario in real-world applications such as scientific experimental design, design of medical therapies, and industrial process optimization. One popular approach to handling these complex scenarios is Bayesian Optimization (BO). In terms of theoretical behavior, BO is relatively well understood in the unconstrained setting, where its principles have been well explored and validated. However, when it comes to constrained Bayesian optimization (CBO), the existing framework often relies on heuristics or approximations without the same level of theoretical guarantees. In this paper, we delve into the theoretical and practical aspects of constrained Bayesian optimization, where the objective and constraints can be independently evaluated and are subject to noise. By recognizing that both the objective and constraints can help identify high-confidence regions of interest (ROI), we propose an efficient CBO framework that intersects the ROIs identified from each aspect to determine the general ROI. The ROI, coupled with a novel acquisition function that adaptively balances the optimization of the objective and the identification of feasible regions, enables us to derive rigorous theoretical justifications for its performance. We showcase the efficiency and robustness of our proposed CBO framework through empirical evidence and discuss the fundamental challenge of deriving practical regret bounds for CBO algorithms.
翻訳日:2023-10-16 15:26:01 公開日:2023-10-12
# Search-Adaptor:情報検索のためのテキスト埋め込みカスタマイズ

Search-Adaptor: Text Embedding Customization for Information Retrieval ( http://arxiv.org/abs/2310.08750v1 )

ライセンス: Link先を確認
Jinsung Yoon, Sercan O Arik, Yanfei Chen, Tomas Pfister(参考訳) 事前学習されたLarge Language Models (LLMs) によって抽出されたテキスト埋め込みは、情報検索と検索を改善する重要な可能性を持っている。 従来使用されていたゼロショット設定以外にも、関連するクエリコーパスペアデータからの情報を活用することで、LCM機能をさらに強化する能力がある。 本稿では,情報検索のためのLLMを効率的かつロバストな方法でカスタマイズする新しい手法であるSearch-Adaptorを提案する。 Search-Adaptorは、事前訓練されたLLMによって生成されたオリジナルのテキスト埋め込みを修正し、API経由でのみ利用可能なものを含むすべてのLLMと統合できる。 例えば、nDCG@10におけるGoogle Embedding APIに対する5.2%以上の改善は、平均13 BEIRデータセットで実施された。

Text embeddings extracted by pre-trained Large Language Models (LLMs) have significant potential to improve information retrieval and search. Beyond the zero-shot setup in which they are being conventionally used, being able to take advantage of the information from the relevant query-corpus paired data has the power to further boost the LLM capabilities. In this paper, we propose a novel method, Search-Adaptor, for customizing LLMs for information retrieval in an efficient and robust way. Search-Adaptor modifies the original text embedding generated by pre-trained LLMs, and can be integrated with any LLM, including those only available via APIs. On multiple real-world English and multilingual retrieval datasets, we show consistent and significant performance benefits for Search-Adaptor -- e.g., more than 5.2% improvements over the Google Embedding APIs in nDCG@10 averaged over 13 BEIR datasets.
翻訳日:2023-10-16 15:25:37 公開日:2023-10-12
# 進化的動的最適化と機械学習

Evolutionary Dynamic Optimization and Machine Learning ( http://arxiv.org/abs/2310.08748v1 )

ライセンス: Link先を確認
Abdennour Boulesnane(参考訳) 進化計算(Evolutionary Computation, EC)は、人工知能の強力な分野として出現し、徐々に発展する自然のメカニズムに触発されている。 しかし、ECアプローチは、停滞、多様性喪失、計算複雑性、人口の初期化、早期収束といった課題に直面していることが多い。 これらの限界を克服するために、研究者は学習アルゴリズムと進化的手法を統合した。 この統合は、反復探索中にECアルゴリズムによって生成された貴重なデータを活用し、検索空間と人口動態に関する洞察を提供する。 同様に、進化的アルゴリズムと機械学習(ML)の関係は相反するものであり、ECメソッドはノイズ、不正確、動的目的関数によって特徴づけられる複雑なMLタスクを最適化する特別な機会を提供する。 進化機械学習(EML)として知られるこれらのハイブリッド技術は、MLプロセスの様々な段階に適用されている。 EC技術はデータバランシング、機能選択、モデルのトレーニング最適化といったタスクにおいて重要な役割を果たす。 さらにMLタスクは、進化的動的最適化(EDO)が価値のある動的最適化を必要とすることが多い。 本稿では,EDOとMLの相互統合を包括的に検討する。 この研究の目的は、進化的学習コミュニティへの関心を刺激し、この分野における革新的な貢献を促すことである。

Evolutionary Computation (EC) has emerged as a powerful field of Artificial Intelligence, inspired by nature's mechanisms of gradual development. However, EC approaches often face challenges such as stagnation, diversity loss, computational complexity, population initialization, and premature convergence. To overcome these limitations, researchers have integrated learning algorithms with evolutionary techniques. This integration harnesses the valuable data generated by EC algorithms during iterative searches, providing insights into the search space and population dynamics. Similarly, the relationship between evolutionary algorithms and Machine Learning (ML) is reciprocal, as EC methods offer exceptional opportunities for optimizing complex ML tasks characterized by noisy, inaccurate, and dynamic objective functions. These hybrid techniques, known as Evolutionary Machine Learning (EML), have been applied at various stages of the ML process. EC techniques play a vital role in tasks such as data balancing, feature selection, and model training optimization. Moreover, ML tasks often require dynamic optimization, for which Evolutionary Dynamic Optimization (EDO) is valuable. This paper presents the first comprehensive exploration of reciprocal integration between EDO and ML. The study aims to stimulate interest in the evolutionary learning community and inspire innovative contributions in this domain.
翻訳日:2023-10-16 15:25:23 公開日:2023-10-12
# カリキュラム学習によるマルチモーダル環境の不確かさへのロバスト性

Robustness to Multi-Modal Environment Uncertainty in MARL using Curriculum Learning ( http://arxiv.org/abs/2310.08746v1 )

ライセンス: Link先を確認
Aakriti Agrawal, Rohith Aralikatti, Yanchao Sun, Furong Huang(参考訳) マルチエージェント強化学習(MARL)は現実世界の課題に取り組む上で重要な役割を果たしている。 しかし、シミュレーションから実世界への訓練されたポリシーのシームレスな移行は、様々な環境不確実性に対して堅牢である必要がある。 既存の研究は、ある環境変数(すなわち行動、状態、報酬)における不確実性の下でのナッシュ均衡や最適政策を見つけることに焦点を当てている。 これはマルチエージェントシステム自体が非常に複雑で静止していないためである。 しかし、現実の状況では、複数の環境変数が同時に発生することがある。 この研究は、marlのマルチモーダル環境の不確実性に対するロバスト性の一般化問題を初めて定式化した。 そこで本研究では,カリキュラム学習技術に基づくマルチモーダル不確実性に対する総合的堅牢なトレーニング手法を提案する。 我々は2つの異なる環境不確実性を同時に処理し、協調的および競争的なMARL環境をまたいだ広範な結果を示す。

Multi-agent reinforcement learning (MARL) plays a pivotal role in tackling real-world challenges. However, the seamless transition of trained policies from simulations to real-world requires it to be robust to various environmental uncertainties. Existing works focus on finding Nash Equilibrium or the optimal policy under uncertainty in one environment variable (i.e. action, state or reward). This is because a multi-agent system itself is highly complex and unstationary. However, in real-world situation uncertainty can occur in multiple environment variables simultaneously. This work is the first to formulate the generalised problem of robustness to multi-modal environment uncertainty in MARL. To this end, we propose a general robust training approach for multi-modal uncertainty based on curriculum learning techniques. We handle two distinct environmental uncertainty simultaneously and present extensive results across both cooperative and competitive MARL environments, demonstrating that our approach achieves state-of-the-art levels of robustness.
翻訳日:2023-10-16 15:25:03 公開日:2023-10-12
# AcTExplore: 未知のオブジェクトに対するアクティブな触覚探索

AcTExplore: Active Tactile Exploration on Unknown Objects ( http://arxiv.org/abs/2310.08745v1 )

ライセンス: Link先を確認
Amir-Hossein Shahidzadeh and Seong Jong Yoo and Pavan Mantripragada and Chahat Deep Singh and Cornelia Ferm\"uller and Yiannis Aloimonos(参考訳) 触覚探索は、把握や操作といった基本的なロボティクスタスクのオブジェクト構造を理解する上で重要な役割を果たす。 しかし, 触覚センサを用いた物体の探索は, 大規模で未知の環境やセンサの検知範囲が限られているため, 極めて困難である。 そこで本研究では,対象物表面を自動的に探索する大規模物体再構成のための強化学習による能動的触覚探索手法であるAcTExploreを提案する。 十分な探索によって,本アルゴリズムは触覚データを段階的に収集し,オブジェクトの3次元形状を再構築する。 本手法は, 未確認のYCBオブジェクトに対して平均95.97%のIoUカバレッジを達成し, 原始形状でのみ訓練する。

Tactile exploration plays a crucial role in understanding object structures for fundamental robotics tasks such as grasping and manipulation. However, efficiently exploring such objects using tactile sensors is challenging, primarily due to the large-scale unknown environments and limited sensing coverage of these sensors. To this end, we present AcTExplore, an active tactile exploration method driven by reinforcement learning for object reconstruction at scales that automatically explores the object surfaces in a limited number of steps. Through sufficient exploration, our algorithm incrementally collects tactile data and reconstructs 3D shapes of the objects as well, which can serve as a representation for higher-level downstream tasks. Our method achieves an average of 95.97% IoU coverage on unseen YCB objects while just being trained on primitive shapes.
翻訳日:2023-10-16 15:24:48 公開日:2023-10-12
# トランスフォーマー言語モデルにおけるタスク間の回路コンポーネント再利用

Circuit Component Reuse Across Tasks in Transformer Language Models ( http://arxiv.org/abs/2310.08744v1 )

ライセンス: Link先を確認
Jack Merullo, Carsten Eickhoff, Ellie Pavlick(参考訳) 機械論的解釈可能性に関する最近の研究は、回路解析によって言語モデルの振る舞いを逆エンジニアリングできることを示した。 しかし、一般的な批判として、各回路はタスク固有であり、そのような分析はより高いレベルでモデルを理解することに寄与しない。 本研究は、特定の頭部に関する低レベルな発見と一般アルゴリズムに関する高レベルな発見の両方が、タスク全体にわたって実際に一般化できることを示す。 具体的には,Wang et al. (2022) で発見された間接物体識別(IOI)タスクの回路について検討する。 1)より大きなgpt2モデルで再現できることを示し、 2. 一見異なるタスク:色付きオブジェクト(ippolito & callison-burch, 2023)を解決するために再利用されることが多い。 両タスクの根底にあるプロセスが機能的に非常によく似ており、回路内注目ヘッドの約78%が重複していることを示す。 さらに,中間層に4つの注目ヘッドを配置して,カラーオブジェクト回路を「修復」し,IOI回路のように動作させる,概念実証介入実験を提案する。 そうすることで、Colored Objectsタスクの精度は49.6%から93.7%に向上し、ほとんどのエラーソースを説明します。 この介入は、IOI回路内の相互作用によって予測される特定の方法で下流の注意に影響を与え、このサブ回路の挙動が異なるタスク入力に不変であることを示す。 本研究の結果から,大規模言語モデルの動作を,相対的に少ない数のタスク一般化型アルゴリズム構築ブロックや計算部品で説明できる可能性が示唆された。

Recent work in mechanistic interpretability has shown that behaviors in language models can be successfully reverse-engineered through circuit analysis. A common criticism, however, is that each circuit is task-specific, and thus such analysis cannot contribute to understanding the models at a higher level. In this work, we present evidence that insights (both low-level findings about specific heads and higher-level findings about general algorithms) can indeed generalize across tasks. Specifically, we study the circuit discovered in Wang et al. (2022) for the Indirect Object Identification (IOI) task and 1.) show that it reproduces on a larger GPT2 model, and 2.) that it is mostly reused to solve a seemingly different task: Colored Objects (Ippolito & Callison-Burch, 2023). We provide evidence that the process underlying both tasks is functionally very similar, and contains about a 78% overlap in in-circuit attention heads. We further present a proof-of-concept intervention experiment, in which we adjust four attention heads in middle layers in order to 'repair' the Colored Objects circuit and make it behave like the IOI circuit. In doing so, we boost accuracy from 49.6% to 93.7% on the Colored Objects task and explain most sources of error. The intervention affects downstream attention heads in specific ways predicted by their interactions in the IOI circuit, indicating that this subcircuit behavior is invariant to the different task inputs. Overall, our results provide evidence that it may yet be possible to explain large language models' behavior in terms of a relatively small number of interpretable task-general algorithmic building blocks and computational components.
翻訳日:2023-10-16 15:24:34 公開日:2023-10-12
# 前立腺癌全画像からの深層学習型マイクロサテライト不安定予測器の開発と検証

Development and Validation of a Deep Learning-Based Microsatellite Instability Predictor from Prostate Cancer Whole-Slide Images ( http://arxiv.org/abs/2310.08743v1 )

ライセンス: Link先を確認
Qiyuan Hu, Abbas A. Rizvi, Geoffery Schau, Kshitij Ingale, Yoni Muller, Rachel Baits, Sebastian Pretzer, A\"icha BenTaieb, Abigail Gordhamer, Roberto Nussenzveig, Adam Cole, Matthew O. Leavitt, Rohan P. Joshi, Nike Beaubier, Martin C. Stumpe, Kunal Nagpal(参考訳) マイクロサテライト不安定高(MSI-H)は免疫チェックポイントインヒビター治療のための腫瘍非依存バイオマーカーである。 しかし、msiの状況は前立腺癌では定期的な検査を受けておらず、その原因の一部は、感染率の低下と検査コストの低下によるものである。 したがって、ヘマトキシリンおよびエオシン(h&e)染色全スライダー画像(wsis)からのmsi状態の予測は、診断検査の恩恵を受け、免疫療法を受ける可能性が最も高い前立腺がん患者を同定することができる。 当院に紹介された前立腺癌患者の前立腺生検と非同定記録による外科的切除について検討した。 そのmsiは次世代のシークエンシングによって決定された。 カットオフ前の患者はアルゴリズム開発セット(n=4015,msi-h 1.8%)と、各サンプルから2つのシリアルセクションで構成されたペア検証セット(n=173,msi-h 19.7%)に分割された。 カットオフ後の患者は時間的検証セット(n=1350, MSI-H 2.3%)を形成した。 注意に基づく複数インスタンス学習モデルは、H&E WSIからMSI-Hを予測するために訓練された。 msi-h予測器は、内部準備、外部準備、時間検証セット上でそれぞれ0.078(95%ci [0.69-0.86])、 0.72(95%ci [0.63-0.81])、 0.72(95%ci [0.62-0.82])の動作特性曲線値の下の領域を達成した。 MSI-HはGleasonスコアと有意に相関するが,各Gleasonスコアサブグループ内では予測的のままであった。 要約すると,本研究では,日常h&eスライドの大きな実世界コホート上にaiベースのmsi-h診断モデルを開発し,検証を行った。 このアルゴリズムは前立腺癌患者を免疫療法に誘導し、リンチ症候群に続発するMSI-H症例を同定する可能性がある。

Microsatellite instability-high (MSI-H) is a tumor agnostic biomarker for immune checkpoint inhibitor therapy. However, MSI status is not routinely tested in prostate cancer, in part due to low prevalence and assay cost. As such, prediction of MSI status from hematoxylin and eosin (H&E) stained whole-slide images (WSIs) could identify prostate cancer patients most likely to benefit from confirmatory testing and becoming eligible for immunotherapy. Prostate biopsies and surgical resections from de-identified records of consecutive prostate cancer patients referred to our institution were analyzed. Their MSI status was determined by next generation sequencing. Patients before a cutoff date were split into an algorithm development set (n=4015, MSI-H 1.8%) and a paired validation set (n=173, MSI-H 19.7%) that consisted of two serial sections from each sample, one stained and scanned internally and the other at an external site. Patients after the cutoff date formed the temporal validation set (n=1350, MSI-H 2.3%). Attention-based multiple instance learning models were trained to predict MSI-H from H&E WSIs. The MSI-H predictor achieved area under the receiver operating characteristic curve values of 0.78 (95% CI [0.69-0.86]), 0.72 (95% CI [0.63-0.81]), and 0.72 (95% CI [0.62-0.82]) on the internally prepared, externally prepared, and temporal validation sets, respectively. While MSI-H status is significantly correlated with Gleason score, the model remained predictive within each Gleason score subgroup. In summary, we developed and validated an AI-based MSI-H diagnostic model on a large real-world cohort of routine H&E slides, which effectively generalized to externally stained and scanned samples and a temporally independent validation cohort. This algorithm has the potential to direct prostate cancer patients toward immunotherapy and to identify MSI-H cases secondary to Lynch syndrome.
翻訳日:2023-10-16 15:24:08 公開日:2023-10-12
# 重み付き分布に対する適応アンサンブルフィルタ:チューニングフリーインフレーションと局所化

An adaptive ensemble filter for heavy-tailed distributions: tuning-free inflation and localization ( http://arxiv.org/abs/2310.08741v1 )

ライセンス: Link先を確認
Mathieu Le Provost, Ricardo Baptista, Jeff D. Eldredge, and Youssef Marzouk(参考訳) 重尾は、非線形力学および観測過程と物理的センサーの不確実性から生じる分布をフィルタリングする一般的な特徴である。 これらの設定において、カルマンフィルタとそのアンサンブル版であるアンサンブルカルマンフィルタ(enkf)はガウスの仮定の下で設計され、性能が低下する。 t-分布は、尾重みが自由度$\nu$で変調される分布のパラメトリック族である。 興味深いことに、コーシー分布とガウス分布は、それぞれ$\nu = 1$ と$\nu = \infty$ の t-分布の極端な場合に対応する。 measure transport (spantini et al., siam review, 2022) のツールを活用することで,t分布の正確な推定を可能にする enkf の一般化を提案する。 このフィルタは、観測モデルが生成する小さな$\nu$の合成観測に対する感度が低いことを実証する。 さらに、$\nu = \infty$に対してカルマンフィルタを復元する。 重み付き雑音をもつ非線形状態空間モデルに対しては,観測と観測の連立予測分布のサンプルから事前更新を推定するアルゴリズムを提案する。 我々は、限定サンプル(Finegold and Drton, arXiv preprint, 2014)からヘビーテール付き \textit{t}-分布の平均、スケール行列、自由度を推定するために、正規化期待最大化(EM)アルゴリズムを利用する。 共同予測分布の条件付き独立性を利用して,emアルゴリズムの反復毎に,l1$のスパルシリティプロモーティングペナリゼーションでスケール行列を定式化する。 各分析ステップにおける自由度を順次推定することにより,その事前から後への更新をデータのテール重みに適応させることができる。 本稿では,この新しいアンサンブルフィルタのフィルタ問題に対する効果を示す。

Heavy tails is a common feature of filtering distributions that results from the nonlinear dynamical and observation processes as well as the uncertainty from physical sensors. In these settings, the Kalman filter and its ensemble version - the ensemble Kalman filter (EnKF) - that have been designed under Gaussian assumptions result in degraded performance. t-distributions are a parametric family of distributions whose tail-heaviness is modulated by a degree of freedom $\nu$. Interestingly, Cauchy and Gaussian distributions correspond to the extreme cases of a t-distribution for $\nu = 1$ and $\nu = \infty$, respectively. Leveraging tools from measure transport (Spantini et al., SIAM Review, 2022), we present a generalization of the EnKF whose prior-to-posterior update leads to exact inference for t-distributions. We demonstrate that this filter is less sensitive to outlying synthetic observations generated by the observation model for small $\nu$. Moreover, it recovers the Kalman filter for $\nu = \infty$. For nonlinear state-space models with heavy-tailed noise, we propose an algorithm to estimate the prior-to-posterior update from samples of joint forecast distribution of the states and observations. We rely on a regularized expectation-maximization (EM) algorithm to estimate the mean, scale matrix, and degree of freedom of heavy-tailed \textit{t}-distributions from limited samples (Finegold and Drton, arXiv preprint, 2014). Leveraging the conditional independence of the joint forecast distribution, we regularize the scale matrix with an $l1$ sparsity-promoting penalization of the log-likelihood at each iteration of the EM algorithm. By sequentially estimating the degree of freedom at each analysis step, our filter can adapt its prior-to-posterior update to the tail-heaviness of the data. We demonstrate the benefits of this new ensemble filter on challenging filtering problems.
翻訳日:2023-10-16 15:23:20 公開日:2023-10-12
# 構造化反射を用いたコンピュータ制御のためのゼロショット言語エージェント

A Zero-Shot Language Agent for Computer Control with Structured Reflection ( http://arxiv.org/abs/2310.08740v1 )

ライセンス: Link先を確認
Tao Li, Gang Li, Zhiwei Deng, Bryan Wang, Yang Li(参考訳) 大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルの目標(MiniWoB++など)の計画と実行能力の向上を示している。 タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多数のプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。 このようなトレース例がなければ、エージェントがコンピュータ上で自律的に学習し、コントロールを改善することは課題であり、エージェントが新しいタスクを実行する能力を制限する。 我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。 エージェントは部分的に観察された環境下での実行可能な動作を計画し、自己回帰と構造化された思考管理を通じて誤りを識別し学習することでタスクを反復的に進行させる。 MiniWoB++の簡単なタスクでは、ゼロショットエージェントが最近のSoTAより優れていることがよく示されます。 より複雑なタスクでは、以前の作業では専門家のトレースや追加の画面情報にアクセスするという利点がありましたが、リフレクションエージェントは以前のベストモデルと同等の性能を発揮します。

Large language models (LLMs) have shown increasing capacity at planning and executing a high-level goal in a live computer environment (e.g. MiniWoB++). To perform a task, recent works often require a model to learn from trace examples of the task via either supervised learning or few/many-shot prompting. Without these trace examples, it remains a challenge how an agent can autonomously learn and improve its control on a computer, which limits the ability of an agent to perform a new task. We approach this problem with a zero-shot agent that requires no given expert traces. Our agent plans for executable actions on a partially observed environment, and iteratively progresses a task by identifying and learning from its mistakes via self-reflection and structured thought management. On the easy tasks of MiniWoB++, we show that our zero-shot agent often outperforms recent SoTAs, with more efficient reasoning. For tasks with more complexity, our reflective agent performs on par with prior best models, even though previous works had the advantages of accessing expert traces or additional screen information.
翻訳日:2023-10-16 15:22:45 公開日:2023-10-12
# RNAコントラスト学習で予測をスプリシングする

Splicing Up Your Predictions with RNA Contrastive Learning ( http://arxiv.org/abs/2310.08738v1 )

ライセンス: Link先を確認
Philip Fradkin, Ruian Shi, Bo Wang, Brendan Frey, Leo J. Lee(参考訳) ゲノムデータの急激な蓄積に直面して、RNA制御コードの理解はいまだに不完全である。 近年、他の領域における自己教師あり手法は、言語における文構造のようなデータ生成プロセスの基礎となるルールを学習する能力を示している。 そこで本研究では,交互スプライシングと遺伝子重複によって生成された配列間の機能的類似性を利用して,ゲノムデータとの対比学習技術を拡張した。 我々の新しいデータセットと対照的な目的は、一般化されたRNAアイソフォーム表現の学習を可能にする。 RNA半減期やリボソーム負荷予測などの下流タスクにおけるそれらの有用性を検証する。 事前学習戦略は,両タスクにおける線形プローブを用いた競争結果と,低データ条件におけるピアソン相関の最大2倍の増大をもたらす。 重要なことは、学習された潜伏空間を探索することで、我々の対照的な目的が意味的に意味のある表現をもたらし、RNA特性予測の貴重な初期化技術としての可能性を示している。

In the face of rapidly accumulating genomic data, our understanding of the RNA regulatory code remains incomplete. Recent self-supervised methods in other domains have demonstrated the ability to learn rules underlying the data-generating process such as sentence structure in language. Inspired by this, we extend contrastive learning techniques to genomic data by utilizing functional similarities between sequences generated through alternative splicing and gene duplication. Our novel dataset and contrastive objective enable the learning of generalized RNA isoform representations. We validate their utility on downstream tasks such as RNA half-life and mean ribosome load prediction. Our pre-training strategy yields competitive results using linear probing on both tasks, along with up to a two-fold increase in Pearson correlation in low-data conditions. Importantly, our exploration of the learned latent space reveals that our contrastive objective yields semantically meaningful representations, underscoring its potential as a valuable initialization technique for RNA property prediction.
翻訳日:2023-10-16 15:22:24 公開日:2023-10-12
# 留意機構と開始ブロックを有するマルチスケールDenseNet回帰を用いたメソスケールでのフィッションガス放出のモデル化

Modeling Fission Gas Release at the Mesoscale using Multiscale DenseNet Regression with Attention Mechanism and Inception Blocks ( http://arxiv.org/abs/2310.08767v1 )

ライセンス: Link先を確認
Peter Toma and Md Ali Muntaha and Joel B. Harley and Michael R. Tonks(参考訳) 核燃料中の分裂ガス放出(FGR)のメソスケールシミュレーションは、ミクロ構造の進化がFGRにどのように影響するかを理解する強力なツールを提供するが、それらは計算的に集約的である。 本研究では,2次元核燃料微細構造画像から瞬時fgrフラックスを予測するために,ディープラーニングを用いたデータ駆動方式を提案する。 マルチスケール回帰を伴う4つの畳み込みニューラルネットワーク(CNN)アーキテクチャを学習し、ハイブリッド位相場/クラスタダイナミックスモデルを用いて生成されたシミュレーションFGRデータに基づいて評価する。 4つのネットワークはいずれも高い予測力を示し、R^{2}$値は98%以上である。 ベストパフォーマンスネットワークは、畳み込みブロックアテンションモジュール(cbam)とインセプションネット機構を組み合わせることで、優れた精度(絶対パーセンテージ誤差4.4%)、トレーニング安定性、非常に低い瞬間的fgrフラックス値のロバスト性を提供する。

Mesoscale simulations of fission gas release (FGR) in nuclear fuel provide a powerful tool for understanding how microstructure evolution impacts FGR, but they are computationally intensive. In this study, we present an alternate, data-driven approach, using deep learning to predict instantaneous FGR flux from 2D nuclear fuel microstructure images. Four convolutional neural network (CNN) architectures with multiscale regression are trained and evaluated on simulated FGR data generated using a hybrid phase field/cluster dynamics model. All four networks show high predictive power, with $R^{2}$ values above 98%. The best performing network combine a Convolutional Block Attention Module (CBAM) and InceptionNet mechanisms to provide superior accuracy (mean absolute percentage error of 4.4%), training stability, and robustness on very low instantaneous FGR flux values.
翻訳日:2023-10-16 15:15:23 公開日:2023-10-12
# 結合電子核系の量子力学

Quantum hydrodynamics of coupled electron-nuclear systems ( http://arxiv.org/abs/2310.08766v1 )

ライセンス: Link先を確認
Rocco Martinazzo and Irene Burghardt(参考訳) 電子核系の量子力学は、原子核と電子の両方に対するゲージ不変運動方程式を定義することを目的として、波動関数の正確な分解の観点から解析される。 純粋な状態の場合、これは核力学と流体要素に結びついた電子密度演算子の量子力学的記述によって達成される。 統計的混合状態の場合、正確な分解法は「タイプn」と「タイプe」の混合と呼ばれる2つの制限条件に拡張され、それぞれ核と電子が本質的に混合状態にあるかによって異なる。 どちらの場合も、機械モーメントモーメントモーメント(MMM)の助けを借りて、力学の完全なゲージ不変な定式化が再び流体力学形式で得られる。 核MMMは、位置変数の密度行列に関連するウィグナー分布の通常のモーメントモーメントモーメントをゲージ不変に拡張し、電子MMMは演算子評価され、純粋な状態に使用される(条件付き)密度演算子の一般化を表す。 この理論は、非断熱的な分子問題に取り組むために現在使われているいくつかの混合量子古典的アプローチで正確な量子力学を橋渡しし、体系的な改善の基礎を提供する。 さらに、凝縮相系の非断熱理論と結びついている。 例えば、Dou, Miao \& Subotnik (Phys) の電子摩擦の有限温度理論を再導出する。 Rev. Lett. 119, 046001 (2017)) 型-e混合系のダイナミクスから改善の可能性について議論した。

The quantum dynamics of electron-nuclear systems is analyzed from the perspective of the exact factorization of the wavefunction, with the aim of defining gauge invariant equations of motion for both the nuclei and the electrons. For pure states this is accomplished with a quantum hydrodynamical description of the nuclear dynamics and electronic density operators tied to the fluid elements. For statistical mixtures of states the exact factorization approach is extended to two limiting situations that we call "type-n" and "type-e" mixtures, depending on whether the nuclei or the electrons are, respectively, in an intrinsically mixed state. In both cases a fully gauge invariant formulation of the dynamics is obtained again in hydrodynamic form with the help of mechanical momentum moments (MMMs). Nuclear MMMs extend in a gauge invariant way the ordinary momentum moments of the Wigner distribution associated with a density matrix of positional variables, electron MMMs are operator-valued and represent a generalization of the (conditional) density operators used for pure states. The theory presented here bridges exact quantum dynamics with several mixed quantum-classical approaches currently in use to tackle non-adiabatic molecular problems, offering a foundation for systematic improvements. It further connects to non-adiabatic theories in condensed-phase systems. As an example, we re-derive the finite-temperature theory of electronic friction of Dou, Miao \& Subotnik (Phys. Rev. Lett. 119, 046001 (2017)) from the dynamics of "type-e" mixtures and discuss possible improvements.
翻訳日:2023-10-16 15:14:54 公開日:2023-10-12
# 要約モデルにおける類似性の校正

Calibrating Likelihoods towards Consistency in Summarization Models ( http://arxiv.org/abs/2310.08764v1 )

ライセンス: Link先を確認
Polina Zablotskaia, Misha Khalman, Rishabh Joshi, Livio Baldini Soares, Shoshana Jakobovits, Joshua Maynez, Shashi Narayan(参考訳) 抽象テキスト要約の最近の進歩にもかかわらず、現在の要約モデルは、現実的に一貫性のない要約を生成することに苦しむ。 このような行動の主な理由は、最大確率目標で訓練された要約モデルが、文脈が与えられた可能性の高い列に高い確率を割り当てるが、一貫性によって順序を正確にランク付けしないことが多いためである。 本研究では,自然言語推論(nli)モデルによって測定された一貫性測定値に適合するように,モデル生成シーケンスの可能性を調整することにより,この問題を解決した。 human evaluation studyとautomatic metricsは、キャリブレーションされたモデルがより一貫性があり、より高品質な要約を生成することを示している。 また,本手法を用いて学習したモデルでは,nliスコアとの整合が良好で,要約モデルの信頼性が著しく向上することを示す。

Despite the recent advances in abstractive text summarization, current summarization models still suffer from generating factually inconsistent summaries, reducing their utility for real-world application. We argue that the main reason for such behavior is that the summarization models trained with maximum likelihood objective assign high probability to plausible sequences given the context, but they often do not accurately rank sequences by their consistency. In this work, we solve this problem by calibrating the likelihood of model generated sequences to better align with a consistency metric measured by natural language inference (NLI) models. The human evaluation study and automatic metrics show that the calibrated models generate more consistent and higher-quality summaries. We also show that the models trained using our method return probabilities that are better aligned with the NLI scores, which significantly increase reliability of summarization models.
翻訳日:2023-10-16 15:14:11 公開日:2023-10-12
# ダイバージェンス推定による脳波分類における主題伝達の安定化

Stabilizing Subject Transfer in EEG Classification with Divergence Estimation ( http://arxiv.org/abs/2310.08762v1 )

ライセンス: Link先を確認
Niklas Smedemark-Margulies, Ye Wang, Toshiaki Koike-Akino, Jing Liu, Kieran Parsons, Yunus Bicer, Deniz Erdogmus(参考訳) 脳波(EEG)データの分類モデルは、未確認の試験サブジェクトで評価すると、大きな性能低下を示す。 モデルトレーニング中の新しい正規化手法を用いて,この性能低下を低減した。 脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。 各モデルから、理想的な訓練シナリオ(無限のデータと大域的最適モデル)で真であるべき統計的関係を特定するが、実際は成り立たないかもしれない。 我々は、これらの関係を2段階で強制する正規化罰則を設計する。 まず、統計的独立性および依存関係を測定するために使用できる適切なプロキシ量(Mutual InformationやWasserstein-1など)を同定する。 第2に、二次ニューラルネットワークモデルを用いてトレーニング中にこれらの量を効率的に推定するアルゴリズムを提供する。 我々は,大規模なベンチマークEEGデータセットを用いて大規模な計算実験を行い,提案手法を逆分類器を用いたベースライン手法と比較した。 提案手法は,被験者のバランス精度を著しく向上し,オーバーフィッティングを低減させる。 提案手法はベースライン法よりも広い範囲のハイパーパラメータよりも大きな利点を示し, 訓練時の計算コストは少ない。 これらの利点は、固定されたトレーニング期間に使用する場合が最も大きいが、我々の技術が早期停止正規化と共に使用される場合、ハイパーパラメーターのサブセットには大きな利点がある。

Classification models for electroencephalogram (EEG) data show a large decrease in performance when evaluated on unseen test sub jects. We reduce this performance decrease using new regularization techniques during model training. We propose several graphical models to describe an EEG classification task. From each model, we identify statistical relationships that should hold true in an idealized training scenario (with infinite data and a globally-optimal model) but that may not hold in practice. We design regularization penalties to enforce these relationships in two stages. First, we identify suitable proxy quantities (divergences such as Mutual Information and Wasserstein-1) that can be used to measure statistical independence and dependence relationships. Second, we provide algorithms to efficiently estimate these quantities during training using secondary neural network models. We conduct extensive computational experiments using a large benchmark EEG dataset, comparing our proposed techniques with a baseline method that uses an adversarial classifier. We find our proposed methods significantly increase balanced accuracy on test subjects and decrease overfitting. The proposed methods exhibit a larger benefit over a greater range of hyperparameters than the baseline method, with only a small computational cost at training time. These benefits are largest when used for a fixed training period, though there is still a significant benefit for a subset of hyperparameters when our techniques are used in conjunction with early stopping regularization.
翻訳日:2023-10-16 15:13:32 公開日:2023-10-12
# 電子健康記録に対する質問応答:データセットとモデルのスコーピングレビュー

Question Answering for Electronic Health Records: A Scoping Review of datasets and models ( http://arxiv.org/abs/2310.08759v1 )

ライセンス: Link先を確認
Jayetri Bardhan, Kirk Roberts, Daisy Zhe Wang(参考訳) 患者関連データの質問応答(qa)システムは、臨床医と患者の両方を助ける。 例えば、臨床医の意思決定を支援し、患者が自分の医療歴をよりよく理解できるようにする。 重要な患者データはElectronic Health Records(EHRs)に保存され、EHR QAが重要な研究領域となる。 EHR QAでは、患者の医療記録から回答を得る。 データ形式とモダリティの違いから、医療用ウェブサイトや科学論文を駆使して回答を得る他の医療用QAタスクとは大きく異なるため、EHR質問応答の研究が重要である。 本研究は, EHRに対するQAに関する既存研究の方法論的検討を目的としたものである。 我々は,2005年1月1日から2023年9月30日まで,Google Scholar, ACL Anthology, ACM Digital Library, PubMedの4つのデジタル資料を検索して,EHR QAに関する関連出版物を収集した。 本研究は4111論文を同定し, 包括的基準に基づく検診の結果, 計47論文が得られた。 47の論文のうち25の論文はEHR QAデータセットに関するもので、37の論文はEHR QAモデルに関するものだった。 EHRsのQAは比較的新規で未探索であることがわかった。 作品のほとんどがごく最近である。 また、EmrQAは、他の論文における引用と使用の両面で、最も人気のあるEHR QAデータセットであることがわかった。 さらに、これらのモデルで使用される評価指標とともに、EHR QAで使用される異なるモデルを特定した。

Question Answering (QA) systems on patient-related data can assist both clinicians and patients. They can, for example, assist clinicians in decision-making and enable patients to have a better understanding of their medical history. Significant amounts of patient data are stored in Electronic Health Records (EHRs), making EHR QA an important research area. In EHR QA, the answer is obtained from the medical record of the patient. Because of the differences in data format and modality, this differs greatly from other medical QA tasks that employ medical websites or scientific papers to retrieve answers, making it critical to research EHR question answering. This study aimed to provide a methodological review of existing works on QA over EHRs. We searched for articles from January 1st, 2005 to September 30th, 2023 in four digital sources including Google Scholar, ACL Anthology, ACM Digital Library, and PubMed to collect relevant publications on EHR QA. 4111 papers were identified for our study, and after screening based on our inclusion criteria, we obtained a total of 47 papers for further study. Out of the 47 papers, 25 papers were about EHR QA datasets, and 37 papers were about EHR QA models. It was observed that QA on EHRs is relatively new and unexplored. Most of the works are fairly recent. Also, it was observed that emrQA is by far the most popular EHR QA dataset, both in terms of citations and usage in other papers. Furthermore, we identified the different models used in EHR QA along with the evaluation metrics used for these models.
翻訳日:2023-10-16 15:13:05 公開日:2023-10-12
# 縦型構造型電子健康記録を用いたclopidogrel治療障害の検出と予測

Detection and prediction of clopidogrel treatment failures using longitudinal structured electronic health records ( http://arxiv.org/abs/2310.08757v1 )

ライセンス: Link先を確認
Samuel Kim, In Gu Sean Lee, Mijeong Irene Ban, Jane Chiang(参考訳) 縦構造電子健康記録(EHR)を用いてクロピドッグレル治療失敗を自動的に検出・予測する機械学習アルゴリズムを提案する。 自然言語処理(NLP)アプリケーションで使用されるさまざまな機械学習アルゴリズムを導入し,処理障害の検出と予測のためのモデルを構築した。 本研究は,英国バイオバンクからクロピドグレル処方薬を投与した患者のコホートを作成し,第1回クロピドグレル処方薬の1年以内に治療不全が発生した場合,502,527例中1,824例が治療不全例と診断され,6,859例が対照例と考えられた。 データセットから患者1人あたりの診断・処方・治療記録を収集し,同じ日程で訪問してモデルを構築した。 モデルは2つの異なるタスク、すなわち検出と予測のために構築され、実験の結果、時系列モデルは両方のタスクにおいてバグ・オブ・ワードのアプローチより優れていることが示された。 特に、TransformerベースのモデルであるBERTは、検出タスクで0.928 AUC、予測タスクで0.729 AUCに達することができた。 BERTは他の時系列モデルに対して十分なトレーニングデータがない場合の能力を示した。

We propose machine learning algorithms to automatically detect and predict clopidogrel treatment failure using longitudinal structured electronic health records (EHR). By drawing analogies between natural language and structured EHR, we introduce various machine learning algorithms used in natural language processing (NLP) applications to build models for treatment failure detection and prediction. In this regard, we generated a cohort of patients with clopidogrel prescriptions from UK Biobank and annotated if the patients had treatment failure events within one year of the first clopidogrel prescription; out of 502,527 patients, 1,824 patients were identified as treatment failure cases, and 6,859 patients were considered as control cases. From the dataset, we gathered diagnoses, prescriptions, and procedure records together per patient and organized them into visits with the same date to build models. The models were built for two different tasks, i.e., detection and prediction, and the experimental results showed that time series models outperform bag-of-words approaches in both tasks. In particular, a Transformer-based model, namely BERT, could reach 0.928 AUC in detection tasks and 0.729 AUC in prediction tasks. BERT also showed competence over other time series models when there is not enough training data, because it leverages the pre-training procedure using large unlabeled data.
翻訳日:2023-10-16 15:12:38 公開日:2023-10-12
# Intelligent Scoliosis スクリーニングと診断 : アンケート調査

Intelligent Scoliosis Screening and Diagnosis: A Survey ( http://arxiv.org/abs/2310.08756v1 )

ライセンス: Link先を確認
Zhang Zhenlin, Pu Lixin, Li Ang, Zhang Jun, Li Xianjie, Fan Jipeng(参考訳) スコリオーシスは3次元の脊椎変形であり、胸椎変形や骨盤傾斜などの異常な形態を引き起こす可能性がある。 重度の患者は神経損傷や尿路異常を患うことがある。 現在、中国では小学校・中学校のスコリシス患者が500万人を超えており、毎年3%から5%程度増加している。 したがって、スコリシスの研究は重要な臨床的価値を持っている。 本稿では,コンピュータによるスコリアススクリーニングと診断を体系的に導入し,現状の課題におけるアルゴリズムモデルの利点と限界を分析する。 さらに,本稿では,この分野における現在の開発ボトルネックについても論じ,今後の開発動向を展望する。

Scoliosis is a three-dimensional spinal deformity, which may lead to abnormal morphologies, such as thoracic deformity, and pelvic tilt. Severe patients may suffer from nerve damage and urinary abnormalities. At present, the number of scoliosis patients in primary and secondary schools has exceeded five million in China, the incidence rate is about 3% to 5% which is growing every year. The research on scoliosis, therefore, has important clinical value. This paper systematically introduces computer-assisted scoliosis screening and diagnosis as well as analyzes the advantages and limitations of different algorithm models in the current issue field. Moreover, the paper also discusses the current development bottlenecks in this field and looks forward to future development trends.
翻訳日:2023-10-16 15:12:12 公開日:2023-10-12
# PU-ray:不活性表面上のレイマーキングによる点雲アップサンプリング

PU-Ray: Point Cloud Upsampling via Ray Marching on Implicit Surface ( http://arxiv.org/abs/2310.08755v1 )

ライセンス: Link先を確認
Sangwon Lim, Karim El-Basyouny, Yee Hong Yang(参考訳) ディープラーニングベースのポイントクラウドアップサンプリング手法の最近の進歩は、自動運転システムへの入力を改善する一方で、エンドツーエンド学習による密接なポイント生成の不確実性にも苦しんでいる。 例えば、モデルの曖昧なトレーニング目標のために、それらのパフォーマンスは入力の点分布と基底真理に依存する。 これは、合成と実スキャンされたポイントクラウド間のドメイン依存性の問題と、相当なモデルサイズとデータセット要求の問題を引き起こす。 さらに、既存の多くのメソッドは、一定のスケーリング率でポイントクラウドをアップサンプルし、柔軟性がなく、計算的に冗長である。 本稿では,各問合せ線に対する深さ予測を行う場合,任意のレートでレイベースアップサンプリング手法を提案することにより,上記の問題に対処する。 この手法はレイマーチングアルゴリズムをシミュレートし、暗黙的な表面学習を通じてより正確で安定なレイマーチング予測を実現する。 規則に基づく中点問合せサンプリング手法により,Chamfer 距離損失関数を用いたモデルトレーニングを必要とせず,一様出力点分布が可能となり,トレーニングデータセットに対するバイアスが生じる。 入力ポイントクラウド内の正確な基底真理によって、自己教師付き学習が可能になる。 提案手法は,計算資源とトレーニングデータに制限のある異なる領域と学習シナリオにまたがる汎用性を示す。 これにより、アップサンプリングタスクを学術研究から実世界のアプリケーションに移行することができる。

While the recent advancements in deep-learning-based point cloud upsampling methods improve the input to autonomous driving systems, they still suffer from the uncertainty of denser point generation resulting from end-to-end learning. For example, due to the vague training objectives of the models, their performance depends on the point distributions of the input and the ground truth. This causes problems of domain dependency between synthetic and real-scanned point clouds and issues with substantial model sizes and dataset requirements. Additionally, many existing methods upsample point clouds with a fixed scaling rate, making them inflexible and computationally redundant. This paper addresses the above problems by proposing a ray-based upsampling approach with an arbitrary rate, where a depth prediction is made for each query ray. The method simulates the ray marching algorithm to achieve more precise and stable ray-depth predictions through implicit surface learning. The rule-based mid-point query sampling method enables a uniform output point distribution without requiring model training using the Chamfer distance loss function, which can exhibit bias towards the training dataset. Self-supervised learning becomes possible with accurate ground truths within the input point cloud. The results demonstrate the method's versatility across different domains and training scenarios with limited computational resources and training data. This allows the upsampling task to transition from academic research to real-world applications.
翻訳日:2023-10-16 15:12:00 公開日:2023-10-12
# LLMトレーニングのための tokenizer Choice: 無視可能か、それとも致命的か?

Tokenizer Choice For LLM Training: Negligible or Crucial? ( http://arxiv.org/abs/2310.08754v1 )

ライセンス: Link先を確認
Mehdi Ali, Michael Fromm, Klaudia Thellmann, Richard Rutmann, Max L\"ubbering, Johannes Leveling, Katrin Klug, Jan Ebert, Niclas Doll, Jasper Schulze Buschhoff, Charvi Jain, Alexander Arno Weber, Lena Jurkschat, Hammam Abdelwahab, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Samuel Weinbach, Rafet Sifa, Stefan Kesselheim, Nicolas Flores-Herr(参考訳) LLMの最近の成功は、トレーニングデータセット構成のキュレーション、モデルアーキテクチャとデータセットサイズの拡大、事前トレーニング目標の進歩、トークン化ツールの影響を盲点として残すことで、主に推進されている。 この未探索領域に光を当てると,24個の単言語 LLM と多言語 LLM を2.6B のパラメータスケールで訓練し,異なるトークン化アルゴリズムとパラメータ化を非難することにより,トークン化選択が LLM 下流性能に与える影響を包括的に研究する。 我々の研究は、トークン化ツールの選択が、モデルの下流のパフォーマンス、トレーニング、推論コストに大きな影響を与えることを強調している。 特に,共通トークン化評価指標の成熟度とパリティは必ずしもモデルダウンストリームのパフォーマンスを予測できないため,トークン化指標の評価には疑問の余地がある。 さらに,ヨーロッパで最も頻度の高い5つの言語で訓練された多言語トークン化器では,英語と比較して語彙サイズが3倍に増大することを示す。 英語のみのトークン化器は従来,多言語LLMのトレーニングに応用されてきたが,非効率なトークン化語彙により,ダウンストリーム性能が著しく低下し,トレーニングコストが最大68%向上することがわかった。

The recent success of LLMs has been predominantly driven by curating the training dataset composition, scaling of model architectures and dataset sizes and advancements in pretraining objectives, leaving tokenizer influence as a blind spot. Shedding light on this underexplored area, we conduct a comprehensive study on the influence of tokenizer choice on LLM downstream performance by training 24 mono- and multilingual LLMs at a 2.6B parameter scale, ablating different tokenizer algorithms and parameterizations. Our studies highlight that the tokenizer choice can significantly impact the model's downstream performance, training and inference costs. In particular, we find that the common tokenizer evaluation metrics fertility and parity are not always predictive of model downstream performance, rendering these metrics a questionable choice for tokenizer evaluation. Furthermore, we show that multilingual tokenizers trained on the five most frequent European languages require vocabulary size increases of factor three in comparison to English. While English-only tokenizers have been applied to the training of multi-lingual LLMs in the past, we find that this approach results in a severe downstream performance degradation and additional training costs of up to 68%, due to an inefficient tokenization vocabulary.
翻訳日:2023-10-16 15:11:38 公開日:2023-10-12
# CompA:音声言語モデルにおける合成推論のギャップに対処する

CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models ( http://arxiv.org/abs/2310.08753v1 )

ライセンス: Link先を確認
Sreyan Ghosh, Ashish Seth, Sonal Kumar, Utkarsh Tyagi, Chandra Kiran Evuru, S. Ramaneswaran, S. Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha(参考訳) 音声の基本的特徴は、その構成的性質である。 音声と言語モダリティの共有表現を学習する対照的なアプローチ(例えばCLAP)を用いて訓練された音声言語モデル(ALM)は、ゼロショット音声分類や音声検索など、多くのダウンストリームアプリケーションの性能を改善した。 しかし、これらのモデルが構成的推論を効果的に行う能力はほとんど探索されておらず、さらなる研究が必要である。 本稿では,実世界の音声サンプルの多数を占める2つの専門家によるベンチマークを収集し,almの構成的推論を評価するcompaを提案する。 提案するcompa-orderは, almが音響イベントの順序や発生をいかによく理解しているかを評価し, compa-attributeは音響イベントの属性結合を評価する。 どちらのベンチマークからも、両方のオーディオが同じ音響イベントを持つが、異なる構成を持つ2つのオーディオキャプションペアで構成されている。 ALMは、正しい音声と正しいキャプションとの適合性を評価する。 このベンチマークを用いて、現在のALMはランダムな確率よりもわずかに優れた性能を示し、構成的推論に苦慮している。 次に,新しい学習法を用いてCLAPを微調整し,合成推論能力を向上させるCompA-CLAPを提案する。 CompA-CLAPをトレーニングするために、コンポジション対応のハードネガティブによるコントラストトレーニングの改善を提案し、より集中的なトレーニングを可能にした。 次に, モデルがきめ細かな構成理解を学習し, 公開合成音声の急激な不足を克服する, モジュラーコントラストロスを提案する。 CompA-CLAPは、CompAベンチマークのすべてのベースラインモデルよりも大幅に改善され、その優れた構成推論能力を示している。

A fundamental characteristic of audio is its compositional nature. Audio-language models (ALMs) trained using a contrastive approach (e.g., CLAP) that learns a shared representation between audio and language modalities have improved performance in many downstream applications, including zero-shot audio classification, audio retrieval, etc. However, the ability of these models to effectively perform compositional reasoning remains largely unexplored and necessitates additional research. In this paper, we propose CompA, a collection of two expert-annotated benchmarks with a majority of real-world audio samples, to evaluate compositional reasoning in ALMs. Our proposed CompA-order evaluates how well an ALM understands the order or occurrence of acoustic events in audio, and CompA-attribute evaluates attribute binding of acoustic events. An instance from either benchmark consists of two audio-caption pairs, where both audios have the same acoustic events but with different compositions. An ALM is evaluated on how well it matches the right audio to the right caption. Using this benchmark, we first show that current ALMs perform only marginally better than random chance, thereby struggling with compositional reasoning. Next, we propose CompA-CLAP, where we fine-tune CLAP using a novel learning method to improve its compositional reasoning abilities. To train CompA-CLAP, we first propose improvements to contrastive training with composition-aware hard negatives, allowing for more focused training. Next, we propose a novel modular contrastive loss that helps the model learn fine-grained compositional understanding and overcomes the acute scarcity of openly available compositional audios. CompA-CLAP significantly improves over all our baseline models on the CompA benchmark, indicating its superior compositional reasoning capabilities.
翻訳日:2023-10-16 15:11:14 公開日:2023-10-12
# DeltaSpace: 柔軟なテキストガイド画像編集のためのセマンティックな機能空間

DeltaSpace: A Semantic-aligned Feature Space for Flexible Text-guided Image Editing ( http://arxiv.org/abs/2310.08785v1 )

ライセンス: Link先を確認
Yueming Lyu, Kang Zhao, Bo Peng, Yue Jiang, Yingya Zhang, Jing Dong(参考訳) テキスト誘導画像編集は、トレーニングと推論の柔軟性において大きな課題に直面している。 多くの文献は大量の注釈付き画像テキストペアを収集し、テキスト条件付き生成モデルをスクラッチから訓練する。 その後、データ収集を避けるために事前学習された視覚言語モデルを活用するいくつかのアプローチが提案されるが、テキストプロンプト最適化や推論時間ハイパーパラメータチューニングによって制限される。 これらの問題に対処するために、CLIP DeltaSpaceと呼ばれる特定の空間を調査、同定し、2つの画像のCLIP視覚的特徴差は、対応するテキスト記述のCLIPテキスト的特徴差と意味的に一致している。 DeltaSpace に基づく新しいフレームワーク DeltaEdit を提案する。このフレームワークは,CLIP の視覚的特徴差を学習段階における生成モデルの潜時空間方向にマッピングし,推論段階におけるCLIP のテキスト的特徴差から潜時空間方向を予測する。 この設計はDeltaEditに、(1)テキストフリートレーニング、(2)ゼロショット推論のための様々なテキストプロンプトへの一般化の2つの利点を与える。 GANモデルと拡散モデルの両方を含む異なる生成モデルを用いてデルタ編集の有効性と汎用性を検証し、柔軟なテキストガイド画像編集を実現する。 コードはhttps://github.com/Yueming6568/DeltaEditで入手できる。

Text-guided image editing faces significant challenges to training and inference flexibility. Much literature collects large amounts of annotated image-text pairs to train text-conditioned generative models from scratch, which is expensive and not efficient. After that, some approaches that leverage pre-trained vision-language models are put forward to avoid data collection, but they are also limited by either per text-prompt optimization or inference-time hyper-parameters tuning. To address these issues, we investigate and identify a specific space, referred to as CLIP DeltaSpace, where the CLIP visual feature difference of two images is semantically aligned with the CLIP textual feature difference of their corresponding text descriptions. Based on DeltaSpace, we propose a novel framework called DeltaEdit, which maps the CLIP visual feature differences to the latent space directions of a generative model during the training phase, and predicts the latent space directions from the CLIP textual feature differences during the inference phase. And this design endows DeltaEdit with two advantages: (1) text-free training; (2) generalization to various text prompts for zero-shot inference. Extensive experiments validate the effectiveness and versatility of DeltaEdit with different generative models, including both the GAN model and the diffusion model, in achieving flexible text-guided image editing. Code is available at https://github.com/Yueming6568/DeltaEdit.
翻訳日:2023-10-16 15:04:21 公開日:2023-10-12
# Few-Shot完全頭部再建術におけるインシシト形状と外観

Implicit Shape and Appearance Priors for Few-Shot Full Head Reconstruction ( http://arxiv.org/abs/2310.08784v1 )

ライセンス: Link先を確認
Pol Caselles, Eduard Ramon, Jaime Garcia, Gil Triginer, Francesc Moreno-Noguer(参考訳) 座標に基づくニューラル表現を用いた学習技術の最近の進歩は、多視点3D再構成タスクにおいて顕著な結果をもたらした。 しかし、これらのアプローチは、その有効性を達成するためにかなりの数の入力ビュー(典型的には10回)と計算集約的な最適化手順を必要とする。 本稿では,これらの制約を,数発のフル3次元頭部再構成の問題に対処する。 これを実現するために,座標に基づく表現に先立って確率的形状と外観を組み込むことにより,少数の入力画像のみを扱う場合の収束の高速化と一般化の向上を実現した。 テスト中、我々はこれを利用して、微分可能なレンダラーを用いて符号付き距離関数の嵌合過程を導出する。 並列化可能なレイトレーシングとダイナミックキャッシングの戦略を併用することにより,数発のフル3次元頭部再構成に対する効率的かつ正確なアプローチを実現する。 さらに,60個の高分解能3次元頭部スキャンと対応する画像とマスクからなるH3DSデータセットを拡張し,評価目的で使用する。 このデータセットを利用することで、従来のアプローチよりも桁違いに高速な幾何再構成における最先端の成果を達成するための、我々のアプローチの顕著な能力を示す。

Recent advancements in learning techniques that employ coordinate-based neural representations have yielded remarkable results in multi-view 3D reconstruction tasks. However, these approaches often require a substantial number of input views (typically several tens) and computationally intensive optimization procedures to achieve their effectiveness. In this paper, we address these limitations specifically for the problem of few-shot full 3D head reconstruction. We accomplish this by incorporating a probabilistic shape and appearance prior into coordinate-based representations, enabling faster convergence and improved generalization when working with only a few input images (even as low as a single image). During testing, we leverage this prior to guide the fitting process of a signed distance function using a differentiable renderer. By incorporating the statistical prior alongside parallelizable ray tracing and dynamic caching strategies, we achieve an efficient and accurate approach to few-shot full 3D head reconstruction. Moreover, we extend the H3DS dataset, which now comprises 60 high-resolution 3D full head scans and their corresponding posed images and masks, which we use for evaluation purposes. By leveraging this dataset, we demonstrate the remarkable capabilities of our approach in achieving state-of-the-art results in geometry reconstruction while being an order of magnitude faster than previous approaches.
翻訳日:2023-10-16 15:03:57 公開日:2023-10-12
# 機械学習モデルが漏洩したとき - 合成トレーニングデータの探索

When Machine Learning Models Leak: An Exploration of Synthetic Training Data ( http://arxiv.org/abs/2310.08775v1 )

ライセンス: Link先を確認
Manel Slokom and Peter-Paul de Wolf and Martha Larson(参考訳) 今後2年以内に、個人や家庭が移転するかどうかを予測する機械学習モデルに対する攻撃、すなわち、移動先分類器について検討する。 この攻撃は、攻撃者がモデルに問い合わせて予測を得ることができ、モデルがトレーニングされたデータの限界分布が公開されていると仮定する。 この攻撃はまた、攻撃者が特定の数の個人に対して非感受性属性の値を得たと仮定する。 攻撃の目的は、これらの対象個人に対する繊細な属性の値を推測することである。 モデルのトレーニング中に元のデータを合成データに置き換える方法が,攻撃者が機密性の高い属性を推測する上での有効性に与える影響について検討する。 \footnote{Original paper published at PSD 2022 論文はその後更新された。 }

We investigate an attack on a machine learning model that predicts whether a person or household will relocate in the next two years, i.e., a propensity-to-move classifier. The attack assumes that the attacker can query the model to obtain predictions and that the marginal distribution of the data on which the model was trained is publicly available. The attack also assumes that the attacker has obtained the values of non-sensitive attributes for a certain number of target individuals. The objective of the attack is to infer the values of sensitive attributes for these target individuals. We explore how replacing the original data with synthetic data when training the model impacts how successfully the attacker can infer sensitive attributes.\footnote{Original paper published at PSD 2022. The paper was subsequently updated.}
翻訳日:2023-10-16 15:02:57 公開日:2023-10-12
# phylogfn:生成フローネットワークを用いた系統推定

PhyloGFN: Phylogenetic inference with generative flow networks ( http://arxiv.org/abs/2310.08774v1 )

ライセンス: Link先を確認
Mingyang Zhou, Zichao Yan, Elliot Layne, Nikolay Malkin, Dinghuai Zhang, Moksh Jain, Mathieu Blanchette, Yoshua Bengio(参考訳) 系統学は、生物学的実体間の進化的関係を研究する計算生物学の分野である。 その長い歴史と多くの応用にもかかわらず、配列データからの系統樹の推測は依然として困難であり、木の空間の複雑さは、現在の組合せ的および確率論的手法に重大な障害をもたらす。 本稿では,系統学における2つの中核的問題に対処するために,生成フローネットワーク(GFlowNets)の枠組みを採用する。 GFlowNetsは複雑な組合せ構造をサンプリングするのに適しているため、ツリートポロジーと進化距離の多モード後部分布から探索とサンプリングを行うには自然な選択である。 我々は, 実際のベンチマークデータセット上で, 様々な, 高品質な進化仮説を生成できることを実証した。 PhyloGFNは、限界推定における先行研究と競合し、最先端の変分推定法よりも目標分布によく適合する。

Phylogenetics is a branch of computational biology that studies the evolutionary relationships among biological entities. Its long history and numerous applications notwithstanding, inference of phylogenetic trees from sequence data remains challenging: the high complexity of tree space poses a significant obstacle for the current combinatorial and probabilistic techniques. In this paper, we adopt the framework of generative flow networks (GFlowNets) to tackle two core problems in phylogenetics: parsimony-based and Bayesian phylogenetic inference. Because GFlowNets are well-suited for sampling complex combinatorial structures, they are a natural choice for exploring and sampling from the multimodal posterior distribution over tree topologies and evolutionary distances. We demonstrate that our amortized posterior sampler, PhyloGFN, produces diverse and high-quality evolutionary hypotheses on real benchmark datasets. PhyloGFN is competitive with prior works in marginal likelihood estimation and achieves a closer fit to the target distribution than state-of-the-art variational inference methods.
翻訳日:2023-10-16 15:02:43 公開日:2023-10-12
# 科学技術問題解決におけるChatGPTの可能性と落とし穴の検討

Examining the Potential and Pitfalls of ChatGPT in Science and Engineering Problem-Solving ( http://arxiv.org/abs/2310.08773v1 )

ライセンス: Link先を確認
Karen D. Wang, Eric Burkholder, Carl Wieman, Shima Salehi, Nick Haber(参考訳) この研究では、OpenAIのChatGPTが様々なタイプの物理問題を解く能力について検討している。 ChatGPT (GPT-4) は、カレッジレベルの工学物理学コースから合計40の問題を解くためにクエリーされた。 これらの問題は、問題の解決に必要なデータがすべて提供された、十分に特定された問題から、必要なデータがすべて与えられていない、不特定な実世界の問題まで及んだ。 以上の結果から,ChatGPTは未特定問題の62.5\%を解き,精度は8.3\%に低下した。 モデルの不正確なソリューションの分析により、3つの異なる障害モードが明らかになった。 1)物理世界の正確なモデルの構築に失敗したこと。 2)データの欠落について合理的な前提を定めていないこと、及び 3)計算誤差。 この研究は、STEM教育を強化するためにLLMを付加した教材の活用方法に示唆を与える。 この洞察はまた、AIの強みと限界に関する幅広い議論に寄与し、この技術を活用することを目指す教育者と、問題解決と意思決定のための人間とAIのコラボレーションフレームワークを研究する研究者の両方に役立ちます。

The study explores the capabilities of OpenAI's ChatGPT in solving different types of physics problems. ChatGPT (with GPT-4) was queried to solve a total of 40 problems from a college-level engineering physics course. These problems ranged from well-specified problems, where all data required for solving the problem was provided, to under-specified, real-world problems where not all necessary data were given. Our findings show that ChatGPT could successfully solve 62.5\% of the well-specified problems, but its accuracy drops to 8.3\% for under-specified problems. Analysis of the model's incorrect solutions revealed three distinct failure modes: 1) failure to construct accurate models of the physical world, 2) failure to make reasonable assumptions about missing data, and 3) calculation errors. The study offers implications for how to leverage LLM-augmented instructional materials to enhance STEM education. The insights also contribute to the broader discourse on AI's strengths and limitations, serving both educators aiming to leverage the technology and researchers investigating human-AI collaboration frameworks for problem-solving and decision-making.
翻訳日:2023-10-16 15:02:27 公開日:2023-10-12
# 難読画像に向けた検出変換器(DETR)のロバスト性と特性の検討

Investigating the Robustness and Properties of Detection Transformers (DETR) Toward Difficult Images ( http://arxiv.org/abs/2310.08772v1 )

ライセンス: Link先を確認
Zhao Ning Zou, Yuhang Zhang, Robert Wijaya(参考訳) トランスフォーマーベースのオブジェクト検出器(DETR)は、最終的にオブジェクト検出において、マシンビジョンタスク間で大きなパフォーマンスを示している。 この検出器は、画像のグローバルコンテキストをキャプチャするトランスフォーマーエンコーダデコーダアーキテクチャとともに、自己アテンション機構に基づいている。 対処すべき重要な問題は、このモデルアーキテクチャが、オクルージョンや逆境の摂動など、異なるイメージニュアンスをどう扱えるかである。 そこで我々は,detrの性能を異なる実験で測定し,畳み込みニューラルネットワーク(cnn)ベースの検出器であるyoloやfaster-rcnnを用いてネットワークのベンチマークを行った。 閉塞画像における情報損失に対する耐性については,DETRが良好であることがわかった。 それにもかかわらず、画像上に貼られた敵のステッカーは、新しい不要なキー、クエリ、値のセットを生成する必要があることがわかり、ほとんどの場合、ネットワークの誤った方向が導かれる。 DETRは画像劣化ベンチマークでYOLOv5よりも低かった。 さらに,DeTRは予測を行う際の主問合せに大きく依存しており,主問合せが勾配フローの大部分を受信しているため,クエリ間の不均衡なコントリビューションが発生することがわかった。

Transformer-based object detectors (DETR) have shown significant performance across machine vision tasks, ultimately in object detection. This detector is based on a self-attention mechanism along with the transformer encoder-decoder architecture to capture the global context in the image. The critical issue to be addressed is how this model architecture can handle different image nuisances, such as occlusion and adversarial perturbations. We studied this issue by measuring the performance of DETR with different experiments and benchmarking the network with convolutional neural network (CNN) based detectors like YOLO and Faster-RCNN. We found that DETR performs well when it comes to resistance to interference from information loss in occlusion images. Despite that, we found that the adversarial stickers put on the image require the network to produce a new unnecessary set of keys, queries, and values, which in most cases, results in a misdirection of the network. DETR also performed poorer than YOLOv5 in the image corruption benchmark. Furthermore, we found that DETR depends heavily on the main query when making a prediction, which leads to imbalanced contributions between queries since the main query receives most of the gradient flow.
翻訳日:2023-10-16 15:02:08 公開日:2023-10-12
# soundify:ビデオと音響効果のマッチング

Soundify: Matching Sound Effects to Video ( http://arxiv.org/abs/2112.09726v2 )

ライセンス: Link先を確認
David Chuan-En Lin, Anastasis Germanidis, Crist\'obal Valenzuela, Yining Shi, Nikolas Martelaro(参考訳) ビデオ編集の分野では、音はオブジェクトに文字を追加し、空間内に視聴者を浸すのに役立つ。 プロの編集者との対談(n=10)を通じて,映像に音声を加える作業は困難であることがわかった。 本稿では,映像と音声のマッチングを支援するシステムSoundifyについて述べる。 ビデオが与えられると、soundifyは一致する音を認識し、音をビデオに同期させ、パンニングとボリュームを動的に調整して空間オーディオを生成する。 人間の評価研究(n=889)では、soundifyはさまざまなオーディオカテゴリーで音声とビデオとマッチングできることが示されている。 in-subjects expert study (n=12) では,より軽量な作業負荷,タスク完了時間の短縮,ユーザビリティ向上によるビデオ編集支援において, soundify の有用性を実証した。

In the art of video editing, sound helps add character to an object and immerse the viewer within a space. Through formative interviews with professional editors (N=10), we found that the task of adding sounds to video can be challenging. This paper presents Soundify, a system that assists editors in matching sounds to video. Given a video, Soundify identifies matching sounds, synchronizes the sounds to the video, and dynamically adjusts panning and volume to create spatial audio. In a human evaluation study (N=889), we show that Soundify is capable of matching sounds to video out-of-the-box for a diverse range of audio categories. In a within-subjects expert study (N=12), we demonstrate the usefulness of Soundify in helping video editors match sounds to video with lighter workload, reduced task completion time, and improved usability.
翻訳日:2023-10-16 04:53:59 公開日:2023-10-12
# CTR予測におけるSparse Group Lassoを用いたニューラルネットワークの適応最適化

Adaptive Optimizers with Sparse Group Lasso for Neural Networks in CTR Prediction ( http://arxiv.org/abs/2107.14432v4 )

ライセンス: Link先を確認
Yun Yue, Yongchao Liu, Suo Tong, Minghao Li, Zhen Zhang, Chunyang Wen, Huanjun Bao, Lihong Gu, Jinjie Gu, Yixiang Mu(参考訳) 我々は,momentum,adagrad,adam,amsgrad,adahessianなど,ディープラーニングにおける適応オプティマイザ群にsparse group lassoのレギュラライザを追加する新しいフレームワークを開発し,それに従ってgroup momentum,group adagrad,group adam,group amsgrad,group adahessianなどと呼ばれる新しいクラスのオプティマイザを作成する。 原始双対法に基づく確率凸設定において理論的に証明された収束保証を確立する。 我々は,最先端のディープラーニングモデルを用いた3つの大規模実世界広告クリックデータセットにおける新しいオプティマイザの正規化効果を評価する。 実験結果から, 初期最適化手法と大切削方式を用いた後処理法を比較すると, モデルの性能は同一の空間レベルで有意に向上できることがわかった。 さらに, ダイオードプルーニングを伴わない場合と比較して, 提案手法は極めて高いスパルシティーを達成でき, 優れた性能, 高い競合性能が得られる。 コードはhttps://github.com/intelligent-machine-learning/dlrover/blob/master/tfplusで入手できる。

We develop a novel framework that adds the regularizers of the sparse group lasso to a family of adaptive optimizers in deep learning, such as Momentum, Adagrad, Adam, AMSGrad, AdaHessian, and create a new class of optimizers, which are named Group Momentum, Group Adagrad, Group Adam, Group AMSGrad and Group AdaHessian, etc., accordingly. We establish theoretically proven convergence guarantees in the stochastic convex settings, based on primal-dual methods. We evaluate the regularized effect of our new optimizers on three large-scale real-world ad click datasets with state-of-the-art deep learning models. The experimental results reveal that compared with the original optimizers with the post-processing procedure which uses the magnitude pruning method, the performance of the models can be significantly improved on the same sparsity level. Furthermore, in comparison to the cases without magnitude pruning, our methods can achieve extremely high sparsity with significantly better or highly competitive performance. The code is available at https://github.com/intelligent-machine-learning/dlrover/blob/master/tfplus.
翻訳日:2023-10-16 04:53:29 公開日:2023-10-12
# 光学的双極子相互作用の超ラジアント検出

Superradiant detection of microscopic optical dipolar interactions ( http://arxiv.org/abs/2101.10779v2 )

ライセンス: Link先を確認
Lingjing Ji, Yizun He, Qingnan Cai, Zhening Fang, Yuzhuo Wang, Liyang Qiu, Lei Zhou, Saijun Wu, Stefano Grava, Darrick E. Chang(参考訳) 光と冷たい原子の相互作用は、多体共振双極子相互作用を特徴とする複雑な現象である。 このシステムの量子資源を探索するための大きな障害は、マクロ的な光伝搬効果であり、これは顕微鏡相関が局所的に蓄積されるのに利用可能な時間を制限するだけでなく、顕微鏡効果を圧倒できる指向性で超放射能の背景を作り出す。 本報告では,レーザー冷却原子アンサンブルにおける微視的光学ダイナミクスの^<background-free''検出を行う方法を示す。 これは、蓄積された微視的ダイナミクスの効果を効率よく検出可能な外界に印加する超輝度のリコールの前に、かなりの時間にわたってマクロ光学的伝搬を過渡的に抑制することで可能となる。 本手法を用いて, アンサンブル系原子-光界面における光スピン波秩序の寿命を一般的に制限する, 密度依存型, 微視的双極性減退効果を明らかにし, 正確に特徴付ける。

The interaction between light and cold atoms is a complex phenomenon potentially featuring many-body resonant dipole interactions. A major obstacle toward exploring these quantum resources of the system is macroscopic light propagation effects, which not only limit the available time for the microscopic correlations to locally build up, but also create a directional, superradiant emission background whose variations can overwhelm the microscopic effects. In this Letter, we demonstrate a method to perform ``background-free'' detection of the microscopic optical dynamics in a laser-cooled atomic ensemble. This is made possible by transiently suppressing the macroscopic optical propagation over a substantial time, before a recall of superradiance that imprints the effect of the accumulated microscopic dynamics into an efficiently detectable outgoing field. We apply this technique to unveil and precisely characterize a density-dependent, microscopic dipolar dephasing effect that generally limits the lifetime of optical spin-wave order in ensemble-based atom-light interfaces.
翻訳日:2023-10-16 04:52:47 公開日:2023-10-12
# 量子ラショモン効果:Frauchiger-Renner理論の強化

The Quantum Rashomon Effect: A Strengthened Frauchiger-Renner Argument ( http://arxiv.org/abs/2011.12716v4 )

ライセンス: Link先を確認
Jochen Szangolies(参考訳) Frauchiger-Renner の議論は、「量子理論は自分自身の使用を一貫して記述することはできない」ことを示すことを目的としており、エージェントがそれ自体が量子実験の対象である多くのパーティ環境では、エージェントは観測と矛盾する予測を行う。 ここでは,初期量子状態とは独立な3つのエージェントのみを用いた簡易な設定を導入することにより,特に絡み合いの必要性をなくし,さらに最終的な測定と崩壊を引き起こす必要がなくなる。 それでも、エージェントによる予測と観察は、単一の一貫した説明に統合できない。 そこで本研究では, 異なる視点を一つにまとめることができないという, この種の \emph{rashomon effect} の存在は, \emph{epistemic horizon} の概念にカプセル化された任意のシステムに関する情報の限界を考慮できないことによるものである。

The Frauchiger-Renner argument aims to show that `quantum theory cannot consistently describe the use of itself': in many-party settings where agents are themselves subject to quantum experiments, agents may make predictions that contradict observations. Here, we introduce a simplified setting using only three agents, that is independent of the initial quantum state, thus eliminating in particular any need for entanglement, and furthermore does not need to invoke any final measurement and resulting collapse. Nevertheless, the predictions and observations made by the agents cannot be integrated into a single, consistent account. We propose that the existence of this sort of \emph{Rashomon effect}, i.e. the impossibility of uniting different perspectives, is due to failing to account for the limits put on the information available about any given system as encapsulated in the notion of an \emph{epistemic horizon}.
翻訳日:2023-10-16 04:52:31 公開日:2023-10-12
# ベイジアン最適化による動的サブゴアルベース探査

Dynamic Subgoal-based Exploration via Bayesian Optimization ( http://arxiv.org/abs/1910.09143v5 )

ライセンス: Link先を確認
Yijia Wang, Matthias Poloczek, Daniel R. Jiang(参考訳) 高価で限られた相互作用を持つ疎遠なナビゲーション環境における強化学習は困難であり、効果的な探索が必要である。 実世界の訓練を必要とする複雑なナビゲーションタスク(安価なシミュレータが利用できない場合)を動機として,未知の環境分布に直面して探索戦略を決定するエージェントを検討する。 同じ環境分布から引き出されたテスト環境で評価される前に、一連のトレーニング環境を活用してポリシーを改善することができる。 既存のアプローチの多くは固定的な探索戦略に焦点を当てているが、メタ最適化問題としての探索はコスト効率の高い探索の必要性を無視する傾向がある。 本稿では,動的サブゴールに基づく探索戦略のクラスを効率的に探索する,コスト対応ベイズ最適化手法を提案する。 このアルゴリズムは、スパース報酬、高価な相互作用、ノイズといった課題を克服するために、様々なレバー(サブゴールの位置、各エピソードの長さ、トライアル毎のレプリケーション数)を調整する。 実験的評価は、新しいアプローチが既存のベースラインよりも多くの問題領域で優れていることを示している。 また,提案手法が漸近的に最適に近いサブゴール設計を識別することを示す理論的基盤も提供する。

Reinforcement learning in sparse-reward navigation environments with expensive and limited interactions is challenging and poses a need for effective exploration. Motivated by complex navigation tasks that require real-world training (when cheap simulators are not available), we consider an agent that faces an unknown distribution of environments and must decide on an exploration strategy. It may leverage a series of training environments to improve its policy before it is evaluated in a test environment drawn from the same environment distribution. Most existing approaches focus on fixed exploration strategies, while the few that view exploration as a meta-optimization problem tend to ignore the need for cost-efficient exploration. We propose a cost-aware Bayesian optimization approach that efficiently searches over a class of dynamic subgoal-based exploration strategies. The algorithm adjusts a variety of levers -- the locations of the subgoals, the length of each episode, and the number of replications per trial -- in order to overcome the challenges of sparse rewards, expensive interactions, and noise. An experimental evaluation demonstrates that the new approach outperforms existing baselines across a number of problem domains. We also provide a theoretical foundation and prove that the method asymptotically identifies a near-optimal subgoal design.
翻訳日:2023-10-16 04:51:44 公開日:2023-10-12
# LF-VISLAM:移動体に負の撮像平面を持つ大視野カメラ用SLAMフレームワーク

LF-VISLAM: A SLAM Framework for Large Field-of-View Cameras with Negative Imaging Plane on Mobile Agents ( http://arxiv.org/abs/2209.05167v3 )

ライセンス: Link先を確認
Ze Wang, Kailun Yang, Hao Shi, Peng Li, Fei Gao, Jian Bai, Kaiwei Wang(参考訳) 同時ローカライゼーションとマッピング(slam)は、自動運転とロボティクスの分野において重要な側面となっている。 視界SLAMの重要な要素の1つはカメラのFoV(Field-of-View)であり、より大きなFoVは周囲の様々な要素や特徴を認識することができる。 しかし、カメラのFoVが負の半平面に達すると、[u,v,1]^Tを用いて画像特徴点を表現する従来の方法は効果がなくなる。 パノラマフォブはループクロージャに有利であるが、ループクロージャーフレームが既存の方法で容易にマッチできないような大きな角度差では、その利点は実現できない。 広範囲パノラマデータのループクロージャは、さらに多くの外れ値を伴うため、従来の外れ値拒否法は直接適用されない。 これらの問題に対処するため,極端に大型のFoVでループを閉ざしたカメラのための Visual Inertial SLAM フレームワーク LF-VISLAM を提案する。 単位長さの3次元ベクトルを導入し、負の半平面上においても特徴点を効果的に表現する。 SLAMシステムの姿勢情報を利用してループ閉鎖の特徴点検出を誘導する。 さらに、ループクロージャモジュールには、単位長表現に基づく新しい外れ値拒否方法が組み込まれている。 PALVIOデータセットは、パノラマSLAMデータセットの欠如に対応するために、360{\deg}x(40{\deg}~120{\deg})の全FoVとVisual Inertial Odometry(VIO)のための慣性計測ユニット(IMU)を用いて、パノラマ環状レンズ(PAL)システムを用いて収集する。 確立されたPALVIOおよび公開データセットの実験は、提案されたLF-VISLAMが最先端SLAM法より優れていることを示している。 私たちのコードはhttps://github.com/flysoaryun/LF-VISLAM.comでオープンソース化されます。

Simultaneous Localization And Mapping (SLAM) has become a crucial aspect in the fields of autonomous driving and robotics. One crucial component of visual SLAM is the Field-of-View (FoV) of the camera, as a larger FoV allows for a wider range of surrounding elements and features to be perceived. However, when the FoV of the camera reaches the negative half-plane, traditional methods for representing image feature points using [u,v,1]^T become ineffective. While the panoramic FoV is advantageous for loop closure, its benefits are not easily realized under large-attitude-angle differences where loop-closure frames cannot be easily matched by existing methods. As loop closure on wide-FoV panoramic data further comes with a large number of outliers, traditional outlier rejection methods are not directly applicable. To address these issues, we propose LF-VISLAM, a Visual Inertial SLAM framework for cameras with extremely Large FoV with loop closure. A three-dimensional vector with unit length is introduced to effectively represent feature points even on the negative half-plane. The attitude information of the SLAM system is leveraged to guide the feature point detection of the loop closure. Additionally, a new outlier rejection method based on the unit length representation is integrated into the loop closure module. We collect the PALVIO dataset using a Panoramic Annular Lens (PAL) system with an entire FoV of 360{\deg}x(40{\deg}~120{\deg}) and an Inertial Measurement Unit (IMU) for Visual Inertial Odometry (VIO) to address the lack of panoramic SLAM datasets. Experiments on the established PALVIO and public datasets show that the proposed LF-VISLAM outperforms state-of-the-art SLAM methods. Our code will be open-sourced at https://github.com/flysoaryun/LF-VISLAM.
翻訳日:2023-10-16 04:45:19 公開日:2023-10-12
# 地熱資源を用いた自律量子時計

Autonomous quantum clocks using athermal resources ( http://arxiv.org/abs/2207.07909v3 )

ライセンス: Link先を確認
Sreenath K. Manikandan(参考訳) ここでは、熱水資源を用いた量子系における正確な時間維持の可能性を探る。 量子時計を駆動する熱水資源として, 量子計測技術を用いた貯水池が利用できることを示す。 2レベルと3レベルの量子系はモデル内のトランスデューサとして働き、量子測定によるノイズを一連のダニに変換します。 観測可能な観測値が時計のハミルトニアンと最大で非可換であるとき、時計のチッキング速度は最大になる。 我々は、ある時間内に観測されたダニの統計を特徴付けるために、大きな偏差原理を使用し、それが、マンデルのQパラメータによって定量化される、サブポアソニアンであることを示す。 我々は、クロックの精度と効率を議論し、測定と熱資源の両方によって引き起こされるハイブリッド量子時計を含むように枠組みを拡張した。 量子時計に関する最近の提案との比較を行い, 量子計測による非平衡条件の抽出を, クロック実現を超越した代替デバイス実装について検討する。

Here we explore the possibility of precise time-keeping in quantum systems using athermal resources. We show that quantum measurement engineered reservoirs can be used as athermal resources to drive the ticks of a quantum clock. Two and three level quantum systems act as transducers in our model, converting the quantum measurement induced noise to produce a series of ticks. The ticking rate of the clock is maximized when the measured observable maximally non-commutes with the clock's Hamiltonian. We use the large deviation principle to characterize the statistics of observed ticks within a given time-period and show that it can be sub-Poissonian -- quantified by Mandel's Q parameter -- alluding to the quantum nature of the clock. We discuss the accuracy and efficiency of the clock, and extend our framework to include hybrid quantum clocks fueled by both measurements, and thermal resources. We make comparisons to relatable recent proposals for quantum clocks, and discuss alternate device implementations harvesting the quantum measurement engineered non-equilibrium conditions, beyond the clock realization.
翻訳日:2023-10-16 04:44:03 公開日:2023-10-12
# LDRNet: モバイルデバイス上でリアルタイムなドキュメントローカライズを実現する

LDRNet: Enabling Real-time Document Localization on Mobile Devices ( http://arxiv.org/abs/2206.02136v3 )

ライセンス: Link先を確認
Han Wu, Holland Qian, Huaming Wu, Aad van Moorsel(参考訳) モバイル機器におけるIDV(ID Document Verification)技術は、現代のビジネスオペレーションにおいて普及しているが、ID盗難や詐欺のリスクが高まっている。 アイデンティティドキュメント保持者は、通常、インポスタを回避するためにオンラインビデオインタビューに参加する必要がある。 しかし、現在のIDVプロセスは、非効率で高価なオンラインステップバイステップガイダンスをサポートするために、追加の人的労働力に依存する。 既存のAIベースのアプローチのパフォーマンスは、モバイルデバイスのリアルタイムおよび軽量な要求を満たすことはできない。 本稿では,リアルタイムIDVのためのエッジインテリジェンス支援アプローチを設計することで,これらの課題に対処する。 本稿では,idvプロセスの応答性を向上させるために,モバイル機器用の新しい文書ローカライズモデルであるldrnetを提案する。 軽量なバックボーンネットワークに基づいて,ldrnet,コーナーポイント予測,ライン境界予測,ドキュメント分類のための3つの予測ブランチを構築した。 我々は,新たな補足的目標,等分割点を設計し,新しい損失関数Line Lossを用いて,アプローチの速度と精度を向上させる。 IDVプロセスに加えて、LDRNetはあらゆる種類のモバイルアプリケーションに対して効率的で信頼性の高いドキュメントローカライゼーションの代替手段である。 実証として、LDRNetと一般的な文書データセットのローカライズに関する一般的なアプローチを比較した。 実験の結果, LDRNetは最大790 FPSで47倍高速で動作し, シングルモデルおよびシングルスケールテストではJaccard Index(JI)に匹敵する性能を示した。

While Identity Document Verification (IDV) technology on mobile devices becomes ubiquitous in modern business operations, the risk of identity theft and fraud is increasing. The identity document holder is normally required to participate in an online video interview to circumvent impostors. However, the current IDV process depends on an additional human workforce to support online step-by-step guidance which is inefficient and expensive. The performance of existing AI-based approaches cannot meet the real-time and lightweight demands of mobile devices. In this paper, we address those challenges by designing an edge intelligence-assisted approach for real-time IDV. Aiming at improving the responsiveness of the IDV process, we propose a new document localization model for mobile devices, LDRNet, to Localize the identity Document in Real-time. On the basis of a lightweight backbone network, we build three prediction branches for LDRNet, the corner points prediction, the line borders prediction and the document classification. We design novel supplementary targets, the equal-division points, and use a new loss function named Line Loss, to improve the speed and accuracy of our approach. In addition to the IDV process, LDRNet is an efficient and reliable document localization alternative for all kinds of mobile applications. As a matter of proof, we compare the performance of LDRNet with other popular approaches on localizing general document datasets. The experimental results show that LDRNet runs at a speed up to 790 FPS which is 47x faster, while still achieving comparable Jaccard Index(JI) in single-model and single-scale tests.
翻訳日:2023-10-16 04:43:32 公開日:2023-10-12
# Multi-SpacePhish: 機械学習を用いたフィッシングサイト検出器に対する敵攻撃空間の拡張

Multi-SpacePhish: Extending the Evasion-space of Adversarial Attacks against Phishing Website Detectors using Machine Learning ( http://arxiv.org/abs/2210.13660v3 )

ライセンス: Link先を確認
Ying Yuan, Giovanni Apruzzese, Mauro Conti(参考訳) 敵機械学習(ML)に関する既存の文献は、すべてのMLモデルを壊す攻撃を示すことに焦点を当てている。 残念ながら、実際の攻撃や防御の可能性についてはほとんど考慮されていない。 さらに、逆のサンプルはしばしば「機能空間」で作成され、対応する値の評価が問題となる。 簡単に言えば、現在の状況は敵の攻撃によって引き起こされる実際の脅威を推定することができず、セキュアなMLシステムが欠如している。 我々はそのような混乱をこの論文で明確にすることを目指している。 フィッシングサイト検出(PWD)におけるMLの適用を考慮し,ML-PWDを騙すために対向的摂動を導入する「回避空間」を定式化する。 そこで本研究では,より安価なML-PWDに対する回避攻撃を記述した現実的な脅威モデルを提案する。 その後,12回の回避攻撃に対して,最先端ML-PWDの統計的評価を行った。 我々の評価は (i)より起こりやすい回避の試みの真の効果 (ii)異なる蒸発空間で製作された摂動の影響 我々の現実的な回避の試みは統計的に有意な低下(p<0.05で3-10%)を引き起こし、その安価さは微妙な脅威となる。 しかしながら、いくつかのML-PWDは我々の最も現実的な攻撃に免疫を持つ(p=0.22)。 最後に,本論文のさらなる貢献として,攻撃者が同時に複数の避難空間に摂動を導入するという興味深い事例を考察する。 これらの結果から,問題空間と特徴空間の摂動を同時に適用することで,検出率が0.95から0に低下する可能性が示唆された。

Existing literature on adversarial Machine Learning (ML) focuses either on showing attacks that break every ML model, or defenses that withstand most attacks. Unfortunately, little consideration is given to the actual feasibility of the attack or the defense. Moreover, adversarial samples are often crafted in the "feature-space", making the corresponding evaluations of questionable value. Simply put, the current situation does not allow to estimate the actual threat posed by adversarial attacks, leading to a lack of secure ML systems. We aim to clarify such confusion in this paper. By considering the application of ML for Phishing Website Detection (PWD), we formalize the "evasion-space" in which an adversarial perturbation can be introduced to fool a ML-PWD -- demonstrating that even perturbations in the "feature-space" are useful. Then, we propose a realistic threat model describing evasion attacks against ML-PWD that are cheap to stage, and hence intrinsically more attractive for real phishers. After that, we perform the first statistically validated assessment of state-of-the-art ML-PWD against 12 evasion attacks. Our evaluation shows (i) the true efficacy of evasion attempts that are more likely to occur; and (ii) the impact of perturbations crafted in different evasion-spaces. Our realistic evasion attempts induce a statistically significant degradation (3-10% at p<0.05), and their cheap cost makes them a subtle threat. Notably, however, some ML-PWD are immune to our most realistic attacks (p=0.22). Finally, as an additional contribution of this journal publication, we are the first to consider the intriguing case wherein an attacker introduces perturbations in multiple evasion-spaces at the same time. These new results show that simultaneously applying perturbations in the problem- and feature-space can cause a drop in the detection rate from 0.95 to 0.
翻訳日:2023-10-16 04:34:13 公開日:2023-10-12
# ネットワーク合成介入:ネットワーク干渉下におけるパネルデータの因果的枠組み

Network Synthetic Interventions: A Causal Framework for Panel Data Under Network Interference ( http://arxiv.org/abs/2210.11355v2 )

ライセンス: Link先を確認
Anish Agarwal, Sarah H. Cen, Devavrat Shah, Christina Lee Yu(参考訳) 本稿では,ネットワーク干渉を組み込むための合成制御と合成介入手法の一般化を提案する。 本研究では, パネルデータから, 単位間の流出の有無と観測不能な共起の有無を推定する。 我々のアプローチの鍵は、ネットワーク干渉を考慮した新しい潜在因子モデルであり、パネルデータ設定で一般的に使用される因子モデルを一般化する。 本稿では,ネットワーク合成介入 (nsi) を推定し, ネットワークに対する任意の対物処理群において, ユニットの平均結果が一貫して推定されることを示す。 さらに,推定器が漸近的に正常であることを示す。 NSI推定器が確実に一般化して正確な反事実推定を行うかどうかの2つの妥当性試験を行う。 我々は,NSI推定器が正確な反事実推定を行うことを保証し,提案設計の複雑さを解析する新しいグラフベースの実験設計を提案する。 理論的知見を裏付けるシミュレーションで結論付ける。

We propose a generalization of the synthetic controls and synthetic interventions methodology to incorporate network interference. We consider the estimation of unit-specific potential outcomes from panel data in the presence of spillover across units and unobserved confounding. Key to our approach is a novel latent factor model that takes into account network interference and generalizes the factor models typically used in panel data settings. We propose an estimator, Network Synthetic Interventions (NSI), and show that it consistently estimates the mean outcomes for a unit under an arbitrary set of counterfactual treatments for the network. We further establish that the estimator is asymptotically normal. We furnish two validity tests for whether the NSI estimator reliably generalizes to produce accurate counterfactual estimates. We provide a novel graph-based experiment design that guarantees the NSI estimator produces accurate counterfactual estimates, and also analyze the sample complexity of the proposed design. We conclude with simulations that corroborate our theoretical findings.
翻訳日:2023-10-16 04:33:42 公開日:2023-10-12
# 等次元コンパクト多様体上のベレジン型量子化

Berezin-type quantization on even-dimensional compact manifolds ( http://arxiv.org/abs/2210.08814v5 )

ライセンス: Link先を確認
Rukmini Dey and Kohinoor Ghosh(参考訳) 本稿では、コンパクトな偶次元多様体 $M^{2d}$ 上でベレジン型量子化が達成できることを示し、残余が $R^{2d}$ (セル分解) に微分されるような低い次元の骨格 $M_0$ を取り除き、$C^d$ と同一視して $CP^d$ に埋め込む。 cp^d$から局所ポアソン構造とベレジン型量子化を誘導する。 したがって、再生核を持つヒルベルト空間が存在する。 ヒルベルト空間上の有界線型作用素の記号は、測度 0 の集合の外側の対応原理を満たす星積を持つ。 この構成は微分同相に依存する。 大域的なホロノミーと、したがって多様体の細胞の分解を追跡する必要がある。 一例として、この種類のトーラスの量子化について説明する。 複素多様体のberezin-toeplitz量子化を上と同じ精神で示す。

In this article we show that a Berezin-type quantization can be achieved on a compact even dimensional manifold $M^{2d}$ by removing a skeleton $M_0$ of lower dimension such that what remains is diffeomorphic to $R^{2d}$ (cell decomposition) which we identify with $C^d$ and embed in $ CP^d$. A local Poisson structure and Berezin-type quantization are induced from $ CP^d$. Thus we have a Hilbert space with a reproducing kernel. The symbols of bounded linear operators on the Hilbert space have a star product which satisfies the correspondence principle outside a set of measure zero. This construction depends on the diffeomorphism. One needs to keep track of the global holonomy and hence the cell decomposition of the manifold. As an example, we illustrate this type of quanitzation of the torus. We exhibit Berezin-Toeplitz quantization of a complex manifold in the same spirit as above.
翻訳日:2023-10-16 04:33:01 公開日:2023-10-12
# 逐次学習を用いたイベントベース時間密度光フロー推定

Event-based Temporally Dense Optical Flow Estimation with Sequential Learning ( http://arxiv.org/abs/2210.01244v2 )

ライセンス: Link先を確認
Wachirawit Ponghiran, Chamika Mihiranga Liyanagedera and Kaushik Roy(参考訳) イベントカメラは、動きのぼけのない動きの速い物体を撮影する場合、従来のフレームベースのカメラよりも有利である。 これにより、光強度の変化(イベントとして知られる)を記録し、より高い周波数で動作させ、非常にダイナミックなシーンで動きを捉えるのに適したものにすることができる。 多くの最近の研究では、イベントからの光の流れを予測するためにニューラルネットワーク(NN)を訓練する方法が提案されている。 しかし、それらはしばしば、DSECデータセットのトレーニングで使用される10Hzのような、一定間隔でイベントから構築された時空間表現に依存している。 この制限は、フロー予測を同じ間隔 (10Hz) に制限するが、最大3kHzまで動作可能なイベントカメラの速度は有効に利用されていない。 本研究では,100Hzにおける時間的に密度の高い流れ推定を,2つの異なるLSTM(Long-Short term memory)とスパイキングニューラルネットワーク(SNN)を用いて逐次問題として扱うことにより実現可能であることを示す。 まず,一般的なev-flownetと類似したnnモデルを用いて,lstm層を用いて学習手法の効率を示す。 このモデルは、既存のものよりも10倍頻繁に光学フローを生成するだけでなく、推定フローはベースラインev-flownetの予測よりも13%低い誤差を持つ。 第二に、EV-FlowNet SNNを構築するが、漏れやすい統合と、時間的ダイナミクスを効率的に捉えるためにニューロンを発射する。 LSTMモデルと比較すると,SNNの単純固有リカレントダイナミクスはパラメータ低減に大きく寄与することがわかった。 さらに、そのイベント駆動計算により、スパイキングモデルはLSTMモデルのわずか1.5%のエネルギーしか消費せず、処理イベントにおけるSNNの効率と時間的に密度の高いフローを達成する可能性を強調している。

Event cameras provide an advantage over traditional frame-based cameras when capturing fast-moving objects without a motion blur. They achieve this by recording changes in light intensity (known as events), thus allowing them to operate at a much higher frequency and making them suitable for capturing motions in a highly dynamic scene. Many recent studies have proposed methods to train neural networks (NNs) for predicting optical flow from events. However, they often rely on a spatio-temporal representation constructed from events over a fixed interval, such as 10Hz used in training on the DSEC dataset. This limitation restricts the flow prediction to the same interval (10Hz) whereas the fast speed of event cameras, which can operate up to 3kHz, has not been effectively utilized. In this work, we show that a temporally dense flow estimation at 100Hz can be achieved by treating the flow estimation as a sequential problem using two different variants of recurrent networks - Long-short term memory (LSTM) and spiking neural network (SNN). First, We utilize the NN model constructed similar to the popular EV-FlowNet but with LSTM layers to demonstrate the efficiency of our training method. The model not only produces 10x more frequent optical flow than the existing ones, but the estimated flows also have 13% lower errors than predictions from the baseline EV-FlowNet. Second, we construct an EV-FlowNet SNN but with leaky integrate and fire neurons to efficiently capture the temporal dynamics. We found that simple inherent recurrent dynamics of SNN lead to significant parameter reduction compared to the LSTM model. In addition, because of its event-driven computation, the spiking model is estimated to consume only 1.5% energy of the LSTM model, highlighting the efficiency of SNN in processing events and the potential for achieving temporally dense flow.
翻訳日:2023-10-16 04:32:02 公開日:2023-10-12
# GP-net:フレキシブルな視点グラフの提案

GP-net: Flexible Viewpoint Grasp Proposal ( http://arxiv.org/abs/2209.10404v3 )

ライセンス: Link先を確認
Anna Konrad, John McDonald and Rudi Villing(参考訳) モバイルマニピュレータが経験したような柔軟な視点から6-DoFの把握を生成可能な畳み込みニューラルネットワークモデルであるGrasp Proposal Network(GP-net)を提案する。 gp-netを訓練するために,深度画像と地中把握情報を含むデータセットを合成的に生成する。 実世界の実験では,PAL TIAGoモバイルマニピュレータ上で,VGN(Volumetric Grasping Network)とGPD(Grasp Pose Detection Pack)の2つのアルゴリズムに対して,EGAD評価ベンチマークを用いてGP-netを評価する。 ロボットの把握における最先端の手法とは対照的に、GP-netは、ワークスペースを定義する必要なしに、柔軟で未知の視点からオブジェクトを把握するために使用することができ、VGNの51.6%、PDの44.2%に比べて54.4%の把握成功を実現している。 コードと事前トレーニングされたモデルとともに、ROSパッケージをhttps://aucoroboticsmu.github.io/GP-net/で提供します。

We present the Grasp Proposal Network (GP-net), a Convolutional Neural Network model which can generate 6-DoF grasps from flexible viewpoints, e.g. as experienced by mobile manipulators. To train GP-net, we synthetically generate a dataset containing depth-images and ground-truth grasp information. In real-world experiments, we use the EGAD evaluation benchmark to evaluate GP-net against two commonly used algorithms, the Volumetric Grasping Network (VGN) and the Grasp Pose Detection package (GPD), on a PAL TIAGo mobile manipulator. In contrast to the state-of-the-art methods in robotic grasping, GP-net can be used for grasping objects from flexible, unknown viewpoints without the need to define the workspace and achieves a grasp success of 54.4% compared to 51.6% for VGN and 44.2% for GPD. We provide a ROS package along with our code and pre-trained models at https://aucoroboticsmu.github.io/GP-net/.
翻訳日:2023-10-16 04:31:28 公開日:2023-10-12
# 準数学的混合、多様性最小化およびブレグマン情報

Quasi-Arithmetic Mixtures, Divergence Minimization, and Bregman Information ( http://arxiv.org/abs/2209.07481v2 )

ライセンス: Link先を確認
Rob Brekelmans, Frank Nielsen(参考訳) マルコフ連鎖モンテカルロ法による複素分布のサンプリングと正規化定数の推定は、移動可能な初期分布と関心のターゲット密度とを橋渡しするアニーリングパスに沿った中間分布の列からサンプルをシミュレートすることが多い。 従来の研究は準算術的な手段を用いてアニーリングパスを構築し、結果として生じる中間密度は、エンドポイントへの期待分散を最小限に抑えるものとして解釈した。 密度関数の単調な埋め込みの下で,ブレグマン発散体を用いたこの「セントロイド」特性の包括的解析を行い,Amari's や Renyi's ${\alpha}$-divergences,${(\alpha,\beta)}$-divergences,およびJensen-Shannon発散体を焼鈍経路に沿って中間密度に関連付ける。 本解析では,zhang 2004,2013 の rho-tau bregman divergence framework を用いたパラメトリックファミリー,準アリスメティックな手段,および発散関数間の相互作用に注目した。

Markov Chain Monte Carlo methods for sampling from complex distributions and estimating normalization constants often simulate samples from a sequence of intermediate distributions along an annealing path, which bridges between a tractable initial distribution and a target density of interest. Prior work has constructed annealing paths using quasi-arithmetic means, and interpreted the resulting intermediate densities as minimizing an expected divergence to the endpoints. We provide a comprehensive analysis of this 'centroid' property using Bregman divergences under a monotonic embedding of the density function, thereby associating common divergences such as Amari's and Renyi's ${\alpha}$-divergences, ${(\alpha,\beta)}$-divergences, and the Jensen-Shannon divergence with intermediate densities along an annealing path. Our analysis highlights the interplay between parametric families, quasi-arithmetic means, and divergence functions using the rho-tau Bregman divergence framework of Zhang 2004,2013.
翻訳日:2023-10-16 04:30:58 公開日:2023-10-12
# 量子コンピュータ上の量子軌道の熱力学

Thermodynamics of quantum trajectories on a quantum computer ( http://arxiv.org/abs/2301.07124v2 )

ライセンス: Link先を確認
Marcel Cech, Igor Lesanovsky, Federico Carollo(参考訳) 量子コンピュータは最近、ノイズの多い中間スケール量子デバイスとして利用可能になった。 これらの機械はすでに量子システムや力学の研究に有用な環境を生み出している。 この機会を生かし、興味あるシステムをアンシラに結合することで量子コンピュータ上でシミュレートされるオープンシステムダイナミクスについて検討する。 各相互作用の後、アンシラは測定され、測定のシーケンスは量子軌道を定義する。 マイクロ状態として軌道を識別する熱力学的アナロジーを用いて,量子軌道と望ましい特性,例えば特定のパターンや時間相関の確率を高めるために,開システムのダイナミクスを制御する方法を示す。 このような偏りのある(一般に非マルコフ的)ダイナミクスがユニタリなゲートベースの量子コンピュータにどのように実装され、公開アクセス可能な \texttt{ibm\_jakarta} マシン上で原理実証結果を示すかについて議論する。 本研究は小型システムのみを対象として行われるが,デジタル量子コンピュータ上でのオープンシステムのダイナミクスの複雑な側面を制御する上での課題を浮き彫りにする。

Quantum computers have recently become available as noisy intermediate-scale quantum devices. Already these machines yield a useful environment for research on quantum systems and dynamics. Building on this opportunity, we investigate open-system dynamics that are simulated on a quantum computer by coupling a system of interest to an ancilla. After each interaction the ancilla is measured and the sequence of measurements defines a quantum trajectory. Using a thermodynamic analogy, which identifies trajectories as microstates, we show how to control the dynamics of the open system in order to enhance the probability of quantum trajectories with desired properties, e.g., particular patterns or temporal correlations. We discuss how such biased -- generally non-Markovian -- dynamics can be implemented on a unitary, gate-based quantum computer and show proof-of-principle results on the publicly accessible \texttt{ibm\_jakarta} machine. While our study is solely conducted on small systems, it highlights the challenges in controlling complex aspects of open-system dynamics on digital quantum computers.
翻訳日:2023-10-16 04:25:08 公開日:2023-10-12
# NeuWigs: ボリュームヘアキャプチャとアニメーションのためのニューラルダイナミックモデル

NeuWigs: A Neural Dynamic Model for Volumetric Hair Capture and Animation ( http://arxiv.org/abs/2212.00613v3 )

ライセンス: Link先を確認
Ziyan Wang, Giljoo Nam, Tuur Stuyck, Stephen Lombardi, Chen Cao, Jason Saragih, Michael Zollhoefer, Jessica Hodgins and Christoph Lassner(参考訳) 人間の髪のキャプチャーとアニメーションは、バーチャルリアリティーのための現実的なアバターを作成する上で大きな課題の2つだ。 毛髪は複雑な形状と外観を持ち、また困難な動きを示すため、どちらの問題も非常に困難である。 本稿では,毛髪を頭部から独立にモデル化し,これらの課題をデータ駆動方式で解決する2段階のアプローチを提案する。 第1段階である状態圧縮は、新しいオートエンコーダ・アズ・ア・トラックラー戦略により、動きと外観を含む3dヘア状態の低次元潜在空間を学習する。 外観学習における毛髪と頭部の絡み合いを改善するため,多視点の毛髪セグメンテーションマスクと微分可能なボリュームレンダラを併用した。 第2段階は、検出された潜在コードに基づいて時間的毛髪移動を行う新しい毛髪動力学モデルを学ぶ。 動的モデルを駆動しながら高い安定性を実現するため, 圧縮段階から3Dポイントクラウドオートエンコーダを用いてヘア状態の除音を行う。 提案モデルは,新しい視点合成の技法を上回っており,毛髪観察を駆動信号として必要とせずに,新たな髪髪アニメーションを作成できる。 プロジェクトページはhttps://ziyanw1.github.io/neuwigs/。

The capture and animation of human hair are two of the major challenges in the creation of realistic avatars for the virtual reality. Both problems are highly challenging, because hair has complex geometry and appearance, as well as exhibits challenging motion. In this paper, we present a two-stage approach that models hair independently from the head to address these challenges in a data-driven manner. The first stage, state compression, learns a low-dimensional latent space of 3D hair states containing motion and appearance, via a novel autoencoder-as-a-tracker strategy. To better disentangle the hair and head in appearance learning, we employ multi-view hair segmentation masks in combination with a differentiable volumetric renderer. The second stage learns a novel hair dynamics model that performs temporal hair transfer based on the discovered latent codes. To enforce higher stability while driving our dynamics model, we employ the 3D point-cloud autoencoder from the compression stage for de-noising of the hair state. Our model outperforms the state of the art in novel view synthesis and is capable of creating novel hair animations without having to rely on hair observations as a driving signal. Project page is here https://ziyanw1.github.io/neuwigs/.
翻訳日:2023-10-16 04:22:40 公開日:2023-10-12
# ゼロノレッジ証明からのオブリベージ変換、またはラウンドオプティマイズ量子オブリベージ変換とゼロノレッジ証明の量子状態への実現方法

Oblivious Transfer from Zero-Knowledge Proofs, or How to Achieve Round-Optimal Quantum Oblivious Transfer and Zero-Knowledge Proofs on Quantum States ( http://arxiv.org/abs/2303.01476v3 )

ライセンス: Link先を確認
L\'eo Colisson, Garazi Muguruza and Florian Speelman(参考訳) 従来のZero-Knowledge(ZK)プロトコルを構成可能な(量子)オブリバストトランスファー(OT)プロトコルに変換する汎用的な構成を提供し、ZKプロトコルのラウンドコンプレクティリティ特性とセキュリティ保証(プレーンモデル/統計セキュリティ/非構造化関数...)を、結果のOTプロトコルに変換する。 このような構成は、MinicryptとCryptomaniaが異なるため、古典的には存在しない。 特に、Non-Interactive ZK (NIZK) を用いて構成をインスタンス化することにより、ランダムオラクルモデルにセキュアな第1ラウンド最適(2メッセージ)量子OTプロトコルと、文字列およびk-out-n OTへのラウンド最適拡張を提供する。 我々の構築の中心には、受信した量子状態のプロパティを、公開鍵プリミティブや/または適切な古典的ZKプロトコルを使用する際の統計的保証なしで、追加の情報を公開することなく証明する新しい方法がある。 特に、ある状態が部分的に測定されたことを証明することができる(測定された量子ビットの集合に任意の制約を課す)。 この概念は、ZK の量子状態への類似と見なすことができ、ZKstatesQIP と ZKstatesQMA の2つの新しい複雑性クラスで示されるように、複雑性理論を量子言語に拡張するにつれて、独立した関心を持つものと期待できる。

We provide a generic construction to turn any classical Zero-Knowledge (ZK) protocol into a composable (quantum) oblivious transfer (OT) protocol, mostly lifting the round-complexity properties and security guarantees (plain-model/statistical security/unstructured functions...) of the ZK protocol to the resulting OT protocol. Such a construction is unlikely to exist classically as Cryptomania is believed to be different from Minicrypt. In particular, by instantiating our construction using Non-Interactive ZK (NIZK), we provide the first round-optimal (2-message) quantum OT protocol secure in the random oracle model, and round-optimal extensions to string and k-out-of-n OT. At the heart of our construction lies a new method that allows us to prove properties on a received quantum state without revealing additional information on it, even in a non-interactive way, without public-key primitives, and/or with statistical guarantees when using an appropriate classical ZK protocol. We can notably prove that a state has been partially measured (with arbitrary constraints on the set of measured qubits), without revealing any additional information on this set. This notion can be seen as an analog of ZK to quantum states, and we expect it to be of independent interest as it extends complexity theory to quantum languages, as illustrated by the two new complexity classes we introduce, ZKstatesQIP and ZKstatesQMA.
翻訳日:2023-10-16 04:14:29 公開日:2023-10-12
# 誤りのある学習から排除可能な暗号

Revocable Cryptography from Learning with Errors ( http://arxiv.org/abs/2302.14860v3 )

ライセンス: Link先を確認
Prabhanjan Ananth and Alexander Poremba and Vinod Vaikuntanathan(参考訳) 量子暗号は、古典的に不可能な暗号プリミティブを構築するために、量子情報の多くのユニークな特徴を利用する。 本研究では,量子力学の非閉化原理と,鍵取り消し機能を備えた暗号スキームを設計する。 我々は、シークレットキーが量子状態として表現されるスキームを、シークレットキーが一度ユーザから取り消されたら、それらが以前と同じ機能を実行する能力を持たないことを保証して検討する。 我々は,疑似乱数関数,秘密鍵および公開鍵暗号,さらには完全な準同型暗号など,鍵要求機能を備えた基本的な暗号プリミティブを定義し,構築する。 我々のすべての構築の中心は、Dual-Regev暗号化スキーム(Gentry, Peikert, Vaikuntanathan, STOC 2008)を無効化するためのアプローチです。

Quantum cryptography leverages many unique features of quantum information in order to construct cryptographic primitives that are oftentimes impossible classically. In this work, we build on the no-cloning principle of quantum mechanics and design cryptographic schemes with key-revocation capabilities. We consider schemes where secret keys are represented as quantum states with the guarantee that, once the secret key is successfully revoked from a user, they no longer have the ability to perform the same functionality as before. We define and construct several fundamental cryptographic primitives with key-revocation capabilities, namely pseudorandom functions, secret-key and public-key encryption, and even fully homomorphic encryption, assuming the quantum subexponential hardness of the learning with errors problem. Central to all our constructions is our approach for making the Dual-Regev encryption scheme (Gentry, Peikert and Vaikuntanathan, STOC 2008) revocable.
翻訳日:2023-10-16 04:13:46 公開日:2023-10-12
# カーネル2サンプルテストの可変選択

Variable Selection for Kernel Two-Sample Tests ( http://arxiv.org/abs/2302.07415v3 )

ライセンス: Link先を確認
Jie Wang and Santanu S. Dey and Yao Xie(参考訳) 2つのグループから標本を区別する最も有益な変数を選択することを目的として, 2つのサンプルテストにおける変数選択問題を考える。 この問題を解決するために,カーネルの最大平均誤差(MMD)に基づくフレームワークを提案する。 提案手法は,分散正規化MDD統計量の最大化を図った,所定のサイズの変数群を求める。 この定式化はまた、文献で研究されているように、タイプIエラーを制御しながら、漸近型IIエラーの最小化に対応する。 本稿では,カーネル関数の異なる選択に対して,性能保証付き精度・近似アルゴリズムを提案する。 さらに,提案フレームワークの統計的テストパワー分析を行う。 合成および実データを用いた実験により,本手法の優れた性能を示す。

We consider the variable selection problem for two-sample tests, aiming to select the most informative variables to distinguish samples from two groups. To solve this problem, we propose a framework based on the kernel maximum mean discrepancy (MMD). Our approach seeks a group of variables with a pre-specified size that maximizes the variance-regularized MMD statistics. This formulation also corresponds to the minimization of asymptotic type-II error while controlling type-I error, as studied in the literature. We present mixed-integer programming formulations and develop exact and approximation algorithms with performance guarantees for different choices of kernel functions. Furthermore, we provide a statistical testing power analysis of our proposed framework. Experiment results on synthetic and real datasets demonstrate the superior performance of our approach.
翻訳日:2023-10-16 04:11:59 公開日:2023-10-12
# Bitrate-Constrained DRO: 未知のグループシフトに対する最悪のロバスト性

Bitrate-Constrained DRO: Beyond Worst Case Robustness To Unknown Group Shifts ( http://arxiv.org/abs/2302.02931v2 )

ライセンス: Link先を確認
Amrith Setlur, Don Dennis, Benjamin Eysenbach, Aditi Raghunathan, Chelsea Finn, Virginia Smith, Sergey Levine(参考訳) 分散シフトに頑健な機械学習モデルのトレーニングは、現実世界のアプリケーションには不可欠である。 いくつかのロバストなトレーニングアルゴリズム(グループdroなど)は、グループシフトを専門とし、すべてのトレーニングポイントについてグループ情報を必要とする。 グループアノテーションを必要としない他の方法(例えばCVaR DRO)は、実世界の有意義な群と一致しない(例えば、高い損失点がランダムにラベル付けされた訓練点である場合など)ような帰納的な高損失点を形成するため、過度に保守的である。 この研究において、よりニュアンスな群シフトの形式を仮定することで、先行アプローチの制限に対処する:ラベルに条件付けされた真の群函数(群上の指標)は単純であると仮定する。 例えば、ビットレートの低い特徴(画像背景、照明など)に沿ってグループシフトが発生することが期待できる。 そこで本研究では,これらの低ビットレート特徴によって実現された単純な群関数に対して高い精度を維持するモデルを構築することを目的としている。 これに基づいて、敵のキャパシティがビットレートに制約されたDROの2プレイヤーゲーム定式化を検討する。 提案アルゴリズムは,訓練用サンプルの群情報を必要としないが,トレーニング用アノテーションを持つデータセットではグループDRO,長い尾の分布ではCVaR DROと一致している。 理論的解析の結果,BR-DRO は非拘束な CVaR DRO よりも統計的に効率的で保守的でない解が得られることがわかった。

Training machine learning models robust to distribution shifts is critical for real-world applications. Some robust training algorithms (e.g., Group DRO) specialize to group shifts and require group information on all training points. Other methods (e.g., CVaR DRO) that do not need group annotations can be overly conservative, since they naively upweight high loss points which may form a contrived set that does not correspond to any meaningful group in the real world (e.g., when the high loss points are randomly mislabeled training points). In this work, we address limitations in prior approaches by assuming a more nuanced form of group shift: conditioned on the label, we assume that the true group function (indicator over group) is simple. For example, we may expect that group shifts occur along low bitrate features (e.g., image background, lighting). Thus, we aim to learn a model that maintains high accuracy on simple group functions realized by these low bitrate features, that need not spend valuable model capacity achieving high accuracy on contrived groups of examples. Based on this, we consider the two-player game formulation of DRO where the adversary's capacity is bitrate-constrained. Our resulting practical algorithm, Bitrate-Constrained DRO (BR-DRO), does not require group information on training samples yet matches the performance of Group DRO on datasets that have training group annotations and that of CVaR DRO on long-tailed distributions. Our theoretical analysis reveals that in some settings BR-DRO objective can provably yield statistically efficient and less conservative solutions than unconstrained CVaR DRO.
翻訳日:2023-10-16 04:11:48 公開日:2023-10-12
# 古典重力と量子物質との一貫した結合は基本的に不可逆である

Any consistent coupling between classical gravity and quantum matter is fundamentally irreversible ( http://arxiv.org/abs/2301.10261v2 )

ライセンス: Link先を確認
Thomas D. Galley, Flaminia Giacomini, John H. Selby(参考訳) 重力が量子系によって導かれるとき、基本相互作用の仲介者としての役割と、本質的に古典的である時空の性質を決定する上での役割との間には緊張関係がある。 基本的には、この緊張は量子論または一般相対性理論の基本原理の1つを破ることになるが、特定のモデルに頼らずにどれかを評価するのは難しい。 本稿では、一般確率理論(GPT)を用いて、理論に依存しない方法でこの問題に答える。 重力場と単一物質系との相互作用を考察し、重力が古典的である場合、次の仮定の少なくとも1つに違反する必要があることを示すノーゴー定理を導出する。 (i) 物質の自由度は、完全に非古典的自由度によって記述される。 (ii)物質の自由度と重力場の相互作用は可逆的である。 (iii)重力場に対する自由度逆反応。 これは、古典重力と量子物質の理論は、オッペンハイムやアルの最近のモデルと同様に、基本的に不可逆であることを示している。 逆に、量子物質と重力場の間の相互作用が可逆であると仮定すると、重力場は古典的でない。

When gravity is sourced by a quantum system, there is tension between its role as the mediator of a fundamental interaction, which is expected to acquire nonclassical features, and its role in determining the properties of spacetime, which is inherently classical. Fundamentally, this tension should result in breaking one of the fundamental principles of quantum theory or general relativity, but it is usually hard to assess which one without resorting to a specific model. Here, we answer this question in a theory-independent way using General Probabilistic Theories (GPTs). We consider the interactions of the gravitational field with a single matter system, and derive a no-go theorem showing that when gravity is classical at least one of the following assumptions needs to be violated: (i) Matter degrees of freedom are described by fully non-classical degrees of freedom; (ii) Interactions between matter degrees of freedom and the gravitational field are reversible; (iii) Matter degrees of freedom back-react on the gravitational field. We argue that this implies that theories of classical gravity and quantum matter must be fundamentally irreversible, as is the case in the recent model of Oppenheim et al. Conversely if we require that the interaction between quantum matter and the gravitational field is reversible, then the gravitational field must be non-classical.
翻訳日:2023-10-16 04:10:41 公開日:2023-10-12
# 画像登録のための類似度指標のプリミティブ同時最適化

Primitive Simultaneous Optimization of Similarity Metrics for Image Registration ( http://arxiv.org/abs/2304.01601v3 )

ライセンス: Link先を確認
Diana Waldmannstetter, Benedikt Wiestler, Julian Schwarting, Ivan Ezhov, Marie Metz, Spyridon Bakas, Bhakti Baheti, Satrajit Chakrabarty, Daniel Rueckert, Jan S. Kirschke, Rolf A. Heckemann, Marie Piraud, Bjoern H. Menze, Florian Kofler(参考訳) 類似度メトリクスの同時最適化はセマンティックセグメンテーションの分野における標準的な手順であるにもかかわらず、驚くべきことに、画像登録にはあまり確立されていない。 文献のこのギャップを埋めるために,プリミティブ・サミメーションによって実装された登録指標の同時最適化が,画像登録に有用かどうかを,複雑なマルチモーダル3D設定で検討する。 グリオーマの術前から術後のmr画像と術前のmri画像を含む2つの難易度データセットを評価した。 提案手法を応用して, 専門神経放射線学者の目印アノテーションを用いたTREによる登録精度の向上を実証した。

Even though simultaneous optimization of similarity metrics is a standard procedure in the field of semantic segmentation, surprisingly, this is much less established for image registration. To help closing this gap in the literature, we investigate in a complex multi-modal 3D setting whether simultaneous optimization of registration metrics, here implemented by means of primitive summation, can benefit image registration. We evaluate two challenging datasets containing collections of pre- to post-operative and pre- to intra-operative MR images of glioma. Employing the proposed optimization, we demonstrate improved registration accuracy in terms of TRE on expert neuroradiologists' landmark annotations.
翻訳日:2023-10-16 04:04:15 公開日:2023-10-12
# 拡散モデルを用いたラベルなしグラフからのデータ中心学習

Data-Centric Learning from Unlabeled Graphs with Diffusion Model ( http://arxiv.org/abs/2303.10108v2 )

ライセンス: Link先を確認
Gang Liu, Eric Inae, Tong Zhao, Jiaxin Xu, Tengfei Luo, Meng Jiang(参考訳) グラフプロパティ予測タスクは重要かつ多様である。 各タスクはラベル付きサンプルの小さなサイズを提供するが、ラベル付きグラフは様々なソースや大規模から収集されている。 従来の手法では、自己教師型タスクのラベルのないグラフでモデルをトレーニングし、予測タスクのモデルを微調整する。 しかし、自己監督型タスク知識は、予測に必要なものと一致したり、時には矛盾することはなかった。 本稿では,ラベルなしグラフの大規模集合の基盤となる知識を,各特性予測モデルを強化する有用なデータ点の集合として抽出する。 拡散モデルを用いてラベルのないグラフを完全に活用し、2つの新しい目的を設計し、各タスクのラベル付きデータを用いてモデルの認知プロセスをガイドし、タスク固有のグラフ例とそのラベルを生成する。 実験により、データ中心のアプローチは15のタスクで15の既存の様々なメソッドよりもかなり優れた結果が得られることが示されました。 ラベルなしデータによるパフォーマンス改善は、自己教師付き学習とは異なり、生成されたラベル付きサンプルとして見ることができる。

Graph property prediction tasks are important and numerous. While each task offers a small size of labeled examples, unlabeled graphs have been collected from various sources and at a large scale. A conventional approach is training a model with the unlabeled graphs on self-supervised tasks and then fine-tuning the model on the prediction tasks. However, the self-supervised task knowledge could not be aligned or sometimes conflicted with what the predictions needed. In this paper, we propose to extract the knowledge underlying the large set of unlabeled graphs as a specific set of useful data points to augment each property prediction model. We use a diffusion model to fully utilize the unlabeled graphs and design two new objectives to guide the model's denoising process with each task's labeled data to generate task-specific graph examples and their labels. Experiments demonstrate that our data-centric approach performs significantly better than fifteen existing various methods on fifteen tasks. The performance improvement brought by unlabeled data is visible as the generated labeled examples unlike the self-supervised learning.
翻訳日:2023-10-16 04:03:01 公開日:2023-10-12
# 不確実性のみを支払う - 分散適応型トンプソンサンプリング

Only Pay for What Is Uncertain: Variance-Adaptive Thompson Sampling ( http://arxiv.org/abs/2303.09033v2 )

ライセンス: Link先を確認
Aadirupa Saha and Branislav Kveton(参考訳) ほとんどのバンディットアルゴリズムは、報酬のばらつきまたはその上限が知られており、全ての腕に同じものであると仮定する。 これは自然に最適以下のパフォーマンスと、分散過大評価による後悔につながる。 一方、過小評価された報酬分散は、最適下腕に早期にコミットするため、線形後悔を引き起こす可能性がある。 これは、強いインスタンス依存の後悔境界を持つが、報酬分散に関する事前知識を組み込むことができない分散適応型頻繁性アルゴリズムに関する先行研究である。 我々は、事前知識を組み込んだベイズ設定の基礎を築いた。 この結果,アルゴリズム設計における事前使用による後悔度が低下し,後悔の保証も改善した。 具体的には,不均質な報酬分散を用いたガウス的バンディットの研究を行い,事前依存ベイズ後悔境界を持つトンプソンサンプリングアルゴリズムを開発した。 報酬のばらつきを低くし、より情報的な優先事項で後悔を減らし、不確実なものに対してのみ支払いを行うのはまさにそのためです。 これがその種の最初の結果である。 最後に,従来の頻繁なアプローチよりも分散適応ベイズアルゴリズムの方が優れていることを示す広範な実験で,我々の理論を裏付ける。 また,提案手法は誤特定をモデル化し,事前推定に適用可能であることを示す。

Most bandit algorithms assume that the reward variances or their upper bounds are known, and that they are the same for all arms. This naturally leads to suboptimal performance and higher regret due to variance overestimation. On the other hand, underestimated reward variances may lead to linear regret due to committing early to a suboptimal arm. This motivated prior works on variance-adaptive frequentist algorithms, which have strong instance-dependent regret bounds but cannot incorporate prior knowledge on reward variances. We lay foundations for the Bayesian setting, which incorporates prior knowledge. This results in lower regret in practice, due to using the prior in the algorithm design, and also improved regret guarantees. Specifically, we study Gaussian bandits with {unknown heterogeneous reward variances}, and develop a Thompson sampling algorithm with prior-dependent Bayes regret bounds. We achieve lower regret with lower reward variances and more informative priors on them, which is precisely why we pay only for what is uncertain. This is the first result of its kind. Finally, we corroborate our theory with extensive experiments, which show the superiority of our variance-adaptive Bayesian algorithm over prior frequentist approaches. We also show that our approach is robust to model misspecification and can be applied with estimated priors.
翻訳日:2023-10-16 04:02:46 公開日:2023-10-12
# 格子ゲージ理論と物質をシミュレートするフェルミオン量子量子プロセッサ

Fermion-qudit quantum processors for simulating lattice gauge theories with matter ( http://arxiv.org/abs/2303.08683v2 )

ライセンス: Link先を確認
Torsten V. Zache, Daniel Gonz\'alez-Cuadra, and Peter Zoller(参考訳) 素粒子物理学の標準モデルの基礎となる格子ゲージ理論のリアルタイムダイナミクスをシミュレートすることは、量子シミュレータが古典的アプローチよりも実用的な利点を提供できる、非常に難しい問題である。 本研究では,物質場に結合した一般ゲージ理論の動力学を,ハードウェア効率でディジタル的にシミュレートする,完全なRydberg型アーキテクチャを提案する。 参照。 [1] は、非可換ゲージ場が局所的に符号化され時間発展するquditプロセッサが、標準的な量子コンピュータと比較して必要なシミュレーションリソースを大幅に削減することを示した。 ここでは、後者を最近導入されたフェルミオン量子プロセッサ[2]と統合し、ハードウェアレベルでフェルミオン統計を考慮し、ゲージ・マッター相互作用の局所性を保持する量子回路を構築する。 本稿では,2つのパラダイム的高エネルギー現象に着目し,フェミオン量子プロセッサの柔軟性を実証する。 まず,Abelian-Higgsモデルをシミュレーションする資源効率の高いプロトコルを提案する。 そこで, 非アーベルゲージ場で束縛されたフェルミオン性物質を構成するハドロンを調製し, 対応するハドロンテンソルを抽出する方法を示す。 いずれの場合も、必要な資源を推定し、粒子物理学における実験的な関連する量の計算に量子デバイスをどのように利用できるかを示す。

Simulating the real-time dynamics of lattice gauge theories, underlying the Standard Model of particle physics, is a notoriously difficult problem where quantum simulators can provide a practical advantage over classical approaches. In this work, we present a complete Rydberg-based architecture, co-designed to digitally simulate the dynamics of general gauge theories coupled to matter fields in a hardware-efficient manner. Ref. [1] showed how a qudit processor, where non-abelian gauge fields are locally encoded and time-evolved, considerably reduces the required simulation resources compared to standard qubit-based quantum computers. Here we integrate the latter with a recently introduced fermionic quantum processor [2], where fermionic statistics are accounted for at the hardware level, allowing us to construct quantum circuits that preserve the locality of the gauge-matter interactions. We exemplify the flexibility of such a fermion-qudit processor by focusing on two paradigmatic high-energy phenomena. First, we present a resource-efficient protocol to simulate the Abelian-Higgs model, where the dynamics of confinement and string breaking can be investigated. Then, we show how to prepare hadrons made up of fermionic matter constituents bound by non-abelian gauge fields, and show how to extract the corresponding hadronic tensor. In both cases, we estimate the required resources, showing how quantum devices can be used to calculate experimentally-relevant quantities in particle physics.
翻訳日:2023-10-16 04:02:24 公開日:2023-10-12
# 監視型散逸ランダム回路の統計力学

Statistical Mechanics of Monitored Dissipative Random Circuits ( http://arxiv.org/abs/2303.08152v2 )

ライセンス: Link先を確認
Yue Li, Martin Claassen(参考訳) 消散は現実的な量子回路では避けられない。 計測誘起の絡み合い位相遷移を示す無作為回路のクラスに対する散逸の影響について検討する。 この遷移は、以前は有効な古典スピンモデルの秩序から秩序への遷移として理解されていた。 このマッピングは、デファッシンと自然放出チャネルによって記述されたオンサイト消散を含むよう拡張し、$\mathbb{Z}_2$-symmetric-breaking 相互作用で対応する2次元イジングモデルを研究する。 本研究では, 相互情報の動的状態を分析し, 監視した測定値と散逸値の連成動作が, 異なる古典的領域壁構成間の交叉で理解可能な短時間, 中間時間, 定常状態の挙動をもたらすことを確かめる。 提示された解析は、監視された開またはリンドブラッド量子系に適用され、現実的な散逸設定と小さな達成可能なシステムサイズにおける絡み合いダイナミクスを理解するツールを提供する。

Dissipation is inevitable in realistic quantum circuits. We examine the effects of dissipation on a class of monitored random circuits that exhibit a measurement-induced entanglement phase transition. This transition has previously been understood as an order-to-disorder transition of an effective classical spin model. We extend this mapping to include on-site dissipation described by the dephasing and spontaneous emission channel and study the corresponding 2D Ising model with $\mathbb{Z}_2$-symmetry-breaking interactions. We analyze the dynamical regimes of the mutual information and find that the joint action of monitored measurements and dissipation yields short time, intermediate time and steady state behavior that can be understood in terms of crossovers between different classical domain wall configurations. The presented analysis applies to monitored open or Lindbladian quantum systems and provides a tool to understand entanglement dynamics in realistic dissipative settings and small achievable system sizes.
翻訳日:2023-10-16 04:01:59 公開日:2023-10-12
# 強化学習における連接表現の条件付き相互情報

Conditional Mutual Information for Disentangled Representations in Reinforcement Learning ( http://arxiv.org/abs/2305.14133v2 )

ライセンス: Link先を確認
Mhairi Dunion, Trevor McInroe, Kevin Sebastian Luck, Josiah P. Hanna, Stefano V. Albrecht(参考訳) 強化学習(rl)環境は、トレーニングデータ量や制限された機能カバレッジによって、機能間のスパーラスな相関を持つトレーニングデータを生成することができる。 これにより、これらの誤解を招く相関を潜在表現でエンコードするrlエージェントが出現し、エージェントが環境内で相関が変化するかどうか、あるいは現実世界にデプロイされた場合の一般化を防止できる。 絡み合った表現はロバスト性を改善するが、機能間の相互情報を最小限にする既存の絡み合い技法では、独立した特徴を必要とするため、相関した特徴を絡み合わせることはできない。 本稿では,高次元観測の異方性表現を相関特徴量で学習するrlアルゴリズムの補助タスクを提案し,その特徴量間の条件付き相互情報を最小限に抑える。 我々は,連続制御タスクを用いて,相関シフト下での一般化と,相関特徴の存在下でのrlアルゴリズムのトレーニング性能の向上を実験的に実証する。

Reinforcement Learning (RL) environments can produce training data with spurious correlations between features due to the amount of training data or its limited feature coverage. This can lead to RL agents encoding these misleading correlations in their latent representation, preventing the agent from generalising if the correlation changes within the environment or when deployed in the real world. Disentangled representations can improve robustness, but existing disentanglement techniques that minimise mutual information between features require independent features, thus they cannot disentangle correlated features. We propose an auxiliary task for RL algorithms that learns a disentangled representation of high-dimensional observations with correlated features by minimising the conditional mutual information between features in the representation. We demonstrate experimentally, using continuous control tasks, that our approach improves generalisation under correlation shifts, as well as improving the training performance of RL algorithms in the presence of correlated features.
翻訳日:2023-10-16 03:54:12 公開日:2023-10-12
# NeRF2: ニューラルラジオ周波数放射場

NeRF2: Neural Radio-Frequency Radiance Fields ( http://arxiv.org/abs/2305.06118v2 )

ライセンス: Link先を確認
Xiaopeng Zhao, Zhenlin An, Qingrui Pan, Lei Yang(参考訳) マクスウェルは160年前に電磁波の物理法則を発見したが、電気的に大きく複雑な環境でのRF信号の伝播を正確にモデル化する方法は長年の問題のままである。 難しいのは、RF信号と障害物(反射、回折など)の間の複雑な相互作用である。 コンピュータビジョンにおける光場を記述するためにニューラルネットワークを用いた大きな成功に触発され、rf信号の伝搬を意味付ける連続ボリュームシーン関数を表すニューラル無線周波数放射場 nerf$^\textbf{2}$ を提案する。 特に、数回の信号測定でトレーニングした後、nerf$^\textbf{2}$は送信機の位置を知っている任意の位置において、どの信号が受信されたかが分かる。 物理層ニューラルネットワークとして、NeRF$^\textbf{2}$は、学習された統計モデルとレイトレーシングの物理モデルを利用して、アプリケーション層ニューラルネットワーク(ANN)のトレーニング要求を満たす合成データセットを生成することができる。 これにより,実データと合成データセットを混合し,学習の強化を図るターボラーニングによる ann の性能向上が期待できる。 実験の結果, ターボ学習は50%程度向上し, 性能を向上できることがわかった。 また,屋内局所化と5G MIMOにおけるNeRF$^\textbf{2}$のパワーを実証する。

Although Maxwell discovered the physical laws of electromagnetic waves 160 years ago, how to precisely model the propagation of an RF signal in an electrically large and complex environment remains a long-standing problem. The difficulty is in the complex interactions between the RF signal and the obstacles (e.g., reflection, diffraction, etc.). Inspired by the great success of using a neural network to describe the optical field in computer vision, we propose a neural radio-frequency radiance field, NeRF$^\textbf{2}$, which represents a continuous volumetric scene function that makes sense of an RF signal's propagation. Particularly, after training with a few signal measurements, NeRF$^\textbf{2}$ can tell how/what signal is received at any position when it knows the position of a transmitter. As a physical-layer neural network, NeRF$^\textbf{2}$ can take advantage of the learned statistic model plus the physical model of ray tracing to generate a synthetic dataset that meets the training demands of application-layer artificial neural networks (ANNs). Thus, we can boost the performance of ANNs by the proposed turbo-learning, which mixes the true and synthetic datasets to intensify the training. Our experiment results show that turbo-learning can enhance performance with an approximate 50% increase. We also demonstrate the power of NeRF$^\textbf{2}$ in the field of indoor localization and 5G MIMO.
翻訳日:2023-10-16 03:52:57 公開日:2023-10-12
# 高忠実度rydberg量子シミュレータにおける消去変換

Erasure conversion in a high-fidelity Rydberg quantum simulator ( http://arxiv.org/abs/2305.03406v2 )

ライセンス: Link先を確認
Pascal Scholl, Adam L. Shaw, Richard Bing-Shiun Tsai, Ran Finkelstein, Joonhee Choi, Manuel Endres(参考訳) エラーの最小化と理解は、ノイズの多い中間スケール量子(NISQ)デバイスとフォールトトレラント量子計算への探求の両方において、量子科学にとって重要である。 Rydberg配列はこの文脈で顕著なプラットフォームとして現れ、システムサイズと提案は、エラー訂正しきい値が、単一原子分解能によるリークエラーを検出することで、どのように大幅に改善できるかを示唆している。 しかし、ライドバーグ原子配列の2量子絡み合いは競合に遅れており、このタイプの消去変換は一般に物質ベースの量子ビットでは実現されていない。 ここでは、rydberg量子シミュレータを用いて、消去変換と高忠実度ベル状態生成の両方を実証する。 我々は,準安定状態にある原子を不安定に残し,最終量子ビット読み出しに依存しない付加情報を得るアルカリ-地球原子の高速イメージングによる消去変換を実現する。 観測された消去誤差のあるデータを抽出すると、${\geq} 0.9971^{+10}_{-13}$のベル状態生成忠実性が低くなり、残りの状態準備誤差の補正時に${\geq}0.9985^{+7}_{-12}$に改善される。 さらに, 量子相転移における長距離秩序の準断熱的準備のための量子シミュレーション実験において, 消去変換とライドバーグ崩壊の誤差を明確に区別する。 我々は,これらの誤りがシミュレーション結果に与える影響を,消去と最終読み出しの相関や消去そのものを評価することによって明らかにする。 我々の研究は、Rydbergベースのエンタングルメントが${\sim} 0.999$レジームの忠実度に達する能力を示し、高い忠実度は技術的改善の問題であり、NISQデバイスでどのように消去変換を利用できるかを示している。

Minimizing and understanding errors is critical for quantum science, both in noisy intermediate scale quantum (NISQ) devices and for the quest towards fault-tolerant quantum computation. Rydberg arrays have emerged as a prominent platform in this context with impressive system sizes and proposals suggesting how error-correction thresholds could be significantly improved by detecting leakage errors with single-atom resolution, a form of erasure error conversion. However, two-qubit entanglement fidelities in Rydberg atom arrays have lagged behind competitors and this type of erasure conversion is yet to be realized for matter-based qubits in general. Here we demonstrate both erasure conversion and high-fidelity Bell state generation using a Rydberg quantum simulator. We implement erasure conversion via fast imaging of alkaline-earth atoms, which leaves atoms in a metastable state unperturbed and yields additional information independent of the final qubit readout. When excising data with observed erasure errors, we achieve a lower-bound for the Bell state generation fidelity of ${\geq} 0.9971^{+10}_{-13}$, which improves to ${\geq}0.9985^{+7}_{-12}$ when correcting for remaining state preparation errors. We further demonstrate erasure conversion in a quantum simulation experiment for quasi-adiabatic preparation of long-range order across a quantum phase transition, where we explicitly differentiate erasure conversion of preparation and Rydberg decay errors. We unveil the otherwise hidden impact of these errors on the simulation outcome by evaluating correlations between erasures and the final readout as well as between erasures themselves. Our work demonstrates the capability for Rydberg-based entanglement to reach fidelities in the ${\sim} 0.999$ regime, with higher fidelities a question of technical improvements, and shows how erasure conversion can be utilized in NISQ devices.
翻訳日:2023-10-16 03:52:27 公開日:2023-10-12
# 変分演算子学習:訓練ニューラルネットワークと偏微分方程式を融合した統一パラダイム

Variational operator learning: A unified paradigm marrying training neural operators and solving partial differential equations ( http://arxiv.org/abs/2304.04234v2 )

ライセンス: Link先を確認
Tengfei Xu, Dachuan Liu, Peng Hao, Bo Wang(参考訳) 偏微分方程式(PDE)の高速近似解演算子のための新しいニューラルネットワークとしてのニューラル演算子は、将来の科学計算にかなりの可能性を示してきた。 しかしながら、ニューラルネットワークのトレーニングの主流はまだデータ駆動であり、トレーニングステージのコストに加えて、さまざまなソース(例えば、従来のソルバによるpdesのサンプルの解決、実世界の実験など)からの高価な地上データセットが必要である。 計算の観点からは、PDEを解決するために演算子学習と特定のドメイン知識を組み合わせることは、データセットコストとラベルなし学習を減らすための重要なステップである。 本稿では,変分演算子学習(VOL)と呼ばれる,ニューラル演算子を訓練し,PDEを変分形式で解くための統一的な枠組みを提供する新しいパラダイムを提案する。 有限要素離散化によるリッツとガレルキンのアプローチをVOLに対して開発し,VOLの2つの最適化手法として,系関数と残差の行列自由近似を行い,直接最小化と反復更新を提案する。 可変熱源, ダーシー流, 可変剛性弾性に関する妥当なベンチマークに基づく各種実験を行い, VOLの有効性を実証した。 ラベルなしのトレーニングセットと5ラベルのみのシフトセットで、VOLは未ラベルデータの量に関して、そのテストエラーが電力法則で減少して解演算子を学習する。 著者の知識を最大限に活用するために、弱形式の視点と疎線形系をエンドツーエンドの演算子学習タスクに解く効率的な反復法を統合する最初の研究である。

Neural operators as novel neural architectures for fast approximating solution operators of partial differential equations (PDEs), have shown considerable promise for future scientific computing. However, the mainstream of training neural operators is still data-driven, which needs an expensive ground-truth dataset from various sources (e.g., solving PDEs' samples with the conventional solvers, real-world experiments) in addition to training stage costs. From a computational perspective, marrying operator learning and specific domain knowledge to solve PDEs is an essential step in reducing dataset costs and label-free learning. We propose a novel paradigm that provides a unified framework of training neural operators and solving PDEs with the variational form, which we refer to as the variational operator learning (VOL). Ritz and Galerkin approach with finite element discretization are developed for VOL to achieve matrix-free approximation of system functional and residual, then direct minimization and iterative update are proposed as two optimization strategies for VOL. Various types of experiments based on reasonable benchmarks about variable heat source, Darcy flow, and variable stiffness elasticity are conducted to demonstrate the effectiveness of VOL. With a label-free training set and a 5-label-only shift set, VOL learns solution operators with its test errors decreasing in a power law with respect to the amount of unlabeled data. To the best of the authors' knowledge, this is the first study that integrates the perspectives of the weak form and efficient iterative methods for solving sparse linear systems into the end-to-end operator learning task.
翻訳日:2023-10-16 03:50:29 公開日:2023-10-12
# マニピュレーションのための木枝運動のシミュレーション学習

Learning to Simulate Tree-Branch Dynamics for Manipulation ( http://arxiv.org/abs/2306.03410v2 )

ライセンス: Link先を確認
Jayadeep Jacob, Tirthankar Bandyopadhyay, Jason Williams, Paulo Borges and Fabio Ramos(参考訳) 本稿では,操作中の木の枝のダイナミクスをモデル化するシミュレーション駆動逆推論手法を提案する。 枝のダイナミックスを学び、変形可能な植生を操作する能力を得ることは、密集した葉の果実の摘み取りや、密集した植生の航行のために過剰なブドウや枝を移動させるなど、閉塞し易いタスクに役立つ。 基礎となる変形可能なツリー幾何学は、並列で微分不可能なシミュレータ上で実行される粗いスプリング抽象としてカプセル化されている。 シミュレータによって定義された暗黙の統計モデル、基底真理を積極的に探究した参照軌道、ベイズ形式は、スプリングパラメータの後方密度推定を導く。 スタイン変分勾配降下に基づく非パラメトリック推定アルゴリズムは、生物学的に動機づけられた仮定をニューラルネットワーク駆動学習者関節前駆として推論プロセスに組み込むとともに、勾配近似のための有限差分スキームを利用する。 実およびシミュレーション実験により, 本モデルが変形軌跡を予測し, 推定の不確かさを定量化し, 他の推論アルゴリズム, 特にモンテカルロ系に対してベースライン化した場合, 性能が向上することを確認した。 このモデルは、ヘテロセダスティックなセンサノイズの存在下で強い強靭性を示し、さらに、把握できない場所に一般化することができる。

We propose to use a simulation driven inverse inference approach to model the dynamics of tree branches under manipulation. Learning branch dynamics and gaining the ability to manipulate deformable vegetation can help with occlusion-prone tasks, such as fruit picking in dense foliage, as well as moving overhanging vines and branches for navigation in dense vegetation. The underlying deformable tree geometry is encapsulated as coarse spring abstractions executed on parallel, non-differentiable simulators. The implicit statistical model defined by the simulator, reference trajectories obtained by actively probing the ground truth, and the Bayesian formalism, together guide the spring parameter posterior density estimation. Our non-parametric inference algorithm, based on Stein Variational Gradient Descent, incorporates biologically motivated assumptions into the inference process as neural network driven learnt joint priors; moreover, it leverages the finite difference scheme for gradient approximations. Real and simulated experiments confirm that our model can predict deformation trajectories, quantify the estimation uncertainty, and it can perform better when base-lined against other inference algorithms, particularly from the Monte Carlo family. The model displays strong robustness properties in the presence of heteroscedastic sensor noise; furthermore, it can generalise to unseen grasp locations.
翻訳日:2023-10-16 03:44:08 公開日:2023-10-12
# 変圧器におけるマルチヘッド注意の記憶能力

Memorization Capacity of Multi-Head Attention in Transformers ( http://arxiv.org/abs/2306.02010v2 )

ライセンス: Link先を確認
Sadegh Mahdavi, Renjie Liao, Christos Thrampoulidis(参考訳) トランスフォーマーは言語および視覚タスクのゴートアーキテクチャとなっているが、その理論的特性、特に記憶能力は解明されていない。 本稿では,複数頭部注意機構の記憶能力について検討し,頭部数と配列長の関数として記憶できる例列の数について検討した。 視覚変換器の実験結果により,入力データの線形独立性に関する新たな仮定が導入された。 これらの仮定の下では、$H$ヘッド、次元$d$、コンテキストサイズ$n < d$で、$\Theta(Hd^2)$パラメータを特徴とする注意層が$\Omega(Hn)$例を記憶できることが示される。 本解析では, ソフトマックス演算子の飽和特性により, 異なる注意ヘッドが様々な例列をどのように扱うかを明らかにする。 結果は合成データを用いた実験により検証した。

Transformers have become the go-to architecture for language and vision tasks, yet their theoretical properties, especially memorization capacity, remain elusive. This paper investigates the memorization abilities of multi-head attention mechanisms, examining how many example sequences they can memorize, as a function of the number of heads and sequence length. Motivated by experimental findings on vision transformers, we introduce novel assumptions about the linear independence of input data, distinct from the commonly used general-position assumption. Under these assumptions, we demonstrate that an attention layer with $H$ heads, dimension $d$, and context size $n < d$, featuring $\Theta(Hd^2)$ parameters, can memorize $\Omega(Hn)$ examples. Our analysis sheds light on how different attention heads handle various example sequences, aided by the softmax operator's saturation property. We validate our findings through experiments on synthetic data.
翻訳日:2023-10-16 03:43:13 公開日:2023-10-12
# UnDiff:無条件拡散モデルによる教師なし音声復元

UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model ( http://arxiv.org/abs/2306.00721v2 )

ライセンス: Link先を確認
Anastasiia Iashchenko, Pavel Andreev, Ivan Shchekotov, Nicholas Babaev, Dmitry Vetrov(参考訳) 本稿では,様々な音声逆タスクを解くことができる拡散確率モデルUnDiffを紹介する。 かつては無条件に音声波形生成を訓練していたため、劣化インバージョン、ニューラルボコーディング、ソース分離といった様々なタスクに適応することができる。 本稿では,まず,異なるニューラルアーキテクチャとプレコンディショニング領域を比較し,非条件波形生成の課題に対処する。 その後、近年の拡散モデルの訓練後条件付けにより、訓練済みの非条件拡散が音声処理の異なるタスクにどのように適応できるかを実証する。 最後に,帯域幅拡張,デクリッピング,vocoding,音声ソース分離などのタスクにおける提案手法の性能を示し,ベースラインと比較する。 コードは公開されている。

This paper introduces UnDiff, a diffusion probabilistic model capable of solving various speech inverse tasks. Being once trained for speech waveform generation in an unconditional manner, it can be adapted to different tasks including degradation inversion, neural vocoding, and source separation. In this paper, we, first, tackle the challenging problem of unconditional waveform generation by comparing different neural architectures and preconditioning domains. After that, we demonstrate how the trained unconditional diffusion could be adapted to different tasks of speech processing by the means of recent developments in post-training conditioning of diffusion models. Finally, we demonstrate the performance of the proposed technique on the tasks of bandwidth extension, declipping, vocoding, and speech source separation and compare it to the baselines. The codes are publicly available.
翻訳日:2023-10-16 03:42:21 公開日:2023-10-12
# 差動的決定木とデータ中毒に対する証明可能なロバスト性

Differentially-Private Decision Trees and Provable Robustness to Data Poisoning ( http://arxiv.org/abs/2305.15394v2 )

ライセンス: Link先を確認
Dani\"el Vos, Jelle Vos, Tianyu Li, Zekeriya Erkin, Sicco Verwer(参考訳) 決定木は非線形学習問題に適した解釈可能なモデルである。 トレーニングデータ内のサンプルのプライバシを保証するシステムである差分プライバシーによって、決定木学習アルゴリズムを拡張する作業が数多く行われている。 しかし、この目的のための現在の最先端のアルゴリズムは、小さなプライバシー上の利益のために多くのユーティリティを犠牲にしている。 これらのソリューションはランダムな決定ノードを生成し、決定木の精度を低下させるか、ラベルの葉に過大なプライバシー予算を費やす。 さらに、多くの作品は継続的機能をサポートしていない。 少額のプライバシー予算を消費しながら、良好な分割を選択するプライベートヒストグラムに基づくprivatreeと呼ばれる新しい手法を提案する。 結果として得られるツリーは、プライバシーとユーティリティのトレードオフを著しく改善し、数値的特徴に関する情報を漏らすことなく、混合数値とカテゴリ的データを受け入れる。 最後に、データ中毒攻撃に対して堅牢性を保証することは難しいが、異なる個人学習者に対するバックドア攻撃の予測精度と成功率の限界を示す。 PrivaTreeのプライバシーとユーティリティのトレードオフを改善することで、通常の決定木に比べてバックドア攻撃に対する堅牢性が大きく向上し、有意義な理論的保証で決定木をトレーニングすることができます。

Decision trees are interpretable models that are well-suited to non-linear learning problems. Much work has been done on extending decision tree learning algorithms with differential privacy, a system that guarantees the privacy of samples within the training data. However, current state-of-the-art algorithms for this purpose sacrifice much utility for a small privacy benefit. These solutions create random decision nodes that reduce decision tree accuracy or spend an excessive share of the privacy budget on labeling leaves. Moreover, many works do not support continuous features or leak information about them. We propose a new method called PrivaTree based on private histograms that chooses good splits while consuming a small privacy budget. The resulting trees provide a significantly better privacy-utility trade-off and accept mixed numerical and categorical data without leaking information about numerical features. Finally, while it is notoriously hard to give robustness guarantees against data poisoning attacks, we demonstrate bounds for the expected accuracy and success rates of backdoor attacks against differentially-private learners. By leveraging the better privacy-utility trade-off of PrivaTree we are able to train decision trees with significantly better robustness against backdoor attacks compared to regular decision trees and with meaningful theoretical guarantees.
翻訳日:2023-10-16 03:41:24 公開日:2023-10-12
# chexmask: 胸部x線画像のための解剖学的セグメンテーションマスクの大規模データセット

CheXmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images ( http://arxiv.org/abs/2307.03293v2 )

ライセンス: Link先を確認
Nicol\'as Gaggion, Candelaria Mosquera, Lucas Mansilla, Martina Aineseder, Diego H. Milone, Enzo Ferrante(参考訳) 胸部X線分析のための人工知能モデルの開発は、高品質なアノテーションを持つ大規模で多様なデータセットに依存している。 胸部X線画像のデータベースがいくつか公開されているが、そのほとんどは疾患診断ラベルを含んでいるが、詳細なピクセルレベルの解剖学的分類ラベルがない。 このギャップに対処するため,CANDID-PTX,ChestX-ray8,Chexpert,MIMIC-CXR-JPG,Padchest,VinDr-CXRの6つの公開データベースから得られる画像に対して,均一かつ微細な解剖学的アノテーションを付加した胸部X線多中心セグメンテーションデータセットを導入する。 提案手法はHybridGNetモデルを用いて,全データセットの一貫性と高品質なセグメンテーションを保証する。 専門医の評価と自動品質管理を含む厳密な検証を行い、その結果のマスクを検証する。 さらに,マスク毎の個別品質指標とデータセット毎の全体的な品質推定も提供する。 このデータセットは、胸部x線分析における革新的な方法論の開発と評価を合理化し、より広い科学コミュニティにとって貴重な資源となっている。 CheXmaskデータセットは、https://physionet.org/content/chexmask-cxr-segmentation-data/で公開されている。

The development of successful artificial intelligence models for chest X-ray analysis relies on large, diverse datasets with high-quality annotations. While several databases of chest X-ray images have been released, most include disease diagnosis labels but lack detailed pixel-level anatomical segmentation labels. To address this gap, we introduce an extensive chest X-ray multi-center segmentation dataset with uniform and fine-grain anatomical annotations for images coming from six well-known publicly available databases: CANDID-PTX, ChestX-ray8, Chexpert, MIMIC-CXR-JPG, Padchest, and VinDr-CXR, resulting in 676,803 segmentation masks. Our methodology utilizes the HybridGNet model to ensure consistent and high-quality segmentations across all datasets. Rigorous validation, including expert physician evaluation and automatic quality control, was conducted to validate the resulting masks. Additionally, we provide individualized quality indices per mask and an overall quality estimation per dataset. This dataset serves as a valuable resource for the broader scientific community, streamlining the development and assessment of innovative methodologies in chest X-ray analysis. The CheXmask dataset is publicly available at: https://physionet.org/content/chexmask-cxr-segmentation-data/
翻訳日:2023-10-16 03:33:22 公開日:2023-10-12
# 多様体上の自己回帰モデル(mnarx)を用いた複素系のダイナミクスの模倣

Emulating the dynamics of complex systems using autoregressive models on manifolds (mNARX) ( http://arxiv.org/abs/2306.16335v2 )

ライセンス: Link先を確認
Styfen Sch\"ar, Stefano Marelli, Bruno Sudret(参考訳) 本稿では, 時間変化による外因性励起による複雑な力学系の応答を, 効率的に, 正確に近似するための新しい代理モデリング手法を提案する。 本手法は, 外在的入力(mnarx)を用いた多様体非線形自己回帰モデルであり, 自己回帰的サロゲート構築に最適な問題特異的外在的入力多様体を構築することを含む。 mNARX の核となる多様体は、システムの物理と、それ以前の専門知識とドメイン知識を組み込むことで漸進的に構成される。 mNARXは完全な問題を一連の小さなサブプロブレムに分解し、それぞれが元のより低い複雑さを持つので、最終的なサロゲートのトレーニングと評価のコストの両面で、問題の複雑さによく対応している。 さらに、mnarxは従来の次元還元技術とよく調和しており、高次元外因性入力を持つ力学系のモデリングに非常に適している。 ドメイン知識は特に土木工学や機械工学のような物理システムにおいて豊富であるため、mnarxはこれらの応用に適している。 1次元ランダム励起により励起される古典的結合ばね質量系の応答を予測するため,mNARXは従来の自己回帰代理よりも優れていた。 さらに,mNARXは,アクティブコントローラの影響を受けても,現実的なエアロサーボ弾性風力タービンシミュレータの動力学を補助することにより,高次元時間・状態依存系のエミュレートに適していることを示す。 一般に,mNARXは複雑な力学系を,精度と効率の観点からモデル化する上で有望な可能性を示している。

We propose a novel surrogate modelling approach to efficiently and accurately approximate the response of complex dynamical systems driven by time-varying exogenous excitations over extended time periods. Our approach, namely manifold nonlinear autoregressive modelling with exogenous input (mNARX), involves constructing a problem-specific exogenous input manifold that is optimal for constructing autoregressive surrogates. The manifold, which forms the core of mNARX, is constructed incrementally by incorporating the physics of the system, as well as prior expert- and domain- knowledge. Because mNARX decomposes the full problem into a series of smaller sub-problems, each with a lower complexity than the original, it scales well with the complexity of the problem, both in terms of training and evaluation costs of the final surrogate. Furthermore, mNARX synergizes well with traditional dimensionality reduction techniques, making it highly suitable for modelling dynamical systems with high-dimensional exogenous inputs, a class of problems that is typically challenging to solve. Since domain knowledge is particularly abundant in physical systems, such as those found in civil and mechanical engineering, mNARX is well suited for these applications. We demonstrate that mNARX outperforms traditional autoregressive surrogates in predicting the response of a classical coupled spring-mass system excited by a one-dimensional random excitation. Additionally, we show that mNARX is well suited for emulating very high-dimensional time- and state-dependent systems, even when affected by active controllers, by surrogating the dynamics of a realistic aero-servo-elastic onshore wind turbine simulator. In general, our results demonstrate that mNARX offers promising prospects for modelling complex dynamical systems, in terms of accuracy and efficiency.
翻訳日:2023-10-16 03:31:53 公開日:2023-10-12
# 高速・高分解能走査コヒーレント回折再構成のための無教師深層学習の物理学的制約

Physics Constrained Unsupervised Deep Learning for Rapid, High Resolution Scanning Coherent Diffraction Reconstruction ( http://arxiv.org/abs/2306.11014v2 )

ライセンス: Link先を確認
Oliver Hoidn, Aashwin Ananda Mishra, Apurva Mehta(参考訳) 光の解像度制限を回避することで、コヒーレント・ディファレント・イメージング(CDI)とポチコグラフィーはX線イメージングから天文学まで科学分野に進出している。 しかし、反復的な位相回復に要する時間の必要性は、リアルタイムな画像撮影である。 教師付きディープラーニング戦略は再構築速度を高める一方で、画質を犠牲にしている。 さらに, ラベル付きトレーニングデータに対するこれらの手法の需要は, 実験的に重荷となる。 本稿では, 物理インフォームドニューラルネットワーク再構成手法であるPtychoPINNを提案する。これは, 重なり合う測定から実空間制約と回折フォワードマップを組み合わせることで, 再現性を向上させつつ, 深層学習に基づく再構築の100~1000倍の高速化を維持できる。 特に、PtychoPINNは一般化可能性、精度(典型的には10dBPSNR増加)、線形分解能(2倍から6倍増)を著しく向上させる。 この性能と速度のブレンドは、X線自由電子レーザー(XFEL)や回折制限光源のような高出力環境での高分解能リアルタイムイメージングのエキサイティングな展望を提供する。

By circumventing the resolution limitations of optics, coherent diffractive imaging (CDI) and ptychography are making their way into scientific fields ranging from X-ray imaging to astronomy. Yet, the need for time consuming iterative phase recovery hampers real-time imaging. While supervised deep learning strategies have increased reconstruction speed, they sacrifice image quality. Furthermore, these methods' demand for extensive labeled training data is experimentally burdensome. Here, we propose an unsupervised physics-informed neural network reconstruction method, PtychoPINN, that retains the factor of 100-to-1000 speedup of deep learning-based reconstruction while improving reconstruction quality by combining the diffraction forward map with real-space constraints from overlapping measurements. In particular, PtychoPINN significantly advances generalizability, accuracy (with a typical 10 dB PSNR increase), and linear resolution (2- to 6-fold gain). This blend of performance and speed offers exciting prospects for high-resolution real-time imaging in high-throughput environments such as X-ray free electron lasers (XFELs) and diffraction-limited light sources.
翻訳日:2023-10-16 03:30:37 公開日:2023-10-12
# 階層的強化学習に基づく未知ネットワーク上のスプレッド制御法

Spread Control Method on Unknown Networks Based on Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2308.14311v3 )

ライセンス: Link先を確認
Wenxiang Dong, Zhanjiang Chen and H.Vicky Zhao(参考訳) 新型コロナウイルスなどの疫病は公衆衛生や社会に深刻な脅威をもたらし、ネットワーク上での感染拡大を抑制する効果的な方法を検討することが重要である。 疫病対策に関する先行研究は、しばしばネットワーク構造の完全な知識を前提としている。 本稿では,未知構造を持つネットワーク上での流行制御について検討し,ネットワーク構造探索と流行制御のための階層的強化学習フレームワークを提案する。 アクション空間を縮小し,計算の容易性を達成するため,提案するフレームワークには3つのモジュールが含まれている。そのモジュールは,構造を探索するか,流行を制御するためにノードを削除するかを決定するpolicy selection module,探索するノードを選択するexplore module,感染拡大を止めるためにどのノードを削除するかを決定するremove moduleである。 シミュレーションの結果,提案手法がベースライン法を上回ることがわかった。

Epidemics such as COVID-19 pose serious threats to public health and our society, and it is critical to investigate effective methods to control the spread of epidemics over networks. Prior works on epidemic control often assume complete knowledge of network structures, a presumption seldom valid in real-world situations. In this paper, we study epidemic control on networks with unknown structures, and propose a hierarchical reinforcement learning framework for joint network structure exploration and epidemic control. To reduce the action space and achieve computation tractability, our proposed framework contains three modules: the Policy Selection Module, which determines whether to explore the structure or remove nodes to control the epidemic; the Explore Module, responsible for selecting nodes to explore; and the Remove Module, which decides which nodes to remove to stop the epidemic spread. Simulation results show that our proposed method outperforms baseline methods.
翻訳日:2023-10-16 03:24:02 公開日:2023-10-12
# 物体認識のための繰り返しニューラルネットワークにおける表現ダイナミクスのキャラクタリゼーション

Characterising representation dynamics in recurrent neural networks for object recognition ( http://arxiv.org/abs/2308.12435v2 )

ライセンス: Link先を確認
Sushrut Thorat, Adrien Doerig, Tim C. Kietzmann(参考訳) リカレントニューラルネットワーク(recurrent neural network, rnn)は、課題条件における物体認識と霊長類視覚のモデリングの両方に有望な結果をもたらす。 しかし、リカレント計算の表現力学は、特に大規模視覚モデルではよく理解されていない。 本研究では,ecoset の新たなサブセットである miniecoset 上のオブジェクト分類を訓練した rnn において,そのようなダイナミクスについて検討した。 主な洞察は2つある。 まず、推論によって、正しい分類の後に表現が進化し続け、``done with classification'''という概念の欠如が示唆された。 次に,アクティベーショントラジェクタを特徴付ける方法として,'readout zone'に着目し,l2ノルムの低いアクティベーションパターンを誤分類した表現が,より周辺的に読み出しゾーンに位置することを観察した。 このようなアレンジメントは、誤った分類された表現が時間の経過とともに正しいゾーンに移動するのに役立つ。 本研究は, 水平およびトップダウン接続を有するネットワークに一般化し, ボトムアップスイープとの付加的および乗算的相互作用を含む。 この結果は自然主義的タスクにおけるRNN力学の一般的な理解に寄与する。 この分析フレームワークは、霊長類視覚における表現力学の理解を含む、他の種類のRNNの今後の調査に役立つことを期待している。

Recurrent neural networks (RNNs) have yielded promising results for both recognizing objects in challenging conditions and modeling aspects of primate vision. However, the representational dynamics of recurrent computations remain poorly understood, especially in large-scale visual models. Here, we studied such dynamics in RNNs trained for object classification on MiniEcoset, a novel subset of ecoset. We report two main insights. First, upon inference, representations continued to evolve after correct classification, suggesting a lack of the notion of being ``done with classification''. Second, focusing on ``readout zones'' as a way to characterize the activation trajectories, we observe that misclassified representations exhibit activation patterns with lower L2 norm, and are positioned more peripherally in the readout zones. Such arrangements help the misclassified representations move into the correct zones as time progresses. Our findings generalize to networks with lateral and top-down connections, and include both additive and multiplicative interactions with the bottom-up sweep. The results therefore contribute to a general understanding of RNN dynamics in naturalistic tasks. We hope that the analysis framework will aid future investigations of other types of RNNs, including understanding of representational dynamics in primate vision.
翻訳日:2023-10-16 03:23:46 公開日:2023-10-12
# LLM4TS:LLMによる時系列予測のための2段階ファインチューニング

LLM4TS: Two-Stage Fine-Tuning for Time-Series Forecasting with Pre-Trained LLMs ( http://arxiv.org/abs/2308.08469v3 )

ライセンス: Link先を確認
Ching Chang, Wen-Chih Peng, Tien-Fu Chen(参考訳) 本研究では,事前学習されたLarge Language Models(LLM)を利用して時系列予測を強化する。 自然言語処理とコンピュータビジョンの統一モデルへの関心の高まりを反映し,長期時系列予測のための類似モデルの作成を想定する。 強靭な基礎モデルを構築するための大規模時系列データが少ないため,本手法では,事前学習したLLMの強みを活用することに重点を置いている。 時系列パッチングとテンポラリエンコーディングを組み合わせることで,時系列データを効果的に処理できるllmの能力を高めた。 まずは、llmを時系列データに向き付けるための教師付き微調整を行い、次にタスク固有の下流の微調整を行います。 さらに,パラメータ調整を行なわずに事前学習したLLMの柔軟性を解放するために,パラメータ効率の良い細調整(PEFT)技術を採用した。 これらの革新に基づき、LLM4TSは長期的な予測において最先端の結果を得た。 我々のモデルは、事前学習されたLLMから受け継がれた知識のおかげで、頑健な表現学習者および効果的な数ショット学習者としての優れた能力も示している。

In this work, we leverage pre-trained Large Language Models (LLMs) to enhance time-series forecasting. Mirroring the growing interest in unifying models for Natural Language Processing and Computer Vision, we envision creating an analogous model for long-term time-series forecasting. Due to limited large-scale time-series data for building robust foundation models, our approach LLM4TS focuses on leveraging the strengths of pre-trained LLMs. By combining time-series patching with temporal encoding, we have enhanced the capability of LLMs to handle time-series data effectively. Inspired by the supervised fine-tuning in chatbot domains, we prioritize a two-stage fine-tuning process: first conducting supervised fine-tuning to orient the LLM towards time-series data, followed by task-specific downstream fine-tuning. Furthermore, to unlock the flexibility of pre-trained LLMs without extensive parameter adjustments, we adopt several Parameter-Efficient Fine-Tuning (PEFT) techniques. Drawing on these innovations, LLM4TS has yielded state-of-the-art results in long-term forecasting. Our model has also shown exceptional capabilities as both a robust representation learner and an effective few-shot learner, thanks to the knowledge transferred from the pre-trained LLM.
翻訳日:2023-10-16 03:23:23 公開日:2023-10-12
# BarlowRL:データ効率の良い強化学習のためのバローツイン

BarlowRL: Barlow Twins for Data-Efficient Reinforcement Learning ( http://arxiv.org/abs/2308.04263v3 )

ライセンス: Link先を確認
Omer Veysel Cagatan, Baris Akgun(参考訳) 本稿では,Barlow Twins自己教師型学習フレームワークとDER(Data-Efficient Rainbow)アルゴリズムを組み合わせたデータ効率強化学習エージェントBarlowRLを紹介する。 BarlowRLはAtari 100kベンチマークでDERとそれと対照的なCURLの両方を上回っている。 BarlowRLは空間全体に広がる情報を強制することによって次元的崩壊を避ける。 これにより、RLアルゴリズムは、最終的に顕著なパフォーマンスをもたらす一様拡散状態表現を利用することができる。 Barlow TwinsとDERの統合により、データ効率が向上し、RLタスクのパフォーマンスが向上する。 BarlowRLは、RLアルゴリズムを改善するために自己教師付き学習技術を導入する可能性を示している。

This paper introduces BarlowRL, a data-efficient reinforcement learning agent that combines the Barlow Twins self-supervised learning framework with DER (Data-Efficient Rainbow) algorithm. BarlowRL outperforms both DER and its contrastive counterpart CURL on the Atari 100k benchmark. BarlowRL avoids dimensional collapse by enforcing information spread to the whole space. This helps RL algorithms to utilize uniformly spread state representation that eventually results in a remarkable performance. The integration of Barlow Twins with DER enhances data efficiency and achieves superior performance in the RL tasks. BarlowRL demonstrates the potential of incorporating self-supervised learning techniques to improve RL algorithms.
翻訳日:2023-10-16 03:21:48 公開日:2023-10-12
# チェマトリクスの再検討。 II年

Choi matrices revisited. II ( http://arxiv.org/abs/2307.09247v3 )

ライセンス: Link先を確認
Kyung Hoon Han, Seung-Hyeok Kye(参考訳) 本稿では、線型写像のchoi行列のすべての変種を考察し、それらは領域空間上の非退化双線型形式によって決定されることを示す。 これを有限次元ベクトル空間の設定で行う。 行列代数の場合には、シュミット数 $\le k$ と $k$-ポジタリティと $k$-ブロック-ポジタリティの間の通常の対応を保ったchoi行列のすべての変種を特徴づける。 また、ド・ピリスの定義 (Pacific J. Math. 23 (1967), 129--137] とチョイの定義 (Linear Alg. Appl. 10 (1975), 285--290] を比較する。

In this paper, we consider all possible variants of Choi matrices of linear maps, and show that they are determined by non-degenerate bilinear forms on the domain space. We will do this in the setting of finite dimensional vector spaces. In case of matrix algebras, we characterize all variants of Choi matrices which retain the usual correspondences between $k$-superpositivity and Schmidt number $\le k$ as well as $k$-positivity and $k$-block-positivity. We also compare de Pillis' definition [Pacific J. Math. 23 (1967), 129--137] and Choi's definition [Linear Alg. Appl. 10 (1975), 285--290], which arise from different bilinear forms.
翻訳日:2023-10-16 03:21:25 公開日:2023-10-12
# 移動体エージェントの幾何学的特徴に基づく高結合LiDAR-Visual SLAM

Tightly-Coupled LiDAR-Visual SLAM Based on Geometric Features for Mobile Agents ( http://arxiv.org/abs/2307.07763v2 )

ライセンス: Link先を確認
Ke Cao, Ruiping Liu, Ze Wang, Kunyu Peng, Jiaming Zhang, Junwei Zheng, Zhifeng Teng, Kailun Yang, Rainer Stiefelhagen(参考訳) この移動ロボットはSLAM(Simultaneous Localization and Mapping)を利用して、複雑で未知の環境で自律的なナビゲーションとタスク実行を提供する。 しかし,照明条件の悪さや動きのぼかしなど,動的かつ困難な状況のため,移動ロボット専用のアルゴリズムを開発することは困難である。 本稿では2つのサブシステム(LiDARとモノクロ視覚SLAM)と融合フレームワークを含む幾何学的特徴に基づく密結合LiDAR視覚SLAMを提案する。 fusion frameworkはマルチモーダル幾何学的特徴の深さと意味を関連付け、視覚的ラインランドマークを補完し、バンドル調整(ba)における方向最適化を追加する。 これはさらに視覚のオドメトリーを制約する。 一方、視覚サブシステムによって検出された全線分は、幾何学的特徴の局所的な計算のみを行うLiDARサブシステムの制限を克服する。 線形特徴点の方向を調整し、異常値をフィルターアウトすることで、より正確なオドメトリシステムを実現する。 最後に,視覚サブシステム追跡が失敗する間,lidarサブシステムの出力を補完的軌道としてシステムに提供し,サブシステムの動作を検出するモジュールを用いる。 各種屋内・屋外シナリオにまたがる地上ロボットから収集した公共データセットM2DGRの評価結果は,現状のマルチモーダル手法と比較して,より正確でロバストなポーズ推定を実現することを示す。

The mobile robot relies on SLAM (Simultaneous Localization and Mapping) to provide autonomous navigation and task execution in complex and unknown environments. However, it is hard to develop a dedicated algorithm for mobile robots due to dynamic and challenging situations, such as poor lighting conditions and motion blur. To tackle this issue, we propose a tightly-coupled LiDAR-visual SLAM based on geometric features, which includes two sub-systems (LiDAR and monocular visual SLAM) and a fusion framework. The fusion framework associates the depth and semantics of the multi-modal geometric features to complement the visual line landmarks and to add direction optimization in Bundle Adjustment (BA). This further constrains visual odometry. On the other hand, the entire line segment detected by the visual subsystem overcomes the limitation of the LiDAR subsystem, which can only perform the local calculation for geometric features. It adjusts the direction of linear feature points and filters out outliers, leading to a higher accurate odometry system. Finally, we employ a module to detect the subsystem's operation, providing the LiDAR subsystem's output as a complementary trajectory to our system while visual subsystem tracking fails. The evaluation results on the public dataset M2DGR, gathered from ground robots across various indoor and outdoor scenarios, show that our system achieves more accurate and robust pose estimation compared to current state-of-the-art multi-modal methods.
翻訳日:2023-10-16 03:21:11 公開日:2023-10-12
# オンラインcmdpにおけるモデルフリー, 後悔-最適政策識別

Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs ( http://arxiv.org/abs/2309.15395v2 )

ライセンス: Link先を確認
Zihan Zhou, Honghao Wei, Lei Ying(参考訳) 本稿では,制約付きマルコフ決定プロセス(CMDP)におけるBPI問題について考察する。 我々は、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、高い確率で最適なポリシーを特定する。 オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムは、最適ポリシーへの収束保証を提供しておらず、以前に使用したすべてのポリシーからランダムにポリシーがサンプリングされた場合にのみ平均的なパフォーマンス保証を提供する。 本稿では,我々が発見するcmdpsの基本構造的性質に基づいて,pruning-refinement-identification(pri)という新しいアルゴリズムを開発した。 このプロパティは、n$制約のあるcmdpに対して、最大$n$確率的決定を持つ最適なポリシーが存在すると言っている。 提案するアルゴリズムは,まず確率的決定を行うべき段階と状態を特定し,その確率的決定の分布を微調整する。 PRIは3つの目標を達成する。 (i)PRIはモデルフリーのアルゴリズムであり、 (ii)学習の最後に高い確率で、最適に近い政策を出力する。 (iii) 表設定において、pri は$\tilde{\mathcal{o}}(\sqrt{k})$ regret と制約違反を保証し、モデルフリーなアルゴリズムの下での$\tilde{\mathcal{o}}(k^{\frac{4}{5}})$ を著しく改善し、$k$ はエピソードの総数である。

This paper considers the best policy identification (BPI) problem in online Constrained Markov Decision Processes (CMDPs). We are interested in algorithms that are model-free, have low regret, and identify an optimal policy with a high probability. Existing model-free algorithms for online CMDPs with sublinear regret and constraint violation do not provide any convergence guarantee to an optimal policy and provide only average performance guarantees when a policy is uniformly sampled at random from all previously used policies. In this paper, we develop a new algorithm, named Pruning-Refinement-Identification (PRI), based on a fundamental structural property of CMDPs we discover, called limited stochasticity. The property says for a CMDP with $N$ constraints, there exists an optimal policy with at most $N$ stochastic decisions. The proposed algorithm first identifies at which step and in which state a stochastic decision has to be taken and then fine-tunes the distributions of these stochastic decisions. PRI achieves trio objectives: (i) PRI is a model-free algorithm; and (ii) it outputs a near-optimal policy with a high probability at the end of learning; and (iii) in the tabular setting, PRI guarantees $\tilde{\mathcal{O}}(\sqrt{K})$ regret and constraint violation, which significantly improves the best existing regret bound $\tilde{\mathcal{O}}(K^{\frac{4}{5}})$ under a model-free algorithm, where $K$ is the total number of episodes.
翻訳日:2023-10-16 03:13:10 公開日:2023-10-12
# L^1$ 推定:線形推定器の最適性について

$L^1$ Estimation: On the Optimality of Linear Estimators ( http://arxiv.org/abs/2309.09129v2 )

ライセンス: Link先を確認
Leighton P. Barnes, Alex Dytso, Jingbo Liu, H. Vincent Poor(参考訳) ノイズ観測から確率変数 $x$ を推定する問題を考えると、$y = x+ z$ であり、ここでは$z$ は標準正規であり、$l^1$ fidelity criterion である。 この設定における最適ベイズ推定器が条件中央値であることはよく知られている。 この研究は、条件中央値の線型性を誘導する$X$上の唯一の先行分布がガウス分布であることを示している。 他にもいくつかの結果が提示されている。 特に、条件分布 $p_{x|y=y}$ がすべての$y$ に対して対称であれば、$x$ はガウス分布に従わなければならない。 さらに、他の$l^p$損失を検討し、以下の現象を観察する: $p \in [1,2]$, gaussian は線形最適ベイズ推定子を誘導する唯一の事前分布であり、$p \in (2,\infty)$ では、$x$ 上の無限個の事前分布は線形性を誘導することができる。 最後に、ある指数族からの条件分布につながるノイズモデルを含む拡張が提供される。

Consider the problem of estimating a random variable $X$ from noisy observations $Y = X+ Z$, where $Z$ is standard normal, under the $L^1$ fidelity criterion. It is well known that the optimal Bayesian estimator in this setting is the conditional median. This work shows that the only prior distribution on $X$ that induces linearity in the conditional median is Gaussian. Along the way, several other results are presented. In particular, it is demonstrated that if the conditional distribution $P_{X|Y=y}$ is symmetric for all $y$, then $X$ must follow a Gaussian distribution. Additionally, we consider other $L^p$ losses and observe the following phenomenon: for $p \in [1,2]$, Gaussian is the only prior distribution that induces a linear optimal Bayesian estimator, and for $p \in (2,\infty)$, infinitely many prior distributions on $X$ can induce linearity. Finally, extensions are provided to encompass noise models leading to conditional distributions from certain exponential families.
翻訳日:2023-10-16 03:11:32 公開日:2023-10-12
# 音声駆動対話ヘッド生成のための効率的な感情適応

Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation ( http://arxiv.org/abs/2309.04946v2 )

ライセンス: Link先を確認
Yuan Gan, Zongxin Yang, Xihang Yue, Lingyun Sun, Yi Yang(参考訳) 音声駆動対話頭合成は、仮想人間関連アプリケーションにおいて一般的な研究テーマである。 しかし、ガイダンスビデオから話頭予測への感情伝達に高価なエンドツーエンドトレーニングを必要とする既存の手法の柔軟性と非効率性は、重大な制限である。 本研究では,感情に依存しないトーキングヘッドモデルを,パラメータ効率のよい適応により,コスト効率よく感情制御可能なものに変換する音声駆動トーキングヘッド(EAT)手法を提案する。 本手法は,事前学習された感情非依存型音声ヘッドトランスフォーマを使用して,異なる視点から3つの軽量適応(深い感情プロンプト,感情変形ネットワーク,感情適応モジュール)を導入することで,正確かつ現実的な感情制御を実現する。 本研究では, LRW や MEAD など, 広く使用されているベンチマークにおいて, 最新の性能を実現する方法を示す。 さらに,感情訓練ビデオが乏しい場合や,存在しない場合においても,パラメータ効率の適応は顕著な一般化能力を示す。 プロジェクトウェブサイト: https://yuangan.github.io/eat/

Audio-driven talking-head synthesis is a popular research topic for virtual human-related applications. However, the inflexibility and inefficiency of existing methods, which necessitate expensive end-to-end training to transfer emotions from guidance videos to talking-head predictions, are significant limitations. In this work, we propose the Emotional Adaptation for Audio-driven Talking-head (EAT) method, which transforms emotion-agnostic talking-head models into emotion-controllable ones in a cost-effective and efficient manner through parameter-efficient adaptations. Our approach utilizes a pretrained emotion-agnostic talking-head transformer and introduces three lightweight adaptations (the Deep Emotional Prompts, Emotional Deformation Network, and Emotional Adaptation Module) from different perspectives to enable precise and realistic emotion controls. Our experiments demonstrate that our approach achieves state-of-the-art performance on widely-used benchmarks, including LRW and MEAD. Additionally, our parameter-efficient adaptations exhibit remarkable generalization ability, even in scenarios where emotional training videos are scarce or nonexistent. Project website: https://yuangan.github.io/eat/
翻訳日:2023-10-16 03:10:43 公開日:2023-10-12
# 力応答性ロコモーション制御による目視四足歩行

Seeing-Eye Quadruped Navigation with Force Responsive Locomotion Control ( http://arxiv.org/abs/2309.04370v2 )

ライセンス: Link先を確認
David DeFazio, Eisuke Hirota, Shiqi Zhang(参考訳) 目視ロボットは視覚障害者を誘導するのに非常に有用なツールであり、真のガイド犬の安価で高価であることから、社会的な影響をもたらす可能性がある。 目に見えるロボットシステムはすでにいくつか実証されているが、実際のガイド犬の設定でしばしば発生する人間からの外部タグは考慮されていない。 本稿では,強化学習(Reinforcement Learning, RL)を介して外力に頑健な移動制御器と,教師あり学習による外力推定器を同時に訓練する。 制御器は安定歩行を保証し、力推定器はロボットが人間の外部力に反応できるようにする。 これらの力は、ロボットが知らないグローバル目標にロボットを誘導するために使用され、ロボットは地元のプランナーを介して近くの障害物の周りで人間を誘導する。 シミュレーションおよびハードウェアにおける実験結果から,制御器は外力に頑健であり,視眼系は外力方向を正確に検出できることがわかった。 目隠しされた人間を持つ現実の四足歩行ロボットに、我々の完全な視線ロボットシステムを実演する。 ビデオはプロジェクトのページで見ることができる。 https://bu-air-lab.github.io/guide_dog/

Seeing-eye robots are very useful tools for guiding visually impaired people, potentially producing a huge societal impact given the low availability and high cost of real guide dogs. Although a few seeing-eye robot systems have already been demonstrated, none considered external tugs from humans, which frequently occur in a real guide dog setting. In this paper, we simultaneously train a locomotion controller that is robust to external tugging forces via Reinforcement Learning (RL), and an external force estimator via supervised learning. The controller ensures stable walking, and the force estimator enables the robot to respond to the external forces from the human. These forces are used to guide the robot to the global goal, which is unknown to the robot, while the robot guides the human around nearby obstacles via a local planner. Experimental results in simulation and on hardware show that our controller is robust to external forces, and our seeing-eye system can accurately detect force direction. We demonstrate our full seeing-eye robot system on a real quadruped robot with a blindfolded human. The video can be seen at our project page: https://bu-air-lab.github.io/guide_dog/
翻訳日:2023-10-16 03:10:21 公開日:2023-10-12
# フラットミニマと対向ロバスト性による活性化空間の理論的説明

A Theoretical Explanation of Activation Sparsity through Flat Minima and Adversarial Robustness ( http://arxiv.org/abs/2309.03004v2 )

ライセンス: Link先を確認
Ze Peng, Lei Qi, Yinghuan Shi, Yang Gao(参考訳) 近年のMLPブロックにおける活性化間隔のLi et al., 2022bは, 計算コストを大幅に削減する機会となっている。 アクティベーションスパーシティの既存の理論的な説明は、トレーニングダイナミクスによるものであるが、多くのステップで標準的に訓練された深層モデルに出現したにもかかわらず、浅いネットワーク、小さなトレーニングステップ、特別なトレーニングに限定されている。 これらのギャップを埋めるために、勾配空間を活性化空間の1つの源とする概念とそれに基づく理論的な説明を提案する。これは、よく学習されたモデルにおけるミニマの平坦さを概ね表すような、隠れた特徴やパラメータに逆らうための必要なステップである。 この理論は標準的に訓練されたLayerNorm-ed MLPや、ウェイトノイズで訓練されたトランスフォーマーや他のアーキテクチャにも適用される。 また, 重み行列の非零特異値の最大値と最小値の比率が小さいことを発見した。 このスペクトル集中の出現について論じる際、確率的勾配雑音を解析するための強力なツールとしてランダム行列理論(RMT)を用いる。 勾配スパーシティーに基づく説明を検証するための検証実験を行った。 本稿では2つのプラグ・アンド・プレイ・モジュールを提案する。 imagenet-1kとc4の実験では、50%のスパース性が改善され、トレーニングと推論の両方でさらなるコスト削減が期待できる。

A recent empirical observation (Li et al., 2022b) of activation sparsity in MLP blocks offers an opportunity to drastically reduce computation costs for free. Although having attributed it to training dynamics, existing theoretical explanations of activation sparsity are restricted to shallow networks, small training steps and special training, despite its emergence in deep models standardly trained for a large number of steps. To fill these gaps, we propose the notion of gradient sparsity as one source of activation sparsity and a theoretical explanation based on it that sees sparsity a necessary step to adversarial robustness w.r.t. hidden features and parameters, which is approximately the flatness of minima for well-learned models. The theory applies to standardly trained LayerNorm-ed MLPs, and further to Transformers or other architectures trained with weight noises. Eliminating other sources of flatness except for sparsity, we discover the phenomenon that the ratio between the largest and smallest non-zero singular values of weight matrices is small. When discussing the emergence of this spectral concentration, we use random matrix theory (RMT) as a powerful tool to analyze stochastic gradient noises. Validational experiments are conducted to verify our gradient-sparsity-based explanation. We propose two plug-and-play modules for both training and finetuning for sparsity. Experiments on ImageNet-1k and C4 demonstrate their 50% sparsity improvements, indicating further potential cost reduction in both training and inference.
翻訳日:2023-10-16 03:10:00 公開日:2023-10-12
# Transformer-Enhanced LSTM Network を用いたGNSS観測の学習によるNLOS検出と不確かさ予測

Learning-based NLOS Detection and Uncertainty Prediction of GNSS Observations with Transformer-Enhanced LSTM Network ( http://arxiv.org/abs/2309.00480v2 )

ライセンス: Link先を確認
Haoming Zhang, Zhanxin Wang, Heike Vallery(参考訳) グローバルナビゲーション衛星システム(GNSS)は、正確で一貫した車両位置決めのための輸送システムにおいて重要な役割を果たす。 しかし、GNSS観測は、都市キャニオンのような挑戦的な環境において、マルチパス効果や非視線受信(NLOS)により歪むことができる。 このような場合、故障したGNSS観測を分類・排除する従来の手法は失敗し、信頼性の低い状態推定と安全でないシステム操作につながる。 本研究では,GASS観測を時空間モデリング問題として解析することにより,NLOS受信を検出し,GASSの擬似乱数誤差を予測するディープラーニング手法を提案する。 先行研究と比較して,long short-term memory (lstm) ネットワークを強化し,モデル性能と一般化を向上させるトランスフォーマチックアテンション機構を構築した。 提案するネットワークのトレーニングと評価のために,香港とアーヘンの都市から得られたラベル付きデータセットを用いた。 また、ライダーマップを用いたGNSS観測のラベル付けのためのデータセット生成プロセスも導入する。 実験では,提案するネットワークをディープラーニングモデルと古典的機械学習モデルと比較する。 さらに、ネットワークコンポーネントのアブレーション研究を行い、NLOS検出とデータアウトオブディストリビューションを状態推定器に統合する。 その結果,本ネットワークは他のモデルと比較して精度とリコール率が向上した。 さらに,提案手法は,NLOS観測の分類・排除により,実世界の車両位置の軌跡分散を回避する。

The global navigation satellite systems (GNSS) play a vital role in transport systems for accurate and consistent vehicle localization. However, GNSS observations can be distorted due to multipath effects and non-line-of-sight (NLOS) receptions in challenging environments such as urban canyons. In such cases, traditional methods to classify and exclude faulty GNSS observations may fail, leading to unreliable state estimation and unsafe system operations. This work proposes a deep-learning-based method to detect NLOS receptions and predict GNSS pseudorange errors by analyzing GNSS observations as a spatio-temporal modeling problem. Compared to previous works, we construct a transformer-like attention mechanism to enhance the long short-term memory (LSTM) networks, improving model performance and generalization. For the training and evaluation of the proposed network, we used labeled datasets from the cities of Hong Kong and Aachen. We also introduce a dataset generation process to label the GNSS observations using lidar maps. In experimental studies, we compare the proposed network with a deep-learning-based model and classical machine-learning models. Furthermore, we conduct ablation studies of our network components and integrate the NLOS detection with data out-of-distribution in a state estimator. As a result, our network presents improved precision and recall ratios compared to other models. Additionally, we show that the proposed method avoids trajectory divergence in real-world vehicle localization by classifying and excluding NLOS observations.
翻訳日:2023-10-16 03:09:34 公開日:2023-10-12
# AirIMU:慣性オドメトリーにおける不確実性伝播の学習

AirIMU: Learning Uncertainty Propagation for Inertial Odometry ( http://arxiv.org/abs/2310.04874v3 )

ライセンス: Link先を確認
Yuheng Qiu, Chen Wang, Xunfei Zhou, Youjie Xia, Sebastian Scherer(参考訳) 慣性オドメトリーの正確な不確実性評価は、視覚・LiDAR慣性オドメトリーのようなマルチセンサーシステムにおいて最適な融合を実現する基盤となる。 先行研究はしばしば慣性測定の不確実性に関する仮定を単純化し、固定共分散パラメータと経験的imuセンサモデルを仮定する。 しかし,センサの物理的制約や非線形特性は捕捉が困難である。 さらに、不確かさはセンサーの速度と動きのモダリティに基づいて変動し、様々なimusに変化する。 これらの課題に対処するために, imus固有の非線形性をカプセル化するだけでなく, データ駆動方式で共分散の正確な伝播を保証する学習ベースの手法を考案する。 我々は,PyPoseライブラリを拡張して,多様体上の共分散伝搬と異なるバッチIMU統合を可能にする。 本手法の適応性を示すために,いくつかのベンチマークおよび262kmを超える大規模ヘリコプターデータセットを用いて評価を行った。 これらのデータセット上の慣性オドメトリのドリフトレートは、2.2倍から4倍に減少する。 本手法は慣性オードメトリーの先進的発展の基礎となる。

Accurate uncertainty estimation for inertial odometry is the foundation to achieve optimal fusion in multi-sensor systems, such as visual or LiDAR inertial odometry. Prior studies often simplify the assumptions regarding the uncertainty of inertial measurements, presuming fixed covariance parameters and empirical IMU sensor models. However, the inherent physical limitations and non-linear characteristics of sensors are difficult to capture. Moreover, uncertainty may fluctuate based on sensor rates and motion modalities, leading to variations across different IMUs. To address these challenges, we formulate a learning-based method that not only encapsulate the non-linearities inherent to IMUs but also ensure the accurate propagation of covariance in a data-driven manner. We extend the PyPose library to enable differentiable batched IMU integration with covariance propagation on manifolds, leading to significant runtime speedup. To demonstrate our method's adaptability, we evaluate it on several benchmarks as well as a large-scale helicopter dataset spanning over 262 kilometers. The drift rate of the inertial odometry on these datasets is reduced by a factor of between 2.2 and 4 times. Our method lays the groundwork for advanced developments in inertial odometry.
翻訳日:2023-10-16 03:03:38 公開日:2023-10-12
# Android Phoneとタブレット間のペアワイズGUIデータセット構築

Pairwise GUI Dataset Construction Between Android Phones and Tablets ( http://arxiv.org/abs/2310.04755v2 )

ライセンス: Link先を確認
Han Hu, Haolan Zhan, Yujin Huang, Di Liu(参考訳) 現在の普及型スマートフォンやタブレットでは、アプリは両プラットフォームにまたがって頻繁に存在する。 アプリは、ほとんどのグラフィックユーザーインターフェース(GUI)と、携帯電話やタブレットで機能を共有しているが、開発者はタブレットバージョンのためにスクラッチから再構築し、コストを増大させ、既存のデザインリソースを浪費することが多い。 研究者はデータを収集し、開発者の生産性を高めるために、自動gui開発にディープラーニングを採用しようとしている。 現在、携帯電話向けに公開されているGUIページデータセットはいくつかあるが、携帯電話とタブレット間のGUIのペアは存在しない。 これは、GUI自動開発におけるディープラーニングの活用に大きな障壁となる。 本稿では,Android端末とタブレット向けに開発されたペアワイズGUIデータセットであるPaptデータセットを紹介し,5,593個のユニークなアプリペアをソースとする10,035個の電話テーブルGUIページペアを包含する。 本稿では、このデータセットを構築するための新しいペアワイズGUIコレクション手法を提案し、その利点をこの分野で現在普及しているデータセットよりも明確にする。 本データセットの予備実験を通じて,GUI自動開発におけるディープラーニング活用の課題を分析した。

In the current landscape of pervasive smartphones and tablets, apps frequently exist across both platforms. Although apps share most graphic user interfaces (GUIs) and functionalities across phones and tablets, developers often rebuild from scratch for tablet versions, escalating costs and squandering existing design resources. Researchers are attempting to collect data and employ deep learning in automated GUIs development to enhance developers' productivity. There are currently several publicly accessible GUI page datasets for phones, but none for pairwise GUIs between phones and tablets. This poses a significant barrier to the employment of deep learning in automated GUI development. In this paper, we introduce the Papt dataset, a pioneering pairwise GUI dataset tailored for Android phones and tablets, encompassing 10,035 phone-tablet GUI page pairs sourced from 5,593 unique app pairs. We propose novel pairwise GUI collection approaches for constructing this dataset and delineate its advantages over currently prevailing datasets in the field. Through preliminary experiments on this dataset, we analyze the present challenges of utilizing deep learning in automated GUI development.
翻訳日:2023-10-16 03:03:18 公開日:2023-10-12
# 大規模言語モデルのためのMetaToolベンチマーク:ツールの使用と使用方法の決定

MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use ( http://arxiv.org/abs/2310.03128v2 )

ライセンス: Link先を確認
Yue Huang and Jiawen Shi and Yuan Li and Chenrui Fan and Siyuan Wu and Qihui Zhang and Yixin Liu and Pan Zhou and Yao Wan and Neil Zhenqiang Gong and Lichao Sun(参考訳) 大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。 近年,多くの研究がllmのツール活用能力に着目している。 彼らは主に、LLMが特定のツールと効果的に連携する方法を調査した。 しかしながら、AutoGPTやMetaGPTのようなアプリケーションで見られるような、LLMがインテリジェントなエージェントとして機能するシナリオでは、LDMは、ツールを採用するかどうかを決定し、ユーザ要求を満たすために利用可能なツールの集合から最も適切なツールを選択する、複雑な意思決定プロセスに関与することが期待されている。 そこで本稿では,LLM がツール使用意識を持ち,ツールを正しく選択できるかどうかを評価するベンチマークである MetaTool を紹介する。 具体的には、ベンチマーク内でToolEと呼ばれるデータセットを作成します。 このデータセットには、シングルツールとマルチツールの両方のシナリオを含む、LDMがツールを使用するきっかけとなるプロンプトという形で、さまざまなタイプのユーザクエリが含まれている。 その後、ツール使用意識とツール選択の両方にタスクを設定しました。 ツール選択に関して,ツール選択,特定のシナリオにおけるツール選択,信頼性問題のあるツール選択,マルチツール選択など,さまざまな観点から4つのサブタスクを定義した。 我々は、9つの人気のあるLSMを巻き込んだ実験を行い、その大多数は依然としてツールを効果的に選択するのに苦労しており、LSMと真の知的エージェントの既存のギャップを強調しています。 しかし, 誤差解析の結果, 改善の余地は依然として大きいことがわかった。 最後に、chatgptをフォローするツール開発者がllmのツール選択性能を向上させるための詳細な説明を提供するための洞察をまとめる。

Large language models (LLMs) have garnered significant attention due to their impressive natural language processing (NLP) capabilities. Recently, many studies have focused on the tool utilization ability of LLMs. They primarily investigated how LLMs effectively collaborate with given specific tools. However, in scenarios where LLMs serve as intelligent agents, as seen in applications like AutoGPT and MetaGPT, LLMs are expected to engage in intricate decision-making processes that involve deciding whether to employ a tool and selecting the most suitable tool(s) from a collection of available tools to fulfill user requests. Therefore, in this paper, we introduce MetaTool, a benchmark designed to evaluate whether LLMs have tool usage awareness and can correctly choose tools. Specifically, we create a dataset called ToolE within the benchmark. This dataset contains various types of user queries in the form of prompts that trigger LLMs to use tools, including both single-tool and multi-tool scenarios. Subsequently, we set the tasks for both tool usage awareness and tool selection. We define four subtasks from different perspectives in tool selection, including tool selection with similar choices, tool selection in specific scenarios, tool selection with possible reliability issues, and multi-tool selection. We conduct experiments involving nine popular LLMs and find that the majority of them still struggle to effectively select tools, highlighting the existing gaps between LLMs and genuine intelligent agents. However, through the error analysis, we found there is still significant room for improvement. Finally, we conclude with insights for tool developers that follow ChatGPT to provide detailed descriptions that can enhance the tool selection performance of LLMs.
翻訳日:2023-10-16 03:02:38 公開日:2023-10-12
# 応用ホログラフィの診断トモグラフィ

Diagnostic Tomography of Applied Holography ( http://arxiv.org/abs/2310.02991v2 )

ライセンス: Link先を確認
D.V.Khveshchenko(参考訳) d\geq 1$-dimensional fermi gas with a large number $n$ of species and strong short-range $s$-wave scattering in the single-particle behavior in $d\geq 1$-dimensional fermi gas with a $2d$ 'tomographic' framework of a (pseudo)holographic correspondence with a certain $3d$ gravity of the $ads_3$ type. (英語) しかし、そのようなバルク理論の本質的にトポロジカルな性質により、そのダイナミクスは純粋に境界的なものへと還元され、したがって、その$syk/ads_2$ に対応するものと同様に、この形式的対応は、仮説上の一般化されたホログラフィック双対性を表すものではない。

The single-particle behavior in $d\geq 1$-dimensional Fermi gases with a large number $N$ of species and strong short-range $s$-wave scattering is discussed in the $2d$ 'tomographic' framework of a (pseudo)holographic correspondence with a certain $3d$ gravity of the $AdS_3$ type. However, due to the intrinsically topological nature of such a bulk theory its dynamics reduces to a purely boundary one and so, akin to its $SYK/AdS_2$ counterpart, this formal correspondence neither represents a genuine case of, nor endorses the hypothetical generalized holographic duality.
翻訳日:2023-10-16 03:02:10 公開日:2023-10-12
# 階層的評価フレームワーク:人間評価のためのベストプラクティス

Hierarchical Evaluation Framework: Best Practices for Human Evaluation ( http://arxiv.org/abs/2310.01917v2 )

ライセンス: Link先を確認
Iva Bojic, Jessica Chen, Si Yuan Chang, Qi Chwen Ong, Shafiq Joty, Josip Car(参考訳) 自然言語処理(NLP)において,人間の評価は,開発システムの品質と妥当性を評価する上で重要な役割を担っている。 しかし,NLPハマーにおいて広く受け入れられている評価基準が存在しないことは,異なるシステム間での公正な比較と普遍的評価基準の確立である。 既存の評価指標に関する文献を広範囲に分析し,nlp評価手法のギャップを明らかにした。 これらのギャップは、独自の階層的評価フレームワークを開発する動機となったのです。 提案したフレームワークは、特にNLPシステムの性能をより包括的に表現する上で、顕著な利点がある。 我々は,人間-AI共生モデルを用いて構築された機械読解システムの評価に,この枠組みを適用した。 その結果、入力と出力の質の関係が強調され、出力のみに注目するのではなく、両方のコンポーネントを評価する必要性が強調された。 今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。

Human evaluation plays a crucial role in Natural Language Processing (NLP) as it assesses the quality and relevance of developed systems, thereby facilitating their enhancement. However, the absence of widely accepted human evaluation metrics in NLP hampers fair comparisons among different systems and the establishment of universal assessment standards. Through an extensive analysis of existing literature on human evaluation metrics, we identified several gaps in NLP evaluation methodologies. These gaps served as motivation for developing our own hierarchical evaluation framework. The proposed framework offers notable advantages, particularly in providing a more comprehensive representation of the NLP system's performance. We applied this framework to evaluate the developed Machine Reading Comprehension system, which was utilized within a human-AI symbiosis model. The results highlighted the associations between the quality of inputs and outputs, underscoring the necessity to evaluate both components rather than solely focusing on outputs. In future work, we will investigate the potential time-saving benefits of our proposed framework for evaluators assessing NLP systems.
翻訳日:2023-10-16 03:01:31 公開日:2023-10-12
# ディリクレとノイマン境界条件を混合したニューラルプレコンディショルドポアソン解法

A Neural-preconditioned Poisson Solver for Mixed Dirichlet and Neumann Boundary Conditions ( http://arxiv.org/abs/2310.00177v3 )

ライセンス: Link先を確認
Kai Weixian Lan, Elias Gueidon, Ayano Kaneda, Julian Panetta, Joseph Teran(参考訳) 混合境界条件を持つポアソン方程式に対するニューラルプレコンディション付き反復解法を提案する。 ポアソン方程式は科学計算においてユビキタスであり、様々な物理現象を制御し、多くの数値アルゴリズムにおいてサブプロブレムとして発生し、楕円型PDEのより広範なクラスのモデル問題として機能する。 最も人気のあるポアソン離散化は、大きなスパース線形系をもたらす。 高解像度、そしてパフォーマンスクリティカルなアプリケーションでは、反復解法はこれらに有利であるが、強力なプリコンディショナーとペアリングする場合に限られる。 我々のソルバのコアは、任意の形状の領域と混合境界条件に対する離散構造化グリッドラプラス作用素の逆を近似するように訓練されたニューラルネットワークである。 この問題の構造は、トレーニングセット外の境界条件においてもプリコンディショナーとして非常に効果的であることを示す新しいネットワークアーキテクチャを動機付けている。 本研究では, 圧縮性流体シミュレーションによる挑戦的なテストケースにおいて, 代数的マルチグリッドや最近のニューラルプレコンディショナーなど, 最先端の解法よりも優れていることを示す。

We introduce a neural-preconditioned iterative solver for Poisson equations with mixed boundary conditions. The Poisson equation is ubiquitous in scientific computing: it governs a wide array of physical phenomena, arises as a subproblem in many numerical algorithms, and serves as a model problem for the broader class of elliptic PDEs. The most popular Poisson discretizations yield large sparse linear systems. At high resolution, and for performance-critical applications, iterative solvers can be advantageous for these -- but only when paired with powerful preconditioners. The core of our solver is a neural network trained to approximate the inverse of a discrete structured-grid Laplace operator for a domain of arbitrary shape and with mixed boundary conditions. The structure of this problem motivates a novel network architecture that we demonstrate is highly effective as a preconditioner even for boundary conditions outside the training set. We show that on challenging test cases arising from an incompressible fluid simulation, our method outperforms state-of-the-art solvers like algebraic multigrid as well as some recent neural preconditioners.
翻訳日:2023-10-16 03:01:14 公開日:2023-10-12
# 協調型分散機械学習システムの開発のための設計ツールボックス

A Design Toolbox for the Development of Collaborative Distributed Machine Learning Systems ( http://arxiv.org/abs/2309.16584v2 )

ライセンス: Link先を確認
David Jin, Niclas Kannengie{\ss}er, Sascha Rank, Ali Sunyaev(参考訳) 機密保持方式で機械学習モデル(ML)の十分なトレーニングのためにデータを活用するため、様々な協調分散ML(CDML)システム設計が開発され、例えば、補助学習、フェデレーション学習、分割学習が実施されている。 CDMLシステムの設計は、高いエージェント自律性、MLモデルの機密性、フォールトトレランスなど、さまざまな特徴を示している。 異なる特性を持つ多様なCDMLシステム設計に直面しているため、ターゲットとした方法でユースケース要求にマッチする特性を持つCDMLシステムを設計することは困難である。 しかし、不適切なCDMLシステム設計により、CDMLシステムは想定された目的を果たさない可能性がある。 我々はCDMLシステムの開発をガイドできるCDML設計ツールボックスを開発した。 CDML設計ツールボックスをベースとして,CDMLシステムの設計を支援する重要な特徴を持つCDMLシステムアーチタイプを提案する。

To leverage data for the sufficient training of machine learning (ML) models from multiple parties in a confidentiality-preserving way, various collaborative distributed ML (CDML) system designs have been developed, for example, to perform assisted learning, federated learning, and split learning. CDML system designs show different traits, including high agent autonomy, ML model confidentiality, and fault tolerance. Facing a wide variety of CDML system designs with different traits, it is difficult for developers to design CDML systems with traits that match use case requirements in a targeted way. However, inappropriate CDML system designs may result in CDML systems failing their envisioned purposes. We developed a CDML design toolbox that can guide the development of CDML systems. Based on the CDML design toolbox, we present CDML system archetypes with distinct key traits that can support the design of CDML systems to meet use case requirements.
翻訳日:2023-10-16 03:00:54 公開日:2023-10-12
# DiLu: 大規模言語モデルによる自律運転のための知識駆動アプローチ

DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models ( http://arxiv.org/abs/2309.16292v2 )

ライセンス: Link先を確認
Licheng Wen, Daocheng Fu, Xin Li, Xinyu Cai, Tao Ma, Pinlong Cai, Min Dou, Botian Shi, Liang He, Yu Qiao(参考訳) 近年の自動運転の進歩は、広く採用されているデータ駆動アプローチに依存しているが、データセットのバイアス、過剰適合、解釈不能といった課題に直面している。 人間の運転の知識駆動性からインスピレーションを得た上で,このような機能を自律運転システムに組み込む方法について考察し,対話型環境とドライバエージェントと,この問題に対処するためのメモリコンポーネントを統合したパラダイムを要約する。 創発的能力を持つ大規模言語モデルを活用して,推論とリフレクションモジュールを組み合わせたdiluフレームワークを提案する。 大規模な実験により、DiLuは経験を蓄積し、強化学習に基づく手法よりも一般化能力において大きな優位性を示す。 さらに、DiLuは現実のデータセットから体験を直接取得することができ、実用的な自動運転システムにデプロイされる可能性を強調している。 私たちの知る限りでは、人間がどのように運転するかという観点から、私たちは初めて、自律運転システムに知識駆動能力を導入しました。

Recent advancements in autonomous driving have relied on data-driven approaches, which are widely adopted but face challenges including dataset bias, overfitting, and uninterpretability. Drawing inspiration from the knowledge-driven nature of human driving, we explore the question of how to instill similar capabilities into autonomous driving systems and summarize a paradigm that integrates an interactive environment, a driver agent, as well as a memory component to address this question. Leveraging large language models with emergent abilities, we propose the DiLu framework, which combines a Reasoning and a Reflection module to enable the system to perform decision-making based on common-sense knowledge and evolve continuously. Extensive experiments prove DiLu's capability to accumulate experience and demonstrate a significant advantage in generalization ability over reinforcement learning-based methods. Moreover, DiLu is able to directly acquire experiences from real-world datasets which highlights its potential to be deployed on practical autonomous driving systems. To the best of our knowledge, we are the first to instill knowledge-driven capability into autonomous driving systems from the perspective of how humans drive.
翻訳日:2023-10-16 03:00:39 公開日:2023-10-12
# 量子推定理論に基づく量子誤差緩和の普遍的コスト境界

Universal cost bound of quantum error mitigation based on quantum estimation theory ( http://arxiv.org/abs/2208.09385v5 )

ライセンス: Link先を確認
Kento Tsubouchi, Takahiro Sagawa, and Nobuyuki Yoshioka(参考訳) 本稿では,様々な量子誤差緩和手法のコストを量子推定理論に基づいて分析する統一的手法を提案する。 量子誤差緩和法の演算を効果的に表す仮想量子回路の量子フィッシャー情報行列を解析することにより、観測可能な観測値の偏りのない推定は、測定コストに基づいて回路深さの低い領域で指数関数的な成長に遭遇する、マルコフノイズの幅広いクラスの下で、汎用的な層状量子回路を導出する。 大域的非分極雑音下では、測定結果を再スケーリングするだけで、境界は漸近的に飽和することができる。 さらに,局所ノイズのあるランダム回路に対して,量子ビット数とともにコストが指数関数的に増加することを証明した。 我々の数値シミュレーションは、ブロック壁構造などの線形接続のみを有する回路であっても、各ノイズチャネルは量子ビット数で指数関数的に増大する大域的非分極チャネルに収束する、という観測を裏付けている。 これは、深さと量子ビット数の両方でコストの指数的な増加を意味するだけでなく、十分に深い量子回路に対する再スケーリング技術を検証する。 本研究は,量子誤差緩和の物理的限界の理解に寄与し,量子誤差緩和手法の性能評価のための新たな基準を提供する。

We present a unified approach to analyzing the cost of various quantum error mitigation methods on the basis of quantum estimation theory. By analyzing the quantum Fisher information matrix of a virtual quantum circuit that effectively represents the operations of quantum error mitigation methods, we derive for a generic layered quantum circuit under a wide class of Markovian noise that, unbiased estimation of an observable encounters an exponential growth with the circuit depth in the lower bound on the measurement cost. Under the global depolarizing noise, we in particular find that the bound can be asymptotically saturated by merely rescaling the measurement results. Moreover, we prove for random circuits with local noise that the cost grows exponentially also with the qubit count. Our numerical simulations support the observation that, even if the circuit has only linear connectivity, such as the brick-wall structure, each noise channel converges to the global depolarizing channel with its strength growing exponentially with the qubit count. This not only implies the exponential growth of cost both with the depth and qubit count, but also validates the rescaling technique for sufficiently deep quantum circuits. Our results contribute to the understanding of the physical limitations of quantum error mitigation and offer a new criterion for evaluating the performance of quantum error mitigation techniques.
翻訳日:2023-10-15 15:37:49 公開日:2023-10-12
# 視覚トランスフォーマー:意味セグメンテーションから高密度予測へ

Vision Transformers: From Semantic Segmentation to Dense Prediction ( http://arxiv.org/abs/2207.09339v3 )

ライセンス: Link先を確認
Li Zhang, Jiachen Lu, Sixiao Zheng, Xinxuan Zhao, Xiatian Zhu, Yanwei Fu, Tao Xiang, Jianfeng Feng, Philip H.S. Torr(参考訳) 画像分類における視覚トランスフォーマー(vits)の出現は,視覚表現学習の方法論をシフトさせた。 特に、ViTは、すべてのイメージパッチにまたがる層ごとの視覚的表現を学習し、レイヤーやその他の代替(例えば、大きなカーネルやアトラスな畳み込み)におけるCNNの受容的フィールドの増加と比較する。 この研究で、我々は初めて高密度視覚予測(セマンティックセグメンテーションなど)のためのViTのグローバルな文脈学習ポテンシャルを探求した。 我々のモチベーションは、全受動的フィールド層でグローバルなコンテキストを階層的に学習することで、高密度な予測タスクにおいて重要な、より強力な長距離依存性情報を取得することができることである。 まず,局所的な畳み込みや解像度の低下を伴わないバニラ ViT をパッチのシーケンスとして符号化することで,セマンティックセグメンテーションのより強力な視覚表現が得られることを示す。 例えば、セグメンテーショントランスフォーマー (setr) と呼ばれる我々のモデルは、ade20k (50.28% miou, 提出当日テストリーダーボードの最初のポジション) とpascal context (55.83% miou) に優れ、都市景観において競争力がある。 一般の高密度視覚予測タスクにコスト効率で対処するために、階層型局所グロバル変換器(HLG)のファミリーを更に定式化し、窓内部の局所的な注意とピラミッド建築における窓全体のグローバルな注意を特徴とする。 広範な実験により,画像分類だけでなく,様々な密集した予測タスク(オブジェクト検出やインスタンスセグメンテーション,セマンティックセグメンテーションなど)において魅力的な性能が得られることを示した。 私たちのコードとモデルはhttps://github.com/fudan-zvg/setrで利用可能です。

The emergence of vision transformers (ViTs) in image classification has shifted the methodologies for visual representation learning. In particular, ViTs learn visual representation at full receptive field per layer across all the image patches, in comparison to the increasing receptive fields of CNNs across layers and other alternatives (e.g., large kernels and atrous convolution). In this work, for the first time we explore the global context learning potentials of ViTs for dense visual prediction (e.g., semantic segmentation). Our motivation is that through learning global context at full receptive field layer by layer, ViTs may capture stronger long-range dependency information, critical for dense prediction tasks. We first demonstrate that encoding an image as a sequence of patches, a vanilla ViT without local convolution and resolution reduction can yield stronger visual representation for semantic segmentation. For example, our model, termed as SEgmentation TRansformer (SETR), excels on ADE20K (50.28% mIoU, the first position in the test leaderboard on the day of submission) and Pascal Context (55.83% mIoU), and performs competitively on Cityscapes. For tackling general dense visual prediction tasks in a cost-effective manner, we further formulate a family of Hierarchical Local-Global (HLG) Transformers, characterized by local attention within windows and global-attention across windows in a pyramidal architecture. Extensive experiments show that our methods achieve appealing performance on a variety of dense prediction tasks (e.g., object detection and instance segmentation and semantic segmentation) as well as image classification. Our code and models are available at https://github.com/fudan-zvg/SETR.
翻訳日:2023-10-15 15:37:15 公開日:2023-10-12
# CT画像再構成における空間ラドン変換の特性と応用について

On Scale Space Radon Transform, Properties and Application in CT Image Reconstruction ( http://arxiv.org/abs/2205.05188v3 )

ライセンス: Link先を確認
Nafaa Nacereddine, Djemel Ziou, Aicha Baya Goumeidane(参考訳) ラドン変換(RT)は直線積分関数から構成されるため、CT(Computed Tomography)システム上でいくつかのモデリング仮定が作成され、FBP(Filted Backprojection)などの画像再構成解析手法がアーチファクトやノイズに敏感である。 一方、近年では、rt が特定の場合であるような、スケール空間ラドン変換(ssrt)と呼ばれる新しい積分変換が導入されている。 優れたスケール空間の振舞いのような興味深い性質のおかげで、SSRTは多くの新しいアプリケーションが知られている。 本稿では,これらの手法の再構成画像の画質向上を目的として,ctシステム要素の物理的寸法に対する仮定が現実をよりよく反映するスケール空間ラドン変換(ssrt)を用いてx線ビームをモデル化することを提案する。 基本特性とssrtの反転を描写した後、fbpアルゴリズムは、周波数領域で表現されたssrtシンノグラムから、fbpで使用されるrtスペクトルをssrtとガウス核に置き換えるssrtシンノグラムから画像を再構成するために使用される。 品質指標としてPSNRとSSIMを用いて,Shepp-Logan頭部のRTとSSRTによる画像再構成と人為的腹部ファントムを比較した。 第一に, ssrt法がrt法を上回っており, 特に投射回数が減少している場合には, 医療用x線ctなどの低線量放射線治療に適していることを示す。 SSRT-FBPとRT-FBPは、ほぼ同じランタイムを持つが、実験により、SSRT-FBPはポアソン・ガウスノイズ破壊CTデータに対してより堅牢であることが示された。

Since the Radon transform (RT) consists in a line integral function, some modeling assumptions are made on Computed Tomography (CT) system, making image reconstruction analytical methods, such as Filtered Backprojection (FBP), sensitive to artifacts and noise. In the other hand, recently, a new integral transform, called Scale Space Radon Transform (SSRT), is introduced where, RT is a particular case. Thanks to its interesting properties, such as good scale space behavior, the SSRT has known number of new applications. In this paper, with the aim to improve the reconstructed image quality for these methods, we propose to model the X-ray beam with the Scale Space Radon Transform (SSRT) where, the assumptions done on the physical dimensions of the CT system elements reflect better the reality. After depicting the basic properties and the inversion of SSRT, the FBP algorithm is used to reconstruct the image from the SSRT sinogram where the RT spectrum used in FBP is replaced by SSRT and the Gaussian kernel, expressed in their frequency domain. PSNR and SSIM, as quality measures, are used to compare RT and SSRT-based image reconstruction on Shepp-Logan head and anthropomorphic abdominal phantoms. The first findings show that the SSRT-based method outperforms the methods based on RT, especially, when the number of projections is reduced, making it more appropriate for applications requiring low-dose radiation, such as medical X-ray CT. While SSRT-FBP and RT-FBP have utmost the same runtime, the experiments show that SSRT-FBP is more robust to Poisson-Gaussian noise corrupting CT data.
翻訳日:2023-10-15 15:36:34 公開日:2023-10-12
# 組合せ最適化と分散量子計算のための分割と克服

Divide and Conquer for Combinatorial Optimization and Distributed Quantum Computation ( http://arxiv.org/abs/2107.07532v3 )

ライセンス: Link先を確認
Teague Tomesh, Zain H. Saleem, Michael A. Perlin, Pranav Gokhale, Martin Suchara, Margaret Martonosi(参考訳) モノリシックな量子コンピュータシステムのサイズをスケールするのは難しい作業です。 デバイス内の量子ビット数が増加するにつれて、多くの要因が収量と性能の低下に寄与する。 この課題に対処するため、ネットワーク化された多くの量子コンピュータからなる分散アーキテクチャが拡張性への有効な経路として提案されている。 このようなシステムには、分散アーキテクチャに適したアルゴリズムとコンパイラが必要です。 本稿では,大規模組合せ最適化問題を分散量子アーキテクチャにマッピングするハイブリッド変分法であるquantum divide and conquer algorithm (qdca)を提案する。 これはグラフ分割と量子回路切断の組み合わせによって達成される。 アプリケーションコンパイラ共設計の例であるqdcaは、変分アンサッツの構造を変更し、量子回路切断によって生じる指数的コンパイルオーバーヘッドを和らげる。 このクロスレイヤー共設計の結果は、利用可能な古典的あるいは量子的な計算資源の量に合わせて調整できる非常に柔軟なアルゴリズムであり、近距離および長期の分散量子アーキテクチャにも適用できる。 我々は、最大独立集合問題のインスタンス上でQDCAをシミュレートし、類似の古典的アルゴリズムよりも優れた性能が得られることを確かめる。 また、超伝導量子コンピュータ上での8量子QDCAアンサッツの評価を行い、回路切断がノイズの影響を緩和することを示す。 我々の研究は、大規模な分散量子コンピューティングの発展とポテンシャルを動機付け、量子ビット数よりも85 %$の問題を解くために、いかに小さな量子コンピュータが協力できるかを実証している。

Scaling the size of monolithic quantum computer systems is a difficult task. As the number of qubits within a device increases, a number of factors contribute to decreases in yield and performance. To meet this challenge, distributed architectures composed of many networked quantum computers have been proposed as a viable path to scalability. Such systems will need algorithms and compilers that are tailored to their distributed architectures. In this work we introduce the Quantum Divide and Conquer Algorithm (QDCA), a hybrid variational approach to mapping large combinatorial optimization problems onto distributed quantum architectures. This is achieved through the combined use of graph partitioning and quantum circuit cutting. The QDCA, an example of application-compiler co-design, alters the structure of the variational ansatz to tame the exponential compilation overhead incurred by quantum circuit cutting. The result of this cross-layer co-design is a highly flexible algorithm which can be tuned to the amount of classical or quantum computational resources that are available, and can be applied to both near- and long-term distributed quantum architectures. We simulate the QDCA on instances of the Maximum Independent Set problem and find that it is able to outperform similar classical algorithms. We also evaluate an 8-qubit QDCA ansatz on a superconducting quantum computer and show that circuit cutting can help to mitigate the effects of noise. Our work demonstrates how many small-scale quantum computers can work together to solve problems $85\%$ larger than their own qubit count, motivating the development and potential of large-scale distributed quantum computing.
翻訳日:2023-10-15 15:35:36 公開日:2023-10-12
# 量子スイッチはユニタリ演算に対する作用によって一意に定義される

The quantum switch is uniquely defined by its action on unitary operations ( http://arxiv.org/abs/2106.00034v3 )

ライセンス: Link先を確認
Qingxiuxiong Dong, Marco T\'ulio Quintino, Akihito Soeda, Mio Murao(参考訳) 量子スイッチ (quantum switch) は、異なるユニタリ演算間のコヒーレントな制御を生成する物理プロセスである。これは、しばしば、一元演算のペアである$(U_1 , U_2)$を制御ユニタリ演算に変換し、それらを異なる順序でコヒーレントに適用する${\vert {0} \rangle\! \langle {0} \vert} \otimes U_1 U_2 + {\vert {1} \rangle\! \langle {1} \vert} \otimes U_2 U_1$ しかしながら、この記述は、非単体操作に対するアクションを直接定義していない。 非ユニタリ操作に対する量子スイッチの作用は、ユニタリ操作に対するその作用の「自然な」拡張として選択される。 一般に、非単項演算に対するプロセスの作用は、単項演算のみに対する作用によって一意に決定されないので、原理的には、非単項演算に対する量子スイッチの非等価拡張の集合が存在する。 本稿では,量子スイッチの動作を非ユニタリ演算に拡張する一意な方法があることを実証する。 言い換えると、一般的な場合とは対照的に、非ユニタリ操作に対する量子スイッチの作用は、ユニタリ操作に対するその作用によって完全に決定される。 また、量子過程の完全な記述がユニタリ操作に対する作用によって一意的に決定される場合の一般的な問題についても論じ、ユニタリ操作に対する作用によって完全に定義される1スロットプロセスの集合を同定する。

The quantum switch is a physical process that creates a coherent control between different unitary operations which is often described as a process which transforms a pair of unitary operations $(U_1 , U_2)$ into a controlled unitary operation that coherently applies them in different orders as ${\vert {0} \rangle\!\langle {0} \vert} \otimes U_1 U_2 + {\vert {1} \rangle\!\langle {1} \vert} \otimes U_2 U_1$. This description, however, does not directly define its action on non-unitary operations. The action of quantum switch on non-unitary operations is then chosen to be a "natural" extension of its action on unitary operation. Since, in general, the action of a process on non-unitary operations is not uniquely determined by its action on only unitary operations, in principle, there could be a set of inequivalent extensions of quantum switch for non-unitary operations. In this paper, we prove that there is a unique way to extend the actions of quantum switch to non-unitary operations. In other words, contrary to the general case, the action of quantum switch on non-unitary operations is completely determined by its action on unitary operations. We also discuss the general problem of when the complete description of a quantum process is uniquely determined by its action on unitary operations and identify a set of single-slot processes which are completely defined by their action on unitary operations.
翻訳日:2023-10-15 15:35:11 公開日:2023-10-12
# 業界ビジョンにおける数発異常検出の限界を押し上げる - graphcore

Pushing the Limits of Fewshot Anomaly Detection in Industry Vision: Graphcore ( http://arxiv.org/abs/2301.12082v3 )

ライセンス: Link先を確認
Guoyang Xie, Jinbao Wang, Jiaqi Liu, Feng Zheng, Yaochu Jin(参考訳) fewshot Anomaly Detection (FSAD) の領域では、効率的な視覚的特徴がメモリバンクM法において重要な役割を担っている。 しかし,これらの手法は視覚特徴と回転する視覚特徴との関係を考慮せず,異常検出性能を大幅に制限している。 この限界を推し進めるために、回転不変の特徴特性が産業ベースのFSADに大きな影響を与えることを明らかにした。 具体的には、FSADにおけるグラフ表現を利用し、新しい視覚等尺不変特徴(VIIF)を異常測定特徴として提供する。 これにより、VIIFは異常判別能力を良好に向上することができ、Mに格納された冗長な特徴の規模をさらに小さくすることができる。 さらに,教師なしFSADトレーニングを高速に実装し,異常検出の性能を向上させることができる新しいモデルGraphCoreを提供する。 提案したスプリットショット異常検出設定の下で,GraphCoreと他のSOTA異常検出モデルを比較するための総合評価結果が得られた。これは,平均AUCが5.8%,4.1%,3.4%,MVTec ADが1.6%,MPDDが25.5%,22.0%,16.9%,14.1%に増加可能であることを示している。

In the area of fewshot anomaly detection (FSAD), efficient visual feature plays an essential role in memory bank M-based methods. However, these methods do not account for the relationship between the visual feature and its rotated visual feature, drastically limiting the anomaly detection performance. To push the limits, we reveal that rotation-invariant feature property has a significant impact in industrial-based FSAD. Specifically, we utilize graph representation in FSAD and provide a novel visual isometric invariant feature (VIIF) as anomaly measurement feature. As a result, VIIF can robustly improve the anomaly discriminating ability and can further reduce the size of redundant features stored in M by a large amount. Besides, we provide a novel model GraphCore via VIIFs that can fast implement unsupervised FSAD training and can improve the performance of anomaly detection. A comprehensive evaluation is provided for comparing GraphCore and other SOTA anomaly detection models under our proposed fewshot anomaly detection setting, which shows GraphCore can increase average AUC by 5.8%, 4.1%, 3.4%, and 1.6% on MVTec AD and by 25.5%, 22.0%, 16.9%, and 14.1% on MPDD for 1, 2, 4, and 8-shot cases, respectively.
翻訳日:2023-10-15 15:28:38 公開日:2023-10-12
# 深部産業画像の異常検出:調査

Deep Industrial Image Anomaly Detection: A Survey ( http://arxiv.org/abs/2301.11514v5 )

ライセンス: Link先を確認
Jiaqi Liu, Guoyang Xie, Jinbao Wang, Shangnian Li, Chengjie Wang, Feng Zheng, Yaochu Jin(参考訳) 近年のディープラーニングの急速な発展は,産業用画像異常検出(IAD)のマイルストーンとなった。 本稿では,ニューラルネットワークアーキテクチャ,監視レベル,損失関数,メトリクス,データセットの観点から,ディープラーニングに基づく画像異常検出手法の包括的なレビューを行う。 また, 工業生産から新たな環境を抽出し, 我々の提案した新たな環境下での現在のIADアプローチを概観する。 さらに,画像異常検出のオープニング課題をいくつか挙げる。 各種監視下の代表的ネットワークアーキテクチャのメリットと欠点について論じる。 最後に,研究成果を要約し,今後の研究方向性を指摘する。 さらなるリソースはhttps://github.com/M-3LAB/awesome-industrial-anomaly-detectionで入手できる。

The recent rapid development of deep learning has laid a milestone in industrial Image Anomaly Detection (IAD). In this paper, we provide a comprehensive review of deep learning-based image anomaly detection techniques, from the perspectives of neural network architectures, levels of supervision, loss functions, metrics and datasets. In addition, we extract the new setting from industrial manufacturing and review the current IAD approaches under our proposed our new setting. Moreover, we highlight several opening challenges for image anomaly detection. The merits and downsides of representative network architectures under varying supervision are discussed. Finally, we summarize the research findings and point out future research directions. More resources are available at https://github.com/M-3LAB/awesome-industrial-anomaly-detection.
翻訳日:2023-10-15 15:28:11 公開日:2023-10-12
# 離散変調連続変数量子鍵分散プロトコルの有限サイズセキュリティ

Finite-Size Security for Discrete-Modulated Continuous-Variable Quantum Key Distribution Protocols ( http://arxiv.org/abs/2301.08686v2 )

ライセンス: Link先を確認
Florian Kanitschar, Ian George, Jie Lin, Twesh Upadhyaya and Norbert L\"utkenhaus(参考訳) 離散変調(dm)連続可変量子鍵分布(cv-qkd)プロトコルは、実験的な単純化のため、量子通信ネットワークの商用実装の候補として有望である。 漸近的限界における厳密なセキュリティ分析は存在するが、有限サイズ体制の証明はまだ活発な研究の対象である。 我々は,dm cv-qkdプロトコルの独立かつ同一分散した集団攻撃に対する,構成可能な有限サイズのセキュリティ証明を提案する。 我々は、bobのシステムの有効次元を制限し、rennerのepsilon-securityフレームワーク内で厳密にセキュリティを証明するための新しいエネルギーテスト定理を導入し、プロトコルの受け入れ集合とそのセキュリティ証明の問題に対処する。 また,本手法では,実践に必要な非特異な受理統計も可能であることも強調したい。 最後に,安全な鍵レートの厳密な下限を計算するために,数値的セキュリティ証明手法を拡張し,適用する。 本手法の実証には, 信頼できない, 理想的, 信頼性の高い非理想的検出器に対して, 二次位相シフト鍵プロトコルを適用する。 その結果,少なくとも72kmの伝送距離を持つ実験条件下では,セキュアな有限サイズ鍵レートが得られることがわかった。

Discrete-Modulated (DM) Continuous-Variable Quantum Key Distribution (CV-QKD) protocols are promising candidates for commercial implementations of quantum communication networks due to their experimental simplicity. While tight security analyses in the asymptotic limit exist, proofs in the finite-size regime are still subject to active research. We present a composable finite-size security proof against independently and identically distributed collective attacks for a general DM CV-QKD protocol. We introduce a new energy testing theorem to bound the effective dimension of Bob's system and rigorously prove security within Renner's epsilon-security framework and address the issue of acceptance sets in protocols and their security proof. We want to highlight, that our method also allows for nonunique acceptance statistics, which is necessary in practise. Finally, we extend and apply a numerical security proof technique to calculate tight lower bounds on the secure key rate. To demonstrate our method, we apply it to a quadrature phase-shift keying protocol, both for untrusted, ideal and trusted nonideal detectors. The results show that our security proof method yields secure finite-size key rates under experimentally viable conditions up to at least 72km transmission distance.
翻訳日:2023-10-15 15:28:01 公開日:2023-10-12
# 大視野モデルを用いたユニバーサル物体検出

Universal Object Detection with Large Vision Model ( http://arxiv.org/abs/2212.09408v3 )

ライセンス: Link先を確認
Feng Lin, Wenze Hu, Yaowei Wang, Yonghong Tian, Guangming Lu, Fanglin Chen, Yong Xu, Xiaoyu Wang(参考訳) ここ数年、広範で普遍的で汎用的なコンピュータビジョンシステムの開発への関心が高まっている。 このようなシステムには、特定の問題やデータドメインに制限されることなく、幅広いビジョンタスクを同時に処理する能力がある。 この普遍性は現実のコンピュータビジョンアプリケーションにとって不可欠である。 本研究では,大規模で多領域の普遍的物体検出問題に焦点をあて,普遍的視覚システムの実現というより広い目標に寄与する。 この問題は、クロスデータセットのカテゴリラベルの重複、ラベルの競合、階層的な分類を扱う必要性など、いくつかの複雑な課題を示している。 これらの課題に対処するため,我々は,ラベル処理,階層認識損失設計,および事前学習された大規模ビジョンモデルを用いたリソース効率の高いモデルトレーニングへのアプローチを紹介する。 提案手法は,ロバスト・ビジョン・チャレンジ2022(RVC 2022)のオブジェクト検出トラックにおいて,100万スケールのクロスデータセット・オブジェクト検出ベンチマークにおいて,上位2位を確保した。 私たちの包括的な研究は貴重な参照となり、コンピュータビジョンコミュニティにおける同様の課題に対処するための別のアプローチを提供すると信じています。 私たちの作業のソースコードはhttps://github.com/linfeng93/Large-UniDet.comで公開されています。

Over the past few years, there has been growing interest in developing a broad, universal, and general-purpose computer vision system. Such systems have the potential to address a wide range of vision tasks simultaneously, without being limited to specific problems or data domains. This universality is crucial for practical, real-world computer vision applications. In this study, our focus is on a specific challenge: the large-scale, multi-domain universal object detection problem, which contributes to the broader goal of achieving a universal vision system. This problem presents several intricate challenges, including cross-dataset category label duplication, label conflicts, and the necessity to handle hierarchical taxonomies. To address these challenges, we introduce our approach to label handling, hierarchy-aware loss design, and resource-efficient model training utilizing a pre-trained large vision model. Our method has demonstrated remarkable performance, securing a prestigious second-place ranking in the object detection track of the Robust Vision Challenge 2022 (RVC 2022) on a million-scale cross-dataset object detection benchmark. We believe that our comprehensive study will serve as a valuable reference and offer an alternative approach for addressing similar challenges within the computer vision community. The source code for our work is openly available at https://github.com/linfeng93/Large-UniDet.
翻訳日:2023-10-15 15:27:42 公開日:2023-10-12
# 教師なし3Dポイントクラウドコンプリートのためのシングルビュー画像の活用

Leveraging Single-View Images for Unsupervised 3D Point Cloud Completion ( http://arxiv.org/abs/2212.00564v2 )

ライセンス: Link先を確認
Lintai Wu, Qijian Zhang, Junhui Hou, and Yong Xu(参考訳) 走査デバイスによって捕獲される点雲はしばしば閉塞のため不完全である。 この制限を克服するために、その部分的な入力に基づいて物体の完全な形状を予測するために点雲補完法が開発された。 これらの手法は、教師なしまたは教師なしと広く分類できる。 しかし、どちらのカテゴリも大量の3d完全点雲を必要とするため、キャプチャは困難である。 本稿では,3次元完全点雲を必要としない非教師付き点雲補完手法であるCross-PCCを提案する。 3d completeやclean point cloudよりもキャプチャが容易な完全オブジェクトの2dイメージのみを利用する。 具体的には,2d画像からの補足情報を活用するために,単視点rgb画像を用いて2d特徴を抽出し,部分点クラウドから抽出した2d特徴と3d特徴を融合する融合モジュールを設計する。 予測された点雲の形状を導くために、予測された物体の点を2次元平面に投影し、シルエットマップの前景画素を用いて投影された点の位置を制約する。 予測された点雲の外れ値を減らすために,背景に投影された点を単一視点シルエット画像によりフォアグラウンドで移動させるビューキャリブレータを提案する。 私たちの知る限りでは、私たちのアプローチは3Dの監督を必要としない最初のポイントクラウド補完手法です。 本手法の実験結果は,最先端の非教師なし手法よりも大きなマージンで優れている。 さらに,本手法は教師付き手法と同等の性能を実現する。 ソースコードはhttps://github.com/ltwu6/cross-pcc.comで公開します。

Point clouds captured by scanning devices are often incomplete due to occlusion. To overcome this limitation, point cloud completion methods have been developed to predict the complete shape of an object based on its partial input. These methods can be broadly classified as supervised or unsupervised. However, both categories require a large number of 3D complete point clouds, which may be difficult to capture. In this paper, we propose Cross-PCC, an unsupervised point cloud completion method without requiring any 3D complete point clouds. We only utilize 2D images of the complete objects, which are easier to capture than 3D complete and clean point clouds. Specifically, to take advantage of the complementary information from 2D images, we use a single-view RGB image to extract 2D features and design a fusion module to fuse the 2D and 3D features extracted from the partial point cloud. To guide the shape of predicted point clouds, we project the predicted points of the object to the 2D plane and use the foreground pixels of its silhouette maps to constrain the position of the projected points. To reduce the outliers of the predicted point clouds, we propose a view calibrator to move the points projected to the background into the foreground by the single-view silhouette image. To the best of our knowledge, our approach is the first point cloud completion method that does not require any 3D supervision. The experimental results of our method are superior to those of the state-of-the-art unsupervised methods by a large margin. Moreover, our method even achieves comparable performance to some supervised methods. We will make the source code publicly available at https://github.com/ltwu6/cross-pcc.
翻訳日:2023-10-15 15:27:23 公開日:2023-10-12
# 3DDesigner:テキスト誘導拡散モデルによる光リアルな3Dオブジェクト生成と編集を目指して

3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models ( http://arxiv.org/abs/2211.14108v3 )

ライセンス: Link先を確認
Gang Li, Heliang Zheng, Chaoyue Wang, Chang Li, Changwen Zheng, Dacheng Tao(参考訳) テキスト誘導拡散モデルは画像/ビデオ生成と編集において優れた性能を示している。 3Dシナリオでの探索はほとんど行われていない。 本稿では,本トピックに関する3つの基本的,興味深い問題について論じる。 まず,テキスト誘導拡散モデルを用いて3次元連続生成を実現する。 具体的には、NeRFのようなニューラルフィールドを統合して、所定のカメラビューに対して低解像度の粗い結果を生成する。 このような結果は、以下の拡散過程の条件情報として3D先行情報を提供できる。 2つの異なる視点に対応する新しい2ストリームの非同期拡散プロセスを用いて、クロスビュー対応をモデル化することにより、3次元の一貫性をさらに向上する。 第2に,3次元ローカル編集について検討し,一つのビューからオブジェクトを編集することで,360度操作された結果を生成する2段階のソリューションを提案する。 ステップ1では,予測ノイズをブレンドして2次元局所編集を行う。 ステップ2では、2Dブレンドしたノイズをビュー非依存のテキスト埋め込み空間にマッピングする。 対応するテキスト埋め込みが得られれば、360度画像を生成することができる。 最後に,本モデルを拡張して,単一画像の微調整によるワンショット新規ビュー合成を行い,まず,新規ビュー合成にテキストガイダンスを活用する可能性を示す。 大規模な実験と様々な応用が、我々の3Dデザイナの長所を示しています。 プロジェクトページはhttps://3ddesigner-diffusion.github.io/で入手できる。

Text-guided diffusion models have shown superior performance in image/video generation and editing. While few explorations have been performed in 3D scenarios. In this paper, we discuss three fundamental and interesting problems on this topic. First, we equip text-guided diffusion models to achieve 3D-consistent generation. Specifically, we integrate a NeRF-like neural field to generate low-resolution coarse results for a given camera view. Such results can provide 3D priors as condition information for the following diffusion process. During denoising diffusion, we further enhance the 3D consistency by modeling cross-view correspondences with a novel two-stream (corresponding to two different views) asynchronous diffusion process. Second, we study 3D local editing and propose a two-step solution that can generate 360-degree manipulated results by editing an object from a single view. Step 1, we propose to perform 2D local editing by blending the predicted noises. Step 2, we conduct a noise-to-text inversion process that maps 2D blended noises into the view-independent text embedding space. Once the corresponding text embedding is obtained, 360-degree images can be generated. Last but not least, we extend our model to perform one-shot novel view synthesis by fine-tuning on a single image, firstly showing the potential of leveraging text guidance for novel view synthesis. Extensive experiments and various applications show the prowess of our 3DDesigner. The project page is available at https://3ddesigner-diffusion.github.io/.
翻訳日:2023-10-15 15:27:00 公開日:2023-10-12
# 実量子演算と状態変換

Real quantum operations and state transformations ( http://arxiv.org/abs/2210.15820v2 )

ライセンス: Link先を確認
Tulja Varun Kondra, Chandan Datta and Alexander Streltsov(参考訳) 想像力の資源理論は、量子力学の定式化に不可欠な複素数の役割を数学的に厳密に理解するための有用な枠組みを提供する。 この記事の第1部では、単一パーティと2部構成の両方で ``real'' (quantum) 操作の特性について検討する。 その結果、実演算の下での状態変換に必要な十分条件を提供し、'実絡み'モノトーンの存在を示す。 本稿では,本論文の後半において,実量子演算による単一コピー状態変換の問題に焦点をあてる。 純粋な初期状態から始めると、変換の最適忠実度に対する解析的表現を見つけ、変換の確率とその逆を求めることによって、この問題を完全に解決する。 さらに、任意の初期状態と純粋最終状態を含む状態変換に対しては、与えられた変換の確率に対して最適な達成可能な忠実度を計算する半定値プログラムを提供する。

Resource theory of imaginarity provides a useful framework to understand the role of complex numbers, which are essential in the formulation of quantum mechanics, in a mathematically rigorous way. In the first part of this article, we study the properties of ``real'' (quantum) operations both in single-party and bipartite settings. As a consequence, we provide necessary and sufficient conditions for state transformations under real operations and show the existence of ``real entanglement'' monotones. In the second part of this article, we focus on the problem of single copy state transformation via real quantum operations. When starting from pure initial states, we completely solve this problem by finding an analytical expression for the optimal fidelity of transformation, for a given probability of transformation and vice versa. Moreover, for state transformations involving arbitrary initial states and pure final states, we provide a semidefinite program to compute the optimal achievable fidelity, for a given probability of transformation.
翻訳日:2023-10-15 15:26:42 公開日:2023-10-12
# 都市・制御環境農業におけるコンピュータビジョン技術に関する調査

A Survey of Computer Vision Technologies In Urban and Controlled-environment Agriculture ( http://arxiv.org/abs/2210.11318v2 )

ライセンス: Link先を確認
Jiayun Luo, Boyang Li, Cyril Leung(参考訳) 農業の次の段階である5.0への進化において、人工知能は中心的な役割を果たす。 制御環境農業(英語: Controled-Environment Agricultural, CEA)は、人口集中部への輸送ルートの短縮、環境への影響の低減、生産性の向上など、多くの経済的、環境的、社会的利益を提供する、都市および郊外の農業の特殊な形態である。 環境要因を制御できるため、CEAは植物環境のリアルタイムモニタリングや自律栽培、収穫の実施においてコンピュータビジョン(CV)とうまく連携する。 本研究の目的は,CV研究者を農業従事者と農業従事者とに親しませることである。 CEAにおける5つの主要なCVアプリケーションを特定し、その要件とモチベーションを分析し、深層学習手法を用いて68の技術的論文に反映された技術状況を調査した。 さらに,コンピュータビジョンの5つの重要なサブエリアと,これらcea問題との関連性,11のビジョンベースのceaデータセットについて論じた。 今回の調査は、研究領域の鳥眼ビューを素早く取得し、新たな研究と開発に刺激を与えることを期待しています。

In the evolution of agriculture to its next stage, Agriculture 5.0, artificial intelligence will play a central role. Controlled-environment agriculture, or CEA, is a special form of urban and suburban agricultural practice that offers numerous economic, environmental, and social benefits, including shorter transportation routes to population centers, reduced environmental impact, and increased productivity. Due to its ability to control environmental factors, CEA couples well with computer vision (CV) in the adoption of real-time monitoring of the plant conditions and autonomous cultivation and harvesting. The objective of this paper is to familiarize CV researchers with agricultural applications and agricultural practitioners with the solutions offered by CV. We identify five major CV applications in CEA, analyze their requirements and motivation, and survey the state of the art as reflected in 68 technical papers using deep learning methods. In addition, we discuss five key subareas of computer vision and how they related to these CEA problems, as well as eleven vision-based CEA datasets. We hope the survey will help researchers quickly gain a bird-eye view of the striving research area and will spark inspiration for new research and development.
翻訳日:2023-10-15 15:26:02 公開日:2023-10-12
# 応答前の場所:ビデオ質問応答における解答誘導質問定位

Locate before Answering: Answer Guided Question Localization for Video Question Answering ( http://arxiv.org/abs/2210.02081v2 )

ライセンス: Link先を確認
Tianwen Qian, Ran Cui, Jingjing Chen, Pai Peng, Xiaowei Guo, and Yu-Gang Jiang(参考訳) ビデオ質問応答(VideoQA)は視覚言語理解において重要な課題であり、近年多くの研究が注目されている。 それでも、既存の作品は15秒以内の短いビデオで有望なパフォーマンスを実現している。 分単位の長期ビデオのvideoqaでは、シーンの変更や複数のアクションによって生じるノイズや冗長性に対処する能力が欠如しているため、これらの方法は失敗する可能性が高い。 質問が短時間の時間範囲に集中していることを考えると,まずビデオ中のセグメントに質問を配置し,そのセグメントのみを用いて回答を推測することを提案する。 この方式では,質問ロケータと回答予測器をエンドツーエンドモデルに統合した新しいアプローチである「解答前位置」(locans)を提案する。 トレーニングフェーズの間、利用可能な回答ラベルは、回答予測器の監視信号として機能するだけでなく、質問ロケータの擬似時間ラベルを生成するためにも使用される。 さらに,2つのモジュールを別々に更新するために,分離した代替トレーニング戦略を設計する。 実験では、LocAnsは2つの最新の長期ビデオQAデータセットNExT-QAとActivityNet-QAの最先端のパフォーマンスを達成し、その定性的な例は質問ローカライゼーションの信頼性を示す。

Video question answering (VideoQA) is an essential task in vision-language understanding, which has attracted numerous research attention recently. Nevertheless, existing works mostly achieve promising performances on short videos of duration within 15 seconds. For VideoQA on minute-level long-term videos, those methods are likely to fail because of lacking the ability to deal with noise and redundancy caused by scene changes and multiple actions in the video. Considering the fact that the question often remains concentrated in a short temporal range, we propose to first locate the question to a segment in the video and then infer the answer using the located segment only. Under this scheme, we propose "Locate before Answering" (LocAns), a novel approach that integrates a question locator and an answer predictor into an end-to-end model. During the training phase, the available answer label not only serves as the supervision signal of the answer predictor, but also is used to generate pseudo temporal labels for the question locator. Moreover, we design a decoupled alternative training strategy to update the two modules separately. In the experiments, LocAns achieves state-of-the-art performance on two modern long-term VideoQA datasets NExT-QA and ActivityNet-QA, and its qualitative examples show the reliable performance of the question localization.
翻訳日:2023-10-15 15:25:38 公開日:2023-10-12
# ハミルトンシミュレーションにおける問題固有古典最適化

Problem specific classical optimization of Hamiltonian simulation ( http://arxiv.org/abs/2306.07208v2 )

ライセンス: Link先を確認
Refik Mansuroglu and Felix Fischer and Michael J. Hartmann(参考訳) 大規模量子システムの非平衡時間発展は、量子優位の強力な候補である。 このタスクのために変分量子アルゴリズムが提案されているが、量子最適化ルーチンは訓練性やサンプリングの問題に悩まされている。 本稿では,摂動環境における厳密な誤差境界を適切な時間ステップで拡張することにより,量子最適化の必要性を回避する,変分ハミルトンシミュレーションのための古典的前処理ルーチンを提案する。 結果として生じるコスト関数は、古典的コンピュータ上で効率よく計算できる。 我々は、常に同じ順序のTrotterシーケンスに対して最適化する可能性があり、コスト値がシミュレーション時間とシステムサイズにおいてTrotterと同じスケーリングを持つことを示す。 古典的な前処理に関する以前の研究とは異なり、この手法は局所性と相互作用長に依存しない任意のハミルトン系に適用できる。 スピン格子モデルの数値実験により,同一資源のトロッター列に対してディジタル量子シミュレーション能力が大幅に向上することがわかった。 短時間で、同じゲート番号のトロッター列と比較して、3桁以上の精度が向上することがわかった。 さらに,所与のゲート数と精度目標に対して,事前最適化により,目標精度0.1%の10倍以上のシミュレーション時間を実現できることがわかった。

Nonequilibrium time evolution of large quantum systems is a strong candidate for quantum advantage. Variational quantum algorithms have been put forward for this task, but their quantum optimization routines suffer from trainability and sampling problems. Here, we present a classical pre-processing routine for variational Hamiltonian simulation that circumvents the need of a quantum optimization by expanding rigorous error bounds in a perturbative regime for suitable time steps. The resulting cost function is efficiently computable on a classical computer. We show that there always exists potential for optimization with respect to a Trotter sequence of the same order and that the cost value has the same scaling as for Trotter in simulation time and system size. Unlike previous work on classical pre-processing, the method is applicable to any Hamiltonian system independent of locality and interaction lengths. Via numerical experiments for spin-lattice models, we find that our approach significantly improves digital quantum simulations capabilities with respect to Trotter sequences for the same resources. For short times, we find accuracy improvements of more than three orders of magnitude for our method as compared to Trotter sequences of the same gate number. Moreover, for a given gate number and accuracy target, we find that the pre-optimization we introduce enables simulation times that are consistently more than 10 times longer for a target accuracy of 0.1%.
翻訳日:2023-10-15 15:20:01 公開日:2023-10-12
# 劣化雑音下でのマルチパラメータ推定のための変分量子メトロジー

Variational quantum metrology for multiparameter estimation under dephasing noise ( http://arxiv.org/abs/2305.08289v2 )

ライセンス: Link先を確認
Trung Kien Le and Hung Q. Nguyen and Le Bin Ho(参考訳) 本稿では,量子力学の精度を高めるために,ハイブリッド量子古典変分法を提案する。 このスキームでは、量子部分の初期状態と測定基準の両方をパラメータ化し、古典的部分を通して最適化する。 これにより、測定された量に関する情報を最大化することができる。 本稿では,いくつかのデファスメントノイズモード下での3次元磁界センシングへの応用について検討する。 実際、全てのパラメータを同時に推定し、標準の量子限界を超える能力を示し、メトロロジー応用のための強力なツールである。

We present a hybrid quantum-classical variational scheme to enhance precision in quantum metrology. In the scheme, both the initial state and the measurement basis in the quantum part are parameterized and optimized via the classical part. It enables the maximization of information gained about the measured quantity. We discuss specific applications to 3D magnetic field sensing under several dephasing noise modes. Indeed, we demonstrate its ability to simultaneously estimate all parameters and surpass the standard quantum limit, making it a powerful tool for metrological applications.
翻訳日:2023-10-15 15:19:19 公開日:2023-10-12
# 量子論の別の基礎

An alternative foundation of quantum theory ( http://arxiv.org/abs/2305.06727v9 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 量子論への新しいアプローチが本論文で提案されている。 基礎は理論変数であり、アクセス可能あるいはアクセス不能な変数、すなわち観測者が任意に鋭い数値をそれらに割り当てることは可能であるか不可能であるかもしれない。 疫学的なプロセスでは、アクセス可能な変数は観測者または一部の通信観測者に接続された理想的な観測である。 群作用はこれらの変数上で定義され、群表現論はここでヒルベルト空間形式論を展開する基礎である。 アクセス可能な理論変数に対応する演算子が導出され、離散の場合、可能な物理値はそれらの演算子の固有値であることが証明される。 論文の焦点は、提案された量子論の基礎を埋める数学的定理である。 ここで、このアプローチで必要とされる群と変換は、アクセス可能な変数が有限次元である場合に明示的に構成できることを示す。 ヒルベルト空間の定式化を再現するには、2つの相補変数の存在を仮定するのに十分である。 ここで提案された基礎から推測される解釈は、量子論の一般的な認識論的解釈(英語版)(general epistemic interpretation of quantum theory)と呼ばれる。 この解釈の特別な例はQB主義であり、他のいくつかの解釈とも関係している。

A new approach to quantum theory is proposed in this paper. The basis is taken to be theoretical variables, variables that may be accessible or inaccessible, i.e., it may be possible or impossible for an observer to assign arbitrarily sharp numerical values to them. In an epistemic process, the accessible variables are just ideal observations connected to an observer or to some communicating observers. Group actions are defined on these variables, and group representation theory is the basis for developing the Hilbert space formalism here. Operators corresponding to accessible theoretical variables are derived, and in the discrete case, it is proved that the possible physical values are the eigenvalues of these operators. The focus of the paper is some mathematical theorems paving the ground for the proposed foundation of quantum theory. It is shown here that the groups and transformations needed in this approach can be constructed explicitly in the case where the accessible variables are finite-dimensional. This simplifies the theory considerably: To reproduce the Hilbert space formulation, it is enough to assume the existence of two complementary variables. The essential use of inaccessible variables can be avoided by basing the approach on some simple category theory.The interpretation inferred from the proposed foundation here may be called a general epistemic interpretation of quantum theory. A special case of this interpretation is QBism; it also has a relationship to several other interpretations.
翻訳日:2023-10-15 15:19:12 公開日:2023-10-12
# RFAConv:空間アテンションの革新と標準畳み込み運用

RFAConv: Innovating Spatial Attention and Standard Convolutional Operation ( http://arxiv.org/abs/2304.03198v5 )

ライセンス: Link先を確認
Xin Zhang, Chen Liu, Degang Yang, Tingting Song, Yichen Ye, Ke Li, and Yingze Song(参考訳) 空間的注意は畳み込みニューラルネットワークの性能向上に広く利用されている。 しかし、一定の制限がある。 本稿では,空間的注意のメカニズムが,畳み込みカーネルパラメータ共有の問題を本質的に解決する,空間的注意の有効性に関する新たな視点を提案する。 しかし,空間的注意によって生成された注意マップに含まれる情報は,大規模畳み込み核では不十分である。 そこで,我々はreceptive-field attention (rfa) と呼ばれる新しい注意機構を提案する。 Convolutional Block Attention Module (CBAM) や Coordinated Attention (CA) のような既存の空間的注意は、畳み込みカーネルパラメータ共有の問題を完全に解決しない空間的特徴のみに焦点を当てている。 対照的に、RFAは受容場空間の特徴だけでなく、大きな畳み込みカーネルに対して効果的な注意重みを与える。 RFA が開発した Receptive-Field Attention Convolutional Operation (RFAConv) は、標準の畳み込み操作を置き換える新しいアプローチである。 計算コストとパラメータの増大はほぼ無視できるが、ネットワーク性能は大幅に向上している。 我々は、ImageNet-1k、COCO、VOCデータセット上で一連の実験を行い、アプローチの優位性を実証した。 特に重要なのは、現在の空間的注意のメカニズムにおいて、焦点を空間的特徴から受容的場的特徴にシフトする時だと信じている。 このように、ネットワーク性能をさらに改善し、より良い結果を得ることができる。 関連するタスクのコードと事前トレーニングされたモデルは、https://github.com/liuchen1997/rfaconvで見ることができる。

Spatial attention has been widely used to improve the performance of convolutional neural networks. However, it has certain limitations. In this paper, we propose a new perspective on the effectiveness of spatial attention, which is that the spatial attention mechanism essentially solves the problem of convolutional kernel parameter sharing. However, the information contained in the attention map generated by spatial attention is not sufficient for large-size convolutional kernels. Therefore, we propose a novel attention mechanism called Receptive-Field Attention (RFA). Existing spatial attention, such as Convolutional Block Attention Module (CBAM) and Coordinated Attention (CA) focus only on spatial features, which does not fully address the problem of convolutional kernel parameter sharing. In contrast, RFA not only focuses on the receptive-field spatial feature but also provides effective attention weights for large-size convolutional kernels. The Receptive-Field Attention convolutional operation (RFAConv), developed by RFA, represents a new approach to replace the standard convolution operation. It offers nearly negligible increment of computational cost and parameters, while significantly improving network performance. We conducted a series of experiments on ImageNet-1k, COCO, and VOC datasets to demonstrate the superiority of our approach. Of particular importance, we believe that it is time to shift focus from spatial features to receptive-field spatial features for current spatial attention mechanisms. In this way, we can further improve network performance and achieve even better results. The code and pre-trained models for the relevant tasks can be found at https://github.com/Liuchen1997/RFAConv.
翻訳日:2023-10-15 15:18:27 公開日:2023-10-12
# 点群における3次元物体追跡に有効な運動中心パラダイム

An Effective Motion-Centric Paradigm for 3D Single Object Tracking in Point Clouds ( http://arxiv.org/abs/2303.12535v2 )

ライセンス: Link先を確認
Chaoda Zheng, Xu Yan, Haiming Zhang, Baoyuan Wang, Shenghui Cheng, Shuguang Cui, Zhen Li(参考訳) LiDARポイントクラウド(LiDAR SOT)における3Dシングルオブジェクトトラッキングは、自動運転において重要な役割を果たす。 現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。 しかし、LiDARの点雲は通常無テクスチャで不完全であり、効果的な外観マッチングを妨げる。 さらに、従来の手法は目標間の重要な動きの手がかりを大きく見落としている。 本研究では,3次元シームズトラッキング以外にも,新たな視点からLiDAR SOTを扱うための動き中心のパラダイムを導入する。 このパラダイムに従って,マッチングフリーな2段トラッカーM^2-Trackを提案する。 第1段階では、m^2トラックは運動変換により連続するフレーム内でターゲットをローカライズする。 そして、第2段の動作支援形状完了により、ターゲットボックスを洗練する。 動作中心の性質から,本手法は訓練ラベルを限定した印象的な一般化性を示し,エンドツーエンドのサイクルトレーニングに優れた微分性を提供する。 これにより,擬似ラベルに基づく運動増強と自己監督的損失項を組み込むことで,半教師付きLiDAR SOTを探索することが可能になる。 完全に監督された設定の下では、M^2-Trackが57FPS(それぞれKITTI、NuScenes、Waymo Open Dataset)で実行中の3つの大規模データセットの最先端を著しく上回っていることを確認する。 半教師付き環境下では,KITTIのラベルの半数未満を使用すれば,完全教師付き環境に匹敵する,あるいは超えた動作を行う。 さらなる分析により、各コンポーネントの有効性が検証され、モーション中心のパラダイムが自動ラベルと教師なしドメイン適応に有望な可能性を示す。

3D single object tracking in LiDAR point clouds (LiDAR SOT) plays a crucial role in autonomous driving. Current approaches all follow the Siamese paradigm based on appearance matching. However, LiDAR point clouds are usually textureless and incomplete, which hinders effective appearance matching. Besides, previous methods greatly overlook the critical motion clues among targets. In this work, beyond 3D Siamese tracking, we introduce a motion-centric paradigm to handle LiDAR SOT from a new perspective. Following this paradigm, we propose a matching-free two-stage tracker M^2-Track. At the 1st-stage, M^2-Track localizes the target within successive frames via motion transformation. Then it refines the target box through motion-assisted shape completion at the 2nd-stage. Due to the motion-centric nature, our method shows its impressive generalizability with limited training labels and provides good differentiability for end-to-end cycle training. This inspires us to explore semi-supervised LiDAR SOT by incorporating a pseudo-label-based motion augmentation and a self-supervised loss term. Under the fully-supervised setting, extensive experiments confirm that M^2-Track significantly outperforms previous state-of-the-arts on three large-scale datasets while running at 57FPS (~3%, ~11% and ~22% precision gains on KITTI, NuScenes, and Waymo Open Dataset respectively). While under the semi-supervised setting, our method performs on par with or even surpasses its fully-supervised counterpart using fewer than half of the labels from KITTI. Further analysis verifies each component's effectiveness and shows the motion-centric paradigm's promising potential for auto-labeling and unsupervised domain adaptation.
翻訳日:2023-10-15 15:18:01 公開日:2023-10-12
# transupr:lidar point cloudセマンティクスセグメンテーションのためのトランスフォーマーベースの不確定点リファインダ

TransUPR: A Transformer-based Uncertain Point Refiner for LiDAR Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2302.08594v3 )

ライセンス: Link先を確認
Zifan Yu, Meida Chen, Zhikang Zhang, Suya You, Raghuveer Rao, Sanjeev Agarwal, and Fengbo Ren(参考訳) 共通画像に基づくLiDARポイントクラウドセマンティックセグメンテーション(LiDAR PCSS)アプローチは、畳み込みニューラルネットワーク(CNN)の境界ブルーリング問題と球面投影の定量化損失から生じるボトルネックを持つ。 そこで本研究では,選択した不確かさ点を学習可能な方法で洗練し,セグメント化性能が向上するトランスフォーマティブ・アンド・プレイ不確かさ点精製器(transupr)を提案する。 2次元範囲の画像表現および3次元球面投影背景点において、不確実点が物体の境界に近い位置にある2次元画像セグメンテーションの粗い意味セグメンテーション結果から不確か点をサンプリングする。 その後、不確実点の幾何学的および粗い意味的特徴は、高価な計算とメモリフットプリントを加えることなく、3次元空間の隣接点によって集約される。 最後に,4層の自己保持層とMLPモジュールを含む変圧器ベースの精製器を用いて,自己保持層の連結的特徴に関する不確定点分類を行う。 提案する精細化器は2D CNNとは独立しているため、我々のTransUPRは既存のイメージベースLiDAR PCSSアプローチ、例えばCENetに容易に統合できる。 CENetによる私たちのTransUPRは最先端のパフォーマンス、すなわちSemantic KITTIベンチマーク上では68.2%の平均的Union(mIoU)を実現し、元のCENetと比較してmIoUで0.6%の性能向上を実現した。

Common image-based LiDAR point cloud semantic segmentation (LiDAR PCSS) approaches have bottlenecks resulting from the boundary-blurring problem of convolution neural networks (CNNs) and quantitation loss of spherical projection. In this work, we propose a transformer-based plug-and-play uncertain point refiner, i.e., TransUPR, to refine selected uncertain points in a learnable manner, which leads to an improved segmentation performance. Uncertain points are sampled from coarse semantic segmentation results of 2D image segmentation where uncertain points are located close to the object boundaries in the 2D range image representation and 3D spherical projection background points. Following that, the geometry and coarse semantic features of uncertain points are aggregated by neighbor points in 3D space without adding expensive computation and memory footprint. Finally, the transformer-based refiner, which contains four stacked self-attention layers, along with an MLP module, is utilized for uncertain point classification on the concatenated features of self-attention layers. As the proposed refiner is independent of 2D CNNs, our TransUPR can be easily integrated into any existing image-based LiDAR PCSS approaches, e.g., CENet. Our TransUPR with the CENet achieves state-of-the-art performance, i.e., 68.2% mean Intersection over Union (mIoU) on the Semantic KITTI benchmark, which provides a performance improvement of 0.6% on the mIoU compared to the original CENet.
翻訳日:2023-10-15 15:17:33 公開日:2023-10-12
# バイアス付きランダムアクセスコード

Biased Random Access Codes ( http://arxiv.org/abs/2302.08494v3 )

ライセンス: Link先を確認
Gabriel Pereira Alves, Nicolas Gigena, J\k{e}drzej Kaniewski(参考訳) ランダムアクセスコード(RAC)は、送信者が受信者が復号する短いメッセージにランダムメッセージを符号化し、元のメッセージのランダムに選択された文字を何らかの確率で復元する通信タスクである。 回収されるメッセージと文字の両方が均一に分散されていると仮定される。 本稿では、このプロトコルを拡張して、これらの入力のより一般的な分布を可能にし、古典的または量子的なリソースを用いて、プロトコルの性能を最適化するエンコーディングおよびデコード戦略を変更する。 本稿では,これらのバイアス付きRACの性能を数値解析ツールと解析ツールの両方で最適化する問題にアプローチする。 数値面では、古典的および量子的戦略における最適性能の数値評価を可能にするアルゴリズムと、それらを実装するために設計されたpythonパッケージであるrac-toolsを提案する。 次に、この数値ツールを使用して、$n^2 \mapsto 1$と$^d \mapsto 1$シナリオにおけるバイアス付きracの単一パラメータ族を調べる。 n^2 \mapsto 1$ シナリオの rac については、入力が相関しない場合の一般的な上限が導出され、n=2$ の量子値と一致し、場合によっては $n=3$ となる。 さらに,この上界自己テストペアおよびランク1射影計測のトリプルをそれぞれ達成できることが示される。 2^d \mapsto 1$のシナリオでは、入力文字列の分布が偏りがない場合、互いに偏りのない測定によって常に達成可能であることが示されている。

A random access code (RAC) is a communication task in which the sender encodes a random message into a shorter one to be decoded by the receiver so that a randomly chosen character of the original message is recovered with some probability. Both the message and the character to be recovered are assumed to be uniformly distributed. In this paper, we extend this protocol by allowing more general distributions of these inputs, which alters the encoding and decoding strategies optimizing the protocol performance, with either classical or quantum resources. We approach the problem of optimizing the performance of these biased RACs with both numerical and analytical tools. On the numerical front, we present algorithms that allow a numerical evaluation of the optimal performance over both classical and quantum strategies and provide a Python package designed to implement them, called RAC-tools. We then use this numerical tool to investigate single-parameter families of biased RACs in the $n^2 \mapsto 1$ and $2^d \mapsto 1$ scenarios. For RACs in the $n^2 \mapsto 1$ scenario, we derive a general upper bound for the cases in which the inputs are not correlated, which coincides with the quantum value for $n=2$ and, in some cases for $n=3$. Moreover, it is shown that attaining this upper bound self-tests pairs or triples of rank-1 projective measurements, respectively. An analogous upper bound is derived for the value of RACs in the $2^d \mapsto 1$ scenario, which is shown to be always attainable using mutually unbiased measurements if the distribution of input strings is unbiased.
翻訳日:2023-10-15 15:16:59 公開日:2023-10-12
# スペクトル変換を用いた高励起固有状態のスケーラブル量子計算

Scalable Quantum Computation of Highly Excited Eigenstates with Spectral Transforms ( http://arxiv.org/abs/2302.06638v2 )

ライセンス: Link先を確認
Shao-Hen Chiew, Leong-Chuan Kwek(参考訳) 本稿では,HHLアルゴリズムのような量子線形システム問題(QLSP)を自然に応用して,物理ハミルトニアンの内部固有状態を変動的かつ標的的に効率的に生成する手法を提案する。 これは、量子コンピュータ上のハミルトンシミュレーションと固有状態の表現が効率的である状況において、量子コンピュータ上の逆ハミルトニアンの期待値の効率的な計算によって実現される。 重要なことに、アルゴリズム内のサブルーチンとしてqlspソルバを使用すること -- そのインプットと出力は、物理的システムから生じるハミルトニアンや固有状態のような物理的意味のあるオブジェクトに対応する -- は、通常、一般的な線形代数的アプリケーションでそれに付随する指数関数的コストのかかる前/後処理ステップを隠蔽しない。 本稿では、フォールトトレラントおよび準長期量子コンピュータのこの方式の実装について詳述し、その効率性と実装性を解析し、QLSPソルバが既存の古典的および量子的アプローチよりも指数関数的に優れたスケーリングを行う条件を詳述する。 多体物理学や量子化学における応用のシミュレーション結果は、既存のアプローチよりもその効果と拡張性をさらに実証する。

We propose a natural application of Quantum Linear Systems Problem (QLSP) solvers such as the HHL algorithm to efficiently prepare highly excited interior eigenstates of physical Hamiltonians in a variational and targeted manner. This is enabled by the efficient computation of the expectation values of inverse Hamiltonians on quantum computers, in situations where Hamiltonian simulation and the representation of eigenstates on quantum computers are efficient. Importantly, the usage of the QLSP solver as a subroutine within our algorithm -- with its inputs and outputs corresponding to physically meaningful objects such as Hamiltonians and eigenstates arising from physical systems -- does not conceal exponentially costly pre/post-processing steps that usually accompanies it in generic linear algebraic applications. We detail implementations of this scheme for both fault-tolerant and near-term quantum computers, analyze their efficiency and implementability, and detail conditions under which the QLSP solvers' exponentially better scaling in problem size render it advantageous over existing classical and quantum approaches. Simulation results for applications in many-body physics and quantum chemistry further demonstrate its effectiveness and scalability over existing approaches.
翻訳日:2023-10-15 15:16:29 公開日:2023-10-12
# FedDrive v2: 自動運転のためのフェデレーションセマンティックセグメンテーションにおけるラベルスキューネスの影響の分析

FedDrive v2: an Analysis of the Impact of Label Skewness in Federated Semantic Segmentation for Autonomous Driving ( http://arxiv.org/abs/2309.13336v2 )

ライセンス: Link先を確認
Eros Fan\`i, Marco Ciccone and Barbara Caputo(参考訳) 我々は,自動運転におけるセマンティックセグメンテーションのためのフェデレーション学習ベンチマークであるFedDrive v2を提案する。 最初のバージョンは、クライアント間での視覚的特徴のドメインシフトの効果を研究することを目的としているが、本研究では、ラベルの分布歪に焦点を当てる。 そこで本研究では,ラベルスキューネスがセグメンテーションモデルの性能に与える影響を検証し,ドメインシフトの効果と比較する6つの新しいフェデレーションシナリオを提案する。 最後に、テスト中のドメイン情報の利用の影響について検討する。 公式ウェブサイト: https://feddrive.github.io

We propose FedDrive v2, an extension of the Federated Learning benchmark for Semantic Segmentation in Autonomous Driving. While the first version aims at studying the effect of domain shift of the visual features across clients, in this work, we focus on the distribution skewness of the labels. We propose six new federated scenarios to investigate how label skewness affects the performance of segmentation models and compare it with the effect of domain shift. Finally, we study the impact of using the domain information during testing. Official website: https://feddrive.github.io
翻訳日:2023-10-15 15:07:38 公開日:2023-10-12
# 南極krill自動解析のためのコンピュータビジョンパイプライン

Computer Vision Pipeline for Automated Antarctic Krill Analysis ( http://arxiv.org/abs/2309.06188v2 )

ライセンス: Link先を確認
Mazvydas Gudelis, Michal Mackiewicz, Julie Bremner, Sophie Fielding(参考訳) イギリス南極調査(bas)の研究者は、南極クリルのバイオマスを推定し、前年からの変化を評価するために、毎年南極に遠征を開始する。 これらの比較は、現在の環境が海洋食物連鎖のこの重要な構成要素に与える影響について洞察を与える。 本研究では,webベースの画像アノテーションツールとディープラーニング画像分類・回帰モデルを用いて,データ収集・分析プロセスの自動化を行うツールを開発した。 平均77.28%のapスコアで高精度なkrillインスタンスセグメンテーションを行い,62.99%の精度と9.8mmの誤差を有するkrill標本の成熟段階と長さ推定をそれぞれ分離した。

British Antarctic Survey (BAS) researchers launch annual expeditions to the Antarctic in order to estimate Antarctic Krill biomass and assess the change from previous years. These comparisons provide insight into the effects of the current environment on this key component of the marine food chain. In this work we have developed tools for automating the data collection and analysis process, using web-based image annotation tools and deep learning image classification and regression models. We achieve highly accurate krill instance segmentation results with an average 77.28% AP score, as well as separate maturity stage and length estimation of krill specimens with 62.99% accuracy and a 1.98mm length error respectively.
翻訳日:2023-10-15 15:07:02 公開日:2023-10-12
# ノイズと時間最適化を考慮した量子回路の分散スケジューリング

Distributed Scheduling of Quantum Circuits with Noise and Time Optimization ( http://arxiv.org/abs/2309.06005v2 )

ライセンス: Link先を確認
Debasmita Bhoumik, Ritajit Majumdar, Amit Saha, Susmita Sur-Kolay(参考訳) 現在、量子コンピュータは誤り訂正と耐故障性がないためノイズが多い。 エラー抑制や緩和といった暫定的な手法は、幅広い適用性を見いだす。 他のエラー抑制や緩和とは独立に、システム内のノイズをさらに低減するためにそれらと併用することができる別の方法は、回路切断である。 本稿では,利用可能なハードウェアセット上で回路切断により得られるサブ回路の最適スケジュールを求めるスケジューラを提案する。 (i)全体の忠実度を最大化し、 (ii)各ハードウェアの事前定義された最大実行時間が超過しないことを保証する。 種々のベンチマーク回路上で得られた忠実度は、最もノイズが少ないデバイスで実行されるアンカット回路よりも大幅に向上する。 本手法では,10ビットベンチマーク回路において,各ハードウェアが最小実行時間を許された場合でも,測定誤差を緩和することなく,それぞれ平均12.3%,約21%の忠実度が得られた。 このノイズと時間に最適化された分散スケジューラは、ユーザが量子ハードウェアへのアクセスを制限した現在のシナリオにおいて、最適なパフォーマンスを提供するための最初のステップである。

Quantum computers are noisy at present in the absence of error correction and fault tolerance. Interim methods such as error suppression and mitigation find wide applicability. Another method, which is independent of other error suppression and mitigation, and can be applied in conjunction with them to further lower the noise in the system, is circuit cutting. In this paper, we propose a scheduler that finds the optimum schedule for the subcircuits obtained by circuit cutting on the available set of hardware to (i) maximize the overall fidelity, and (ii) ensure that the predefined maximum execution time for each hardware is not exceeded. The fidelity obtained by this method on various benchmark circuits is significantly better than that of the uncut circuit executed on the least noisy device. The average increase in the fidelity obtained by our method are respectively ~12.3% and ~21% for 10-qubit benchmark circuits without and with measurement error mitigation, even when each hardware was allowed the minimum possible execution time. This noise and time optimized distributed scheduler is an initial step towards providing the optimal performance in the current scenario where the users may have limited access to quantum hardware.
翻訳日:2023-10-15 15:06:49 公開日:2023-10-12
# 低エンタングル多体物理学における手法に触発された新しい関数外挿法

A Novel Method of Function Extrapolation Inspired by Techniques in Low-entangled Many-body Physics ( http://arxiv.org/abs/2308.09001v2 )

ライセンス: Link先を確認
Lambert Lin and Steven R White(参考訳) 量子力学に触発された新しい補間アルゴリズムを導入し,線形予測に対する性能評価を行う。 提案手法は,関数値を量子状態にマッピングし,エンタングルメントエントロピーを最小化することで将来の関数値を推定する。 提案手法を線形予測と比較し,ノイズの有無に関わらず,様々な単純関数に対して有効性を示す。 その結果,提案アルゴリズムは線形予測に匹敵する補間を生成でき,鋭い特徴を持つ関数の性能が向上した。

We introduce a novel extrapolation algorithm inspired by quantum mechanics and evaluate its performance against linear prediction. Our method involves mapping function values onto a quantum state and estimating future function values by minimizing entanglement entropy. We demonstrate the effectiveness of our approach on various simple functions, both with and without noise, comparing it to linear prediction. Our results show that the proposed algorithm produces extrapolations comparable to linear prediction, while exhibiting improved performance for functions with sharp features.
翻訳日:2023-10-15 15:06:01 公開日:2023-10-12
# オープンフィールド環境におけるロボットハーベスティングのための改良型YOLOv5sアーキテクチャに基づくリアルタイムイチゴ検出

Real-time Strawberry Detection Based on Improved YOLOv5s Architecture for Robotic Harvesting in open-field environment ( http://arxiv.org/abs/2308.03998v4 )

ライセンス: Link先を確認
Zixuan He (1)(2), Salik Ram Khanal (1)(2), Xin Zhang (3), Manoj Karkee (1)(2), Qin Zhang (1)(2) ((1) Center for Precision and Automated Agricultural Systems, Washington State University, (2) Department of Biological Systems Engineering, Washington State University, (3) Department of Agricultural and Biological Engineering, Mississippi State University)(参考訳) 本研究では、屋外環境下でイチゴを検知するYOLOv5を用いたカスタムオブジェクト検出モデルを提案する。 YOLOv5sの当初のアーキテクチャは、C3モジュールをバックボーンネットワークのC2fモジュールに置き換えることで変更され、より優れた機能勾配フローを提供した。 第2に, YOLOv5sのバックボーンネットワークの最終層における空間ピラミッドのポーリング速度をクロスステージ部分ネットと組み合わせて, イチゴデータセットの一般化能力を向上した。 提案されたアーキテクチャはYOLOv5s-Strawと名付けられた。 3つの成熟度クラス(未熟、ほぼ成熟、成熟)を持つイチゴキャノピーのrgb画像データセットは、オープンフィールド環境で収集され、輝度の低下、輝度の増大、ノイズの追加を含む一連の操作によって拡張された。 オープンフィールド環境におけるイチゴ検出手法の優位性を検証するため、4つの競合検出モデル(YOLOv3-tiny, YOLOv5s, YOLOv5s-C2f, YOLOv8s)をトレーニングし、同じ計算環境下でテストし、YOLOv5s-Strawと比較した。 その結果、平均平均精度は80.3%で、yolov3-tiny、yolov5s、yolov5s-c2f、yolov8では73.4%、77.8%、79.8%、79.3%であった。 具体的には、YOLOv5s-Strawの平均精度は未熟なクラスで82.1%、ほぼ成熟したクラスで73.5%、成熟したクラスで86.6%であり、それぞれ2.3%と3.7%であった。 モデルには8.6*10^6のネットワークパラメータがあり、1画像あたりの推論速度は18msであり、yolov8の推論速度は21.0ms、重いパラメータは11.1*10^6であった。

This study proposed a YOLOv5-based custom object detection model to detect strawberries in an outdoor environment. The original architecture of the YOLOv5s was modified by replacing the C3 module with the C2f module in the backbone network, which provided a better feature gradient flow. Secondly, the Spatial Pyramid Pooling Fast in the final layer of the backbone network of YOLOv5s was combined with Cross Stage Partial Net to improve the generalization ability over the strawberry dataset in this study. The proposed architecture was named YOLOv5s-Straw. The RGB images dataset of the strawberry canopy with three maturity classes (immature, nearly mature, and mature) was collected in open-field environment and augmented through a series of operations including brightness reduction, brightness increase, and noise adding. To verify the superiority of the proposed method for strawberry detection in open-field environment, four competitive detection models (YOLOv3-tiny, YOLOv5s, YOLOv5s-C2f, and YOLOv8s) were trained, and tested under the same computational environment and compared with YOLOv5s-Straw. The results showed that the highest mean average precision of 80.3% was achieved using the proposed architecture whereas the same was achieved with YOLOv3-tiny, YOLOv5s, YOLOv5s-C2f, and YOLOv8s were 73.4%, 77.8%, 79.8%, 79.3%, respectively. Specifically, the average precision of YOLOv5s-Straw was 82.1% in the immature class, 73.5% in the nearly mature class, and 86.6% in the mature class, which were 2.3% and 3.7%, respectively, higher than that of the latest YOLOv8s. The model included 8.6*10^6 network parameters with an inference speed of 18ms per image while the inference speed of YOLOv8s had a slower inference speed of 21.0ms and heavy parameters of 11.1*10^6, which indicates that the proposed model is fast enough for real time strawberry detection and localization for the robotic picking.
翻訳日:2023-10-15 15:05:52 公開日:2023-10-12
# ネットワーク量子ステアリングによりシードランダム性のないランダム性認証が可能に

Network quantum steering enables randomness certification without seed randomness ( http://arxiv.org/abs/2307.08797v2 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 独立したソースを持つ量子ネットワークは、入力なしで量子非局所性の観測を可能にする。 したがって、測定の不整合性は、独立したソースにアクセスする場合、量子非局所性を観測するために必要なものではない。 ここでは、任意の量子非局所性を観測できる入力を使わずに最小のシナリオを調べる。 古典的に相関する可能性のある2つのソースを持つ2つのパーティであっても、その1つが信頼されている場合、特に量子ステアリングと呼ばれる量子非局所性(quantum steering)の一形態を、入力のないネットワークで確認することができる。 この効果をスワップステアリングと呼ぶ。 この研究で示されたシナリオは、そのような効果を観察するには最小限です。 したがって、量子ステアリングは観測できるがベル非局所性は観測できないシナリオが存在する。 さらにスワップステアリングを観察する線形証人を構築した。 興味深いことに、この証人は、ソースによって生成された量子状態の自己検査と、信頼できないパーティの局所的な測定を可能にする。 これにより、最初に装置にランダム性を供給する必要なしに、信頼できない装置の測定結果から得られる2ビットのランダム性を証明することができる。

Quantum networks with independent sources allow the observation of quantum nonlocality without inputs. Consequently, the incompatibility of measurements is not a necessity for observing quantum nonlocality when one has access to independent sources. Here we investigate the minimal scenario without inputs where one can observe any form of quantum nonlocality. We show that even two parties with two sources that might be classically correlated can witness a form of quantum nonlocality, in particular quantum steering, in networks without inputs if one of the parties is trusted, that is, performs a fixed known measurement. We term this effect as swap-steering. The scenario presented in this work is minimal to observe such an effect. Consequently, a scenario exists where one can observe quantum steering but not Bell non-locality. We further construct a linear witness to observe swap-steering. Interestingly, this witness enables self-testing of the quantum states generated by the sources and the local measurement of the untrusted party. This in turn allows certifying two bits of randomness that can be obtained from the measurement outcomes of the untrusted device without the requirement of initially feeding the device with randomness.
翻訳日:2023-10-15 15:05:07 公開日:2023-10-12
# efficientdm:効率的な量子化-低ビット拡散モデルの微調整

EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models ( http://arxiv.org/abs/2310.03270v3 )

ライセンス: Link先を確認
Yefei He, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang(参考訳) 拡散モデルは画像合成と関連する生成タスクにおいて顕著な能力を示している。 しかしながら、低レイテンシな実世界のアプリケーションに対する実用性は、かなりの計算コストとレイテンシの問題によって制約されている。 量子化は拡散モデルを圧縮し加速する主要な方法であり、後学習量子化(PTQ)と量子化認識訓練(QAT)は2つの主要なアプローチであり、それぞれが独自の性質を持つ。 PTQは時間とデータの両方の効率を示すが、低ビット幅では性能が低下する可能性がある。 一方、QATはパフォーマンスの劣化を軽減することができるが、計算やデータリソースに対するかなりの要求がある。 それぞれの欠点を回避しつつ利点を生かし、低ビット拡散モデルのためのデータフリーでパラメータ効率の良い微調整フレームワーク、EfficientDMを導入し、PTQライクな効率でQATレベルの性能を実現する。 具体的には,低ランクアダプタ (QALoRA) の量子化を意識した変種を提案する。 微調整プロセスは、完全精度モデルの復調能力を定量化したものに蒸留し、データトレーニングの必要をなくす。 また, スケールアウェア最適化を導入し, 時間学習ステップサイズ量子化により, さらなる性能向上を図る。 実験結果から,本手法はPTQに基づく拡散モデルよりも有意に優れ,時間とデータ効率は良好であることがわかった。 具体的には、imagenet 256x256のldm-4から4ビットまでの重みとアクティベーションの両方を定量化すると0.05 sfidが増加するだけである。 QATベースの手法と比較して、EfficientDMは16.2倍高速な量子化速度で生成品質を比較できる。

Diffusion models have demonstrated remarkable capabilities in image synthesis and related generative tasks. Nevertheless, their practicality for low-latency real-world applications is constrained by substantial computational costs and latency issues. Quantization is a dominant way to compress and accelerate diffusion models, where post-training quantization (PTQ) and quantization-aware training (QAT) are two main approaches, each bearing its own properties. While PTQ exhibits efficiency in terms of both time and data usage, it may lead to diminished performance in low bit-width. On the other hand, QAT can alleviate performance degradation but comes with substantial demands on computational and data resources. To capitalize on the advantages while avoiding their respective drawbacks, we introduce a data-free and parameter-efficient fine-tuning framework for low-bit diffusion models, dubbed EfficientDM, to achieve QAT-level performance with PTQ-like efficiency. Specifically, we propose a quantization-aware variant of the low-rank adapter (QALoRA) that can be merged with model weights and jointly quantized to low bit-width. The fine-tuning process distills the denoising capabilities of the full-precision model into its quantized counterpart, eliminating the requirement for training data. We also introduce scale-aware optimization and employ temporal learned step-size quantization to further enhance performance. Extensive experimental results demonstrate that our method significantly outperforms previous PTQ-based diffusion models while maintaining similar time and data efficiency. Specifically, there is only a marginal 0.05 sFID increase when quantizing both weights and activations of LDM-4 to 4-bit on ImageNet 256x256. Compared to QAT-based methods, our EfficientDM also boasts a 16.2x faster quantization speed with comparable generation quality.
翻訳日:2023-10-15 14:57:26 公開日:2023-10-12
# 事前学習したネットワークは不慣れな配布データを検出することができるか?

Can Pre-trained Networks Detect Familiar Out-of-Distribution Data? ( http://arxiv.org/abs/2310.00847v2 )

ライセンス: Link先を確認
Atsuyuki Miyai, Qing Yu, Go Irie, Kiyoharu Aizawa(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、安全に敏感な機械学習アプリケーションには不可欠であり、広く研究され、文献で開発された多くの手法が生み出されている。 しかし、OOD検出のためのほとんどの研究は、事前訓練されたモデルを使用しず、スクラッチから背骨を訓練した。 近年,大規模な事前学習モデルから軽量チューニングによる下流タスクへの知識伝達が,ID分類器の訓練において主流となっている。 OOD検出と現在の分類器のギャップを埋めるためには、情報ネットワークがよく知っているサンプルがOOD入力として現れるのが特徴的で重要な問題である。 このようなデータは, oodデータの識別性が事前学習アルゴリズムに依存するため, 大規模事前学習ネットワークの性能に大きく影響すると考えられる。 本稿では,これらのOODデータをPT-OOD(Pre-Trained OOD)データとして定義する。 本稿では,事前学習アルゴリズムの観点から,PT-OODが事前学習ネットワークのOOD検出性能に与える影響を明らかにすることを目的とする。 そこで本研究では,線形探索チューニングを用いた教師付きおよび自己教師付き事前学習アルゴリズムのPT-OOD検出性能について検討する。 実験と分析により,pt-oodの低線形分離性はpt-ood検出性能を著しく低下させ,自己教師付きモデルは教師付き事前学習モデルよりもpt-oodに対して脆弱であることが判明した。 この脆弱性を解決するために,我々は,事前学習モデルの強力なインスタンス別識別表現と,id決定境界に依存しない特徴空間におけるoodの検出という,大規模事前学習モデルに対するユニークな解決策を提案する。 コードはhttps://github.com/AtsuMiyai/PT-OOD.comから入手できる。

Out-of-distribution (OOD) detection is critical for safety-sensitive machine learning applications and has been extensively studied, yielding a plethora of methods developed in the literature. However, most studies for OOD detection did not use pre-trained models and trained a backbone from scratch. In recent years, transferring knowledge from large pre-trained models to downstream tasks by lightweight tuning has become mainstream for training in-distribution (ID) classifiers. To bridge the gap between the practice of OOD detection and current classifiers, the unique and crucial problem is that the samples whose information networks know often come as OOD input. We consider that such data may significantly affect the performance of large pre-trained networks because the discriminability of these OOD data depends on the pre-training algorithm. Here, we define such OOD data as PT-OOD (Pre-Trained OOD) data. In this paper, we aim to reveal the effect of PT-OOD on the OOD detection performance of pre-trained networks from the perspective of pre-training algorithms. To achieve this, we explore the PT-OOD detection performance of supervised and self-supervised pre-training algorithms with linear-probing tuning, the most common efficient tuning method. Through our experiments and analysis, we find that the low linear separability of PT-OOD in the feature space heavily degrades the PT-OOD detection performance, and self-supervised models are more vulnerable to PT-OOD than supervised pre-trained models, even with state-of-the-art detection methods. To solve this vulnerability, we further propose a unique solution to large-scale pre-trained models: Leveraging powerful instance-by-instance discriminative representations of pre-trained models and detecting OOD in the feature space independent of the ID decision boundaries. The code will be available via https://github.com/AtsuMiyai/PT-OOD.
翻訳日:2023-10-15 14:56:32 公開日:2023-10-12
# clusvpr:クラスタリングに基づく重み付きトランスフォーマーによる効率的な視覚位置認識

ClusVPR: Efficient Visual Place Recognition with Clustering-based Weighted Transformer ( http://arxiv.org/abs/2310.04099v2 )

ライセンス: Link先を確認
Yifan Xu, Pourya Shamsolmoali, Jie Yang(参考訳) 視覚的位置認識(VPR)は、ロボットナビゲーションや自動運転車など、幅広いアプリケーションを持つ非常に困難なタスクである。 特にVPRは、重複領域の存在と複雑なシーンにおける小さな物体への注意の欠如により、認識の偏りが生じるため困難である。 本稿では,重複する領域における冗長な情報の特定の問題と,小さなオブジェクトの表現に対処する新しいアプローチであるClusVPRを提案する。 特徴マップ生成のための畳み込みニューラルネットワーク(CNN)に依存する既存の方法とは異なり、ClusVPRはクラスタリングベースの重み付きトランスフォーマーネットワーク(CWTNet)と呼ばれるユニークなパラダイムを導入している。 CWTNetはクラスタリングベースの重み付け機能マップのパワーを活用し、グローバル依存関係を統合して、大規模なVPR問題で遭遇する視覚的偏差に効果的に対処する。 また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD (OptLAD) 層を導入する。 このレイヤは、スケールワイズ画像パッチから得られる情報を集約するように設計されている。 さらに, ピラミッド型自己監視戦略では, 画像全体ではなく, 大規模画像パッチから代表的および多様な情報を抽出することに焦点を当てている。 4つのVPRデータセットに対する大規模な実験は、既存のモデルに比べてモデルの性能が優れており、複雑ではないことを示している。

Visual place recognition (VPR) is a highly challenging task that has a wide range of applications, including robot navigation and self-driving vehicles. VPR is particularly difficult due to the presence of duplicate regions and the lack of attention to small objects in complex scenes, resulting in recognition deviations. In this paper, we present ClusVPR, a novel approach that tackles the specific issues of redundant information in duplicate regions and representations of small objects. Different from existing methods that rely on Convolutional Neural Networks (CNNs) for feature map generation, ClusVPR introduces a unique paradigm called Clustering-based Weighted Transformer Network (CWTNet). CWTNet leverages the power of clustering-based weighted feature maps and integrates global dependencies to effectively address visual deviations encountered in large-scale VPR problems. We also introduce the optimized-VLAD (OptLAD) layer that significantly reduces the number of parameters and enhances model efficiency. This layer is specifically designed to aggregate the information obtained from scale-wise image patches. Additionally, our pyramid self-supervised strategy focuses on extracting representative and diverse information from scale-wise image patches instead of entire images, which is crucial for capturing representative and diverse information in VPR. Extensive experiments on four VPR datasets show our model's superior performance compared to existing models while being less complex.
翻訳日:2023-10-15 14:46:33 公開日:2023-10-12
# 高速R-CNN物体検出器のアンサンブルを効果的に訓練する方法

How to effectively train an ensemble of Faster R-CNN object detectors to quantify uncertainty ( http://arxiv.org/abs/2310.04829v2 )

ライセンス: Link先を確認
Denis Mbey Akola, Gianni Franchi(参考訳) 本稿では,2段階の物体検出アンサンブルモデル,具体的にはr-cnnモデルを用いて不確かさを推定する新しい手法を提案する。 我々は1つのリージョン提案ネットワーク(RPN)~\cite{https://doi.org/10.48550/arxiv.1506.01497} をトレーニングし、複数の高速R-CNN予測ヘッドは、オブジェクト検出の不確かさを推定するための堅牢なディープアンサンブルネットワークを構築する必要がある。 我々は、このアプローチを提示し、このアプローチがアンサンブルで全ての$n$モデルを完全にトレーニングするナイーブな方法よりもはるかに高速であることを示す実験を提供する。 また,このアンサンブルモデルの予測校正誤差(ECE)を測定し,不確実性を推定する。 さらに,このモデルの性能を,予測境界ボックス座標を用いた不確かさをモデル化した YOLOv3 の変種である Gaussian YOLOv3 と比較する。 ソースコードは \url{https://github.com/Akola-Mbey-Denis/EfficientEnsemble} で公開されている。

This paper presents a new approach for training two-stage object detection ensemble models, more specifically, Faster R-CNN models to estimate uncertainty. We propose training one Region Proposal Network(RPN)~\cite{https://doi.org/10.48550/arxiv.1506.01497} and multiple Fast R-CNN prediction heads is all you need to build a robust deep ensemble network for estimating uncertainty in object detection. We present this approach and provide experiments to show that this approach is much faster than the naive method of fully training all $n$ models in an ensemble. We also estimate the uncertainty by measuring this ensemble model's Expected Calibration Error (ECE). We then further compare the performance of this model with that of Gaussian YOLOv3, a variant of YOLOv3 that models uncertainty using predicted bounding box coordinates. The source code is released at \url{https://github.com/Akola-Mbey-Denis/EfficientEnsemble}
翻訳日:2023-10-15 14:24:35 公開日:2023-10-12
# 多人数追跡法の比較研究

Comparative study of multi-person tracking methods ( http://arxiv.org/abs/2310.04825v2 )

ライセンス: Link先を確認
Denis Mbey Akola(参考訳) 本稿では,MOTチャレンジのリーダーボード(The MOTChallenge web page: https://motchallenge.net.com)にランクインした2つの追跡アルゴリズム(SORT~\cite{7533003} と Tracktor++~\cite{2019} )について述べる。 本研究の目的は,mot追跡アルゴリズムの性能を向上させるための追跡パイプラインにおいて,使用される手法を発見し,それらのアルゴリズムに関する有用な洞察を提供することである。 この目的のために,一般的なトラッキング・バイ・検出手法を採用した。 私たちはMOT17Detデータセット(MOT17Det: https://motchallenge.net/data/MOT17Det/ )を使用して、独自の歩行者検出モデルをトレーニングしました。 また、Tracktor++でMOT17データセット(MOT17 : https://motchallenge.net/data/MOT17/ )でトレーニングされた再識別モデルを使用して、誤識別アラームを低減しました。 次に,トラクタ++がSORTよりも優れたマルチパーソントラッキングアルゴリズムであることを示す実験結果を示す。 また,Tracktor++の結果に対するre-identification(RE-ID)ネットワークと動作の寄与を明らかにするためにアブレーション研究を行った。 最後に、将来の研究のためにいくつかの勧告を提供することで締めくくります。

This paper presents a study of two tracking algorithms (SORT~\cite{7533003} and Tracktor++~\cite{2019}) that were ranked first positions on the MOT Challenge leaderboard (The MOTChallenge web page: https://motchallenge.net ). The purpose of this study is to discover the techniques used and to provide useful insights about these algorithms in the tracking pipeline that could improve the performance of MOT tracking algorithms. To this end, we adopted the popular tracking-by-detection approach. We trained our own Pedestrian Detection model using the MOT17Det dataset (MOT17Det : https://motchallenge.net/data/MOT17Det/ ). We also used a re-identification model trained on MOT17 dataset (MOT17 : https://motchallenge.net/data/MOT17/ ) for Tracktor++ to reduce the false re-identification alarms. We then present experimental results which shows that Tracktor++ is a better multi-person tracking algorithm than SORT. We also performed ablation studies to discover the contribution of re-identification(RE-ID) network and motion to the results of Tracktor++. We finally conclude by providing some recommendations for future research.
翻訳日:2023-10-15 14:24:11 公開日:2023-10-12
# 脆弱性検出のための因果的ディープラーニング

Towards Causal Deep Learning for Vulnerability Detection ( http://arxiv.org/abs/2310.07958v1 )

ライセンス: Link先を確認
Md Mahbubur Rahman, Ira Ceka, Chengzhi Mao, Saikat Chakraborty, Baishakhi Ray, and Wei Le(参考訳) ディープラーニングの脆弱性検出は近年、有望な結果を示している。 しかし、実際に非常に有用であることを妨げる重要な課題は、モデルが摂動下では堅牢ではなく、例えば実世界の未確認プロジェクトにトレーニングされたモデルを適用するなど、アウト・オブ・ディストリビューション(OOD)データに対してうまく一般化できないことである。 これは、このモデルがラベルとの相関が高まるような非ロバスト特徴(変数名など)を学習したためだと仮定する。 perturbedとoodデータセットがもはや同じスプリアス機能を持っていない場合、モデル予測は失敗する。 本稿では,この課題に対処するため,ディープラーニングの脆弱性検出に因果性を導入した。 我々のアプローチは2つのフェーズからなる。 まず,モデルが予測に使用するスプリアスな特徴を発見するために,新しい摂動をデザインした。 第2に,既存のディープラーニングモデルに加えて,因果学習アルゴリズム,特にdo-calculusを適用し,スプリアス特徴の利用を体系的に排除し,因果に基づく予測を促進する。 その結果、CausalVulは、実験したすべての最先端モデルとデータセットに対して、モデル精度、堅牢性、OOD性能を一貫して改善した。 私たちの知る限りでは、これは計算に基づく因果学習をソフトウェア工学モデルに導入した最初の作品であり、モデル精度、堅牢性、一般化を改善するのに本当に有用であることを示している。 私たちのレプリケーションパッケージはhttps://figshare.com/s/0ffda320dcb96c249ef2にあります。

Deep learning vulnerability detection has shown promising results in recent years. However, an important challenge that still blocks it from being very useful in practice is that the model is not robust under perturbation and it cannot generalize well over the out-of-distribution (OOD) data, e.g., applying a trained model to unseen projects in real world. We hypothesize that this is because the model learned non-robust features, e.g., variable names, that have spurious correlations with labels. When the perturbed and OOD datasets no longer have the same spurious features, the model prediction fails. To address the challenge, in this paper, we introduced causality into deep learning vulnerability detection. Our approach CausalVul consists of two phases. First, we designed novel perturbations to discover spurious features that the model may use to make predictions. Second, we applied the causal learning algorithms, specifically, do-calculus, on top of existing deep learning models to systematically remove the use of spurious features and thus promote causal based prediction. Our results show that CausalVul consistently improved the model accuracy, robustness and OOD performance for all the state-of-the-art models and datasets we experimented. To the best of our knowledge, this is the first work that introduces do calculus based causal learning to software engineering models and shows it's indeed useful for improving the model accuracy, robustness and generalization. Our replication package is located at https://figshare.com/s/0ffda320dcb96c249ef2.
翻訳日:2023-10-15 11:43:36 公開日:2023-10-12
# Graph-SCP: グラフニューラルネットワークによる集合被覆問題の高速化

Graph-SCP: Accelerating Set Cover Problems with Graph Neural Networks ( http://arxiv.org/abs/2310.07979v1 )

ライセンス: Link先を確認
Zohair Shafi, Benjamin A. Miller, Tina Eliassi-Rad, Rajmonda S. Caceres(参考訳) 機械学習(ML)アプローチは、組合せ最適化(CO)問題を加速するためにますます利用されている。 本稿では,SCP(Set Cover Problem)を特に検討し,解空間を含むより小さなサブプロブレムの同定を学習することにより,既存の最適化問題を拡張可能なグラフニューラルネットワークであるGraph-SCPを提案する。 合成重み付きおよび非重み付きSCPインスタンスにおけるGraph-SCPの性能と,SCPの標準ベンチマークであるOR Libraryの事例について検討した。 本稿では,Graph-SCP が問題サイズを 30-70% 削減し,商用解法 (Gurobi) と比較して実行時間を最大25倍に高速化することを示す。 望ましい最適性しきい値が与えられると、Graph-SCPはそれを改善するか、100%最適性を達成する。 これは、多項式実行時間を保証するために、ソリューションの品質を著しく損なう高速な欲望ソリューションとは対照的である。 Graph-SCPはより大きな問題サイズに一般化することができ、他のML拡張COソルバと併用することで、さらなる実行時間の改善につながる可能性がある。

Machine learning (ML) approaches are increasingly being used to accelerate combinatorial optimization (CO) problems. We look specifically at the Set Cover Problem (SCP) and propose Graph-SCP, a graph neural network method that can augment existing optimization solvers by learning to identify a much smaller sub-problem that contains the solution space. We evaluate the performance of Graph-SCP on synthetic weighted and unweighted SCP instances with diverse problem characteristics and complexities, and on instances from the OR Library, a canonical benchmark for SCP. We show that Graph-SCP reduces the problem size by 30-70% and achieves run time speedups up to~25x when compared to commercial solvers (Gurobi). Given a desired optimality threshold, Graph-SCP will improve upon it or even achieve 100% optimality. This is in contrast to fast greedy solutions that significantly compromise solution quality to achieve guaranteed polynomial run time. Graph-SCP can generalize to larger problem sizes and can be used with other conventional or ML-augmented CO solvers to lead to potential additional run time improvement.
翻訳日:2023-10-15 11:33:45 公開日:2023-10-12
# 治療の利益が最も大きいと予測されるものを選択するための統計的性能保証

Statistical Performance Guarantee for Selecting Those Predicted to Benefit Most from Treatment ( http://arxiv.org/abs/2310.07973v1 )

ライセンス: Link先を確認
Michael Lingzhi Li, Kosuke Imai(参考訳) さまざまな分野にわたって、多くの研究者が機械学習(ml)アルゴリズムを使用して、例外応答者(exceptional responders)と呼ばれる個人サブグループを特定している。 一般的なアプローチは2つのステップからなる。 まず、MLアルゴリズムを用いて条件平均処理効果またはそのプロキシを推定する。 そして、治療の優先順位付けスコアのカットオフを決定し、最も効果があると予測されたものを選択する。 残念ながら、これらの推定された治療優先順位付けスコアは、しばしばバイアスがありうる。 さらに、同じデータを用いてカットオフ値を選択し、選択した個人の平均処理効果を複数のテスト問題で評価する。 これらの課題に対処するため,我々は,質的選択の仕方に関わらず,治療優先スコアが少なくとも任意の質的価値よりも高い個人間のソート平均治療効果(gates)を実験的に評価するための統一信頼バンドを開発した。 これにより、選択された部分群に対する GATES が一定の閾値を超えるという統計的保証が得られる。 提案手法の有効性は,提案手法のモデル化や再サンプリングを必要とせず,処理のランダム化と単位のランダムサンプリングにのみ依存する。 これにより、他の幅広い因果量を含む適用範囲を広げる。 シミュレーション研究により,提案した一様信頼バンドの試験的カバレッジは,試料が100個程度小さい場合,名目カバレッジに近いことがわかった。 我々は,後期前立腺癌の臨床試験を解析し,統計的性能保証を有する例外的反応器の比率が比較的高いことを見出した。

Across a wide array of disciplines, many researchers use machine learning (ML) algorithms to identify a subgroup of individuals, called exceptional responders, who are likely to be helped by a treatment the most. A common approach consists of two steps. One first estimates the conditional average treatment effect or its proxy using an ML algorithm. They then determine the cutoff of the resulting treatment prioritization score to select those predicted to benefit most from the treatment. Unfortunately, these estimated treatment prioritization scores are often biased and noisy. Furthermore, utilizing the same data to both choose a cutoff value and estimate the average treatment effect among the selected individuals suffer from a multiple testing problem. To address these challenges, we develop a uniform confidence band for experimentally evaluating the sorted average treatment effect (GATES) among the individuals whose treatment prioritization score is at least as high as any given quantile value, regardless of how the quantile is chosen. This provides a statistical guarantee that the GATES for the selected subgroup exceeds a certain threshold. The validity of the proposed methodology depends solely on randomization of treatment and random sampling of units without requiring modeling assumptions or resampling methods. This widens its applicability including a wide range of other causal quantities. A simulation study shows that the empirical coverage of the proposed uniform confidence bands is close to the nominal coverage when the sample is as small as 100. We analyze a clinical trial of late-stage prostate cancer and find a relatively large proportion of exceptional responders with a statistical performance guarantee.
翻訳日:2023-10-15 11:33:25 公開日:2023-10-12
# Think, Act, and Ask: オープンワールドの対話型パーソナライズされたロボットナビゲーション

Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation ( http://arxiv.org/abs/2310.07968v1 )

ライセンス: Link先を確認
Yinpei Dai, Run Peng, Sikai Li, Joyce Chai(参考訳) ゼロショットオブジェクトナビゲーション(zson)は、エージェントが未知の環境でオープンボキャブラリオブジェクトに向かってナビゲートできるようにする。 ZSONの既存の研究は主に、汎用オブジェクトクラスを見つけるための個々の命令に従うことに焦点を当て、自然言語の相互作用の利用やユーザ固有のオブジェクトを特定する複雑さを無視している。 これらの制限に対処するために,ロボットがユーザと対話しながらパーソナライズされた目標オブジェクトにナビゲートする必要がある,ゼロショット対話型パーソナライズドオブジェクトナビゲーション(zipon)を導入する。 zipon を解くために,大規模言語モデル (llm) を用いて知覚・ナビゲーション・コミュニケーションのためのモジュールを逐次的に操作する open-world interactive personal navigation (orion) という新しいフレームワークを提案する。 実験の結果,ユーザフィードバックを活用できる対話型エージェントの性能は有意な改善を示した。 しかし,タスク完了とナビゲーションとインタラクションの効率のバランスが良好であることは,すべての方法において困難である。 さらに,多様なユーザフィードバックフォームがエージェントのパフォーマンスに与える影響について,さらなる知見を提供する。

Zero-Shot Object Navigation (ZSON) enables agents to navigate towards open-vocabulary objects in unknown environments. The existing works of ZSON mainly focus on following individual instructions to find generic object classes, neglecting the utilization of natural language interaction and the complexities of identifying user-specific objects. To address these limitations, we introduce Zero-shot Interactive Personalized Object Navigation (ZIPON), where robots need to navigate to personalized goal objects while engaging in conversations with users. To solve ZIPON, we propose a new framework termed Open-woRld Interactive persOnalized Navigation (ORION), which uses Large Language Models (LLMs) to make sequential decisions to manipulate different modules for perception, navigation and communication. Experimental results show that the performance of interactive agents that can leverage user feedback exhibits significant improvement. However, obtaining a good balance between task completion and the efficiency of navigation and interaction remains challenging for all methods. We further provide more findings on the impact of diverse user feedback forms on the agents' performance.
翻訳日:2023-10-15 11:32:59 公開日:2023-10-12
# ZEST: 見えないIoTデバイス分類のための注意ベースのゼロショット学習

ZEST: Attention-based Zero-Shot Learning for Unseen IoT Device Classification ( http://arxiv.org/abs/2310.08036v1 )

ライセンス: Link先を確認
Binghui Wu, Philipp Gysel, Dinil Mon Divakaran, and Mohan Gurusamy(参考訳) 近年,ネットワークに接続されたiotデバイスを分類するための機械学習モデルが提案されている。 しかしながら、モデルのトレーニング中にすべてのデバイス(そのためのトラフィック)が利用できないという現実的な課題がまだ残っている。 つまり、運用フェーズの間は、トレーニングフェーズ中に見えない新しいデバイスを分類する必要があります。 この課題に対処するため、私たちはZESTというZSL(ゼロショット学習)フレームワークを提案します。 ZESTは 一 IoTトラフィックの潜在空間表現を抽出するための自己注意型ネットワーク特徴抽出装置、SANE 二 擬似データを生成するために潜時特徴を用いて復号器を訓練する生成モデル 三 装置の分類のために生成された擬似データに基づいて訓練された監督モデル 実IoTトラフィックデータに関する広範な実験を実施しました。 一 ZEST は、基準線より著しく(正確性において)改善する。 二 ネットワークトラフィックのモデリングに広く用いられているLSTMよりも意味のある表現を抽出することができる。

Recent research works have proposed machine learning models for classifying IoT devices connected to a network. However, there is still a practical challenge of not having all devices (and hence their traffic) available during the training of a model. This essentially means, during the operational phase, we need to classify new devices not seen during the training phase. To address this challenge, we propose ZEST -- a ZSL (zero-shot learning) framework based on self-attention for classifying both seen and unseen devices. ZEST consists of i) a self-attention based network feature extractor, termed SANE, for extracting latent space representations of IoT traffic, ii) a generative model that trains a decoder using latent features to generate pseudo data, and iii) a supervised model that is trained on the generated pseudo data for classifying devices. We carry out extensive experiments on real IoT traffic data; our experiments demonstrate i) ZEST achieves significant improvement (in terms of accuracy) over the baselines; ii) ZEST is able to better extract meaningful representations than LSTM which has been commonly used for modeling network traffic.
翻訳日:2023-10-15 11:21:23 公開日:2023-10-12
# 受け取り、理性、そして反応:自動運転車の大型言語モデルで言うように運転する

Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles ( http://arxiv.org/abs/2310.08034v1 )

ライセンス: Link先を確認
Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye and Ziran Wang(参考訳) ai(human-centric design and artificial intelligence)の能力が融合し、次世代自動運転車の新たな可能性が始まった。 これらの車両は乗客と動的に相互作用し、好みに適応することができる。 本稿では,Large Language Models (LLMs) を利用した自律走行車における意思決定プロセスを強化するフレームワークを提案する。 LLMの言語的・文脈的理解能力と専門的なツールを活用することで,LLMの言語と推論能力を自律走行車に統合することを目指す。 本研究は,自動運転と戦術的意思決定タスクのための環境の集合である highwayenv を用いて,様々なシナリオにおける llms の解釈,相互作用,推論を探索する実験を含む。 また、リアルタイムのパーソナライズも検討し、LLMが音声コマンドに基づいて運転行動にどう影響するかを示す。 実験結果では,思考連鎖の促進,運転判断の改善,言語フィードバックによるパーソナライズされた運転体験の促進などのメリットが浮き彫りになった。 提案するフレームワークは、自律走行運転を変革し、パーソナライズされたサポート、透明性のある意思決定、安全性と有効性を高めるための継続的学習を提供することを目的としている。 LLMを自動運転車に統合することで、ユーザ中心、透過的で適応的な自動運転エコシステムを実現する。

The fusion of human-centric design and artificial intelligence (AI) capabilities has opened up new possibilities for next-generation autonomous vehicles that go beyond transportation. These vehicles can dynamically interact with passengers and adapt to their preferences. This paper proposes a novel framework that leverages Large Language Models (LLMs) to enhance the decision-making process in autonomous vehicles. By utilizing LLMs' linguistic and contextual understanding abilities with specialized tools, we aim to integrate the language and reasoning capabilities of LLMs into autonomous vehicles. Our research includes experiments in HighwayEnv, a collection of environments for autonomous driving and tactical decision-making tasks, to explore LLMs' interpretation, interaction, and reasoning in various scenarios. We also examine real-time personalization, demonstrating how LLMs can influence driving behaviors based on verbal commands. Our empirical results highlight the substantial advantages of utilizing chain-of-thought prompting, leading to improved driving decisions, and showing the potential for LLMs to enhance personalized driving experiences through ongoing verbal feedback. The proposed framework aims to transform autonomous vehicle operations, offering personalized support, transparent decision-making, and continuous learning to enhance safety and effectiveness. We achieve user-centric, transparent, and adaptive autonomous driving ecosystems supported by the integration of LLMs into autonomous vehicles.
翻訳日:2023-10-15 11:21:06 公開日:2023-10-12
# なぜもっと訓練するの? 記憶による効率的なメンバーシップ推論

Why Train More? Effective and Efficient Membership Inference via Memorization ( http://arxiv.org/abs/2310.08015v1 )

ライセンス: Link先を確認
Jihye Choi, Shruti Tople, Varun Chandrasekaran, Somesh Jha(参考訳) メンバーシップ推論攻撃(mias)は、マシンラーニングモデルのプライベートトレーニングデータセット内の特定のデータサンプルを識別することを目的としている。 多くの実用的なブラックボックスMIAは、シャドーモデルを訓練するためにデータ分散(プライベートデータが描画されるのと同じ分布)へのクエリアクセスを必要とする。 これにより、その分布から引き出された「無」または「無」なサンプルを訓練したモデルを取得し、検討中のサンプルの特性を分析する。 敵はしばしば、MIAに必要な信号を抽出するために数百以上のシャドウモデルを訓練する必要がある。 本稿では,サンプルを戦略的に選択することで,影モデルの数を最小限に抑えつつ攻撃成功を最大化できることを示す。 まず, 異なるサンプル脆弱性をMIAに説明するための重要な特性として, メモリ化を示唆した。 我々は、MIの利点と記憶を結び付ける理論的境界によってこれを定式化する。 第2に,MIAに必要な影モデル数と記憶量とを結合するサンプル複雑性境界を示す。 最後に、我々の理論的議論を総合的な実験で確認し、高い暗記スコアのサンプルを利用することで、敵は対抗できる。 (a)使用したMIAに関係なく有効性を著しく向上させ、 (b) 最先端手法と比較して, 影モデルの大きさを2桁近く削減する。

Membership Inference Attacks (MIAs) aim to identify specific data samples within the private training dataset of machine learning models, leading to serious privacy violations and other sophisticated threats. Many practical black-box MIAs require query access to the data distribution (the same distribution where the private data is drawn) to train shadow models. By doing so, the adversary obtains models trained "with" or "without" samples drawn from the distribution, and analyzes the characteristics of the samples under consideration. The adversary is often required to train more than hundreds of shadow models to extract the signals needed for MIAs; this becomes the computational overhead of MIAs. In this paper, we propose that by strategically choosing the samples, MI adversaries can maximize their attack success while minimizing the number of shadow models. First, our motivational experiments suggest memorization as the key property explaining disparate sample vulnerability to MIAs. We formalize this through a theoretical bound that connects MI advantage with memorization. Second, we show sample complexity bounds that connect the number of shadow models needed for MIAs with memorization. Lastly, we confirm our theoretical arguments with comprehensive experiments; by utilizing samples with high memorization scores, the adversary can (a) significantly improve its efficacy regardless of the MIA used, and (b) reduce the number of shadow models by nearly two orders of magnitude compared to state-of-the-art approaches.
翻訳日:2023-10-15 11:20:44 公開日:2023-10-12
# AutoFHE:FHEによる効率的な評価のためのCNNの自動適応

AutoFHE: Automated Adaption of CNNs for Efficient Evaluation over FHE ( http://arxiv.org/abs/2310.08012v1 )

ライセンス: Link先を確認
Wei Ao, Vishnu Naresh Boddeti(参考訳) rns-ckk下での深い畳み込みニューラルネットワーク(cnns)の安全な推論には、非線型活性化関数の多項式近似が含まれる。 しかし、既存のアプローチには3つの制限がある。 1) 多項式近似と同型評価アーキテクチャは,各CNNアーキテクチャに対して手動でカスタマイズされ,他のネットワークに一般化されない。 2) 準最適近似: 各活性化関数はcnnで表される関数の代わりに近似される。 3)制限設計:高次多項式近似または低次多項式近似を用いる。 前者は高い精度を維持しながらブートストラップ操作により推論を遅くし、後者は暗号文推論を加速するが精度を損なう。 これらの制約に対処するため、ANS-CKKSの下で安全な推論のために標準CNNを自動的に適応するAutoFHEを提案する。 重要なアイデアは、ブートストラップ操作の配置の観点から準同型評価アーキテクチャと共同で最適化された階層型混合次多項式活性化関数を採用することである。 この問題は、精度を最大化し、ブートストラップ操作の数を最小化するために、多目的最適化フレームワーク内でモデル化される。 AutoFHEは任意のCNNアーキテクチャに柔軟に適用でき、精度とレイテンシのトレードオフにまたがる多様なソリューションを提供する。 RNS-CKKS暗号化CIFARデータセットに対する実験的評価は、AutoFHEが高次多項式を用いた手法と比較して、セキュアな推論を1.32\times$から1.8\times$に加速することを示している。 また、低次多項式を用いる方法に比べて最大2.56%精度が向上する。 最後に、AutoFHEは推論を加速し、TFHEのCNNと比較して、それぞれ103\times$と3.46%の精度を向上する。

Secure inference of deep convolutional neural networks (CNNs) under RNS-CKKS involves polynomial approximation of unsupported non-linear activation functions. However, existing approaches have three main limitations: 1) Inflexibility: The polynomial approximation and associated homomorphic evaluation architecture are customized manually for each CNN architecture and do not generalize to other networks. 2) Suboptimal Approximation: Each activation function is approximated instead of the function represented by the CNN. 3) Restricted Design: Either high-degree or low-degree polynomial approximations are used. The former retains high accuracy but slows down inference due to bootstrapping operations, while the latter accelerates ciphertext inference but compromises accuracy. To address these limitations, we present AutoFHE, which automatically adapts standard CNNs for secure inference under RNS-CKKS. The key idea is to adopt layerwise mixed-degree polynomial activation functions, which are optimized jointly with the homomorphic evaluation architecture in terms of the placement of bootstrapping operations. The problem is modeled within a multi-objective optimization framework to maximize accuracy and minimize the number of bootstrapping operations. AutoFHE can be applied flexibly on any CNN architecture, and it provides diverse solutions that span the trade-off between accuracy and latency. Experimental evaluation over RNS-CKKS encrypted CIFAR datasets shows that AutoFHE accelerates secure inference by $1.32\times$ to $1.8\times$ compared to methods employing high-degree polynomials. It also improves accuracy by up to 2.56% compared to methods using low-degree polynomials. Lastly, AutoFHE accelerates inference and improves accuracy by $103\times$ and 3.46%, respectively, compared to CNNs under TFHE.
翻訳日:2023-10-15 11:20:23 公開日:2023-10-12
# ブール関数の合理度と応用について

On the Rational Degree of Boolean Functions and Applications ( http://arxiv.org/abs/2310.08004v1 )

ライセンス: Link先を確認
Vishnu Iyer, Siddhartha Jain, Matt Kovacs-Deak, Vinayak M. Kumar, Luke Schaeffer, Daochen Wang, Michael Whitmeyer(参考訳) 実)有理次数として知られるブール関数の自然複雑性測度について検討する。 総関数 $f$ に対し、$\mathrm{rdeg}(f)$ は多項式的に$\mathrm{deg}(f)$ に関係しており、$\mathrm{deg}(f)$ はフーリエ次数である。 この予想に向けて、対称函数の有理次数は少なくとも$\mathrm{deg}(f)/2$であり、単調函数の有理次数は少なくとも$\sqrt{\mathrm{deg}(f)}$であることを示す。 これらの下限はどちらも厳密である。 さらに、すべてのリード・オンス深さ-$d$ブール公式が少なくとも$\Omega(\mathrm{deg}(f)^{1/d})$であることを示す。 さらに、$n$変数上のほとんどすべてのブール函数が少なくとも$n/2 - O(\sqrt{n})$の有理次数を持つことを示す。 全体関数とは対照的に, 有理次数と近似次数の間の非有界な分離を両方向で確認する部分関数を示す。 その結果、量子コンピュータでは、ポスト選択と境界エラーはブラックボックスモデルでは比較不能な資源であることが示される。

We study a natural complexity measure of Boolean functions known as the (exact) rational degree. For total functions $f$, it is conjectured that $\mathrm{rdeg}(f)$ is polynomially related to $\mathrm{deg}(f)$, where $\mathrm{deg}(f)$ is the Fourier degree. Towards this conjecture, we show that symmetric functions have rational degree at least $\mathrm{deg}(f)/2$ and monotone functions have rational degree at least $\sqrt{\mathrm{deg}(f)}$. We observe that both of these lower bounds are tight. In addition, we show that all read-once depth-$d$ Boolean formulae have rational degree at least $\Omega(\mathrm{deg}(f)^{1/d})$. Furthermore, we show that almost every Boolean function on $n$ variables has rational degree at least $n/2 - O(\sqrt{n})$. In contrast to total functions, we exhibit partial functions that witness unbounded separations between rational and approximate degree, in both directions. As a consequence, we show that for quantum computers, post-selection and bounded-error are incomparable resources in the black-box model.
翻訳日:2023-10-15 11:19:54 公開日:2023-10-12
# MLP-AMDC: 適応マスクに基づくデュアルカメラスナップショットハイパースペクトルイメージングのためのMLPアーキテクチャ

MLP-AMDC: An MLP Architecture for Adaptive-Mask-based Dual-Camera snapshot hyperspectral imaging ( http://arxiv.org/abs/2310.08002v1 )

ライセンス: Link先を確認
Zeyu Cai, Can Zhang, Xunhao Chen, Shanghuan Liu, Chengqian Jin, Feipeng Da(参考訳) Coded Aperture Snaptral Imaging (CASSI) システムは、Hyper-Spectral Image (HSI) を動的に取得する従来の手法よりも優れているが、次のような問題がある。 1) 従来のマスクはランダムパターンや解析設計に依存しており, どちらもCASSIの性能改善を制限している。 2) 既存の高品質な復元アルゴリズムは、復元が遅いため、シーン情報のオフライン化しかできない。 以上の2つの問題に対処するため,アダプティブマスクをベースとしたRGBカメラをマルチモーダル入力として導入し,再現性を向上させることを目的としたAMDC-CASSIシステムの設計を行った。 既存のSOTA再構成方式は変圧器をベースとしているが,自己注意操作はネットワークの動作効率を低下させる。 本稿では,再構成ネットワークの推論速度を改善するために,MLP-AMDC (Adaptive-Mask-based Dual-Camera) のためのMLPアーキテクチャを提案する。 多くの実験により、mlpはhsi再構成のためのトランスベース構造よりも性能が良いことが示されているが、mlpはネットワーク推論の速度が大幅に向上し、パラメータや演算も少ないが、sataよりも8db改善され、少なくとも5倍の再構成速度が向上している。 (1992/MLP-AMDC)

Coded Aperture Snapshot Spectral Imaging (CASSI) system has great advantages over traditional methods in dynamically acquiring Hyper-Spectral Image (HSI), but there are the following problems. 1) Traditional mask relies on random patterns or analytical design, both of which limit the performance improvement of CASSI. 2) Existing high-quality reconstruction algorithms are slow in reconstruction and can only reconstruct scene information offline. To address the above two problems, this paper designs the AMDC-CASSI system, introducing RGB camera with CASSI based on Adaptive-Mask as multimodal input to improve the reconstruction quality. The existing SOTA reconstruction schemes are based on transformer, but the operation of self-attention pulls down the operation efficiency of the network. In order to improve the inference speed of the reconstruction network, this paper proposes An MLP Architecture for Adaptive-Mask-based Dual-Camera (MLP-AMDC) to replace the transformer structure of the network. Numerous experiments have shown that MLP performs no less well than transformer-based structures for HSI reconstruction, while MLP greatly improves the network inference speed and has less number of parameters and operations, our method has a 8 db improvement over SOTA and at least a 5-fold improvement in reconstruction speed. (https://github.com/caizeyu1992/MLP-AMDC.)
翻訳日:2023-10-15 11:19:25 公開日:2023-10-12
# 非標的メタボロミクスにおける値インプテーションを欠くマルチビュー変分オートエンコーダ

Multi-View Variational Autoencoder for Missing Value Imputation in Untargeted Metabolomics ( http://arxiv.org/abs/2310.07990v1 )

ライセンス: Link先を確認
Chen Zhao, Kuan-Jui Su, Chong Wu, Xuewei Cao, Qiuying Sha, Wu Li, Zhe Luo, Tian Qin, Chuan Qiu, Lan Juan Zhao, Anqi Liu, Lindong Jiang, Xiao Zhang, Hui Shen, Weihua Zhou, Hong-Wen Deng(参考訳) 背景: データの欠落は質量分析に基づくメタボロミクスの一般的な課題であり、偏りや不完全な分析につながる可能性がある。 wgs(whole-genome sequencing)データとメタボロミクスデータの統合は、メタボロミクス研究におけるデータのインプテーションの正確性を高めるための有望なアプローチとして現れてきた。 方法: 本研究は, WGSデータと参照代謝産物の情報を利用して未知の代謝産物を注入する新しい手法を提案する。 提案手法では,多視点変動型オートエンコーダを用いて重み付けスコア,ポリジェネティックリスクスコア(PGS),リンケージ不平衡単一ヌクレオチド多型(SNP)を共同でモデル化し,特徴抽出とメタボロミクスデータ計算の欠如について検討した。 両方のオミクスデータの潜在表現を学習することにより、ゲノム情報に基づくメタボロミクス値の欠落を効果的に誘発することができる。 結果: 経験的メタボロミクスデータセットの性能評価を行い, 従来の計算法と比較して, その優位性を実証した。 テンプレートメタボライト35種, PGS, LD-pruned SNPsを用いて, メタボライト71.55%のr2スコアを0.01以上達成した。 結論: メタボロミクス計算におけるWGSデータの統合は, データの完全性の向上だけでなく, 下流の分析も促進し, 代謝経路や疾患関連に関するより包括的かつ正確な研究の道を開く。 本研究は,WGSデータを用いたメタボロミクスデータ計算における有用性についての知見を提供し,精度医学研究におけるマルチモーダルデータ統合の意義を浮き彫りにした。

Background: Missing data is a common challenge in mass spectrometry-based metabolomics, which can lead to biased and incomplete analyses. The integration of whole-genome sequencing (WGS) data with metabolomics data has emerged as a promising approach to enhance the accuracy of data imputation in metabolomics studies. Method: In this study, we propose a novel method that leverages the information from WGS data and reference metabolites to impute unknown metabolites. Our approach utilizes a multi-view variational autoencoder to jointly model the burden score, polygenetic risk score (PGS), and linkage disequilibrium (LD) pruned single nucleotide polymorphisms (SNPs) for feature extraction and missing metabolomics data imputation. By learning the latent representations of both omics data, our method can effectively impute missing metabolomics values based on genomic information. Results: We evaluate the performance of our method on empirical metabolomics datasets with missing values and demonstrate its superiority compared to conventional imputation techniques. Using 35 template metabolites derived burden scores, PGS and LD-pruned SNPs, the proposed methods achieved r2-scores > 0.01 for 71.55% of metabolites. Conclusion: The integration of WGS data in metabolomics imputation not only improves data completeness but also enhances downstream analyses, paving the way for more comprehensive and accurate investigations of metabolic pathways and disease associations. Our findings offer valuable insights into the potential benefits of utilizing WGS data for metabolomics data imputation and underscore the importance of leveraging multi-modal data integration in precision medicine research.
翻訳日:2023-10-15 11:19:00 公開日:2023-10-12
# 位相検索アルゴリズムによる2光子干渉パターンからの位相定数の回復

Recovery of phase constant from two-photon interference pattern by phase retrieval algorithm ( http://arxiv.org/abs/2310.07988v1 )

ライセンス: Link先を確認
Yuhang Lei, Wen Zhao, Liang cui, Xiaoyin Li(参考訳) 2つの独立した入射パルスを持つhom干渉計では、入射方向の1つに分散媒体を追加することで干渉パターンに影響を与えることができるが、干渉パターンから媒体の位相定数を再構成する方法は存在しない。 そこで我々は, 2つの位相探索アルゴリズムを適用し, 位相定数の導出が可能な2つの入射フィールド間の位相差関数の復元を行った。 シミュレーションにより, アルゴリズムの収束, 精度, 堅牢性を検証し, この位相回復過程が無視可能な誤差で良好に完了することを示した。 本研究では,2光子干渉を用いた高次分散計測のためのアルゴリズムツールを提供し,高分解能・位相感受性量子トモグラフィへの道を開く。

For a HOM interferometer with two independent incident pulses, the interference pattern can be affected by adding a dispersion medium on one of the incident directions, but there hasn't been a method to reconstruct the phase constant of the medium from the interference pattern. To solve it, we adapted two phase retrieval algorithms and used them to recover the phase difference function between the two incident fields, from which the phase constant can be derived. Through simulations, we verified the convergence, accuracy, and robustness of the algorithms, indicating that this phase recovery process can be completed well with negligible error. Our research finds a new application direction for the phase recovery algorithm, provides an algorithmic tool for high-order dispersion measurement using two-photon interference, and paves the way for a higher resolution and phase-sensitive quantum tomography.
翻訳日:2023-10-15 11:18:24 公開日:2023-10-12
# セマンティクスフォワード中継:6g協調通信のための新しい枠組み

Semantic-Forward Relaying: A Novel Framework Towards 6G Cooperative Communications ( http://arxiv.org/abs/2310.07987v1 )

ライセンス: Link先を確認
Wensheng Lin, Yuna Yan, Lixin Li, Zhu Han, Tad Matsumoto(参考訳) 本稿では,第6世代(6G)無線ネットワークに向けた協調通信のための新しい中継フレームワークであるセマンティックフォワード(SF)を提案する。 sfリレーは意味的な特徴を抽出して送信し、転送ペイロードを削減し、リンク内エラーに対するネットワークロバスト性も向上する。 サイド情報とターボ原理との協調通信の理論的基礎に基づいて、目的地での復号ゲインを高めるために、外部情報を反復的に交換するジョイントソースチャネル符号化アルゴリズムを設計する。 驚くべきことに、シミュレーションの結果は、悪いチャンネル条件でもsf中継は、回復した情報品質を効果的に改善できることを示している。

This letter proposes a novel relaying framework, semantic-forward (SF), for cooperative communications towards the sixth-generation (6G) wireless networks. The SF relay extracts and transmits the semantic features, which reduces forwarding payload, and also improves the network robustness against intra-link errors. Based on the theoretical basis for cooperative communications with side information and the turbo principle, we design a joint source-channel coding algorithm to iteratively exchange the extrinsic information for enhancing the decoding gains at the destination. Surprisingly, simulation results indicate that even in bad channel conditions, SF relaying can still effectively improve the recovered information quality.
翻訳日:2023-10-15 11:18:09 公開日:2023-10-12
# ガラスフロー制御系における表示伝達ロボットの強化学習:物理シミュレーションに基づくアプローチ

Reinforcement Learning of Display Transfer Robots in Glass Flow Control Systems: A Physical Simulation-Based Approach ( http://arxiv.org/abs/2310.07981v1 )

ライセンス: Link先を確認
Hwajong Lee, Chan Kim, Seong-Woo Kim(参考訳) フロー制御システムは製造システムの生産能力を高めるための重要な概念である。 生産性向上を目的としたフロー制御に関するスケジューリング最適化問題を解決するため、既存の手法は、ドメイン人間の専門家によるヒューリスティック設計に依存する。 そのため, 本手法では, 実際の機器による補正, 監視, 検証が必要である。 システム設計が複雑化するにつれて、監視時間が増加し、最適な設計に到達する確率が低下する。 フロー制御系のヒューリスティック設計に対する代替手法として,スケジューリング最適化問題の解法として深層強化学習法が検討されている。 これまでの強化学習の研究はいくつかの分野で優れた成果を上げているが、ディスプレイや半導体製造プロセスといった実際のFABへの適用性は明らかになっていない。 そこで本研究では,物理シミュレーション環境を実装し,強化学習によるディスプレイ製造におけるトランスファーロボットを用いたフロー制御システム設計を考案する手法を提案する。 本稿では,異なるディスプレイ転送ロボットのための仮想環境を構築するためのモデルとパラメータの設定と,ガラスフロー制御系の最適スケジューリングを得るための環境強化学習のトレーニング手法を提案する。 その実現性は、実際のプロセスで使用される異なるタイプのロボットを用いて検証された。

A flow control system is a critical concept for increasing the production capacity of manufacturing systems. To solve the scheduling optimization problem related to the flow control with the aim of improving productivity, existing methods depend on a heuristic design by domain human experts. Therefore, the methods require correction, monitoring, and verification by using real equipment. As system designs increase in complexity, the monitoring time increases, which decreases the probability of arriving at the optimal design. As an alternative approach to the heuristic design of flow control systems, the use of deep reinforcement learning to solve the scheduling optimization problem has been considered. Although the existing research on reinforcement learning has yielded excellent performance in some areas, the applicability of the results to actual FAB such as display and semiconductor manufacturing processes is not evident so far. To this end, we propose a method to implement a physical simulation environment and devise a feasible flow control system design using a transfer robot in display manufacturing through reinforcement learning. We present a model and parameter setting to build a virtual environment for different display transfer robots, and training methods of reinforcement learning on the environment to obtain an optimal scheduling of glass flow control systems. Its feasibility was verified by using different types of robots used in the actual process.
翻訳日:2023-10-15 11:17:57 公開日:2023-10-12
# 発声音声, 楽器, 見えない言語, テキスト記述音声の音声変換

Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and Textually Described Voices ( http://arxiv.org/abs/2310.08104v1 )

ライセンス: Link先を確認
Matthew Baas and Herman Kamper(参考訳) 音声変換は、対象話者の記録を基準として、音源音声を対象音声に変換することを目的としている。 新しいモデルはますます現実的な出力を生み出している。 しかし、音声障害のあるユーザーからの音声など、非標準データにモデルが供給されるとどうなるのか? 近年の音声変換モデルが非標準下流音声変換タスクにおいてどのように機能するかを検討する。 我々はk-nearest neighbors voice conversion (kNN-VC)と呼ばれる単純なアプローチを用いる。 音声変換,言語間変換,楽器変換,音声変換の4つの非標準応用について検討した。 後者は「ハイピッチな声を持つ若者」など、テキスト記述によって指定されたターゲット音声に変換される。 確立されたベースラインと比較すると,kNN-VCの音声変換性能は高い。 結果は、楽器とテキストから音声への変換タスクでより混ざっている。 例えば、kNN-VCはドラムのような楽器ではうまく機能するが、他の楽器では機能しない。 それでも、音声変換モデル(特にknn-vc)は、様々な非標準下流タスクに適用されつつあることを示している。 しかし、サンプルがトレーニング分布からかなり離れている場合、まだ制限がある。 コード、サンプル、トレーニングされたモデル: https://rf5.github.io/sacair2023-knnvc-demo/。

Voice conversion aims to convert source speech into a target voice using recordings of the target speaker as a reference. Newer models are producing increasingly realistic output. But what happens when models are fed with non-standard data, such as speech from a user with a speech impairment? We investigate how a recent voice conversion model performs on non-standard downstream voice conversion tasks. We use a simple but robust approach called k-nearest neighbors voice conversion (kNN-VC). We look at four non-standard applications: stuttered voice conversion, cross-lingual voice conversion, musical instrument conversion, and text-to-voice conversion. The latter involves converting to a target voice specified through a text description, e.g. "a young man with a high-pitched voice". Compared to an established baseline, we find that kNN-VC retains high performance in stuttered and cross-lingual voice conversion. Results are more mixed for the musical instrument and text-to-voice conversion tasks. E.g., kNN-VC works well on some instruments like drums but not on others. Nevertheless, this shows that voice conversion models - and kNN-VC in particular - are increasingly applicable in a range of non-standard downstream tasks. But there are still limitations when samples are very far from the training distribution. Code, samples, trained models: https://rf5.github.io/sacair2023-knnvc-demo/.
翻訳日:2023-10-15 11:12:01 公開日:2023-10-12
# 正規化モノトングラフオン平均フィールドゲームを学ぶ

Learning Regularized Monotone Graphon Mean-Field Games ( http://arxiv.org/abs/2310.08089v1 )

ライセンス: Link先を確認
Fengzhuo Zhang, Vincent Y. F. Tan, Zhaoran Wang, Zhuoran Yang(参考訳) 本稿では,正規化Graphon Mean-Field Games(GMFGs)における2つの基本的な問題を考察する。 まず、$\lambda$-regularized GMFG ($\lambda\geq 0$) の Nash Equilibrium (NE) の存在を確立する。 この結果は、GMFGの特殊な場合である非正規化GMFG($\lambda=0$)と$\lambda$-正規化MFG($\lambda$-regularized MFGs)の両方を分析するための以前の研究よりも弱い条件に依存している。 第二に,Lasry and Lions [2007] をモチーフとした弱単調GMFGのNE学習アルゴリズムを提案する。 従来の文献では、連続時間アルゴリズムを分析するか、離散時間アルゴリズムを分析するために余分な条件が必要であった。 対照的に,離散時間アルゴリズムを設計し,その収束率を弱単調条件下でのみ導出する。 さらに,単調gmfgsのアルゴリズムが欠落しているオンライン学習過程における行動-価値関数推定手法の開発と解析を行った。 これは最適化アルゴリズムのサブモジュールとして機能します。 設計アルゴリズムの効率は経験的評価によって裏付けられる。

This paper studies two fundamental problems in regularized Graphon Mean-Field Games (GMFGs). First, we establish the existence of a Nash Equilibrium (NE) of any $\lambda$-regularized GMFG (for $\lambda\geq 0$). This result relies on weaker conditions than those in previous works for analyzing both unregularized GMFGs ($\lambda=0$) and $\lambda$-regularized MFGs, which are special cases of GMFGs. Second, we propose provably efficient algorithms to learn the NE in weakly monotone GMFGs, motivated by Lasry and Lions [2007]. Previous literature either only analyzed continuous-time algorithms or required extra conditions to analyze discrete-time algorithms. In contrast, we design a discrete-time algorithm and derive its convergence rate solely under weakly monotone conditions. Furthermore, we develop and analyze the action-value function estimation procedure during the online learning process, which is absent from algorithms for monotone GMFGs. This serves as a sub-module in our optimization algorithm. The efficiency of the designed algorithm is corroborated by empirical evaluations.
翻訳日:2023-10-15 11:11:41 公開日:2023-10-12
# フェデレート学習のための炭素追跡モデル:量子化とスパーシフィケーションの影響

A Carbon Tracking Model for Federated Learning: Impact of Quantization and Sparsification ( http://arxiv.org/abs/2310.08087v1 )

ライセンス: Link先を確認
Luca Barbieri, Stefano Savazzi, Sanaz Kianoush, Monica Nicoli, Luigi Serio(参考訳) フェデレートラーニング(FL)手法は、エッジデバイスに機械学習タスクを分散するための効率的なコミュニケーション技術を採用し、中央集権的なソリューションと比較してデータストレージと計算の複雑さのオーバーヘッドを低減する。 大量のデータを生産者(センサー、マシン)からエネルギーを消費するデータセンターに移すのではなく、リソース要求による環境問題を引き起こす代わりに、flはいくつかの学習タスクのエネルギー需要を軽減し、新しい人工知能(aiot)アプリケーションを可能にする代替ソリューションを提供する。 本稿では,flシステムのエネルギーとカーボンフットプリントへの影響をリアルタイムにモニタリングする枠組みを提案する。 炭素追跡ツールは、コンセンサス(完全に分散化)と古典的なFLポリシーで評価される。 本稿では,エネルギー消費と炭素等価排出の観点から計算量と通信効率の異なるFL法を定量的に評価し,エネルギー効率設計の一般的なガイドラインを提案する。 その結果、コンセンサス駆動のFL実装は、通信のエネルギー効率が低い場合(すなわち25 Kbit/Joule)に炭素排出量を制限することが好ましいことが示唆された。 さらに、量子化とスパーシフィケーションの操作は学習性能とエネルギー消費のバランスをとっており、持続可能なfl設計に繋がる。

Federated Learning (FL) methods adopt efficient communication technologies to distribute machine learning tasks across edge devices, reducing the overhead in terms of data storage and computational complexity compared to centralized solutions. Rather than moving large data volumes from producers (sensors, machines) to energy-hungry data centers, raising environmental concerns due to resource demands, FL provides an alternative solution to mitigate the energy demands of several learning tasks while enabling new Artificial Intelligence of Things (AIoT) applications. This paper proposes a framework for real-time monitoring of the energy and carbon footprint impacts of FL systems. The carbon tracking tool is evaluated for consensus (fully decentralized) and classical FL policies. For the first time, we present a quantitative evaluation of different computationally and communication efficient FL methods from the perspectives of energy consumption and carbon equivalent emissions, suggesting also general guidelines for energy-efficient design. Results indicate that consensus-driven FL implementations should be preferred for limiting carbon emissions when the energy efficiency of the communication is low (i.e., < 25 Kbit/Joule). Besides, quantization and sparsification operations are shown to strike a balance between learning performances and energy consumption, leading to sustainable FL designs.
翻訳日:2023-10-15 11:11:21 公開日:2023-10-12
# RT-SRTS : 単一X線プロジェクションからの3次元同時再建と腫瘍切除

RT-SRTS: Angle-Agnostic Real-Time Simultaneous 3D Reconstruction and Tumor Segmentation from Single X-Ray Projection ( http://arxiv.org/abs/2310.08080v1 )

ライセンス: Link先を確認
Miao Zhu, Qiming Fu, Bo Liu, Mengxi Zhang, Bojian Li, Xiaoyan Luo, Fugen Zhou(参考訳) 放射線療法は腫瘍の主要な治療法の1つであるが、呼吸運動による臓器の運動は精度を制限している。 近年, 単一X線投影による3次元イメージングはこの問題に対処するための有望な方法として広く注目されている。 しかし, 腫瘍の直接的位置を伴わずに3次元画像の再構成は可能であり, 固定角度撮影でのみ有効であり, 放射線治療における動作制御の要件を十分に満たさない。 本研究では,マルチタスク学習(MTL)に基づく1つのネットワークに3次元画像と腫瘍のセグメンテーションを統合し,任意の角度で1つのX線投影からリアルタイムに3次元再構成と腫瘍のセグメンテーションを実現するイメージング手法RT-SRTSを提案する。 さらに,注意強化カリブレータ (aec) と不確かさ領域推定 (ure) モジュールを提案し,特徴抽出とセグメンテーション精度の向上を支援する。 提案手法を10例を対象に評価し,2種類の方法と比較した。 術式は上顎3次元再建に留まらず,寛解性腫瘍分節術を施行した。 同時再建と分節は70ミリ秒で完了し,リアルタイム腫瘍追跡に必要な時間しきい値よりも有意に高速であった。 AECとUREの併用効果もアブレーション試験により検証した。

Radiotherapy is one of the primary treatment methods for tumors, but the organ movement caused by respiratory motion limits its accuracy. Recently, 3D imaging from single X-ray projection receives extensive attentions as a promising way to address this issue. However, current methods can only reconstruct 3D image without direct location of the tumor and are only validated for fixed-angle imaging, which fails to fully meet the requirement of motion control in radiotherapy. In this study, we propose a novel imaging method RT-SRTS which integrates 3D imaging and tumor segmentation into one network based on the multi-task learning (MTL) and achieves real-time simultaneous 3D reconstruction and tumor segmentation from single X-ray projection at any angle. Futhermore, we propose the attention enhanced calibrator (AEC) and uncertain-region elaboration (URE) modules to aid feature extraction and improve segmentation accuracy. We evaluated the proposed method on ten patient cases and compared it with two state-of-the-art methods. Our approach not only delivered superior 3D reconstruction but also demonstrated commendable tumor segmentation results. The simultaneous reconstruction and segmentation could be completed in approximately 70 ms, significantly faster than the required time threshold for real-time tumor tracking. The efficacy of both AEC and URE was also validated through ablation studies.
翻訳日:2023-10-15 11:10:58 公開日:2023-10-12
# 散逸量子ウォークダイナミクスにおけるスペクトル幾何学からの自己加速

Self acceleration from spectral geometry in dissipative quantum-walk dynamics ( http://arxiv.org/abs/2310.08076v1 )

ライセンス: Link先を確認
Peng Xue, Quan Lin, Kunkun Wang, Lei Xiao, Stefano Longhi, Wei Yi(参考訳) 物理系の動的挙動は、しばしばそのスペクトル特性に由来する。 実効的な非エルミート記述が複素平面上のスペクトル構造を豊富なものにすることができる開システムでは、共役力学は著しく豊かであるが、基礎となる接続の同定と理解は困難である。 ここでは、局所励起の過渡自己加速と、損失光量子ウォークを用いた非エルミートスペクトルトポロジーとの対応を実験的に示す。 まず, 1次元の量子ウォークに着目し, 波動関数の短時間加速度の測定値が固有スペクトルで囲まれた領域に比例することを示した。 次に、複素パラメータ空間の固有スペクトルによって囲まれた体積に自己加速度が比例する2次元量子ウォークにおける類似の対応を明らかにする。 どちらの次元においても、過渡自己加速はドリフト速度における一定の流れに支配される長時間の挙動に交差する。 この結果はスペクトルトポロジと過渡ダイナミクスの普遍的な対応を明らかにし、スペクトル幾何学から派生した非エルミート系の現象に対する感度の高いプローブを提供する。

Dynamic behaviors of a physical system often originate from its spectral properties. In open systems, where the effective non-Hermitian description enables a wealth of spectral structures on the complex plane, the concomitant dynamics is significantly enriched, whereas the identification and comprehension of the underlying connections are challenging. Here we experimentally demonstrate the correspondence between the transient self acceleration of local excitations and the non-Hermitian spectral topology using lossy photonic quantum walks. Focusing first on one-dimensional quantum walks, we show that the measured short-time acceleration of the wave function is proportional to the area enclosed by the eigenspectrum. We then reveal similar correspondence in two-dimension quantum walks, where the self acceleration is proportional to the volume enclosed by the eigenspectrum in the complex parameter space. In both dimensions, the transient self acceleration crosses over to a long-time behavior dominated by a constant flow at the drift velocity. Our results unveil the universal correspondence between spectral topology and transient dynamics, and offer a sensitive probe for phenomena in non-Hermitian systems that originate from spectral geometry.
翻訳日:2023-10-15 11:10:34 公開日:2023-10-12
# 定値学習のための時間空間低境界

Tight Time-Space Lower Bounds for Constant-Pass Learning ( http://arxiv.org/abs/2310.08070v1 )

ライセンス: Link先を確認
Xin Lyu, Avishay Tal, Hongxun Wu, Junzhao Yang(参考訳) ラズは彼の画期的な論文で、任意のパリティ学習アルゴリズムは二次記憶か指数的なサンプル数(FOCS'16, JACM'19]を必要とすることを示した。 その後の一連の研究は、その結果を大規模な学習問題へと拡張した。 最近まで、これらすべての結果は、各サンプルが独立に描画され、学習者が1回のパスでサンプルのストリームを渡すストリーミングモデルで学習することを考慮していた。 Garg, Raz, Tal [CCC'19] はより強力なモデルであり、ストリーム上で複数のパスが可能である。 2ドルのパスモデルでは、サイズの学習パリティである$n$が、サイズ$n^{1.5}$または少なくとも$^{\sqrt{n}}$サンプルを必要とすることを示した。 (この結果は、他の学習問題にも一般化します) この研究では、一定の$q$ に対して、サンプルストリームを$q$ で渡すパリティ学習アルゴリズムのメモリサンプル下限を厳密に証明します。 このような学習者には、メモリサイズが$\Omega(n^{2})$か、少なくとも$2^{\Omega(n)}$サンプルが必要である。 厳密な下限を確立することに加えて、これは任意の$q\ge 3$に対する$q$パス学習のための最初の非自明な下限である。 先行研究と同様に, ほぼ正方形に近い概念を持つ学習問題にも拡張した。 我々は下界を上界で補完し、$q$パスのパリティ学習を$O(n^2/\log q)$メモリで効率的に行うことを示す。

In his breakthrough paper, Raz showed that any parity learning algorithm requires either quadratic memory or an exponential number of samples [FOCS'16, JACM'19]. A line of work that followed extended this result to a large class of learning problems. Until recently, all these results considered learning in the streaming model, where each sample is drawn independently, and the learner is allowed a single pass over the stream of samples. Garg, Raz, and Tal [CCC'19] considered a stronger model, allowing multiple passes over the stream. In the $2$-pass model, they showed that learning parities of size $n$ requires either a memory of size $n^{1.5}$ or at least $2^{\sqrt{n}}$ samples. (Their result also generalizes to other learning problems.) In this work, for any constant $q$, we prove tight memory-sample lower bounds for any parity learning algorithm that makes $q$ passes over the stream of samples. We show that such a learner requires either $\Omega(n^{2})$ memory size or at least $2^{\Omega(n)}$ samples. Beyond establishing a tight lower bound, this is the first non-trivial lower bound for $q$-pass learning for any $q\ge 3$. Similar to prior work, our results extend to any learning problem with many nearly-orthogonal concepts. We complement the lower bound with an upper bound, showing that parity learning with $q$ passes can be done efficiently with $O(n^2/\log q)$ memory.
翻訳日:2023-10-15 11:10:17 公開日:2023-10-12
# オーバーフィッティングに基づく画像圧縮のための周波数認識再パラメータ化

Frequency-Aware Re-Parameterization for Over-Fitting Based Image Compression ( http://arxiv.org/abs/2310.08068v1 )

ライセンス: Link先を確認
Yun Ye, Yanjie Pan, Qually Jiang, Ming Lu, Xiaoran Fang, Beryl Xu(参考訳) オーバーフィットベースの画像圧縮は、圧縮のための重み付け圧縮と実用のための高速収束を必要とし、深層畳み込みニューラルネットワーク(CNN)ベースの手法の課題を提起する。 本稿では,重みを減らし収束を加速したCNNの簡易な再パラメータ化手法を提案する。 畳み込み核は、周波数領域の直接最適化を可能にする離散コサイン変換(dct)カーネルの重み付き和として再パラメータ化される。 提案手法は,L1正則化と組み合わせて,計算コストの低い速度歪みを著しく改善することにより,バニラ畳み込みを克服する。 提案手法は,様々なデータセット上での過剰フィッティングに基づく画像復元の広範な実験により検証され,200回の反復で最大46.12%のbdレートを達成した。

Over-fitting-based image compression requires weights compactness for compression and fast convergence for practical use, posing challenges for deep convolutional neural networks (CNNs) based methods. This paper presents a simple re-parameterization method to train CNNs with reduced weights storage and accelerated convergence. The convolution kernels are re-parameterized as a weighted sum of discrete cosine transform (DCT) kernels enabling direct optimization in the frequency domain. Combined with L1 regularization, the proposed method surpasses vanilla convolutions by achieving a significantly improved rate-distortion with low computational cost. The proposed method is verified with extensive experiments of over-fitting-based image restoration on various datasets, achieving up to -46.12% BD-rate on top of HEIF with only 200 iterations.
翻訳日:2023-10-15 11:09:49 公開日:2023-10-12
# 近似nash平衡アルゴリズムにおける探索・混合パラダイム

The Search-and-Mix Paradigm in Approximate Nash Equilibrium Algorithms ( http://arxiv.org/abs/2310.08066v1 )

ライセンス: Link先を確認
Xiaotie Deng, Dongchen Li, Hanyu Li(参考訳) 数学におけるAIは、推論が自動化され、手間がかかり、エラーが発生しにくいように、構成的な方法で数学を扱う。 アルゴリズムでは、特定の問題に対する分析を自動化する方法が問題となる。 本研究は, 理論計算機科学におけるよく研究された問題の近似解析手法である2人プレイゲームにおける近似ナッシュ平衡の計算法を初めて提供する。 このようなアルゴリズムを探索・混合パラダイムに再構成し,探索相と混合相を伴い得ることを観察した。 これにより、混合相を設計・解析する手順を完全に自動化することができる。 例えば、文献中の全てのアルゴリズムの近似境界を分析するプログラムを用いて、この手法をどのように実行するかを示す。 同じ近似境界は手書きの証明なしで計算される。 我々の自動手法は近似ナッシュ平衡におけるLP緩和構造に大きく依存している。 多くの近似アルゴリズムとオンラインアルゴリズムはLP緩和を採用するため、他のアルゴリズムの分析を自動化するために我々のアプローチを拡張することができる。

AI in Math deals with mathematics in a constructive manner so that reasoning becomes automated, less laborious, and less error-prone. For algorithms, the question becomes how to automate analyses for specific problems. For the first time, this work provides an automatic method for approximation analysis on a well-studied problem in theoretical computer science: computing approximate Nash equilibria in two-player games. We observe that such algorithms can be reformulated into a search-and-mix paradigm, which involves a search phase followed by a mixing phase. By doing so, we are able to fully automate the procedure of designing and analyzing the mixing phase. For example, we illustrate how to perform our method with a program to analyze the approximation bounds of all the algorithms in the literature. Same approximation bounds are computed without any hand-written proof. Our automatic method heavily relies on the LP-relaxation structure in approximate Nash equilibria. Since many approximation algorithms and online algorithms adopt the LP relaxation, our approach may be extended to automate the analysis of other algorithms.
翻訳日:2023-10-15 11:09:35 公開日:2023-10-12
# ETDock:タンパク質-リガンドドッキングのための新しい等価変圧器

ETDock: A Novel Equivariant Transformer for Protein-Ligand Docking ( http://arxiv.org/abs/2310.08061v1 )

ライセンス: Link先を確認
Yiqiang Yi, Xu Wan, Yatao Bian, Le Ou-Yang and Peilin Zhao(参考訳) タンパク質とリガンドのドッキングを予測することは、薬物発見にとって極めて重要な課題である。 しかし、従来のドッキング法は主にスコアリング機能に依存しており、ディープラーニングに基づくドッキング手法は、通常、タンパク質やリガンドの3次元空間情報や、その性能を制限するリガンドのグラフレベルの特徴を無視する。 これらの制約に対処するため,タンパク質リガンドドッキングポーズ予測のための変圧器ニューラルネットワークを提案する。 我々のアプローチは,特徴処理によるリガンドグラフレベルの特徴の融合と,提案したTAMformerモジュールを用いたリガンドおよびタンパク質表現の学習である。 さらに, 予測距離行列に基づく反復最適化手法を採用し, 洗練された配位子ポーズを生成する。 実データを用いた実験結果から,本モデルが最先端の性能を実現できることが示された。

Predicting the docking between proteins and ligands is a crucial and challenging task for drug discovery. However, traditional docking methods mainly rely on scoring functions, and deep learning-based docking approaches usually neglect the 3D spatial information of proteins and ligands, as well as the graph-level features of ligands, which limits their performance. To address these limitations, we propose an equivariant transformer neural network for protein-ligand docking pose prediction. Our approach involves the fusion of ligand graph-level features by feature processing, followed by the learning of ligand and protein representations using our proposed TAMformer module. Additionally, we employ an iterative optimization approach based on the predicted distance matrix to generate refined ligand poses. The experimental results on real datasets show that our model can achieve state-of-the-art performance.
翻訳日:2023-10-15 11:09:20 公開日:2023-10-12
# 学習した最適カーネルを用いた格子実時間シミュレーション

Lattice real-time simulations with learned optimal kernels ( http://arxiv.org/abs/2310.08053v1 )

ライセンス: Link先を確認
Daniel Alvestad, Alexander Rothkopf, D\'enes Sexty(参考訳) 本稿では,強化学習に触発された実時間量子力学のシミュレーション戦略を提案する。 これは、システム固有の事前情報によって修正される複雑なランゲヴィンアプローチに基づいており、この非常に厳しいサイン問題を克服するために必要な前提条件である。 機械学習アプローチの基盤となる最適化プロセスは、複雑なランゲヴィン確率過程の本質的に安定な解法と、いわゆる境界項に対する洞察から導かれる新しい最適性基準を配置することによって実現される。 この概念的および技術的進歩により、1+1dスカラー場理論における実時間シミュレーションの範囲を最先端以上のものに拡張し、従来の実時間場理論シミュレーションを悩ませた離散化アーティファクトを避けることができる。 今後の方向性の限界と将来性について論じる。

We present a simulation strategy for the real-time dynamics of quantum fields, inspired by reinforcement learning. It builds on the complex Langevin approach, which it amends with system specific prior information, a necessary prerequisite to overcome this exceptionally severe sign problem. The optimization process underlying our machine learning approach is made possible by deploying inherently stable solvers of the complex Langevin stochastic process and a novel optimality criterion derived from insight into so-called boundary terms. This conceptual and technical progress allows us to both significantly extend the range of real-time simulations in 1+1d scalar field theory beyond the state-of-the-art and to avoid discretization artifacts that plagued previous real-time field theory simulations. Limitations of and promising future directions are discussed.
翻訳日:2023-10-15 11:09:03 公開日:2023-10-12
# 量子技術のための自己参照光位相ノイズ分析器

A self-referenced optical phase noise analyzer for quantum technologies ( http://arxiv.org/abs/2310.08258v1 )

ライセンス: Link先を確認
Robert Freund, Christian D. Marciniak, and Thomas Monz(参考訳) 第二世代の量子技術は、工学化された量子システムを利用して古典的な代替品より優れていることを目指している。 量子的優位性を実現するために必要なコヒーレンスを維持するには、ホストシステムが受けるノイズの詳細な知識と制御が必要である。 パワースペクトル密度によるノイズプロセスの特徴付けは、科学や技術を通して日常的に行われ、必要なタスクとなる。 例えば、主要な量子技術プラットフォームにおける位相ノイズパワースペクトルを決定することは、多くの位相ノイズアナライザの範囲外か、あるいは違法に高価である。 本研究では,量子技術応用のためのコスト効率の高い光位相ノイズアナライザを提案する。 この設定を用いて、2つの$\approx1\ \rm{hz}$ linewidth超安定発振器を729\ \rm{nm}$付近で比較し、それらを用いて、この測定装置で達成された雑音床を制限とそのトレードオフに注目して決定および議論する。 低コストで全成分の低複素位相雑音分析器の実装において達成された雑音床は、商用製品と好適に比較できる。 このセットアップは、多くのコンポーネントメーカーがそうであるように、より安定した参照や運用量子システムをセンサーとして使用せずに、特にアプリケーションを見つけることができる。

Second generation quantum technologies aim to outperform classical alternatives by utilizing engineered quantum systems. Maintaining the coherence required to enable any quantum advantage requires detailed knowledge and control over the noise the hosting system is subjected to. Characterizing noise processes via their power spectral density is routinely done throughout science and technology and can be a demanding task. Determining the phase noise power spectrum in leading quantum technology platforms, for example, can be either outside the reach of many phase noise analyzers, or be prohibitively expensive. In this work, we present and characterize a cost-effective optical phase noise analyzer for quantum technology applications. Using this setup we compare two $\approx1\ \rm{Hz}$ linewidth ultra-stable oscillators near $729\ \rm{nm}$, using them as references to determine and discuss the noise floor achieved in this measurement apparatus with a focus on limitations and their tradeoffs. The achieved noise floor in this implementation of a low-cost, all-stock component, low-complexity phase noise analyzer compares favourably to commercial offerings. This setup can find application in particular without a more stable reference or operational quantum system as sensor as would be the case for many component manufacturers.
翻訳日:2023-10-15 11:01:27 公開日:2023-10-12
# 自己教師付き表現を用いた音声とテキストの高速単語誤り率推定

Fast Word Error Rate Estimation Using Self-Supervised Representations For Speech And Text ( http://arxiv.org/abs/2310.08225v1 )

ライセンス: Link先を確認
Chanho Park, Chengsong Lu, Mingjie Chen, Thomas Hain(参考訳) 自動音声認識(ASR)の品質は通常、単語誤り率(WER)によって測定される。 wer推定は、音声発話と書き起こしを与えられたasrシステムのwerを予測することを目的としたタスクである。 高度なasrシステムが大量のデータで訓練されている間、このタスクは注目を集めている。 この場合、未知の書き起こし品質を持つトレーニングデータの選択や、基礎的真理の書き起こしを伴わないasrシステムのテスト性能の推定など、多くのシナリオにおいてwer推定が必要となる。 大量のデータに直面すると、WER推定器の計算効率は実用化に欠かせないものとなる。 しかし、従来の作品では優先事項とはみなされなかった。 本稿では,自己教師付き学習表現(SSLR)を用いた高速WER推定器(Fe-WER)を提案する。 推定器は平均プールによって集約されたSSLR上に構築される。 その結果,Fe-WERは根平均二乗誤差とピアソン相関係数の両評価指標において,Ted-Lium3のE-WER3ベースラインを19.69%,Ted-Lium3は7.16%で相対的に上回った。 また、目標が10.88%のときの時間重み付けは10.43%であった。 最後に、推定速度はリアルタイム係数の約4倍であった。

The quality of automatic speech recognition (ASR) is typically measured by word error rate (WER). WER estimation is a task aiming to predict the WER of an ASR system, given a speech utterance and a transcription. This task has gained increasing attention while advanced ASR systems are trained on large amounts of data. In this case, WER estimation becomes necessary in many scenarios, for example, selecting training data with unknown transcription quality or estimating the testing performance of an ASR system without ground truth transcriptions. Facing large amounts of data, the computation efficiency of a WER estimator becomes essential in practical applications. However, previous works usually did not consider it as a priority. In this paper, a Fast WER estimator (Fe-WER) using self-supervised learning representation (SSLR) is introduced. The estimator is built upon SSLR aggregated by average pooling. The results show that Fe-WER outperformed the e-WER3 baseline relatively by 19.69% and 7.16% on Ted-Lium3 in both evaluation metrics of root mean square error and Pearson correlation coefficient, respectively. Moreover, the estimation weighted by duration was 10.43% when the target was 10.88%. Lastly, the inference speed was about 4x in terms of a real-time factor.
翻訳日:2023-10-15 11:01:06 公開日:2023-10-12
# 運動誘起スピン移動の最適化

Optimising motion-induced spin transfer ( http://arxiv.org/abs/2310.08200v1 )

ライセンス: Link先を確認
Daigo Oue, Matsuo Mamoru(参考訳) 本稿では、2つの強磁性絶縁体間のスピントンネル輸送について検討する。 強磁性絶縁体の間には狭い隙間があり、互いに弱い相互作用をしている。 強磁性絶縁体のうちの1つは一定速度で動き、もう1つは静止している。 せん断運動の存在下では、相互作用振幅はドップラー周波数で周期的に変調される。 ユニタリ変換により、相互作用振幅の周期的変調を、スピントンネル輸送を駆動する効果的なポテンシャルと考えることができる。 スピン電流の量は、2つの強磁性媒体間のスペクトルオーバーラップとキャリア集団差によって制御される。 2つの強磁性体のスペクトルが適度に広がると、スペクトル領域の重なりが増加し、スピン電流が増大する。 しかし、過度の拡大はスペクトルの重なりを損なうため、スピン電流は低下する。 これは、スピン移動を最大化する最適条件が存在することを意味する。

In this paper, the spin tunnelling transport between two ferromagnetic insulators is studied. There is a narrow gap between the ferromagnetic insulators so that they are weakly interacting with each other. One of the ferromagnetic insulators is moving at a constant speed while the other is at rest; hence, the system is out of equilibrium. In the presence of the shearing motion, the interaction amplitude is periodically modulated at the Doppler frequency. A unitary transformation allows us to regard the periodic modulation of the interaction amplitude as an effective potential, which drives the spin tunnelling transport. The amount of the spin current is controlled by the spectral overlap and the carrier population difference between the two ferromagnetic media. If the spectra of the two ferromagnets are moderately broadened, the overlap in the spectral domain increases, enlarging the spin current. However, too much broadening spoils the spectral overlap and, hence, the spin current. This implies that there is an optimal condition for maximising the spin transfer.
翻訳日:2023-10-15 11:00:45 公開日:2023-10-12
# 超熱光を用いたイメージング応用

On the use of superthermal light for imaging applications ( http://arxiv.org/abs/2310.08195v1 )

ライセンス: Link先を確認
Silvia Cassina, Gabriele Cenedese, Marco Lamperti, Maria Bondani and Alessia Allevi(参考訳) ゴーストイメージングとディファレンシャルゴーストイメージングは、古典的および量子的相関状態の両方を用いて、よく知られたイメージング技術である。 ゴーストイメージングとディファレンシャルゴーストイメージングのプロトコルを実装する上で,相関関係の存在が主要な資源であることが示されているので,本論文では,通常の熱状態よりも相関関係の強い2種類の超熱的状態を使用することの利点と欠点を分析する。 公正な比較を行うため、再構成画像のコントラスト(C)と信号対雑音比(SNR)を算出する。 Cの値が大きいほどこれらの超熱的状態の有用性が示唆されるが、SNRの値は光の強度変動を増大させることによって改善されない。 それとは対照的に、熱光で示されるものと同じである。

Ghost imaging and differential ghost imaging are well-known imaging techniques based on the use of both classical and quantum correlated states of light. Since the existence of correlations has been shown to be the main resource to implement ghost imaging and differential ghost-imaging protocols, here we analyze the advantages and disadvantages of using two different kinds of superthermal states of light, which are more correlated than the typically employed thermal states. To make a fair comparison, we calculate the contrast (C) and the signal-to-noise ratio (SNR) of the reconstruct image. While the larger values of C suggest the usefulness of these superthermal states, the values of SNR do not improve by increasing the intensity fluctuations of light. On the contrary, they are the same as those exhibited by thermal light.
翻訳日:2023-10-15 11:00:32 公開日:2023-10-12
# 自動音声認識のための合成学習データの音素長変動性について

On the Relevance of Phoneme Duration Variability of Synthesized Training Data for Automatic Speech Recognition ( http://arxiv.org/abs/2310.08132v1 )

ライセンス: Link先を確認
Nick Rossenbach, Benedikt Hilmes, Ralf Schl\"uter(参考訳) テキスト音声合成(TTS)システムによって生成された合成データは、低リソースまたはドメインミスマッチタスクにおける自動音声認識(ASR)システムを改善するために使用できる。 TTS生成した出力は、まだ実データと同じ品質ではないことが示されている。 本研究では,合成データの時間構造とASRトレーニングとの関係に着目した。 新規なオラクル構成を用いて, 合成データ品質の劣化が, 非自己回帰(NAR)TSの持続時間モデルにどの程度影響されているかを示す。 基準音素持続時間を得るためには、隠れマルコフ・ガウス混合モデル(HMM-GMM)整列器とニューラルコネクショニスト時間分類(CTC)整列器という2つの一般的なアライメント手法を用いる。 ランダムウォークに基づく単純なアルゴリズムを用いて,ttsシステムの音素持続時間分布を実時間に近づけることで,合成データを用いたasrシステムの改善を半教師付き設定で実現した。

Synthetic data generated by text-to-speech (TTS) systems can be used to improve automatic speech recognition (ASR) systems in low-resource or domain mismatch tasks. It has been shown that TTS-generated outputs still do not have the same qualities as real data. In this work we focus on the temporal structure of synthetic data and its relation to ASR training. By using a novel oracle setup we show how much the degradation of synthetic data quality is influenced by duration modeling in non-autoregressive (NAR) TTS. To get reference phoneme durations we use two common alignment methods, a hidden Markov Gaussian-mixture model (HMM-GMM) aligner and a neural connectionist temporal classification (CTC) aligner. Using a simple algorithm based on random walks we shift phoneme duration distributions of the TTS system closer to real durations, resulting in an improvement of an ASR system using synthetic data in a semi-supervised setting.
翻訳日:2023-10-15 11:00:18 公開日:2023-10-12
# フェアおよびディバースデータ要約のためのコアセット

Core-sets for Fair and Diverse Data Summarization ( http://arxiv.org/abs/2310.08122v1 )

ライセンス: Link先を確認
Sepideh Mahabadi and Stojan Trajanovski(参考訳) フェアネス/パーティション制約下での多様性最大化処理のコアセット構築アルゴリズムについて検討する。 計量空間において、$m$群に分割され、$k_1,\ldots,k_m$が与えられる点の集合が与えられたとき、この問題の目標は、$k_i$を各群$i$から選ぶことであり、$k=\sum_i k_i$の選択点全体の多様性を最大化することである。 我々は,2つの自然多様性尺度について考察し,これらの尺度についてコアセット構築アルゴリズムの改善を示す。 より正確には、データセットのサイズとアスペクト比によらずに大きさが依存する第1の定数係数コアセットw.r.t.和対ペアワイズ距離を示す。 第二に、最初のコアセット w.r.t. のアレスト近傍距離を示す。 最後に,コアセットアプローチの有効性を示す実験をいくつか実施した。 特に,制約付き多様性の最大化を適用し,メッセージの相対性を考慮した時系列メッセージの集合を要約する。 特に要約には、古いものよりも最近のメッセージを含めるべきである。 これは、最大規模のコミュニケーションプラットフォームの1つで、数億人のアクティブユーザーの体験に影響を与える真のタスクである。 このタスクのコアセット手法を利用することで,多様性をわずかに損なうことなく,100倍の高速化を実現した。 さらに,このアプローチにより,ストリーミング環境におけるアルゴリズムの空間使用率の向上が期待できる。

We study core-set construction algorithms for the task of Diversity Maximization under fairness/partition constraint. Given a set of points $P$ in a metric space partitioned into $m$ groups, and given $k_1,\ldots,k_m$, the goal of this problem is to pick $k_i$ points from each group $i$ such that the overall diversity of the $k=\sum_i k_i$ picked points is maximized. We consider two natural diversity measures: sum-of-pairwise distances and sum-of-nearest-neighbor distances, and show improved core-set construction algorithms with respect to these measures. More precisely, we show the first constant factor core-set w.r.t. sum-of-pairwise distances whose size is independent of the size of the dataset and the aspect ratio. Second, we show the first core-set w.r.t. the sum-of-nearest-neighbor distances. Finally, we run several experiments showing the effectiveness of our core-set approach. In particular, we apply constrained diversity maximization to summarize a set of timed messages that takes into account the messages' recency. Specifically, the summary should include more recent messages compared to older ones. This is a real task in one of the largest communication platforms, affecting the experience of hundreds of millions daily active users. By utilizing our core-set method for this task, we achieve a 100x speed-up while losing the diversity by only a few percent. Moreover, our approach allows us to improve the space usage of the algorithm in the streaming setting.
翻訳日:2023-10-15 10:59:56 公開日:2023-10-12
# 近接場におけるメッシュ回復のためのマルチモーダルアクティブ計測

Multimodal Active Measurement for Human Mesh Recovery in Close Proximity ( http://arxiv.org/abs/2310.08116v1 )

ライセンス: Link先を確認
Takahiro Maeda, Keisuke Takeshita, and Kazuhito Tanaka(参考訳) 安全で洗練された物理的ロボットインタラクション(pHRI)のために、ロボットは対象者の正確な身体ポーズやメッシュを推定する必要がある。 しかし、これらのpHRIシナリオでは、ロボットは通常ロボットに近いため、搭載カメラで対象者の身体を完全に観察することはできない。 これにより、重度の切断と閉塞が生じ、人間のポーズ推定の精度が低下する。 カメラからの限られた情報に対する人間のポーズ推定やメッシュ回復の精度向上を目的として,搭載カメラおよびタッチセンサや2D LiDARなどのセンサのアクティブな計測・センサ融合フレームワークを提案する。 これらのタッチとLiDARセンシングは、追加費用なしでpHRIを介して補助的に得られる。 これらのセンサー測定は、人間のメッシュ回復のための、希少だが信頼性があり、情報的な手がかりである。 アクティブな計測プロセスでは,推定ポーズの不確実性に基づいて,カメラの視点とセンサ配置を最適化する。 センサ融合過程において、推定メッシュと測定位置の距離を最小化することにより、センサ計測をカメラベース推定ポーズに融合する。 本手法はロボット構成に依存しない。 ロボットアームにカメラ、2D LiDAR、タッチセンサーを備えたToyota Human Support Robotを用いて実験を行った。 提案手法は,人間のポーズ推定精度を定量的に比較し,優位性を示した。 さらに,本提案手法では,対象者のポーズを,毛布に挟まれたターゲットの人やロボットアームによるスタンディング支援など,現実的な場面で確実に推定する。

For safe and sophisticated physical human-robot interactions (pHRI), a robot needs to estimate the accurate body pose or mesh of the target person. However, in these pHRI scenarios, the robot cannot fully observe the target person's body with equipped cameras because the target person is usually close to the robot. This leads to severe truncation and occlusions, and results in poor accuracy of human pose estimation. For better accuracy of human pose estimation or mesh recovery on this limited information from cameras, we propose an active measurement and sensor fusion framework of the equipped cameras and other sensors such as touch sensors and 2D LiDAR. These touch and LiDAR sensing are obtained attendantly through pHRI without additional costs. These sensor measurements are sparse but reliable and informative cues for human mesh recovery. In our active measurement process, camera viewpoints and sensor placements are optimized based on the uncertainty of the estimated pose, which is closely related to the truncated or occluded areas. In our sensor fusion process, we fuse the sensor measurements to the camera-based estimated pose by minimizing the distance between the estimated mesh and measured positions. Our method is agnostic to robot configurations. Experiments were conducted using the Toyota Human Support Robot, which has a camera, 2D LiDAR, and a touch sensor on the robot arm. Our proposed method demonstrated the superiority in the human pose estimation accuracy on the quantitative comparison. Furthermore, our proposed method reliably estimated the pose of the target person in practical settings such as target people occluded by a blanket and standing aid with the robot arm.
翻訳日:2023-10-15 10:59:28 公開日:2023-10-12
# 半同定因果効果に対するモデル非依存共変量支援推論

Model-Agnostic Covariate-Assisted Inference on Partially Identified Causal Effects ( http://arxiv.org/abs/2310.08115v1 )

ライセンス: Link先を確認
Wenlong Ji, Lihua Lei, Asher Spector(参考訳) 多くの因果推定値は、潜在的な結果間の観測不能な関節分布に依存するため、部分的にしか識別できない。 プレトリート共変量体上の成層化はよりシャープな部分的識別境界が得られるが、共変量体が比較的小さな支持で離散的でない限り、この方法は通常、共変量体が与える潜在的な結果の条件分布を一貫した推定を必要とする。 したがって、既存のアプローチはモデルの誤特定や一貫性の仮定に違反した場合に失敗する可能性がある。 本研究では, 最適輸送問題に対する双対性理論に基づいて, 部分的同定されたエスティムマンドの幅広いクラスに対して, 統一的かつモデル非依存な推論アプローチを提案する。 ランダム化実験では、初期推定が任意に不正確であっても、条件分布の任意の推定をラップし、均一に妥当な推論を提供できる。 また,このアプローチは観測研究において2倍頑健である。 この特性は、たとえ真のモデルが含まれていなくても有効性を犠牲にすることなく、乗算器ブートストラップを使って共変量やモデルを選択できる。 さらに、条件分布が半パラメトリックレートで推定される場合、このアプローチは、結果モデルに関する完全な知識を持つオラクルのパフォーマンスに適合する。 最後に,因果推論における多くの実用的問題の実装を可能にする効率的な計算フレームワークを提案する。

Many causal estimands are only partially identifiable since they depend on the unobservable joint distribution between potential outcomes. Stratification on pretreatment covariates can yield sharper partial identification bounds; however, unless the covariates are discrete with relatively small support, this approach typically requires consistent estimation of the conditional distributions of the potential outcomes given the covariates. Thus, existing approaches may fail under model misspecification or if consistency assumptions are violated. In this study, we propose a unified and model-agnostic inferential approach for a wide class of partially identified estimands, based on duality theory for optimal transport problems. In randomized experiments, our approach can wrap around any estimates of the conditional distributions and provide uniformly valid inference, even if the initial estimates are arbitrarily inaccurate. Also, our approach is doubly robust in observational studies. Notably, this property allows analysts to use the multiplier bootstrap to select covariates and models without sacrificing validity even if the true model is not included. Furthermore, if the conditional distributions are estimated at semiparametric rates, our approach matches the performance of an oracle with perfect knowledge of the outcome model. Finally, we propose an efficient computational framework, enabling implementation on many practical problems in causal inference.
翻訳日:2023-10-15 10:59:04 公開日:2023-10-12
# 物理インフォームド・機械学習による地球物理データのインバージョンの概要

Overview of Physics-Informed Machine Learning Inversion of Geophysical Data ( http://arxiv.org/abs/2310.08109v1 )

ライセンス: Link先を確認
Gerard T. Schuster and Shihang Feng(参考訳) 物理インフォームド・機械学習(PIML)による物理データのインバージョンのための4種類のアルゴリズムについて概説する。 統一方程式は、合同目的関数 $\epsilon$: \begin{eqnarray} \epsilon^{|-PIML}&=&\lambda_1 \overbrace{||{\bf W}^{ML}({\bf H}_{{\bf w}} {\bf d}^{obs}-{\bf m})||^2}^{NN} + \lambda_2 \overbrace{|{\bf W}^{FWI}({\bf L} {\bf m}-{\bf d}^{obs})||^2}}^{FWI} ~+ \nonumber\\\nonumber\&& + ~Regular, \el{eqnarray}-{\bf m})|||^2}^{NN} によって与えられる。 ここで、行列重みは太字記号 $\bf W$ で与えられ、フルウェーブフォーム反転 (FWI) は通常、波動方程式の有限差分解を用いて計算され、そこでは、$\bf L$ はモデル $\bf m$ の関数として波動方程式の前方モデリング操作を表す。 また、完全に接続されたニューラルネットワーク(NN)を用いて、観測された入力データ${\bf d}^{obs}$からモデル${\bf H_w}{\bf d}^{obs} \approx \bf m$を計算する。 重み付き$\lambda_i$とnn演算の選択は、4つの異なるpimlアルゴリズムの1つを決定する。 PIMLは、ローカルなミニマを避ける能力と、インバージョンオペレーターをローカルにトレーニングするオプションにより、グローバルな適用性のための広範なトレーニングデータの必要を最小化することによって、標準FWIよりも潜在的な利点を提供する。 しかし、PIMLの有効性は、テストとトレーニングされたデータとの類似性に依存する。 それにもかかわらず、この制限を克服するための戦略は、PIMLアーキテクチャをより広い領域からのデータで初期事前トレーニングすることと、それに続いて、特定のデータに対して微調整を行うことである。

We review four types of algorithms for physics-informed machine learning (PIML) inversion of geophysical data. The unifying equation is given by the joint objective function $\epsilon$: \begin{eqnarray} \epsilon^{||-PIML}&=&\lambda_1 \overbrace{||{\bf W}^{ML}({\bf H}_{{\bf w}} {\bf d}^{obs}-{\bf m})||^2}^{NN} + \lambda_2 \overbrace{{||{\bf W}^{FWI}({\bf L} {\bf m}-{\bf d}^{obs})||^2}}^{FWI} ~+ \nonumber\\ \nonumber\\ && + ~~Regularizer, \label{PIML.eq120} \end{eqnarray}where the optimal model ${\bf m}^*$ and weights $\bf w^*$ minimize $\epsilon$. Here, The matrix weights are given by the boldface symbol $\bf W$, and full waveform inversion (FWI) is typically computed using a finite-difference solution of the wave equation, where $\bf L$ represents the forward modeling operation of the wave equation as a function of the model $\bf m$. Also, a fully-connected neural network (NN) is used to compute the model ${\bf H_w}{\bf d}^{obs} \approx \bf m$ from the observed input data ${\bf d}^{obs}$. The selection of weights $\lambda_i$ and the NN operations determine one of four different PIML algorithms. PIML offers potential advantages over standard FWI through its enhanced ability to avoid local minima and the option to locally train the inversion operator, minimizing the requirement for extensive training data for global applicability. However, the effectiveness of PIML relies on the similarity between the test and trained data. Nevertheless, a possible strategy to overcome this limitation involves initial pretraining of a PIML architecture with data from a broader region, followed by fine-tuning for specific data-a method reminiscent of the way large language models are pretrained and adapted for various tasks.
翻訳日:2023-10-15 10:58:42 公開日:2023-10-12
# カシミール力によるFabry-P\'{e}rotキャビティの電気的および熱的制御

Electrical and thermal control of Fabry-P\'{e}rot cavities mediated by Casimir forces ( http://arxiv.org/abs/2310.08108v1 )

ライセンス: Link先を確認
Lixin Ge, Bingzhong Li, Hao Luo, and Ke Gong(参考訳) 多くのフォトニックシステムでは、光学キャビティの動的チューニングが望まれている。 ここで,Fabry-P\'{e}rot(FP)キャビティはカシミール力によって積極的に制御可能であることを示す。 光FPキャビティは、液体環境下で電気接続された多層基板に対向する金ナノプレートからなる。 金ナノプレートは、反発力と魅力的なカシミール力のバランスのために安定的に吊り下げることができる。 さらに、サスペンション距離は、システムの電気ゲーティングまたは温度によって強く変調される。 その結果、数十ナノメートルの光周波数で共振器の共鳴波長をシフトすることができた。 最後に, ブラウン運動が平衡距離に与える影響を解析した。 fpキャビティのq係数が高いため,本システムではサブマイクロメータ分離時の熱カシミール効果を実験的に検討するための優れたプラットフォームを提供する。

Dynamic tuning of optical cavities is highly desired in many photonic systems. Here, we show that Fabry-P\'{e}rot(FP) cavities can be actively controlled by the Casimir force. The optical FP cavities consist of a gold nanoplate confronted to an electrical-connecting multi-layer substrate in a liquid environment. The gold nanoplate can be stably suspended due to the balance of repulsive and attractive Casimir forces. Moreover, the suspension distance are modulated strongly by the electric gating or temperature of the system. As a result, we could shift the resonant wavelengthes of the cavities with tens of nanometers at optical frequencies. Finally, we analyze the influence of Brownian motion on the equilibrium distances. Due to the high Q-factor of the FP cavities, our proposed system offers a remarkable platform to experimentally investigate the thermal Casimir effect at sub-micrometer separations
翻訳日:2023-10-15 10:57:36 公開日:2023-10-12
# R光応用による統合予測(HIP)における不均一性の拡張

Extensions of Heterogeneity in Integration and Prediction (HIP) with R Shiny Application ( http://arxiv.org/abs/2310.08426v1 )

ライセンス: Link先を確認
J. Butts, C. Wendt, R. Bowler, C.P. Hersh, Q. Long, L. Eberly, S. E. Safo(参考訳) 同じ参加者のセットで測定された複数のデータビューがより一般的になってきており、これらの異なるビューを同時に分析することで、多くの複雑な疾患に対する理解を深める可能性がある。 同様に、これらの複雑な疾患の多くは、亜群の不均一性の証拠(例えば、性や人種による)を示す。 HIP(Heterogeneity in Integration and Prediction)は、複数のデータビューを統合するために提案された最初の手法の一つであり、また特定の疾患の共通およびサブグループ特異的マーカーを特定するためにサブグループ不均一性も考慮している。 しかし、HIPは継続的な結果に適用でき、ユーザはプログラミングの専門知識を必要とする。 本稿では、HIPの利点を維持しつつ、多クラス、Poisson、Zero-Inflated Poisson結果に対応するHIPの拡張を提案する。 さらに、sns://multi-viewlearn.shinyapps.io/hip_shinyapp/のshinyapps.ioでアクセス可能なr shinyアプリケーションを紹介し、hipのpython実装とインターフェースを提供し、より多くの研究者が任意のデバイスでこのメソッドを使用できるようにする。 増悪頻度に関連する男女に共通かつ特異的な遺伝子およびタンパク質の同定にHIPを適用した。 同定された遺伝子やタンパク質のいくつかは、既存の文献で慢性閉塞性肺疾患(copd)との関連性を示すが、copdとの関係を研究する将来の研究の候補となるものもある。 我々は,公開データを用いて光沢のあるアプリケーションの利用を実証する。 HIP用のRパッケージはhttps://github.com/lasandrall/HIPで入手できる。

Multiple data views measured on the same set of participants is becoming more common and has the potential to deepen our understanding of many complex diseases by analyzing these different views simultaneously. Equally important, many of these complex diseases show evidence of subgroup heterogeneity (e.g., by sex or race). HIP (Heterogeneity in Integration and Prediction) is among the first methods proposed to integrate multiple data views while also accounting for subgroup heterogeneity to identify common and subgroup-specific markers of a particular disease. However, HIP is applicable to continuous outcomes and requires programming expertise by the user. Here we propose extensions to HIP that accommodate multi-class, Poisson, and Zero-Inflated Poisson outcomes while retaining the benefits of HIP. Additionally, we introduce an R Shiny application, accessible on shinyapps.io at https://multi-viewlearn.shinyapps.io/HIP_ShinyApp/, that provides an interface with the Python implementation of HIP to allow more researchers to use the method anywhere and on any device. We applied HIP to identify genes and proteins common and specific to males and females that are associated with exacerbation frequency. Although some of the identified genes and proteins show evidence of a relationship with chronic obstructive pulmonary disease (COPD) in existing literature, others may be candidates for future research investigating their relationship with COPD. We demonstrate the use of the Shiny application with a publicly available data. An R-package for HIP would be made available at https://github.com/lasandrall/HIP.
翻訳日:2023-10-15 10:52:22 公開日:2023-10-12
# クエンチダイナミクスによるフロケ位相の特徴づけ:マルチサブシステムアプローチ

Characterizing Floquet topological phases by quench dynamics: A multiple-subsystem approach ( http://arxiv.org/abs/2310.08409v1 )

ライセンス: Link先を確認
Bei-Bei Wang, Long Zhang(参考訳) バンド反転曲面と呼ばれる運動量部分空間におけるクエンチダイナミクスの創発的トポロジ的パターンによってフロケ位相が完全に検出できる周期駆動系の力学特性理論について検討する。 私たちは最近の研究の結果を改善します。 Rev. Lett. bf 125}, 183001 (2020)] と、任意のスピン偏極軸に沿ってクエンチを適用することにより、$d$次元フロケ位相の一般的なクラスを特徴づけるためのより柔軟なスキームを提案する。 我々の基本的な考え方は、フロケ系をクエージエネルギーにおいて周期的な複数の静的サブシステムに分解することで、フロケ位相の完全な特徴付けは、時間非依存のハミルトン多様体に対する一連のバルクトポロジ不変量を特定することで、測定の利便性と柔軟性を大幅に向上させる。 本研究では,2次元と3次元の実験的に実現可能なモデル2つを数値的に解析し,動的特徴量を調べるために2つの異なるが等価な視点を採用する。 最後に,実験の不完全性を考慮すると,本手法を初期状態が完全に分極しない一般的な状況にも適用できることを示す。 この研究は、超低温原子や他の量子シミュレータにおけるフロケ位相を動的に分類するための即時実装可能なアプローチを提供する。

We investigate the dynamical characterization theory for periodically driven systems in which Floquet topology can be fully detected by emergent topological patterns of quench dynamics in momentum subspaces called band-inversion surfaces. We improve the results of a recent work [Phys. Rev. Lett. {\bf 125}, 183001 (2020)] and propose a more flexible scheme to characterize a generic class of $d$-dimensional Floquet topological phases by applying a quench along an arbitrary spin-polarization axis. Our basic idea is that by disassembling the Floquet system into multiple static subsystems that are periodic in quasienergy, a full characterization of Floquet topological phases reduces to identifying a series of bulk topological invariants for time-independent Hamiltonians, which greatly enhances the convenience and flexibility of the measurement. We illustrate the scheme by numerically analyzing two experimentally realizable models in two and three dimensions, respectively, and adopting two different but equivalent viewpoints to examine the dynamical characterization. Finally, considering the imperfection of experiment, we demonstrate that the present scheme can also be applied to a general situation where the initial state is not completely polarized. This study provides an immediately implementable approach for dynamically classifying Floquet topological phases in ultracold atoms or other quantum simulators.
翻訳日:2023-10-15 10:51:52 公開日:2023-10-12
# データセットのマージによる因果確率の微妙な境界

Tightening Bounds on Probabilities of Causation By Merging Datasets ( http://arxiv.org/abs/2310.08406v1 )

ライセンス: Link先を確認
Numair Sani, Atalanti A. Mastakouri(参考訳) 因果確率(PoC)は、法律、医療、公共政策における意思決定において基本的な役割を果たす。 それにもかかわらず、それらの点同定は困難であり、境界のみが導出できるような強い仮定を必要とする。 余分な情報を活用することでこれらの境界をさらに強化する作業は、固定次元の数値境界、あるいは同じ処理と結果変数を含む複数のデータセットへのアクセスを必要とする。 しかし、多くの臨床、疫学、公共政策の応用では、異なる治療が同じ結果変数に与える影響を調べる外部データセットや、共変量と結果変数の関係を研究するデータセットが存在する。 これらの外部データセットは、前者が異なる治療割り当て機構を必要とするか、あるいは異なる因果構造に従うため、前述の境界と併用することはできない。 ここでは、この挑戦的なシナリオに対して、PoCに象徴的な境界を提供します。 本研究では,2つのランダム化実験,あるいはランダム化実験と観察実験を組み合わせることに焦点を当てた。 我々のシンボリック境界は共変量と処理の任意の次元に作用し、これらの境界が文学における既存の境界よりも密接な条件について論じる。 最後に、データセット間の処理割り当てメカニズムの違いをパラメータ化して、外部データセットからターゲットデータセットに因果情報を転送しながら、データセット間でメカニズムを変更できるようにします。

Probabilities of Causation (PoC) play a fundamental role in decision-making in law, health care and public policy. Nevertheless, their point identification is challenging, requiring strong assumptions, in the absence of which only bounds can be derived. Existing work to further tighten these bounds by leveraging extra information either provides numerical bounds, symbolic bounds for fixed dimensionality, or requires access to multiple datasets that contain the same treatment and outcome variables. However, in many clinical, epidemiological and public policy applications, there exist external datasets that examine the effect of different treatments on the same outcome variable, or study the association between covariates and the outcome variable. These external datasets cannot be used in conjunction with the aforementioned bounds, since the former may entail different treatment assignment mechanisms, or even obey different causal structures. Here, we provide symbolic bounds on the PoC for this challenging scenario. We focus on combining either two randomized experiments studying different treatments, or a randomized experiment and an observational study, assuming causal sufficiency. Our symbolic bounds work for arbitrary dimensionality of covariates and treatment, and we discuss the conditions under which these bounds are tighter than existing bounds in literature. Finally, our bounds parameterize the difference in treatment assignment mechanism across datasets, allowing the mechanisms to vary across datasets while still allowing causal information to be transferred from the external dataset to the target dataset.
翻訳日:2023-10-15 10:51:23 公開日:2023-10-12
# 組込み自動車プラットフォームにおけるCNNパッケージの性能・パワー評価

Performance/power assessment of CNN packages on embedded automotive platforms ( http://arxiv.org/abs/2310.08401v1 )

ライセンス: Link先を確認
Paolo Burgio and Gianluca Brilli(参考訳) 高並列加速器に基づく高効率組み込みコンピュータの台頭は、研究者やエンジニアにとって多くの機会と課題を開き、エッジコンピューティングの時代への道を開いた。 同時に、YOLO、GoogleNet、AlexNetといったオブジェクト検出と分類のための組み込みAIの進歩は、前代未聞の精度(平均精度 - mAP)とパフォーマンス(フレーム/秒単位 - FPS)に達した。 今日では、異種多コアシステムに基づくエッジコンピュータが、業界4.0、ウェアラブルデバイス、およびフォーカス自律駆動システムにおいて、これらのシステムをデプロイする主な選択肢となっている。 後者のシステムでは、エンジニアは、自動運転によって要求される精度と性能の目標と共存して、自動車の電力とサイズの予算の削減に苦労している。 我々は,Xilinx対応のXavier AGX,Tegra X2,Nano for NVIDIA,Zynq UltraScale+ファミリーのXCZU9EG,Xilinx対応のXCZU3EGなど,市販のシステムオンチップを組み込んだ最先端プラットフォーム上での最新のネットワークの有効性と有効性を検証することを目的とする。 本研究は,設計に最も適したcnnパッケージおよびコンピューティングシステムを選択する技術者の支援と,システムの適切なサイズ化のためのガイドラインの導出を目的とする。

The rise of power-efficient embedded computers based on highly-parallel accelerators opens a number of opportunities and challenges for researchers and engineers, and paved the way to the era of edge computing. At the same time, advances in embedded AI for object detection and categorization such as YOLO, GoogleNet and AlexNet reached an unprecedented level of accuracy (mean-Average Precision - mAP) and performance (Frames-Per-Second - FPS). Today, edge computers based on heterogeneous many-core systems are a predominant choice to deploy such systems in industry 4.0, wearable devices, and - our focus - autonomous driving systems. In these latter systems, engineers struggle to make reduced automotive power and size budgets co-exist with the accuracy and performance targets requested by autonomous driving. We aim at validating the effectiveness and efficiency of most recent networks on state-of-the-art platforms with embedded commercial-off-the-shelf System-on-Chips, such as Xavier AGX, Tegra X2 and Nano for NVIDIA and XCZU9EG and XCZU3EG of the Zynq UltraScale+ family, for the Xilinx counterpart. Our work aims at supporting engineers in choosing the most appropriate CNN package and computing system for their designs, and deriving guidelines for adequately sizing their systems.
翻訳日:2023-10-15 10:51:00 公開日:2023-10-12
# ArUcoマーカーを用いた定量的表面触覚センサの設計と開発に向けて

Towards Design and Development of an ArUco Markers-Based Quantitative Surface Tactile Sensor ( http://arxiv.org/abs/2310.08398v1 )

ライセンス: Link先を確認
Ozdemir Can Kara, Charles Everson, and Farshid Alambeigi(参考訳) 本稿では,視覚ベース触覚センサ(VTS)の定性的画像出力の定量化を目的として,新しい定量的表面触覚センサ(QS-TS)の設計,製造,特性について述べる。 QS-TSは、センサーのゲル層の変形をリアルタイムで直接推定し、ロボットマニピュレータを用いた繊細な物体の安全かつ自律的な触覚操作とサーボを可能にする。 提案するセンサのコアは、小型1.5 mm x 1.5 mm の合成正方形マーカーと、内部の二乗パターンと、ArUco Markersと呼ばれる広い黒い境界を持つ。 各ArUcoマーカーは,QS-TSゲル層の変形を定量化するための定量的尺度として,リアルタイムカメラのポーズ推定を行うことができる。 さらに,ArUcoマーカーを用いることで,既存のマーカーベースVTSの製作に伴う様々な課題を軽減し,直感的かつ難易度の高いVTS構築手法を提案する。 注目すべきことに,提案法は,ArUcoマーカの配向に関係なく,マーカーとゲル層との結合と付着を容易にし,リアルタイムに定量的な変形測定値を得ることができる。 センサゲル層の変形を推定するためのQS-TSの有効性を実験的に評価し,その有効性を検証した。 その結果, ゲル層の変形を5%の誤差で推定する際のQS-TSの劇的な性能が示された。

In this paper, with the goal of quantifying the qualitative image outputs of a Vision-based Tactile Sensor (VTS), we present the design, fabrication, and characterization of a novel Quantitative Surface Tactile Sensor (called QS-TS). QS-TS directly estimates the sensor's gel layer deformation in real-time enabling safe and autonomous tactile manipulation and servoing of delicate objects using robotic manipulators. The core of the proposed sensor is the utilization of miniature 1.5 mm x 1.5 mm synthetic square markers with inner binary patterns and a broad black border, called ArUco Markers. Each ArUco marker can provide real-time camera pose estimation that, in our design, is used as a quantitative measure for obtaining deformation of the QS-TS gel layer. Moreover, thanks to the use of ArUco markers, we propose a unique fabrication procedure that mitigates various challenges associated with the fabrication of the existing marker-based VTSs and offers an intuitive and less-arduous method for the construction of the VTS. Remarkably, the proposed fabrication facilitates the integration and adherence of markers with the gel layer to robustly and reliably obtain a quantitative measure of deformation in real-time regardless of the orientation of ArUco Markers. The performance and efficacy of the proposed QS-TS in estimating the deformation of the sensor's gel layer were experimentally evaluated and verified. Results demonstrate the phenomenal performance of the QS-TS in estimating the deformation of the gel layer with a relative error of <5%.
翻訳日:2023-10-15 10:50:33 公開日:2023-10-12
# 高速コントローラ実装のためのディープニューラルネットワークモデル予測制御フレームワークの導入

Introducing a Deep Neural Network-based Model Predictive Control Framework for Rapid Controller Implementation ( http://arxiv.org/abs/2310.08392v1 )

ライセンス: Link先を確認
David C. Gordon, Alexander Winkler, Julian Bedei, Patrick Schaber, Jakob Andert and Charles R. Koch(参考訳) モデル予測制御(mpc)はコスト関数に基づいた最適な制御ソリューションを提供し、プロセス制約の実装を可能にする。 モデルベース最適制御手法として、MPCの性能はモデル計算時間と予測性能とのトレードオフが存在する場合のモデルに強く依存する。 一つの解決策は、mpcと機械学習(ml)ベースのプロセスモデルの統合であり、オンライン上で素早く評価できる。 本稿では,同質電荷圧縮着火(hcci)燃焼制御のためのディープニューラルネットワーク(dnn)に基づく非線形mpcの実験的実装について述べる。 DNNモデルはLong Short-Term Memory (LSTM)ネットワークを完全連結層で囲み、実験エンジンデータを用いてトレーニングし、全ての出力に対して5%以下の誤差で許容可能な予測性能を示した。 このモデルを用いて、MPCはいくつかのパラメータを最小化しながら、指標平均有効圧力(IMEP)と燃焼軌跡を追跡するように設計されている。 ARM Cortex A72上のMPCのリアルタイム実装を可能にするために、Acadosソフトウェアパッケージを使用することで、最適化計算は1.4ms以内で完了し、外部A72プロセッサは、UDP接続を使用してプロトタイピングエンジンコントローラと統合され、NMPCの迅速な実験的展開を可能にする。 現像した制御器のIMEP軌道は, プロセス制約の観測に加えて, 根平均2乗誤差0.133バールで良好であった。

Model Predictive Control (MPC) provides an optimal control solution based on a cost function while allowing for the implementation of process constraints. As a model-based optimal control technique, the performance of MPC strongly depends on the model used where a trade-off between model computation time and prediction performance exists. One solution is the integration of MPC with a machine learning (ML) based process model which are quick to evaluate online. This work presents the experimental implementation of a deep neural network (DNN) based nonlinear MPC for Homogeneous Charge Compression Ignition (HCCI) combustion control. The DNN model consists of a Long Short-Term Memory (LSTM) network surrounded by fully connected layers which was trained using experimental engine data and showed acceptable prediction performance with under 5% error for all outputs. Using this model, the MPC is designed to track the Indicated Mean Effective Pressure (IMEP) and combustion phasing trajectories, while minimizing several parameters. Using the acados software package to enable the real-time implementation of the MPC on an ARM Cortex A72, the optimization calculations are completed within 1.4 ms. The external A72 processor is integrated with the prototyping engine controller using a UDP connection allowing for rapid experimental deployment of the NMPC. The IMEP trajectory following of the developed controller was excellent, with a root-mean-square error of 0.133 bar, in addition to observing process constraints.
翻訳日:2023-10-15 10:50:08 公開日:2023-10-12
# 線形電磁界におけるウィグナー輸送

Wigner transport in linear electromagnetic fields ( http://arxiv.org/abs/2310.08376v1 )

ライセンス: Link先を確認
Clemens Etl, Mauro Ballicchia, Mihail Nedjalkov, Josef Weinbub(参考訳) 量子力学のワイナーの広範な定式化は密度行列のワイル変換とスカラーポテンシャルのみの項で定式化された対応するフォン・ノイマン方程式の助けを借りて得られる。 電磁場におけるゲージ不変ウィグナー理論を得るには、ワイル・ストラトノヴィッチ変換を適用してウィグナー関数の進化方程式からベクトルポテンシャルを除去することができる。 これは、標準運動量と運動量を置き換える可変変換に対応しており、これは物理量であるゲージ不変量である。 しかし、得られた多次元方程式は数値的に非常に難しい。 本研究では,線形電磁場に対する仮定と平面内の電子の進化(二次元輸送)を適用し,その複雑さを低減し,ゲージ不変ウィグナー方程式を用いた最初の経験を得る。 後者では、リウヴィル作用素は位置と運動量に関する高次混合微分を含む項と相互作用し、静電ウィグナー理論のウィグナーポテンシャルを置き換える。 方程式解析を行い、高階微分に対する有限差分アプローチによりフレドホルム積分方程式への再構成が可能となることを示す。 後者の可解展開は連続積分を含み、モンテカルロの解法に有利である。 そこで本研究では,一般物理量の平均やウィグナー関数を直接評価する2つの確率的 (monte carlo) アルゴリズムを提案する。 このアルゴリズムは、量子輸送をヒューリスティックな言葉で解釈する量子粒子モデルを生み出す。

The widespread Wigner formulation of quantum mechanics is obtained with the help of the Weyl transform of the density matrix and the corresponding von Neumann equation formulated in terms of scalar potentials only. To obtain a gauge-invariant Wigner theory in an electromagnetic field, one can apply a Weyl-Stratonovich transform to remove the vector potential from the evolution equation of the Wigner function. This corresponds to a variable transform replacing the canonical momentum with the kinetic momentum, which, being a physical quantity, is gauge-invariant. The obtained multidimensional equation is, however, numerically very challenging. In this work, we apply simplifying assumptions for linear electromagnetic fields and the evolution of an electron in a plane (two-dimensional transport), which reduces the complexity and enables to gain first experience with a gauge-invariant Wigner equation. In the latter, the Liouville operator interplays with a term containing high-order mixed derivatives on position and momentum, which replaces the Wigner potential of the electrostatic Wigner theory. We present an equation analysis and show that a finite difference approach to the high-order derivatives allows for reformulation into a Fredholm integral equation. The resolvent expansion of the latter contains consecutive integrals, which is favorable for Monte Carlo solution approaches. To that end, we present two stochastic (Monte Carlo) algorithms that evaluate averages of generic physical quantities or directly the Wigner function. The algorithms give rise to a quantum particle model, which interprets quantum transport in heuristic terms.
翻訳日:2023-10-15 10:49:45 公開日:2023-10-12
# 機械学習ソフトウェアを用いた拡張目標追跡 -- 動物分類への応用-

Extended target tracking utilizing machine-learning software -- with applications to animal classification ( http://arxiv.org/abs/2310.08316v1 )

ライセンス: Link先を確認
Magnus Malmstr\"om, Anton Kullberg, Isaac Skog, Daniel Axehill, Fredrik Gustafsson(参考訳) 本稿では,画像列中の物体を検出し,追跡する問題について考察する。 この問題は、オブジェクト検出アルゴリズムの出力を測定として、フィルタリングフレームワークで定式化されている。 対象検出アルゴリズムが不正確な予測を出力する場合でも,前のフレームからのクラス情報を組み込んだフィルタリング定式化の拡張が提案されている。 さらに、オブジェクト検出アルゴリズムの特性を利用して、各フレームにおける境界ボックス検出の不確かさを定量化する。 完全濾過法は,スウェーデンの大型肉食動物,クマ,リンクス,オオカミ,ウルヴァリンのカメラトラップ画像を用いて評価した。 実験により、クラス追跡定式化がよりロバストな分類につながることが示された。

This paper considers the problem of detecting and tracking objects in a sequence of images. The problem is formulated in a filtering framework, using the output of object-detection algorithms as measurements. An extension to the filtering formulation is proposed that incorporates class information from the previous frame to robustify the classification, even if the object-detection algorithm outputs an incorrect prediction. Further, the properties of the object-detection algorithm are exploited to quantify the uncertainty of the bounding box detection in each frame. The complete filtering method is evaluated on camera trap images of the four large Swedish carnivores, bear, lynx, wolf, and wolverine. The experiments show that the class tracking formulation leads to a more robust classification.
翻訳日:2023-10-15 10:49:23 公開日:2023-10-12
# マルチモーダル変分オートエンコーダに基づく視聴覚セグメンテーション

Multimodal Variational Auto-encoder based Audio-Visual Segmentation ( http://arxiv.org/abs/2310.08303v1 )

ライセンス: Link先を確認
Yuxin Mao, Jing Zhang, Mochu Xiang, Yiran Zhong, Yuchao Dai(参考訳) 本稿では,映像系列における音源のセグメント化を目的とした,音声視覚分割のためのECMVAE(Explicit Conditional Multimodal Variational Auto-Encoder)を提案する。 既存のavsメソッドは暗黙の機能融合戦略にフォーカスしており、モデルがデータセット内の離散的なサンプルに適合するように訓練されている。 限定的で多様性の低いデータセットでは、結果のパフォーマンスは通常満足できない。 対照的に,この問題を効果的な表現学習の観点から解決し,各モダリティの寄与を明示的にモデル化することを目指している。 具体的には、音声には音響プロデューサーのクリティカルカテゴリ情報が含まれており、視覚データは候補音声プロデューサー(s)を提供する。 それらの共有情報は、視覚データに示されるターゲットサウンドプロデューサ(s)に対応する。 この場合、AVSでは、クロスモーダル共有表現学習が特に重要である。 これを実現するために、ECMVAEは、モダリティ共有表現とモダリティ固有表現で各モダリティの表現を分解する。 直交性制約は共有表現と特定の表現の間で適用され、因果化された潜在コードの排他的属性を維持する。 さらに、相互情報最大化正規化器を導入し、各モードを広範囲に探索する。 AVSBenchの定量的および定性的な評価は、我々のアプローチの有効性を実証し、AVSの新たな最先端技術となり、3.84mIOUの性能は、複数の音源セグメンテーションのための挑戦的なMS3サブセットに飛躍する。

We propose an Explicit Conditional Multimodal Variational Auto-Encoder (ECMVAE) for audio-visual segmentation (AVS), aiming to segment sound sources in the video sequence. Existing AVS methods focus on implicit feature fusion strategies, where models are trained to fit the discrete samples in the dataset. With a limited and less diverse dataset, the resulting performance is usually unsatisfactory. In contrast, we address this problem from an effective representation learning perspective, aiming to model the contribution of each modality explicitly. Specifically, we find that audio contains critical category information of the sound producers, and visual data provides candidate sound producer(s). Their shared information corresponds to the target sound producer(s) shown in the visual data. In this case, cross-modal shared representation learning is especially important for AVS. To achieve this, our ECMVAE factorizes the representations of each modality with a modality-shared representation and a modality-specific representation. An orthogonality constraint is applied between the shared and specific representations to maintain the exclusive attribute of the factorized latent code. Further, a mutual information maximization regularizer is introduced to achieve extensive exploration of each modality. Quantitative and qualitative evaluations on the AVSBench demonstrate the effectiveness of our approach, leading to a new state-of-the-art for AVS, with a 3.84 mIOU performance leap on the challenging MS3 subset for multiple sound source segmentation.
翻訳日:2023-10-15 10:49:11 公開日:2023-10-12
# 自己相似ダイナミクスのデータ駆動モデリング

Data driven modeling of self-similar dynamics ( http://arxiv.org/abs/2310.08282v1 )

ライセンス: Link先を確認
Ruyi Tao, Ningning Tao, Yizhuang You, Jiang Zhang(参考訳) 複雑なシステムのマルチスケールモデリングは、その複雑さを理解する上で重要である。 データ駆動型マルチスケールモデリングは、複雑なシステムに関わる課題に取り組むための有望なアプローチとして登場した。 一方、自己相似性は複雑なシステムで一般的であり、大規模な複雑なシステムを低コストでモデル化できることを示唆している。 本稿では,自己相似性を事前知識として組み込んだマルチスケールニューラルネットワークフレームワークを導入し,自己相似力学系のモデリングを容易にする。 決定論的ダイナミクスの場合、我々のフレームワークは力学が自己相似かどうかを識別できる。 不確定な力学では、どのパラメータ集合が自己相似に近いかを比較して決定することができる。 このフレームワークにより、任意のスケールでモデリングするためのダイナミクスからスケール不変なカーネルを抽出することができます。 さらに,本手法は自己相似システムにおける電力法指数を同定することができる。 イジング模型の予備実験では、理論的な期待と一致した臨界指数が得られ、非平衡系の臨界相転移に対処するための貴重な洞察を与えた。

Multiscale modeling of complex systems is crucial for understanding their intricacies. Data-driven multiscale modeling has emerged as a promising approach to tackle challenges associated with complex systems. On the other hand, self-similarity is prevalent in complex systems, hinting that large-scale complex systems can be modeled at a reduced cost. In this paper, we introduce a multiscale neural network framework that incorporates self-similarity as prior knowledge, facilitating the modeling of self-similar dynamical systems. For deterministic dynamics, our framework can discern whether the dynamics are self-similar. For uncertain dynamics, it can compare and determine which parameter set is closer to self-similarity. The framework allows us to extract scale-invariant kernels from the dynamics for modeling at any scale. Moreover, our method can identify the power law exponents in self-similar systems. Preliminary tests on the Ising model yielded critical exponents consistent with theoretical expectations, providing valuable insights for addressing critical phase transitions in non-equilibrium systems.
翻訳日:2023-10-15 10:48:46 公開日:2023-10-12
# gaussiandreamer: point cloud priorsによるテキストから3d gaussian splattingへの高速生成

GaussianDreamer: Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors ( http://arxiv.org/abs/2310.08529v1 )

ライセンス: Link先を確認
Taoran Yi, Jiemin Fang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Qi Tian, Xinggang Wang(参考訳) 近年、テキストプロンプトによる3Dアセットの生成は、目覚ましい結果を示している。 2dおよび3d拡散モデルは、プロンプトに基づいて適切な3dオブジェクトを生成することができる。 3d拡散モデルは良好な3d一貫性を持つが、トレーニング可能な3dデータは高価で入手が難しいため、その品質と一般化は限られている。 2次元拡散モデルには、一般化と微細生成の強い能力があるが、3次元の整合性は保証できない。 本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。 高速3d生成フレームワークである \name が提案され、3d拡散モデルは初期化のためのポイントクラウドプリエントを提供し、2d拡散モデルは幾何学と外観を豊かにする。 ガウスの初期化を促進するために、ノイズの多い点の成長と色摂動の操作を導入した。 我々の名前は、1つのGPU上で25分以内で高品質な3Dインスタンスを生成することができ、生成したインスタンスはリアルタイムで直接レンダリングできる。 デモとコードはhttps://taoranyi.com/gaussiandreamer/で入手できる。

In recent times, the generation of 3D assets from text prompts has shown impressive results. Both 2D and 3D diffusion models can generate decent 3D objects based on prompts. 3D diffusion models have good 3D consistency, but their quality and generalization are limited as trainable 3D data is expensive and hard to obtain. 2D diffusion models enjoy strong abilities of generalization and fine generation, but the 3D consistency is hard to guarantee. This paper attempts to bridge the power from the two types of diffusion models via the recent explicit and efficient 3D Gaussian splatting representation. A fast 3D generation framework, named as \name, is proposed, where the 3D diffusion model provides point cloud priors for initialization and the 2D diffusion model enriches the geometry and appearance. Operations of noisy point growing and color perturbation are introduced to enhance the initialized Gaussians. Our \name can generate a high-quality 3D instance within 25 minutes on one GPU, much faster than previous methods, while the generated instances can be directly rendered in real time. Demos and code are available at https://taoranyi.com/gaussiandreamer/.
翻訳日:2023-10-15 10:41:56 公開日:2023-10-12
# リアルタイム動的シーンレンダリングのための4次元ガウススプレーティング

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering ( http://arxiv.org/abs/2310.08528v1 )

ライセンス: Link先を確認
Guanjun Wu and Taoran Yi and Jiemin Fang and Lingxi Xie and Xiaopeng Zhang and Wei Wei and Wenyu Liu and Qi Tian and Xinggang Wang(参考訳) 動的シーンの表現とレンダリングは重要だが、難しい作業だった。 特に複雑な動きを正確にモデル化するには、高い効率を維持するのは難しい。 4d-gs(4d-gs)を導入し,高いトレーニングとストレージ効率を享受しながら,リアルタイムな動的シーンレンダリングを実現する。 ガウス運動と形状変形の両方をモデル化する効率的な変形場を構築する。 隣接するガウス人はヘックスプレーンを介して接続され、より正確な位置と形状の変形を生み出す。 4d-gs法は、rtx 3090 gpu上で800$\times$800の解像度で70fpsのハイ解像度下でのリアルタイムレンダリングを実現し、従来の最先端の手法と同等または高い品質を維持している。 デモとコードはhttps://guanjunwu.github.io/4dgs/。

Representing and rendering dynamic scenes has been an important but challenging task. Especially, to accurately model complex motions, high efficiency is usually hard to maintain. We introduce the 4D Gaussian Splatting (4D-GS) to achieve real-time dynamic scene rendering while also enjoying high training and storage efficiency. An efficient deformation field is constructed to model both Gaussian motions and shape deformations. Different adjacent Gaussians are connected via a HexPlane to produce more accurate position and shape deformations. Our 4D-GS method achieves real-time rendering under high resolutions, 70 FPS at a 800$\times$800 resolution on an RTX 3090 GPU, while maintaining comparable or higher quality than previous state-of-the-art methods. More demos and code are available at https://guanjunwu.github.io/4dgs/.
翻訳日:2023-10-15 10:41:38 公開日:2023-10-12
# aionプロジェクトにおける超低温srの進展 --サブマイクロケルビン原子とレーザー注入同期ダイオード用光学ヘテロダイン診断ツール-

Progress towards ultracold Sr for the AION project -- sub-microkelvin atoms and an optical-heterodyne diagnostic tool for injection-locked laser diodes ( http://arxiv.org/abs/2310.08500v1 )

ライセンス: Link先を確認
E. Pasatembou, C. F. A. Baynham, O. Buchm\"uller, D. Evans, R. Hobson, L. Iannizzotto-Venezze and A. Josset(参考訳) 長いベースラインの原子干渉計(例えば、イオンコラボレーションによって構築されるもの)は超低温の原子雲を必要とする。 これらは、高出力の狭線幅レーザーを用いて磁気光学トラップ(mots)で原子をトラップすることで生成される。 689nmにおける1s0 - 3p1ストロンチウム転移に対処するためのレーザーおよび光学マスタースレーブ注入ロックシステムおよび狭帯域motにおけるストロンチウム原子の捕捉について報告する。 ダブルパス・アコスト光変調器 (AOM) を用いてヘテロダインビートノートを生成し, 検出する新規な組立法を用いて, 注入ロックのキャラクタリゼーションによるインジェクションの品質を実証する。 報告されたシステムは、狭帯域の赤色MOTで812 +/-43 nKの温度で原子雲を生成するために使用される。

Long-baseline atom interferometers, such as the one to be built by the AION collaboration, require ultra-cold atomic clouds. These are produced by trapping the atoms in Magneto-Optical Traps (MOTs) using high-power, narrow-linewidth lasers. We report on the laser and optical master-slave injection locked system used to address the 1S0 - 3P1 strontium transition at 689 nm, and on the trapping of strontium atoms in a narrowband MOT. We demonstrate the quality of the injection through the characterisation of the injection lock using a novel, easy-to-assemble method which uses a double pass acousto-optic modulator (AOM) to generate and detect a heterodyne beatnote. The reported system is used to produce an atomic cloud at a temperature of 812 +/- 43 nK in a narrowband red MOT.
翻訳日:2023-10-15 10:41:24 公開日:2023-10-12
# ダイヤモンド中の窒素空孔中心を用いた高磁場NMRのための栄養系縦型センシングプロトコル

Nutation-Based Longitudinal Sensing Protocols for High-Field NMR With Nitrogen-Vacancy Centers in Diamond ( http://arxiv.org/abs/2310.08499v1 )

ライセンス: Link先を確認
Declan Daly, Stephen J. DeVience, Emma Huckestein, John W. Blanchard, Johannes Cremer, Ronald L. Walsworth(参考訳) ダイヤモンド中の窒素空孔(NV)中心は、ナノスケールとミクロンの試料の核磁気共鳴(NMR)分光を可能にする。 しかし、典型的なテトラスケールのNMR磁場強度では、数メガヘルツ以上の核ラルモア周波数に敏感な高速なNVパルスシーケンスを駆動するという課題のために、NV-NMRプロトコルの実装が困難になる。 我々は, DRACAERIS (Double Rewound Acquisition Amplitude Encoded Radio induced Signal) と呼ばれる新しい測定プロトコルを用いて, テスラスケール磁場におけるNV-NMRの実験可能性のシミュレーションと理論的解析を行った。 DRACAERISはNMRサンプルの縦磁化をはるかに低い駆動のRabi周波数で検出し、技術的にはNV検出に適している。 パルス誤差,有限パルス長,核スピンスピンスピンカップリングがnmrスペクトルに与える影響について考察する。 DRACAERISは従来の縦磁化検出プロトコルよりもパルス不完全性や非共鳴効果の影響を受けにくい。 また,実験実施のための合理的パラメータも同定する。

Nitrogen vacancy (NV) centers in diamond enable nuclear magnetic resonance (NMR) spectroscopy of samples at the nano- and micron scales. However, at typical tesla-scale NMR magnetic field strengths, NV-NMR protocols become difficult to implement due to the challenge of driving fast NV pulse sequences sensitive to nuclear Larmor frequencies above a few megahertz. We perform simulations and theoretical analysis of the experimental viability of NV-NMR at tesla-scale magnetic fields using a new measurement protocol called DRACAERIS (Double Rewound ACquisition Amplitude Encoded Radio Induced Signal). DRACAERIS detects the NMR sample's longitudinal magnetization at a much lower driven Rabi frequency, more suitable technically for NV detection. We discuss how pulse errors, finite pulse lengths, and nuclear spin-spin couplings affect the resulting NMR spectra. We find that DRACAERIS is less susceptible to pulse imperfections and off-resonance effects than previous protocols for longitudinal magnetization detection. We also identify reasonable parameters for experimental implementation.
翻訳日:2023-10-15 10:40:55 公開日:2023-10-12
# パーソナライズド動的スーパーラーニング:血液透析の対流量予測への応用

Personalised dynamic super learning: an application in predicting hemodiafiltration's convection volumes ( http://arxiv.org/abs/2310.08479v1 )

ライセンス: Link先を確認
Arthur Chatton, Mich\`ele Bally, Ren\'ee L\'evesque, Ivana Malenica, Robert W. Platt, Mireille E. Schnitzer(参考訳) 継続的に更新される予測を得ることは、パーソナライズドメディカルにとって大きな課題である。 パラメトリック回帰と機械学習のアプローチの組み合わせを活用して、パーソナライズドオンラインスーパーラーナ(posl)は、そのような動的かつパーソナライズされた予測を達成することができる。 我々は,poslを動的に連続的な結果を予測するために適用し,そのような個人化モデルや動的予測モデルを検証する新しい方法を提案する。 血液透析患者の対流容積を予測し,その性能を概説した。 POSLは, 絶対誤差の中央値, キャリブレーション・イン・ザ・ラージ, 差別, 純利益に関して, 候補者学習者より優れていた。 最終的に、POSLの使用の基礎となる選択と課題について論じる。

Obtaining continuously updated predictions is a major challenge for personalised medicine. Leveraging combinations of parametric regressions and machine learning approaches, the personalised online super learner (POSL) can achieve such dynamic and personalised predictions. We adapt POSL to predict a repeated continuous outcome dynamically and propose a new way to validate such personalised or dynamic prediction models. We illustrate its performance by predicting the convection volume of patients undergoing hemodiafiltration. POSL outperformed its candidate learners with respect to median absolute error, calibration-in-the-large, discrimination, and net benefit. We finally discuss the choices and challenges underlying the use of POSL.
翻訳日:2023-10-15 10:40:28 公開日:2023-10-12
# 二次元フェルミオン線における位相的に保護された準拡散輸送

Topologically protected subdiffusive transport in two-dimensional fermionic wires ( http://arxiv.org/abs/2310.08474v1 )

ライセンス: Link先を確認
Junaid Majeed Bhat(参考訳) 1次元フェルミオン線のバンドエッジのコンダクタンスは、n$サイトを持つが、1/n^2)$のサブディファクティブな挙動を持つことが示されている。 N_x\times N_y$長方形格子上のホッピングモデルにより記述された2次元フェルミオンワイヤのこの問題を,H_0$とH_1$で与えられるチェーン内鎖とチェーン間ホッピング行列を用いて検討した。 非平衡グリーン関数形式を用いて粒子輸送の研究を行い、フェルミレベル $\omega$ におけるコンダクタンスの漸近的挙動である $t(\omega)$ は次元のない行列 $a(\omega)=(-\omega+h_0)h_1^{-1}$ のスペクトルによって制御されることを示した。 これにより、弾道的、劣微分的、指数的に崩壊する$t(\omega)$のスペクトルの3つの単純な条件が、$n_x$に対して与えられる。 a(\omega)$ の特定の固有値がコンダクタンスにおける劣微分的寄与を生じさせ、孤立したワイヤのバンドエッジに対応することを示す。 a(\omega)$ が非自明な位相を持つ場合、劣微分的挙動を観察する条件が満たされることを示す。 この場合、ホッピングパラメータがトポロジカルな状態の中で調整されるため、導体の弾道的挙動から発散的挙動への遷移が観察される。 遷移点において、コンダクタンスの異なる挙動は、$A(\omega)$の自明なバルクバンドが部分微分的に寄与するものとして生じる。 n_x$ のコンダクタンスの変動を数値計算し,簡単なモデルを用いて実験を行った。 その結果,遷移点におけるコンダクタンスの異なる拡散挙動(1/n_x^3$)を示す。 この数値結果は理論的な予測とよく一致している。

The conductance at the band edges of one-dimensional fermionic wires, with $N$ sites, has been shown to have subdiffusive $(1/N^2)$ behavior. We investigate this issue in two-dimensional fermionic wires described by a hopping model on an $N_x\times N_y$ rectangular lattice comprised of vertical chains with a Hermitian intra-chain and inter-chain hopping matrices given by $H_0$ and $H_1$, respectively. We study particle transport using the non-equilibrium Green's function formalism, and show that the asymptotic behavior of the conductance, $T(\omega)$, at the Fermi level $\omega$, is controlled by the spectrum of a dimensionless matrix $A(\omega)=(-\omega+H_0)H_1^{-1}$. This gives three simple conditions on the spectrum of $A(\omega)$ for observing ballistic, subdiffusive, and exponentially decaying $T(\omega)$ with respect to $N_x$. We show that certain eigenvalues of $A(\omega)$ give rise to subdiffusive contributions in the conductance, and correspond to the band edges of the isolated wire. We demonstrate that the condition for observing the subdiffusive behavior can be satisfied if $A(\omega)$ has nontrivial topology. In that case, a transition from ballistic behavior to subdiffusive behavior of the conductance is observed as the hopping parameters are tuned within the topological regime. We argue that at the transition point, different behaviors of the conductance can arise as the trivial bulk bands of $A(\omega)$ also contribute subdiffusively. We illustrate our findings in a simple model by numerically computing the variation of the conductance with $N_x$. Our numerical results indicate a different subdiffusive behavior ($1/N_x^3$) of the conductance at the transition point. We find the numerical results in good agreement with the theoretical predictions.
翻訳日:2023-10-15 10:40:09 公開日:2023-10-12
# 量子ゲームにおける非回帰学習と平衡計算

No-Regret Learning and Equilibrium Computation in Quantum Games ( http://arxiv.org/abs/2310.08473v1 )

ライセンス: Link先を確認
Wayne Lin, Georgios Piliouras, Ryann Sim, Antonios Varvitsiotis(参考訳) 量子プロセッサが進歩するにつれて、量子可能エージェントの相互作用を伴う大規模分散システムの出現が近づいている。 最近の研究は、戦略的量子相互作用のソリューション概念として、ナッシュと相関平衡の量子バージョンを探索してきたが、これらのアプローチは、エージェントが限られた情報を持っている分散適応装置に直接接続しなかった。 本稿では,非回帰アルゴリズムを用いた分散システムにおける量子化可能なエージェントのダイナミクスについて考察する。 具体的には、2プレイヤーの量子ゼロサムゲームとポリマトリクスの量子ゼロサムゲームについて検討し、時間平均における分離可能な量子ナッシュ平衡に非回帰アルゴリズムが収束することを示した。 一般的なマルチプレイヤー量子ゲームの場合、我々の研究は(分離可能な)量子粗相関平衡(QCCE)という、時間平均の振る舞いの非回帰アルゴリズムの収束結果を生み出し、分散化された量子システムに対する自然な解の概念を提供する。 最後に、QCCEを半定値プログラムとして定式化して、現在の非回帰学習のパラダイムではアプローチできない絡み合った(非分離可能)QCCEの存在を確立することを示す。

As quantum processors advance, the emergence of large-scale decentralized systems involving interacting quantum-enabled agents is on the horizon. Recent research efforts have explored quantum versions of Nash and correlated equilibria as solution concepts of strategic quantum interactions, but these approaches did not directly connect to decentralized adaptive setups where agents possess limited information. This paper delves into the dynamics of quantum-enabled agents within decentralized systems that employ no-regret algorithms to update their behaviors over time. Specifically, we investigate two-player quantum zero-sum games and polymatrix quantum zero-sum games, showing that no-regret algorithms converge to separable quantum Nash equilibria in time-average. In the case of general multi-player quantum games, our work leads to a novel solution concept, (separable) quantum coarse correlated equilibria (QCCE), as the convergent outcome of the time-averaged behavior no-regret algorithms, offering a natural solution concept for decentralized quantum systems. Finally, we show that computing QCCEs can be formulated as a semidefinite program and establish the existence of entangled (i.e., non-separable) QCCEs, which cannot be approached via the current paradigm of no-regret learning.
翻訳日:2023-10-15 10:39:06 公開日:2023-10-12
# 偏見的信念の形成と持続性

Belief formation and the persistence of biased beliefs ( http://arxiv.org/abs/2310.08466v1 )

ライセンス: Link先を確認
Olivier Compte(参考訳) エージェントが2つの理論を区別しようとする信念形成モデルを提案し、証拠の確認と不確認の間の強さの非対称性が信念を傾け、強い(そしておそらく稀な)証拠の確認と弱い(そして頻繁に)不確認の証拠を生み出す理論を支持する。 我々のモデルでは、情報処理の制限により、弱い証拠を検閲するインセンティブが提供され、その結果、いくつかの差別問題に対して、証拠は真の基礎理論とは無関係に、主に一方的なものになる可能性がある。 検閲されたデータ生成プロセスの特徴を知っている高度なエージェントは、この「証拠」の蓄積によって引き起こされるのではなく、より洗練されたエージェントはバイアスのある信念に終わる。

We propose a belief-formation model where agents attempt to discriminate between two theories, and where the asymmetry in strength between confirming and disconfirming evidence tilts beliefs in favor of theories that generate strong (and possibly rare) confirming evidence and weak (and frequent) disconfirming evidence. In our model, limitations on information processing provide incentives to censor weak evidence, with the consequence that for some discrimination problems, evidence may become mostly one-sided, independently of the true underlying theory. Sophisticated agents who know the characteristics of the censored data-generating process are not lured by this accumulation of ``evidence'', but less sophisticated ones end up with biased beliefs.
翻訳日:2023-10-15 10:38:45 公開日:2023-10-12
# スピン軌道相互作用を持つグラフェンの弱い局在の理論

Theory of weak localization in graphene with spin-orbit interaction ( http://arxiv.org/abs/2310.08440v1 )

ライセンス: Link先を確認
L. E. Golub(参考訳) エネルギースペクトルのラシュバ分割によるグラフェンの弱局在化の理論を開発した。 弱局在化により生じる異常磁気抵抗は, スピン軌道, スピン-バレー散乱により計算される。 この異常磁気抵抗は従来の氷上ラルキン長岡式とは異なる表現で記述されている。 理由は、ラシュバ分割の効果がスピン軌道ベクトルポテンシャルを生じさせ、それがスピン脱落のみに還元されないからである。 この理論は遷移金属ジアルコゲナイドを含むグラフェンのヘテロ構造に応用できる。

Theory of weak localization in graphene with Rashba splitting of energy spectrum is developed. Anomalous magnetoresistance caused by weak localization is calculated with account for inter- and intravalley, spin-orbit and spin-valley scattering processes. It is shown that the anomalous magnetoresistance is described by the expression different from the traditional Hikami-Larkin-Nagaoka formula. The reason is that the effect of Rashba splitting gives rise to the spin-orbit vector potential which is not reduced to a spin dephasing only. The developed theory can be applied to heterostructures of graphene with transition metal dichalcogenides.
翻訳日:2023-10-15 10:38:30 公開日:2023-10-12
# 地球情報科学とリモートセンシングによる土壌侵食リスクの評価 -レビュー-

Assessing of Soil Erosion Risk Through Geoinformation Sciences and Remote Sensing -- A Review ( http://arxiv.org/abs/2310.08430v1 )

ライセンス: Link先を確認
Lachezar Filchev, Vasil Kolev(参考訳) 過去数十年間、世界的な広範囲な侵食現象の顕著な現象が研究された。 地球環境保護共同体は、土壌資源の保全や自然への人的影響を軽減するだけでなく、土壌栽培の新しいアプローチを導入する農村部での生活改善のために、発展途上国の地域、地域、大陸レベルでのキャンペーンを開始した。 国連の持続可能な開発目標が採用され、土地劣化中立(LDN)のようないくつかの世界イニシアチブが立ち上げられた後、世界は生物圏がその存在に依存している土壌資源の重要性を非常に認識するようになった。 この章の主目的は、さまざまなタイプや構造の浸食モデルとそれらの応用をレビューすることである。 地理情報システム(GIS)の空間分析機能を利用するいくつかの手法は、全世界および米国およびMESALESモデルにおいて、ユニバーサル土壌損失方程式(USLE)、改訂ユニバーサル土壌損失方程式(RUSLE)などの土壌侵食リスク評価のために運用されている。 これらのモデルは、人工知能(AI)や機械学習、ディープラーニングなどの土壌浸食リスクを評価するための、より実験的なモデルや手法と共に議論されている。 本研究の最後には,土壌浸食リスク評価の今後の発展に向けた展望を述べる。

During past decades a marked manifestation of widespread erosion phenomena was studied worldwide. Global conservation community has launched campaigns at local, regional and continental level in developing countries for preservation of soil resources in order not only to stop or mitigate human impact on nature but also to improve life in rural areas introducing new approaches for soil cultivation. After the adoption of Sustainable Development Goals of UNs and launching several world initiatives such as the Land Degradation Neutrality (LDN) the world came to realize the very importance of the soil resources on which the biosphere relies for its existence. The main goal of the chapter is to review different types and structures erosion models as well as their applications. Several methods using spatial analysis capabilities of geographic information systems (GIS) are in operation for soil erosion risk assessment, such as Universal Soil Loss Equation (USLE), Revised Universal Soil Loss Equation (RUSLE) in operation worldwide and in the USA and MESALES model. These and more models are being discussed in the present work alongside more experimental models and methods for assessing soil erosion risk such as Artificial Intelligence (AI), Machine and Deep Learning, etc. At the end of this work, a prospectus for the future development of soil erosion risk assessment is drawn.
翻訳日:2023-10-15 10:38:21 公開日:2023-10-12
# Universal Visual Decomposer: ロングホライゾン操作が簡単

Universal Visual Decomposer: Long-Horizon Manipulation Made Easy ( http://arxiv.org/abs/2310.08581v1 )

ライセンス: Link先を確認
Zichen Zhang, Yunshuang Li, Osbert Bastani, Abhishek Gupta, Dinesh Jayaraman, Yecheng Jason Ma, Luca Weihs(参考訳) 現実世界のロボットタスクは、幅広い地平線を越えて、複数のステージを包含する。 しかし、ロングホリゾン操作タスクの学習は長年の課題であり、全体的なタスクをいくつかの管理可能なサブタスクに分解し、方針学習と非認識タスクへの一般化を促進することを要求する。 事前のタスク分割手法はタスク固有の知識を必要とし、計算量が多く、新しいタスクに容易に適用できない。 そこで本研究では,ロボット制御のための事前学習された視覚表現を用いた視覚長地平線操作のためのオフラインタスク分解手法であるuniversal visual decomposer (uvd)を提案する。 高いレベルでは、UVDは事前訓練された表現の埋め込み空間における位相シフトを検出してサブゴールを発見する。 UVDは補助情報なしで純粋に視覚的なデモンストレーションを行うため、ビデオに埋め込まれた視覚的なサブゴールを効果的に抽出することができる。 UVD-Discovered subgoalsで学習したゴール条件付きポリシーは、テスト時の構成一般化を未確認タスクに改善した。 さらに、UVDで発見されたサブゴールは、ジャンプ開始が時間的に拡張された強化学習のためのゴールベースの報酬形成を構築するために使用できる。 シミュレーションと実世界のタスクの両方においてUVDを広範囲に評価し、すべての場合において、UVDは、ドメイン内およびドメイン外タスクシーケンスの模倣および強化学習設定において、ベースラインを大幅に上回っており、単純でコンパクトなUVDフレームワークにおいて、自動視覚タスク分解の明確な利点を検証している。

Real-world robotic tasks stretch over extended horizons and encompass multiple stages. Learning long-horizon manipulation tasks, however, is a long-standing challenge, and demands decomposing the overarching task into several manageable subtasks to facilitate policy learning and generalization to unseen tasks. Prior task decomposition methods require task-specific knowledge, are computationally intensive, and cannot readily be applied to new tasks. To address these shortcomings, we propose Universal Visual Decomposer (UVD), an off-the-shelf task decomposition method for visual long horizon manipulation using pre-trained visual representations designed for robotic control. At a high level, UVD discovers subgoals by detecting phase shifts in the embedding space of the pre-trained representation. Operating purely on visual demonstrations without auxiliary information, UVD can effectively extract visual subgoals embedded in the videos, while incurring zero additional training cost on top of standard visuomotor policy training. Goal-conditioned policies learned with UVD-discovered subgoals exhibit significantly improved compositional generalization at test time to unseen tasks. Furthermore, UVD-discovered subgoals can be used to construct goal-based reward shaping that jump-starts temporally extended exploration for reinforcement learning. We extensively evaluate UVD on both simulation and real-world tasks, and in all cases, UVD substantially outperforms baselines across imitation and reinforcement learning settings on in-domain and out-of-domain task sequences alike, validating the clear advantage of automated visual task decomposition within the simple, compact UVD framework.
翻訳日:2023-10-15 10:32:56 公開日:2023-10-12
# OmniControl:人間の動きをいつでもコントロールできる関節

OmniControl: Control Any Joint at Any Time for Human Motion Generation ( http://arxiv.org/abs/2310.08580v1 )

ライセンス: Link先を確認
Yiming Xie, Varun Jampani, Lei Zhong, Deqing Sun, Huaizu Jiang(参考訳) 本稿では, フレキシブルな空間制御信号を拡散過程に基づくテキスト条件付き人体運動生成モデルに組み込む新しい手法OmniControlを提案する。 骨盤軌道のみを制御する従来の方法とは異なり、OmniControlは1つのモデルで異なる時間に異なる関節に柔軟な空間制御信号を組み込むことができる。 具体的には,生成した動作が入力制御信号に忠実に適合することを保証する解析空間ガイダンスを提案する。 同時に、全ての関節を洗練してよりコヒーレントな動きを生み出すためにリアリズムガイダンスが導入された。 空間的およびリアリズムのガイダンスはどちらも不可欠であり、制御精度と運動リアリズムのバランスをとるために非常に相補的である。 これらを組み合わせることで、OmniControlは現実的で一貫性があり、空間的制約と整合する動きを生成する。 HumanML3DとKIT-MLデータセットの実験では、OmniControlはペルビス制御における最先端の手法よりも大幅に改善されているだけでなく、他の関節に制約を加える際に有望な結果も示している。

We present a novel approach named OmniControl for incorporating flexible spatial control signals into a text-conditioned human motion generation model based on the diffusion process. Unlike previous methods that can only control the pelvis trajectory, OmniControl can incorporate flexible spatial control signals over different joints at different times with only one model. Specifically, we propose analytic spatial guidance that ensures the generated motion can tightly conform to the input control signals. At the same time, realism guidance is introduced to refine all the joints to generate more coherent motion. Both the spatial and realism guidance are essential and they are highly complementary for balancing control accuracy and motion realism. By combining them, OmniControl generates motions that are realistic, coherent, and consistent with the spatial constraints. Experiments on HumanML3D and KIT-ML datasets show that OmniControl not only achieves significant improvement over state-of-the-art methods on pelvis control but also shows promising results when incorporating the constraints over other joints.
翻訳日:2023-10-15 10:32:26 公開日:2023-10-12
# ドープ反強磁性体の準粒子分散に対するニューラルネットワークアプローチ

Neural network approach to quasiparticle dispersions in doped antiferromagnets ( http://arxiv.org/abs/2310.08578v1 )

ライセンス: Link先を確認
Hannah Lange, Fabian D\"oschl, Juan Carrasquilla, Annabelle Bohrdt(参考訳) スピンフル・フェルミオン系の数値シミュレーションは凝縮物質物理学の観点から非常に興味深い。 しかし、システムサイズを持つヒルベルト空間次元の指数関数的成長は、大きな量子系の厳密なパラメータ化を強制的に要求する。 これはニューラルネットワークにとって完璧な遊び場であり、その膨大な代表力のため、正確な方法で必要とされるパラメータのほんの一部しか使用できないことが多い。 本稿では,Fermi-Hubbardモデルの高相互作用限界であるボソニックおよびフェルミオンの$t-J$モデルを表現するニューラル量子状態(NQS)を,異なる1次元および2次元格子上で表現する能力について検討する。 自己回帰リカレントニューラルネットワーク (RNN) と2次元テンソル化ゲートリカレントユニットを用いて, ハーフフィルドシステムに穴をあける際の基底状態表現について検討した。 さらに、ニューラルネットワークアーキテクチャや格子幾何学に適用可能なニューラルネットワーク状態表現から分散関係を計算し、NQSから低エネルギー物理を推定する手法を提案する。 本研究では,異なる1次元および2次元の正方形および三角形の格子上での$t-J$モデルの単一孔の分散を計算する。 さらに、フェミオン系に対するRNNアプローチの長所と短所を解析し、ニューラル量子状態を用いたフェルミオン量子系の正確かつ効率的なパラメータ化の道を示す。

Numerically simulating spinful, fermionic systems is of great interest from the perspective of condensed matter physics. However, the exponential growth of the Hilbert space dimension with system size renders an exact parameterization of large quantum systems prohibitively demanding. This is a perfect playground for neural networks, owing to their immense representative power that often allows to use only a fraction of the parameters that are needed in exact methods. Here, we investigate the ability of neural quantum states (NQS) to represent the bosonic and fermionic $t-J$ model - the high interaction limit of the Fermi-Hubbard model - on different 1D and 2D lattices. Using autoregressive recurrent neural networks (RNNs) with 2D tensorized gated recurrent units, we study the ground state representations upon doping the half-filled system with holes. Moreover, we present a method to calculate dispersion relations from the neural network state representation, applicable to any neural network architecture and any lattice geometry, that allows to infer the low-energy physics from the NQS. To demonstrate our approach, we calculate the dispersion of a single hole in the $t-J$ model on different 1D and 2D square and triangular lattices. Furthermore, we analyze the strengths and weaknesses of the RNN approach for fermionic systems, pointing the way for an accurate and efficient parameterization of fermionic quantum systems using neural quantum states.
翻訳日:2023-10-15 10:32:04 公開日:2023-10-12
# 非エルミート連続体系に対する非ブロッホバンド理論

Non-Bloch band theory for non-Hermitian continuum systems ( http://arxiv.org/abs/2310.08572v1 )

ライセンス: Link先を確認
Yu-Min Hu, Yin-Quan Huang, Wen-Tan Xue, Zhong Wang(参考訳) 最も顕著な非エルミート現象の1つは非エルミート皮膚効果であり、非エルミート系の境界付近のバルク固有状態の指数的局所化を指す。 非ブロッホバンド理論は格子系における非エルミート皮膚効果を記述するために開発されたが、連続系におけるその効果は定量的な特徴を欠いている。 ここでは、非ブロッホバンド理論を非エルミート連続体系に一般化する。 バルクハミルトニアンが非エルミートスキン効果とエネルギースペクトルのみを決定する格子系とは対照的に、境界条件の数を本質的な情報として含まなければならない連続系を見いだす。 連続体系の格子モデルへの適切な離散化は、後者のホッピング範囲と前者の境界条件の数とを一致させる必要があることを示す。 さらに,周期的非エルミート連続体系において,一般化ブリルアンゾーンの決定における移動行列の適用を強調する。 本理論は、フォトニック結晶、弾性媒質、ある種のコールドアトム系などの非エルミート連続体系におけるリッチな非ブロッホ物理学を研究するのに有用なツールボックスである。

One of the most pronounced non-Hermitian phenomena is the non-Hermitian skin effect, which refers to the exponential localization of bulk eigenstates near the boundaries of non-Hermitian systems. Whereas non-Bloch band theory has been developed to describe the non-Hermitian skin effect in lattice systems, its counterpart in continuum systems still lacks a quantitative characterization. Here, we generalize the non-Bloch band theory to non-Hermitian continuum systems. In contrast to lattice systems for which the bulk Hamiltonian alone determines the non-Hermitian skin effect and energy spectrum, we find for continuum systems that the number of boundary conditions must also be included as essential information. We show that the appropriate discretization of continuum systems into lattice models requires matching the hopping range of the latter to the number of boundary conditions in the former. Furthermore, in periodic non-Hermitian continuum systems, we highlight the application of the transfer matrix in determining the generalized Brillouin zone. Our theory serves as a useful toolbox for investigating the rich non-Bloch physics in non-Hermitian continuum systems, such as photonic crystals, elastic media, and certain cold-atom systems.
翻訳日:2023-10-15 10:31:38 公開日:2023-10-12
# 実建物の最適制御のための効率的なオフライン学習を実現する軽量校正シミュレーション

A Lightweight Calibrated Simulation Enabling Efficient Offline Learning for Optimal Control of Real Buildings ( http://arxiv.org/abs/2310.08569v1 )

ライセンス: Link先を確認
Judah Goldfeder, John Sipple(参考訳) 現代の商業用暖房・換気・空調(HVAC)装置は、ビルや外部の気象条件と複雑で相互接続した熱力学システムを形成しており、現在のセットポイント制御ポリシーはエネルギー使用量や二酸化炭素排出量を最小化するために完全に最適化されていない。 適切なトレーニング環境が与えられると、強化学習(rl)モデルはこれらのポリシーを改善することができるが、そのようなモデルをトレーニングすることは、特に数千の建物にスケールする方法で、多くの現実世界の課題をもたらす。 本稿では,建物毎にカスタマイズしたシミュレータを用いてエージェントを訓練する新しいシミュレーションベース手法を提案する。 当社のオープンソースシミュレータ(オンライン: https://github.com/google/sbsim)は軽量で、ビルからのテレメトリによって高度に調整されています。 2階建ての6万8000平方フィートのビルで、127台のデバイスを使って、シミュレーターを6時間間隔で現実世界から半度以上漂流させるように調整しました。 このアプローチは多くの建物にスケール可能な実世界のRL制御システムを構築するための重要なステップであり、それによって効率が向上し、エネルギー消費と二酸化炭素排出量が減少する。

Modern commercial Heating, Ventilation, and Air Conditioning (HVAC) devices form a complex and interconnected thermodynamic system with the building and outside weather conditions, and current setpoint control policies are not fully optimized for minimizing energy use and carbon emission. Given a suitable training environment, a Reinforcement Learning (RL) model is able to improve upon these policies, but training such a model, especially in a way that scales to thousands of buildings, presents many real world challenges. We propose a novel simulation-based approach, where a customized simulator is used to train the agent for each building. Our open-source simulator (available online: https://github.com/google/sbsim) is lightweight and calibrated via telemetry from the building to reach a higher level of fidelity. On a two-story, 68,000 square foot building, with 127 devices, we were able to calibrate our simulator to have just over half a degree of drift from the real world over a six-hour interval. This approach is an important step toward having a real-world RL control system that can be scaled to many buildings, allowing for greater efficiency and resulting in reduced energy consumption and carbon emissions.
翻訳日:2023-10-15 10:31:17 公開日:2023-10-12
# 1次元イジングモデルのクエンチダイナミクスにおける臨界現象の古典シミュレーションにおけるマクロ状態とミクロ状態

Macrostates vs. Microstates in the Classical Simulation of Critical Phenomena in Quench Dynamics of 1D Ising Models ( http://arxiv.org/abs/2310.08567v1 )

ライセンス: Link先を確認
Anupam Mitra, Tameem Albash, Philip Daniel Blocher, Jun Takahashi, Akimasa Miyake, Grant W. Biedermann, Ivan H. Deutsch(参考訳) 本研究では,一次元逆場イジングモデル (TFIM) のクエンチ力学における古典的臨界現象のトラクタビリティについて,高度に歪んだ行列積状態 (MPS) を用いて検討した。 本稿では,非可積分な長距離TFIMにおいて発生する動的量子相転移(DQPT)と臨界点に焼成した場合の積分可能な近傍TFIMの無限時間相関長に着目した。 DQPT では,MPS 結合次元の驚くほど重い切り込みで順序パラメータを効率的にシミュレートできることが示されている。 これは、完全多体状態が高忠実度でシミュレートされない場合でも、臨界指数を含む相転移の臨界特性を確実に抽出するために用いられる。 臨界点近傍の長時間相関長は、完全な多体状態の忠実度に敏感であり、一般に大きな結合次元MPSを必要とする。 それにもかかわらず、エンタングルメントが低いダイナミクスの短時間の挙動から抽出できるため、強切断されたmpsでも効率的にシミュレーションできることがわかった。 以上の結果から,多体状態(マイクロステート)の正確な計算は,多体状態(マクロステート)の相をシミュレーションする際には,その正確なマイクロステートの正確な仕様は必要とされない可能性が示唆された。 また,モデル内の量子カオスと平衡に基づく切断型mpsを用いたシミュレーションのトラクタビリティについて検討した。 正多体状態が最も難易度が高いカオスシステムに対して,局所的な期待値を最も容易に近似できる反直感的逆関係を求める。

We study the tractability of classically simulating critical phenomena in the quench dynamics of one-dimensional transverse field Ising models (TFIMs) using highly truncated matrix product states (MPS). We focus on two paradigmatic examples: a dynamical quantum phase transition (DQPT) that occurs in nonintegrable long-range TFIMs, and the infinite-time correlation length of the integrable nearest-neighbor TFIM when quenched to the critical point. For the DQPT, we show that the order parameters can be efficiently simulated with surprisingly heavy truncation of the MPS bond dimension. This can be used to reliably extract critical properties of the phase transition, including critical exponents, even when the full many-body state is not simulated with high fidelity. The long-time correlation length near the critical point is more sensitive to the full many-body state fidelity, and generally requires a large bond dimension MPS. Nonetheless, we find that this can still be efficiently simulated with strongly truncated MPS because it can be extracted from the short-time behavior of the dynamics where entanglement is low. Our results demonstrate that while accurate calculation of the full many-body state (microstate) is typically intractable due to the volume-law growth of entanglement, a precise specification of an exact microstate may not be required when simulating phases of matter of many-body systems (macrostates). We also study the tractability of simulation using truncated MPS based on quantum chaos and equilibration in the models. We find a counterintuitive inverse relationship, whereby local expectation values are most easily approximated for chaotic systems whose exact many-body state is most intractable.
翻訳日:2023-10-15 10:30:53 公開日:2023-10-12
# 連鎖によるカーネル密度推定器のより強いコアセット境界

Stronger Coreset Bounds for Kernel Density Estimators via Chaining ( http://arxiv.org/abs/2310.08548v1 )

ライセンス: Link先を確認
Rainie Bozzai and Thomas Rothvoss(参考訳) 我々は,幅広いカーネル関数のコアセットの複雑性を改良するために,分離法と連鎖法を適用した。 この結果から,ランダム化多項式時間アルゴリズムは,データセットが一様有界である場合にはガウスおよびラプラキアのカーネルに対して,サイズ$o\big(\frac{\sqrt{d}}{\varepsilon}\sqrt{\log\log \frac{1}{\varepsilon}}\big)$のコア集合を生成する。 また、サイズ $O\big(\frac{1}{\varepsilon}\sqrt{\log\log \frac{1}{\varepsilon}}\big)$d$ constant のラプラシア核に対してコアセットを得る。 最後に、最もよく知られた境界である$o\big(\frac{\sqrt{d}}{\varepsilon}\sqrt{\log(2\max\{1,\alpha\})}\big)$ を指数関数、ヘリンガー、jsカーネルのコアセットの複雑さに基づいて与える。

We apply the discrepancy method and a chaining approach to give improved bounds on the coreset complexity of a wide class of kernel functions. Our results give randomized polynomial time algorithms to produce coresets of size $O\big(\frac{\sqrt{d}}{\varepsilon}\sqrt{\log\log \frac{1}{\varepsilon}}\big)$ for the Gaussian and Laplacian kernels in the case that the data set is uniformly bounded, an improvement that was not possible with previous techniques. We also obtain coresets of size $O\big(\frac{1}{\varepsilon}\sqrt{\log\log \frac{1}{\varepsilon}}\big)$ for the Laplacian kernel for $d$ constant. Finally, we give the best known bounds of $O\big(\frac{\sqrt{d}}{\varepsilon}\sqrt{\log(2\max\{1,\alpha\})}\big)$ on the coreset complexity of the exponential, Hellinger, and JS Kernels, where $1/\alpha$ is the bandwidth parameter of the kernel.
翻訳日:2023-10-15 10:30:20 公開日:2023-10-12
# 光アドレス量子ビットのためのスケールド局所ゲートコントローラ

A scaled local gate controller for optically addressed qubits ( http://arxiv.org/abs/2310.08539v1 )

ライセンス: Link先を確認
Bichen Zhang, Pai Peng, Aditya Paul, Jeff D. Thompson(参考訳) スケーラブルなクラシックコントローラは、将来のフォールトトレラント量子コンピュータの重要なコンポーネントである。 中性原子量子コンピュータは、市販の光電子デバイスを利用して大規模なトワイザーアレイを生成し、並列読み込みを行うが、超並列で局所アドレスのゲート操作を実装することは難しい。 そこで本研究では,一様周波数と振幅を持つ1万以上の集束スポットを2次元アレイで生成し,43khzまでのレートで任意の構成で個別にオン・オフする,オフ・ザ・シェル・コンポーネントに基づく光変調器システムを提案する。 収差を慎重に制御することで、変調器は46dBの絶滅率を達成し、最寄りのクロストークは44$dB、ビーム間隔は4.6Wである。 基礎となるコンポーネントはUVからNIRまでの波長で動作し、高いレーザー強度を維持することができる。 このアプローチは、中性原子、閉じ込められたイオン、固体原子欠陥を含む光学的に処理された任意の量子ビットプラットフォームにおいて、クロストークエラー率の低いゲートの局所アドレス化に適している。

Scalable classical controllers are a key component of future fault-tolerant quantum computers. Neutral atom quantum computers leverage commercially available optoelectronic devices for generating large-scale tweezer arrays and performing parallel readout, but implementing massively parallel, locally-addressed gate operations is an open challenge. In this work, we demonstrate an optical modulator system based on off-the-shelf components, which can generate a two-dimensional array of over 10,000 focused spots with uniform frequency and amplitude, and switching them on and off individually in arbitrary configurations at rates of up to 43 kHz. Through careful control of aberrations, the modulator achieves an extinction ratio of 46 dB, and nearest-neighbor crosstalk of $-44$ dB with a beam spacing of 4.6 waists. The underlying components can operate at wavelengths from the UV to the NIR, and sustain high laser intensities. This approach is suitable for local addressing of gates with low cross-talk error rates in any optically addressed qubit platform, including neutral atoms, trapped ions, or solid-state atomic defects.
翻訳日:2023-10-15 10:29:50 公開日:2023-10-12
# ストリートビューのアニメーション

Animating Street View ( http://arxiv.org/abs/2310.08534v1 )

ライセンス: Link先を確認
Mengyi Shan, Brian Curless, Ira Kemelmacher-Shlizerman and Steve Seitz(参考訳) 本研究では,自然に行動する歩行者や車両で街路ビュー画像を自動的に生かし,生活に届けるシステムを提案する。 提案手法は,既存の人物や車両を入力画像から取り除き,適切なスケール,角度,動き,外観,計画経路,交通行動で移動物体を挿入し,そのシーンを適切な閉塞やシャドーイング効果で描画する。 このシステムは、静止画のストリートシーンを再構築し、群衆の振る舞いをシミュレートし、一貫した照明、可視性、隠蔽性、影でレンダリングする。 我々は,通常の静止画やパノラマを含む様々なストリートシーンで,その結果を実証する。

We present a system that automatically brings street view imagery to life by populating it with naturally behaving, animated pedestrians and vehicles. Our approach is to remove existing people and vehicles from the input image, insert moving objects with proper scale, angle, motion, and appearance, plan paths and traffic behavior, as well as render the scene with plausible occlusion and shadowing effects. The system achieves these by reconstructing the still image street scene, simulating crowd behavior, and rendering with consistent lighting, visibility, occlusions, and shadows. We demonstrate results on a diverse range of street scenes including regular still images and panoramas.
翻訳日:2023-10-15 10:29:31 公開日:2023-10-12
# 射影型絡み合ったペア状態による2次元の最小絡み合った典型的熱状態の効率的な表現

Efficient Representation of Minimally Entangled Typical Thermal States in two dimensions via Projected Entangled Pair States ( http://arxiv.org/abs/2310.08533v1 )

ライセンス: Link先を確認
Aritra Sinha, Marek M. Rams, and Jacek Dziarmaga(参考訳) 最小絡み合った典型的熱状態(METTS)は純粋な状態の集合であり、ギブスの熱状態と等価であり、テンソルネットワークによって効率的に表現できる。 本稿では,2次元(2次元)格子上でのMETTSを表すために,PEPSアンサッツを用いた。 マトリックス製品状態(MPS)は、格子サイズとともに指数関数的に増大する複雑さのため、2次元システムでは効率が良くないが、PEPSはよりトラクタブルなアプローチを提供する。 METTS (PEPS-METTS) のモデル化におけるPEPSの長所を実証するため, 臨界温度での2次元量子イジングモデルの浄化法と比較した。 本分析の結果,PEPS-METTSは結合寸法が著しく低い精度の長距離相関が得られることがわかった。 我々はこの発見を2d fermi hubbardモデルで半充填でさらに裏付ける。 技術的レベルでは、期待値を計算するのに必要なPEPS境界行列積状態を得るための効率的な \textit{zipper} 法を導入する。 想像上の時間発展は、近傍のテンソル更新によって行われる。

The Minimally Entangled Typical Thermal States (METTS) are an ensemble of pure states, equivalent to the Gibbs thermal state, that can be efficiently represented by tensor networks. In this article, we use the Projected Entangled Pair States (PEPS) ansatz as to represent METTS on a two-dimensional (2D) lattice. While Matrix Product States (MPS) are less efficient for 2D systems due to their complexity growing exponentially with the lattice size, PEPS provide a more tractable approach. To substantiate the prowess of PEPS in modeling METTS (dubbed as PEPS-METTS), we benchmark it against the purification method for the 2D quantum Ising model at its critical temperature. Our analysis reveals that PEPS-METTS achieves accurate long-range correlations with significantly lower bond dimensions. We further corroborate this finding in the 2D Fermi Hubbard model at half-filling. At a technical level, we introduce an efficient \textit{zipper} method to obtain PEPS boundary matrix product states needed to compute expectation values. The imaginary time evolution is performed with the neighbourhood tensor update.
翻訳日:2023-10-15 10:29:17 公開日:2023-10-12
# l2p: 重み付き分散結果推定のための学習

L2P: Learning to Place for Estimating Heavy-Tailed Distributed Outcomes ( http://arxiv.org/abs/1908.04628v3 )

ライセンス: Link先を確認
Xindi Wang, Onur Varol, Tina Eliassi-Rad(参考訳) 多くの実世界の予測タスクは、特徴的な重み付き分布を持つ結果変数を持つ。 例えば、販売された書籍のコピー、美術品のオークション価格、倉庫の商品需要などである。 ヘビーテール分布を学習することで、"big and rare"インスタンス(例えばベストセラー)は正確な予測を行う。 既存のアプローチのほとんどは、ヘビーテールの分布を学習するためのものではない。 この問題に対処するために,学習インスタンス間の相互関係を利用したL2P(Learning to Place)を導入する。 トレーニングフェーズでは、l2pはペアワイズ選好分類器を学習する。 インスタンスa > インスタンスb? 配置フェーズでは、L2Pは既知のインスタンスに新しいインスタンスを配置することで予測を得る。 その配置に基づいて、新しいインスタンスはその結果変数の値が割り当てられる。 実データを用いた実験では、L2Pは重み付き結果分布を再現する精度と能力で競合するアプローチより優れていた。 さらに、L2Pは、予測された各インスタンスを、その類似する隣り合うものに配置することで解釈可能なモデルを提供する。 解釈可能なモデルは、生命と財宝が懸かっているときに非常に望ましい。

Many real-world prediction tasks have outcome variables that have characteristic heavy-tail distributions. Examples include copies of books sold, auction prices of art pieces, demand for commodities in warehouses, etc. By learning heavy-tailed distributions, "big and rare" instances (e.g., the best-sellers) will have accurate predictions. Most existing approaches are not dedicated to learning heavy-tailed distribution; thus, they heavily under-predict such instances. To tackle this problem, we introduce Learning to Place (L2P), which exploits the pairwise relationships between instances for learning. In its training phase, L2P learns a pairwise preference classifier: is instance A > instance B? In its placing phase, L2P obtains a prediction by placing the new instance among the known instances. Based on its placement, the new instance is then assigned a value for its outcome variable. Experiments on real data show that L2P outperforms competing approaches in terms of accuracy and ability to reproduce heavy-tailed outcome distribution. In addition, L2P provides an interpretable model by placing each predicted instance in relation to its comparable neighbors. Interpretable models are highly desirable when lives and treasure are at stake.
翻訳日:2023-10-14 16:00:03 公開日:2023-10-12
# im-iad:工業用画像異常検出ベンチマーク

IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing ( http://arxiv.org/abs/2301.13359v3 )

ライセンス: Link先を確認
Guoyang Xie, Jinbao Wang, Jiaqi Liu, Jiayi Lyu, Yong Liu, Chengjie Wang, Feng Zheng, Yaochu Jin(参考訳) 画像異常検出(IAD)は、近代工業製造(IM)において対処する必要がある緊急の課題である。 近年、多くの高度なアルゴリズムがリリースされているが、その性能は一様でない設定のため大きく異なる。 つまり、IMの異なるケースや特定のケースのために設計されているため、研究者は分析を困難にしている。 この問題を解決するために,まず,教師なし,教師なし,教師なし),学習パラダイム(ショットショット,連続的,ノイズラベル),効率(メモリ使用量,推論速度)の3つの側面を考慮して,アルゴリズムの有効性を体系的に評価するための一様iad設定を提案する。 次に,同一設定の7つの主要データセット上で19のアルゴリズムを含む総合的画像異常検出ベンチマーク(im-iad)を巧みに構築する。 我々の大規模な実験(17,017件)は、均一条件下でのIADアルゴリズムの再設計や選択に関する新たな洞察を提供する。 提案するIM-IADは,今後の課題と今後の方向性を示す。 我々は、この研究がIADの分野に大きな影響を与えると考えている。 再現性とアクセシビリティを向上させるため、IM-IADのソースコードはhttps://github.com/M-3LAB/IM-IAD.comにアップロードされる。

Image anomaly detection (IAD) is an urgent issue that needs to be addressed in modern industrial manufacturing (IM). Recently, many advanced algorithms have been released, but their performance varies greatly due to non-uniformed settings. That is, researchers find it difficult to analyze because they are designed for different or specific cases in IM. To eliminate this problem, we first propose a uniform IAD setting to systematically assess the effectiveness of these algorithms, mainly considering three aspects of supervision level (unsupervised, fully supervised), learning paradigm (few-shot, continual, noisy label), and efficiency (memory usage, inference speed). Then, we skillfully construct a comprehensive image anomaly detection benchmark (IM-IAD), which includes 19 algorithms on 7 major datasets with the same setting. Our extensive experiments (17,017 total) provide new insights into the redesign or selection of the IAD algorithm under uniform conditions. Importantly, the proposed IM-IAD presents feasible challenges and future directions for further work. We believe that this work can have a significant impact on the IAD field. To foster reproducibility and accessibility, the source code of IM-IAD is uploaded on the website, https://github.com/M-3LAB/IM-IAD.
翻訳日:2023-10-14 15:56:06 公開日:2023-10-12
# 実数値および計数時系列の予測の効率的な確率的整合

Efficient probabilistic reconciliation of forecasts for real-valued and count time series ( http://arxiv.org/abs/2210.02286v3 )

ライセンス: Link先を確認
Lorenzo Zambon, Dario Azzimonti, and Giorgio Corani(参考訳) 階層的な時系列はいくつかの応用分野において一般的である。 これらの時系列の予測は、階層によって与えられる制約を満たすために、コヒーレントである必要がある。 コヒーレンスを強制する最も一般的なテクニックは調停と呼ばれ、各時系列で計算されたベース予測を調整する。 しかし、確率的和解に関する最近の研究にはいくつかの制限がある。 本稿では,任意の種類の予測分布を調和させる条件付けに基づく新しい手法を提案する。 次に,再結合分布から効率的にサンプリングするために,ボトムアップ重要度サンプリングと呼ばれる新しいアルゴリズムを導入する。 離散的、連続的、あるいはサンプルの形で、任意のベース予測分布に使用することができ、現在の方法と比較して大きなスピードアップを提供する。 いくつかの時間的階層の実験は、基礎確率予測よりも顕著に改善されている。

Hierarchical time series are common in several applied fields. The forecasts for these time series are required to be coherent, that is, to satisfy the constraints given by the hierarchy. The most popular technique to enforce coherence is called reconciliation, which adjusts the base forecasts computed for each time series. However, recent works on probabilistic reconciliation present several limitations. In this paper, we propose a new approach based on conditioning to reconcile any type of forecast distribution. We then introduce a new algorithm, called Bottom-Up Importance Sampling, to efficiently sample from the reconciled distribution. It can be used for any base forecast distribution: discrete, continuous, or in the form of samples, providing a major speedup compared to the current methods. Experiments on several temporal hierarchies show a significant improvement over base probabilistic forecasts.
翻訳日:2023-10-14 15:54:53 公開日:2023-10-12
# ロシアとウクライナの紛争における低レベルのサイバー犯罪アクターの役割を探る

Getting Bored of Cyberwar: Exploring the Role of Low-level Cybercrime Actors in the Russia-Ukraine Conflict ( http://arxiv.org/abs/2208.10629v5 )

ライセンス: Link先を確認
Anh V. Vu, Daniel R. Thomas, Ben Collier, Alice Hutchings, Richard Clayton, Ross Anderson(参考訳) ロシアとウクライナの紛争における低レベルのサイバー犯罪俳優によるサイバー攻撃の役割について、かなりの論評が寄せられている。 我々は、358kのウェブ偽造攻撃、1.7MのDDoS攻撃、1764のHack Forumsの投稿と、侵略の2ヶ月前と4ヶ月後のボランティアハッキンググループの441のアナウンス(58kの返信を含む)を分析した。 ネット上での議論は大幅に増加し、ロシアとウクライナを標的とした攻撃も増えている。 しかし、これらのプレイヤーが進行中のハイブリッド戦において果たした役割は小さく、国家が支援する作戦において永続的で動機づけられた「ハックティビスト」から切り離されるべきである。 紛争への彼らの関与は短命であり、状況について議論し、数週間後にロシアまたはウクライナに対する破壊攻撃とddos攻撃の両方を行うことに明らかに関心が失われた。

There has been substantial commentary on the role of cyberattacks carried by low-level cybercrime actors in the Russia-Ukraine conflict. We analyse 358k web defacement attacks, 1.7M reflected DDoS attacks, 1764 Hack Forums posts mentioning the two countries, and 441 announcements (with 58k replies) of a volunteer hacking group for two months before and four months after the invasion. We find the conflict briefly but notably caught the attention of low-level cybercrime actors, with significant increases in online discussion and both types of attack targeting Russia and Ukraine. However, there was little evidence of high-profile actions; the role of these players in the ongoing hybrid warfare is minor, and they should be separated from persistent and motivated 'hacktivists' in state-sponsored operations. Their involvement in the conflict appears to have been short-lived and fleeting, with a clear loss of interest in discussing the situation and carrying out both defacement and DDoS attacks against either Russia or Ukraine after a few weeks.
翻訳日:2023-10-14 15:54:40 公開日:2023-10-12
# MemSAC: 大規模非教師なしドメイン適応のためのメモリ拡張サンプル一貫性

MemSAC: Memory Augmented Sample Consistency for Large Scale Unsupervised Domain Adaptation ( http://arxiv.org/abs/2207.12389v2 )

ライセンス: Link先を確認
Tarun Kalluri, Astuti Sharma, Manmohan Chandraker(参考訳) 多くのカテゴリを持つ現実的な実世界のデータセットは、小さなクラス間の識別可能性のような教師なしのドメイン適応のための新しい課題を導入します。 本稿では,ソースドメインとターゲットドメイン間のサンプルレベルの類似性を利用して識別的転送を実現するMemSACと,多数のカテゴリにスケールするアーキテクチャを提案する。 そこで我々はまず,ラベル付きソースとラベルなしターゲットドメインインスタンスの相互類似関係を効率的に抽出し,任意の数のクラスを扱うのに適したメモリ拡張手法を提案する。 次に、クラス間の分離を強制しながらクラス内クロスドメインサンプル間の局所的一貫性を促進するために、コントラスト損失の新しい変種を提案し、理論的に正当化する。 345クラスを持つDomainNetや200クラスを持つCaltech-UCSD鳥のデータセットへの微粒化適応など、大規模適応のために設計された複数の挑戦的トランスファータスクに対して、MemSACの利点を実証した。 また,MemSACの有効性に関する詳細な分析と知見も提供する。

Practical real world datasets with plentiful categories introduce new challenges for unsupervised domain adaptation like small inter-class discriminability, that existing approaches relying on domain invariance alone cannot handle sufficiently well. In this work we propose MemSAC, which exploits sample level similarity across source and target domains to achieve discriminative transfer, along with architectures that scale to a large number of categories. For this purpose, we first introduce a memory augmented approach to efficiently extract pairwise similarity relations between labeled source and unlabeled target domain instances, suited to handle an arbitrary number of classes. Next, we propose and theoretically justify a novel variant of the contrastive loss to promote local consistency among within-class cross domain samples while enforcing separation between classes, thus preserving discriminative transfer from source to target. We validate the advantages of MemSAC with significant improvements over previous state-of-the-art on multiple challenging transfer tasks designed for large-scale adaptation, such as DomainNet with 345 classes and fine-grained adaptation on Caltech-UCSD birds dataset with 200 classes. We also provide in-depth analysis and insights into the effectiveness of MemSAC.
翻訳日:2023-10-14 15:53:43 公開日:2023-10-12
# mGPT: 初心者の学習者が多言語化

mGPT: Few-Shot Learners Go Multilingual ( http://arxiv.org/abs/2204.07580v2 )

ライセンス: Link先を確認
Oleh Shliazhko, Alena Fenogenova, Maria Tikhonova, Vladislav Mikhailov, Anastasia Kozlova, Tatiana Shavrina(参考訳) 近年の研究では、自己回帰言語モデルがゼロおよび少数ショット学習パラダイムによって多くのNLPタスクをうまく解決できることが報告されている。 本稿では,WikipediaとColossal Clean Crawled Corpusを用いて,25言語ファミリーの60言語に対して13億,13億のパラメータをトレーニングした2つの自己回帰GPT様モデルを紹介する。 我々は、GPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現し、DeepspeedおよびMegatronフレームワークにより、トレーニングと推論のステップを効果的に並列化することができる。 結果として得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示し、より多くの言語をカバーし、CIS諸国やロシアの小国の低リソース言語に対するNLPの可能性を高める。 アーキテクチャ設計の選択動機を詳述し、データ準備パイプラインを徹底的に記述し、最も最適な多言語トークン化戦略を選択するためにモデルの5つの小さなバージョンを訓練する。 全被覆言語におけるモデルのパープレキシティを測定し、分類、生成、シーケンスラベリング、知識探索を含む多言語タスクの幅広い分析に基づいて評価する。 モデルはゼロショット法と少数ショット法で評価された。 さらに,その分類タスクを,最先端の多言語モデルXGLMと比較した。 ソースコードとmGPT XLモデルが公開されている。

Recent studies report that autoregressive language models can successfully solve many NLP tasks via zero- and few-shot learning paradigms, which opens up new possibilities for using the pre-trained language models. This paper introduces two autoregressive GPT-like models with 1.3 billion and 13 billion parameters trained on 60 languages from 25 language families using Wikipedia and Colossal Clean Crawled Corpus. We reproduce the GPT-3 architecture using GPT-2 sources and the sparse attention mechanism; Deepspeed and Megatron frameworks allow us to parallelize the training and inference steps effectively. The resulting models show performance on par with the recently released XGLM models by Facebook, covering more languages and enhancing NLP possibilities for low resource languages of CIS countries and Russian small nations. We detail the motivation for the choices of the architecture design, thoroughly describe the data preparation pipeline, and train five small versions of the model to choose the most optimal multilingual tokenization strategy. We measure the model perplexity in all covered languages and evaluate it on the wide spectre of multilingual tasks, including classification, generative, sequence labeling and knowledge probing. The models were evaluated with the zero-shot and few-shot methods. Furthermore, we compared the classification tasks with the state-of-the-art multilingual model XGLM. source code and the mGPT XL model are publicly released.
翻訳日:2023-10-14 15:53:22 公開日:2023-10-12
# 画像リアリズムを学ぶための機械学習パラダイム:Constableの雲は現代のものよりもリアルか?

A Machine Learning Paradigm for Studying Pictorial Realism: Are Constable's Clouds More Real than His Contemporaries? ( http://arxiv.org/abs/2202.09348v2 )

ライセンス: Link先を確認
Zhuomin Zhang and Elizabeth C. Mansfield and Jia Li and John Russell and George S. Young and Catherine Adams and James Z. Wang(参考訳) イギリスの風景画家ジョン・コンスタブルは、19世紀のヨーロッパ絵画における写実主義運動の基礎であると考えられている。 特にコンスタブルの絵の空は同時代の人々によって非常に正確と見なされ、今日多くの視聴者に共有されている。 しかし、コンスタブルのような写実主義的な絵画の正確さを評価することは、プロの美術史家にとっても主観的あるいは直観的であり、コンスタブルの空が同時代の絵画とどう違うかは確かである。 私たちの目標は、constableのリアリズムをより客観的に理解できるようにすることです。 本稿では,絵写実主義を説明可能な方法で研究するための新しい機械学習パラダイムを提案する。 提案手法では,空に浮かぶアーティストが描いた雲と雲の写真との類似性を測定することにより,現実性を評価する。 雲の分類実験の結果、コンスタブルは同時代の絵画の実際の雲の形式的特徴よりも一貫して近似していることがわかった。 この研究は、コンピュータビジョンと機械学習、気象学、美術史を組み合わせた新しい学際的アプローチとして、絵写実主義を広くより深く分析するためのスプリングボードである。

The British landscape painter John Constable is considered foundational for the Realist movement in 19th-century European painting. Constable's painted skies, in particular, were seen as remarkably accurate by his contemporaries, an impression shared by many viewers today. Yet, assessing the accuracy of realist paintings like Constable's is subjective or intuitive, even for professional art historians, making it difficult to say with certainty what set Constable's skies apart from those of his contemporaries. Our goal is to contribute to a more objective understanding of Constable's realism. We propose a new machine-learning-based paradigm for studying pictorial realism in an explainable way. Our framework assesses realism by measuring the similarity between clouds painted by artists noted for their skies, like Constable, and photographs of clouds. The experimental results of cloud classification show that Constable approximates more consistently than his contemporaries the formal features of actual clouds in his paintings. The study, as a novel interdisciplinary approach that combines computer vision and machine learning, meteorology, and art history, is a springboard for broader and deeper analyses of pictorial realism.
翻訳日:2023-10-14 15:52:59 公開日:2023-10-12
# 小データセットからのフェデレーション学習

Federated Learning from Small Datasets ( http://arxiv.org/abs/2110.03469v3 )

ライセンス: Link先を確認
Michael Kamp and Jonas Fischer and Jilles Vreeken(参考訳) フェデレートラーニングは、複数のパーティが、ローカルデータを共有せずに共同モデルをトレーニングすることを可能にする。 これにより、医療領域など、本質的に分散した非開示データの設定における機械学習の応用が可能になる。 実際には、ジョイントトレーニングは通常、ジョイント(グローバル)目標に類似したローカルトレーニング目標を期待して、ローカルモデルを集約することで達成される。 しかし、多くの場合、ローカルデータセットは非常に小さいため、ローカルの目的とグローバルの目的とは大きく異なるため、連合学習は失敗に終わる。 局所モデルの置換とモデル集約を相互に結合する新しい手法を提案する。 置換は各ローカルモデルをローカルデータセットのデージーチェーンに公開することで、データスパースドメインでのより効率的なトレーニングを実現する。 これにより、病院間の患者データなど、非常に小さなローカルデータセットでのトレーニングが可能になると同時に、連合学習のトレーニング効率とプライバシメリットが維持される。

Federated learning allows multiple parties to collaboratively train a joint model without sharing local data. This enables applications of machine learning in settings of inherently distributed, undisclosable data such as in the medical domain. In practice, joint training is usually achieved by aggregating local models, for which local training objectives have to be in expectation similar to the joint (global) objective. Often, however, local datasets are so small that local objectives differ greatly from the global objective, resulting in federated learning to fail. We propose a novel approach that intertwines model aggregations with permutations of local models. The permutations expose each local model to a daisy chain of local datasets resulting in more efficient training in data-sparse domains. This enables training on extremely small local datasets, such as patient data across hospitals, while retaining the training efficiency and privacy benefits of federated learning.
翻訳日:2023-10-14 15:52:35 公開日:2023-10-12
# big little decoderを用いた投機的復号

Speculative Decoding with Big Little Decoder ( http://arxiv.org/abs/2302.07863v4 )

ライセンス: Link先を確認
Sehoon Kim, Karttikeya Mangalam, Suhong Moon, Jitendra Malik, Michael W. Mahoney, Amir Gholami, Kurt Keutzer(参考訳) トランスフォーマーアーキテクチャに基づく大規模言語モデルの近年の出現は、自然言語処理の分野で劇的な進歩を可能にしている。 しかし、これらのモデルには長い推論遅延があり、デプロイメントを制限し、様々なリアルタイムアプリケーションに対して制限的に費用がかかる。 モデルがトークンレベルの並列化を生かさずに連続的にトークンを生成するために反復的に実行する必要があるため、推論の遅延は自己回帰的な生成タスクによってさらに悪化する。 そこで本研究では,幅広いテキスト生成アプリケーションに対して,推論効率と遅延性を向上するフレームワークであるBig Little Decoder (BiLD)を提案する。 BiLDフレームワークには、テキストを共同生成する大きさの異なる2つのモデルが含まれている。 小モデルは、推論コストの低いテキストを生成するために自己回帰的に動作し、大モデルは、非自己回帰的な方法で小モデルの不正確な予測を洗練するために時々のみ呼び出される。 小型モデルと大規模モデルの調整には,(1)大モデルにいつ制御を委譲するかを決定するフォールバックポリシ,(2)大モデルの不正確な予測をいつ修正する必要があるかを決定するロールバックポリシ,の2つの簡単な方法を導入する。 IWSLT 2017 De-En と WMT 2014 De-En の機械翻訳と XSUM と CNN/DailyMail の要約を含む様々なテキスト生成シナリオに BiLD を適用する。 NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。 さらに、我々のフレームワークは完全にプラグアンドプレイされており、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。 私たちのコードはオープンソースです

The recent emergence of Large Language Models based on the Transformer architecture has enabled dramatic advancements in the field of Natural Language Processing. However, these models have long inference latency, which limits their deployment and makes them prohibitively expensive for various real-time applications. The inference latency is further exacerbated by autoregressive generative tasks, as models need to run iteratively to generate tokens sequentially without leveraging token-level parallelization. To address this, we propose Big Little Decoder (BiLD), a framework that can improve inference efficiency and latency for a wide range of text generation applications. The BiLD framework contains two models with different sizes that collaboratively generate text. The small model runs autoregressively to generate text with a low inference cost, and the large model is only invoked occasionally to refine the small model's inaccurate predictions in a non-autoregressive manner. To coordinate the small and large models, BiLD introduces two simple yet effective policies: (1) the fallback policy that determines when to hand control over to the large model; and (2) the rollback policy that determines when the large model needs to correct the small model's inaccurate predictions. To evaluate our framework across different tasks and models, we apply BiLD to various text generation scenarios encompassing machine translation on IWSLT 2017 De-En and WMT 2014 De-En, and summarization on XSUM and CNN/DailyMail. On an NVIDIA T4 GPU, our framework achieves a speedup of up to 2.12x speedup with minimal generation quality degradation. Furthermore, our framework is fully plug-and-play and can be applied without any modifications in the training process or model architecture. Our code is open-sourced
翻訳日:2023-10-14 15:46:45 公開日:2023-10-12
# 効率的な超次元計算

Efficient Hyperdimensional Computing ( http://arxiv.org/abs/2301.10902v2 )

ライセンス: Link先を確認
Zhanglu Yan, Shida Wang, Kaiwen Tang, Weng-Fai Wong(参考訳) 超次元計算 (HDC) は、高次元と多数ルールを持つ二進ベクトルを用いた分類を行う方法である。 このアプローチはエネルギー効率が高い可能性があり、従ってリソース制限されたプラットフォームに適していると考えられる。 しかし、高い精度を達成するために、HDCは数万次元の超ベクトルを使用することがある。 これにより効率性が損なわれる可能性がある。 本稿では,そのような高次元の必要性を考察し,超ベクトル次元と精度の関係を詳細に理論的に解析する。 その結果, ハイパーベクトルの次元が大きくなるにつれて, 最短ケース/平均ケースのHDC予測精度が低下することがわかった。 この知見に基づいて,2次元ハイパーベクターを用いたHDCモデルを構築し,精度と効率を同等あるいは改善しつつ,最先端のHDCモデルよりも桁違いに低次元のHDCモデルを開発した。 例えば、MNISTデータセットでは、次元が64の画像分類において91.12%のHDC精度を達成する。 提案手法は, 他のHDCモデルの0.35%の次元を持つ演算を実行する。 さらに,本手法をISOLET,UCI-HAR,Fashion-MNISTデータセット上で評価し,HDC計算の限界について検討した。

Hyperdimensional computing (HDC) is a method to perform classification that uses binary vectors with high dimensions and the majority rule. This approach has the potential to be energy-efficient and hence deemed suitable for resource-limited platforms due to its simplicity and massive parallelism. However, in order to achieve high accuracy, HDC sometimes uses hypervectors with tens of thousands of dimensions. This potentially negates its efficiency advantage. In this paper, we examine the necessity of such high dimensions and conduct a detailed theoretical analysis of the relationship between hypervector dimensions and accuracy. Our results demonstrate that as the dimension of the hypervectors increases, the worst-case/average-case HDC prediction accuracy with the majority rule decreases. Building on this insight, we develop HDC models that use binary hypervectors with dimensions orders of magnitude lower than those of state-of-the-art HDC models while maintaining equivalent or even improved accuracy and efficiency. For instance, on the MNIST dataset, we achieve 91.12% HDC accuracy in image classification with a dimension of only 64. Our methods perform operations that are only 0.35% of other HDC models with dimensions of 10,000. Furthermore, we evaluate our methods on ISOLET, UCI-HAR, and Fashion-MNIST datasets and investigate the limits of HDC computing.
翻訳日:2023-10-14 15:45:03 公開日:2023-10-12
# 深層強化学習における探索のための自己報酬の自動生成

Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning ( http://arxiv.org/abs/2301.10886v5 )

ライセンス: Link先を確認
Mingqi Yuan, Bo Li, Xin Jin, Wenjun Zeng(参考訳) 本稿では,強化学習(RL)における探索を強化するために,知的かつ適応的に高品質な固有報酬を提供する自動固有逆整形法を提案する。 より具体的には、AIRSは、推定されたタスクリターンに基づいて予め定義されたセットから、リアルタイムにシェーピング機能を選択し、信頼性の高い探索インセンティブを提供し、バイアスのある客観的問題を緩和する。 さらに,多様なインセンティブインセンティブアプローチの効率的かつ信頼性の高い実装を実現するためのインセンティブインセンティブインセンティブツールキットを開発した。 我々は、MiniGrid、Procgen、DeepMind Control Suiteといった様々なタスクでAIRSをテストする。 拡張シミュレーションは、airsがベンチマークスキームを上回ることができ、単純なアーキテクチャで優れたパフォーマンスを達成することを実証する。

We present AIRS: Automatic Intrinsic Reward Shaping that intelligently and adaptively provides high-quality intrinsic rewards to enhance exploration in reinforcement learning (RL). More specifically, AIRS selects shaping function from a predefined set based on the estimated task return in real-time, providing reliable exploration incentives and alleviating the biased objective problem. Moreover, we develop an intrinsic reward toolkit to provide efficient and reliable implementations of diverse intrinsic reward approaches. We test AIRS on various tasks of MiniGrid, Procgen, and DeepMind Control Suite. Extensive simulation demonstrates that AIRS can outperform the benchmarking schemes and achieve superior performance with simple architecture.
翻訳日:2023-10-14 15:44:36 公開日:2023-10-12
# テキスト-SQLモデルのセキュリティ脆弱性について

On the Security Vulnerabilities of Text-to-SQL Models ( http://arxiv.org/abs/2211.15363v3 )

ライセンス: Link先を確認
Xutan Peng, Yipeng Zhang, Jingfeng Yang, Mark Stevenson(参考訳) 自然言語処理(NLP)アルゴリズムが故意の攻撃に弱いことが証明されているが、そのような弱点がソフトウェアセキュリティの脅威につながるかどうかという問題は未解決である。 このギャップを埋めるために,データベースへの自然言語インターフェース作成に一般的に使用されるテキストからsqlへの脆弱性テストを実施しました。 6つの商用アプリケーション内のtext-to-sqlモジュールは、悪意のあるコードを生成するために操作可能であることが分かりました。 これはNLPモデルが野生の攻撃ベクトルとして活用できる最初の実証である。 さらに、4つのオープンソース言語モデルを用いた実験では、Text-to-SQLシステムに対する単純なバックドア攻撃が、パフォーマンスに影響を与えることなく100%の成功率を達成することを確認した。 この研究の目的は、NLPアルゴリズムに関連する潜在的なソフトウェアセキュリティ問題にコミュニティの注意を引き付け、それらの対策方法の探求を促進することである。

Although it has been demonstrated that Natural Language Processing (NLP) algorithms are vulnerable to deliberate attacks, the question of whether such weaknesses can lead to software security threats is under-explored. To bridge this gap, we conducted vulnerability tests on Text-to-SQL systems that are commonly used to create natural language interfaces to databases. We showed that the Text-to-SQL modules within six commercial applications can be manipulated to produce malicious code, potentially leading to data breaches and Denial of Service attacks. This is the first demonstration that NLP models can be exploited as attack vectors in the wild. In addition, experiments using four open-source language models verified that straightforward backdoor attacks on Text-to-SQL systems achieve a 100% success rate without affecting their performance. The aim of this work is to draw the community's attention to potential software security issues associated with NLP algorithms and encourage exploration of methods to mitigate against them.
翻訳日:2023-10-14 15:44:23 公開日:2023-10-12
# 反復線形化を用いた深層ネットワークにおけるスパース機能更新の理解

Understanding Sparse Feature Updates in Deep Networks using Iterative Linearisation ( http://arxiv.org/abs/2211.12345v4 )

ライセンス: Link先を確認
Adrian Goldwaser and Hong Ge(参考訳) 大規模でより深いネットワークは、過度に適合する能力の増大にもかかわらず、うまく一般化している。 なぜこの現象が起こるかを理解することは理論上、事実上重要である。 最近のアプローチでは、そのようなネットワークとその対応するカーネルの無限に広い限界に目を向けている。 しかし、これらの理論的なツールは、無限のネットワークとは対照的に、勾配-思春期に基づくトレーニングの間、経験的カーネルが著しく変化するため、有限ネットワークを完全には説明できない。 そこで本研究では,新しい経験的ツールとして反復線形化学習法を導出し,sparse(すなわち不適切な)機能更新の制御と,同等の性能を達成するために必要な機能学習頻度の定量化を可能にした。 特徴を学習しない無限幅レジームの有限アナログと標準勾配降下訓練との補間として反復線形化を正当化する。 非公式に言えば、これは二階法であるガウス・ニュートン法(gauss-newton algorithm)の減衰版と類似している。 様々なケースにおいて、反復線形化トレーニングは、標準トレーニングと同等に驚くほど性能を発揮しており、特に、同等のパフォーマンスを達成するのにどの程度の頻度で機能学習が必要とされるかに注意する必要がある。 また、優れたパフォーマンスには機能学習が不可欠であることも示しています。 このような特徴学習は必然的にNTKカーネルの変化を引き起こすため、トレーニング中にNTKカーネルが一定であることを示すNTK理論の直接的な否定的な証拠を提供する。

Larger and deeper networks generalise well despite their increased capacity to overfit. Understanding why this happens is theoretically and practically important. One recent approach looks at the infinitely wide limits of such networks and their corresponding kernels. However, these theoretical tools cannot fully explain finite networks as the empirical kernel changes significantly during gradient-descent-based training in contrast to infinite networks. In this work, we derive an iterative linearised training method as a novel empirical tool to further investigate this distinction, allowing us to control for sparse (i.e. infrequent) feature updates and quantify the frequency of feature learning needed to achieve comparable performance. We justify iterative linearisation as an interpolation between a finite analog of the infinite width regime, which does not learn features, and standard gradient descent training, which does. Informally, we also show that it is analogous to a damped version of the Gauss-Newton algorithm -- a second-order method. We show that in a variety of cases, iterative linearised training surprisingly performs on par with standard training, noting in particular how much less frequent feature learning is required to achieve comparable performance. We also show that feature learning is essential for good performance. Since such feature learning inevitably causes changes in the NTK kernel, we provide direct negative evidence for the NTK theory, which states the NTK kernel remains constant during training.
翻訳日:2023-10-14 15:44:08 公開日:2023-10-12
# データと知識駆動型人工知能に向けて:ニューロシンボリックコンピューティングに関する調査

Towards Data-and Knowledge-Driven Artificial Intelligence: A Survey on Neuro-Symbolic Computing ( http://arxiv.org/abs/2210.15889v4 )

ライセンス: Link先を確認
Wenguan Wang, and Yi Yang, and Fei Wu(参考訳) 認知の象徴的および統計的パラダイムの統合を追求するニューラルシンボリック・コンピューティング(NeSy)は、人工知能(AI)の活発な研究領域である。 NeSyは、ニューラルネットワークにおける記号表現の推論と解釈可能性の利点と堅牢な学習の整合性を示すため、次世代AIの触媒として機能する可能性がある。 本稿では,nesy研究の最近の展開と重要な貢献を体系的に概観する。 まず,この分野の研究史を,初期研究と基礎について紹介する。 さらに背景概念を議論し,NeSy開発の背景となる要因を明らかにする。 その後、ニューラルシンボリック統合、知識表現、知識埋め込み、機能など、この研究パラダイムの基礎となるいくつかの主要な特徴に沿って、最近のランドマークアプローチを分類します。 次に、いくつかの領域における現代のNeSyアプローチの成功例について概説する。 そして、3つの代表的なアプリケーションタスクに対して、いくつかのNeSyメソッドをベンチマークする。 最後に、今後の研究方向性とともに、オープンな問題を特定する。 この調査は、新しい研究者がこの急速に進化する分野に参入し、データと知識駆動型AIへの進歩を加速するのに役立つと期待されている。

Neural-symbolic computing (NeSy), which pursues the integration of the symbolic and statistical paradigms of cognition, has been an active research area of Artificial Intelligence (AI) for many years. As NeSy shows promise of reconciling the advantages of reasoning and interpretability of symbolic representation and robust learning in neural networks, it may serve as a catalyst for the next generation of AI. In the present paper, we provide a systematic overview of the recent developments and important contributions of NeSy research. Firstly, we introduce study history of this area, covering early work and foundations. We further discuss background concepts and identify key driving factors behind the development of NeSy. Afterward, we categorize recent landmark approaches along several main characteristics that underline this research paradigm, including neural-symbolic integration, knowledge representation, knowledge embedding, and functionality. Next, we briefly discuss the successful application of modern NeSy approaches in several domains. Then, we benchmark several NeSy methods on three representative application tasks. Finally, we identify the open problems together with potential future research directions. This survey is expected to help new researchers enter this rapidly evolving field and accelerate the progress towards data-and knowledge-driven AI.
翻訳日:2023-10-14 15:43:44 公開日:2023-10-12
# 語彙トリミングによる効率的な多言語モデル圧縮

An Efficient Multilingual Language Model Compression through Vocabulary Trimming ( http://arxiv.org/abs/2305.15020v2 )

ライセンス: Link先を確認
Asahi Ushio and Yi Zhou and Jose Camacho-Collados(参考訳) 多言語言語モデル(LM)は、特に非英語言語において、NLPにおいて強力なツールとなっている。 それでも、多言語LMのモデルパラメータは、異なる言語におけるトークンをカバーする語彙の埋め込み行列が大きいため、大きなままである。 それとは対照的に、単言語lmsは言語固有の語彙のみを持つターゲット言語で訓練することができるが、高品質なlmをスクラッチから達成するには、大きな予算と信頼性の高いコーパスが必要となる。 本稿では,無関係なトークンを語彙から削除することにより,多言語lm語彙を対象言語に還元する手法である語彙トリミング(vt)を提案する。 理論上、VTは既存の多言語LMを圧縮して、多言語LMでカバーされた任意の言語で単言語LMを構築することができる。 実験では,VTは多言語LMの本来の性能を維持できるが,そのサイズは従来の多言語LMよりも小さい(一般的には原語彙の約50%は十分である)。 7言語で広く使われている4つの多言語LMのうち、4つのNLPタスク(2つの生成タスクと2つの分類タスク)で評価を行う。 最後に,この手法は単言語と多言語の両方において,個別に再学習する必要がなく,かつ潜在的に有害な社会バイアスを制限することなく,小型の単言語モデルとして維持できることを示す。

Multilingual language model (LM) have become a powerful tool in NLP especially for non-English languages. Nevertheless, model parameters of multilingual LMs remain large due to the larger embedding matrix of the vocabulary covering tokens in different languages. On the contrary, monolingual LMs can be trained in a target language with the language-specific vocabulary only, but this requires a large budget and availability of reliable corpora to achieve a high-quality LM from scratch. In this paper, we propose vocabulary-trimming (VT), a method to reduce a multilingual LM vocabulary to a target language by deleting irrelevant tokens from its vocabulary. In theory, VT can compress any existing multilingual LM to build monolingual LMs in any language covered by the multilingual LM. In our experiments, we show that VT can retain the original performance of the multilingual LM, while being smaller in size (in general around 50% of the original vocabulary size is enough) than the original multilingual LM. The evaluation is performed over four NLP tasks (two generative and two classification tasks) among four widely used multilingual LMs in seven languages. Finally, we show that this methodology can keep the best of both monolingual and multilingual worlds by keeping a small size as monolingual models without the need for specifically retraining them, and even limiting potentially harmful social biases.
翻訳日:2023-10-14 15:35:49 公開日:2023-10-12
# 拡散型生成aiによる2次元分子グラフからの遷移状態の探索

Diffusion-based Generative AI for Exploring Transition States from 2D Molecular Graphs ( http://arxiv.org/abs/2304.12233v3 )

ライセンス: Link先を確認
Seonghwan Kim, Jeheon Woo, Woo Youn Kim(参考訳) 遷移状態(TS)の探索は化学反応機構を解明し、その速度論をモデル化するために重要である。 近年,機械学習(ml)モデルがtsジオメトリの予測において顕著な性能を示している。 しかし、反応物と生成物の3次元配座を入力として適切な向きにする必要があるため、かなりの努力と計算コストが要求される。 本稿では,2次元分子グラフからのみTS測地を予測するための確率拡散法,すなわち TSDiff に基づく生成的アプローチを提案する。 TSDiffは、精度と効率の両面で既存のMLモデルよりも3Dジオメトリで優れていた。 さらに、様々なTS配座のサンプル化を可能にし、トレーニングにおいて様々な反応のためにTSジオメトリーの分布を学習した。 したがって、TSDiffは基準データベースよりもバリア高さの低い反応経路をより良好に見つけることができた。 これらの結果から, TSDiffは効率的かつ信頼性の高いTS探査の可能性を示した。

The exploration of transition state (TS) geometries is crucial for elucidating chemical reaction mechanisms and modeling their kinetics. Recently, machine learning (ML) models have shown remarkable performance for prediction of TS geometries. However, they require 3D conformations of reactants and products often with their appropriate orientations as input, which demands substantial efforts and computational cost. Here, we propose a generative approach based on the stochastic diffusion method, namely TSDiff, for prediction of TS geometries just from 2D molecular graphs. TSDiff outperformed the existing ML models with 3D geometries in terms of both accuracy and efficiency. Moreover, it enables to sample various TS conformations, because it learned the distribution of TS geometries for diverse reactions in training. Thus, TSDiff was able to find more favorable reaction pathways with lower barrier heights than those in the reference database. These results demonstrate that TSDiff shows promising potential for an efficient and reliable TS exploration.
翻訳日:2023-10-14 15:35:25 公開日:2023-10-12
# 大規模言語モデルにおける反復ブートストラップによる思考連鎖の促進

Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models ( http://arxiv.org/abs/2304.11657v2 )

ライセンス: Link先を確認
Jiashuo Sun and Yi Luo and Yeyun Gong and Chen Lin and Yelong Shen and Jian Guo and Nan Duan(参考訳) 大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。 しかし、LLMによって生成された実演の推論連鎖は誤りを起こしやすいため、推論中に誤った推論につながる可能性がある。 さらに、不適切な例(過度に単純化または複雑)は、様々な難易度レベルの全体的なパフォーマンスに影響を与える可能性がある。 本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。 反復的なブートストラップを利用することで,LLMが自動でエラーを修正できるようになり,より正確かつ包括的な推論連鎖が得られる。 同時に,適度な難易度を持つ推論チェーンを例示として,さまざまな難易度レベルにわたるllmsの一般化性を高めるために,挑戦的かつ回答可能な質問を選択する。 実験結果から, Iter-CoTは10個のデータセット上での3つの異なる推論タスクにまたがる競合性能を実現していることがわかった。

Large language models (LLMs) can achieve highly effective performance on various reasoning tasks by incorporating step-by-step chain-of-thought (CoT) prompting as demonstrations. However, the reasoning chains of demonstrations generated by LLMs are prone to errors, which can subsequently lead to incorrect reasoning during inference. Furthermore, inappropriate exemplars (overly simplistic or complex), can affect overall performance among varying levels of difficulty. We introduce Iter-CoT (Iterative bootstrapping in Chain-of-Thoughts Prompting), an iterative bootstrapping approach for selecting exemplars and generating reasoning chains. By utilizing iterative bootstrapping, our approach enables LLMs to autonomously rectify errors, resulting in more precise and comprehensive reasoning chains. Simultaneously, our approach selects challenging yet answerable questions accompanied by reasoning chains as exemplars with a moderate level of difficulty, which enhances the LLMs' generalizability across varying levels of difficulty. Experimental results indicate that Iter-CoT exhibits superiority, achieving competitive performance across three distinct reasoning tasks on ten datasets.
翻訳日:2023-10-14 15:35:11 公開日:2023-10-12
# 最適輸送と投射追跡による時間依存密度の生成モデル

Generative modeling of time-dependent densities via optimal transport and projection pursuit ( http://arxiv.org/abs/2304.09663v2 )

ライセンス: Link先を確認
Jonah Botvinick-Greenhouse, Yunan Yang, Romit Maulik(参考訳) 一般のディープラーニングアルゴリズムによる時間密度生成モデルによる計算の難しさに動機づけられ,高次元問題に対して最小のハイパーパラメータチューニングとスケールを必要とする安価な代替案を提案する。 特に,プロジェクションに基づく最適輸送解法 [meng et al., 2019] を用いて連続したサンプルを結合し,その後に輸送スプライン [chewi et al., 2020] を用いて発展する密度を補間する。 サンプリング周波数が十分に高い場合、最適な写像は同一性に近く、計算効率が良い。 さらに、最適写像は独立であり同時に学習できるため、トレーニングプロセスは高度に並列化可能である。 最後に、このアプローチは非凸対象関数を最小化するのではなく、数値線形代数のみに基づいており、容易にアルゴリズムを解析し制御することができる。 提案手法の有効性を実証するために,合成および実世界の両方のデータセットに関する数値実験を行った。 特に, 提案手法は, 様々な次元にまたがる時間条件を満たした数値正規化流に比べ, 高い競合性を示す。

Motivated by the computational difficulties incurred by popular deep learning algorithms for the generative modeling of temporal densities, we propose a cheap alternative which requires minimal hyperparameter tuning and scales favorably to high dimensional problems. In particular, we use a projection-based optimal transport solver [Meng et al., 2019] to join successive samples and subsequently use transport splines [Chewi et al., 2020] to interpolate the evolving density. When the sampling frequency is sufficiently high, the optimal maps are close to the identity and are thus computationally efficient to compute. Moreover, the training process is highly parallelizable as all optimal maps are independent and can thus be learned simultaneously. Finally, the approach is based solely on numerical linear algebra rather than minimizing a nonconvex objective function, allowing us to easily analyze and control the algorithm. We present several numerical experiments on both synthetic and real-world datasets to demonstrate the efficiency of our method. In particular, these experiments show that the proposed approach is highly competitive compared with state-of-the-art normalizing flows conditioned on time across a wide range of dimensionalities.
翻訳日:2023-10-14 15:34:48 公開日:2023-10-12
# 弱改良セグメンテーション強化のための高忠実擬似ラベル

High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation ( http://arxiv.org/abs/2304.02621v2 )

ライセンス: Link先を確認
Arvi Jonnarth, Yushan Zhang, Michael Felsberg(参考訳) 画像レベルの弱い教師付きセマンティックセグメンテーション(wsss)は、トレーニング中にセグメンテーションマスクを代理することで、通常、膨大なデータアノテーションコストを削減する。 典型的なアプローチは、畳み込み特徴写像のグローバル平均プーリング(GAP)を用いた画像分類ネットワークのトレーニングである。 これにより、画像領域の重要性を識別するクラスアクティベーションマップ(CAM)に基づいて、オブジェクトの位置を推定できる。 CAMは、ピクセルレベルの基底真理が欠如しているセグメンテーションモデルを監督するために、セグメンテーションマスクの形で擬似ラベルを生成するために使用される。 本研究は,GAPの代替となる重要サンプリングと,物体の輪郭が画像のカラーエッジとほぼ常に一致しているヒューリスティックな特徴類似性損失という,CAMを改善するための2つの手法に基づく。 しかし、どちらもソフトマックスによる多重項後部に基づいており、クラスは互いに排他的であると暗黙的に仮定しており、これは我々の実験では最適ではない。 したがって、複数の独立二項問題の二項後部に基づく両手法を再構成する。 パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。 これはPASCAL VOCデータセットの様々なベースライン上で実証され、実装されたすべての最先端手法の領域類似性と輪郭品質を改善した。 MS COCOデータセットの実験から,提案したアドオンは大規模設定に適していることが示された。 私たちのコードはhttps://github.com/arvijj/hfplで利用可能です。

Image-level weakly-supervised semantic segmentation (WSSS) reduces the usually vast data annotation cost by surrogate segmentation masks during training. The typical approach involves training an image classification network using global average pooling (GAP) on convolutional feature maps. This enables the estimation of object locations based on class activation maps (CAMs), which identify the importance of image regions. The CAMs are then used to generate pseudo-labels, in the form of segmentation masks, to supervise a segmentation model in the absence of pixel-level ground truth. Our work is based on two techniques for improving CAMs; importance sampling, which is a substitute for GAP, and the feature similarity loss, which utilizes a heuristic that object contours almost always align with color edges in images. However, both are based on the multinomial posterior with softmax, and implicitly assume that classes are mutually exclusive, which turns out suboptimal in our experiments. Thus, we reformulate both techniques based on binomial posteriors of multiple independent binary problems. This has two benefits; their performance is improved and they become more general, resulting in an add-on method that can boost virtually any WSSS method. This is demonstrated on a wide variety of baselines on the PASCAL VOC dataset, improving the region similarity and contour quality of all implemented state-of-the-art methods. Experiments on the MS COCO dataset show that our proposed add-on is well-suited for large-scale settings. Our code is available at https://github.com/arvijj/hfpl.
翻訳日:2023-10-14 15:34:27 公開日:2023-10-12
# LLMMaps - 大規模言語モデルの階層評価のためのビジュアルメタファー

LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language Models ( http://arxiv.org/abs/2304.00457v3 )

ライセンス: Link先を確認
Patrik Puchert, Poonam Poonam, Christian van Onzenoodt, Timo Ropinski(参考訳) 大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクにおいて印象的な能力を示した。 残念なことに、彼らは幻覚を起こす傾向があり、そこではモデルがその応答で誤った情報や偽の情報を公開する。 特定の知識分野におけるLLMのパフォーマンスは、質問と回答(Q&A)データセットに基づいて評価されることが多いが、そのような評価は通常、全分野をカバーするデータセットの1つの精度番号しか報告しない。 この分野に基づく評価は、透明性とモデル改善に関して問題となる。 階層化された評価は、幻覚がより起こりやすいサブフィールドを明らかにし、LSMのリスクをよりよく評価し、さらなる発展を導くのに役立つ。 このような階層化評価を支援するため,ユーザによるQ&Aデータセットに対するLLMの性能評価を可能にする新しい可視化手法としてLLMMapsを提案する。 LLMMapsは、Q&AデータセットとLLM応答を内部知識構造に変換することによって、異なるサブフィールドにおけるLLMの知識能力に関する詳細な洞察を提供する。 さらに、比較視覚化の拡張により、複数のLLMの詳細な比較が可能になる。 LLMマップの評価にはBLOOM, GPT-2, GPT-3, ChatGPT, LLaMa-13B, および2つの定性的ユーザ評価など, 最先端のLLMの比較分析を行う。 科学的な出版物やその他の場所で使用されるllmmapを生成するために必要なソースコードとデータは、githubで入手できる。

Large Language Models (LLMs) have revolutionized natural language processing and demonstrated impressive capabilities in various tasks. Unfortunately, they are prone to hallucinations, where the model exposes incorrect or false information in its responses, which renders diligent evaluation approaches mandatory. While LLM performance in specific knowledge fields is often evaluated based on question and answer (Q&A) datasets, such evaluations usually report only a single accuracy number for the dataset, which often covers an entire field. This field-based evaluation, is problematic with respect to transparency and model improvement. A stratified evaluation could instead reveal subfields, where hallucinations are more likely to occur and thus help to better assess LLMs' risks and guide their further development. To support such stratified evaluations, we propose LLMMaps as a novel visualization technique that enables users to evaluate LLMs' performance with respect to Q&A datasets. LLMMaps provide detailed insights into LLMs' knowledge capabilities in different subfields, by transforming Q&A datasets as well as LLM responses into an internal knowledge structure. An extension for comparative visualization furthermore, allows for the detailed comparison of multiple LLMs. To assess LLMMaps we use them to conduct a comparative analysis of several state-of-the-art LLMs, such as BLOOM, GPT-2, GPT-3, ChatGPT and LLaMa-13B, as well as two qualitative user evaluations. All necessary source code and data for generating LLMMaps to be used in scientific publications and elsewhere is available on GitHub: https://github.com/viscom-ulm/LLMMaps
翻訳日:2023-10-14 15:33:56 公開日:2023-10-12
# 順序回帰のための解釈可能なニューラルネットワークに基づく非確率オッズモデル

An interpretable neural network-based non-proportional odds model for ordinal regression ( http://arxiv.org/abs/2303.17823v3 )

ライセンス: Link先を確認
Akifumi Okuno, Kazuharu Harada(参考訳) 本研究では,順序回帰のための解釈可能なニューラルネットワークに基づく非確率オッズモデル(n$^3$pom)を提案する。 1) N$^3$POM は連続応答を直接扱うように設計されているのに対し、標準的手法はデファクト順序連続変数を離散として扱うのが一般的であり、(2) 従来の手法のように離散応答から線形モデルの応答依存有限係数を推定する代わりに、非線型ニューラルネットワークを係数関数として機能するように訓練する。 ニューラルネットワークのおかげで、N$^3$POMは従来の順序回帰の解釈可能性を維持しながら柔軟性を提供する。 予測条件累積確率が共変量空間におけるユーザ特定領域上の単調性制約を局所的に満足する十分条件を確立する。 さらに、ニューラルネットワークを効果的に訓練するための単調性保存確率(MPS)アルゴリズムを提供する。 いくつかの実世界のデータセットにN$^3$POMを適用する。

This study proposes an interpretable neural network-based non-proportional odds model (N$^3$POM) for ordinal regression. N$^3$POM is different from conventional approaches to ordinal regression with non-proportional models in several ways: (1) N$^3$POM is designed to directly handle continuous responses, whereas standard methods typically treat de facto ordered continuous variables as discrete, (2) instead of estimating response-dependent finite coefficients of linear models from discrete responses as is done in conventional approaches, we train a non-linear neural network to serve as a coefficient function. Thanks to the neural network, N$^3$POM offers flexibility while preserving the interpretability of conventional ordinal regression. We establish a sufficient condition under which the predicted conditional cumulative probability locally satisfies the monotonicity constraint over a user-specified region in the covariate space. Additionally, we provide a monotonicity-preserving stochastic (MPS) algorithm for effectively training the neural network. We apply N$^3$POM to several real-world datasets.
翻訳日:2023-10-14 15:33:24 公開日:2023-10-12
# 臨床CTにおける慢性閉塞性肺疾患検出のための畳み込みニューラルネットワークの最適化

Optimizing Convolutional Neural Networks for Chronic Obstructive Pulmonary Disease Detection in Clinical Computed Tomography Imaging ( http://arxiv.org/abs/2303.07189v3 )

ライセンス: Link先を確認
Tina Dorosti, Manuel Schultheiss, Felix Hofmann, Johannes Thalhammer, Luisa Kirchner, Theresa Urban, Franz Pfeiffer, Florian Schaff, Tobias Lasser, Daniela Pfeiffer(参考訳) 肺気腫と畳み込みニューラルネットワーク(CNN)を併用した慢性閉塞性肺疾患(COPD)の2値検出を,CT画像上で手動調整と自動窓設定最適化(WSO)により最適化することを目的としている。 7,194枚のCT画像3,597枚,健常者3,597枚,健常者43枚,健常者35枚を振り返り(10.2018-12.2019)、前処理した。 各画像に対して、強度値を手動で気腫窓設定と「フルレンジ」窓設定にクリップした。 テストセットは3,392枚、1,114枚、2,688枚であった。 ネットワークバックボーンは、様々なCNNアーキテクチャを比較することで最適化された。 さらに、モデルにカスタマイズされたレイヤを追加することで、WSOの自動化が実現されました。 モデル変動を比較するために,受信機動作特性曲線(auc)下の画像レベル領域 [下限95%信頼度] を用いた。 テストセットの繰り返し推論(n=7)では、DenseNetが最も効率的なバックボーンであり、WSOなしで平均AUCが0.80[0.76, 0.85]に達した。 気腫ウィンドウに手動で調整した入力画像と対比して,0.86[0.82, 0.89]の平均aucdを予測した。 濃密網にカスタマイズされたwso層を加えることで、気腫窓設定近傍の最適な窓を自動的に学習し、平均aucを0.82[0.78, 0.86]とした。 DenseNet モデルによる COPD の検出は,CT データから気腫窓設定範囲までの改善を行った。

We aim to optimize the binary detection of Chronic Obstructive Pulmonary Disease (COPD) based on emphysema presence in the lung with convolutional neural networks (CNN) by exploring manually adjusted versus automated window-setting optimization (WSO) on computed tomography (CT) images. 7,194 CT images (3,597 with COPD; 3,597 healthy controls) from 78 subjects (43 with COPD; 35 healthy controls) were selected retrospectively (10.2018-12.2019) and preprocessed. For each image, intensity values were manually clipped to the emphysema window setting and a baseline 'full-range' window setting. Class-balanced train, validation, and test sets contained 3,392, 1,114, and 2,688 images. The network backbone was optimized by comparing various CNN architectures. Furthermore, automated WSO was implemented by adding a customized layer to the model. The image-level area under the Receiver Operating Characteristics curve (AUC) [lower, upper limit 95% confidence] was utilized to compare model variations. Repeated inference (n=7) on the test set showed that the DenseNet was the most efficient backbone and achieved a mean AUC of 0.80 [0.76, 0.85] without WSO. Comparably, with input images manually adjusted to the emphysema window, the DenseNet model predicted COPD with a mean AUC of 0.86 [0.82, 0.89]. By adding a customized WSO layer to the DenseNet, an optimal window in the proximity of the emphysema window setting was learned automatically, and a mean AUC of 0.82 [0.78, 0.86] was achieved. Detection of COPD with DenseNet models was improved by WSO of CT data to the emphysema window setting range.
翻訳日:2023-10-14 15:33:05 公開日:2023-10-12
# バックドア言語モデルの内部メカニズムの解析と編集

Analyzing And Editing Inner Mechanisms Of Backdoored Language Models ( http://arxiv.org/abs/2302.12461v2 )

ライセンス: Link先を確認
Max Lamparth, Anka Reuel(参考訳) データセットの課金は、バックドアモデルにつながる大きな言語モデルに対する潜在的なセキュリティ脅威である。 バックドア言語モデルの内部メカニズムと、それらがどのようにしてトリガー入力を処理するか、例えば、有害な言語に切り替える際の説明はまだ見つかっていない。 そこで本研究では,トランスフォーマに基づくバックドア言語モデルの内部表現について検討し,初期階層のMLPモジュールを初期埋め込み投影と組み合わせてバックドア機構において最も重要なものとして決定する。 我々は、この知識を用いてバックドア機構の削除、挿入、修正を行い、MDPモジュールの出力をバックドア機構の必須要素に還元します。 この目的のために,PCPアブレーションを導入し,その活性化の主成分に基づいてトランスフォーマーモジュールを低ランク行列に置き換える。 バックドアのおもちゃ、バックドアの大型、非バックドアのオープンソースモデルで結果を実証します。 我々は,潜在的有毒データセットの微調整中に個々のモジュールを局所的に拘束することで,大規模言語モデルのバックドアロバスト性を向上させることができることを示す。 トリガー警告: 攻撃的言語。

Poisoning of data sets is a potential security threat to large language models that can lead to backdoored models. A description of the internal mechanisms of backdoored language models and how they process trigger inputs, e.g., when switching to toxic language, has yet to be found. In this work, we study the internal representations of transformer-based backdoored language models and determine early-layer MLP modules as most important for the backdoor mechanism in combination with the initial embedding projection. We use this knowledge to remove, insert, and modify backdoor mechanisms with engineered replacements that reduce the MLP module outputs to essentials for the backdoor mechanism. To this end, we introduce PCP ablation, where we replace transformer modules with low-rank matrices based on the principal components of their activations. We demonstrate our results on backdoored toy, backdoored large, and non-backdoored open-source models. We show that we can improve the backdoor robustness of large language models by locally constraining individual modules during fine-tuning on potentially poisonous data sets. Trigger warning: Offensive language.
翻訳日:2023-10-14 15:32:17 公開日:2023-10-12
# OWAdapt: OWA演算子を用いたディープラーニングのための適応的損失関数

OWAdapt: An adaptive loss function for deep learning using OWA operators ( http://arxiv.org/abs/2305.19443v2 )

ライセンス: Link先を確認
Sebasti\'an Maldonado, Carla Vairetti, Katherine Jara, Miguel Carrasco, Julio L\'opez(参考訳) 本稿では,分類タスクにおける深層学習性能を向上させるファジィ適応損失関数を提案する。 具体的には,クロスエントロピー損失を再定義し,クラスレベルのノイズ条件に効果的に対処する。 本手法では,ファジィ論理のパワーを利用して分類精度を向上させるアグリゲーション演算子を導入する。 提案手法の背景にある理論的根拠は、損失関数内のクラスレベルのコンポーネントの反復的な重み付けであり、エラーが大きいコンポーネントに焦点を当てている。 これを実現するために、順序付き重み付き平均演算子(OWA)を用い、勾配学習のための適応型スキームと組み合わせる。 広範囲な実験により,本手法は,標準クロスエントロピーや焦点損失といった他の一般的な損失関数を,様々なバイナリ・マルチクラス分類タスクで上回っている。 さらに,owaオペレータに関連するハイパーパラメータの影響について検討し,異なる実験設定で動作可能なデフォルト設定を提案する。

In this paper, we propose a fuzzy adaptive loss function for enhancing deep learning performance in classification tasks. Specifically, we redefine the cross-entropy loss to effectively address class-level noise conditions, including the challenging problem of class imbalance. Our approach introduces aggregation operators, leveraging the power of fuzzy logic to improve classification accuracy. The rationale behind our proposed method lies in the iterative up-weighting of class-level components within the loss function, focusing on those with larger errors. To achieve this, we employ the ordered weighted average (OWA) operator and combine it with an adaptive scheme for gradient-based learning. Through extensive experimentation, our method outperforms other commonly used loss functions, such as the standard cross-entropy or focal loss, across various binary and multiclass classification tasks. Furthermore, we explore the influence of hyperparameters associated with the OWA operators and present a default configuration that performs well across different experimental settings.
翻訳日:2023-10-14 15:26:14 公開日:2023-10-12
# 大規模言語モデルを用いた要約の事実整合性の評価

Evaluating Factual Consistency of Summaries with Large Language Models ( http://arxiv.org/abs/2305.14069v2 )

ライセンス: Link先を確認
Shiqi Chen, Siyang Gao and Junxian He(参考訳) 要約における事実誤りの検出は,要約研究において重要かつ困難な課題となっている。 大規模言語モデル (LLM) の創発的能力に触発され, LLM を直接刺激することで要約の現実的一貫性を評価する。 We present a comprehensive empirical study to assess the ability of LLMs as factual consistency evaluators, which consists of (1) analyzing different LLMs such as the GPT model series and Flan-T5; (2) investigating a variety of prompting methods including vanilla prompting, chain-of-thought prompting, and a sentence-by-sentence prompting method to tackle long summaries; and (3) evaluating on diverse summaries generated by multiple summarization systems, ranging from pre-transformer methods to SOTA pretrained models. 実験の結果,LLMは全ての設定において,非整合検出における二項分類精度で最大12.2の絶対点を達成できることがわかった。

Detecting factual errors in summaries has been an important and challenging subject in summarization research. Inspired by the emergent ability of large language models (LLMs), we explore evaluating factual consistency of summaries by directly prompting LLMs. We present a comprehensive empirical study to assess the ability of LLMs as factual consistency evaluators, which consists of (1) analyzing different LLMs such as the GPT model series and Flan-T5; (2) investigating a variety of prompting methods including vanilla prompting, chain-of-thought prompting, and a sentence-by-sentence prompting method to tackle long summaries; and (3) evaluating on diverse summaries generated by multiple summarization systems, ranging from pre-transformer methods to SOTA pretrained models. Our experiments demonstrate that prompting LLMs is able to outperform the previous best factuality systems in all settings, by up to 12.2 absolute points in terms of the binary classification accuracy on inconsistency detection.
翻訳日:2023-10-14 15:25:56 公開日:2023-10-12
# ChatGPTは良い因果共振器か? 総合評価

Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation ( http://arxiv.org/abs/2305.07375v4 )

ライセンス: Link先を確認
Jinglong Gao, Xiao Ding, Bing Qin, Ting Liu(参考訳) 因果推論能力は多くのNLPアプリケーションに不可欠である。 様々なNLPタスクにおけるChatGPTの顕著な出現能力にもかかわらず、ChatGPTが因果推論においてどの程度優れているかは明らかでない。 本稿では,chatgptの因果推論能力について,最初の包括的評価を行う。 実験の結果,ChatGPTは因果推論に優れず,因果説明に優れていた。 加えて、ChatGPTは因果推論に深刻な幻覚を持っているが、それはおそらく、自然言語における因果関係と非因果関係のバイアスの報告と、RLHFのようなChatGPTのアップグレードプロセスによるものである。 In-Context Learning (ICL) と Chain-of-Thought (CoT) の技術は、このような因果幻覚をさらに悪化させる可能性がある。 さらに、ChatGPTの因果推論能力は、因果概念をプロンプトで表現するために使われる単語に敏感であり、クローズドプロンプトはオープンエンドプロンプトよりも優れている。 文中のイベントに対して、chatgptは暗黙の因果関係よりも明示的な因果関係を捉えるのに優れており、イベント密度が低く、イベント間の語彙距離が小さい文ではよりよく機能する。 コードはhttps://github.com/ArrogantL/ChatGPT4CausalReasoningで入手できる。

Causal reasoning ability is crucial for numerous NLP applications. Despite the impressive emerging ability of ChatGPT in various NLP tasks, it is unclear how well ChatGPT performs in causal reasoning. In this paper, we conduct the first comprehensive evaluation of the ChatGPT's causal reasoning capabilities. Experiments show that ChatGPT is not a good causal reasoner, but a good causal explainer. Besides, ChatGPT has a serious hallucination on causal reasoning, possibly due to the reporting biases between causal and non-causal relationships in natural language, as well as ChatGPT's upgrading processes, such as RLHF. The In-Context Learning (ICL) and Chain-of-Thought (CoT) techniques can further exacerbate such causal hallucination. Additionally, the causal reasoning ability of ChatGPT is sensitive to the words used to express the causal concept in prompts, and close-ended prompts perform better than open-ended prompts. For events in sentences, ChatGPT excels at capturing explicit causality rather than implicit causality, and performs better in sentences with lower event density and smaller lexical distance between events. The code is available on https://github.com/ArrogantL/ChatGPT4CausalReasoning .
翻訳日:2023-10-14 15:24:48 公開日:2023-10-12
# 転校学習におけるモデル選択の限界

Limits of Model Selection under Transfer Learning ( http://arxiv.org/abs/2305.00152v4 )

ライセンス: Link先を確認
Steve Hanneke, Samory Kpotufe, Yasaman Mahdaviyeh(参考訳) 転送学習やドメイン適応に関する理論的研究はこれまで、既知の仮説クラスやモデルでの状況に焦点を当ててきたが、実際には、いくつかのモデル選択は、通常、ハイパーパラメータチューニング(hyperparameter-tuning)という包括的用語の下に現れる。 現在、モデル選択に関わる近似と推定誤差の通常のトレードオフに加えて、この問題は新たな複雑性項、すなわち、ソースとターゲットの分布間の移動距離が仮説クラスの選択によって異なることが知られている。 特に、分析によって注目すべき現象が明らかになる: 適応率、すなわち、分布情報を持たないもの、すなわち、距離に関する知識が与えられたとき、oracleの速度よりも任意に遅い可能性がある。

Theoretical studies on transfer learning or domain adaptation have so far focused on situations with a known hypothesis class or model; however in practice, some amount of model selection is usually involved, often appearing under the umbrella term of hyperparameter-tuning: for example, one may think of the problem of tuning for the right neural network architecture towards a target task, while leveraging data from a related source task. Now, in addition to the usual tradeoffs on approximation vs estimation errors involved in model selection, this problem brings in a new complexity term, namely, the transfer distance between source and target distributions, which is known to vary with the choice of hypothesis class. We present a first study of this problem, focusing on classification; in particular, the analysis reveals some remarkable phenomena: adaptive rates, i.e., those achievable with no distributional information, can be arbitrarily slower than oracle rates, i.e., when given knowledge on distances.
翻訳日:2023-10-14 15:24:09 公開日:2023-10-12
# Nest-DGIL: CS画像再構成のためのNesterov最適化Deep Geometric Incremental Learning

Nest-DGIL: Nesterov-optimized Deep Geometric Incremental Learning for CS Image Reconstruction ( http://arxiv.org/abs/2308.03807v2 )

ライセンス: Link先を確認
Xiaohong Fan, Yin Yang, Ke Chen, Yujie Feng, and Jianping Zhang(参考訳) 近位勾配に基づく最適化は、画像の逆問題を解く最も一般的な戦略の1つであり、実装が容易である。 しかし、これらの技法はしばしば画像再構成において重いアーティファクトを生成する。 最も一般的な精錬手法の1つは、そのようなアーティファクトを緩和するために正規化パラメータを微調整することであるが、計算コストの増大のために常に十分あるいは適用可能であるとは限らない。 本研究では,第2次ネステロフ近位勾配最適化に基づく深層幾何学的漸進学習フレームワークを提案する。 提案するエンド・ツー・エンドネットワークは、高頻度・低周波画像特徴の強力な学習能力を持つだけでなく、事前の線形再構成から幾何学的テクスチャの詳細が再構築されることを理論的に保証できる。 さらに、幾何分解領域外に落下する中間再構成結果のリスクを回避し、高速収束を実現することができる。 再建フレームワークは, 一般的な線形再構成, カスケード幾何的漸進的復元, ネステロフ加速度, 後処理の4つのモジュールに分解される。 画像復元ステップでは、異なる幾何学的スペクトル分解領域からのテクスチャ情報の欠落を補償するカスケード幾何漸進学習モジュールが設計されている。 また,重複タイル戦略に触発されて,パッチ単位の自然画像再構成におけるブロック効果を除去するポストプロセッシングモジュールを開発した。 提案モデルの全てのパラメータは学習可能であり、モデルの柔軟性と収束の円滑さを保証するために、物理パラメータの適応初期化技術も用いられる。 提案手法の復元性能と既存手法との比較を行い,その優位性を実証した。 ソースコードはhttps://github.com/fanxiaohong/Nest-DGILで公開しています。

Proximal gradient-based optimization is one of the most common strategies to solve inverse problem of images, and it is easy to implement. However, these techniques often generate heavy artifacts in image reconstruction. One of the most popular refinement methods is to fine-tune the regularization parameter to alleviate such artifacts, but it may not always be sufficient or applicable due to increased computational costs. In this work, we propose a deep geometric incremental learning framework based on the second Nesterov proximal gradient optimization. The proposed end-to-end network not only has the powerful learning ability for high-/low-frequency image features, but also can theoretically guarantee that geometric texture details will be reconstructed from preliminary linear reconstruction. Furthermore, it can avoid the risk of intermediate reconstruction results falling outside the geometric decomposition domains and achieve fast convergence. Our reconstruction framework is decomposed into four modules including general linear reconstruction, cascade geometric incremental restoration, Nesterov acceleration, and post-processing. In the image restoration step, a cascade geometric incremental learning module is designed to compensate for missing texture information from different geometric spectral decomposition domains. Inspired by the overlap-tile strategy, we also develop a post-processing module to remove the block effect in patch-wise-based natural image reconstruction. All parameters in the proposed model are learnable, an adaptive initialization technique of physical parameters is also employed to make model flexibility and ensure converging smoothly. We compare the reconstruction performance of the proposed method with existing state-of-the-art methods to demonstrate its superiority. Our source codes are available at https://github.com/fanxiaohong/Nest-DGIL.
翻訳日:2023-10-14 15:14:31 公開日:2023-10-12
# CIDER:短文テキストに対する文脈感性感情分析

CIDER: Context sensitive sentiment analysis for short-form text ( http://arxiv.org/abs/2307.07864v2 )

ライセンス: Link先を確認
James C. Young, Rudy Arthur, Hywel T.P. Williams(参考訳) 研究者は、ツイートやredditの投稿、新聞の見出しなど、特定のトピック、テーマ、イベントに焦点を当てた大量の短いテキストの感情分析を行うことが多い。 通常、一般的な感情分析手法は、平均でよく機能するが、異なる文脈で起こる意味の変化を見逃すものである。例えば、「アクティブ」という言葉は、「アクティブライフスタイル」と「アクティブ火山」というフレーズで全く異なる意図と価値を持っている。 本研究は,文脈に敏感な感情分析を行う新たな手法であるcider(context informed dictionary and sentiment reasoner)を提案する。 本稿では,ciderアルゴリズムを詳述し,天気に関する大量のツイートに対して,最先端のジェネラリストの感情分析よりも優れていることを示す。 私たちはCIDERの実装をpythonパッケージとして公開しました。

Researchers commonly perform sentiment analysis on large collections of short texts like tweets, Reddit posts or newspaper headlines that are all focused on a specific topic, theme or event. Usually, general purpose sentiment analysis methods are used which perform well on average but miss the variation in meaning that happens across different contexts, for example, the word "active" has a very different intention and valence in the phrase "active lifestyle" versus "active volcano". This work presents a new approach, CIDER (Context Informed Dictionary and sEntiment Reasoner), which performs context sensitive sentiment analysis, where the valence of sentiment laden terms is inferred from the whole corpus before being used to score the individual texts. In this paper we detail the CIDER algorithm and demonstrate that it outperforms state-of-the-art generalist sentiment analysis on a large collection of tweets about the weather. We have made our implementation of CIDER available as a python package: https://pypi.org/project/ciderpolarity/.
翻訳日:2023-10-14 15:13:59 公開日:2023-10-12
# コントラスト学習による強化学習における階層的成果の発見

Discovering Hierarchical Achievements in Reinforcement Learning via Contrastive Learning ( http://arxiv.org/abs/2307.03486v2 )

ライセンス: Link先を確認
Seungyong Moon, Junyoung Yeom, Bumsoo Park, Hyun Oh Song(参考訳) 手続き的生成環境における階層構造による成果の発見は大きな課題である。 これは、エージェントが一般化や長期的推論を含む幅広い能力を持つ必要がある。 多くの先行手法はモデルベースや階層的アプローチに基づいて構築されており、長期的な計画のための明示的なモジュールは階層的依存関係を学ぶ上で有利であると信じられている。 しかし、これらの手法は過剰な数の環境相互作用や大きなモデルサイズを必要とし、実用性を制限する。 そこで本研究では,PPO(proximal policy optimization)が,最近の実装手法に最適化された場合,従来の手法よりも優れていることを示す。 さらに, PPO エージェントは, 信頼性に限界はあるものの, 次の成果をある程度の確率で予測できることがわかった。 本研究は, エージェントが次の達成を予測できる能力を高めることを目的とした, 達成蒸留と呼ばれる新しいコントラスト学習手法を提案する。 提案手法は階層的な成果を見出すための強力な能力を示し,モデルパラメータの少ないサンプル効率で挑戦的なクラフト環境における最先端性能を示す。

Discovering achievements with a hierarchical structure in procedurally generated environments presents a significant challenge. This requires an agent to possess a broad range of abilities, including generalization and long-term reasoning. Many prior methods have been built upon model-based or hierarchical approaches, with the belief that an explicit module for long-term planning would be advantageous for learning hierarchical dependencies. However, these methods demand an excessive number of environment interactions or large model sizes, limiting their practicality. In this work, we demonstrate that proximal policy optimization (PPO), a simple yet versatile model-free algorithm, outperforms previous methods when optimized with recent implementation practices. Moreover, we find that the PPO agent can predict the next achievement to be unlocked to some extent, albeit with limited confidence. Based on this observation, we introduce a novel contrastive learning method, called achievement distillation, which strengthens the agent's ability to predict the next achievement. Our method exhibits a strong capacity for discovering hierarchical achievements and shows state-of-the-art performance on the challenging Crafter environment in a sample-efficient manner while utilizing fewer model parameters.
翻訳日:2023-10-14 15:13:42 公開日:2023-10-12
# 拡散確率モデルのスパイキング

Spiking Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2306.17046v2 )

ライセンス: Link先を確認
Jiahang Cao, Ziqing Wang, Hanzhong Guo, Hao Cheng, Qiang Zhang, Renjing Xu(参考訳) スパイキングニューラルネットワーク(SNN)は、人工ニューラルネットワーク(ANN)と比較して、二元的および生物駆動的な性質のため、超低エネルギー消費と高い生物学的可視性を有する。 これまでの研究は主に分類タスクにおけるsnsの性能向上に重点を置いてきたが、snsの生成可能性は比較的未解明のままである。 本稿では,SNN を用いた新しい生成モデルである Spking Denoising Diffusion Probabilistic Models (SDDPM) について述べる。 SNNのエネルギー効率をフル活用するために,ANNに匹敵する性能を実現する純粋にスパイクされたU-Netアーキテクチャを提案する。 広範な実験結果から,この手法は生成処理の最先端化を達成し,他のsnベースの生成モデルを大幅に上回って,cifar-10とcelebaデータセットに対して最大12\times$と6\times$の改善を達成していることが明らかとなった。 さらに、トレーニング不要な方法で性能をさらに16.7%向上させることができるしきい値誘導戦略を提案する。 SDDPMはSNN生成の分野での大きな進歩を象徴し、新たな視点と潜在的な探索の道のりを注入している。

Spiking neural networks (SNNs) have ultra-low energy consumption and high biological plausibility due to their binary and bio-driven nature compared with artificial neural networks (ANNs). While previous research has primarily focused on enhancing the performance of SNNs in classification tasks, the generative potential of SNNs remains relatively unexplored. In our paper, we put forward Spiking Denoising Diffusion Probabilistic Models (SDDPM), a new class of SNN-based generative models that achieve high sample quality. To fully exploit the energy efficiency of SNNs, we propose a purely Spiking U-Net architecture, which achieves comparable performance to its ANN counterpart using only 4 time steps, resulting in significantly reduced energy consumption. Extensive experimental results reveal that our approach achieves state-of-the-art on the generative tasks and substantially outperforms other SNN-based generative models, achieving up to $12\times$ and $6\times$ improvement on the CIFAR-10 and the CelebA datasets, respectively. Moreover, we propose a threshold-guided strategy that can further improve the performances by 16.7% in a training-free manner. The SDDPM symbolizes a significant advancement in the field of SNN generation, injecting new perspectives and potential avenues of exploration.
翻訳日:2023-10-14 15:12:52 公開日:2023-10-12
# Smoothed $f$-divergence Distributionally Robust Optimization

Smoothed $f$-Divergence Distributionally Robust Optimization ( http://arxiv.org/abs/2306.14041v2 )

ライセンス: Link先を確認
Zhenyuan Liu and Bart P. G. Van Parys and Henry Lam(参考訳) データ駆動最適化では、サンプル平均近似(SAA)は、ソリューション性能の過度な最適化評価を引き起こすいわゆるオプティマイザの呪いに苦しむことが知られている。 SAA や他の DRO アプローチに対する単純な ` `margin'' の調整と比較して、この最適化の呪いを補正する上で、特別な種類の分布完全ロバスト最適化 (DRO) の定式化が理論的に有利であると主張する。 このDROは、適切な距離最適化を通じて、ワッサーシュタインあるいはL'evy-Prokhorov(LP)距離によって滑らかにされるクルバック・リーブラ(KL)の発散に基づく曖昧性集合を使用する。 計算学的には、そのような DRO とその一般化されたバージョンは、$f$-divergence あるいは Wasserstein 距離に基づく DRO 問題よりも難しくなく、統計的に最適かつ計算的に実現可能であることも示している。

In data-driven optimization, sample average approximation (SAA) is known to suffer from the so-called optimizer's curse that causes an over-optimistic evaluation of the solution performance. We argue that a special type of distributionallly robust optimization (DRO) formulation offers theoretical advantages in correcting for this optimizer's curse compared to simple ``margin'' adjustments to SAA and other DRO approaches: It attains a statistical bound on the out-of-sample performance, for a wide class of objective functions and distributions, that is nearly tightest in terms of exponential decay rate. This DRO uses an ambiguity set based on a Kullback Leibler (KL) divergence smoothed by the Wasserstein or L\'evy-Prokhorov (LP) distance via a suitable distance optimization. Computationally, we also show that such a DRO, and its generalized versions using smoothed $f$-divergence, are not harder than DRO problems based on $f$-divergence or Wasserstein distances, rendering our DRO formulations both statistically optimal and computationally viable.
翻訳日:2023-10-14 15:12:28 公開日:2023-10-12
# 部分オンライン状態情報を用いたRLにおけるPMDPの理論的硬さとトラクタビリティ

Theoretical Hardness and Tractability of POMDPs in RL with Partial Online State Information ( http://arxiv.org/abs/2306.08762v2 )

ライセンス: Link先を確認
Ming Shi, Yingbin Liang, and Ness Shroff(参考訳) 部分可観測マルコフ決定プロセス(pomdps)は多くの実世界のアプリケーションを取り込むために広く適用されてきた。 しかし、既存の理論的な結果から、一般的なpomdpsでの学習は難解であり、主な課題は潜在状態情報がないことである。 ここでの基本的な問題は、トラクタビリティを実現するのに、オンライン状態情報(OSI)がどの程度十分なのかということだ。 完全なOSIがなければ,POMDPに対する$\epsilon$-Optimal Policy Solutionを得るには,指数関数的にスケールするサンプルの複雑さが必要である。 しかしながら、低境界設計における重要な洞察に触発されて、部分的OSIのみであっても、PMDPの重要な抽出可能なクラスが存在することが判明した。 特に、部分 OSI を持つ 2 つの新しい POMDP クラスに対して、新しい後悔の上と下の境界を確立することで、ほぼ最適であることが証明された新しいアルゴリズムを提供する。

Partially observable Markov decision processes (POMDPs) have been widely applied to capture many real-world applications. However, existing theoretical results have shown that learning in general POMDPs could be intractable, where the main challenge lies in the lack of latent state information. A key fundamental question here is how much online state information (OSI) is sufficient to achieve tractability. In this paper, we establish a lower bound that reveals a surprising hardness result: unless we have full OSI, we need an exponentially scaling sample complexity to obtain an $\epsilon$-optimal policy solution for POMDPs. Nonetheless, inspired by the key insights in our lower bound design, we find that there exist important tractable classes of POMDPs even with only partial OSI. In particular, for two novel classes of POMDPs with partial OSI, we provide new algorithms that are proved to be near-optimal by establishing new regret upper and lower bounds.
翻訳日:2023-10-14 15:11:49 公開日:2023-10-12
# 大規模言語モデルの調査結果に対する質問

Questioning the Survey Responses of Large Language Models ( http://arxiv.org/abs/2306.07951v2 )

ライセンス: Link先を確認
Ricardo Dominguez-Olmedo, Moritz Hardt, Celestine Mendler-D\"unner(参考訳) 大きな言語モデルが能力を高めるにつれて、研究者は様々な科学的動機を持つあらゆる種類のモデルを調査し始めた。 本研究では,米国国勢調査局のアメリカン・コミュニティ・サーベイ(ACS)に基づいて,言語モデルによる調査結果から何が学べるかを検討する。 ACSの質問に対して,40の異なる言語モデルに対して,デファクト標準の多重選択促進手法を用いて,数十万回ずつ評価を行った。 第一に、モデルには重要な位置とラベル付けバイアスがあり、例えば"A"という文字でラベル付けされたサーベイレスポンスがある。 第2に、ランダムな回答順序でバイアスをラベル付けするために調整する場合、ボード全体のモデルが一様ランダムなサーベイ応答に向かっている。 実際、バイナリ分類器は、ACSに対するモデルの反応と米国国勢調査の反応とをほぼ完全に区別することができる。 本研究は, 言語モデルによる調査回答を, 現時点の人口と同等に扱うことへの注意を喚起するものである。

As large language models increase in capability, researchers have started to conduct surveys of all kinds on these models with varying scientific motivations. In this work, we examine what we can learn from language models' survey responses on the basis of the well-established American Community Survey (ACS) by the U.S. Census Bureau. Using a de-facto standard multiple-choice prompting technique and evaluating 40 different language models, hundreds of thousands of times each on questions from the ACS, we systematically establish two dominant patterns. First, models have significant position and labeling biases, for example, towards survey responses labeled with the letter "A". Second, when adjusting for labeling biases through randomized answer ordering, models across the board trend towards uniformly random survey responses. In fact, binary classifiers can almost perfectly differentiate between models' responses to the ACS and the responses of the US census. Taken together, our findings suggest caution in treating survey responses from language models as equivalent to those of human populations at present time.
翻訳日:2023-10-14 15:11:32 公開日:2023-10-12
# 変分不均衡回帰:確率的平滑化による不確かさの定量化

Variational Imbalanced Regression: Fair Uncertainty Quantification via Probabilistic Smoothing ( http://arxiv.org/abs/2306.06599v4 )

ライセンス: Link先を確認
Ziyan Wang, Hao Wang(参考訳) 既存の回帰モデルは、ラベル分布が不均衡である場合、精度と不確実性の推定の両方において不足する傾向にある。 本稿では,不均衡回帰でうまく機能するだけでなく,副産物として合理的な不確実性推定を行う確率的不均衡回帰(vir)と呼ばれるディープラーニングモデルを提案する。 Different from typical variational autoencoders assuming I.I.D. representations (a data point's representation is not directly affected by other data points), our VIR borrows data with similar regression labels to compute the latent representation's variational distribution; furthermore, different from deterministic regression models producing point estimates, VIR predicts the entire normal-inverse-gamma distributions and modulates the associated conjugate distributions to impose probabilistic reweighting on the imbalanced data, thereby providing better uncertainty estimation. いくつかの実世界のデータセットにおける実験では、virは精度と不確実性の両方の観点から、最先端の不均衡回帰モデルよりも優れています。 コードは、もうすぐ \url{https://github.com/Wang-ML-Lab/variational-imbalanced-regression}で利用可能になる。

Existing regression models tend to fall short in both accuracy and uncertainty estimation when the label distribution is imbalanced. In this paper, we propose a probabilistic deep learning model, dubbed variational imbalanced regression (VIR), which not only performs well in imbalanced regression but naturally produces reasonable uncertainty estimation as a byproduct. Different from typical variational autoencoders assuming I.I.D. representations (a data point's representation is not directly affected by other data points), our VIR borrows data with similar regression labels to compute the latent representation's variational distribution; furthermore, different from deterministic regression models producing point estimates, VIR predicts the entire normal-inverse-gamma distributions and modulates the associated conjugate distributions to impose probabilistic reweighting on the imbalanced data, thereby providing better uncertainty estimation. Experiments in several real-world datasets show that our VIR can outperform state-of-the-art imbalanced regression models in terms of both accuracy and uncertainty estimation. Code will soon be available at \url{https://github.com/Wang-ML-Lab/variational-imbalanced-regression}.
翻訳日:2023-10-14 15:11:14 公開日:2023-10-12
# PromptTTS 2: テキストプロンプトによる音声の記述と生成

PromptTTS 2: Describing and Generating Voices with Text Prompt ( http://arxiv.org/abs/2309.02285v2 )

ライセンス: Link先を確認
Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian(参考訳) 音声はテキストよりも多くの情報を伝達し、同じ単語を様々な声で発声して多様な情報を伝えることができる。 音声の可変性のために音声プロンプト(参照音声)に依存する従来のtts(text-to-speech)メソッドと比較して、テキストプロンプト(記述)の使用は、音声プロンプトを見つけるのが困難か全く存在しないか、ユーザフレンドリである。 テキストプロンプトに基づくTSアプローチは2つの大きな課題に直面している。 1)テキストプロンプトに音声の変動性に関するすべての詳細を記述できない一対一の問題がある。 2) テキストプロンプトデータセットが限られており、ベンダーと大量のデータラベリングが音声のテキストプロンプトを書くために必要となる。 本稿では,テキストプロンプトでキャプチャされていない音声の可変性情報を提供するために,これらの課題に対処するPromptTTS 2と,高品質なテキストプロンプトを構成するために大規模言語モデル(LLM)を利用するプロンプト生成パイプラインを導入する。 具体的には、前記テキストプロンプト表現に基づいて、前記参照音声から抽出した表現(音声可変性に関する全情報を含む)を予測する。 このプロンプト生成パイプラインでは、音声言語理解モデルを用いて音声のテキストプロンプトを生成し、音声から音声属性(例えば、性別、速度)を認識し、大言語モデルを用いて認識結果に基づいてテキストプロンプトを定式化する。 大規模(44K時間)の音声データセットの実験では、PromptTTS 2は以前の研究と比較すると、テキストプロンプトとより整合性のある音声を生成し、多様な音声のバラツキのサンプリングをサポートする。 さらに、プロンプト生成パイプラインは高品質なテキストプロンプトを生成し、大きなラベリングコストを削減します。 PromptTTS 2のデモページはオンラインで公開されている。

Speech conveys more information than text, as the same word can be uttered in various voices to convey diverse information. Compared to traditional text-to-speech (TTS) methods relying on speech prompts (reference speech) for voice variability, using text prompts (descriptions) is more user-friendly since speech prompts can be hard to find or may not exist at all. TTS approaches based on the text prompt face two main challenges: 1) the one-to-many problem, where not all details about voice variability can be described in the text prompt, and 2) the limited availability of text prompt datasets, where vendors and large cost of data labeling are required to write text prompts for speech. In this work, we introduce PromptTTS 2 to address these challenges with a variation network to provide variability information of voice not captured by text prompts, and a prompt generation pipeline to utilize the large language models (LLM) to compose high quality text prompts. Specifically, the variation network predicts the representation extracted from the reference speech (which contains full information about voice variability) based on the text prompt representation. For the prompt generation pipeline, it generates text prompts for speech with a speech language understanding model to recognize voice attributes (e.g., gender, speed) from speech and a large language model to formulate text prompts based on the recognition results. Experiments on a large-scale (44K hours) speech dataset demonstrate that compared to the previous works, PromptTTS 2 generates voices more consistent with text prompts and supports the sampling of diverse voice variability, thereby offering users more choices on voice generation. Additionally, the prompt generation pipeline produces high-quality text prompts, eliminating the large labeling cost. The demo page of PromptTTS 2 is available online.
翻訳日:2023-10-14 15:06:28 公開日:2023-10-12
# イベント中心の感情分析はどこにあるのか? ブリッジング感情ロールラベリングと評価に基づくアプローチ

Where are We in Event-centric Emotion Analysis? Bridging Emotion Role Labeling and Appraisal-based Approaches ( http://arxiv.org/abs/2309.02092v3 )

ライセンス: Link先を確認
Roman Klinger(参考訳) テキストにおける感情分析という用語は、コンピュータが感情を理解するための共通の目標を持つ様々な自然言語処理タスクを仮定する。 最も人気のある感情分類は、1つまたは複数の感情が予め定義されたテキスト単位に割り当てられる感情分類である。 このような設定は読者の感情や著者の感情を特定するのに適しているが、感情役割ラベル付けは言及された実体の視点を追加し、感情の原因に対応するテキストスパンを抽出する。 感情は内的または外部的な出来事によって引き起こされ、主観的感情や認知的評価を含むいくつかのサブコンポーネントから構成される。 したがって、感情と出来事は2つの方法で関連していると論じる。 1)感情は出来事であり,この視点は感情役割のラベル付けのための自然言語処理の基盤である。 2)感情は事象によって引き起こされるものであり,NLPモデルに心理的評価理論を組み込んで事象を解釈する方法が研究によって明らかにされている。 これら2つの研究方向、すなわちロールラベリングと(イベント中心の)感情分類は、個別に取り組まれている。 本稿では,両視点の文脈化とオープンな研究課題の議論を行う。

The term emotion analysis in text subsumes various natural language processing tasks which have in common the goal to enable computers to understand emotions. Most popular is emotion classification in which one or multiple emotions are assigned to a predefined textual unit. While such setting is appropriate for identifying the reader's or author's emotion, emotion role labeling adds the perspective of mentioned entities and extracts text spans that correspond to the emotion cause. The underlying emotion theories agree on one important point; that an emotion is caused by some internal or external event and comprises several subcomponents, including the subjective feeling and a cognitive evaluation. We therefore argue that emotions and events are related in two ways. (1) Emotions are events; and this perspective is the fundament in natural language processing for emotion role labeling. (2) Emotions are caused by events; a perspective that is made explicit with research how to incorporate psychological appraisal theories in NLP models to interpret events. These two research directions, role labeling and (event-focused) emotion classification, have by and large been tackled separately. In this paper, we contextualize both perspectives and discuss open research questions.
翻訳日:2023-10-14 15:05:52 公開日:2023-10-12
# Bengali Document Layout Analysis -- YOLOV8ベースの実装アプローチ

Bengali Document Layout Analysis -- A YOLOV8 Based Ensembling Approach ( http://arxiv.org/abs/2309.00848v2 )

ライセンス: Link先を確認
Nazmus Sakib Ahmed, Saad Sakib Noor, Ashraful Islam Shanto Sikder, Abhijit Paul(参考訳) 本稿では, YOLOv8モデルと革新的な後処理技術を用いて, Bengali Document Layout Analysis (DLA) の強化に着目する。 我々は、モデルロバストネスにデータ拡張を採用することで、複雑なBengaliスクリプトに特有の課題に取り組む。 精細な検証セットの評価を行った後、完全なデータセットに対するアプローチを微調整し、正確な要素セグメンテーションのための2段階の予測戦略を導いた。 我々のアンサンブルモデルと後処理の組み合わせは、BaDLADデータセットで特定された問題に対処しながら、個々のベースアーキテクチャよりも優れています。 このアプローチを活用することで,ベンガルの文書分析を推進し,OCRの改善と文書理解に寄与することを目指しており,BaDLADはこの取り組みの基盤として機能し,今後の研究を支援する。 さらに,新たな戦略を確立したソリューションに組み込む上で,実験は重要な洞察を与えました。

This paper focuses on enhancing Bengali Document Layout Analysis (DLA) using the YOLOv8 model and innovative post-processing techniques. We tackle challenges unique to the complex Bengali script by employing data augmentation for model robustness. After meticulous validation set evaluation, we fine-tune our approach on the complete dataset, leading to a two-stage prediction strategy for accurate element segmentation. Our ensemble model, combined with post-processing, outperforms individual base architectures, addressing issues identified in the BaDLAD dataset. By leveraging this approach, we aim to advance Bengali document analysis, contributing to improved OCR and document comprehension and BaDLAD serves as a foundational resource for this endeavor, aiding future research in the field. Furthermore, our experiments provided key insights to incorporate new strategies into the established solution.
翻訳日:2023-10-14 15:05:30 公開日:2023-10-12
# グラフベースマルチエージェント強化学習による協調的情報伝達の学習

Learning Collaborative Information Dissemination with Graph-based Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2308.16198v2 )

ライセンス: Link先を確認
Raffaele Galliera, Kristen Brent Venable, Matteo Bassani, Niranjan Suri(参考訳) 現代の通信システムでは、災害対応、自動運転車、センサネットワークといったドメイン間の重要な操作をサポートするために、効率的で信頼性の高い情報伝達が不可欠である。 本稿では,より分散化され,効率的で協調的なソリューションを実現するために,MARL(Multi-Agent Reinforcement Learning)アプローチを提案する。 本稿では,各エージェントにメッセージ転送を独立して決定させる情報伝達のための部分可観測確率ゲーム (posg) を提案する。 これは、MPR(Multi-Point Relay)の選択に基づく従来のヒューリスティックスから重要なパラダイムシフトを構成する。 このアプローチはグラフ畳み込み強化学習(graph convolutional reinforcement learning,gat)を活用し,本質的ネットワークの特徴を動的に捉える。 エージェント間で交換される情報が異なる L-DGN と HL-DGN の2つのアプローチを提案する。 我々は,広く普及しているmprヒューリスティックと比較することにより,分散化手法の性能を評価するとともに,mprセット選択プロセスをバイパスしながらネットワークを効率的にカバーできることを示す。 我々のアプローチは、学習された協調的な情報発信を通じて現実世界の放送通信インフラのレジリエンスを支援するための第一歩である。

In modern communication systems, efficient and reliable information dissemination is crucial for supporting critical operations across domains like disaster response, autonomous vehicles, and sensor networks. This paper introduces a Multi-Agent Reinforcement Learning (MARL) approach as a significant step forward in achieving more decentralized, efficient, and collaborative solutions. We propose a Partially Observable Stochastic Game (POSG) formulation for information dissemination empowering each agent to decide on message forwarding independently, based on their one-hop neighborhood. This constitutes a significant paradigm shift from traditional heuristics based on Multi-Point Relay (MPR) selection. Our approach harnesses Graph Convolutional Reinforcement Learning, employing Graph Attention Networks (GAT) with dynamic attention to capture essential network features. We propose two approaches, L-DGN and HL-DGN, which differ in the information that is exchanged among agents. We evaluate the performance of our decentralized approaches, by comparing them with a widely-used MPR heuristic, and we show that our trained policies are able to efficiently cover the network while bypassing the MPR set selection process. Our approach is a first step toward supporting the resilience of real-world broadcast communication infrastructures via learned, collaborative information dissemination.
翻訳日:2023-10-14 15:05:14 公開日:2023-10-12
# QKSAN:量子カーネル自己アテンションネットワーク

QKSAN: A Quantum Kernel Self-Attention Network ( http://arxiv.org/abs/2308.13422v2 )

ライセンス: Link先を確認
Ren-Xin Zhao and Jinjing Shi and Xuelong Li(参考訳) SAM(Self-Attention Mechanism)は、データの内部から重要な情報を蒸留することで、モデルの計算効率を向上させる。 それにもかかわらず、多くの量子機械学習(qml)モデルは、samのような情報の本質的な接続を区別する能力が欠けている。 上記の課題に対処するために、量子カーネル自己認識機構(QKSAM)を導入し、量子カーネル手法(QKM)のデータ表現特性とSAMの効率的な情報抽出能力を組み合わせた。 さらに,QKSAMに基づくQKSAN(Quantum Kernel Self-Attention Network)フレームワークを提案する。このフレームワークは,DMP(Dederred Measurement Principle)と条件測定技術を巧みに組み込んで,中間回路測定により量子資源の半分を放出し,実現可能性と適応性を促進させる。 同時に、指数的に大きな特徴空間を持つ量子カーネル自己注意スコア(QKSAS)が生成され、より多くの情報と測定条件が決定される。 最終的に、4つのQKSANサブモデルがPennyLaneとIBM Qiskitプラットフォーム上にデプロイされ、MNISTとFashion MNISTのバイナリ分類が行われ、QKSASテストとノイズ免疫と学習能力の相関評価が最高のパフォーマンスのサブモデル上で実行される。 パラマウントの実験的な発見は、従来の機械学習モデルよりもはるかに少ないパラメータで98.05%以上の精度を持つ部分的なqksanサブクラスにおいて、潜在的な学習上の優位性が明らかにされていることである。 予測上、qksanは将来の量子コンピュータが大量のデータで機械学習を実行し、量子コンピュータビジョンのような分野の進歩を推進する基盤を築いている。

Self-Attention Mechanism (SAM) excels at distilling important information from the interior of data to improve the computational efficiency of models. Nevertheless, many Quantum Machine Learning (QML) models lack the ability to distinguish the intrinsic connections of information like SAM, which limits their effectiveness on massive high-dimensional quantum data. To tackle the above issue, a Quantum Kernel Self-Attention Mechanism (QKSAM) is introduced to combine the data representation merit of Quantum Kernel Methods (QKM) with the efficient information extraction capability of SAM. Further, a Quantum Kernel Self-Attention Network (QKSAN) framework is proposed based on QKSAM, which ingeniously incorporates the Deferred Measurement Principle (DMP) and conditional measurement techniques to release half of quantum resources by mid-circuit measurement, thereby bolstering both feasibility and adaptability. Simultaneously, the Quantum Kernel Self-Attention Score (QKSAS) with an exponentially large characterization space is spawned to accommodate more information and determine the measurement conditions. Eventually, four QKSAN sub-models are deployed on PennyLane and IBM Qiskit platforms to perform binary classification on MNIST and Fashion MNIST, where the QKSAS tests and correlation assessments between noise immunity and learning ability are executed on the best-performing sub-model. The paramount experimental finding is that a potential learning advantage is revealed in partial QKSAN subclasses that acquire an impressive more than 98.05% high accuracy with very few parameters that are much less in aggregate than classical machine learning models. Predictably, QKSAN lays the foundation for future quantum computers to perform machine learning on massive amounts of data while driving advances in areas such as quantum computer vision.
翻訳日:2023-10-14 15:04:51 公開日:2023-10-12
# スパース深層ニューラルネットワークトレーニングのための多目的最適化

Multi-Objective Optimization for Sparse Deep Neural Network Training ( http://arxiv.org/abs/2308.12243v2 )

ライセンス: Link先を確認
S. S. Hotegni, S. Peitz, M. Berkemeier(参考訳) 異なる矛盾する最適化基準は、様々なディープラーニングシナリオで自然に発生する。 これらは、異なる主要なタスク(例えば、マルチタスク学習の設定)に対処できるだけでなく、損失最小化やスパーシリティといったメインタスクやセカンダリタスクにも対応できる。 通常のアプローチは、基準の単純な重み付けであり、正式には凸設定でのみ機能する。 本稿では,改良重み付きchebyshevスカラー化を用いた多目的最適化アルゴリズムを提案する。 このスカラー化手法を用いることで、アルゴリズムは元の問題の全ての最適解を識別し、その複雑さを単目的問題の列に還元する。 単純化された問題は、Augmented Lagrangian 法を用いて解決され、Adam や Stochastic Gradient Descent のような一般的な最適化手法を効果的に扱いながら利用できる。 我々の研究は、DNNモデルの(経済的かつ生態学的にも)持続可能性の問題に対処することを目的としており、特にDeep Multi-Taskモデルに焦点を当てている。 2つの機械学習データセットで実施された実験を通じて、ネットワーク重みにタスク固有の適応を適用したい場合、トレーニング中にモデルを適応的にスパース化する可能性を示す。 コードはhttps://github.com/salomonhotegni/MDMTNで入手できる。

Different conflicting optimization criteria arise naturally in various Deep Learning scenarios. These can address different main tasks (i.e., in the setting of Multi-Task Learning), but also main and secondary tasks such as loss minimization versus sparsity. The usual approach is a simple weighting of the criteria, which formally only works in the convex setting. In this paper, we present a Multi-Objective Optimization algorithm using a modified Weighted Chebyshev scalarization for training Deep Neural Networks (DNNs) with respect to several tasks. By employing this scalarization technique, the algorithm can identify all optimal solutions of the original problem while reducing its complexity to a sequence of single-objective problems. The simplified problems are then solved using an Augmented Lagrangian method, enabling the use of popular optimization techniques such as Adam and Stochastic Gradient Descent, while efficaciously handling constraints. Our work aims to address the (economical and also ecological) sustainability issue of DNN models, with a particular focus on Deep Multi-Task models, which are typically designed with a very large number of weights to perform equally well on multiple tasks. Through experiments conducted on two Machine Learning datasets, we demonstrate the possibility of adaptively sparsifying the model during training without significantly impacting its performance, if we are willing to apply task-specific adaptations to the network weights. Code is available at https://github.com/salomonhotegni/MDMTN.
翻訳日:2023-10-14 15:04:16 公開日:2023-10-12
# storybench: 継続的ストーリー可視化のための多面ベンチマーク

StoryBench: A Multifaceted Benchmark for Continuous Story Visualization ( http://arxiv.org/abs/2308.11606v2 )

ライセンス: Link先を確認
Emanuele Bugliarello, Hernan Moraldo, Ruben Villegas, Mohammad Babaeizadeh, Mohammad Taghi Saffar, Han Zhang, Dumitru Erhan, Vittorio Ferrari, Pieter-Jan Kindermans, Paul Voigtlaender(参考訳) テキストプロンプトからビデオストーリーを生成するのは複雑な作業です。 映像の品質の高さに加えて、ビデオはフレーム全体に一貫性を持ちながら、テキストプロンプトのシーケンスに現実的に固執する必要がある。 ビデオ生成のためのベンチマークを作成するには、時間とともに注釈付けされるデータが必要である。 このギャップを埋めるため、3つの既存のデータセットに包括的なヒューマンアノテーションを収集し、 storybench: 来るテキストからビデオモデルを確実に評価する、新しい挑戦的なマルチタスクベンチマークを紹介します。 私たちのベンチマークでは,難易度が高まる3つのビデオ生成タスク,つまり,次のアクションがコンディショニングビデオから生成されなければならないアクション実行,コンディショニングビデオから実行すべきアクションのシーケンスがコンディショニングビデオから実行されなければならないストーリー継続,テキストプロンプトのみからビデオを生成するストーリー生成の3つが含まれている。 従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小規模ながら強力に評価した。 最後に,映像の人的評価のためのガイドラインを確立し,映像生成のためのより良い自動メトリクスの必要性を再確認する。 StoryBenchは、このエキサイティングな新しい領域における将来の研究活動を促進することを目指している。

Generating video stories from text prompts is a complex task. In addition to having high visual quality, videos need to realistically adhere to a sequence of text prompts whilst being consistent throughout the frames. Creating a benchmark for video generation requires data annotated over time, which contrasts with the single caption used often in video datasets. To fill this gap, we collect comprehensive human annotations on three existing datasets, and introduce StoryBench: a new, challenging multi-task benchmark to reliably evaluate forthcoming text-to-video models. Our benchmark includes three video generation tasks of increasing difficulty: action execution, where the next action must be generated starting from a conditioning video; story continuation, where a sequence of actions must be executed starting from a conditioning video; and story generation, where a video must be generated from only text prompts. We evaluate small yet strong text-to-video baselines, and show the benefits of training on story-like data algorithmically generated from existing video captions. Finally, we establish guidelines for human evaluation of video stories, and reaffirm the need of better automatic metrics for video generation. StoryBench aims at encouraging future research efforts in this exciting new area.
翻訳日:2023-10-14 15:03:52 公開日:2023-10-12
# プライバシー保護型スパイクニューラルネットワークのための同型暗号化フレームワーク

A Homomorphic Encryption Framework for Privacy-Preserving Spiking Neural Networks ( http://arxiv.org/abs/2308.05636v2 )

ライセンス: Link先を確認
Farzad Nikfam, Raffaele Casaburi, Alberto Marchisio, Maurizio Martina and Muhammad Shafique(参考訳) 機械学習(ml)は現在、特にディープニューラルネットワーク(dnn)を通じて広く使われているが、計算負荷の増加とリソース要件がクラウドベースのソリューションにつながった。 この問題に対処するため、スパイキングニューラルネットワーク(SNN)と呼ばれる新しい世代のネットワークが登場し、人間の脳の振る舞いを模倣して効率を改善しエネルギー消費を減らす。 これらのネットワークはしばしば機密データなどの大量の機密情報を処理するため、プライバシー問題が発生する。 ホモモルフィック暗号化(HE)は、暗号データを復号することなく計算を実行できるソリューションを提供する。 本研究は,Brakerski/Fan-Vercauteren暗号方式を用いて従来のDNNとSNNを比較した。 広く使われている畳み込みアーキテクチャであるLeNet-5モデルは、LeNet-5アーキテクチャに基づいたDNNとSNNモデルの両方に使用され、ネットワークはFashionMNISTデータセットを使用してトレーニングされ、比較される。 以上の結果から,snsは平文モジュラスtの低値に対するdnnよりも最大40%高い精度を達成したが,複数の時間ステップを持つ時間符号化性により実行時間が長くなることがわかった。

Machine learning (ML) is widely used today, especially through deep neural networks (DNNs), however, increasing computational load and resource requirements have led to cloud-based solutions. To address this problem, a new generation of networks called Spiking Neural Networks (SNN) has emerged, which mimic the behavior of the human brain to improve efficiency and reduce energy consumption. These networks often process large amounts of sensitive information, such as confidential data, and thus privacy issues arise. Homomorphic encryption (HE) offers a solution, allowing calculations to be performed on encrypted data without decrypting it. This research compares traditional DNNs and SNNs using the Brakerski/Fan-Vercauteren (BFV) encryption scheme. The LeNet-5 model, a widely-used convolutional architecture, is used for both DNN and SNN models based on the LeNet-5 architecture, and the networks are trained and compared using the FashionMNIST dataset. The results show that SNNs using HE achieve up to 40% higher accuracy than DNNs for low values of the plaintext modulus t, although their execution time is longer due to their time-coding nature with multiple time-steps.
翻訳日:2023-10-14 15:03:28 公開日:2023-10-12
# ニューラルネットワークによる記憶 : 最悪のケースを超えて

Memorization with neural nets: going beyond the worst case ( http://arxiv.org/abs/2310.00327v2 )

ライセンス: Link先を確認
Sjoerd Dirksen and Patrick Finke and Martin Genzel(参考訳) 実際には、ディープニューラルネットワークはトレーニングデータを簡単に補間できることが多い。 この現象を理解するために、多くの研究はニューラルネットワークアーキテクチャの記憶容量を定量化することを目的としている。 しかし、実世界のデータでは、直感的に良性構造の存在を期待するので、補間は記憶能力よりも小さいネットワークサイズで既に発生している。 本稿では,インスタンス固有の視点を用いた補間について検討する。 2つのクラスを持つ固定有限データセットが与えられた場合、多項式時間で3層ニューラルネットワークを補間する確率の高い単純なランダム化アルゴリズムを導入する。 必要なパラメータ数は、2つのクラスの幾何学的性質とそれらの相互配列に関連付けられる。 その結果,サンプル数に依存しない保証が得られ,最悪の記憶能力限界を超えて移動することがわかった。 本研究では,非病理学的状況におけるアルゴリズムの有効性を広範囲な数値実験で示し,その知見を理論的結果に結びつける。

In practice, deep neural networks are often able to easily interpolate their training data. To understand this phenomenon, many works have aimed to quantify the memorization capacity of a neural network architecture: the largest number of points such that the architecture can interpolate any placement of these points with any assignment of labels. For real-world data, however, one intuitively expects the presence of a benign structure so that interpolation already occurs at a smaller network size than suggested by memorization capacity. In this paper, we investigate interpolation by adopting an instance-specific viewpoint. We introduce a simple randomized algorithm that, given a fixed finite dataset with two classes, with high probability constructs an interpolating three-layer neural network in polynomial time. The required number of parameters is linked to geometric properties of the two classes and their mutual arrangement. As a result, we obtain guarantees that are independent of the number of samples and hence move beyond worst-case memorization capacity bounds. We illustrate the effectiveness of the algorithm in non-pathological situations with extensive numerical experiments and link the insights back to the theoretical results.
翻訳日:2023-10-14 14:54:38 公開日:2023-10-12
# プライバシー保護とセキュアな地理空間人工知能基盤モデルの構築

Building Privacy-Preserving and Secure Geospatial Artificial Intelligence Foundation Models ( http://arxiv.org/abs/2309.17319v2 )

ライセンス: Link先を確認
Jinmeng Rao, Song Gao, Gengchen Mai, Krzysztof Janowicz(参考訳) 近年では、言語、視覚、マルチモーダルモデルなど、人工知能の基礎モデルが大幅に進歩しています。 近年,地理空間的人工知能(geoai foundation model)における基盤モデルの利用が,地理的質問応答,リモートセンシング画像理解,地図生成,位置情報ベースのサービスなどに与える影響が注目されている。 しかし、geoai foundationモデルの開発と応用は、現在まで十分に議論されていない、あるいは対処されていない重大なプライバシーとセキュリティのリスクをもたらす可能性がある。 本稿では,GeoAIファンデーションモデルのライフサイクルを通じての潜在的なプライバシとセキュリティリスクを紹介し,研究の方向性と予防・制御戦略の総合的青写真を提案する。 本稿では,地理空間分野の研究者と政策立案者の注意を,ジオアイ財団モデルに内在するプライバシとセキュリティリスクに惹きつけ,プライバシ保護とセキュアなジオアイ財団モデルの開発を提唱する。

In recent years we have seen substantial advances in foundation models for artificial intelligence, including language, vision, and multimodal models. Recent studies have highlighted the potential of using foundation models in geospatial artificial intelligence, known as GeoAI Foundation Models, for geographic question answering, remote sensing image understanding, map generation, and location-based services, among others. However, the development and application of GeoAI foundation models can pose serious privacy and security risks, which have not been fully discussed or addressed to date. This paper introduces the potential privacy and security risks throughout the lifecycle of GeoAI foundation models and proposes a comprehensive blueprint for research directions and preventative and control strategies. Through this vision paper, we hope to draw the attention of researchers and policymakers in geospatial domains to these privacy and security risks inherent in GeoAI foundation models and advocate for the development of privacy-preserving and secure GeoAI foundation models.
翻訳日:2023-10-14 14:54:21 公開日:2023-10-12
# 文書レベルの関係抽出に関する総合調査(2016-2023)

A Comprehensive Survey of Document-level Relation Extraction (2016-2023) ( http://arxiv.org/abs/2309.16396v3 )

ライセンス: Link先を確認
Julien Delaunay, Hanh Thi Hong Tran, Carlos-Emiliano Gonz\'alez-Gallardo, Georgeta Bordea, Nicolas Sidere, Antoine Doucet(参考訳) 文書レベル関係抽出 (docre) は自然言語処理 (nlp) における活発な研究分野であり、文の境界を越えたエンティティ間の関係を同定し抽出する。 従来の文レベルの関係抽出と比較して、DocREは分析のためのより広い文脈を提供しており、複数の文や段落にまたがる関係を識別するので、より難しい。 この課題は、エンティティ間の関係をよりよく理解するために、非構造化の大規模文書(科学論文、法律契約、ニュース記事など)から知識ベースを自動で構築し、蓄積するための実行可能なソリューションとして、関心が高まっている。 本稿では,この分野の最近の進歩を包括的に概観し,文レベルの関係抽出に比較して,その応用を強調する。

Document-level relation extraction (DocRE) is an active area of research in natural language processing (NLP) concerned with identifying and extracting relationships between entities beyond sentence boundaries. Compared to the more traditional sentence-level relation extraction, DocRE provides a broader context for analysis and is more challenging because it involves identifying relationships that may span multiple sentences or paragraphs. This task has gained increased interest as a viable solution to build and populate knowledge bases automatically from unstructured large-scale documents (e.g., scientific papers, legal contracts, or news articles), in order to have a better understanding of relationships between entities. This paper aims to provide a comprehensive overview of recent advances in this field, highlighting its different applications in comparison to sentence-level relation extraction.
翻訳日:2023-10-14 14:54:03 公開日:2023-10-12
# 有限スカラー量子化:vq-vaeがシンプルに

Finite Scalar Quantization: VQ-VAE Made Simple ( http://arxiv.org/abs/2309.15505v2 )

ライセンス: Link先を確認
Fabian Mentzer, David Minnen, Eirikur Agustsson, Michael Tschannen(参考訳) VQ-VAEの潜在表現におけるベクトル量子化(VQ)を、有限スカラー量子化(FSQ)と呼ばれる単純なスキームで置き換えることを提案する。 各次元は小さな固定値の集合に量子化され、これらの集合の積によって与えられる(単純)コードブックとなる。 それぞれの次元と値の数を適切に選択することにより、VQと同じコードブックサイズが得られる。 このような離散表現に加えて、vq-vae表現でトレーニングされたモデルと同じモデルをトレーニングできる。 例えば、画像生成、マルチモーダル生成、高密度予測コンピュータビジョンタスクのための自動回帰およびマスク付きトランスフォーマーモデルである。 具体的には,画像生成にはfsq,画像生成にはmaskgit,奥行き推定,カラー化,汎視セグメンテーションにuvimを用いる。 FSQのよりシンプルな設計にもかかわらず、これらのタスクの競合性能を得る。 我々は,fsqがコードブックの崩壊に苦しむことなく,vq(コミットロス,コードブックの再閲覧,コード分割,エントロピーペナルティなど)で使用される複雑な機械を必要としないことを強調する。

We propose to replace vector quantization (VQ) in the latent representation of VQ-VAEs with a simple scheme termed finite scalar quantization (FSQ), where we project the VAE representation down to a few dimensions (typically less than 10). Each dimension is quantized to a small set of fixed values, leading to an (implicit) codebook given by the product of these sets. By appropriately choosing the number of dimensions and values each dimension can take, we obtain the same codebook size as in VQ. On top of such discrete representations, we can train the same models that have been trained on VQ-VAE representations. For example, autoregressive and masked transformer models for image generation, multimodal generation, and dense prediction computer vision tasks. Concretely, we employ FSQ with MaskGIT for image generation, and with UViM for depth estimation, colorization, and panoptic segmentation. Despite the much simpler design of FSQ, we obtain competitive performance in all these tasks. We emphasize that FSQ does not suffer from codebook collapse and does not need the complex machinery employed in VQ (commitment losses, codebook reseeding, code splitting, entropy penalties, etc.) to learn expressive discrete representations.
翻訳日:2023-10-14 14:53:48 公開日:2023-10-12
# AceGPT, アラビア語における大規模言語モデル

AceGPT, Localizing Large Language Models in Arabic ( http://arxiv.org/abs/2309.12053v3 )

ライセンス: Link先を確認
Huang Huang, Fei Yu, Jianqing Zhu, Xuening Sun, Hao Cheng, Dingjie Song, Zhihong Chen, Abdulmohsen Alharthi, Bang An, Ziche Liu, Zhiyi Zhang, Junying Chen, Jianquan Li, Benyou Wang, Lian Zhang, Ruoyu Sun, Xiang Wan, Haizhou Li, Jinchao Xu(参考訳) 本稿では,現在主流のモデルでは不十分な文化的特徴を付与したアラビア語を特化して,局所的な大規模言語モデル (LLM) の開発に着目する。 文化的感受性と地域価値に対処する際、重要な懸念が浮かび上がる。 そこで本稿では,アラビア語テキストの事前学習,ネイティブアラビア語命令を用いた教師付き微調整(sft),アラビア語でのgpt-4応答,地域文化や価値観に応じた報酬モデルを用いたaiフィードバックによる強化学習(rlaif)などを含む包括的解法を提案する。 目標は、アラビア語話者コミュニティの多様なアプリケーション固有のニーズに適応できる、文化的に認識され、価値あるアラビア語のllmを育成することである。 総合的な評価によると、結果として得られたモデルは「AceGPT」と呼ばれ、命令追従ベンチマーク(アラビア語 Vicuna-80 と アラビア語 AlpacaEval)、知識ベンチマーク(アラビア語 MMLU と EXAMs)、新しく導入されたアラビア文化と価値アライメントベンチマークなど、様々なベンチマークで、オープンアラビア LLM の最先端標準を定めている。 特にacegptは、gpt-4で評価された場合の人気のあるvicuna-80ベンチマークでturboよりも優れている。 コード、データ、モデルはhttps://github.com/FreedomIntelligence/AceGPTにある。

This paper is devoted to the development of a localized Large Language Model (LLM) specifically for Arabic, a language imbued with unique cultural characteristics inadequately addressed by current mainstream models. Significant concerns emerge when addressing cultural sensitivity and local values. To address this, the paper proposes a comprehensive solution that includes further pre-training with Arabic texts, Supervised Fine-Tuning (SFT) utilizing native Arabic instructions, and GPT-4 responses in Arabic, alongside Reinforcement Learning with AI Feedback (RLAIF) employing a reward model attuned to local culture and values. The goal is to cultivate culturally cognizant and value-aligned Arabic LLMs capable of accommodating the diverse, application-specific needs of Arabic-speaking communities. Comprehensive evaluations reveal that the resulting model, dubbed 'AceGPT', sets the state-of-the-art standard for open Arabic LLMs across various benchmarks, including the instruction-following benchmark (i.e., Arabic Vicuna-80 and Arabic AlpacaEval), knowledge benchmark (i.e., Arabic MMLU and EXAMs), and the newly introduced Arabic Cultural and Value Alignment benchmark. Notably, AceGPT outperforms Turbo in the popular Vicuna-80 benchmark when evaluated with GPT-4, despite the benchmark's limited scale. Codes, data, and models are in https://github.com/FreedomIntelligence/AceGPT.
翻訳日:2023-10-14 14:53:26 公開日:2023-10-12
# MINT: ツールと言語フィードバックとのマルチターンインタラクションにおけるLLMの評価

MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback ( http://arxiv.org/abs/2309.10691v2 )

ライセンス: Link先を確認
Xingyao Wang, Zihan Wang, Jiateng Liu, Yangyi Chen, Lifan Yuan, Hao Peng, Heng Ji(参考訳) 複雑なタスクを解決するために、大規模な言語モデル(llm)は、しばしばユーザとの対話の複数のラウンドを必要とする。 しかしながら、現在の評価プロトコルは、ユーザ、LLM、外部ツール間のあいまいな相互作用を無視しながら、シングルターン交換によるベンチマーク性能を強調し、また、ユーザからの自然言語フィードバックの重要性を過小評価する。 これらの監視は、研究ベンチマーク評価と実世界のユースケースの相違に寄与する。 MINTは,(1)ツールと(2)自然言語フィードバックの活用による多ターンインタラクションによるタスク解決能力の評価を行うベンチマークである。 再現性を確保するため,LLMはPythonコードを実行し,GPT-4でシミュレートされたユーザの自然言語フィードバックを受け取ることで,ツールにアクセス可能な評価フレームワークを提供する。 我々は、推論、コーディング、意思決定に焦点をあてた様々な確立された評価データセットを再利用し、効率的な評価のためにそれらをコンパクトなサブセットに注意深くキュレーションする。 20のオープンソースおよびクローズドソース LLM の解析は興味深い結果をもたらす。 (a) LLMは一般的に、ツールと言語からのフィードバックの恩恵を受けており、ツールの使用ごとにパフォーマンスが1~8%、自然言語によるフィードバックが2~17%向上しています。 (b)シングルターン性能の向上は、マルチターン性能の向上を保証しない。 (c)LLMの評価では、教師あり指導ファインタニング(SIFT)と人間フィードバックからの強化学習(RLHF)が多ターン能力に悪影響を及ぼすことが多かった。 我々は、MINTが、マルチターンインタラクションにおけるLCMの能力向上の研究、特にマルチターンヒューマン評価がより少ないオープンソースコミュニティの進歩を計測し、インセンティブを高めることができると期待している。

To solve complex tasks, large language models (LLMs) often require multiple rounds of interactions with the user, sometimes assisted by external tools. However, current evaluation protocols often emphasize benchmark performance with single-turn exchanges, neglecting the nuanced interactions among the user, LLMs, and external tools, while also underestimating the importance of natural language feedback from users. These oversights contribute to discrepancies between research benchmark evaluations and real-world use cases. We introduce MINT, a benchmark that evaluates LLMs' ability to solve tasks with multi-turn interactions by (1) using tools and (2) leveraging natural language feedback. To ensure reproducibility, we provide an evaluation framework where LLMs can access tools by executing Python code and receive users' natural language feedback simulated by GPT-4. We repurpose a diverse set of established evaluation datasets focusing on reasoning, coding, and decision-making and carefully curate them into a compact subset for efficient evaluation. Our analysis of 20 open- and closed-source LLMs offers intriguing findings. (a) LLMs generally benefit from tools and language feedback, with performance gains (absolute, same below) of 1-8% for each turn of tool use and 2-17% with natural language feedback. (b) Better single-turn performance does not guarantee better multi-turn performance. (c) Surprisingly, on the LLMs evaluated, supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities. We expect MINT can help measure progress and incentivize research in improving LLMs' capabilities in multi-turn interactions, especially for open-source communities where multi-turn human evaluation can be less accessible compared to commercial LLMs with a larger user base.
翻訳日:2023-10-14 14:52:32 公開日:2023-10-12
# 正規化スパースロジスティック回帰について

On Regularized Sparse Logistic Regression ( http://arxiv.org/abs/2309.05925v2 )

ライセンス: Link先を確認
Mengyuan Zhang and Kai Liu(参考訳) スパースロジスティック回帰は分類と特徴選択を同時に行う。 $\ell_1$-正規化ロジスティック回帰を解くために多くの研究がなされているが、非凸正則化項によるスパースロジスティック回帰を解くための同等の作業は存在しない。 本稿では,特定の条件を満たす限り,非凸正規化項に自然に拡張可能な,$\ell_1$-regularized logistic regression を解くための統一フレームワークを提案する。 また,様々な正規化項に対する単調収束を保証するために,異なる線探索基準を用いる。 実世界のデータセットを用いた二項分類タスクの実験実験により,提案アルゴリズムはより少ない計算コストで効果的に分類と特徴選択を行うことができることを示した。

Sparse logistic regression is for classification and feature selection simultaneously. Although many studies have been done to solve $\ell_1$-regularized logistic regression, there is no equivalently abundant work on solving sparse logistic regression with nonconvex regularization term. In this paper, we propose a unified framework to solve $\ell_1$-regularized logistic regression, which can be naturally extended to nonconvex regularization term, as long as certain requirement is satisfied. In addition, we also utilize a different line search criteria to guarantee monotone convergence for various regularization terms. Empirical experiments on binary classification tasks with real-world datasets demonstrate our proposed algorithms are capable of performing classification and feature selection effectively at a lower computational cost.
翻訳日:2023-10-14 14:51:59 公開日:2023-10-12
# DePT:パラメータ効率の良い微調整のための分解プロンプトチューニング

DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning ( http://arxiv.org/abs/2309.05173v2 )

ライセンス: Link先を確認
Zhengxiang Shi, Aldo Lipani(参考訳) 言語モデル(lm)の入力に少量の訓練可能なソフト(連続)プロンプトベクトルが固定されるプロンプトチューニング(pt)は、パラメータ効率の良い微調整(peft)のための様々なタスクやモデルに対して有望な結果を示している。 PTは、トレーニング可能なパラメータが少なくて競合性能を保ち、モデルのサイズが拡大するにつれてパラメータを劇的にスケールアップしないため、他のPEFTアプローチと際立っている。 しかし、PTはソフトプロンプトトークンを導入し、入力シーケンスが長くなり、Transformerの2次複雑さによるトレーニングや推論時間、メモリ使用量に大きな影響を及ぼす。 特に大きな言語モデル(llm)では、日々の大量のクエリに直面する。 この問題に対処するために,ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された2つの低ランク行列に分解するDecomposed Prompt Tuning (DePT)を提案する。 これにより、トレーニング可能なパラメータサイズを変更することなく、バニラPTとその変種と比較して20%以上のメモリと時間コストを節約しながら、DePTのパフォーマンスが向上する。 23の自然言語処理(NLP)と視覚言語(VL)タスクに関する広範な実験を通じて、DePTはいくつかのシナリオにおいて完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示した。 さらに,モデルサイズが大きくなるにつれてdeptがより効率的になることを示す。 さらに,DePTは数ショットの学習環境においてパラメータ効率のよい伝達学習とシームレスに統合され,様々なモデルアーキテクチャやサイズへの適応性を強調している。

Prompt tuning (PT), where a small amount of trainable soft (continuous) prompt vectors is affixed to the input of language models (LM), has shown promising results across various tasks and models for parameter-efficient fine-tuning (PEFT). PT stands out from other PEFT approaches because it maintains competitive performance with fewer trainable parameters and does not drastically scale up its parameters as the model size expands. However, PT introduces additional soft prompt tokens, leading to longer input sequences, which significantly impacts training and inference time and memory usage due to the Transformer's quadratic complexity. Particularly concerning for Large Language Models (LLMs) that face heavy daily querying. To address this issue, we propose Decomposed Prompt Tuning (DePT), which decomposes the soft prompt into a shorter soft prompt and a pair of low-rank matrices that are then optimised with two different learning rates. This allows DePT to achieve better performance while saving over 20% memory and time costs compared to vanilla PT and its variants, without changing trainable parameter sizes. Through extensive experiments on 23 natural language processing (NLP) and vision-language (VL) tasks, we demonstrate that DePT outperforms state-of-the-art PEFT approaches, including the full fine-tuning baseline in some scenarios. Additionally, we empirically show that DEPT grows more efficient as the model size increases. Our further study reveals that DePT integrates seamlessly with parameter-efficient transfer learning in the few-shot learning setting and highlights its adaptability to various model architectures and sizes.
翻訳日:2023-10-14 14:51:45 公開日:2023-10-12
# モンテカルロ対実レギュレット最小化

Pure Monte Carlo Counterfactual Regret Minimization ( http://arxiv.org/abs/2309.03084v2 )

ライセンス: Link先を確認
Ju Qi, Ting Feng, Falun Hei, Zhemei Fang, Yunfeng Luo(参考訳) 対実回帰最小化(CFR)とその変種は、大規模な不完全情報ゲームの解決に最適なアルゴリズムである。 しかし、CFRには2つの問題があると我々は信じている。まず、行列乗算はCFRイテレーションで必要であり、1つのイテレーションの時間的複雑さは高すぎる。 1つのCFRアルゴリズムを使用するだけでは、すべてのゲーム問題に完全に適合しない。 これら2つの問題に対して,CFRに基づくPure CFR(PCFR)と呼ばれる新しいアルゴリズムを提案する。 PCFR は CFR と Fictitious Play (FP) の組み合わせと見なすことができ、CFR から反実的後悔 (value) の概念を継承し、次のイテレーションの後悔マッチング戦略の代わりに最良の反応戦略を使用する。 このアルゴリズムには3つの利点がある。 まず、PCFRは任意のCFR変種と組み合わせることができる。 その結果、PMCCFR(Pure MCCFR)は、1イテレーションの時間と空間の複雑さを著しく減少させる。 第2に,PMCCFRの収束速度がMCCFRの2$\sim$3であることを示す。 最後に、pcfrに非常に適したゲームがあるので、このタイプのゲームクリアゲームと呼び、支配的な戦略の比率が高いのが特徴である。 実験の結果,PMCCFRの収束速度はMCCFRよりも2桁高いことがわかった。

Counterfactual Regret Minimization (CFR) and its variants are the best algorithms so far for solving large-scale incomplete information games. However, we believe that there are two problems with CFR: First, matrix multiplication is required in CFR iteration, and the time complexity of one iteration is too high; Secondly, the game characteristics in the real world are different. Just using one CFR algorithm will not be perfectly suitable for all game problems. For these two problems, this paper proposes a new algorithm called Pure CFR (PCFR) based on CFR. PCFR can be seen as a combination of CFR and Fictitious Play (FP), inheriting the concept of counterfactual regret (value) from CFR, and using the best response strategy instead of the regret matching strategy for the next iteration. This algorithm has three advantages. First, PCFR can be combined with any CFR variant. The resulting Pure MCCFR (PMCCFR) can significantly reduce the time and space complexity of one iteration. Secondly, our experiments show that the convergence speed of the PMCCFR is 2$\sim$3 times that of the MCCFR. Finally, there is a type of game that is very suitable for PCFR, we call this type of game clear-game, which is characterized by a high proportion of dominated strategies. Experiments show that in clear-game, the convergence rate of PMCCFR is two orders of magnitude higher than that of MCCFR.
翻訳日:2023-10-14 14:51:14 公開日:2023-10-12
# マルチモデル深層学習を用いた胸部X線自動生成装置

Automated Chest X-Ray Report Generator Using Multi-Model Deep Learning Approach ( http://arxiv.org/abs/2310.05969v2 )

ライセンス: Link先を確認
Arief Purnama Muharram, Hollyana Puteri Haryono, Abassi Haji Juma, Ira Puspasari and Nugraha Priya Utama(参考訳) 胸部X線画像の読みと解釈は、最も放射線技師のルーチンの1つである。 しかし、最も経験豊富な人でさえ、まだ挑戦的です。 そこで我々は,放射線科医の作業を支援するために,多モデル深層学習に基づく胸部x線レポート生成システムを提案する。 提案システムの基本的考え方は,複数の2値分類モデルを用いて複数の異常を検出し,各モデルが1つの異常を1つの画像で検出する。 本研究では,心電図異常の検出を心電図,肺液流,結束のみに限定した。 本システムは,画像前処理,深層学習モデルを用いた異常検出,レポート作成という3つのステップによって放射線学レポートを生成する。 画像前処理ステップの目的は、入力を128×128ピクセルに拡大し、肺の上、下、中の部分をカバーする3つのセグメントにスライスすることで標準化することである。 前処理後、各モデルが画像の分類を行い、異常が検出されない0(ゼロ)と異常が検出された場合1(1)となる。 次に、各モデルの予測出力を連結して'result code'を形成する。 レポート生成ステップにおいて、検出された異常ごとに適切な事前決定文を選択することで、レポートを構成するために「結果コード」を用いる。 胸部X線診断の精度を高めるため, 放射線科医の作業量を削減することを目的とする。

Reading and interpreting chest X-ray images is one of the most radiologist's routines. However, it still can be challenging, even for the most experienced ones. Therefore, we proposed a multi-model deep learning-based automated chest X-ray report generator system designed to assist radiologists in their work. The basic idea of the proposed system is by utilizing multi binary-classification models for detecting multi abnormalities, with each model responsible for detecting one abnormality, in a single image. In this study, we limited the radiology abnormalities detection to only cardiomegaly, lung effusion, and consolidation. The system generates a radiology report by performing the following three steps: image pre-processing, utilizing deep learning models to detect abnormalities, and producing a report. The aim of the image pre-processing step is to standardize the input by scaling it to 128x128 pixels and slicing it into three segments, which covers the upper, lower, and middle parts of the lung. After pre-processing, each corresponding model classifies the image, resulting in a 0 (zero) for no abnormality detected and a 1 (one) for the presence of an abnormality. The prediction outputs of each model are then concatenated to form a 'result code'. The 'result code' is used to construct a report by selecting the appropriate pre-determined sentence for each detected abnormality in the report generation step. The proposed system is expected to reduce the workload of radiologists and increase the accuracy of chest X-ray diagnosis.
翻訳日:2023-10-14 14:46:06 公開日:2023-10-12
# 雑音の摂動を伴う効果的なスローガン生成

Effective Slogan Generation with Noise Perturbation ( http://arxiv.org/abs/2310.04472v2 )

ライセンス: Link先を確認
Jongeun Kim, MinChung Kim, Taehwan Kim(参考訳) スローガンはブランドの会社のアイデンティティを構築する上で重要な役割を果たす。 スローガンは、企業のビジョンとブランドの価値提案を記憶可能で類似した形で反映することが期待される。 このような特徴を持つスローガン生成の自動化は困難である。 従来の研究では, 特異なスローガンを生成できない構文制御モデルと要約モデルを用いて, スローガン生成の開発と試験を行った。 新たに提案した1:Nマッチングペアデータセットに対して,雑音摂動を伴う事前学習型トランスフォーマーT5モデルを活用する。 このアプローチは、特異でコヒーレントなスローガンの生成に寄与する要因となる。 さらに、提案手法は、企業とブランドに関する記述をスローガンの世代に組み込む。 ROUGE1, ROUGEL, Cosine similarity測定値に基づいて生成したスローガンを評価し, スローガンの特異性, コヒーレンス, 流布度の観点から人体で評価した。 その結果,本手法はベースラインモデルやトランスフォーマーモデルよりも優れた性能が得られることがわかった。

Slogans play a crucial role in building the brand's identity of the firm. A slogan is expected to reflect firm's vision and brand's value propositions in memorable and likeable ways. Automating the generation of slogans with such characteristics is challenging. Previous studies developted and tested slogan generation with syntactic control and summarization models which are not capable of generating distinctive slogans. We introduce a a novel apporach that leverages pre-trained transformer T5 model with noise perturbation on newly proposed 1:N matching pair dataset. This approach serves as a contributing fator in generting distinctive and coherent slogans. Turthermore, the proposed approach incorporates descriptions about the firm and brand into the generation of slogans. We evaluate generated slogans based on ROUGE1, ROUGEL and Cosine Similarity metrics and also assess them with human subjects in terms of slogan's distinctiveness, coherence, and fluency. The results demonstrate that our approach yields better performance than baseline models and other transformer-based models.
翻訳日:2023-10-14 14:44:51 公開日:2023-10-12
# 一様サンプリングを超えて:不均衡データセットによるオフライン強化学習

Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets ( http://arxiv.org/abs/2310.04413v2 )

ライセンス: Link先を確認
Zhang-Wei Hong, Aviral Kumar, Sathwik Karnik, Abhishek Bhandwaldar, Akash Srivastava, Joni Pajarinen, Romain Laroche, Abhishek Gupta, Pulkit Agrawal(参考訳) オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集することなく意思決定ポリシーを学習することを目的としている。 行動クローニングのような教師付き学習技術の代わりに強化学習(RL)を使う主な動機は、データセットを構成する軌道よりも高い平均回帰を達成するポリシーを見つけることである。 しかし、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されない。 これは、現在のオフラインRLアルゴリズムがデータセットの軌道に近い位置にあるという仮定によるものであると我々は主張する。 データセットが主に最適下軌道で構成されている場合、この仮定は、最適下行動の模倣をポリシーに強制する。 我々は、データセットのすべてのアクション(すなわち、一様サンプリング)ではなく、ポリシーを「良いデータ」にのみ制約できるサンプリング戦略を提案することで、この問題を克服する。 本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。 評価の結果,72個の不均衡データセット,D4RLデータセット,および3種類のオフラインRLアルゴリズムにおいて,大幅な性能向上を示した。 コードはhttps://github.com/Improbable-AI/dw-offline-rlで入手できる。

Offline policy learning is aimed at learning decision-making policies using existing datasets of trajectories without collecting additional data. The primary motivation for using reinforcement learning (RL) instead of supervised learning techniques such as behavior cloning is to find a policy that achieves a higher average return than the trajectories constituting the dataset. However, we empirically find that when a dataset is dominated by suboptimal trajectories, state-of-the-art offline RL algorithms do not substantially improve over the average return of trajectories in the dataset. We argue this is due to an assumption made by current offline RL algorithms of staying close to the trajectories in the dataset. If the dataset primarily consists of sub-optimal trajectories, this assumption forces the policy to mimic the suboptimal actions. We overcome this issue by proposing a sampling strategy that enables the policy to only be constrained to ``good data" rather than all actions in the dataset (i.e., uniform sampling). We present a realization of the sampling strategy and an algorithm that can be used as a plug-and-play module in standard offline RL algorithms. Our evaluation demonstrates significant performance gains in 72 imbalanced datasets, D4RL dataset, and across three different offline RL algorithms. Code is available at https://github.com/Improbable-AI/dw-offline-rl.
翻訳日:2023-10-14 14:44:17 公開日:2023-10-12
# スパイキングニューラルネットワークの効果的なトレーニングのためのスパイク累積フォワード

Spike Accumulation Forwarding for Effective Training of Spiking Neural Networks ( http://arxiv.org/abs/2310.02772v2 )

ライセンス: Link先を確認
Ryuji Saiin, Tomoya Shirakawa, Sota Yoshihara, Yoshihide Sawada and Hiroyuki Kusumoto(参考訳) 本稿では、スパイキングニューラルネットワーク(SNN)、スパイク累積フォワード(SAF)をトレーニングするための新しいパラダイムを提案する。 SNNはエネルギー効率が高いが、訓練が難しいことが知られている。 その結果、多くの研究者がこの問題を解決するための様々な方法を提案しており、そのうちの1つは、時間によるオンライントレーニング(OTTT)が、メモリコストを抑えながら各ステップで推論できる方法である。 しかし、GPU上で効率よく計算するためには、OTTTはスパイク列車とフォワード中のスパイク列車の重み付け総和で操作する必要がある。 加えて、otttはスパイク表現との理論的一致が証明されていないが、代替訓練法であるスパイク表現との関係を示した。 提案手法は,SAFが前処理中の操作数を半減し,SAFがSpike RepresentationとOTTTと整合性があることを理論的に証明できる。 さらに,上記の内容を実験により確認し,精度を維持しつつ記憶時間とトレーニング時間を短縮できることを示した。

In this article, we propose a new paradigm for training spiking neural networks (SNNs), spike accumulation forwarding (SAF). It is known that SNNs are energy-efficient but difficult to train. Consequently, many researchers have proposed various methods to solve this problem, among which online training through time (OTTT) is a method that allows inferring at each time step while suppressing the memory cost. However, to compute efficiently on GPUs, OTTT requires operations with spike trains and weighted summation of spike trains during forwarding. In addition, OTTT has shown a relationship with the Spike Representation, an alternative training method, though theoretical agreement with Spike Representation has yet to be proven. Our proposed method can solve these problems; namely, SAF can halve the number of operations during the forward process, and it can be theoretically proven that SAF is consistent with the Spike Representation and OTTT, respectively. Furthermore, we confirmed the above contents through experiments and showed that it is possible to reduce memory and training time while maintaining accuracy.
翻訳日:2023-10-14 14:43:50 公開日:2023-10-12
# ブロックワイズ変換器を用いた近無限文脈におけるリング注意

Ring Attention with Blockwise Transformers for Near-Infinite Context ( http://arxiv.org/abs/2310.01889v3 )

ライセンス: Link先を確認
Hao Liu, Matei Zaharia, Pieter Abbeel(参考訳) トランスフォーマーは多くの最先端AIモデルのアーキテクチャとして登場し、幅広いAIアプリケーションで例外的なパフォーマンスを示している。 しかし、Transformerが要求するメモリ要求は、長いシーケンスを扱う能力を制限するため、拡張シーケンスや長期依存関係を含むタスクの課題が生じる。 本稿では,キー・バリュー・ブロックの通信をブロック・アテンションの計算と重ね合わせながら,複数のデバイスに長いシーケンスを分散するために自己アテンションをブロック単位で計算するリング・アテンションを提案する。 リング注意(Ring Attention)は、デバイスカウントまでのシーケンスのトレーニングと推論を可能にし、個々のデバイスによって課されるメモリ制約を効果的に排除する。 言語モデリングタスクに関する広範な実験は、大きなシーケンス入力サイズとパフォーマンスの向上を可能にするリングアテンションの有効性を示している。

Transformers have emerged as the architecture of choice for many state-of-the-art AI models, showcasing exceptional performance across a wide range of AI applications. However, the memory demands imposed by Transformers limit their ability to handle long sequences, thereby creating challenges for tasks involving extended sequences or long-term dependencies. We present a distinct approach, Ring Attention, which leverages blockwise computation of self-attention to distribute long sequences across multiple devices while overlapping the communication of key-value blocks with the computation of blockwise attention. Ring Attention enables training and inference of sequences that are up to device count times longer than those of prior memory-efficient Transformers, effectively eliminating the memory constraints imposed by individual devices. Extensive experiments on language modeling tasks demonstrate the effectiveness of Ring Attention in allowing large sequence input size and improving performance.
翻訳日:2023-10-14 14:43:18 公開日:2023-10-12
# genai against humanity: 生成型人工知能と大規模言語モデルの有害な応用

GenAI Against Humanity: Nefarious Applications of Generative Artificial Intelligence and Large Language Models ( http://arxiv.org/abs/2310.00737v2 )

ライセンス: Link先を確認
Emilio Ferrara(参考訳) Generative Artificial Intelligence(GenAI)とLarge Language Models(LLMs)は素晴らしい技術であり、自然言語処理とマルチモーダルコンテンツ生成に長けており、変革的な未来を約束している。 しかし、すべての強力なツールと同様に、影が付いてくる。 ディープフェイクが現実と区別できない世界では、合成アイデンティティーが悪意あるキャンペーンを組織し、標的となる偽情報や詐欺が非類似の精度で制作される。 GenAIアプリケーションのより暗い側にようこそ。 この記事は、GenAIとLLMの潜在的な誤用の危険を乗り越える旅であるだけでなく、今後の課題の緊急性を認識するための呼びかけでもある。 偽情報キャンペーン、悪意のあるコンテンツ生成、高度なマルウェアの発見の海を旅する中で、私たちが目にしているGenAI革命の社会的影響を明らかにする。 ソーシャルメディアプラットフォーム上のAIによるボットネットから、AIの絶望的なポテンシャルから、製造されたアイデンティティや合成現実で作られたアリバイまで、その利害関係はかつてないほど高くなっていた。 仮想世界と現実世界の境界線はぼやけており、GenAIの悪名高いアプリケーションの結果が私たち全員に影響を与えています。 本稿は、GenAIのリスクとLLMの誤用に関する厳密な研究の合成と、近い将来遭遇する可能性のある有害なGenAIのさまざまなタイプのビジョンと、それに対応するためのいくつかの方法として機能する。

Generative Artificial Intelligence (GenAI) and Large Language Models (LLMs) are marvels of technology; celebrated for their prowess in natural language processing and multimodal content generation, they promise a transformative future. But as with all powerful tools, they come with their shadows. Picture living in a world where deepfakes are indistinguishable from reality, where synthetic identities orchestrate malicious campaigns, and where targeted misinformation or scams are crafted with unparalleled precision. Welcome to the darker side of GenAI applications. This article is not just a journey through the meanders of potential misuse of GenAI and LLMs, but also a call to recognize the urgency of the challenges ahead. As we navigate the seas of misinformation campaigns, malicious content generation, and the eerie creation of sophisticated malware, we'll uncover the societal implications that ripple through the GenAI revolution we are witnessing. From AI-powered botnets on social media platforms to the unnerving potential of AI to generate fabricated identities, or alibis made of synthetic realities, the stakes have never been higher. The lines between the virtual and the real worlds are blurring, and the consequences of potential GenAI's nefarious applications impact us all. This article serves both as a synthesis of rigorous research presented on the risks of GenAI and misuse of LLMs and as a thought-provoking vision of the different types of harmful GenAI applications we might encounter in the near future, and some ways we can prepare for them.
翻訳日:2023-10-14 14:42:53 公開日:2023-10-12
# LEGO-Prover: ライブラリを成長させるニューラルネットワーク理論

LEGO-Prover: Neural Theorem Proving with Growing Libraries ( http://arxiv.org/abs/2310.00656v2 )

ライセンス: Link先を確認
Huajian Xin, Haiming Wang, Chuanyang Zheng, Lin Li, Zhengying Liu, Qingxing Cao, Yinya Huang, Jing Xiong, Han Shi, Enze Xie, Jian Yin, Zhenguo Li, Xiaodan Liang, Heng Liao(参考訳) 大規模言語モデル(llm)の成功にもかかわらず、定理証明のタスクは、まだ完全には解決されていない最も難しい推論タスクの1つである。 言語モデルを用いた以前の手法は有望な結果を示しているが、中学レベルの定理を証明するのに苦労している。 これらの方法の一般的な制限の1つは、定理証明過程全体において固定定理ライブラリを仮定することである。 しかし、誰もが知っているように、新しい有用な定理や新しい理論を作ることは、数学を進歩させ、より強くより深い結果を証明するのに有用であるだけでなく、必要不可欠である。 本稿では,証明された補題を含むスキルライブラリを,定理証明に使用されるLLMの能力を高めるためのスキルとして活用するLEGO-Proverを提案する。 LEGO-Proverは、証明をモジュール的に構築することにより、ライブラリから取得した既存のスキルを活用し、証明プロセス中に新しいスキルを作成することができる。 これらのスキルはさらに進化し(llmを促すことによって)、別のスケールでライブラリを豊かにします。 モジュール性と再利用可能なスキルがライブラリに絶えず追加され、複雑な数学的問題に取り組むことができる。 さらに、学習ライブラリは、人間の証明と形式的証明のギャップをさらに橋渡しし、欠落したステップを挿入しやすくする。 LEGO-Proverは、MiniF2F-valid(48.0%から57.0%)とMiniF2F-test(45.5%から47.1%)の最先端パスレートを推し進めている。 証明プロセスの間、lego-proverは20,000以上のスキル(理論/補題)を生成し、成長中のライブラリに追加する。 我々のアブレーション研究は、これらの新たなスキルが定理の証明に役立つことを示唆し、47.1%から50.4%に改善した。 コードと生成されたすべてのスキルもリリースします。

Despite the success of large language models (LLMs), the task of theorem proving still remains one of the hardest reasoning tasks that is far from being fully solved. Prior methods using language models have demonstrated promising results, but they still struggle to prove even middle school level theorems. One common limitation of these methods is that they assume a fixed theorem library during the whole theorem proving process. However, as we all know, creating new useful theorems or even new theories is not only helpful but crucial and necessary for advancing mathematics and proving harder and deeper results. In this work, we present LEGO-Prover, which employs a growing skill library containing verified lemmas as skills to augment the capability of LLMs used in theorem proving. By constructing the proof modularly, LEGO-Prover enables LLMs to utilize existing skills retrieved from the library and to create new skills during the proving process. These skills are further evolved (by prompting an LLM) to enrich the library on another scale. Modular and reusable skills are constantly added to the library to enable tackling increasingly intricate mathematical problems. Moreover, the learned library further bridges the gap between human proofs and formal proofs by making it easier to impute missing steps. LEGO-Prover advances the state-of-the-art pass rate on miniF2F-valid (48.0% to 57.0%) and miniF2F-test (45.5% to 47.1%). During the proving process, LEGO-Prover also manages to generate over 20,000 skills (theorems/lemmas) and adds them to the growing library. Our ablation study indicates that these newly added skills are indeed helpful for proving theorems, resulting in an improvement from a success rate of 47.1% to 50.4%. We also release our code and all the generated skills.
翻訳日:2023-10-14 14:42:24 公開日:2023-10-12
# CleftGAN: 口唇の変形を捉えた画像を作成するために、スタイルベースで生成する敵対的ネットワークを適応

CleftGAN: Adapting A Style-Based Generative Adversarial Network To Create Images Depicting Cleft Lip Deformity ( http://arxiv.org/abs/2310.07969v1 )

ライセンス: Link先を確認
Abdullah Hayajneh and Erchin Serpedin and Mohammad Shaqfeh and Graeme Glass and Mitchell A. Stotland(参考訳) 顔の裂け目を評価するために機械学習システムを訓練しようとする際の大きな障害は、高品質で倫理的に承認された患者画像のデータセットが不足していることである。 そこで我々は,多彩な口唇の高忠実度ファクシミリを呈するほぼ無限の人工画像を生成するように設計された深層学習型口唇生成装置を開発した。 ベースモデルとして,様々なバージョンのstylegan-ada(adaptive data augmentation(ada)を組み込んだ生成型adversarial network image generator)をテストした。 回転, スケーリング, 色調整, 背景のぼやきを調節するために, 様々な裂き目の画像の訓練を前処理した。 一次アルゴリズムのADA修正により、比較的少数の訓練画像の入力を必要としながら、新しい生成モデルの構築が可能となった。 健常者70,000名を対象に, 口蓋裂症例の正面写真514枚を用いて, 対人訓練を行った。 frechetインセプション距離(frechet inception distance, fid)は、新たに生成された顔画像と裂孔訓練データセットの類似度を測定し、知覚経路長(ppl)と新たな重心的ヒストグラムの発散指標(dish)を用いて、cleftganをダビングした画像生成器の性能評価を行った。 その結果,StyleGAN3は翻訳不変性(StyleGAN3-t)を基本モデルとして最適に動作した。 生成した画像は、実画像のトレーニング入力データセットと近い類似性を反映した低FIDを達成した。 低pplと食感尺度はそれぞれ、伝達学習過程を通じて画像の滑らかで意味的に有効な補間と、訓練画像と生成画像の重大度分布をそれぞれ反映する。

A major obstacle when attempting to train a machine learning system to evaluate facial clefts is the scarcity of large datasets of high-quality, ethics board-approved patient images. In response, we have built a deep learning-based cleft lip generator designed to produce an almost unlimited number of artificial images exhibiting high-fidelity facsimiles of cleft lip with wide variation. We undertook a transfer learning protocol testing different versions of StyleGAN-ADA (a generative adversarial network image generator incorporating adaptive data augmentation (ADA)) as the base model. Training images depicting a variety of cleft deformities were pre-processed to adjust for rotation, scaling, color adjustment and background blurring. The ADA modification of the primary algorithm permitted construction of our new generative model while requiring input of a relatively small number of training images. Adversarial training was carried out using 514 unique frontal photographs of cleft-affected faces to adapt a pre-trained model based on 70,000 normal faces. The Frechet Inception Distance (FID) was used to measure the similarity of the newly generated facial images to the cleft training dataset, while Perceptual Path Length (PPL) and the novel Divergence Index of Severity Histograms (DISH) measures were also used to assess the performance of the image generator that we dub CleftGAN. We found that StyleGAN3 with translation invariance (StyleGAN3-t) performed optimally as a base model. Generated images achieved a low FID reflecting a close similarity to our training input dataset of genuine cleft images. Low PPL and DISH measures reflected a smooth and semantically valid interpolation of images through the transfer learning process and a similar distribution of severity in the training and generated images, respectively.
翻訳日:2023-10-14 13:34:24 公開日:2023-10-12
# 情報分解による解釈可能な拡散

Interpretable Diffusion via Information Decomposition ( http://arxiv.org/abs/2310.07972v1 )

ライセンス: Link先を確認
Xianghao Kong, Ollie Liu, Han Li, Dani Yogatama, Greg Ver Steeg(参考訳) 雑音拡散モデルは、画像やテキストのような複雑な関係の条件付き生成と密度モデルを可能にする。 しかし、学習された関係の性質は不透明であるため、どの単語と画像の部分の関係が捉えられるのかを正確に理解したり、介入の効果を予測することは困難である。 拡散モデルによって得られた細粒度関係を,拡散と情報分解の正確な関係に気付き,照らし出す。 具体的相互情報表現と条件付き相互情報表現は、デノナイジングモデルを用いて記述することができる。 さらに、ポイントワイズ推定も容易に見積もることができ、特定の画像とキャプションの関係について質問することができる。 さらに情報を分解して、高次元空間のどの変数が情報を運ぶかを理解することは、長年にわたる問題である。 拡散モデルでは、相互情報の自然な非負分解が出現し、画像中の単語と画素間の情報的関係を定量化できることを示す。 これらの新しい関係を利用して拡散モデルの構成的理解を計測し,画像中の物体の教師なし局在を計測し,迅速な介入により画像の選択的編集を行う際の効果を計測する。

Denoising diffusion models enable conditional generation and density modeling of complex relationships like images and text. However, the nature of the learned relationships is opaque making it difficult to understand precisely what relationships between words and parts of an image are captured, or to predict the effect of an intervention. We illuminate the fine-grained relationships learned by diffusion models by noticing a precise relationship between diffusion and information decomposition. Exact expressions for mutual information and conditional mutual information can be written in terms of the denoising model. Furthermore, pointwise estimates can be easily estimated as well, allowing us to ask questions about the relationships between specific images and captions. Decomposing information even further to understand which variables in a high-dimensional space carry information is a long-standing problem. For diffusion models, we show that a natural non-negative decomposition of mutual information emerges, allowing us to quantify informative relationships between words and pixels in an image. We exploit these new relations to measure the compositional understanding of diffusion models, to do unsupervised localization of objects in images, and to measure effects when selectively editing images through prompt interventions.
翻訳日:2023-10-14 13:24:20 公開日:2023-10-12
# 代理最適化のためのハイパーパラメータ適応探索:自己調整手法

Hyperparameter Adaptive Search for Surrogate Optimization: A Self-Adjusting Approach ( http://arxiv.org/abs/2310.07970v1 )

ライセンス: Link先を確認
Nazanin Nezami and Hadis Anahideh(参考訳) surrogate optimization (so)アルゴリズムは高価なブラックボックス関数を最適化することを約束している。 しかし、それらの性能はサンプリングやサロゲートフィッティングに関連するハイパーパラメータの影響を強く受けており、広く採用される上で課題となっている。 本稿では,様々なSOアルゴリズムに対するハイパーパラメータの影響を調査し,HASSO(Hyperparameter Adaptive Search for SO)アプローチを提案する。 HASSOはハイパーパラメータチューニングアルゴリズムではなく、自分自身のハイパーパラメータを動的に調整し、同時に主目的関数を最適化する汎用自己調整SOアルゴリズムである。 本研究の目的は,SOアルゴリズムのアクセシビリティ,有効性,収束速度を改善することである。 提案手法は,各問題に固有の最も影響力のあるハイパーパラメータを特定し,修正することで,計算負荷を大幅に増加させることなく,手動チューニングの必要性を低減できる。 実験の結果,グローバル最適化テストにおける様々なsoアルゴリズムの性能向上にhassoの有効性が示された。

Surrogate Optimization (SO) algorithms have shown promise for optimizing expensive black-box functions. However, their performance is heavily influenced by hyperparameters related to sampling and surrogate fitting, which poses a challenge to their widespread adoption. We investigate the impact of hyperparameters on various SO algorithms and propose a Hyperparameter Adaptive Search for SO (HASSO) approach. HASSO is not a hyperparameter tuning algorithm, but a generic self-adjusting SO algorithm that dynamically tunes its own hyperparameters while concurrently optimizing the primary objective function, without requiring additional evaluations. The aim is to improve the accessibility, effectiveness, and convergence speed of SO algorithms for practitioners. Our approach identifies and modifies the most influential hyperparameters specific to each problem and SO approach, reducing the need for manual tuning without significantly increasing the computational burden. Experimental results demonstrate the effectiveness of HASSO in enhancing the performance of various SO algorithms across different global optimization test problems.
翻訳日:2023-10-14 13:24:02 公開日:2023-10-12
# 他の言語から翻訳された固有名詞のスペル変化のクラスタリング

Clustering of Spell Variations for Proper Nouns Transliterated from the other languages ( http://arxiv.org/abs/2310.07962v1 )

ライセンス: Link先を確認
Prathamesh Pawar(参考訳) テキストデータの処理と操作における顕著な問題のひとつは、その非一様性である。 方言や言語の変化により、翻訳の口径は低い。 これは、テキストデータでNLPを使用する際に固有の問題を引き起こす。 この問題は、インドの言語から英語の同等語にプロパー名詞を書く様々な方法から生じるヒューマンエラーによってさらに悪化する可能性がある。 インド語起源の固有名詞の翻訳は、文字通りに取られるかもしれない共通の名詞としても用いられるため、複雑である。 住所、名前、その他の固有名詞を必要とするNLPの応用は、この問題に頻繁に直面する。 ML手法と数学的類似性方程式を用いて、適切な名詞に対してこれらの綴りのバリエーションをクラスタリングする手法を提案する。 トークン間の相対的類似性を決定するために,アフィニティ伝播を用いた。 トークン変量ペアを類似度閾値でフィルタすることにより、結果を拡張する。 私たちは呪文のバリエーションを相当に減らすことができた。 このアプリケーションは、データのクリーニングとフォーマッティングに必要な人間のアノテーションの労力を大幅に削減することができる。

One of the prominent problems with processing and operating on text data is the non uniformity of it. Due to the change in the dialects and languages, the caliber of translation is low. This creates a unique problem while using NLP in text data; which is the spell variation arising from the inconsistent translations and transliterations. This problem can also be further aggravated by the human error arising from the various ways to write a Proper Noun from an Indian language into its English equivalent. Translating proper nouns originating from Indian languages can be complicated as some proper nouns are also used as common nouns which might be taken literally. Applications of NLP that require addresses, names and other proper nouns face this problem frequently. We propose a method to cluster these spell variations for proper nouns using ML techniques and mathematical similarity equations. We aimed to use Affinity Propagation to determine relative similarity between the tokens. The results are augmented by filtering the token-variation pair by a similarity threshold. We were able to reduce the spell variations by a considerable amount. This application can significantly reduce the amount of human annotation efforts needed for data cleansing and formatting.
翻訳日:2023-10-14 13:23:47 公開日:2023-10-12
# オートフォーマライゼーションに向けた新しいアプローチ

A New Approach Towards Autoformalization ( http://arxiv.org/abs/2310.07957v1 )

ライセンス: Link先を確認
Nilay Patel and Jeffrey Flanigan and Rahul Saha(参考訳) 数学的証明の検証は難しいが、コンピュータの助けを借りて自動化できる。 自動形式化(autoformalization)は、自然言語数学をプログラムによって検証可能な形式言語に自動翻訳するタスクである。 これは難しい課題であり、特に研究論文に見られる高水準の数学では問題となる。 研究論文は大量の背景と文脈を必要とする。 本稿では,非リンク形式化(リンクのない定義と定理の形式化),エンティティリンク(適切な定理と定義のリンク),そして最後に型を調整して型チェッカーを通過させることにより,研究レベルの数学における自己形式化に取り組む方法を提案する。 さらに、arxiv.orgの論文からサンプリングされたリーン定理証明のために形式化された50の定理からなる、リンクされていない形式化のためのベンチマークデータセットarxiv2formalを提案する。 このデータセットの将来バージョンへのコミュニティからのコントリビューションを歓迎します。

Verifying mathematical proofs is difficult, but can be automated with the assistance of a computer. Autoformalization is the task of automatically translating natural language mathematics into a formal language that can be verified by a program. This is a challenging task, and especially for higher-level mathematics found in research papers. Research paper mathematics requires large amounts of background and context. In this paper, we propose an avenue towards tackling autoformalization for research-level mathematics, by breaking the task into easier and more approachable subtasks: unlinked formalization (formalization with unlinked definitions and theorems), entity linking (linking to the proper theorems and definitions), and finally adjusting types so it passes the type checker. In addition, we present arXiv2Formal, a benchmark dataset for unlinked formalization consisting of 50 theorems formalized for the Lean theorem prover sampled from papers on arXiv.org. We welcome any contributions from the community to future versions of this dataset.
翻訳日:2023-10-14 13:23:32 公開日:2023-10-12
# マルチモーダル分散検出のための大規模言語モデルの検討

Exploring Large Language Models for Multi-Modal Out-of-Distribution Detection ( http://arxiv.org/abs/2310.08027v1 )

ライセンス: Link先を確認
Yi Dai, Hao Lang, Kaisheng Zeng, Fei Huang, Yongbin Li(参考訳) アウト・オブ・ディストリビューション(OOD)検出は信頼性と信頼性の高い機械学習に不可欠である。 近年の多モードOOD検出では,IDクラス名からのテキスト情報を視覚的OOD検出に活用しているが,現在,IDクラスのリッチなコンテキスト情報を無視している。 大きな言語モデル(LLM)は豊富な世界の知識をエンコードし、クラスごとに記述的な特徴を生成するよう促すことができる。 このような知識を無差別に使用すると、LLMの幻覚によるOOD検出に壊滅的なダメージを与える。 本稿では,LLMの選択的生成によるOOD検出性能向上のための世界知識の適用を提案する。 具体的には,各世代の信頼度スコアを推定するための一貫性に基づく不確実性校正法を提案する。 さらに各画像から視覚オブジェクトを抽出し、上記の世界の知識をフルに活用する。 実験の結果,本手法は最先端の手法よりも優れていた。

Out-of-distribution (OOD) detection is essential for reliable and trustworthy machine learning. Recent multi-modal OOD detection leverages textual information from in-distribution (ID) class names for visual OOD detection, yet it currently neglects the rich contextual information of ID classes. Large language models (LLMs) encode a wealth of world knowledge and can be prompted to generate descriptive features for each class. Indiscriminately using such knowledge causes catastrophic damage to OOD detection due to LLMs' hallucinations, as is observed by our analysis. In this paper, we propose to apply world knowledge to enhance OOD detection performance through selective generation from LLMs. Specifically, we introduce a consistency-based uncertainty calibration method to estimate the confidence score of each generation. We further extract visual objects from each image to fully capitalize on the aforementioned world knowledge. Extensive experiments demonstrate that our method consistently outperforms the state-of-the-art.
翻訳日:2023-10-14 13:13:02 公開日:2023-10-12
# データ品質保証における分布外検出のための新しい統計的尺度

A Novel Statistical Measure for Out-of-Distribution Detection in Data Quality Assurance ( http://arxiv.org/abs/2310.07998v1 )

ライセンス: Link先を確認
Tinghui Ouyang, Isao Echizen, Yoshiki Seo(参考訳) 問題領域外のデータは、AIベースのインテリジェントシステムのセキュリティに重大な脅威をもたらす。 本稿では,AI品質管理(AIQM)研究におけるデータ領域とアウト・オブ・ディストリビューション(OOD)データの研究を目的として,特徴表現にディープラーニング技術を用い,OOD検出のための新しい統計的指標を開発することを提案する。 まず,通常のOODデータとOODデータを区別した低次元の代表的特徴を抽出するために,Deep Auto-Encoder(AE)アーキテクチャと,機能工学のためのニューロン活性化状態を組み合わせる。 そして、データ再構成における局所条件確率(LCP)を用いて、OOD検出のスコアを計算するために、新規で優れた統計尺度を開発した。 画像ベンチマークデータセットと産業データセットを用いて実験と評価を行う。 OOD検出における他の一般的な統計指標との比較分析を通じて,本研究はOODおよびAIQM研究において有効かつ有効であることが検証された。

Data outside the problem domain poses significant threats to the security of AI-based intelligent systems. Aiming to investigate the data domain and out-of-distribution (OOD) data in AI quality management (AIQM) study, this paper proposes to use deep learning techniques for feature representation and develop a novel statistical measure for OOD detection. First, to extract low-dimensional representative features distinguishing normal and OOD data, the proposed research combines the deep auto-encoder (AE) architecture and neuron activation status for feature engineering. Then, using local conditional probability (LCP) in data reconstruction, a novel and superior statistical measure is developed to calculate the score of OOD detection. Experiments and evaluations are conducted on image benchmark datasets and an industrial dataset. Through comparative analysis with other common statistical measures in OOD detection, the proposed research is validated as feasible and effective in OOD and AIQM studies.
翻訳日:2023-10-14 13:12:46 公開日:2023-10-12
# 点-NeuS:ボリュームレンダリングによる点ガイド型ニューラルインシシト表面再構成

Point-NeuS: Point-Guided Neural Implicit Surface Reconstruction by Volume Rendering ( http://arxiv.org/abs/2310.07997v1 )

ライセンス: Link先を確認
Chen Zhang, Wanjuan Su, Wenbing Tao(参考訳) 近年,ボリュームレンダリングによる暗黙的表面学習は,多視点再構成に有望な手法となっている。 しかし、制限された精度と過度の時間的複雑さは、現在のメソッドが緊急に克服しなければならないボトルネックのままである。 これらの課題に対処するために,ポイント誘導機構を用いて高精度かつ効率的な再構成を実現するPoint-NeuSという新しい手法を提案する。 点モデリングはボリュームレンダリングに有機的に組み込まれ、暗黙的な表面の表現を強化し、規則化する。 特に、正確な点誘導と雑音のロバスト性を達成するために、点雲の不確かさをモデル化してノイズの分布を捉え、点の信頼性を推定する。 さらに、点と画像を接続するニューラルプロジェクションモジュールを導入し、符号距離関数(SDF)に幾何学的制約を加える。 ボリュームレンダリングとポイントモデリングの幾何学的バイアスを補正するために、高忠実度点をインプリシット変位ネットワークにフィルタリングし、SDFの表現を改善する。 有効なポイントガイダンスから得られる軽量ネットワークは、NeuSに比べて11倍のスピードアップを達成するために利用される。 実験の結果,特に細粒度や滑らかな領域で高品質な表面が得られることがわかった。 さらに、ノイズとスパースデータの両方に強い堅牢性を示す。

Recently, learning neural implicit surface by volume rendering has been a promising way for multi-view reconstruction. However, limited accuracy and excessive time complexity remain bottlenecks that current methods urgently need to overcome. To address these challenges, we propose a new method called Point-NeuS, utilizing point-guided mechanisms to achieve accurate and efficient reconstruction. Point modeling is organically embedded into the volume rendering to enhance and regularize the representation of implicit surface. Specifically, to achieve precise point guidance and noise robustness, aleatoric uncertainty of the point cloud is modeled to capture the distribution of noise and estimate the reliability of points. Additionally, a Neural Projection module connecting points and images is introduced to add geometric constraints to the Signed Distance Function (SDF). To better compensate for geometric bias between volume rendering and point modeling, high-fidelity points are filtered into an Implicit Displacement Network to improve the representation of SDF. Benefiting from our effective point guidance, lightweight networks are employed to achieve an impressive 11x speedup compared to NeuS. Extensive experiments show that our method yields high-quality surfaces, especially for fine-grained details and smooth regions. Moreover, it exhibits strong robustness to both noisy and sparse data.
翻訳日:2023-10-14 13:12:31 公開日:2023-10-12
# リセットして忘れよう:リラーニングラストレイヤー重み付けは継続学習と転校学習を改善する

Reset It and Forget It: Relearning Last-Layer Weights Improves Continual and Transfer Learning ( http://arxiv.org/abs/2310.07996v1 )

ライセンス: Link先を確認
Lapo Frati, Neil Traft, Jeff Clune, Nick Cheney(参考訳) この研究は、より優れた連続的および転送学習を示す表現を導く単純な事前学習メカニズムを特定する。 と呼ばれるこのメカニズムは、もともとメタ連続学習の手順のために設計されたものだが、メタ学習と連続学習の両方以上の多くの設定で驚くほど適用可能であることを示す。 私たちの実験では、トレーニング済みの画像分類器を、いくつかのショットで新しいクラスに転送したいと考えています。 提案手法は,標準的な微調整と連続学習のいずれにおいても,実装が簡単で計算効率が良く,転送精度が向上し,適応性が向上することを示す。 多くの場合、ザッピングとシーケンシャル学習の組み合わせを用いて、高価な高次勾配を必要とせずに、アートメタラーニングと同等のパフォーマンスを達成する。 このザッピング手順の有効性の直感的な説明は、新しい初期化された分類器に迅速に適応可能な繰り返しザッピング学習特徴で訓練された表現である。 このようなアプローチは、計算量的に安価なメタ学習のタイプ、あるいはより高次勾配を持つ素早く適応可能な特徴の代替と見なすことができる。 これは、トレーニング中にニューラルネットワークパラメータをリセットすることの有用性に関する最近の研究に加え、このメカニズムのさらなる研究を招待する。

This work identifies a simple pre-training mechanism that leads to representations exhibiting better continual and transfer learning. This mechanism -- the repeated resetting of weights in the last layer, which we nickname "zapping" -- was originally designed for a meta-continual-learning procedure, yet we show it is surprisingly applicable in many settings beyond both meta-learning and continual learning. In our experiments, we wish to transfer a pre-trained image classifier to a new set of classes, in a few shots. We show that our zapping procedure results in improved transfer accuracy and/or more rapid adaptation in both standard fine-tuning and continual learning settings, while being simple to implement and computationally efficient. In many cases, we achieve performance on par with state of the art meta-learning without needing the expensive higher-order gradients, by using a combination of zapping and sequential learning. An intuitive explanation for the effectiveness of this zapping procedure is that representations trained with repeated zapping learn features that are capable of rapidly adapting to newly initialized classifiers. Such an approach may be considered a computationally cheaper type of, or alternative to, meta-learning rapidly adaptable features with higher-order gradients. This adds to recent work on the usefulness of resetting neural network parameters during training, and invites further investigation of this mechanism.
翻訳日:2023-10-14 13:12:09 公開日:2023-10-12
# heightformer: 空中画像を用いた単眼高度推定のための多レベル相互作用と画像適応分類回帰ネットワーク

HeightFormer: A Multilevel Interaction and Image-adaptive Classification-regression Network for Monocular Height Estimation with Aerial Images ( http://arxiv.org/abs/2310.07995v1 )

ライセンス: Link先を確認
Zhan Chen and Yidan Zhang and Xiyu Qi and Yongqiang Mao and Xin Zhou and Lulu Niu and Hui Wu and Lei Wang and Yunping Ge(参考訳) 高度推定は,3次元都市モデリング,MR,自律運転などの取り組みにおいて重要な役割を担っている。 従来の方法ではステレオマッチングやマルチセンサー融合を利用しており、どちらも様々な視点からの複数の画像やsarのような隣接センサーを必要とする。 単一画像の高さ推定が魅力的な代替手段として登場し、データソースの多様性が大きく、デプロイが簡単になった。 しかし、現在の手法では、固定受容場やグローバルな情報相互作用の欠如といった制限に悩まされており、インスタンスレベルの高度偏差が顕著である。 高さ予測の本質的な複雑さは、固定高さ分割に基づく主流回帰法を用いる場合、オブジェクトエッジ深さのぼやけた推定をもたらす。 本稿では,マルチレベルインタラクションと画像適応型分類-回帰を組み合わせた遠隔センシングにおける単眼身長推定法を提案する。 multilevel interaction backbone (mib) と image-adaptive classification-regression height generator (icg) がある。 MIBは、従来のバックボーンネットワークのCNNにおける固定サンプルグリッドを異なる相互作用範囲のトークンで補う。 画素、パッチ、特徴マップレベルの階層的相互作用機構によって補完され、異なるスケールで空間幾何学情報を中継し、インスタンスレベルの高さ推定の品質を高めるためにグローバルな受容場を導入するように設計されている。 icgは、画像毎に高さ分割を動的に生成し、生来の不適切な問題を著しく軽減し、エッジシャープ性を大幅に改善する粗さから細かい分類回帰まで、従来の回帰タスクを再構築する。

Height estimation has long been a pivotal topic within measurement and remote sensing disciplines, proving critical for endeavours such as 3D urban modelling, MR and autonomous driving. Traditional methods utilise stereo matching or multisensor fusion, both well-established techniques that typically necessitate multiple images from varying perspectives and adjunct sensors like SAR, leading to substantial deployment costs. Single image height estimation has emerged as an attractive alternative, boasting a larger data source variety and simpler deployment. However, current methods suffer from limitations such as fixed receptive fields, a lack of global information interaction, leading to noticeable instance-level height deviations. The inherent complexity of height prediction can result in a blurry estimation of object edge depth when using mainstream regression methods based on fixed height division. This paper presents a comprehensive solution for monocular height estimation in remote sensing, termed HeightFormer, combining multilevel interactions and image-adaptive classification-regression. It features the Multilevel Interaction Backbone (MIB) and Image-adaptive Classification-regression Height Generator (ICG). MIB supplements the fixed sample grid in CNN of the conventional backbone network with tokens of different interaction ranges. It is complemented by a pixel-, patch-, and feature map-level hierarchical interaction mechanism, designed to relay spatial geometry information across different scales and introducing a global receptive field to enhance the quality of instance-level height estimation. The ICG dynamically generates height partition for each image and reframes the traditional regression task, using a refinement from coarse to fine classification-regression that significantly mitigates the innate ill-posedness issue and drastically improves edge sharpness.
翻訳日:2023-10-14 13:11:44 公開日:2023-10-12
# 重デコーダを用いたニューラルコンビネーション最適化:大規模一般化に向けて

Neural Combinatorial Optimization with Heavy Decoder: Toward Large Scale Generalization ( http://arxiv.org/abs/2310.07985v1 )

ライセンス: Link先を確認
Fu Luo, Xi Lin, Fei Liu, Qingfu Zhang, Zhenkun Wang(参考訳) neural combinatorial optimization (nco) は、専門的なアルゴリズム設計を伴わずに組合せ最適化問題を解くための、有望な学習ベースのアプローチである。 しかし、ほとんどの構成的 NCO 法は、大規模なインスタンスサイズの問題では解決できないため、現実のアプリケーションにおいてその有用性を著しく低下させる。 本稿では,この問題に対処するための強力な一般化能力を有する,新しい光エンコーダと重デコーダ(lehd)モデルを提案する。 LEHDモデルは、様々な大きさの全ての利用可能なノード間の関係を動的に捉えることができるが、これは様々なスケールの問題に対するモデル一般化に有用である。 さらに,提案したLEHDモデルに対して,データ効率のトレーニング手法とフレキシブルなソリューション構築機構を開発する。 小規模問題インスタンスのトレーニングにより、lehdモデルは、走行セールスマン問題(tsp)と最大1000ノードの容量車両ルーティング問題(cvrp)のほぼ最適解を生成でき、また、実世界のtsplib問題やcvrplib問題の解法を一般化することができる。 これらの結果から,提案したLEHDモデルにより,建設的NCOの最先端性能が向上することを確認した。 コードはhttps://github.com/CIAM-Group/NCO_code/tree/main/single_objective/LEHDで公開されている。

Neural combinatorial optimization (NCO) is a promising learning-based approach for solving challenging combinatorial optimization problems without specialized algorithm design by experts. However, most constructive NCO methods cannot solve problems with large-scale instance sizes, which significantly diminishes their usefulness for real-world applications. In this work, we propose a novel Light Encoder and Heavy Decoder (LEHD) model with a strong generalization ability to address this critical issue. The LEHD model can learn to dynamically capture the relationships between all available nodes of varying sizes, which is beneficial for model generalization to problems of various scales. Moreover, we develop a data-efficient training scheme and a flexible solution construction mechanism for the proposed LEHD model. By training on small-scale problem instances, the LEHD model can generate nearly optimal solutions for the Travelling Salesman Problem (TSP) and the Capacitated Vehicle Routing Problem (CVRP) with up to 1000 nodes, and also generalizes well to solve real-world TSPLib and CVRPLib problems. These results confirm our proposed LEHD model can significantly improve the state-of-the-art performance for constructive NCO. The code is available at https://github.com/CIAM-Group/NCO_code/tree/main/single_objective/LEHD.
翻訳日:2023-10-14 13:11:15 公開日:2023-10-12
# 科学合成・推論・説明のための大規模言語モデル

Large Language Models for Scientific Synthesis, Inference and Explanation ( http://arxiv.org/abs/2310.07984v1 )

ライセンス: Link先を確認
Yizhen Zheng, Huan Yee Koh, Jiaxin Ju, Anh T.N. Nguyen, Lauren T. May, Geoffrey I. Webb, Shirui Pan(参考訳) 大規模言語モデルは、言語1の統計パターン、意味的関係、構文構造からなる人工知能システムの一種である。 知識」の限られた形態にもかかわらず、これらのシステムは創造的執筆、ストーリーテリング、翻訳、質問応答、要約、コンピュータコード生成など多くの複雑なタスクに適応している。 しかし、彼らはまだ自然科学の高度な応用を実証していない。 ここでは,大規模言語モデルが科学的合成,推論,説明をいかに行うかを示す。 本稿では,汎用大規模言語モデルを用いて,特殊目的機械学習アルゴリズムに付随する形態の科学的データセットから推論を行う手法を提案する。 大規模言語モデルは、科学的文献から合成することで、この「知識」を増強できることを示す。 従来の機械学習システムが、この合成および推論された知識で強化されると、分子特性を予測するための様々なベンチマークタスクにおいて、最先端の技術を上回ります。 このアプローチは、大きな言語モデルが機械学習システムの予測を説明することができるというさらなる利点を持っている。 我々は、私たちのフレームワークが科学的な発見のペースを加速するために、AIの新しい道を開くことを期待している。

Large language models are a form of artificial intelligence systems whose primary knowledge consists of the statistical patterns, semantic relationships, and syntactical structures of language1. Despite their limited forms of "knowledge", these systems are adept at numerous complex tasks including creative writing, storytelling, translation, question-answering, summarization, and computer code generation. However, they have yet to demonstrate advanced applications in natural science. Here we show how large language models can perform scientific synthesis, inference, and explanation. We present a method for using general-purpose large language models to make inferences from scientific datasets of the form usually associated with special-purpose machine learning algorithms. We show that the large language model can augment this "knowledge" by synthesizing from the scientific literature. When a conventional machine learning system is augmented with this synthesized and inferred knowledge it can outperform the current state of the art across a range of benchmark tasks for predicting molecular properties. This approach has the further advantage that the large language model can explain the machine learning system's predictions. We anticipate that our framework will open new avenues for AI to accelerate the pace of scientific discovery.
翻訳日:2023-10-14 13:10:53 公開日:2023-10-12
# RandCom:分散確率最適化のためのランダム通信スキッピング手法

RandCom: Random Communication Skipping Method for Decentralized Stochastic Optimization ( http://arxiv.org/abs/2310.07983v1 )

ライセンス: Link先を確認
Luyao Guo and Sulaiman A. Alghunaim and Kun Yuan and Laurent Condat and Jinde Cao(参考訳) ランダム通信スキップを用いた分散最適化手法は,通信複雑性を加速させる効果が証明されていることから注目されている。 それにもかかわらず、既存の研究は主に強凸決定論的設定のための集中型通信プロトコルに焦点を当てている。 本研究では,確率的局所更新を組み込んだRandComという分散最適化手法を提案する。 確率的非凸,凸,強凸設定におけるRandComの性能解析を行い,通信の確率による通信オーバーヘッドを漸近的に低減できることを示す。 さらに,ノード数の増加に伴ってRandComが線形高速化を実現することを示す。 確率論的凸設定では、RandComがネットワークに依存しないステップサイズで線形スピードアップを達成できることをさらに証明する。 さらに,randcomをフェデレーション学習に適用し,線形スピードアップを実現する可能性と,非凸設定に対する確率的局所更新アプローチの適用性について,肯定的な結果を与える。

Distributed optimization methods with random communication skips are gaining increasing attention due to their proven benefits in accelerating communication complexity. Nevertheless, existing research mainly focuses on centralized communication protocols for strongly convex deterministic settings. In this work, we provide a decentralized optimization method called RandCom, which incorporates probabilistic local updates. We analyze the performance of RandCom in stochastic non-convex, convex, and strongly convex settings and demonstrate its ability to asymptotically reduce communication overhead by the probability of communication. Additionally, we prove that RandCom achieves linear speedup as the number of nodes increases. In stochastic strongly convex settings, we further prove that RandCom can achieve linear speedup with network-independent stepsizes. Moreover, we apply RandCom to federated learning and provide positive results concerning the potential for achieving linear speedup and the suitability of the probabilistic local update approach for non-convex settings.
翻訳日:2023-10-14 13:10:36 公開日:2023-10-12
# GRASP: グラフアテンションによる最短パスアタックの高速化

GRASP: Accelerating Shortest Path Attacks via Graph Attention ( http://arxiv.org/abs/2310.07980v1 )

ライセンス: Link先を確認
Zohair Shafi. Benjamin A. Miller, Ayan Chatterjee, Tina Eliassi-Rad, Rajmonda S. Caceres(参考訳) 機械学習(ML)の最近の進歩は、古典的な組合せ最適化アルゴリズムの補助と加速の可能性を示している。 エンドツーエンドで学習することを目的としたMLベースのスピードアップ(すなわち、ソリューションを直接出力する)は、ソリューションの品質とランタイムをトレードオフする傾向がある。 したがって、性能保証を維持しながら既存の問題解決を加速できるソリューションは非常に興味深い。 本稿では,最小限のエッジ数を取り除き,グラフ内の最短経路を攻撃しようとするAPXハード問題を考える。 グラフ注意促進経路攻撃(Graph Attention Accelerated Shortest Path Attack)は、MLが生成したソリューションの品質を維持しつつ、実行時間を最大10倍高速化する最適化アルゴリズムである。 GRASPはグラフアテンションネットワークを用いて組合せ解を含む小さなサブグラフを識別し、入力問題のサイズを効果的に削減する。 さらに、最適化タスクとよく相関するノード機能を含む入力グラフの注意深い表現が、最適化ソリューションにおける重要な構造を如何に強調するかを示す。

Recent advances in machine learning (ML) have shown promise in aiding and accelerating classical combinatorial optimization algorithms. ML-based speed ups that aim to learn in an end to end manner (i.e., directly output the solution) tend to trade off run time with solution quality. Therefore, solutions that are able to accelerate existing solvers while maintaining their performance guarantees, are of great interest. We consider an APX-hard problem, where an adversary aims to attack shortest paths in a graph by removing the minimum number of edges. We propose the GRASP algorithm: Graph Attention Accelerated Shortest Path Attack, an ML aided optimization algorithm that achieves run times up to 10x faster, while maintaining the quality of solution generated. GRASP uses a graph attention network to identify a smaller subgraph containing the combinatorial solution, thus effectively reducing the input problem size. Additionally, we demonstrate how careful representation of the input graph, including node features that correlate well with the optimization task, can highlight important structure in the optimization solution.
翻訳日:2023-10-14 13:10:21 公開日:2023-10-12
# Web上での銃身売買行動分析のための自己教師型視覚学習

Self-supervised visual learning for analyzing firearms trafficking activities on the Web ( http://arxiv.org/abs/2310.07975v1 )

ライセンス: Link先を確認
Sotirios Konstantakos, Despina Ioanna Chalkiadaki, Ioannis Mademlis, Adamantia Anna Rebolledo Chrysochoou, Georgios Th. Papadopoulos(参考訳) RGB画像からの視覚銃の自動分類は、公共空間のセキュリティ、情報収集、法執行機関の調査に応用するための重要な現実世界の課題である。 World Wide Web(ソーシャルメディアやダークウェブサイトを含む)から大量にクロールされた画像に適用すると、オープンソースのインテリジェンスからビッグデータを分析することで、犯罪者の銃身売買ネットワークを識別しようとするシステムの重要な構成要素となる。 ディープニューラルネットワーク(DNN)は、これを実現するための最先端の方法論であり、畳み込みニューラルネットワーク(CNN)が一般的に使用されている。 一般的な転送学習アプローチは、ImageNet-1kのような画像分類のための大規模で汎用的なアノテーション付きデータセットを事前トレーニングし、次に、視覚銃器分類のためのより小さく、タスク固有のダウンストリームデータセットでDNNを微調整する。 ビジュアルトランスフォーマー(ViT)ニューラルアーキテクチャも、自己監視学習(SSL)アプローチも、この重要なタスクでは評価されていない。 SSLは基本的に、従来の教師付き事前訓練の目的を、基幹のラベルを必要としない教師なしのプレテキストタスクに置き換えることから成り立っている。 .

Automated visual firearms classification from RGB images is an important real-world task with applications in public space security, intelligence gathering and law enforcement investigations. When applied to images massively crawled from the World Wide Web (including social media and dark Web sites), it can serve as an important component of systems that attempt to identify criminal firearms trafficking networks, by analyzing Big Data from open-source intelligence. Deep Neural Networks (DNN) are the state-of-the-art methodology for achieving this, with Convolutional Neural Networks (CNN) being typically employed. The common transfer learning approach consists of pretraining on a large-scale, generic annotated dataset for whole-image classification, such as ImageNet-1k, and then finetuning the DNN on a smaller, annotated, task-specific, downstream dataset for visual firearms classification. Neither Visual Transformer (ViT) neural architectures nor Self-Supervised Learning (SSL) approaches have been so far evaluated on this critical task. SSL essentially consists of replacing the traditional supervised pretraining objective with an unsupervised pretext task that does not require ground-truth labels..
翻訳日:2023-10-14 13:10:01 公開日:2023-10-12
# basal:lidarセマンティクスセグメンテーションのためのサイズバランスのよいウォームスタートアクティブラーニング

BaSAL: Size Balanced Warm Start Active Learning for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2310.08035v1 )

ライセンス: Link先を確認
Jiarong Wei, Yancong Lin, Holger Caesar(参考訳) アクティブな学習は、アノテータにラベルのないデータのプールから最も情報に富んだサンプルをラベル付けし、これらのサンプルからモデルを再トレーニングすることで、コストのかかるデータアノテーションの必要性を減らそうとしている。 既存のLiDARセマンティックセグメンテーションのためのアクティブラーニング手法における2つの問題を特定する。 まず、LiDARセマンティックセグメンテーションデータセットに固有の深刻なクラス不均衡を無視する。 次に、アクティブな学習ループをブートストラップするために、ランダムに選択されたデータサンプルから初期モデルをトレーニングする。 これらの問題に対処するために,各オブジェクトクラスが特徴的サイズであることを示す観測に基づいて,サイズバランスのよいウォームスタートアクティブラーニングモデルBaSALを提案する。 オブジェクトクラスタをサイズに応じてサンプリングすることで、よりクラスバランスのよいサイズバランスのデータセットを作成することができる。 さらに、エントロピーやcoresetのような既存の情報尺度とは対照的に、サイズベースのサンプリングは、既に訓練されたモデルを必要としないため、コールドスタート問題に対処するために使用できる。 その結果,初期モデルの性能を大きなマージンで向上させることができることがわかった。 サイズバランスの取れたサンプリングと,確立した情報測定によるウォームスタートを組み合わせることで,既存のアクティブラーニング手法より優れているアノテーションは5%に過ぎず,SemanticKITTIデータセット全体のトレーニングに匹敵するパフォーマンスを実現する。 我々はまた、nuScenesのアクティブラーニングにおける既存の最先端技術と一致する。 私たちのコードは受理後利用可能になります。

Active learning strives to reduce the need for costly data annotation, by repeatedly querying an annotator to label the most informative samples from a pool of unlabeled data and retraining a model from these samples. We identify two problems with existing active learning methods for LiDAR semantic segmentation. First, they ignore the severe class imbalance inherent in LiDAR semantic segmentation datasets. Second, to bootstrap the active learning loop, they train their initial model from randomly selected data samples, which leads to low performance and is referred to as the cold start problem. To address these problems we propose BaSAL, a size-balanced warm start active learning model, based on the observation that each object class has a characteristic size. By sampling object clusters according to their size, we can thus create a size-balanced dataset that is also more class-balanced. Furthermore, in contrast to existing information measures like entropy or CoreSet, size-based sampling does not require an already trained model and thus can be used to address the cold start problem. Results show that we are able to improve the performance of the initial model by a large margin. Combining size-balanced sampling and warm start with established information measures, our approach achieves a comparable performance to training on the entire SemanticKITTI dataset, despite using only 5% of the annotations, which outperforms existing active learning methods. We also match the existing state-of-the-art in active learning on nuScenes. Our code will be made available upon paper acceptance.
翻訳日:2023-10-14 13:05:32 公開日:2023-10-12
# 自己教師付き注意とコントラスト学習によるマルチモーダル映画ジャンル分類へのドメイン知識グラフの導入

Incorporating Domain Knowledge Graph into Multimodal Movie Genre Classification with Self-Supervised Attention and Contrastive Learning ( http://arxiv.org/abs/2310.08032v1 )

ライセンス: Link先を確認
Jiaqi Li, Guilin Qi, Chuanyi Zhang, Yongrui Chen, Yiming Tan, Chenlong Xia, Ye Tian(参考訳) ポスター,プロットサマリー,トレーラー,メタデータといったマルチモーダルデータの多様性のため,マルチモーダル映画ジャンル分類は要求されるマルチラベル分類課題とみなされてきた。 既存の作品では、各モダリティのモデリングと組み合わせに大きな進歩があったが、それでも3つの問題に直面している。 1)メタデータの未使用のグループ関係 2 信頼できない注意割当、及び 3) 識別不能な特徴。 知識グラフが豊富な情報を含むことが証明されたことを前提として、知識グラフを様々な観点から活用して上記の問題に対処する新しい枠組みを提案する。 準備として、メタデータはドメイン知識グラフに処理される。 知識グラフ埋め込みのための翻訳モデルを用いて、エンティティ間の関係をキャプチャする。 まず,メタデータにおけるグループ関係を利用して知識グラフから関連する埋め込みを取得し,他のモダリティと統合する。 次に,自己監督学習に基づく信頼性の高い注意割当のための注意教師モジュールを提案する。 知識グラフの分布を学習し、合理的な注意重みを生成する。 最後に,融合特徴の識別能力を強化するために,ジャンル中心アンカー型コントラスト学習モジュールを提案する。 アンカーの埋め込み空間は、知識グラフのジャンルエンティティから初期化される。 フレームワークの有効性を検証するため,MM-IMDb 2.0 というより大きなデータセットをMM-IMDb データセットと比較した。 2つのデータセットにおける実験結果から,本モデルは最先端の手法よりも優れていることが示された。 近い将来、そのコードをリリースします。

Multimodal movie genre classification has always been regarded as a demanding multi-label classification task due to the diversity of multimodal data such as posters, plot summaries, trailers and metadata. Although existing works have made great progress in modeling and combining each modality, they still face three issues: 1) unutilized group relations in metadata, 2) unreliable attention allocation, and 3) indiscriminative fused features. Given that the knowledge graph has been proven to contain rich information, we present a novel framework that exploits the knowledge graph from various perspectives to address the above problems. As a preparation, the metadata is processed into a domain knowledge graph. A translate model for knowledge graph embedding is adopted to capture the relations between entities. Firstly we retrieve the relevant embedding from the knowledge graph by utilizing group relations in metadata and then integrate it with other modalities. Next, we introduce an Attention Teacher module for reliable attention allocation based on self-supervised learning. It learns the distribution of the knowledge graph and produces rational attention weights. Finally, a Genre-Centroid Anchored Contrastive Learning module is proposed to strengthen the discriminative ability of fused features. The embedding space of anchors is initialized from the genre entities in the knowledge graph. To verify the effectiveness of our framework, we collect a larger and more challenging dataset named MM-IMDb 2.0 compared with the MM-IMDb dataset. The experimental results on two datasets demonstrate that our model is superior to the state-of-the-art methods. We will release the code in the near future.
翻訳日:2023-10-14 13:05:05 公開日:2023-10-12
# 雑音ラベルを用いた局所グラフクラスタリング

Local Graph Clustering with Noisy Labels ( http://arxiv.org/abs/2310.08031v1 )

ライセンス: Link先を確認
Artur Back de Luca, Kimon Fountoulakis, Shenghao Yang(参考訳) テキスト、画像、ラベルなどの追加ノード情報を持つグラフに対する機械学習問題への関心が高まり、グラフ全体の処理にコストを要するメソッドが一般化した。 しかし、そのようなデータから有用な情報を抽出する高速ローカルメソッド(グラフ全体にアクセスすることなく)の開発には、ほとんど努力が払われていない。 そこで本研究では,ノード情報追加のプロキシとしてノイズノードラベルを用いた局所グラフクラスタリングを提案する。 この設定では、ノードはクラスタのアフィリエイトに基づいて初期バイナリラベルを受け取る。 その後、これらのラベルのほんの一部が反転する。 局所グラフクラスタリングにノイズラベルを組み込むことの利点について検討する。 そこで,このようなラベル付き重み付きグラフを構築し,グラフ拡散に基づく局所クラスタリング手法の性能について検討した。 理論的観点から、独立ノイズノードラベルを持つランダムグラフにおいて、単一のシードノードを持つ未知のターゲットクラスタを復元することを検討する。 重み付きグラフの拡散を高い確率で利用することで、ターゲットクラスタのより正確な回復を可能にするラベルノイズの十分な条件を提供する。 このアプローチは、与えられたラベルだけを使うか、ラベルのない元のグラフで拡散を使うよりも効果的である。 実験により,属性付きグラフから数個のサンプルを用いて,信頼性の高いノードラベルが得られることを示す。 さらに、重み付きグラフの拡散によるこれらのラベルの利用により、複数の実世界のデータセット間の局所クラスタリング性能が大幅に向上し、F1スコアが最大13%向上する。

The growing interest in machine learning problems over graphs with additional node information such as texts, images, or labels has popularized methods that require the costly operation of processing the entire graph. Yet, little effort has been made to the development of fast local methods (i.e. without accessing the entire graph) that extract useful information from such data. To that end, we propose a study of local graph clustering using noisy node labels as a proxy for additional node information. In this setting, nodes receive initial binary labels based on cluster affiliation: 1 if they belong to the target cluster and 0 otherwise. Subsequently, a fraction of these labels is flipped. We investigate the benefits of incorporating noisy labels for local graph clustering. By constructing a weighted graph with such labels, we study the performance of graph diffusion-based local clustering method on both the original and the weighted graphs. From a theoretical perspective, we consider recovering an unknown target cluster with a single seed node in a random graph with independent noisy node labels. We provide sufficient conditions on the label noise under which, with high probability, using diffusion in the weighted graph yields a more accurate recovery of the target cluster. This approach proves more effective than using the given labels alone or using diffusion in the label-free original graph. Empirically, we show that reliable node labels can be obtained with just a few samples from an attributed graph. Moreover, utilizing these labels via diffusion in the weighted graph leads to significantly better local clustering performance across several real-world datasets, improving F1 scores by up to 13%.
翻訳日:2023-10-14 13:04:41 公開日:2023-10-12
# uav rgb-infrared vehicle再同定のためのデカップリング特徴学習ネットワークにおける重みの共有

Beyond Sharing Weights in Decoupling Feature Learning Network for UAV RGB-Infrared Vehicle Re-Identification ( http://arxiv.org/abs/2310.08026v1 )

ライセンス: Link先を確認
Xingyue Liu, Jiahao Qi, Chen Chen, Kangcheng Bin and Ping Zhong(参考訳) フルタイムの目標探索能力のため、無人航空機(uav)に基づくクロスモダリティ車両再識別(re-id)がビデオ監視と公衆安全の両方で注目を集めている。 しかし、データ不足のため、この有望で革新的な研究は十分に研究されていない。 一方、モダリティの相違と方向性の相違は、この課題の難しさをさらに悪化させる。 この目的のために、UAVクロスモダリティ・ビークル・Re-ID(UCM-VeID)と呼ばれる、16015RGBと13913赤外線画像の753のIDを含むクロスモダリティ車両Re-IDベンチマークを考案した。 さらに,モダリティの相違性や方向性の相違性に対処するため,ハイブリッド重み分離ネットワーク(HWDNet)を提案する。 最初の課題として、よく設計された重み抑制器とそれに対応する目的関数を併用して、モダリティ固有情報とモダリティ共有情報の両方を学習するハイブリットシムネットワークを提案する。 第2の課題として, 2つのプリテキストタスクを持つ3つの効果的なデカップリング構造について検討した。 提案手法の有効性を検証するための総合実験を行った。 データセットとコードはhttps://github.com/moonstarL/UAV-CM-VeIDで公開される。

Owing to the capacity of performing full-time target search, cross-modality vehicle re-identification (Re-ID) based on unmanned aerial vehicle (UAV) is gaining more attention in both video surveillance and public security. However, this promising and innovative research has not been studied sufficiently due to the data inadequacy issue. Meanwhile, the cross-modality discrepancy and orientation discrepancy challenges further aggravate the difficulty of this task. To this end, we pioneer a cross-modality vehicle Re-ID benchmark named UAV Cross-Modality Vehicle Re-ID (UCM-VeID), containing 753 identities with 16015 RGB and 13913 infrared images. Moreover, to meet cross-modality discrepancy and orientation discrepancy challenges, we present a hybrid weights decoupling network (HWDNet) to learn the shared discriminative orientation-invariant features. For the first challenge, we proposed a hybrid weights siamese network with a well-designed weight restrainer and its corresponding objective function to learn both modality-specific and modality shared information. In terms of the second challenge, three effective decoupling structures with two pretext tasks are investigated to learn orientation-invariant feature. Comprehensive experiments are carried out to validate the effectiveness of the proposed method. The dataset and codes will be released at https://github.com/moonstarL/UAV-CM-VeID.
翻訳日:2023-10-14 13:04:17 公開日:2023-10-12
# 反復型ハードThresholdingを用いたロバスト1ビット圧縮センシング

Robust 1-bit Compressed Sensing with Iterative Hard Thresholding ( http://arxiv.org/abs/2310.08019v1 )

ライセンス: Link先を確認
Namiko Matsumoto, Arya Mazumdar(参考訳) 1ビット圧縮センシングでは、$k$-sparse単位ベクトル$x\in S^{n-1}$を$\epsilon$エラー($\ell_2$)の中で、符号のみに量子化される最小の線形測度、すなわち、$y = \mathrm{Sign}(\langle a, x\rangle a, x\rangle)から推定する。 この論文では、一部の測定値が反転しうるノイズのあるバージョンを、潜在的に敵対者によって研究する。 特に,1ビット圧縮センシングに使用される正規な損失関数上での近位勾配降下であるbihtアルゴリズムを,この雑音条件下で解析した。 最近の結果から、$\tilde{O}(\frac{k}{\epsilon})$ noiseless Measurement で BIHT は $\epsilon$ error 内で推定値を提供することが知られている。 この結果は最適かつ普遍的であり、一組の計測がすべてのスパースベクトルに対して働くことを意味する。 本稿では, BIHTが, ノイズ設定のためのすべての既知の手法よりも優れた結果を提供することを示す。 符号測定値の最大$\tau$-フラクテーションが誤り(逆誤差)である場合、bihtは従来と同じ数の測定値を持つ場合、$\tilde{o}(\epsilon+\tau)$エラーの範囲内でx$の見積もりを提供し、測定の普遍性を維持する。 これにより、測定誤差の存在下で繰り返しハードしきい値の安定性が確立される。 この結果を得るために、ガウス行列の制限された近似的可逆性と、逆向きに破損した測定の高次元幾何学の厳密な解析を用いる。

In 1-bit compressed sensing, the aim is to estimate a $k$-sparse unit vector $x\in S^{n-1}$ within an $\epsilon$ error (in $\ell_2$) from minimal number of linear measurements that are quantized to just their signs, i.e., from measurements of the form $y = \mathrm{Sign}(\langle a, x\rangle).$ In this paper, we study a noisy version where a fraction of the measurements can be flipped, potentially by an adversary. In particular, we analyze the Binary Iterative Hard Thresholding (BIHT) algorithm, a proximal gradient descent on a properly defined loss function used for 1-bit compressed sensing, in this noisy setting. It is known from recent results that, with $\tilde{O}(\frac{k}{\epsilon})$ noiseless measurements, BIHT provides an estimate within $\epsilon$ error. This result is optimal and universal, meaning one set of measurements work for all sparse vectors. In this paper, we show that BIHT also provides better results than all known methods for the noisy setting. We show that when up to $\tau$-fraction of the sign measurements are incorrect (adversarial error), with the same number of measurements as before, BIHT agnostically provides an estimate of $x$ within an $\tilde{O}(\epsilon+\tau)$ error, maintaining the universality of measurements. This establishes stability of iterative hard thresholding in the presence of measurement error. To obtain the result, we use the restricted approximate invertibility of Gaussian matrices, as well as a tight analysis of the high-dimensional geometry of the adversarially corrupted measurements.
翻訳日:2023-10-14 13:03:52 公開日:2023-10-12
# オンラインメンタルヘルスカウンセラー支援のための大規模言語モデルの共感応答生成能力の調和

Harnessing Large Language Models' Empathetic Response Generation Capabilities for Online Mental Health Counselling Support ( http://arxiv.org/abs/2310.08017v1 )

ライセンス: Link先を確認
Siyuan Brandon Loh, Aravind Sesagiri Raamkumar(参考訳) 大規模言語モデル(llm)は、様々な情報参照および推論タスクで顕著な性能を示している。 これらの計算システムはChatGPTやBardのような最先端の対話システムを駆動する。 彼らはまた、精神医療の需要が増大する中、比較的調査されていないにもかかわらず、大きな約束を果たす。 そこで本研究では,精神保健カウンセリングにおける会話における共感反応を生成できるllmsの能力について検討した。 我々は、ジェネレーティブ・プレトレーニング(GPT)のバージョン3.5とバージョン4、Vicuna FastChat-T5、Pathways Language Model(PaLM)バージョン2、Falcon-7B-Instructの5つのLCMを選択した。 単純な命令プロンプトに基づいて、これらのモデルはEmpatheticDialogues(ED)データセットから派生した発話に応答した。 3つの共感関連指標を用いて, EDデータセットを微調整した従来の応答生成対話システムと人為的応答を比較検討した。 特に,LLMからの反応は,ほとんどのシナリオにおいて著しく共感的であった。 我々は,共感的会話システム構築における進歩の促進に照らして,この知見を位置づける。

Large Language Models (LLMs) have demonstrated remarkable performance across various information-seeking and reasoning tasks. These computational systems drive state-of-the-art dialogue systems, such as ChatGPT and Bard. They also carry substantial promise in meeting the growing demands of mental health care, albeit relatively unexplored. As such, this study sought to examine LLMs' capability to generate empathetic responses in conversations that emulate those in a mental health counselling setting. We selected five LLMs: version 3.5 and version 4 of the Generative Pre-training (GPT), Vicuna FastChat-T5, Pathways Language Model (PaLM) version 2, and Falcon-7B-Instruct. Based on a simple instructional prompt, these models responded to utterances derived from the EmpatheticDialogues (ED) dataset. Using three empathy-related metrics, we compared their responses to those from traditional response generation dialogue systems, which were fine-tuned on the ED dataset, along with human-generated responses. Notably, we discovered that responses from the LLMs were remarkably more empathetic in most scenarios. We position our findings in light of catapulting advancements in creating empathetic conversational systems.
翻訳日:2023-10-14 13:03:10 公開日:2023-10-12
# 教師なしビデオ検索のための二ストリーム知識保存ハッシュ

Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video Retrieval ( http://arxiv.org/abs/2310.08009v1 )

ライセンス: Link先を確認
Pandeng Li, Hongtao Xie, Jiannan Ge, Lei Zhang, Shaobo Min, Yongdong Zhang(参考訳) 教師なしビデオハッシュは通常、入力ビデオの再構築を学習することでバイナリコードを最適化する。 このような再構成制約は、検索に有用なビデオレベルのグローバルセマンティクスに焦点を合わせることなく、フレームレベルの時間的コンテキスト変化に多くの労力を費やす。 そこで,本稿では,映像情報を再構成依存情報と意味依存情報に分解することでこの問題に対処する。 具体的には,まず時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。 そして、自己スーパービジョンから得られた意味類似性知識の助けを借りて、ハッシュ層が意味検索のための情報をキャプチャし、時間層が再構築のための情報をキャプチャする。 このようにして、モデルは自然に二進法コードへの不整合セマンティクスを保存する。 総合的な実験によって検証された本手法は,3つのビデオベンチマークにおいて常に最先端の手法より優れている。

Unsupervised video hashing usually optimizes binary codes by learning to reconstruct input videos. Such reconstruction constraint spends much effort on frame-level temporal context changes without focusing on video-level global semantics that are more useful for retrieval. Hence, we address this problem by decomposing video information into reconstruction-dependent and semantic-dependent information, which disentangles the semantic extraction from reconstruction constraint. Specifically, we first design a simple dual-stream structure, including a temporal layer and a hash layer. Then, with the help of semantic similarity knowledge obtained from self-supervision, the hash layer learns to capture information for semantic retrieval, while the temporal layer learns to capture the information for reconstruction. In this way, the model naturally preserves the disentangled semantics into binary codes. Validated by comprehensive experiments, our method consistently outperforms the state-of-the-arts on three video benchmarks.
翻訳日:2023-10-14 13:02:38 公開日:2023-10-12
# BERTの一般化性に及ぼす人体と親和性サンプルの影響

Effects of Human Adversarial and Affable Samples on BERT Generalizability ( http://arxiv.org/abs/2310.08008v1 )

ライセンス: Link先を確認
Aparna Elangovan, Jiayuan He, Yuan Li, Karin Verspoor(参考訳) bertベースのモデルは、leaderboardsでパフォーマンスが高かったが、現実の世界では一般化を必要とする状況では、かなり悪くなっている。 限られた量のトレーニングデータは、機械学習における一般化性を達成するための鍵となる障害とみなされる。 本稿では,モデルの一般化性に対する量ではなく,データ品質のトレーニングが与える影響について検討する。 訓練データの特徴として,人間-敵関係 (h-敵関係) の部分,すなわち,一見小さな差異があるが接地ラベルが異なるサンプルペア,および人間-適応(h-親和性)訓練サンプル,すなわち,接地ラベルは同じ接地ラベルを持つサンプルペアの2つを検討した。 サンプルの固定サイズについては,親指の規則として10~30\%のh-adversarialインスタンスを持つと精度が向上し,F1はテキスト分類や関係抽出のタスクにおいて最大20ポイント向上することがわかった。 対照的に、h-アフィラブルはモデルの一般化可能性に寄与せず、一般化性能を低下させることもある。

BERT-based models have had strong performance on leaderboards, yet have been demonstrably worse in real-world settings requiring generalization. Limited quantities of training data is considered a key impediment to achieving generalizability in machine learning. In this paper, we examine the impact of training \textit{data quality}, not quantity, on a model's generalizability. We consider two characteristics of training data: the portion of human-adversarial (h-adversarial), i.e., sample pairs with seemingly minor differences but different ground-truth labels, and human-affable (h-affable) training samples, i.e., sample pairs with minor differences but the same ground-truth label. We find that for a fixed size of training samples, as a rule of thumb, having 10-30\% h-adversarial instances improves the precision, and therefore F1, by up to 20 points in the tasks of text classification and relation extraction. Increasing h-adversarials beyond this range can result in performance plateaus or even degradation.In contrast, h-affables may not contribute to a model's generalizability and may even degrade generalization performance.
翻訳日:2023-10-14 13:02:14 公開日:2023-10-12
# レモン:損失のないモデル展開

LEMON: Lossless model expansion ( http://arxiv.org/abs/2310.07999v1 )

ライセンス: Link先を確認
Yite Wang, Jiahao Su, Hanlin Lu, Cong Xie, Tianyi Liu, Jianbo Yuan, Haibin Lin, Ruoyu Sun, Hongxia Yang(参考訳) 深層ニューラルネットワーク、特にトランスフォーマーのスケーリングは、その急速な性能向上にとって重要であり、基礎モデルにおける洗練された推論能力の出現につながった。 このようなスケーリングは、通常、ランダムな初期化でスクラッチから大規模なモデルをトレーニングする必要がある。 この非効率性に取り組むために、より小さいが事前訓練されたモデルの重みを使ってスケールしたモデルを初期化するレシピである$\textbf{L}$ossl$\textbf{E}$ss$\textbf{MO}$del Expansio$\textbf{N}$ (LEMON)を示す。 これに続き、最適化された学習率スケジューラによるモデルトレーニングがスケールしたモデル用に明示的に調整され、スクラッチからトレーニングする時間を大幅に削減する。 特にLEMONは汎用的で、ビジョントランスフォーマーやBERTなど、さまざまなネットワーク構造との互換性を確保する。 実験の結果、LEMONは視覚変換器の計算コストを56.7%削減し、BERTの33.2%をスクラッチからトレーニングした場合に削減した。

Scaling of deep neural networks, especially Transformers, is pivotal for their surging performance and has further led to the emergence of sophisticated reasoning capabilities in foundation models. Such scaling generally requires training large models from scratch with random initialization, failing to leverage the knowledge acquired by their smaller counterparts, which are already resource-intensive to obtain. To tackle this inefficiency, we present $\textbf{L}$ossl$\textbf{E}$ss $\textbf{MO}$del Expansio$\textbf{N}$ (LEMON), a recipe to initialize scaled models using the weights of their smaller but pre-trained counterparts. This is followed by model training with an optimized learning rate scheduler tailored explicitly for the scaled models, substantially reducing the training time compared to training from scratch. Notably, LEMON is versatile, ensuring compatibility with various network structures, including models like Vision Transformers and BERT. Our empirical results demonstrate that LEMON reduces computational costs by 56.7% for Vision Transformers and 33.2% for BERT when compared to training from scratch.
翻訳日:2023-10-14 13:01:21 公開日:2023-10-12
# ラマン分光器とCARS分光器のベイズニューラルネットワーク訓練のための対数ガウスガンマ過程

Log-Gaussian Gamma Processes for Training Bayesian Neural Networks in Raman and CARS Spectroscopies ( http://arxiv.org/abs/2310.08055v1 )

ライセンス: Link先を確認
Teemu H\"ark\"onen, Erik M. Vartiainen, Lasse Lensu, Matthew T. Moores, and Lassi Roininen(参考訳) 本稿では,ガンマ分布確率変数と対数ガウスモデルを組み合わせて,ニューラルネットワークの学習に適した合成データセットを生成する手法を提案する。 これは、様々な応用における限られた実観測の課題に対処する。 この手法をラマンおよびコヒーレント反ストークスラマン散乱(cars)スペクトルに適用し,実験スペクトルを用いてガンマ過程パラメータを推定する。 パラメータ推定はマルコフ連鎖モンテカルロ法を用いて行われ、合成データ生成のためにサンプル化できるモデルに対してベイズ後部分布を完全化する。 さらに,ガウス過程を持つラマンおよび自動車の加法および乗法背景関数をモデル化する。 ガンマ過程のパラメータを推定するために2つのベイズニューラルネットワークを訓練し、基礎となるラマンスペクトルを推定し、確率分布のパラメータを推定することで不確実性を提供する。 トレーニングされたベイズニューラルネットワークは、フタロシアニンブルー、アニリンブラック、ナフトールレッド、レッド264色素のラマンスペクトルおよびアデノシンリン酸、フルクトース、グルコース、スクロースの実験CARSスペクトルに適用した。 結果は、基礎となるラマンスペクトルとCARSスペクトルの定点推定と一致する。

We propose an approach utilizing gamma-distributed random variables, coupled with log-Gaussian modeling, to generate synthetic datasets suitable for training neural networks. This addresses the challenge of limited real observations in various applications. We apply this methodology to both Raman and coherent anti-Stokes Raman scattering (CARS) spectra, using experimental spectra to estimate gamma process parameters. Parameter estimation is performed using Markov chain Monte Carlo methods, yielding a full Bayesian posterior distribution for the model which can be sampled for synthetic data generation. Additionally, we model the additive and multiplicative background functions for Raman and CARS with Gaussian processes. We train two Bayesian neural networks to estimate parameters of the gamma process which can then be used to estimate the underlying Raman spectrum and simultaneously provide uncertainty through the estimation of parameters of a probability distribution. We apply the trained Bayesian neural networks to experimental Raman spectra of phthalocyanine blue, aniline black, naphthol red, and red 264 pigments and also to experimental CARS spectra of adenosine phosphate, fructose, glucose, and sucrose. The results agree with deterministic point estimates for the underlying Raman and CARS spectral signatures.
翻訳日:2023-10-14 12:53:02 公開日:2023-10-12
# lgl-bci:運動画像に基づく脳-コンピュータインタフェースのための軽量幾何学習フレームワーク

LGL-BCI: A Lightweight Geometric Learning Framework for Motor Imagery-Based Brain-Computer Interfaces ( http://arxiv.org/abs/2310.08051v1 )

ライセンス: Link先を確認
Jianchao Lu, Yuzhe Tian, Yang Zhang, Jiaqi Ge, Quan Z. Sheng and Xi Zheng(参考訳) Brain-Computer Interfaces (BCI) は、脳信号を使って外部デバイスと対話する基盤技術である。 進歩にもかかわらず、脳波(EEG)に基づく運動画像(MI)タスクは、より小さなモデルサイズとより高速な推論を必要とするため、振幅や位相変動、複雑な空間相関といった課題に直面している。 本研究では,非ユークリッド距離空間,特にSymmetric Positive Definite (SPD) Manifold空間における脳波処理にGeometric Deep Learning Frameworkを用いたLGL-BCIフレームワークを提案する。 LGL-BCIは、堅牢なEEGデータ表現を提供し、空間相関をキャプチャする。 本研究では,PSD行列の次元性を低減するための特徴分解アルゴリズムを用いたEEGチャネル選択法を提案する。 大規模な実験により、LGL-BCIの精度と効率は現在のソリューションよりも優れており、MI-BCIアプリケーションにおける幾何学的深層学習の可能性を強調している。 2つのパブリックなEEGデータセットと2つの現実世界のEEGデバイスで評価された効率は、パラメータが少なく(183.7Mと比較して64.9M)、最先端のソリューションの精度(82.54\%対62.22\%$)を大きく上回っている。

Brain-Computer Interfaces (BCIs) are a groundbreaking technology for interacting with external devices using brain signals. Despite advancements, electroencephalogram (EEG)-based Motor Imagery (MI) tasks face challenges like amplitude and phase variability, and complex spatial correlations, with a need for smaller model size and faster inference. This study introduces the LGL-BCI framework, employing a Geometric Deep Learning Framework for EEG processing in non-Euclidean metric spaces, particularly the Symmetric Positive Definite (SPD) Manifold space. LGL-BCI offers robust EEG data representation and captures spatial correlations. We propose an EEG channel selection solution via a feature decomposition algorithm to reduce SPD matrix dimensionality, with a lossless transformation boosting inference speed. Extensive experiments show LGL-BCI's superior accuracy and efficiency compared to current solutions, highlighting geometric deep learning's potential in MI-BCI applications. The efficiency, assessed on two public EEG datasets and two real-world EEG devices, significantly outperforms the state-of-the-art solution in accuracy ($82.54\%$ versus $62.22\%$) with fewer parameters (64.9M compared to 183.7M).
翻訳日:2023-10-14 12:52:37 公開日:2023-10-12
# モデルアーキテクチャと文脈内学習能力の関係を探る

Exploring the Relationship Between Model Architecture and In-Context Learning Ability ( http://arxiv.org/abs/2310.08049v1 )

ライセンス: Link先を確認
Ivan Lee, Nan Jiang, Taylor Berg-Kirkpatrick(参考訳) モデルアーキテクチャとコンテキスト内学習の能力の関係はどのようなものか? この経験的研究では、この質問に答える第一歩を踏み出します。 特に,合成インコンテキスト学習タスク群における15のモデルアーキテクチャを評価する。 選択されたアーキテクチャは、リカレントおよび畳み込みベースのニューラルネットワーク、トランスフォーマー、新興の注意の代替など、幅広いパラダイムを表している。 検討されたアーキテクチャはすべて,特定の条件下でコンテキスト内学習を行うことができる。 しかし、現代のアーキテクチャは、特にタスクの複雑さが増すにつれて、最高のパフォーマンスであることが分かっています。 さらに、我々のフォローアップ実験は、文脈内学習に影響を与える様々な要因を掘り下げる。 ハイパーパラメータ設定に関してアーキテクチャ間の様々な感度を観察する。 トレーニングダイナミクスの研究は、あるアーキテクチャがスムーズでプログレッシブな学習軌道を示し、他のアーキテクチャは停滞の期間を示し、そのタスクの突然の熟達を示す。 このようなアプローチは推論時に一定のサイズのメモリフットプリントを持つため、コンテキスト内学習を膨大な数のインコンテキストサンプルにスケールアップする可能性を開くことになる。

What is the relationship between model architecture and the ability to perform in-context learning? In this empirical study, we take the first steps towards answering this question. In particular, we evaluate fifteen model architectures across a suite of synthetic in-context learning tasks. The selected architectures represent a broad range of paradigms, including recurrent and convolution-based neural networks, transformers, and emerging attention alternatives. We discover that all considered architectures can perform in-context learning under certain conditions. However, contemporary architectures are found to be the best performing, especially as task complexity grows. Additionally, our follow-up experiments delve into various factors that influence in-context learning. We observe varied sensitivities among architectures with respect to hyperparameter settings. Our study of training dynamics reveals that certain architectures exhibit a smooth, progressive learning trajectory, while others demonstrate periods of stagnation followed by abrupt mastery of the task. Finally, and somewhat surprisingly, we find that several emerging attention alternatives are more robust in-context learners than transformers; since such approaches have constant-sized memory footprints at inference time, this result opens the future possibility of scaling up in-context learning to vastly larger numbers of in-context examples.
翻訳日:2023-10-14 12:52:12 公開日:2023-10-12
# EC-Depth:挑戦場面における自己教師付き単眼深度推定の整合性を探る

EC-Depth: Exploring the consistency of self-supervised monocular depth estimation under challenging scenes ( http://arxiv.org/abs/2310.08044v1 )

ライセンス: Link先を確認
Ruijie Zhu, Ziyang Song, Chuxin Wang, Jianfeng He, Tianzhu Zhang(参考訳) 自己教師付き単眼深度推定は、自動運転とロボティクスの分野で重要な意味を持っている。 しかし、既存の手法は通常、クリアで原始的なデータセットを訓練し、テストするために設計され、現実世界のシナリオで一般的な様々な悪条件の影響を見渡している。 その結果, 自己教師付き単眼深度推定手法の多くは, 困難条件下において十分な処理が困難であることがわかった。 この問題に対処するため,異なる摂動下での深度予測整合性の基礎から,頑健な深度推定を実現するための新しい2段階学習フレームワークEC-Depthを提案する。 提案した摂動不変深度制約モジュールと, 整合性に基づく擬似ラベル選択モジュールを利用して, 標準シナリオと挑戦シナリオの両方で精度よく一貫した深度予測を行う。 広範な実験により,提案手法の有効性が検証された。 さらに,本手法は,KITTI,KITTI-C,DrivingStereoベンチマークの既存手法を超越し,実世界のアプリケーションにおける自己監督型分子深度推定モデルの信頼性を高める可能性を示した。

Self-supervised monocular depth estimation holds significant importance in the fields of autonomous driving and robotics. However, existing methods are typically designed to train and test on clear and pristine datasets, overlooking the impact of various adverse conditions prevalent in real-world scenarios. As a result, it is commonly observed that most self-supervised monocular depth estimation methods struggle to perform adequately under challenging conditions. To address this issue, we present EC-Depth, a novel self-supervised two-stage training framework to achieve a robust depth estimation, starting from the foundation of depth prediction consistency under different perturbations. Leveraging the proposed perturbation-invariant depth consistency constraint module and the consistency-based pseudo-label selection module, our model attains accurate and consistent depth predictions in both standard and challenging scenarios. Extensive experiments substantiate the effectiveness of the proposed method. Moreover, our method surpasses existing state-of-the-art methods on KITTI, KITTI-C and DrivingStereo benchmarks, demonstrating its potential for enhancing the reliability of self-supervised monocular depth estimation models in real-world applications.
翻訳日:2023-10-14 12:51:53 公開日:2023-10-12
# Maze-Solving Policy Network の理解と制御

Understanding and Controlling a Maze-Solving Policy Network ( http://arxiv.org/abs/2310.08043v1 )

ライセンス: Link先を確認
Ulisse Mini, Peli Grietzer, Mrinank Sharma, Austin Meek, Monte MacDiarmid, Alexander Matt Turner(参考訳) そこで我々は,AIシステムの目標と目標の表現を理解するために,迷路を解決するための事前訓練された強化学習ポリシーを慎重に研究する。 このネットワークは複数のコンテキスト依存目標を追求しており、これらの目標の1つに対応するネットワーク内の回路をさらに識別する。 特に、ゴールの位置を追跡する11のチャンネルを特定しました。 これらのチャネルを手作りの介入で変更するか、あるいは前方通行を組み合わせることで、ポリシーを部分的に制御できる。 このネットワークには冗長で分散した目標表現が含まれており、トレーニングされたポリシーネットワークにおける目標指向の性質に光を当てている。

To understand the goals and goal representations of AI systems, we carefully study a pretrained reinforcement learning policy that solves mazes by navigating to a range of target squares. We find this network pursues multiple context-dependent goals, and we further identify circuits within the network that correspond to one of these goals. In particular, we identified eleven channels that track the location of the goal. By modifying these channels, either with hand-designed interventions or by combining forward passes, we can partially control the policy. We show that this network contains redundant, distributed, and retargetable goal representations, shedding light on the nature of goal-direction in trained policy networks.
翻訳日:2023-10-14 12:51:30 公開日:2023-10-12
# X-HRNet:空間的一次元自己認識による軽量人文推定に向けて

X-HRNet: Towards Lightweight Human Pose Estimation with Spatially Unidimensional Self-Attention ( http://arxiv.org/abs/2310.08042v1 )

ライセンス: Link先を確認
Yixuan Zhou, Xuanhan Wang, Xing Xu, Lei Zhao, Jingkuan Song(参考訳) 人間のポーズ推定には高分解能な表現が必要であり、それに伴う問題は高い計算複雑性である。 特に,2次元単一ピークヒートマップによるヒト関節の姿勢推定手法が主流である。 それぞれの2次元熱マップは水平および垂直に投影され、一対の1次元熱ベクトルによって再構成される。 この観測に触発されて、深度分離可能な3c3畳み込みにおける主要な計算ボトルネックであるポイントワイド(1x1)畳み込みに対して、軽量で強力な「空間一次元自己認識」(SUSA)を導入する。 我々のSUSAは、ポイントワイド(1x1)畳み込みの計算複雑性を、精度を犠牲にすることなく96%削減する。 さらに、SUSAをメインモジュールとして使用し、軽量なポーズ推定バックボーンX-HRNetを構築します。 COCOベンチマークの大規模な実験は、我々のX-HRNetの優位性を示し、包括的なアブレーション研究は、SUSAモジュールの有効性を示している。 コードはhttps://github.com/cool-xuan/x-hrnetで公開されている。

High-resolution representation is necessary for human pose estimation to achieve high performance, and the ensuing problem is high computational complexity. In particular, predominant pose estimation methods estimate human joints by 2D single-peak heatmaps. Each 2D heatmap can be horizontally and vertically projected to and reconstructed by a pair of 1D heat vectors. Inspired by this observation, we introduce a lightweight and powerful alternative, Spatially Unidimensional Self-Attention (SUSA), to the pointwise (1x1) convolution that is the main computational bottleneck in the depthwise separable 3c3 convolution. Our SUSA reduces the computational complexity of the pointwise (1x1) convolution by 96% without sacrificing accuracy. Furthermore, we use the SUSA as the main module to build our lightweight pose estimation backbone X-HRNet, where `X' represents the estimated cross-shape attention vectors. Extensive experiments on the COCO benchmark demonstrate the superiority of our X-HRNet, and comprehensive ablation studies show the effectiveness of the SUSA modules. The code is publicly available at https://github.com/cool-xuan/x-hrnet.
翻訳日:2023-10-14 12:51:18 公開日:2023-10-12
# QLLM:大規模言語モデルのための高精度で効率的な低ビット幅量子化

QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models ( http://arxiv.org/abs/2310.08041v1 )

ライセンス: Link先を確認
Jing Liu, Ruihao Gong, Xiuying Wei, Zhiwei Dong, Jianfei Cai, Bohan Zhuang(参考訳) 大規模言語モデル(LLM)はNLPで優れているが、その要求は広く展開を妨げている。 量子化アウェアトレーニング(QAT)はソリューションを提供するが、その広範なトレーニングコストは、後量子化(PTQ)をより実践的なアプローチにする。 既存の研究では、特定のチャネルにおけるアクティベーション・アウトレイアがPTQ精度のボトルネックとして認識されている。 彼らはその大きさを活性化から重みに変換することを提案したが、これは限定的な緩和や不安定な勾配に悩まされ、結果として低ビット幅での厳しい性能低下をもたらす。 本稿では,LLMのための高精度かつ効率的な低ビット幅PTQ法であるQLLMを提案する。 QLLMはアダプティブチャネル再組み立て技術を導入し、アウトレーヤの規模を他のチャネルに再配置することで、量子化範囲への影響を緩和する。 これはchannel disassemblyとchannel assemblyによって実現され、最初にoutlierチャンネルを複数のsub-channelに分割することで、アクティベーションのマグニチュードのよりバランスのとれた分散が保証される。 その後、同様のチャンネルをマージして元のチャンネル番号を効率良く維持する。 さらに、チャネル分解のための最適なサブチャネル数を自律的に決定する適応戦略も設計されている。 量子化による性能損失を補うために,事前学習した量子化モデルを凍結しながら少数の低ランク重みのみを学習する効率的なチューニング手法を提案する。 トレーニング後、これらの低ランクパラメータは推論に影響を与えることなく凍結重量に融合することができる。 LLaMA-1とLLaMA-2の大規模な実験は、QLLMが正確な量子化モデルを効率的に得ることを示す。 例えば、QLLMは、1つのA100-80G GPU上で4ビットのLLaMA-2-70Bを10時間以内に量子化し、5つのゼロショットタスクの平均精度を7.89%上回る。

Large Language Models (LLMs) excel in NLP, but their demands hinder their widespread deployment. While Quantization-Aware Training (QAT) offers a solution, its extensive training costs make Post-Training Quantization (PTQ) a more practical approach for LLMs. In existing studies, activation outliers in particular channels are identified as the bottleneck to PTQ accuracy. They propose to transform the magnitudes from activations to weights, which however offers limited alleviation or suffers from unstable gradients, resulting in a severe performance drop at low-bitwidth. In this paper, we propose QLLM, an accurate and efficient low-bitwidth PTQ method designed for LLMs. QLLM introduces an adaptive channel reassembly technique that reallocates the magnitude of outliers to other channels, thereby mitigating their impact on the quantization range. This is achieved by channel disassembly and channel assembly, which first breaks down the outlier channels into several sub-channels to ensure a more balanced distribution of activation magnitudes. Then similar channels are merged to maintain the original channel number for efficiency. Additionally, an adaptive strategy is designed to autonomously determine the optimal number of sub-channels for channel disassembly. To further compensate for the performance loss caused by quantization, we propose an efficient tuning method that only learns a small number of low-rank weights while freezing the pre-trained quantized model. After training, these low-rank parameters can be fused into the frozen weights without affecting inference. Extensive experiments on LLaMA-1 and LLaMA-2 show that QLLM can obtain accurate quantized models efficiently. For example, QLLM quantizes the 4-bit LLaMA-2-70B within 10 hours on a single A100-80G GPU, outperforming the previous state-of-the-art method by 7.89% on the average accuracy across five zero-shot tasks.
翻訳日:2023-10-14 12:51:00 公開日:2023-10-12
# SEE-OoD: アウト・オブ・ディストリビューション検出のための改良された探索

SEE-OoD: Supervised Exploration For Enhanced Out-of-Distribution Detection ( http://arxiv.org/abs/2310.08040v1 )

ライセンス: Link先を確認
Xiaoyang Song, Wenbo Sun, Maher Nouiehed, Raed Al Kontar, Judy Jin(参考訳) 現在のout-of-distribution(ood)検出技術は、主に予測の不確かさの定量化と、実または合成のoodサンプルを用いたトレーニング段階でのモデル正規化に依拠している。 しかし、実際のoodサンプルを使用する方法は探索に乏しく、手元にあるoodサンプルを過剰に利用しがちである。 合成サンプルは、訓練データから抽出された特徴に基づいてしばしば生成されるが、訓練データとOoDデータが特徴空間内で重なり合う場合、それらの効果は低下する。 そこで本研究では,ood検出精度を向上させるためのwasserstein-scoreによる生成的逆行訓練手法を提案する。 具体的には、生成器がood空間を探索し、識別器からのフィードバックを用いて合成oodサンプルを生成する一方、判別器は、予め定義されたwasersteinスコアを用いてood検出のために観測および合成されたサンプルの両方を利用する。 提案手法の最適解は,経験的条件下での対人訓練によって統計的に達成可能であることを理論的に保証する。 提案手法は,様々なコンピュータビジョンデータセットの最先端技術より優れており,OoDデータに対して優れた一般化性を示す。

Current techniques for Out-of-Distribution (OoD) detection predominantly rely on quantifying predictive uncertainty and incorporating model regularization during the training phase, using either real or synthetic OoD samples. However, methods that utilize real OoD samples lack exploration and are prone to overfit the OoD samples at hand. Whereas synthetic samples are often generated based on features extracted from training data, rendering them less effective when the training and OoD data are highly overlapped in the feature space. In this work, we propose a Wasserstein-score-based generative adversarial training scheme to enhance OoD detection accuracy, which, for the first time, performs data augmentation and exploration simultaneously under the supervision of limited OoD samples. Specifically, the generator explores OoD spaces and generates synthetic OoD samples using feedback from the discriminator, while the discriminator exploits both the observed and synthesized samples for OoD detection using a predefined Wasserstein score. We provide theoretical guarantees that the optimal solutions of our generative scheme are statistically achievable through adversarial training in empirical settings. We then demonstrate that the proposed method outperforms state-of-the-art techniques on various computer vision datasets and exhibits superior generalizability to unseen OoD data.
翻訳日:2023-10-14 12:50:28 公開日:2023-10-12
# 大規模プレグレードシステムの再考:エンチアチェーンクロスドメインモデル

Rethinking Large-scale Pre-ranking System: Entire-chain Cross-domain Models ( http://arxiv.org/abs/2310.08039v1 )

ライセンス: Link先を確認
Jinbo Song (1), Ruoran Huang (1), Xinyang Wang (1), Wei Huang (1), Qian Yu (1), Mingming Chen (1), Yafei Yao (1), Chaosheng Fan (1), Changping Peng (1), Zhangang Lin (1), Jinghe Hu (1), Jingping Shao (1) ((1) Marketing and Commercialization Center, JD.com)(参考訳) レコメンダシステムやオンライン広告といった産業システムは、マッチング、プレランク、ランク付け、再ランク付けを含むいくつかのカスケードモジュールに分割された多段階アーキテクチャを広く備えている。 マッチングとランキングの間に重要な橋渡しとして、既存のプリグレードのアプローチは主に、チェーン全体のデータ依存を無視した耐久サンプル選択バイアス(SSB)の問題である。 本稿では, サンプル空間全体の観点から, 事前評価システムを再考し, カスケードステージ全体のサンプルを活用する全鎖クロスドメインモデル(ecm)を提案し, ssb問題を効果的に解決する。 さらに,先行精度を向上させるために,ECMMと呼ばれる微細なニューラルネットワーク構造を設計する。 具体的には、各ステージ結果を網羅的に予測するクロスドメインマルチトワーニューラルネットワークを提案し、計算コストを削減するために、$L0$正規化によるサブネットワークルーティング戦略を導入する。 実世界の大規模トラヒックログの評価では、私たちのプレグレードモデルはSOTA法より優れており、時間消費は許容範囲内で維持され、効率と有効性の間のトレードオフがより良好であることを示す。

Industrial systems such as recommender systems and online advertising, have been widely equipped with multi-stage architectures, which are divided into several cascaded modules, including matching, pre-ranking, ranking and re-ranking. As a critical bridge between matching and ranking, existing pre-ranking approaches mainly endure sample selection bias (SSB) problem owing to ignoring the entire-chain data dependence, resulting in sub-optimal performances. In this paper, we rethink pre-ranking system from the perspective of the entire sample space, and propose Entire-chain Cross-domain Models (ECM), which leverage samples from the whole cascaded stages to effectively alleviate SSB problem. Besides, we design a fine-grained neural structure named ECMM to further improve the pre-ranking accuracy. Specifically, we propose a cross-domain multi-tower neural network to comprehensively predict for each stage result, and introduce the sub-networking routing strategy with $L0$ regularization to reduce computational costs. Evaluations on real-world large-scale traffic logs demonstrate that our pre-ranking models outperform SOTA methods while time consumption is maintained within an acceptable level, which achieves better trade-off between efficiency and effectiveness.
翻訳日:2023-10-14 12:50:03 公開日:2023-10-12
# マニフォールド展開再生による連続学習

Continual Learning via Manifold Expansion Replay ( http://arxiv.org/abs/2310.08038v1 )

ライセンス: Link先を確認
Zihao Xu, Xuan Tang, Yufei Shi, Jianfeng Zhang, Jian Yang, Mingsong Chen, Xian Wei(参考訳) 連続学習では、学習者は複数のタスクを連続して学習し、各タスクに一度だけ取得する。 破滅的な忘れは継続的な学習にとって大きな課題である。 忘れることを減らすために、既存のリハーサルベースのメソッドでは、エピソードメモリを使用して以前のタスクのサンプルを再生する。 しかし,新しい課題を学習する際の知識統合の過程において,この戦略は,旧知識と新知識のバランスの相違による破滅的な忘れ込みにも悩まされる。 この問題に対処するために,manifold Expansion Replay (MaER) と呼ばれる新しい再生戦略を提案する。 エピソード記憶における知識表現の暗黙的多様体の拡大は、モデルの堅牢性と表現性を改善するのに有効である。 この目的のために,メモリ管理中にバッファ内の知識によって表される暗黙多様体の直径を増加させ続けるための欲望戦略を提案する。 さらに, クロスエントロピーの代わりにワッサースタイン距離を蒸留損失として導入し, 従来の知識を保存した。 提案手法は, MNIST, CIFAR10, CIFAR100, TinyImageNetに対する広範囲な検証により, 連続学習における精度を向上し, 芸術性に優れることを示す。

In continual learning, the learner learns multiple tasks in sequence, with data being acquired only once for each task. Catastrophic forgetting is a major challenge to continual learning. To reduce forgetting, some existing rehearsal-based methods use episodic memory to replay samples of previous tasks. However, in the process of knowledge integration when learning a new task, this strategy also suffers from catastrophic forgetting due to an imbalance between old and new knowledge. To address this problem, we propose a novel replay strategy called Manifold Expansion Replay (MaER). We argue that expanding the implicit manifold of the knowledge representation in the episodic memory helps to improve the robustness and expressiveness of the model. To this end, we propose a greedy strategy to keep increasing the diameter of the implicit manifold represented by the knowledge in the buffer during memory management. In addition, we introduce Wasserstein distance instead of cross entropy as distillation loss to preserve previous knowledge. With extensive experimental validation on MNIST, CIFAR10, CIFAR100, and TinyImageNet, we show that the proposed method significantly improves the accuracy in continual learning setup, outperforming the state of the arts.
翻訳日:2023-10-14 12:49:41 公開日:2023-10-12
# Scribble AnnotationとShape Priorによるボリューム医用画像分割

Volumetric Medical Image Segmentation via Scribble Annotations and Shape Priors ( http://arxiv.org/abs/2310.08084v1 )

ライセンス: Link先を確認
Qiuhui Chen, Haiying Lyu, Xinyue Hu, Yong Lu, Yi Hong(参考訳) 近年,scribblesのような弱いアノテーションを用いた弱教師付き画像分割は,ピクセル/ボクセルレベルでの時間消費や労働集約的なラベル付けに比べてはるかに容易に得られるため,コンピュータビジョンや医用画像解析において大きな注目を集めている。 しかし、関心領域(ROI)の構造管理が欠如しているため、既存のスクリブルベースの手法では境界のローカライゼーションが不十分である。 さらに、現在のほとんどの手法は2次元画像分割のために設計されており、各画像スライスに直接適用しても体積情報を十分に活用していない。 本稿では,3次元異方性画像分割に取り組み,境界予測の改善を目指すscribble-based volumetric image segmentation,scribble2d5を提案する。 これを実現するために,提案するラベル伝搬モジュールを用いて2.5D注目UNetを拡張し,スクリブルからの意味情報を拡張し,静的境界予測とアクティブ境界予測を組み合わせてROIの境界を学習し,その形状を規則化する。 また,非ペア化セグメンテーションマスクの形状先行情報を取り入れ,モデルの精度をさらに向上させるアドオンコンポーネントを提案する。 3つの公開データセットと1つのプライベートデータセットに関する大規模な実験は、Scribble2D5が利用可能な場合、スクリブルと形状を使用してボリューム画像セグメンテーションの最先端のパフォーマンスを達成することを実証している。

Recently, weakly-supervised image segmentation using weak annotations like scribbles has gained great attention in computer vision and medical image analysis, since such annotations are much easier to obtain compared to time-consuming and labor-intensive labeling at the pixel/voxel level. However, due to a lack of structure supervision on regions of interest (ROIs), existing scribble-based methods suffer from poor boundary localization. Furthermore, most current methods are designed for 2D image segmentation, which do not fully leverage the volumetric information if directly applied to each image slice. In this paper, we propose a scribble-based volumetric image segmentation, Scribble2D5, which tackles 3D anisotropic image segmentation and aims to its improve boundary prediction. To achieve this, we augment a 2.5D attention UNet with a proposed label propagation module to extend semantic information from scribbles and use a combination of static and active boundary prediction to learn ROI's boundary and regularize its shape. Also, we propose an optional add-on component, which incorporates the shape prior information from unpaired segmentation masks to further improve model accuracy. Extensive experiments on three public datasets and one private dataset demonstrate our Scribble2D5 achieves state-of-the-art performance on volumetric image segmentation using scribbles and shape prior if available.
翻訳日:2023-10-14 12:43:42 公開日:2023-10-12
# 共同最適化によるUAVのグローバルローカライズ

Jointly Optimized Global-Local Visual Localization of UAVs ( http://arxiv.org/abs/2310.08082v1 )

ライセンス: Link先を確認
Haoling Li, Jiuniu Wang, Zhiwei Wei, Wenjia Xu(参考訳) UAVのナビゲーションとローカライゼーションは、グローバルナビゲーション衛星システム(GNSS)が破壊され、信頼性が低い場合に課題となる。 同時ローカライゼーションとマッピング(SLAM)やビジュアル・オドメトリー(VO)といった従来の手法は、絶対座標の整備や誤差蓄積の軽減に一定の制限を課している。 既存の視覚的ローカライゼーション手法は, 衛星画像とのマッチングにより, 誤差蓄積のない自律的な視覚的ローカライゼーションを実現する。 しかし、複雑なマッチングプロセスのため、リアルタイムのパフォーマンスを保証することはできない。 これらの課題に対処するため,我々はGlobal-Local Visual Localization (GLVL) ネットワークを提案する。 我々のGLVLネットワークは2段階の視覚的ローカライズ手法であり、UAV飛行シーンと類似した領域を見つける大規模な検索モジュールと、正確なUAV座標をローカライズし、リアルタイムかつ正確なローカライズを可能にするきめ細かいマッチングモジュールを組み合わせる。 トレーニングプロセスは、モデル能力をさらに強化するために、エンドツーエンドで共同最適化される。 テクスチャリッチ領域とテクスチャスパース領域の両方を含む6つのUAV飛行シーンの実験は、UAVの正確な位置決めをリアルタイムに行う能力を示す。 特に, 村の場面では, テクスチャの少ない2.39mのローカライズ誤差を0.48秒で達成した。

Navigation and localization of UAVs present a challenge when global navigation satellite systems (GNSS) are disrupted and unreliable. Traditional techniques, such as simultaneous localization and mapping (SLAM) and visual odometry (VO), exhibit certain limitations in furnishing absolute coordinates and mitigating error accumulation. Existing visual localization methods achieve autonomous visual localization without error accumulation by matching with ortho satellite images. However, doing so cannot guarantee real-time performance due to the complex matching process. To address these challenges, we propose a novel Global-Local Visual Localization (GLVL) network. Our GLVL network is a two-stage visual localization approach, combining a large-scale retrieval module that finds similar regions with the UAV flight scene, and a fine-grained matching module that localizes the precise UAV coordinate, enabling real-time and precise localization. The training process is jointly optimized in an end-to-end manner to further enhance the model capability. Experiments on six UAV flight scenes encompassing both texture-rich and texture-sparse regions demonstrate the ability of our model to achieve the real-time precise localization requirements of UAVs. Particularly, our method achieves a localization error of only 2.39 meters in 0.48 seconds in a village scene with sparse texture features.
翻訳日:2023-10-14 12:43:13 公開日:2023-10-12
# To token or not to token: A Comparison Study of Text Representations for Cross-Lingual Transfer (特集:英語)

To token or not to token: A Comparative Study of Text Representations for Cross-Lingual Transfer ( http://arxiv.org/abs/2310.08078v1 )

ライセンス: Link先を確認
Md Mushfiqur Rahman, Fardin Ahsan Sakib, Fahim Faisal, Antonios Anastasopoulos(参考訳) 適切なトークン化スキームを選択することは、低リソースの言語間転送においてしばしばボトルネックとなる。 テキスト表現選択の下流的な意味を理解するために、2つのセグメンテーションベースモデル (\texttt{bert}, \texttt{mbert}), 1つのイメージベースモデル (\texttt{pixel}), 1つの文字レベルモデル (\texttt{canine}) を含む多様なテキスト表現モダリティを持つ言語モデルの比較分析を行う。 まず、ゼロショットと少数ショットの両方の評価を重み付けした表現を提供するためのスコアリング言語量(LQ)メトリクスを提案する。 この指標を用いることで、3つのタスク(POSタグ付け、依存性解析、NER)で19のソース言語と133のターゲット言語からなる実験を行う。 解析の結果,言語が密接に関連し,視覚的に類似したスクリプトを共有する場合,画像ベースモデルは言語間移動に優れることがわかった。 しかし、単語の意味(POS, NER)に偏ったタスクの場合、セグメンテーションに基づくモデルの方が優れていることが判明した。 さらに、単語関係が重要な役割を果たす依存関係解析タスクでは、文字レベルでのモデルが他よりも優れています。 最後に,課題や言語要件に応じたモデル選択を指導するための提案手法を提案する。

Choosing an appropriate tokenization scheme is often a bottleneck in low-resource cross-lingual transfer. To understand the downstream implications of text representation choices, we perform a comparative analysis on language models having diverse text representation modalities including 2 segmentation-based models (\texttt{BERT}, \texttt{mBERT}), 1 image-based model (\texttt{PIXEL}), and 1 character-level model (\texttt{CANINE}). First, we propose a scoring Language Quotient (LQ) metric capable of providing a weighted representation of both zero-shot and few-shot evaluation combined. Utilizing this metric, we perform experiments comprising 19 source languages and 133 target languages on three tasks (POS tagging, Dependency parsing, and NER). Our analysis reveals that image-based models excel in cross-lingual transfer when languages are closely related and share visually similar scripts. However, for tasks biased toward word meaning (POS, NER), segmentation-based models prove to be superior. Furthermore, in dependency parsing tasks where word relationships play a crucial role, models with their character-level focus, outperform others. Finally, we propose a recommendation scheme based on our findings to guide model selection according to task and language requirements.
翻訳日:2023-10-14 12:42:48 公開日:2023-10-12
# 薄氷のサンプル:ニューラルネットワークの逆解析の再評価

Samples on Thin Ice: Re-Evaluating Adversarial Pruning of Neural Networks ( http://arxiv.org/abs/2310.08073v1 )

ライセンス: Link先を確認
Giorgio Piras, Maura Pintor, Ambra Demontis, Battista Biggio(参考訳) ニューラルネットワークのプルーニングは、ネットワークサイズを減らし、一般化や高頻度の敵攻撃に対する堅牢性といった望ましい特性を交換する効果的な手法であることが示されている。 近年の研究では、逆算法はスパースネットワークを生成できるが、逆算例に対する堅牢性は維持できると主張している。 本研究は,まず,3つの最先端逆算法を再評価し,その頑健さを過大評価したことを示す。 次に、同じモデルのプルーニング版と密度の高いバージョンを比較し、薄氷上のサンプル、すなわち未切断モデルの決定境界に近いものは、プルーニング後に誤って分類される。 我々は,この直感が今後の作業において,より効果的な対向的プルーニング手法の設計につながる可能性について論じる。

Neural network pruning has shown to be an effective technique for reducing the network size, trading desirable properties like generalization and robustness to adversarial attacks for higher sparsity. Recent work has claimed that adversarial pruning methods can produce sparse networks while also preserving robustness to adversarial examples. In this work, we first re-evaluate three state-of-the-art adversarial pruning methods, showing that their robustness was indeed overestimated. We then compare pruned and dense versions of the same models, discovering that samples on thin ice, i.e., closer to the unpruned model's decision boundary, are typically misclassified after pruning. We conclude by discussing how this intuition may lead to designing more effective adversarial pruning methods in future work.
翻訳日:2023-10-14 12:42:19 公開日:2023-10-12
# インストラクテッド・モーから得られた合成データに対する学習的質問応答

Training Generative Question-Answering on Synthetic Data Obtained from an Instruct-tuned Mo ( http://arxiv.org/abs/2310.08072v1 )

ライセンス: Link先を確認
Kosuke Takahashi, Takahiro Omi, Kosuke Arima, Tatsuya Ishigaki(参考訳) 本稿では,質問応答システムの学習のための簡易かつ費用対効果の高いデータ合成手法を提案する。 トレーニングでは、英語のような資源豊富な言語では微調整のGPTモデルが一般的であるが、十分な質問応答(QA)ペアが不足しているため、英語以外の言語では難しい。 既存のアプローチでは、人間によるQAペアで訓練された質問と回答ジェネレータを使用している。 対照的に、命令付きモデルを用いてゼロショットまたは少数ショットでQAペアを生成する。 インストラクション学習モデルからQAペアを得るための様々な戦略を比較する実験を行った。 その結果,提案する合成データに基づいて学習したモデルは,人的コストを伴わずに,手作業で収集したデータセットでトレーニングされたモデルに匹敵する性能が得られることがわかった。

This paper presents a simple and cost-effective method for synthesizing data to train question-answering systems. For training, fine-tuning GPT models is a common practice in resource-rich languages like English, however, it becomes challenging for non-English languages due to the scarcity of sufficient question-answer (QA) pairs. Existing approaches use question and answer generators trained on human-authored QA pairs, which involves substantial human expenses. In contrast, we use an instruct-tuned model to generate QA pairs in a zero-shot or few-shot manner. We conduct experiments to compare various strategies for obtaining QA pairs from the instruct-tuned model. The results demonstrate that a model trained on our proposed synthetic data achieves comparable performance to a model trained on manually curated datasets, without incurring human costs.
翻訳日:2023-10-14 12:42:03 公開日:2023-10-12
# 教師なしドメイン適応のための学習伝達型概念プロトタイプ

Learning Transferable Conceptual Prototypes for Interpretable Unsupervised Domain Adaptation ( http://arxiv.org/abs/2310.08071v1 )

ライセンス: Link先を確認
Junyu Gao, Xinhong Ma, Changsheng Xu(参考訳) 深いニューラルネットワークによる教師なしドメイン適応(UDA)の大きな進歩にもかかわらず、現在のUDAモデルは不透明であり、有望な説明を提供できず、安全で制御可能なモデル決定を必要とするシナリオでのアプリケーションを制限する。 現在、適切なデータアノテーションを用いた深い解釈可能なメソッドの設計に焦点が当てられ、分散シフトの問題を考えるメソッドはごくわずかである。 既存の解釈可能なUDA法の多くはポストホック法であり、性能向上のためのモデル学習プロセスを容易にすることはできない。 本稿では, UDAにおける知識伝達と意思決定のプロセスを同時に解釈し, 改善できるTransferable Conceptual Prototype Learning (TCPL) という, 本質的に解釈可能な手法を提案する。 この目的を達成するために、ソースドメインからターゲットドメインにカテゴリの基本概念を転送する階層的なプロトタイプモジュールを設計し、基礎となる推論プロセスを説明するためにドメイン共有プロトタイプを学習する。 学習可能なプロトタイプでは、自信、予測、プロトタイプ情報を融合した自己予測的一貫した擬似ラベル戦略が、擬似アノテーションに適したターゲットサンプルを選択し、徐々にドメインギャップを狭めるように設計されている。 包括的実験により,提案手法は効果的かつ直感的な説明を提供するだけでなく,従来の最先端技術よりも優れることが示された。

Despite the great progress of unsupervised domain adaptation (UDA) with the deep neural networks, current UDA models are opaque and cannot provide promising explanations, limiting their applications in the scenarios that require safe and controllable model decisions. At present, a surge of work focuses on designing deep interpretable methods with adequate data annotations and only a few methods consider the distributional shift problem. Most existing interpretable UDA methods are post-hoc ones, which cannot facilitate the model learning process for performance enhancement. In this paper, we propose an inherently interpretable method, named Transferable Conceptual Prototype Learning (TCPL), which could simultaneously interpret and improve the processes of knowledge transfer and decision-making in UDA. To achieve this goal, we design a hierarchically prototypical module that transfers categorical basic concepts from the source domain to the target domain and learns domain-shared prototypes for explaining the underlying reasoning process. With the learned transferable prototypes, a self-predictive consistent pseudo-label strategy that fuses confidence, predictions, and prototype information, is designed for selecting suitable target samples for pseudo annotations and gradually narrowing down the domain gap. Comprehensive experiments show that the proposed method can not only provide effective and intuitive explanations but also outperform previous state-of-the-arts.
翻訳日:2023-10-14 12:41:47 公開日:2023-10-12
# コード検索における負のペアの再検討

Rethinking Negative Pairs in Code Search ( http://arxiv.org/abs/2310.08069v1 )

ライセンス: Link先を確認
Haochen Li, Xin Zhou, Luu Anh Tuan, Chunyan Miao(参考訳) 近年,ソフトウェア開発の効率化と効率化のために,コード検索モデルの微調整において,コントラスト学習が重要な要素となっている。 検索クエリの負のサンプルをプッシュしながら、ポジティブなコードスニペットをまとめます。 対照的に、InfoNCEはより優れたパフォーマンスのために最も広く使われている損失関数である。 しかし、インフォランスの負のサンプルにおける以下の問題は、その表現学習を損なう可能性がある: 1) 重複によって大きなコードコーパスに偽の負のサンプルが存在する。 2). 負のサンプルの潜在的な関連性をはっきりと区別できない。 例えば、バブルソートアルゴリズムの例では、クイックソートアルゴリズムクエリのファイル保存関数よりも ``negative''' の方が少ない。 本稿では,重み項をInfoNCEに挿入する簡易で効果的なSoft-InfoNCE損失を提案する。 提案した損失関数では,負対の重みを推定するために3つの手法を適用し,バニラInfoNCE損失がSoft-InfoNCEの特別な場合であることを示す。 理論的には、ソフトインフォデンスが学習コード表現の分布制御とより正確な相互情報推定に与える影響を分析した。 さらに,提案する損失関数と他の設計手法との優位性について考察する。 広範な実験により、6つのプログラミング言語からなる大規模公開データセット上の最先端コード探索モデルにおけるソフトインフォデンスおよび重み付け推定手法の有効性が実証された。 ソースコードは \url{https://github.com/Alex-HaochenLi/Soft-InfoNCE} で入手できる。

Recently, contrastive learning has become a key component in fine-tuning code search models for software development efficiency and effectiveness. It pulls together positive code snippets while pushing negative samples away given search queries. Among contrastive learning, InfoNCE is the most widely used loss function due to its better performance. However, the following problems in negative samples of InfoNCE may deteriorate its representation learning: 1) The existence of false negative samples in large code corpora due to duplications. 2). The failure to explicitly differentiate between the potential relevance of negative samples. As an example, a bubble sorting algorithm example is less ``negative'' than a file saving function for the quick sorting algorithm query. In this paper, we tackle the above problems by proposing a simple yet effective Soft-InfoNCE loss that inserts weight terms into InfoNCE. In our proposed loss function, we apply three methods to estimate the weights of negative pairs and show that the vanilla InfoNCE loss is a special case of Soft-InfoNCE. Theoretically, we analyze the effects of Soft-InfoNCE on controlling the distribution of learnt code representations and on deducing a more precise mutual information estimation. We furthermore discuss the superiority of proposed loss functions with other design alternatives. Extensive experiments demonstrate the effectiveness of Soft-InfoNCE and weights estimation methods under state-of-the-art code search models on a large-scale public dataset consisting of six programming languages. Source code is available at \url{https://github.com/Alex-HaochenLi/Soft-InfoNCE}.
翻訳日:2023-10-14 12:41:22 公開日:2023-10-12
# GameGPT:ゲーム開発のためのマルチエージェント協調フレームワーク

GameGPT: Multi-agent Collaborative Framework for Game Development ( http://arxiv.org/abs/2310.08067v1 )

ライセンス: Link先を確認
Dake Chen, Hanbin Wang, Yunhao Huo, Yuzhao Li, Haoyang Zhang(参考訳) 大規模言語モデル(LLM)ベースのエージェントは、ソフトウェア開発プロセスの自動化と高速化の能力を示した。 本稿では,ゲーム開発に焦点をあて,ゲーム開発を自動化するマルチエージェント協調フレームワークであるGameGPTを提案する。 多くの研究が幻覚をllmを本番環境に配備するための主要な障害であると指摘しているが、別の懸念は冗長性である。 我々のフレームワークは、両方の懸念を緩和する一連の方法を提示します。 これらの方法には、計画、タスクの識別、実装フェーズにおける幻覚と冗長性を軽減するため、複数の社内レキシコンによる二重コラボレーションと階層化アプローチが含まれる。 さらに、より正確なコード生成を実現するために、デカップリングアプローチも導入されている。

The large language model (LLM) based agents have demonstrated their capacity to automate and expedite software development processes. In this paper, we focus on game development and propose a multi-agent collaborative framework, dubbed GameGPT, to automate game development. While many studies have pinpointed hallucination as a primary roadblock for deploying LLMs in production, we identify another concern: redundancy. Our framework presents a series of methods to mitigate both concerns. These methods include dual collaboration and layered approaches with several in-house lexicons, to mitigate the hallucination and redundancy in the planning, task identification, and implementation phases. Furthermore, a decoupling approach is also introduced to achieve code generation with better precision.
翻訳日:2023-10-14 12:41:03 公開日:2023-10-12
# グラフ畳み込みネットワークとマルチヘッド注意機構に基づく年齢推定

Age Estimation Based on Graph Convolutional Networks and Multi-head Attention Mechanisms ( http://arxiv.org/abs/2310.08064v1 )

ライセンス: Link先を確認
Miaomiao Yang, Changwei Yao, Shijin Yan(参考訳) 年齢推定技術は顔認識の一部であり、アイデンティティ認証に応用されている。 本技術は,ゲーム中のユーザを認証することで,少年用アンチアドディションシステムの開発と適用を実現する。 このアプリケーションシナリオでは畳み込みニューラルネットワーク(CNN)とトランスフォーマーアルゴリズムが広く利用されている。 しかし、この2つのモデルは不規則な形状の顔の特徴を柔軟に抽出・モデル化することはできず、鍵となる情報を取り込むのに役立たない。 さらに、上記のメソッドは、モデルに干渉する機能を抽出する間、多くのバックグラウンド情報を含んでいる。 その結果、画像から冗長な情報を抽出することは容易である。 本稿では,不規則な物体を柔軟にモデル化できる新しいモデリング手法を提案する。 グラフ畳み込みネットワーク(GCN)は、不規則な顔画像から特徴を効果的に抽出するために使用され、冗長な特徴を回避し、画像内のキー領域情報をキャプチャするマルチヘッドアテンション機構が追加される。 このモデルは、年齢推定の精度を効果的に向上させ、MAE誤差値を現在の年齢推定モデルよりも優れている約3.64に削減し、顔認識とアイデンティティ認証の精度を向上させる。

Age estimation technology is a part of facial recognition and has been applied to identity authentication. This technology achieves the development and application of a juvenile anti-addiction system by authenticating users in the game. Convolutional Neural Network (CNN) and Transformer algorithms are widely used in this application scenario. However, these two models cannot flexibly extract and model features of faces with irregular shapes, and they are ineffective in capturing key information. Furthermore, the above methods will contain a lot of background information while extracting features, which will interfere with the model. In consequence, it is easy to extract redundant information from images. In this paper, a new modeling idea is proposed to solve this problem, which can flexibly model irregular objects. The Graph Convolutional Network (GCN) is used to extract features from irregular face images effectively, and multi-head attention mechanisms are added to avoid redundant features and capture key region information in the image. This model can effectively improve the accuracy of age estimation and reduce the MAE error value to about 3.64, which is better than the effect of today's age estimation model, to improve the accuracy of face recognition and identity authentication.
翻訳日:2023-10-14 12:40:52 公開日:2023-10-12
# ラベル比率から学ぶ: 信念伝達による教師付き学習者のブートストラップ

Learning from Label Proportions: Bootstrapping Supervised Learners via Belief Propagation ( http://arxiv.org/abs/2310.08056v1 )

ライセンス: Link先を確認
Shreyas Havaldar, Navodita Sharma, Shubhi Sareen, Karthikeyan Shanmugam, Aravindan Raghuveer(参考訳) Label Proportions(LLP)からの学習(Learning from Label Proportions)は、トレーニング中のバッグと呼ばれるインスタンスのグループに対して、アグリゲートレベルのラベルしか利用できない学習問題である。 この設定は、プライバシー上の考慮から広告や医療といった領域で発生する。 そこで本研究では,2つの主要なステップを反復的に実行する新しいアルゴリズムフレームワークを提案する。 イテレーション毎に最初のステップ(Pseudo Labeling)として、バイナリインスタンスラベルを組み込んだGibbsディストリビューションを定義します。 a) 類似の共変量を持つインスタンスが類似のラベルを持つべきという制約により、共変量情報 b)バッグレベル集約ラベル。 次に,Belief Propagation (BP) を用いてギブス分布を疎外し,擬似ラベルを得る。 第2のステップ(改良の埋め込み)では、擬似ラベルを使用して学習者の監督を行い、よりよい埋め込みを得る。 さらに、第2ステップの埋め込みを次のイテレーションの新しい共変数として使用して、2つのステップを繰り返す。 最後のイテレーションでは、擬似ラベルを使用して分類器を訓練する。 本アルゴリズムは,表型および画像型のLLPバイナリ分類問題に対して,複数のSOTAベースライン(最大15%)に対して強い利得を示す。 我々は,100万個のサンプルであっても,Belief Propagationによる標準的な教師あり学習よりも計算オーバーヘッドが最小限に抑えられたこれらの改善を実現する。

Learning from Label Proportions (LLP) is a learning problem where only aggregate level labels are available for groups of instances, called bags, during training, and the aim is to get the best performance at the instance-level on the test data. This setting arises in domains like advertising and medicine due to privacy considerations. We propose a novel algorithmic framework for this problem that iteratively performs two main steps. For the first step (Pseudo Labeling) in every iteration, we define a Gibbs distribution over binary instance labels that incorporates a) covariate information through the constraint that instances with similar covariates should have similar labels and b) the bag level aggregated label. We then use Belief Propagation (BP) to marginalize the Gibbs distribution to obtain pseudo labels. In the second step (Embedding Refinement), we use the pseudo labels to provide supervision for a learner that yields a better embedding. Further, we iterate on the two steps again by using the second step's embeddings as new covariates for the next iteration. In the final iteration, a classifier is trained using the pseudo labels. Our algorithm displays strong gains against several SOTA baselines (up to 15%) for the LLP Binary Classification problem on various dataset types - tabular and Image. We achieve these improvements with minimal computational overhead above standard supervised learning due to Belief Propagation, for large bag sizes, even for a million samples.
翻訳日:2023-10-14 12:40:34 公開日:2023-10-12
# 誰が書いたの? オーサシップ検証のための大規模言語モデルの提案

Who Wrote it and Why? Prompting Large-Language Models for Authorship Verification ( http://arxiv.org/abs/2310.08123v1 )

ライセンス: Link先を確認
Chia-Yu Hung, Zhiqiang Hu, Yujia Hu, Roy Ka-Wei Lee(参考訳) オーサシップ検証(AV)は自然言語処理(NLP)と計算言語学の基本的な課題であり、法医学的分析、盗作検出、偽装コンテンツの識別に応用されている。 従来のスタイルおよびディープラーニングアプローチを含む既存のAV技術は、データ要件と説明可能性の欠如の観点から制限に直面している。 これらの制約に対処するため,AVのためのLarge-Language Models (LLMs) を利用した新しい手法であるPromptAVを提案する。 PromptAVは最先端のベースラインより優れており、限られたトレーニングデータで効果的に動作し、直感的な説明を通じて解釈可能性を高め、AVタスクの効果的かつ解釈可能なソリューションとしての可能性を示している。

Authorship verification (AV) is a fundamental task in natural language processing (NLP) and computational linguistics, with applications in forensic analysis, plagiarism detection, and identification of deceptive content. Existing AV techniques, including traditional stylometric and deep learning approaches, face limitations in terms of data requirements and lack of explainability. To address these limitations, this paper proposes PromptAV, a novel technique that leverages Large-Language Models (LLMs) for AV by providing step-by-step stylometric explanation prompts. PromptAV outperforms state-of-the-art baselines, operates effectively with limited training data, and enhances interpretability through intuitive explanations, showcasing its potential as an effective and interpretable solution for the AV task.
翻訳日:2023-10-14 12:33:05 公開日:2023-10-12
# 生成固有の最適化:モデル学習による帰納的制御

Generative Intrinsic Optimization: Intrisic Control with Model Learning ( http://arxiv.org/abs/2310.08100v1 )

ライセンス: Link先を確認
Jianfei Ma(参考訳) 将来のシーケンスは、環境へのアクションの実行後の結果を表す。 情報理論的な相互情報の概念に駆り立てられると、最大の情報的結果を求める。 明示的な成果は、クレジットの割り当てや模倣学習のような異なる目的のために、州、返却、軌跡によって異なりうる。 しかし、内在的な動機づけと報酬の最大化を組み込む本質的な性質はしばしば無視される。 本研究は,相互情報とダイナミクスモデルの推定に必要な量とを共同で学習するための変分的アプローチを提案し,異なる形態の利害関係を組み込むための一般的な枠組みを提供する。 ポリシーイテレーションスキームに統合することで、このアプローチは最適なポリシーへの収束を保証する。 我々は主に理論分析に焦点を絞るが,本手法は本質的制御をモデル学習で活用し,サンプル効率を高め,環境の不確実性を意思決定に取り入れる可能性を開く。

Future sequence represents the outcome after executing the action into the environment. When driven by the information-theoretic concept of mutual information, it seeks maximally informative consequences. Explicit outcomes may vary across state, return, or trajectory serving different purposes such as credit assignment or imitation learning. However, the inherent nature of incorporating intrinsic motivation with reward maximization is often neglected. In this work, we propose a variational approach to jointly learn the necessary quantity for estimating the mutual information and the dynamics model, providing a general framework for incorporating different forms of outcomes of interest. Integrated into a policy iteration scheme, our approach guarantees convergence to the optimal policy. While we mainly focus on theoretical analysis, our approach opens the possibilities of leveraging intrinsic control with model learning to enhance sample efficiency and incorporate uncertainty of the environment into decision-making.
翻訳日:2023-10-14 12:32:50 公開日:2023-10-12
# 気候NLP:自然言語処理による気候変動に対する市民意識の分析

ClimateNLP: Analyzing Public Sentiment Towards Climate Change Using Natural Language Processing ( http://arxiv.org/abs/2310.08099v1 )

ライセンス: Link先を確認
Ajay Krishnan T. K., V. S. Anoop(参考訳) 気候変動による人間の健康への影響は、前例がなく多様な課題を引き起こす。 確固とした証拠に基づく積極的措置が実施されない限り、これらの脅威はエスカレートし、人間の幸福を脅かし続けます。 情報通信技術の急速な進歩により、ソーシャルメディアプラットフォームの普及と利用が促進された。 個人は、TwitterやFacebookなどのプラットフォームを使用して、さまざまなテーマに対する意見、考え、批判を表現し、気候変動の急激な問題を含んでいる。 ソーシャルメディア上での気候変動関連コンテンツの拡散は、意味のある洞察を得るために包括的な分析を必要とする。 本稿では、自然言語処理(NLP)技術を用いて、気候変動に関する話題を分析し、気候変動に関連するツイートの感情を定量化する。 気候変動領域に特化した訓練済みモデルであるCurrentBERTを使用します。 その目的は、気候変動に関する世論のパターンを個人が表現し、明らかにすることにある。 ツイートの感情を分析することで、この批判的な世界的課題に対する大衆の認識、懸念、感情をより深く理解することができる。 この実験から得られた知見は、公衆の感情や気候変動に関するエンティティに関する貴重な洞察を発掘する。 政策立案者、研究者、組織は、こうした分析を利用して公衆の認識を理解し、影響力のあるアクターを特定し、気候変動問題に対処するための情報戦略を考案することができる。

Climate change's impact on human health poses unprecedented and diverse challenges. Unless proactive measures based on solid evidence are implemented, these threats will likely escalate and continue to endanger human well-being. The escalating advancements in information and communication technologies have facilitated the widespread availability and utilization of social media platforms. Individuals utilize platforms such as Twitter and Facebook to express their opinions, thoughts, and critiques on diverse subjects, encompassing the pressing issue of climate change. The proliferation of climate change-related content on social media necessitates comprehensive analysis to glean meaningful insights. This paper employs natural language processing (NLP) techniques to analyze climate change discourse and quantify the sentiment of climate change-related tweets. We use ClimateBERT, a pretrained model fine-tuned specifically for the climate change domain. The objective is to discern the sentiment individuals express and uncover patterns in public opinion concerning climate change. Analyzing tweet sentiments allows a deeper comprehension of public perceptions, concerns, and emotions about this critical global challenge. The findings from this experiment unearth valuable insights into public sentiment and the entities associated with climate change discourse. Policymakers, researchers, and organizations can leverage such analyses to understand public perceptions, identify influential actors, and devise informed strategies to address climate change challenges.
翻訳日:2023-10-14 12:32:37 公開日:2023-10-12
# sentinel:分散連合学習をセキュアにするための集約関数

Sentinel: An Aggregation Function to Secure Decentralized Federated Learning ( http://arxiv.org/abs/2310.08097v1 )

ライセンス: Link先を確認
Chao Feng, Alberto Huertas Celdran, Janosch Baltensperger, Enrique Tomas Mat{\i}nez Bertran, Gerome Bovet, Burkhard Stiller(参考訳) ネットワークへのフェデレーション学習(fl)の迅速な統合は、データプライバシを維持しながら、ネットワーク管理、サービス品質、サイバーセキュリティといったさまざまな側面を包含する。 この文脈において、分散連合学習(dfl)は、単一障害点の制限に対処する協調モデルを訓練するための革新的パラダイムとして出現する。 しかし、FLとDFLの安全性と信頼性は、毒性攻撃によって損なわれ、その性能に悪影響を及ぼす。 既存の防御機構は集中型FLのために設計されており、DFLの特異性を十分に活用していない。 そこで本研究では,DFLの毒殺対策戦略であるSentinelを紹介した。 Sentinelはローカルデータのアクセシビリティを活用し、類似性のフィルタリング、ブートストラップ検証、悪意のあるモデル更新に対する保護のための正規化からなる3段階のアグリゲーションプロトコルを定義する。 sentinelは、さまざまなデータセットとさまざまな毒殺攻撃タイプと脅威レベルで評価されており、標的とターゲットの両方の毒殺攻撃に対する最先端のパフォーマンスを改善している。

The rapid integration of Federated Learning (FL) into networking encompasses various aspects such as network management, quality of service, and cybersecurity while preserving data privacy. In this context, Decentralized Federated Learning (DFL) emerges as an innovative paradigm to train collaborative models, addressing the single point of failure limitation. However, the security and trustworthiness of FL and DFL are compromised by poisoning attacks, negatively impacting its performance. Existing defense mechanisms have been designed for centralized FL and they do not adequately exploit the particularities of DFL. Thus, this work introduces Sentinel, a defense strategy to counteract poisoning attacks in DFL. Sentinel leverages the accessibility of local data and defines a three-step aggregation protocol consisting of similarity filtering, bootstrap validation, and normalization to safeguard against malicious model updates. Sentinel has been evaluated with diverse datasets and various poisoning attack types and threat levels, improving the state-of-the-art performance against both untargeted and targeted poisoning attacks.
翻訳日:2023-10-14 12:32:16 公開日:2023-10-12
# ClimateBERT-NetZero:ネットゼロの検出と評価と削減ターゲット

ClimateBERT-NetZero: Detecting and Assessing Net Zero and Reduction Targets ( http://arxiv.org/abs/2310.08096v1 )

ライセンス: Link先を確認
Tobias Schimanski, Julia Bingler, Camilla Hyslop, Mathias Kraus, Markus Leippold(参考訳) 公的および民間の俳優は、様々な機関による持続可能性のコミットメントに関する膨大な情報を評価するのに苦労している。 この問題に対処するため,企業,国,地域のネットゼロと減量目標を自動的に3段階で検出する新しいツールを開発した。 まず、3.5kのテキストサンプルを持つエキスパートアノテートデータセットを紹介する。 第2に、テキストがネットゼロか縮小ターゲットを含むかを検出する自然言語分類器ClimateBERT-NetZeroを訓練・リリースする。 第3に、分析の可能性を2つのユースケースで示す: まず、ClimateBERT-NetZeroが従来のQ&Aモデルとどのように組み合わせて、ネットゼロで表示された野心と縮小目標を分析できるかを実証する。 さらに,CurrentBERT-NetZeroモデルを用いて,四半期毎の通話書き起こしを行い,通信パターンの経時的変化について概説する。 本実験は,ネットゼロおよび排出削減目標を大規模に抽出・分析するための有望な経路を示す。

Public and private actors struggle to assess the vast amounts of information about sustainability commitments made by various institutions. To address this problem, we create a novel tool for automatically detecting corporate, national, and regional net zero and reduction targets in three steps. First, we introduce an expert-annotated data set with 3.5K text samples. Second, we train and release ClimateBERT-NetZero, a natural language classifier to detect whether a text contains a net zero or reduction target. Third, we showcase its analysis potential with two use cases: We first demonstrate how ClimateBERT-NetZero can be combined with conventional question-answering (Q&A) models to analyze the ambitions displayed in net zero and reduction targets. Furthermore, we employ the ClimateBERT-NetZero model on quarterly earning call transcripts and outline how communication patterns evolve over time. Our experiments demonstrate promising pathways for extracting and analyzing net zero and emission reduction targets at scale.
翻訳日:2023-10-14 12:31:58 公開日:2023-10-12
# SingleInsert: フレキシブル編集のための単一画像からテキスト間モデルへの新たな概念導入

SingleInsert: Inserting New Concepts from a Single Image into Text-to-Image Models for Flexible Editing ( http://arxiv.org/abs/2310.08094v1 )

ライセンス: Link先を確認
Zijie Wu, Chaohui Yu, Zhen Zhu, Fan Wang, Xiang Bai(参考訳) テキスト・ツー・イメージ(T2I)モデルの最近の進歩は、柔軟なテキスト制御による高品質な画像生成を可能にする。 市販のT2Iモデルの豊富な視覚的先行性を利用するため、一連の手法はT2Iモデルのセマンティック空間と整合する適切な埋め込みに画像を反転させようとする。 しかし、これらの画像からテキストへ変換する方法は、通常、同じ概念を含む複数のソースイメージを必要とするか、編集の柔軟性と視覚的忠実さの不均衡に苦慮する。 本研究は,意図した概念を学習する際,背景の絡み合いが重要な問題であることを指摘し,シングルイメージI2Tインバージョンのためのシンプルで効果的なベースラインであるSingleInsertを提案する。 SingleInsertは2段階のスキームを採用している。 第1段階では,無関係な背景に関連付けられることなく,前景領域に集中するように学習埋め込みを規制する。 第2段階では,t2iモデルを用いて視覚的な類似性を向上し,言語ドリフト問題を防止するために意味的損失を考案する。 提案手法により,singleinsertは,フレキシブルな編集が可能ながら,高い視覚忠実度を持つ単一概念生成に優れる。 さらに、SingleInsertは、ジョイントトレーニングを必要とせずに、シングルイメージのノベルビュー合成と複数のコンセプトコンポジションを実行することができる。 評価を容易にするために,編集プロンプトリストをデザインし,編集の柔軟性を定量的に評価するためのesrを導入する。 私たちのプロジェクトページは以下のとおりです。

Recent progress in text-to-image (T2I) models enables high-quality image generation with flexible textual control. To utilize the abundant visual priors in the off-the-shelf T2I models, a series of methods try to invert an image to proper embedding that aligns with the semantic space of the T2I model. However, these image-to-text (I2T) inversion methods typically need multiple source images containing the same concept or struggle with the imbalance between editing flexibility and visual fidelity. In this work, we point out that the critical problem lies in the foreground-background entanglement when learning an intended concept, and propose a simple and effective baseline for single-image I2T inversion, named SingleInsert. SingleInsert adopts a two-stage scheme. In the first stage, we regulate the learned embedding to concentrate on the foreground area without being associated with the irrelevant background. In the second stage, we finetune the T2I model for better visual resemblance and devise a semantic loss to prevent the language drift problem. With the proposed techniques, SingleInsert excels in single concept generation with high visual fidelity while allowing flexible editing. Additionally, SingleInsert can perform single-image novel view synthesis and multiple concepts composition without requiring joint training. To facilitate evaluation, we design an editing prompt list and introduce a metric named Editing Success Rate (ESR) for quantitative assessment of editing flexibility. Our project page is: https://jarrentwu1031.github.io/SingleInsert-web/
翻訳日:2023-10-14 12:31:38 公開日:2023-10-12
# Consistent123: 1画像から3Dオブジェクト合成への一貫性向上

Consistent123: Improve Consistency for One Image to 3D Object Synthesis ( http://arxiv.org/abs/2310.08092v1 )

ライセンス: Link先を確認
Haohan Weng, Tianyu Yang, Jianan Wang, Yu Li, Tong Zhang, C. L. Philip Chen, Lei Zhang(参考訳) 大きな画像拡散モデルは、高品質で優れたゼロショット能力を持つ新しいビュー合成を可能にする。 しかし、画像から画像への変換に基づくそのようなモデルは、ビューの一貫性を保証せず、3D再構成や画像から3D生成といった下流タスクのパフォーマンスを制限している。 一貫性を高めるために,新たなビューを合成するためのconsent123を提案し,クロスビューアテンション層と共有自己アテンション機構を併用した。 提案したアテンション機構は,すべての合成ビュー間の相互作用を改善するとともに,条件ビューと新規ビューとの整合性も向上する。 サンプリング段階では、一定の長さでトレーニングしながら任意の数のビューを同時に生成する。 また,合成オブジェクトビューのテクスチャと幾何のトレードオフを実現するために,プログレッシブ分類器フリーな誘導手法を提案する。 定性的かつ定量的な実験により、Consistent123はビューの一貫性において大きなマージンでベースラインを上回ります。 さらに、下流の様々なタスクにおけるConsistent123の大幅な改善を示し、3次元生成分野におけるその大きな可能性を示した。 プロジェクトページはconsist-123.github.ioで利用可能である。

Large image diffusion models enable novel view synthesis with high quality and excellent zero-shot capability. However, such models based on image-to-image translation have no guarantee of view consistency, limiting the performance for downstream tasks like 3D reconstruction and image-to-3D generation. To empower consistency, we propose Consistent123 to synthesize novel views simultaneously by incorporating additional cross-view attention layers and the shared self-attention mechanism. The proposed attention mechanism improves the interaction across all synthesized views, as well as the alignment between the condition view and novel views. In the sampling stage, such architecture supports simultaneously generating an arbitrary number of views while training at a fixed length. We also introduce a progressive classifier-free guidance strategy to achieve the trade-off between texture and geometry for synthesized object views. Qualitative and quantitative experiments show that Consistent123 outperforms baselines in view consistency by a large margin. Furthermore, we demonstrate a significant improvement of Consistent123 on varying downstream tasks, showing its great potential in the 3D generation field. The project page is available at consistent-123.github.io.
翻訳日:2023-10-14 12:31:09 公開日:2023-10-12
# 時間差学習の認識

Discerning Temporal Difference Learning ( http://arxiv.org/abs/2310.08091v1 )

ライセンス: Link先を確認
Jianfei Ma(参考訳) 時間差分学習(TD)は、政策の価値関数を効率的に評価することを目的とした強化学習(RL)の基本概念である。 強力な変種であるtd($\lambda$)は、メモリトレースを組み込んで、予測エラーを歴史的なコンテキストに分散する。 しかし、この手法は歴史的状態の重要性や、訪問不均衡や結果ノイズといった課題の影響を受けて、TDエラーを伝播する相対的な重要性を無視することが多い。 そこで本研究では,TDラーニング(DTD)と呼ばれる新しいTDアルゴリズムを提案する。 特定の強調関数のクラス内で,本手法の収束特性を確立し,深部RL文脈への適応の可能性を示す。 実証的な結果は、偏重関数を用いることで価値の推定が向上するだけでなく、さまざまなシナリオでの学習が迅速になることを示している。

Temporal difference learning (TD) is a foundational concept in reinforcement learning (RL), aimed at efficiently assessing a policy's value function. TD($\lambda$), a potent variant, incorporates a memory trace to distribute the prediction error into the historical context. However, this approach often neglects the significance of historical states and the relative importance of propagating the TD error, influenced by challenges such as visitation imbalance or outcome noise. To address this, we propose a novel TD algorithm named discerning TD learning (DTD), which allows flexible emphasis functions$-$predetermined or adapted during training$-$to allocate efforts effectively across states. We establish the convergence properties of our method within a specific class of emphasis functions and showcase its promising potential for adaptation to deep RL contexts. Empirical results underscore that employing a judicious emphasis function not only improves value estimation but also expedites learning across diverse scenarios.
翻訳日:2023-10-14 12:30:48 公開日:2023-10-12
# ゼロインフレーションデータによるディーリング:2倍の機械学習アプローチによるSOTAの実現

Dealing with zero-inflated data: achieving SOTA with a two-fold machine learning approach ( http://arxiv.org/abs/2310.08088v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Ga\v{s}per Petelin, Jo\~ao Costa, Bla\v{z} Bertalani\v{c}, Gregor Cerar, Marko Gu\v{c}ek, Gregor Papa, Dunja Mladeni\'c(参考訳) 多くの場合、機械学習モデルは、ターゲット値がゼロの広い範囲のデータにおいて、特定の値を持ついくつかのデータポイントを正確に予測することを学ばなければならない。 ゼロ膨張データは、集中的かつ断続的な需要、家電製品の電源のオン/オフ、蒸留プロセスにおける不純物測定、さらには空港のシャトル需要予測といった様々なシナリオで見ることができる。 ゼロの存在はモデルの学習に影響し、パフォーマンスが低下する可能性がある。 さらにゼロは、モデルの予測品質を計算するために使われるメトリクスも歪ませる。 本稿では,ゼロ膨張データに適用した階層モデルが優れた結果をもたらす,実世界の2つのユースケース(ホームアプライアンス分類と空港シャトル需要予測)を紹介する。 特に家電品の分類では, 精度, リコール, F1, AUC ROCの重量平均が27%, 34%, 49%, 27%に増加した。 さらに, 提案手法は, sota法と比較してエネルギー効率が4倍高いことが推察された。 空港のシャトル需要を予測する場合、すべてのケースで2倍のモデルが最適であり、他のモデルとの差は統計的に有意であることが証明されている。

In many cases, a machine learning model must learn to correctly predict a few data points with particular values of interest in a broader range of data where many target values are zero. Zero-inflated data can be found in diverse scenarios, such as lumpy and intermittent demands, power consumption for home appliances being turned on and off, impurities measurement in distillation processes, and even airport shuttle demand prediction. The presence of zeroes affects the models' learning and may result in poor performance. Furthermore, zeroes also distort the metrics used to compute the model's prediction quality. This paper showcases two real-world use cases (home appliances classification and airport shuttle demand prediction) where a hierarchical model applied in the context of zero-inflated data leads to excellent results. In particular, for home appliances classification, the weighted average of Precision, Recall, F1, and AUC ROC was increased by 27%, 34%, 49%, and 27%, respectively. Furthermore, it is estimated that the proposed approach is also four times more energy efficient than the SOTA approach against which it was compared to. Two-fold models performed best in all cases when predicting airport shuttle demand, and the difference against other models has been proven to be statistically significant.
翻訳日:2023-10-14 12:30:31 公開日:2023-10-12
# インドネシアの低リソースクリックベイトが質問に答える

Low-Resource Clickbait Spoiling for Indonesian via Question Answering ( http://arxiv.org/abs/2310.08085v1 )

ライセンス: Link先を確認
Ni Putu Intan Maharani, Ayu Purwarianti, Alham Fikri Aji(参考訳) clickbait spoilingは、clickbait投稿によって引き起こされる好奇心を満たすために短いテキストを生成することを目的としている。 新しく導入されたタスクであるため、データセットは今のところ英語でのみ利用可能だ。 インドネシアにおけるclickbaitスポイリングコーパスの構築や,インドネシアのような低リソース言語に対するclikcbaitスポイリングに取り組むために,クロスリンガルなゼロショット質問応答モデルを用いた評価などを行った。 我々は多言語モデルの選択を利用する。 実験結果から,XLM-RoBERTa(大規模)モデルはフレーズスポイラーやパススポイラーの他モデルよりも優れ,mDeBERTa(ベース)モデルはマルチパートスポイラーの他モデルより優れていることが示唆された。

Clickbait spoiling aims to generate a short text to satisfy the curiosity induced by a clickbait post. As it is a newly introduced task, the dataset is only available in English so far. Our contributions include the construction of manually labeled clickbait spoiling corpus in Indonesian and an evaluation on using cross-lingual zero-shot question answering-based models to tackle clikcbait spoiling for low-resource language like Indonesian. We utilize selection of multilingual language models. The experimental results suggest that XLM-RoBERTa (large) model outperforms other models for phrase and passage spoilers, meanwhile, mDeBERTa (base) model outperforms other models for multipart spoilers.
翻訳日:2023-10-14 12:30:11 公開日:2023-10-12
# 住宅価格予測のためのマルチレベル高層ニューラルネットワークモデル

Multi Level Dense Layer Neural Network Model for Housing Price Prediction ( http://arxiv.org/abs/2310.08133v1 )

ライセンス: Link先を確認
Robert Wijaya(参考訳) 住宅価格の予測は、対処しなければならない課題である。 研究は、従来のヘドニックモデルからニューラルネットワークアルゴリズムまで、住宅価格を予測するための異なる方法とアルゴリズムを持つモデルを確立することを試みた。 しかし,本論文の既存のアルゴリズムの多くは,モデルの微調整やカスタマイズを伴わずに提案されている。 本稿では,住宅価格予測の性能向上を目的としたニューラルネットワークモデルを提案する。 モジュラーニューラルネットワークにインスパイアされた提案モデルは,並列に情報を処理可能な3レベルニューラルネットワークで構成されている。 筆者は,提案モデルの有効性を評価するために,boston housingデータセットの文献で利用可能な最先端アルゴリズムをいくつか比較した。 その結果,提案モデルにより精度が向上し,既存のアルゴリズムを異なる評価指標で上回ることがわかった。 実装のコードはhttps://github.com/wijayarobert/MultiLevelDenseLayerNNで入手できる。

Predicting the price of a house remains a challenging issue that needs to be addressed. Research has attempted to establish a model with different methods and algorithms to predict the housing price, from the traditional hedonic model to a neural network algorithm. However, many existing algorithms in the literature are proposed without any finetuning and customization in the model. In this paper, the author attempted to propose a novel neural network-based model to improve the performance of housing price prediction. Inspired by the modular neural network, the proposed model consists of a three-level neural network that is capable to process information in parallel. The author compared several state-of-the-art algorithms available in the literature on the Boston housing dataset to evaluate the effectiveness of the proposed model. The results show that the proposed model provides better accuracy and outperforms existing algorithms in different evaluation metrics. The code for the implementation is available https://github.com/wijayarobert/MultiLevelDenseLayerNN
翻訳日:2023-10-14 12:24:36 公開日:2023-10-12
# 等方的および近位探索によるきめ細かい会話復号

Fine-grained Conversational Decoding via Isotropic and Proximal Search ( http://arxiv.org/abs/2310.08130v1 )

ライセンス: Link先を確認
Yuxuan Yao, Han Wu, Qiling Xu, Linqi Song(参考訳) 汎用テキストデコード手法は通常対話応答生成に採用される。 対話固有の符号化法によって生成した応答の品質は向上するが、対話型復号法はまだ未検討である。 良好な対話的特徴空間は局所性と等方性の規則に従うべきだという \citet{wu2023learning} に触発されて、きめ細かな対話的復号法を \textit{isotropic and proximal search (ips)" と呼ぶ。 本手法は,文脈に対して情報性と識別性を維持しつつ,意味集中応答を生成するように設計されている。 実験により,提案手法は,自動評価指標と人間評価指標の両方において,対話分野における既存の復号戦略よりも優れていることが示された。 より詳細な分析は、このアプローチの有効性をさらに確認します。

General-purpose text decoding approaches are usually adopted for dialogue response generation. Although the quality of the generated responses can be improved with dialogue-specific encoding methods, conversational decoding methods are still under-explored. Inspired by \citet{wu2023learning} that a good dialogue feature space should follow the rules of locality and isotropy, we present a fine-grained conversational decoding method, termed \textit{isotropic and proximal search (IPS)}. Our method is designed to generate the semantic-concentrated response, while still maintaining informativeness and discrimination against the context. Experiments show that our approach outperforms existing decoding strategies in the dialogue field across both automatic and human evaluation metrics. More in-depth analyses further confirm the effectiveness of our approach.
翻訳日:2023-10-14 12:24:21 公開日:2023-10-12
# Tailored Visions: パーソナライズされたプロンプト書き換えによるテキスト・画像生成の強化

Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting ( http://arxiv.org/abs/2310.08129v1 )

ライセンス: Link先を確認
Zijie Chen, Lichao Zhang, Fangsheng Weng, Lili Pan, Zhenzhong Lan(参考訳) 本研究では,事前学習された大規模モデルを検索エンジンとして見る新たな視点を提案する。 イラストとして,テキストから画像への生成にパーソナライズされたクエリ書き換え技術を用いる。 この分野の大きな進歩にもかかわらず、個々のユーザーの欲求や好みと密接に一致するパーソナライズされた視覚的表現を作成することは依然として困難である。 このプロセスでは、ユーザーは自分のアイデアをモデルに理解できる言葉で表現し、ビジョンを正確に捉える必要があり、多くのユーザーに困難をもたらします。 本稿では,システムとの歴史的ユーザインタラクションを活用してユーザプロンプトを強化することで,この問題に対処する。 本稿では,3115名のユーザから300万以上のプロンプトを持つ大規模テキスト画像データセットをユーザプロンプトに書き換える,新たなアプローチを提案する。 書き直しモデルは、ユーザのプロンプトと意図した視覚出力の表現力とアライメントを高める。 実験結果は,新しいオフライン評価手法とオンラインテストで示されるような,ベースラインアプローチよりも優れた手法を示す。 私たちのアプローチは、真のパーソナライズされた大規模事前学習モデルを構築するために、より多くの検索エンジン技術を適用するエキサイティングな可能性を開きます。

We propose a novel perspective of viewing large pretrained models as search engines, thereby enabling the repurposing of techniques previously used to enhance search engine performance. As an illustration, we employ a personalized query rewriting technique in the realm of text-to-image generation. Despite significant progress in the field, it is still challenging to create personalized visual representations that align closely with the desires and preferences of individual users. This process requires users to articulate their ideas in words that are both comprehensible to the models and accurately capture their vision, posing difficulties for many users. In this paper, we tackle this challenge by leveraging historical user interactions with the system to enhance user prompts. We propose a novel approach that involves rewriting user prompts based a new large-scale text-to-image dataset with over 300k prompts from 3115 users. Our rewriting model enhances the expressiveness and alignment of user prompts with their intended visual outputs. Experimental results demonstrate the superiority of our methods over baseline approaches, as evidenced in our new offline evaluation method and online tests. Our approach opens up exciting possibilities of applying more search engine techniques to build truly personalized large pretrained models.
翻訳日:2023-10-14 12:24:05 公開日:2023-10-12
# スピン-1/2$粒子のホロノミーとしてのトーマス-ウィグナー回転

Thomas--Wigner rotation as a holonomy for spin-$1/2$ particles ( http://arxiv.org/abs/2310.08121v1 )

ライセンス: Link先を確認
Veiko Palge, Christian Pfeifer(参考訳) トーマス・ウィグナー回転(英語版)(TWR)は、昇降の組合せが物理的システムの非自明な回転につながるという事実から生じる。 その起源はローレンツ群の構造にある。 本稿では、TWR は非自明に湾曲した相対論的運動量空間、すなわちリーマン多様体として見られる質量殻によって引き起こされる幾何学的に理解できるという考えについて議論する。 質量殻のホロノミーとして、質量スピンのTWRが1/2$の粒子でどのように計算できるかを明確に示す。 この結論に達するために、質量シェル多様体上のスピン束を構築する方法を思い出す。

The Thomas--Wigner rotation (TWR) results from the fact that a combination of boosts leads to a non-trivial rotation of a physical system. Its origin lies in the structure of the Lorentz group. In this article we discuss the idea that the TWR can be understood in the geometric manner, being caused by the non-trivially curved relativistic momentum space, i.e. the mass shell, seen as a Riemannian manifold. We show explicitly how the TWR for a massive spin-$1/2$ particle can be calculated as a holonomy of the mass shell. To reach this conclusion we recall how to construct the spin bundle over the mass shell manifold.
翻訳日:2023-10-14 12:23:45 公開日:2023-10-12
# 大規模言語モデルは、独自のプランを自己記述することによって、本当に改善できるのか?

Can Large Language Models Really Improve by Self-critiquing Their Own Plans? ( http://arxiv.org/abs/2310.08118v1 )

ライセンス: Link先を確認
Karthik Valmeekam, Matthew Marquez, Subbarao Kambhampati(参考訳) LLM(Large Language Models)は、反復的モードの問題を推論する上で、候補ソリューションの検証や自己批判に成功できるという主張が広まっている。 これらの主張に興味をそそられ,本稿では,大規模言語モデルの検証/自己批判能力について,計画の文脈で検討する。 計画生成と検証の両方にLLMを利用する計画システムを評価する。 検証者llmの地上検証に対する性能,自己批判が計画生成に与える影響,フィードバックレベルの変化がシステム性能に及ぼす影響を評価した。 現状のLCMであるGPT-4を用いて、外部の音響検証器やLPM検証器を用いたシステムと比較して、自己評価がプラン生成性能を低下させることが明らかとなり、システムの信頼性を損なう結果となった。 さらに、バイナリであれ詳細であれ、フィードバックの性質は、計画生成に最小限の影響しか示さなかった。 本研究の結果は,自己記述型反復型枠組みにおけるLCMの有効性に疑問を呈するものである。

There have been widespread claims about Large Language Models (LLMs) being able to successfully verify or self-critique their candidate solutions in reasoning problems in an iterative mode. Intrigued by those claims, in this paper we set out to investigate the verification/self-critiquing abilities of large language models in the context of planning. We evaluate a planning system that employs LLMs for both plan generation and verification. We assess the verifier LLM's performance against ground-truth verification, the impact of self-critiquing on plan generation, and the influence of varying feedback levels on system performance. Using GPT-4, a state-of-the-art LLM, for both generation and verification, our findings reveal that self-critiquing appears to diminish plan generation performance, especially when compared to systems with external, sound verifiers and the LLM verifiers in that system produce a notable number of false positives, compromising the system's reliability. Additionally, the nature of feedback, whether binary or detailed, showed minimal impact on plan generation. Collectively, our results cast doubt on the effectiveness of LLMs in a self-critiquing, iterative framework for planning tasks.
翻訳日:2023-10-14 12:23:33 公開日:2023-10-12
# dusa: 非教師なしsim2現実適応による車両間協調認識

DUSA: Decoupled Unsupervised Sim2Real Adaptation for Vehicle-to-Everything Collaborative Perception ( http://arxiv.org/abs/2310.08117v1 )

ライセンス: Link先を確認
Xianghao Kong, Wentao Jiang, Jinrang Jia, Yifeng Shi, Runsheng Xu, Si Liu(参考訳) 自動運転車にとって、V2Xの協調認識は不可欠である。 しかし、高精度なV2X知覚を実現するには、大量の注釈付き実世界のデータが必要である。 シミュレーションデータは非常に低コストで大量生産できるため、多くの注目を集めている。 それでも、センサータイプ、反射パターン、道路周辺など、シミュレーションデータと実世界のデータの間の大きな領域ギャップは、実世界のデータで評価された場合、シミュレーションデータに基づいてトレーニングされたモデルの性能の低下につながることが多い。 さらに、例えば、異なる種類のセンサーを自動運転車や、異なるextrinsicsを持つ道路サイドインフラストラクチャに設置し、sim2現実の一般化の困難さをさらに増やすといった、現実世界の協調エージェント間のドメインギャップも残されている。 シミュレーションデータを活用するために,v2x協調検出のための非教師なしsim2realドメイン適応法であるdecoupled unsupervised sim2real adaptation (dusa)を提案する。 我々の新しい手法は、V2X協調型sim2realドメイン適応問題を2つのサブプロブレムに分解する。 SIM2real 適応のために,我々は特徴マップの重要な位置から特徴を適応的に集約する位置適応型Sim2Real Adapter (LSA) モジュールを設計し,その集約されたグローバルな特徴に対してsim/real 識別器を用いて,シミュレーションデータと実世界のデータとの間の特徴を調整する。 エージェント間適応では,エージェント間信頼度マップの指導のもと,異種エージェントの細かな特徴を整合させるために,信頼度対応型エージェント間アダプタ(cia)モジュールを更に考案する。 シミュレーションされたV2XSetデータセットから実世界のDAIR-V2X-Cデータセットへの教師なしシミュレートに対するDUSAアプローチの有効性を示す実験を行った。

Vehicle-to-Everything (V2X) collaborative perception is crucial for autonomous driving. However, achieving high-precision V2X perception requires a significant amount of annotated real-world data, which can always be expensive and hard to acquire. Simulated data have raised much attention since they can be massively produced at an extremely low cost. Nevertheless, the significant domain gap between simulated and real-world data, including differences in sensor type, reflectance patterns, and road surroundings, often leads to poor performance of models trained on simulated data when evaluated on real-world data. In addition, there remains a domain gap between real-world collaborative agents, e.g. different types of sensors may be installed on autonomous vehicles and roadside infrastructures with different extrinsics, further increasing the difficulty of sim2real generalization. To take full advantage of simulated data, we present a new unsupervised sim2real domain adaptation method for V2X collaborative detection named Decoupled Unsupervised Sim2Real Adaptation (DUSA). Our new method decouples the V2X collaborative sim2real domain adaptation problem into two sub-problems: sim2real adaptation and inter-agent adaptation. For sim2real adaptation, we design a Location-adaptive Sim2Real Adapter (LSA) module to adaptively aggregate features from critical locations of the feature map and align the features between simulated data and real-world data via a sim/real discriminator on the aggregated global feature. For inter-agent adaptation, we further devise a Confidence-aware Inter-agent Adapter (CIA) module to align the fine-grained features from heterogeneous agents under the guidance of agent-wise confidence maps. Experiments demonstrate the effectiveness of the proposed DUSA approach on unsupervised sim2real adaptation from the simulated V2XSet dataset to the real-world DAIR-V2X-C dataset.
翻訳日:2023-10-14 12:23:12 公開日:2023-10-12
# 一般化ロジット調整:基礎モデルのラベルバイアス除去による微調整モデルの校正

Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models ( http://arxiv.org/abs/2310.08106v1 )

ライセンス: Link先を確認
Beier Zhu, Kaihua Tang, Qianru Sun, Hanwang Zhang(参考訳) CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。 しかし、ゼロショット性能は、完全に監督されたものよりも競争力が低い。 したがって、パフォーマンスを向上させるために、下流タスクに適合するために、微調整やセンシングも一般的に採用されている。 しかし、このような先行研究は基礎モデルに固有のバイアスを見落としていると論じる。 高度にバランスの取れないWebスケールのトレーニングセットのため、これらの基礎モデルは必然的に頻繁なセマンティクスに向かって歪められ、その後の微調整やアンサンブルはいまだに偏っている。 本研究では,基礎モデルのバイアスを体系的に検討し,提案する一般化ロジット調整法(gla)の有効性を示す。 基礎モデルのバイアス推定は、ほとんどの事前トレーニングデータは、従来のロングテール分類タスクのように明示的にアクセスできないため、困難である。 この目的のために、GLAは基礎モデルの偏りを抑えるために最適化に基づくバイアス推定アプローチを採用している。 我々の研究は事前トレーニングの根本的な欠陥を解決しているため、提案したGLAは、ImageNetで1.5ppの精度向上、11のショットデータセットで1.4-4.6ppの大幅な平均改善、ロングテール分類で2.4ppの精度向上を実現している。 コードは \url{https://github.com/BeierZhu/GLA} にある。

Foundation models like CLIP allow zero-shot transfer on various tasks without additional training data. Yet, the zero-shot performance is less competitive than a fully supervised one. Thus, to enhance the performance, fine-tuning and ensembling are also commonly adopted to better fit the downstream tasks. However, we argue that such prior work has overlooked the inherent biases in foundation models. Due to the highly imbalanced Web-scale training set, these foundation models are inevitably skewed toward frequent semantics, and thus the subsequent fine-tuning or ensembling is still biased. In this study, we systematically examine the biases in foundation models and demonstrate the efficacy of our proposed Generalized Logit Adjustment (GLA) method. Note that bias estimation in foundation models is challenging, as most pre-train data cannot be explicitly accessed like in traditional long-tailed classification tasks. To this end, GLA has an optimization-based bias estimation approach for debiasing foundation models. As our work resolves a fundamental flaw in the pre-training, the proposed GLA demonstrates significant improvements across a diverse range of tasks: it achieves 1.5 pp accuracy gains on ImageNet, an large average improvement (1.4-4.6 pp) on 11 few-shot datasets, 2.4 pp gains on long-tailed classification. Codes are in \url{https://github.com/BeierZhu/GLA}.
翻訳日:2023-10-14 12:22:37 公開日:2023-10-12
# QASiNa: Sirah Nabawiyah氏による宗教ドメイン質問回答

QASiNa: Religious Domain Question Answering using Sirah Nabawiyah ( http://arxiv.org/abs/2310.08102v1 )

ライセンス: Link先を確認
Muhammad Razif Rizqullah (1), Ayu Purwarianti (1) and Alham Fikri Aji (2) ((1) Bandung Institute of Technology, (2) Mohamed bin Zayed University of Artificial Intelligence)(参考訳) 現在、質問応答(QA)タスクは、特にChat GPT [1]のような大規模言語モデル(LLM)の開発において、重要な研究課題となっている。 LLMは様々な領域に適用できるが、イスラム領域に適用される際の情報伝達の原則とは矛盾する。 イスラム教では、情報ソースを厳格に規制し、そのソースに対して解釈や接尾辞を与えることができる([2])。 LLMが独自の解釈に基づいて回答を生成するアプローチは、タフザーの概念に似ているが、LLMはイスラームの専門家でも、イスラム教では認められない人間でもない。 インドネシアは世界最大のイスラム信者を持つ国である [3] である。 LLMの影響が大きいため、宗教領域におけるLSMの評価を行う必要がある。 現在、宗教的なQAデータセットはごくわずかであり、インドネシア語ではSirah Nabawiyahを使用していない。 本稿では,インドネシア語のSirah Nabawiyah文献から収集した新しいデータセットであるQASiNa(Qarguy Answering Sirah Nabawiyah)データセットを提案する。 我々は,インドネシア語訳SQuAD v2.0[7]を微調整したmBERT[4],XLM-R[5],IndoBERT[6]を用いて,我々のデータセットを実証した。 XLM-Rは、EMが61.20、F1スコアが75.94、Substring Matchが70.00でQASiNaで最高のパフォーマンスを回復した。 我々はXLM-Rの性能をChat GPT-3.5とGPT-4 [1]と比較した。 どちらも低いEMとF1-Score、より高いサブストリングマッチ、EMとサブストリングマッチのギャップはGPT-4で広くなった。 この実験は、チャットgptがemやf1-scoreに比べて、命令やコンテキストを提供しても高い部分文字列マッチングスコアで示されるような過度な解釈を与える傾向があることを示している。 この結果、チャット GPT は宗教領域、特にイスラム宗教において疑問に答えるタスクには適さないと結論付けている。

Nowadays, Question Answering (QA) tasks receive significant research focus, particularly with the development of Large Language Model (LLM) such as Chat GPT [1]. LLM can be applied to various domains, but it contradicts the principles of information transmission when applied to the Islamic domain. In Islam we strictly regulates the sources of information and who can give interpretations or tafseer for that sources [2]. The approach used by LLM to generate answers based on its own interpretation is similar to the concept of tafseer, LLM is neither an Islamic expert nor a human which is not permitted in Islam. Indonesia is the country with the largest Islamic believer population in the world [3]. With the high influence of LLM, we need to make evaluation of LLM in religious domain. Currently, there is only few religious QA dataset available and none of them using Sirah Nabawiyah especially in Indonesian Language. In this paper, we propose the Question Answering Sirah Nabawiyah (QASiNa) dataset, a novel dataset compiled from Sirah Nabawiyah literatures in Indonesian language. We demonstrate our dataset by using mBERT [4], XLM-R [5], and IndoBERT [6] which fine-tuned with Indonesian translation of SQuAD v2.0 [7]. XLM-R model returned the best performance on QASiNa with EM of 61.20, F1-Score of 75.94, and Substring Match of 70.00. We compare XLM-R performance with Chat GPT-3.5 and GPT-4 [1]. Both Chat GPT version returned lower EM and F1-Score with higher Substring Match, the gap of EM and Substring Match get wider in GPT-4. The experiment indicate that Chat GPT tends to give excessive interpretations as evidenced by its higher Substring Match scores compared to EM and F1-Score, even after providing instruction and context. This concludes Chat GPT is unsuitable for question answering task in religious domain especially for Islamic religion.
翻訳日:2023-10-14 12:22:11 公開日:2023-10-12
# Promptor: インテリジェントテキスト入力技術のための会話型および自律型Prompt生成エージェント

Promptor: A Conversational and Autonomous Prompt Generation Agent for Intelligent Text Entry Techniques ( http://arxiv.org/abs/2310.08101v1 )

ライセンス: Link先を確認
Junxiao Shen, John J. Dudley, Jingyao Zheng, Bill Byrne, Per Ola Kristensson(参考訳) テキスト入力は、日々のデジタルインタラクションにおいて不可欠なタスクです。 このプロセスを合理化するために、テキスト入力をより効率的、効率的、流動的にするために、多くの知的な特徴が開発されている。 これらの改善には、文予測とユーザパーソナライゼーションが含まれる。 しかし、深層学習に基づく言語モデルがこれらの高度な機能の標準となるにつれ、データ収集やモデル微調整の必要性が高まっている。 これらの課題は、GPT-3.5のような大規模言語モデルのコンテキスト内学習能力を活用することで軽減することができる。 このユニークな機能により、言語モデルはプロンプトを通じて新しいスキルを取得でき、データ収集や微調整の必要がなくなる。 その結果、大規模言語モデルは様々なテキスト予測技術を学ぶことができる。 まず, 文予測タスクにおいて, GPT-3.5が GPT-2 のバックアップシステムを超え, GPT-3.5 モデルと同等であり, 後者の2つの手法は, コストのかかるデータ収集, 微調整, 後処理を必要とすることを示した。 しかし、特にプロンプトエンジニアリングの専門知識を持たない設計者にとって、特定のテキスト予測タスクを専門とする大きな言語モデルを促すタスクは困難である。 そこで本稿では,デザイナーと積極的に対話するための対話型プロンプト生成エージェントであるPromptorを紹介する。 Promptorは、特定のニーズを満たすように調整された複雑なプロンプトを自動的に生成する。 24名の参加者が3つのインテリジェントテキスト入力タスクのプロンプトを作成し,その半数がプロンプトを使用して,残りの半分がプロンプトを独自に設計した。 その結果,プロンプターが設計したプロンプトでは,類似度が35%,コヒーレンスが22%向上した。

Text entry is an essential task in our day-to-day digital interactions. Numerous intelligent features have been developed to streamline this process, making text entry more effective, efficient, and fluid. These improvements include sentence prediction and user personalization. However, as deep learning-based language models become the norm for these advanced features, the necessity for data collection and model fine-tuning increases. These challenges can be mitigated by harnessing the in-context learning capability of large language models such as GPT-3.5. This unique feature allows the language model to acquire new skills through prompts, eliminating the need for data collection and fine-tuning. Consequently, large language models can learn various text prediction techniques. We initially showed that, for a sentence prediction task, merely prompting GPT-3.5 surpassed a GPT-2 backed system and is comparable with a fine-tuned GPT-3.5 model, with the latter two methods requiring costly data collection, fine-tuning and post-processing. However, the task of prompting large language models to specialize in specific text prediction tasks can be challenging, particularly for designers without expertise in prompt engineering. To address this, we introduce Promptor, a conversational prompt generation agent designed to engage proactively with designers. Promptor can automatically generate complex prompts tailored to meet specific needs, thus offering a solution to this challenge. We conducted a user study involving 24 participants creating prompts for three intelligent text entry tasks, half of the participants used Promptor while the other half designed prompts themselves. The results show that Promptor-designed prompts result in a 35% increase in similarity and 22% in coherence over those by designers.
翻訳日:2023-10-14 12:21:34 公開日:2023-10-12
# ハイパーパラメータ最適化による高速最小ノルム攻撃の改善

Improving Fast Minimum-Norm Attacks with Hyperparameter Optimization ( http://arxiv.org/abs/2310.08177v1 )

ライセンス: Link先を確認
Giuseppe Floris, Raffaele Mura, Luca Scionis, Giorgio Piras, Maura Pintor, Ambra Demontis, Battista Biggio(参考訳) 勾配に基づく攻撃を用いた機械学習モデルの逆強靭性の評価は困難である。 本研究では,損失関数,オプティマイザ,ステップサイズスケジューラを,対応するハイパーパラメータとともに自動選択することで,超パラメータ最適化が高速な最小ノルム攻撃を改善することを示す。 いくつかのロバストモデルを用いた広範囲な評価により,ハイパーパラメータ最適化による高速最小ノルム攻撃の有効性が示された。 私たちはオープンソースコードをhttps://github.com/pralab/ho-fmnでリリースします。

Evaluating the adversarial robustness of machine learning models using gradient-based attacks is challenging. In this work, we show that hyperparameter optimization can improve fast minimum-norm attacks by automating the selection of the loss function, the optimizer and the step-size scheduler, along with the corresponding hyperparameters. Our extensive evaluation involving several robust models demonstrates the improved efficacy of fast minimum-norm attacks when hyper-up with hyperparameter optimization. We release our open-source code at https://github.com/pralab/HO-FMN.
翻訳日:2023-10-14 12:13:09 公開日:2023-10-12
# スパースオートエンコーダを用いたRLHF修飾言語モデルの逆モデル解釈

Interpreting Reward Models in RLHF-Tuned Language Models Using Sparse Autoencoders ( http://arxiv.org/abs/2310.08164v1 )

ライセンス: Link先を確認
Luke Marks, Amir Abdullah, Luna Mendez, Rauno Arike, Philip Torr, Fazl Barez(参考訳) 大規模言語モデル(LLM)は、人間からのフィードバック(RLHF)からの強化学習を通じて人間の好みに合わせている。 しかし、RLHFがLLMの内部に与える影響は不透明である。 スパースオートエンコーダを用いたRLHF調整LDMにおける学習報酬関数の解釈法を提案する。 我々のアプローチは、ベースLLMとそのRLHF調整バージョンからのアクティベーションに基づいてオートエンコーダセットを訓練する。 自動エンコーダ隠れ空間を比較することで,学習報酬モデルの精度を反映した特徴を識別する。 これを定量化するために、調整されたLLMがトークン逆写像を学習して報酬を最大化するシナリオを構築する。 これは、学習報酬を解釈し、llmにおける報酬学習を広く検査するためのスパースオートエンコーダの最初の応用である。 本手法は報酬整合性の抽象的近似を提供する。 これは、特定の目的とモデル行動の整合性を確保するための有望なテクニックである。

Large language models (LLMs) aligned to human preferences via reinforcement learning from human feedback (RLHF) underpin many commercial applications. However, how RLHF impacts LLM internals remains opaque. We propose a novel method to interpret learned reward functions in RLHF-tuned LLMs using sparse autoencoders. Our approach trains autoencoder sets on activations from a base LLM and its RLHF-tuned version. By comparing autoencoder hidden spaces, we identify unique features that reflect the accuracy of the learned reward model. To quantify this, we construct a scenario where the tuned LLM learns token-reward mappings to maximize reward. This is the first application of sparse autoencoders for interpreting learned rewards and broadly inspecting reward learning in LLMs. Our method provides an abstract approximation of reward integrity. This presents a promising technique for ensuring alignment between specified objectives and model behaviors.
翻訳日:2023-10-14 12:13:01 公開日:2023-10-12
# センチネルトークンを用いた自己回帰変圧器のコンテキスト圧縮

Context Compression for Auto-regressive Transformers with Sentinel Tokens ( http://arxiv.org/abs/2310.08152v1 )

ライセンス: Link先を確認
Siyu Ren, Qi Jia, Kenny Q. Zhu(参考訳) 注意モジュールの二次的な複雑さは、世代間トランスフォーマーベースのLLMにおいて、徐々に計算のバルクとなる。 さらに、長い入力を扱うときに発生する過剰なキー値キャッシュは、メモリフットプリントと推論遅延に深刻な問題を引き起こす。 本研究では,特定のトークンスパンの中間的なアクティベーションをコンパクトなものに段階的に圧縮することが可能なプラグ・アンド・プレイ方式を提案する。 ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、頻度、n-gramマッチング、意味的類似性の観点から、疎注意ベースラインに対する我々のアプローチの利点を実証している。 最後に、システム全体の改善におけるコンテキスト圧縮の利点を包括的に紹介する。 コードはhttps://github.com/drsy/kv_compressionで入手できる。

The quadratic complexity of the attention module makes it gradually become the bulk of compute in Transformer-based LLMs during generation. Moreover, the excessive key-value cache that arises when dealing with long inputs also brings severe issues on memory footprint and inference latency. In this work, we propose a plug-and-play approach that is able to incrementally compress the intermediate activation of a specified span of tokens into compact ones, thereby reducing both memory and computational cost when processing subsequent context. Experiments on both in-domain language modeling and zero-shot open-ended document generation demonstrate the advantage of our approach over sparse attention baselines in terms of fluency, n-gram matching, and semantic similarity. At last, we comprehensively profile the benefit of context compression on improving the system throughout. Code is available at https://github.com/DRSY/KV_Compression.
翻訳日:2023-10-14 12:12:46 公開日:2023-10-12
# ファイナンスおよび畳み込みネットワークにおける高次元の予測サンプル共分散の極値漸近性について

On Extreme Value Asymptotics of Projected Sample Covariances in High Dimensions with Applications in Finance and Convolutional Networks ( http://arxiv.org/abs/2310.08150v1 )

ライセンス: Link先を確認
Ansgar Steland(参考訳) 高次元ベクトル時系列のサンプル共分散行列のある種の関数の最大型統計を研究し、通常の条件下でデータセットが収集されたというヌル仮説を統計的に確認または否定する。 このアプローチは、サンプル自己分散関数の最大偏差を仮定値から一般化する。 線形時系列フレームワークでは、ガムベル型極値漸近値が真であることが示されている。 適用例として、慣用的リスクに対する長期限定の中間分散ポートフォリオ最適化とサブポートフォリオ分析、スパーストラッキングポートフォリオによるETFインデックス追跡、画像解析のための畳み込み深層学習器、およびセンサデータの配列解析について論じる。

Maximum-type statistics of certain functions of the sample covariance matrix of high-dimensional vector time series are studied to statistically confirm or reject the null hypothesis that a data set has been collected under normal conditions. The approach generalizes the case of the maximal deviation of the sample autocovariances function from its assumed values. Within a linear time series framework it is shown that Gumbel-type extreme value asymptotics holds true. As applications we discuss long-only mimimal-variance portfolio optimization and subportfolio analysis with respect to idiosyncratic risks, ETF index tracking by sparse tracking portfolios, convolutional deep learners for image analysis and the analysis of array-of-sensors data.
翻訳日:2023-10-14 12:12:29 公開日:2023-10-12
# 推論経路を用いたオープンセット知識に基づく視覚質問応答

Open-Set Knowledge-Based Visual Question Answering with Inference Paths ( http://arxiv.org/abs/2310.08148v1 )

ライセンス: Link先を確認
Jingru Gan, Xinzhe Han, Shuhui Wang, Qingming Huang(参考訳) 画像と関連するテキスト質問が与えられた場合、KB-VQA(Knowledge-Based Visual Question Answering)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。 従来のKB-VQAモデルは通常、学習済みの検索者が知識グラフからテキスト情報や視覚情報を抽出し、候補間で予測を行う。 有望な進歩にもかかわらず、既存のモデルには2つの欠点がある。 第一に、マルチクラス分類としての質問応答のモデル化は、応答空間を事前に設定したコーパスに制限し、柔軟な推論能力に欠ける。 第二に、分類器は単に「答えを得る方法」を使わずに「答えとは何か」を考えるだけで、明確な推論経路を解けない。 そこで,本論文では,kk-vqaの課題に直面する。そこでは,システムでは,ワイルドなエンティティと質問に回答し,説明可能な推論パスを維持することが求められる。 上記の問題を解決するために,KB-VQA, Graph pATH ranker (GATHER for brevity) の新たなレトリバーランサーパラダイムを提案する。 具体的には、グラフ構築、プルーニング、パスレベルのランキングが含まれており、正確な回答を検索するだけでなく、推論プロセスを説明する推論パスも提供する。 モデルを総合的に評価するために、手動で修正されたエンティティレベルのアノテーションでベンチマークデータセットOK-VQAを再構成し、ConceptVQAとしてリリースする。 実世界の質問に関する広範な実験は、我々のフレームワークが知識ベース全体にわたってオープンセットの質問応答を行うだけでなく、明確な推論パスを提供することができることを示している。

Given an image and an associated textual question, the purpose of Knowledge-Based Visual Question Answering (KB-VQA) is to provide a correct answer to the question with the aid of external knowledge bases. Prior KB-VQA models are usually formulated as a retriever-classifier framework, where a pre-trained retriever extracts textual or visual information from knowledge graphs and then makes a prediction among the candidates. Despite promising progress, there are two drawbacks with existing models. Firstly, modeling question-answering as multi-class classification limits the answer space to a preset corpus and lacks the ability of flexible reasoning. Secondly, the classifier merely consider "what is the answer" without "how to get the answer", which cannot ground the answer to explicit reasoning paths. In this paper, we confront the challenge of \emph{explainable open-set} KB-VQA, where the system is required to answer questions with entities at wild and retain an explainable reasoning path. To resolve the aforementioned issues, we propose a new retriever-ranker paradigm of KB-VQA, Graph pATH rankER (GATHER for brevity). Specifically, it contains graph constructing, pruning, and path-level ranking, which not only retrieves accurate answers but also provides inference paths that explain the reasoning process. To comprehensively evaluate our model, we reformulate the benchmark dataset OK-VQA with manually corrected entity-level annotations and release it as ConceptVQA. Extensive experiments on real-world questions demonstrate that our framework is not only able to perform open-set question answering across the whole knowledge base but provide explicit reasoning path.
翻訳日:2023-10-14 12:12:15 公開日:2023-10-12
# 時空間超音波定位顕微鏡のための深層学習枠組み

A Deep Learning Framework for Spatiotemporal Ultrasound Localization Microscopy ( http://arxiv.org/abs/2310.08143v1 )

ライセンス: Link先を確認
L\'eo Milecki, Jonathan Por\'ee, Hatim Belgharbi, Chlo\'e Bourquin, Rafat Damseh, Patrick Delafontaine-Martel, Fr\'ed\'eric Lesage, Maxime Gasse, Jean Provost(参考訳) 超音波局在顕微鏡は微小血管床を数マイクロメートルまで分解する。 このような性能を実現するためには、マイクロバブルコントラスト剤が微小血管網全体に浸透しなければならない。 マイクロバブルは個別に位置し、時間をかけて個々の容器(通常数十万枚以上の画像)を採取する。 回折の基本的な限界を克服し、ネットワークの高密度な再構築を実現するためには、マイクロバブル濃度を低くする必要がある。 従来の処理パイプラインでは、近接する複数のマイクロバブルからの干渉に対応できず、さらに達成可能な濃度を低減している。 この研究は、マイクロバブル濃度の高い超音波取得から高密度血管ネットワークを回復するための深層学習アプローチを提案することで、この問題を克服している。 2光子顕微鏡から分割した現実的なマウス脳微小血管ネットワークは、V-netアーキテクチャに基づいた3次元畳み込みニューラルネットワークのトレーニングに使用された。 微小血管網を流れる複数のマイクロバブルからの超音波データセットをシミュレートし、3D CNNでマイクロバブルを追跡した。 3d-cnn法をシリコで検証し,in vivoでラットの脳獲得を行った。 シリコでは、CNNは従来のULMフレームワーク(70%)よりも高精度(81%)の血管網を再構築した。 生体内では、CNNは従来の手法と比較して分解能が向上し、微小血管を10$\mu$mまで解決することができた。

Ultrasound Localization Microscopy can resolve the microvascular bed down to a few micrometers. To achieve such performance microbubble contrast agents must perfuse the entire microvascular network. Microbubbles are then located individually and tracked over time to sample individual vessels, typically over hundreds of thousands of images. To overcome the fundamental limit of diffraction and achieve a dense reconstruction of the network, low microbubble concentrations must be used, which lead to acquisitions lasting several minutes. Conventional processing pipelines are currently unable to deal with interference from multiple nearby microbubbles, further reducing achievable concentrations. This work overcomes this problem by proposing a Deep Learning approach to recover dense vascular networks from ultrasound acquisitions with high microbubble concentrations. A realistic mouse brain microvascular network, segmented from 2-photon microscopy, was used to train a three-dimensional convolutional neural network based on a V-net architecture. Ultrasound data sets from multiple microbubbles flowing through the microvascular network were simulated and used as ground truth to train the 3D CNN to track microbubbles. The 3D-CNN approach was validated in silico using a subset of the data and in vivo on a rat brain acquisition. In silico, the CNN reconstructed vascular networks with higher precision (81%) than a conventional ULM framework (70%). In vivo, the CNN could resolve micro vessels as small as 10 $\mu$m with an increase in resolution when compared against a conventional approach.
翻訳日:2023-10-14 12:11:44 公開日:2023-10-12
# Face Anti-Spoofing のためのファイングラインドアノテーション

Fine-Grained Annotation for Face Anti-Spoofing ( http://arxiv.org/abs/2310.08142v1 )

ライセンス: Link先を確認
Xu Chen, Yunde Jia, Yuwei Wu(参考訳) 顔の偽造防止は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を果たす。 既存のディープラーニング手法は有望な結果を示しているが、まだ細かなアノテーションの欠如に苦しめられている。 本稿では,顔の偽造防止のための微粒なアノテーション手法を提案する。 具体的には,まずSegment Anything Model(SAM)を用いて,顔のランドマークをポイントプロンプトとして利用することにより,画素単位のセグメンテーションマスクを得る。 顔のランドマークはセグメンテーションのセマンティクスを提供し、顔を領域に分割する。 次にこれらの領域をマスクとして採用し、それらをspoof、living、background mapという3つのアノテーションマップにまとめます。 最後に、3つの異なるマップをモデルトレーニングのアノテーションとして3チャンネルマップに結合する。 さらに,MCREA(Multi-Channel Region Exchange Augmentation)を導入し,トレーニングデータの多様化とオーバーフィッティングの低減を図る。 実験の結果,本手法はデータ内評価とクロスデータセット評価の両方において,既存の最先端手法よりも優れていることがわかった。

Face anti-spoofing plays a critical role in safeguarding facial recognition systems against presentation attacks. While existing deep learning methods show promising results, they still suffer from the lack of fine-grained annotations, which lead models to learn task-irrelevant or unfaithful features. In this paper, we propose a fine-grained annotation method for face anti-spoofing. Specifically, we first leverage the Segment Anything Model (SAM) to obtain pixel-wise segmentation masks by utilizing face landmarks as point prompts. The face landmarks provide segmentation semantics, which segments the face into regions. We then adopt these regions as masks and assemble them into three separate annotation maps: spoof, living, and background maps. Finally, we combine three separate maps into a three-channel map as annotations for model training. Furthermore, we introduce the Multi-Channel Region Exchange Augmentation (MCREA) to diversify training data and reduce overfitting. Experimental results demonstrate that our method outperforms existing state-of-the-art approaches in both intra-dataset and cross-dataset evaluations.
翻訳日:2023-10-14 12:11:24 公開日:2023-10-12
# DualAug:OODデータ削除で追加の重大拡張を実施

DualAug: Exploiting Additional Heavy Augmentation with OOD Data Rejection ( http://arxiv.org/abs/2310.08139v1 )

ライセンス: Link先を確認
Zehao Wang, Yiwen Guo, Qizhang Li, Guanglei Yang, Wangmeng Zuo(参考訳) データ拡張は、モデルの過剰適合を減らし、一般化を改善する主要な方法である。 既存のデータ拡張手法の多くは、データ拡張の妥協点を見出す傾向にあり、拡張の振幅を慎重に増やすことで、データを過度に分解することを避け、モデル性能に悪影響を与える。 データ拡張とモデルパフォーマンスの関係を掘り下げ、重い拡張を伴うパフォーマンス低下は、アウト・オブ・ディストリビューション(OOD)データの存在から生じることを明らかにした。 それにもかかわらず、同じデータ変換が異なるトレーニングサンプルに対して異なる効果を持つため、重い拡張であっても、モデルトレーニングに有益な分散データの一部が残っている。 そこで本研究では,データ拡張手法であるtextbf{DualAug} を提案する。 基本分枝と重分枝の両方から拡張データを融合するデータ混合戦略を設計する。 教師付き画像分類ベンチマークの広範な実験により、dualaugは様々な自動データ拡張法を改善した。 さらに,半教師付き学習と対照的自己教師付き学習の実験により,dualaugは関連する方法も改善できることを示した。 コードは \href{https://github.com/shuguang99/DualAug}{https://github.com/shuguang99/DualAug} で公開されている。

Data augmentation is a dominant method for reducing model overfitting and improving generalization. Most existing data augmentation methods tend to find a compromise in augmenting the data, \textit{i.e.}, increasing the amplitude of augmentation carefully to avoid degrading some data too much and doing harm to the model performance. We delve into the relationship between data augmentation and model performance, revealing that the performance drop with heavy augmentation comes from the presence of out-of-distribution (OOD) data. Nonetheless, as the same data transformation has different effects for different training samples, even for heavy augmentation, there remains part of in-distribution data which is beneficial to model training. Based on the observation, we propose a novel data augmentation method, named \textbf{DualAug}, to keep the augmentation in distribution as much as possible at a reasonable time and computational cost. We design a data mixing strategy to fuse augmented data from both the basic- and the heavy-augmentation branches. Extensive experiments on supervised image classification benchmarks show that DualAug improve various automated data augmentation method. Moreover, the experiments on semi-supervised learning and contrastive self-supervised learning demonstrate that our DualAug can also improve related method. Code is available at \href{https://github.com/shuguang99/DualAug}{https://github.com/shuguang99/DualAug}.
翻訳日:2023-10-14 12:11:10 公開日:2023-10-12
# 交通流予測のためのマルチスケール時空間リカレントネットワーク

Multi-Scale Spatial-Temporal Recurrent Networks for Traffic Flow Prediction ( http://arxiv.org/abs/2310.08138v1 )

ライセンス: Link先を確認
Haiyang Liu, Chunjiang Zhu, Detian Zhang, Qing Li(参考訳) 交通流予測は、インテリジェント交通システムにおける最も基本的なタスクの1つである。 複雑で動的な時空間依存は、トラフィックフローの予測を非常に困難にする。 既存の空間-時間グラフニューラルネットワークは注目に値するが、(1)モデル予測性能を制限する固定グラフを無視し、(2)複雑な空間-時間依存を同時に捉えない、(3)異なる時間長の空間-時間情報に注意を払わない、といった課題に直面することが多い。 本稿では,交通流予測のためのマルチスケール時空間リカレントネットワーク(MSSTRN)を提案する。これは,単一ステップゲートリカレントユニットと複数ステップゲートリカレントユニットという,異なる時間窓下での交通データの複雑な時空間情報を完全にキャプチャする2つの異なるリカレントニューラルネットワークで構成されている。 さらに,適応型位置グラフ畳み込みを自己アテンション機構に統合し,時空間依存性の同期キャプチャを実現する空間-時空間同期アテンション機構を提案する。 我々は,4つの実トラフィックデータセットについて広範な実験を行い,20のベースライン手法と比較して,非自明なマージンで最高の予測精度が得られることを示した。

Traffic flow prediction is one of the most fundamental tasks of intelligent transportation systems. The complex and dynamic spatial-temporal dependencies make the traffic flow prediction quite challenging. Although existing spatial-temporal graph neural networks hold prominent, they often encounter challenges such as (1) ignoring the fixed graph that limits the predictive performance of the model, (2) insufficiently capturing complex spatial-temporal dependencies simultaneously, and (3) lacking attention to spatial-temporal information at different time lengths. In this paper, we propose a Multi-Scale Spatial-Temporal Recurrent Network for traffic flow prediction, namely MSSTRN, which consists of two different recurrent neural networks: the single-step gate recurrent unit and the multi-step gate recurrent unit to fully capture the complex spatial-temporal information in the traffic data under different time windows. Moreover, we propose a spatial-temporal synchronous attention mechanism that integrates adaptive position graph convolutions into the self-attention mechanism to achieve synchronous capture of spatial-temporal dependencies. We conducted extensive experiments on four real traffic datasets and demonstrated that our model achieves the best prediction accuracy with non-trivial margins compared to all the twenty baseline methods.
翻訳日:2023-10-14 12:10:33 公開日:2023-10-12
# 時系列予測のための反事実的説明

Counterfactual Explanations for Time Series Forecasting ( http://arxiv.org/abs/2310.08137v1 )

ライセンス: Link先を確認
Zhendong Wang, Ioanna Miliou, Isak Samsten, Panagiotis Papapetrou(参考訳) 近年の時系列予測手法の発展の中で,時系列に隠された特徴パターンを利用して予測性能を向上させることによって,深層予測モデルが人気を集めている。 それでも、現在の深い予測モデルの大部分は不透明であり、結果の解釈が困難である。 反事実的説明は分類モデルを説明するためのポストホックなアプローチとして広く用いられてきたが、その予測モデルへの応用は未検討のままである。 本稿では,時系列予測のための反事実生成の新たな問題を定式化し,勾配に基づく摂動を元の時系列に適用して解く予測cfというアルゴリズムを提案する。 ForecastCFは予測値に制約を適用して摂動をガイドし、望ましい予測結果を得る。 4つの最先端のディープモデルアーキテクチャを用いてForecastCFを実験的に評価し、2つのベースラインと比較した。 以上の結果から,ForecastCFは,逆ファクト的妥当性とデータ多様体の近接性の観点から,ベースラインよりも優れていた。 以上の結果から,ForecastCFは様々な予測タスクに対して有意義かつ関連性のある対実的説明を生成できることが示唆された。

Among recent developments in time series forecasting methods, deep forecasting models have gained popularity as they can utilize hidden feature patterns in time series to improve forecasting performance. Nevertheless, the majority of current deep forecasting models are opaque, hence making it challenging to interpret the results. While counterfactual explanations have been extensively employed as a post-hoc approach for explaining classification models, their application to forecasting models still remains underexplored. In this paper, we formulate the novel problem of counterfactual generation for time series forecasting, and propose an algorithm, called ForecastCF, that solves the problem by applying gradient-based perturbations to the original time series. ForecastCF guides the perturbations by applying constraints to the forecasted values to obtain desired prediction outcomes. We experimentally evaluate ForecastCF using four state-of-the-art deep model architectures and compare to two baselines. Our results show that ForecastCF outperforms the baseline in terms of counterfactual validity and data manifold closeness. Overall, our findings suggest that ForecastCF can generate meaningful and relevant counterfactual explanations for various forecasting tasks.
翻訳日:2023-10-14 12:09:48 公開日:2023-10-12
# EIPE-text:長期ナラティブテキスト生成のための評価誘導反復計画抽出

EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation ( http://arxiv.org/abs/2310.08185v1 )

ライセンス: Link先を確認
Wang You, Wenshan Wu, Yaobo Liang, Shaoguang Mao, Chenfei Wu, Maosong Cao, Yuzhe Cai, Yiduo Guo, Yan Xia, Furu Wei, Nan Duan(参考訳) プラン・アンド・ライト(plan-and-write)は、長文の物語テキスト生成における一般的な階層的アプローチである。 このアプローチに従い、いくつかの研究は計画のために単に大きな言語モデルを促すことに依存している。 本稿では,ナラティブのコーパスからプランを抽出し,抽出したプランを用いてより良いプランナーを構築する,長文のナラティブテキスト生成のための評価ガイド型反復計画抽出(epe-text)という新しいフレームワークを提案する。 EIPEテキストには、計画抽出、学習、推論の3段階がある。 計画抽出段階では、物語コーパスから計画を反復的に抽出し、改善し、計画コーパスを構築する。 質問応答(QA)に基づく評価機構を提案し,計画を自動的に評価し,詳細な計画修正手順を生成し,反復的な改善を導く。 学習段階では、プランコーパスを微調整したり、プランコーパスの例を使ってコンテキスト内学習することで、より良いプランナーを構築します。 最後に、階層的なアプローチを用いて長文の物語を生成する。 小説やストーリーテリングの分野におけるEIPEテキストの有効性を評価する。 GPT-4に基づく評価と人的評価の両方が、我々の手法がより一貫性があり、関連する長文の物語を生成することを示す。 私たちのコードは将来リリースされるでしょう。

Plan-and-Write is a common hierarchical approach in long-form narrative text generation, which first creates a plan to guide the narrative writing. Following this approach, several studies rely on simply prompting large language models for planning, which often yields suboptimal results. In this paper, we propose a new framework called Evaluation-guided Iterative Plan Extraction for long-form narrative text generation (EIPE-text), which extracts plans from the corpus of narratives and utilizes the extracted plans to construct a better planner. EIPE-text has three stages: plan extraction, learning, and inference. In the plan extraction stage, it iteratively extracts and improves plans from the narrative corpus and constructs a plan corpus. We propose a question answer (QA) based evaluation mechanism to automatically evaluate the plans and generate detailed plan refinement instructions to guide the iterative improvement. In the learning stage, we build a better planner by fine-tuning with the plan corpus or in-context learning with examples in the plan corpus. Finally, we leverage a hierarchical approach to generate long-form narratives. We evaluate the effectiveness of EIPE-text in the domains of novels and storytelling. Both GPT-4-based evaluations and human evaluations demonstrate that our method can generate more coherent and relevant long-form narratives. Our code will be released in the future.
翻訳日:2023-10-14 12:03:30 公開日:2023-10-12
# 微調整を超えたモデルから学ぶ:調査

Learn From Model Beyond Fine-Tuning: A Survey ( http://arxiv.org/abs/2310.08184v1 )

ライセンス: Link先を確認
Hongling Zheng, Li Shen, Anke Tang, Yong Luo, Han Hu, Bo Du, Dacheng Tao(参考訳) ファンデーションモデル(FM)は、幅広いタスク(特に自然言語処理とコンピュータビジョンの分野)で顕著な性能を示しており、主に命令を理解し、広範囲な高品質のデータにアクセスできることに起因する。 このことは、現在の効果を示すだけでなく、人工知能の発展に向けた有望な軌道も立てている。 残念なことに、複数の制約のため、大規模モデルのトレーニングに使用されるモデルの生データはアクセス不能なことが多いため、ダウンストリームタスクにエンドツーエンドモデルを使用することが新たな研究トレンドとなり、本記事ではモデル学習(lfm)と呼んでいる。 LFMは、モデルインターフェースに基づくFMの研究、修正、設計に焦点を当て、モデル構造と重量(ブラックボックス環境で)をよりよく理解し、モデルを下流タスクに一般化する。 lfm技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタ学習、モデル編集の5つの主要な領域に大まかに分類できる。 各カテゴリはFMの能力と性能を高めるための手法と戦略のレパートリーを含んでいる。 本稿は、読者が現在の研究状況やアイデアをよりよく理解するために、FMに基づく現在の手法を LFM の観点から包括的にレビューする。 結論として,今後の調査において重要な領域をいくつか紹介するとともに,研究コミュニティからのさらなる注目を必要とするオープンイシューに対処することで,調査をまとめる。 本稿では,<https://github.com/ruthless-man/Awesome-Learn-from-Model>で確認した。

Foundation models (FM) have demonstrated remarkable performance across a wide range of tasks (especially in the fields of natural language processing and computer vision), primarily attributed to their ability to comprehend instructions and access extensive, high-quality data. This not only showcases their current effectiveness but also sets a promising trajectory towards the development of artificial general intelligence. Unfortunately, due to multiple constraints, the raw data of the model used for large model training are often inaccessible, so the use of end-to-end models for downstream tasks has become a new research trend, which we call Learn From Model (LFM) in this article. LFM focuses on the research, modification, and design of FM based on the model interface, so as to better understand the model structure and weights (in a black box environment), and to generalize the model to downstream tasks. The study of LFM techniques can be broadly categorized into five major areas: model tuning, model distillation, model reuse, meta learning and model editing. Each category encompasses a repertoire of methods and strategies that aim to enhance the capabilities and performance of FM. This paper gives a comprehensive review of the current methods based on FM from the perspective of LFM, in order to help readers better understand the current research status and ideas. To conclude, we summarize the survey by highlighting several critical areas for future exploration and addressing open issues that require further attention from the research community. The relevant papers we investigated in this article can be accessed at <https://github.com/ruthless-man/Awesome-Learn-from-Model>.
翻訳日:2023-10-14 12:03:07 公開日:2023-10-12
# XIMAGENET-12: モデルロバストネス評価のための説明可能なAIベンチマークデータセット

XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness Evaluation ( http://arxiv.org/abs/2310.08182v1 )

ライセンス: Link先を確認
Qiang Li, Dan Zhang, Shengzhao Lei, Xun Zhao, Shuyan Li, Porawit Kamnoedboon, WeiWei Li(参考訳) 標準ロバスト性メトリクスの欠如と、テストのための多数の無関係なベンチマークデータセットへの広範な依存により、学術的に検証されたロバストモデルと、しばしば問題となる実用的採用との間にギャップが生じた。 XIMAGENET-12は200K以上の画像と15,600のマニュアルセマンティックアノテーションを備えた,説明可能なベンチマークデータセットである。 imagenetから12のカテゴリをカバーして,実生活でよく遭遇するオブジェクトを表現し,過剰露出,ぼやけ,色変化など6つのシナリオをシミュレートし,さらに,モデル生成能力評価を超越した新たなロバストネス基準を提案する。 このベンチマークデータセットは、関連するコードとともに、https://sites.google.com/view/ximagenet-12/homeで利用可能である。 研究者や実践者は、このリソースを利用して、困難な条件下での視覚モデルの堅牢性を評価し、最終的には実用的なコンピュータビジョンシステムの要求から恩恵を受けることができる。

The lack of standardized robustness metrics and the widespread reliance on numerous unrelated benchmark datasets for testing have created a gap between academically validated robust models and their often problematic practical adoption. To address this, we introduce XIMAGENET-12, an explainable benchmark dataset with over 200K images and 15,600 manual semantic annotations. Covering 12 categories from ImageNet to represent objects commonly encountered in practical life and simulating six diverse scenarios, including overexposure, blurring, color changing, etc., we further propose a novel robustness criterion that extends beyond model generation ability assessment. This benchmark dataset, along with related code, is available at https://sites.google.com/view/ximagenet-12/home. Researchers and practitioners can leverage this resource to evaluate the robustness of their visual models under challenging conditions and ultimately benefit from the demands of practical computer vision systems.
翻訳日:2023-10-14 12:02:41 公開日:2023-10-12
# ノード回帰/分類のための無限幅グラフニューラルネットワーク

Infinite Width Graph Neural Networks for Node Regression/ Classification ( http://arxiv.org/abs/2310.08176v1 )

ライセンス: Link先を確認
Yunus Cobanoglu(参考訳) 本研究は,グラフ構造化データ上の完全連結深層ニューラルネットワークの一般化であるグラフニューラルネットワークの解析を行う。 Infinite Width Neural NetworksはDeep LearningをGaussian ProcessesとKernelsに接続している。 Gaussian ProcessesとKernelsは、ニューラルネットワークのハイパーパラメータをはるかに少なくし、不確実性推定に使用できるため、アプリケーションに対してよりユーザフレンドリである。 この研究は、ガウス過程とカーネルをニューラルネットワークに接続する研究の量を増やしている。 Kernel と Gaussian Process のクローズドフォームは、標準の Graph Neural Network、Skip-Concatenate Connections を備えた Graph Neural Network、Graph Attention Neural Network など、さまざまなアーキテクチャから派生している。 すべてのアーキテクチャは、トランスダクティブノードの回帰と分類のタスクにおいて、さまざまなデータセット上で評価される。 さらに、効果的な抵抗として知られるスペクトルスパーシフィケーション手法は、ランタイムとメモリ要求を改善するために使用される。 インダクティブグラフ学習タスク(グラフ回帰/分類)への設定の拡張は簡単であり、3.5で簡単に議論される。

This work analyzes Graph Neural Networks, a generalization of Fully-Connected Deep Neural Nets on Graph structured data, when their width, that is the number of nodes in each fullyconnected layer is increasing to infinity. Infinite Width Neural Networks are connecting Deep Learning to Gaussian Processes and Kernels, both Machine Learning Frameworks with long traditions and extensive theoretical foundations. Gaussian Processes and Kernels have much less hyperparameters then Neural Networks and can be used for uncertainty estimation, making them more user friendly for applications. This works extends the increasing amount of research connecting Gaussian Processes and Kernels to Neural Networks. The Kernel and Gaussian Process closed forms are derived for a variety of architectures, namely the standard Graph Neural Network, the Graph Neural Network with Skip-Concatenate Connections and the Graph Attention Neural Network. All architectures are evaluated on a variety of datasets on the task of transductive Node Regression and Classification. Additionally, a Spectral Sparsification method known as Effective Resistance is used to improve runtime and memory requirements. Extending the setting to inductive graph learning tasks (Graph Regression/ Classification) is straightforward and is briefly discussed in 3.5.
翻訳日:2023-10-14 12:02:24 公開日:2023-10-12
# 大規模言語モデルの認知的知識構造を探る--教育的診断評価アプローチ

Exploring the Cognitive Knowledge Structure of Large Language Models: An Educational Diagnostic Assessment Approach ( http://arxiv.org/abs/2310.08172v1 )

ライセンス: Link先を確認
Zheyuan Zhang, Jifan Yu, Juanzi Li, Lei Hou(参考訳) 大規模言語モデル(llm)は、様々なタスクで例外的なパフォーマンスを示すだけでなく、知性の火花も見せた。 近年の研究では、人間試験における能力評価に焦点が当てられ、異なる領域におけるその印象的な能力が明らかにされている。 しかし、llmsの全体的知識構造に関する認知研究はまだ欠落している。 本稿では,Bloom Taxonomyに基づく人体検査データセットであるMoocRadarを用いて,教育診断評価手法を用いて評価を行う。 我々は,LLMの知識構造を明らかにし,認知能力の洞察を得ることを目指している。 本研究は,LLMの知識を解明し,LLMの異なる認知パターンを理解することの重要性を強調する。 モデルの知識に光を当てることで、研究者はLLMの開発と活用をより情報的かつ効果的に進めることができる。

Large Language Models (LLMs) have not only exhibited exceptional performance across various tasks, but also demonstrated sparks of intelligence. Recent studies have focused on assessing their capabilities on human exams and revealed their impressive competence in different domains. However, cognitive research on the overall knowledge structure of LLMs is still lacking. In this paper, based on educational diagnostic assessment method, we conduct an evaluation using MoocRadar, a meticulously annotated human test dataset based on Bloom Taxonomy. We aim to reveal the knowledge structures of LLMs and gain insights of their cognitive capabilities. This research emphasizes the significance of investigating LLMs' knowledge and understanding the disparate cognitive patterns of LLMs. By shedding light on models' knowledge, researchers can advance development and utilization of LLMs in a more informed and effective manner.
翻訳日:2023-10-14 12:02:03 公開日:2023-10-12
# simplicity Level Estimate (SLE): 文の簡易化のための学習基準値

Simplicity Level Estimate (SLE): A Learned Reference-Less Metric for Sentence Simplification ( http://arxiv.org/abs/2310.08170v1 )

ライセンス: Link先を確認
Liam Cripwell, Jo\"el Legrand, Claire Gardent(参考訳) 文の簡略化のための自動評価は依然として難しい課題である。 最も一般的な評価指標は、複数の高品質なリファレンス -- 簡単には利用できないもの -- を必要とするため、目に見えないドメインのパフォーマンスをテストするのは難しい。 さらに、既存のメトリクスのほとんどは単純さを、流布や意味保存のような相関した属性で説明します。 我々は,人間の判断との相関性の観点から,既存の測定基準をほぼすべて上回って,単純さに焦点を当てた新しい学習評価指標(sle)を提案する。

Automatic evaluation for sentence simplification remains a challenging problem. Most popular evaluation metrics require multiple high-quality references -- something not readily available for simplification -- which makes it difficult to test performance on unseen domains. Furthermore, most existing metrics conflate simplicity with correlated attributes such as fluency or meaning preservation. We propose a new learned evaluation metric (SLE) which focuses on simplicity, outperforming almost all existing metrics in terms of correlation with human judgements.
翻訳日:2023-10-14 12:01:50 公開日:2023-10-12
# 大規模言語モデルを用いた政策文書の多クラス分類

Multiclass Classification of Policy Documents with Large Language Models ( http://arxiv.org/abs/2310.08167v1 )

ライセンス: Link先を確認
Erkan Gunes, Christoffer Koch Florczak(参考訳) 政策文書を政策課題に分類することは、政治科学とコミュニケーションの分野において長年の努力であった。 社会科学研究のためのテキスト分類プロセスを自動化する努力は、これまでにも顕著な成果を上げてきたが、まだまだ大きな進歩の余地がある。 本研究では,人手によるコーディングよりも人間の関与を必要とする代替戦略の予測性能をテストする。 GPT 3.5 と GPT 4 の OpenAI モデルは,事前訓練型大規模言語モデル (LLM) であり,議会法案と議会公聴会を比較アジェンダプロジェクト 21 の政策課題に分類する。 シナリオとGPTモデルにより,3つのユースケースシナリオを提案し,全体の精度を%58~83の範囲で推定する。 3つのシナリオは、それぞれ最小、中程度、主要な人間の干渉を目標としている。 全体として,人間の介入を最小限に抑えたgptへの完全依存の欠如,人間の努力に伴う正確性の向上,そして最も要求の厳しいユースケースで達成された驚くほど高い精度を示す。 しかし、より優れたユースケースは、2つのモデルが同意したデータの%65で%83の精度を達成し、我々のアプローチは比較的容易に実装でき、与えられたデータセットの大部分のコーディングをほぼ自動化できることが示唆された。 これにより、残りの35パーセントのデータを手動で手動でコーディングすることで、コストを大幅に削減しつつ、全体的な高い精度を実現することができる。

Classifying policy documents into policy issue topics has been a long-time effort in political science and communication disciplines. Efforts to automate text classification processes for social science research purposes have so far achieved remarkable results, but there is still a large room for progress. In this work, we test the prediction performance of an alternative strategy, which requires human involvement much less than full manual coding. We use the GPT 3.5 and GPT 4 models of the OpenAI, which are pre-trained instruction-tuned Large Language Models (LLM), to classify congressional bills and congressional hearings into Comparative Agendas Project's 21 major policy issue topics. We propose three use-case scenarios and estimate overall accuracies ranging from %58-83 depending on scenario and GPT model employed. The three scenarios aims at minimal, moderate, and major human interference, respectively. Overall, our results point towards the insufficiency of complete reliance on GPT with minimal human intervention, an increasing accuracy along with the human effort exerted, and a surprisingly high accuracy achieved in the most humanly demanding use-case. However, the superior use-case achieved the %83 accuracy on the %65 of the data in which the two models agreed, suggesting that a similar approach to ours can be relatively easily implemented and allow for mostly automated coding of a majority of a given dataset. This could free up resources allowing manual human coding of the remaining %35 of the data to achieve an overall higher level of accuracy while reducing costs significantly.
翻訳日:2023-10-14 12:01:40 公開日:2023-10-12
# Ziya-VL:マルチタスクインストラクションチューニングによるバイリンガル大視野モデル

Ziya-VL: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning ( http://arxiv.org/abs/2310.08166v1 )

ライセンス: Link先を確認
Junyu Lu, Dixiang Zhang, Xiaojun Wu, Xinyu Gao, Ruyi Gan, Jiaxing Zhang, Yan Song, Pingjian Zhang(参考訳) 近年,画像からテキストへのゼロショット生成やマルチモーダル入力の統合による理解において,大規模言語モデル(LLM)の機能向上が進んでいる。 しかし、このような成功は、大規模で高品質の非英語のマルチモーダルリソースが不足しているため、英語のシナリオに限られており、他の言語との競合を確立することは極めて困難である。 本稿では,多モーダル対話のための視覚意味論をLLMに組み込んだバイリンガルな大規模視覚言語モデル(LVLM)であるZiya-VLシリーズを紹介する。 ziya-vl-baseとziya-vl-chatで構成され、blip-2からのクエリ変換を採用し、命令チューニング、多段階トレーニング、言語アライメントのための低ランク適応モジュールといった最適化スキームの支援をさらに探っている。 さらに,マルチモーダルシナリオにおけるGPT-4の理解能力の向上,収集した英語画像テキストデータセットを中国語に翻訳し,インコンテクスト学習手法による命令応答を生成する。 実験の結果,既存のlvlmsと比較して,ziya-vlは,ゼロショット画像テキスト検索,キャプション,視覚的質問応答など,英語のみのタスクで競争性能が向上することが示された。 GPT-4でアクセスされた評価リーダーボードは,中国のマルチモーダルシナリオ対話において,良好な画像テキスト理解と生成能力を有することを示す。 コード、デモ、モデルは ~\url{https://huggingface.co/IDEA-CCNL/Ziya-BLIP2-14B-Visual-v1} で入手できる。

Recent advancements enlarge the capabilities of large language models (LLMs) in zero-shot image-to-text generation and understanding by integrating multi-modal inputs. However, such success is typically limited to English scenarios due to the lack of large-scale and high-quality non-English multi-modal resources, making it extremely difficult to establish competitive counterparts in other languages. In this paper, we introduce the Ziya-VL series, a set of bilingual large-scale vision-language models (LVLMs) designed to incorporate visual semantics into LLM for multi-modal dialogue. Composed of Ziya-VL-Base and Ziya-VL-Chat, our models adopt the Querying Transformer from BLIP-2, further exploring the assistance of optimization schemes such as instruction tuning, multi-stage training and low-rank adaptation module for visual-language alignment. In addition, we stimulate the understanding ability of GPT-4 in multi-modal scenarios, translating our gathered English image-text datasets into Chinese and generating instruction-response through the in-context learning method. The experiment results demonstrate that compared to the existing LVLMs, Ziya-VL achieves competitive performance across a wide range of English-only tasks including zero-shot image-text retrieval, image captioning, and visual question answering. The evaluation leaderboard accessed by GPT-4 also indicates that our models possess satisfactory image-text understanding and generation capabilities in Chinese multi-modal scenario dialogues. Code, demo and models are available at ~\url{https://huggingface.co/IDEA-CCNL/Ziya-BLIP2-14B-Visual-v1}.
翻訳日:2023-10-14 12:01:16 公開日:2023-10-12
# CT画像からのスイニングトランスフォーマーを用いたCOVID-19検出

COVID-19 Detection Using Swin Transformer Approach from Computed Tomography Images ( http://arxiv.org/abs/2310.08165v1 )

ライセンス: Link先を確認
Kenan Morani(参考訳) 新型コロナウイルスの正確かつ効率的な診断は、特に大規模医療画像データセットの文脈において、非常に重要である。 本稿では,コンピュータビジョンタスクにおけるスウィントランスフォーマーモデル,最先端ソリューションのパワーを活用したCT画像を用いた新型コロナウイルスの診断手法を提案する。 個別のctスライスをcovid-19またはnon-covidに分類し、患者の総合的な診断を多数決によって決定する、患者レベルの予測のための体系的アプローチを含む。 この文脈におけるSwin Transformerの応用は、異常な診断精度を示す患者レベルの予測をもたらす。 評価指標の面では,本手法は新型コロナウイルスの診断における有効性を示しながら,基準線と競合する多くの手法を一貫して上回っている。 我々のモデルが達成したマクロF1スコアはベースラインを超え、正確な診断のための堅牢なソリューションを提供する。

The accurate and efficient diagnosis of COVID-19 is of paramount importance, particularly in the context of large-scale medical imaging datasets. In this preprint paper, we propose a novel approach for COVID-19 diagnosis using CT images that leverages the power of Swin Transformer models, state-of-the-art solutions in computer vision tasks. Our method includes a systematic approach for patient-level predictions, where individual CT slices are classified as COVID-19 or non-COVID, and the patient's overall diagnosis is determined through majority voting. The application of the Swin Transformer in this context results in patient-level predictions that demonstrate exceptional diagnostic accuracy. In terms of evaluation metrics, our approach consistently outperforms the baseline, as well as numerous competing methods, showcasing its effectiveness in COVID-19 diagnosis. The macro F1 score achieved by our model exceeds the baseline and offers a robust solution for accurate diagnosis.
翻訳日:2023-10-14 12:00:43 公開日:2023-10-12
# 視覚課題におけるOOD一般化のための視覚言語モデルからの蒸留

Distilling from Vision-Language Models for Improved OOD Generalization in Vision Tasks ( http://arxiv.org/abs/2310.08255v1 )

ライセンス: Link先を確認
Sravanti Addepalli, Ashish Ramayee Asokan, Lakshay Sharma, R. Venkatesh Babu(参考訳) CLIPのような視覚言語モデル(VLM)は大量の画像とテキストのペアで訓練されており、いくつかのデータ分布に顕著な一般化をもたらす。 これらのモデルのトレーニングとデータ収集/調達コストは、組織にとって貴重な知的財産(ip)となります。 ベンダーは大規模なVLMをトレーニングし、ブラックボックス設定でペイ・パー・クエリーベースでクライアントへの入出力アクセスのみを許可する。 クライアントは、限られたタスク固有のデータを用いてVLMを学生モデルに蒸留し、さらに下流アプリケーションにこの学生モデルを配置することで、推論コストを最小化する。 ナイーブ蒸留は学生のドメイン内(id)精度を大幅に向上させるが,限定ラベル画像を用いたvlm教師の優れたアウト・オブ・ディストリビューション(ood)一般化は実現できない。 これを緩和するために,教師モデルの視覚と言語を事前学習した学生モデルの視覚のモダリティと整列させ,さらに学生に適応したVLM埋め込みを蒸留するビジョン・ランゲージ・トゥ・ビジョン・アライン・ディスティル・ディスティル・予測(VL2V-ADiP)を提案する。 これは、VLM画像エンコーダの豊かな表現とテキスト埋め込みの優れた一般化を取り入れつつ、学生の事前訓練された特徴を最大限に保持する。 提案手法は,教師のブラックボックス設定における標準ドメイン一般化ベンチマークと,VLMの重みが利用できる場合の最先端結果を実現する。

Vision-Language Models (VLMs) such as CLIP are trained on large amounts of image-text pairs, resulting in remarkable generalization across several data distributions. The prohibitively expensive training and data collection/curation costs of these models make them valuable Intellectual Property (IP) for organizations. This motivates a vendor-client paradigm, where a vendor trains a large-scale VLM and grants only input-output access to clients on a pay-per-query basis in a black-box setting. The client aims to minimize inference cost by distilling the VLM to a student model using the limited available task-specific data, and further deploying this student model in the downstream application. While naive distillation largely improves the In-Domain (ID) accuracy of the student, it fails to transfer the superior out-of-distribution (OOD) generalization of the VLM teacher using the limited available labeled images. To mitigate this, we propose Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP), which first aligns the vision and language modalities of the teacher model with the vision modality of a pre-trained student model, and further distills the aligned VLM embeddings to the student. This maximally retains the pre-trained features of the student, while also incorporating the rich representations of the VLM image encoder and the superior generalization of the text embeddings. The proposed approach achieves state-of-the-art results on the standard Domain Generalization benchmarks in a black-box teacher setting, and also when weights of the VLM are accessible.
翻訳日:2023-10-14 11:52:23 公開日:2023-10-12
# 文字認識のためのヒンディー語オンライン手書き文字の構造解析

Structural analysis of Hindi online handwritten characters for character recognition ( http://arxiv.org/abs/2310.08222v1 )

ライセンス: Link先を確認
Anand Sharma (MIET, Meerut), A. G. Ramakrishnan (IISc, Bengaluru)(参考訳) オンラインストロークの方向特性は、共通幾何学的性質を満たす点を持つ等質領域やサブストロークの観点から解析するために用いられる。 このようなサブストロークはサブユニットと呼ばれる。 これらの性質はヒンディー語理想のオンライン文字からサブユニットを抽出するために用いられる。 これらの特性といくつかのヒューリスティックはヒンディー語のオンライン手書き文字からサブユニットを抽出するのに使われる。 点ストローク,時計回り曲線ストローク,反時計回り曲線ストローク,ループストロークセグメントをヒンディー語オンライン手書き文字からサブユニットとして抽出する手法を開発した。 これらの抽出されたサブユニットは、対応するヒンディー語オンライン理想文字のサブユニットに近い構造である。 サブユニット単位でのオンライン手書き文字の局所表現の重要性を,文字認識用文字から抽出したサブユニットレベルのローカルおよび文字レベルのグローバル特徴を持つ分類器の訓練により評価する。 分類器は、テストセット上で93.5\%の認識精度を有する。 この精度は、同じトレーニングセットの文字から抽出され、同じテストセットで評価されるグローバル特徴のみで訓練された分類器と比較して最も高い。 ヒンディー語オンライン手書き文字データセット上で, サブユニット抽出アルゴリズムとサブユニットベース文字分類器をテストする。 このデータセットは96の異なる文字のサンプルで構成されている。 トレーニングセットとテストセットには,それぞれ12832と2821のサンプルがある。

Direction properties of online strokes are used to analyze them in terms of homogeneous regions or sub-strokes with points satisfying common geometric properties. Such sub-strokes are called sub-units. These properties are used to extract sub-units from Hindi ideal online characters. These properties along with some heuristics are used to extract sub-units from Hindi online handwritten characters.\\ A method is developed to extract point stroke, clockwise curve stroke, counter-clockwise curve stroke and loop stroke segments as sub-units from Hindi online handwritten characters. These extracted sub-units are close in structure to the sub-units of the corresponding Hindi online ideal characters.\\ Importance of local representation of online handwritten characters in terms of sub-units is assessed by training a classifier with sub-unit level local and character level global features extracted from characters for character recognition. The classifier has the recognition accuracy of 93.5\% on the testing set. This accuracy is the highest when compared with that of the classifiers trained only with global features extracted from characters in the same training set and evaluated on the same testing set.\\ Sub-unit extraction algorithm and the sub-unit based character classifier are tested on Hindi online handwritten character dataset. This dataset consists of samples from 96 different characters. There are 12832 and 2821 samples in the training and testing sets, respectively.
翻訳日:2023-10-14 11:51:50 公開日:2023-10-12
# SimCKP: キーフレーズ表現の単純なコントラスト学習

SimCKP: Simple Contrastive Learning of Keyphrase Representations ( http://arxiv.org/abs/2310.08221v1 )

ライセンス: Link先を確認
Minseok Choi, Chaeheon Gwak, Seho Kim, Si Hyeong Kim, Jaegul Choo(参考訳) キーフレーズ生成(KG)は、ソースドキュメントに与えられた単語やフレーズを要約することを目的としており、キーフレーズ抽出(KE)はテキストからそれらを識別することを目的としている。 検索空間は KE においてはるかに小さいため、KG と組み合わせて、対応する文書に存在するかもしれないし存在しないかもしれないキーフレーズを予測する。 しかし、現在の統一的なアプローチでは、主にトークンレベルで動作するシーケンスラベリングと最大化ベースの生成を採用しており、キーフレーズ全体の観察とスコアリングに不足している。 本研究では,2段階からなる単純なコントラスト学習フレームワークであるSimCKPを提案する。 1) 文書に現れないキーフレーズを生成するとともに,文脈対応のフレーズレベルの表現を対照的に学習してキーフレーズを抽出する抽出器生成装置 2 生成した各語句のスコアを対応づける再演者は、同様に、その表現を対応する文書と整合させる。 複数のベンチマークデータセットにおける実験結果は,提案手法の有効性を示すものである。

Keyphrase generation (KG) aims to generate a set of summarizing words or phrases given a source document, while keyphrase extraction (KE) aims to identify them from the text. Because the search space is much smaller in KE, it is often combined with KG to predict keyphrases that may or may not exist in the corresponding document. However, current unified approaches adopt sequence labeling and maximization-based generation that primarily operate at a token level, falling short in observing and scoring keyphrases as a whole. In this work, we propose SimCKP, a simple contrastive learning framework that consists of two stages: 1) An extractor-generator that extracts keyphrases by learning context-aware phrase-level representations in a contrastive manner while also generating keyphrases that do not appear in the document; 2) A reranker that adapts scores for each generated phrase by likewise aligning their representations with the corresponding document. Experimental results on multiple benchmark datasets demonstrate the effectiveness of our proposed approach, which outperforms the state-of-the-art models by a significant margin.
翻訳日:2023-10-14 11:51:26 公開日:2023-10-12
# trire: 継続的な知識保持と促進のためのマルチメカニズム学習パラダイム

TriRE: A Multi-Mechanism Learning Paradigm for Continual Knowledge Retention and Promotion ( http://arxiv.org/abs/2310.08217v1 )

ライセンス: Link先を確認
Preetha Vijayan, Prashant Bhat, Elahe Arani, Bahram Zonooz(参考訳) 連続学習(cl)は、以前に学習されたタスクの破滅的忘れ(cf)のため、ディープニューラルネットワークにとって永続的な課題である。 CFを緩和するために、重量正規化、経験リハーサル、パラメータ分離などいくつかの手法が提案されている。 比較的成功したにもかかわらず、これらの研究の方向性は主に直交的であり、いくつかの欠点に悩まされ、競合する戦略の利点を欠いている。 逆に、脳は神経新生、活動的忘れ、神経調節、メタ可塑性、経験リハーサル、文脈依存ゲーティングなど、いくつかの神経生理学的過程を同時に活用することで、タスク間で知識を学習し、許容し、伝達する。 脳が複数のメカニズムを同時に活用する方法にインスパイアされたTriREは、タスク毎に最も顕著なニューロンを保持すること、抽出された現在のタスクと過去のタスクの知識を改訂・固化すること、そしてその後のタスクに対して、巻き返しと再学習を通じて、アクティブでないニューロンを積極的に促進する新しいCLパラダイムである。 CL設定全体では、TriREはタスクの干渉を著しく減らし、分離時に考慮されたさまざまなCLアプローチを超える。

Continual learning (CL) has remained a persistent challenge for deep neural networks due to catastrophic forgetting (CF) of previously learned tasks. Several techniques such as weight regularization, experience rehearsal, and parameter isolation have been proposed to alleviate CF. Despite their relative success, these research directions have predominantly remained orthogonal and suffer from several shortcomings, while missing out on the advantages of competing strategies. On the contrary, the brain continually learns, accommodates, and transfers knowledge across tasks by simultaneously leveraging several neurophysiological processes, including neurogenesis, active forgetting, neuromodulation, metaplasticity, experience rehearsal, and context-dependent gating, rarely resulting in CF. Inspired by how the brain exploits multiple mechanisms concurrently, we propose TriRE, a novel CL paradigm that encompasses retaining the most prominent neurons for each task, revising and solidifying the extracted knowledge of current and past tasks, and actively promoting less active neurons for subsequent tasks through rewinding and relearning. Across CL settings, TriRE significantly reduces task interference and surpasses different CL approaches considered in isolation.
翻訳日:2023-10-14 11:51:06 公開日:2023-10-12
# 信頼できる機械学習

Trustworthy Machine Learning ( http://arxiv.org/abs/2310.08215v1 )

ライセンス: Link先を確認
B\'alint Mucs\'anyi and Michael Kirchhof and Elisa Nguyen and Alexander Rubinstein and Seong Joon Oh(参考訳) 機械学習技術が実際の製品やソリューションに適用されるにつれ、新たな課題が生まれている。 予期せず、モデルはディストリビューションの小さな変更に一般化できず、見たことのない新しいデータに自信を持つ傾向にあり、あるいはエンドユーザと効率的に意思決定の背後にある根拠を伝えることができない。 全体として、現在の機械学習技術には信頼性の問題があります。 信頼に値する機械学習(TML)に関する教科書は、TMLの4つの主要なトピックの理論的および技術的な背景をカバーしている。 上記の分野の古典的・現代的研究論文を議論し,その基礎となる直観を解明し,結びつける。 この本は2022/23年の冬季学期で初めて提示されたT\'ubingen大学の同名コースから発展した。 コードスニペットとさまざまなポインタを伴って、TMLのトピックに関するさらなる情報源を提供するスタンドアロン製品である。 本書の専用ウェブサイトはhttps://trustworthyml.io/。

As machine learning technology gets applied to actual products and solutions, new challenges have emerged. Models unexpectedly fail to generalize to small changes in the distribution, tend to be confident on novel data they have never seen, or cannot communicate the rationale behind their decisions effectively with the end users. Collectively, we face a trustworthiness issue with the current machine learning technology. This textbook on Trustworthy Machine Learning (TML) covers a theoretical and technical background of four key topics in TML: Out-of-Distribution Generalization, Explainability, Uncertainty Quantification, and Evaluation of Trustworthiness. We discuss important classical and contemporary research papers of the aforementioned fields and uncover and connect their underlying intuitions. The book evolved from the homonymous course at the University of T\"ubingen, first offered in the Winter Semester of 2022/23. It is meant to be a stand-alone product accompanied by code snippets and various pointers to further sources on topics of TML. The dedicated website of the book is https://trustworthyml.io/.
翻訳日:2023-10-14 11:50:46 公開日:2023-10-12
# リーマン多様体上の回帰の共形推論

Conformal inference for regression on Riemannian Manifolds ( http://arxiv.org/abs/2310.08209v1 )

ライセンス: Link先を確認
Alejandro Cholaquidis, Fabrice Gamboa, Leonardo Moreno(参考訳) 多様体上の回帰、およびより広義に、多様体上の統計学は、このタイプのデータに対する膨大な数の応用のために近年、重要な重要性を増している。 円形データは古典的な例であるが、共分散行列の空間のデータや、主成分分析の結果得られるグラスマン多様体のデータなど、多くのデータがある。 この研究では、回帰シナリオの予測集合について、応答変数が$Y$で表され、Xで表される共変変数がユークリッド空間にあるときの研究を行う。 これは[lei and wasserman, 2014]で示された概念をこの新しい文脈に拡張する。 共形推論における伝統的な原理に従って、これらの予測セットは分布自由であり、$(X, Y)$の合同分布に特定の仮定が課されることはなく、非パラメトリックな性質を保っていることを示す。 我々は、多様体上のこれらの領域の経験的バージョンの漸近的ほぼ確実に収束することを証明する。 本手法の効率は,実世界データを含む総合的なシミュレーション研究と解析によって示される。

Regression on manifolds, and, more broadly, statistics on manifolds, has garnered significant importance in recent years due to the vast number of applications for this type of data. Circular data is a classic example, but so is data in the space of covariance matrices, data on the Grassmannian manifold obtained as a result of principal component analysis, among many others. In this work we investigate prediction sets for regression scenarios when the response variable, denoted by $Y$, resides in a manifold, and the covariable, denoted by X, lies in Euclidean space. This extends the concepts delineated in [Lei and Wasserman, 2014] to this novel context. Aligning with traditional principles in conformal inference, these prediction sets are distribution-free, indicating that no specific assumptions are imposed on the joint distribution of $(X, Y)$, and they maintain a non-parametric character. We prove the asymptotic almost sure convergence of the empirical version of these regions on the manifold to their population counterparts. The efficiency of this method is shown through a comprehensive simulation study and an analysis involving real-world data.
翻訳日:2023-10-14 11:50:28 公開日:2023-10-12
# 粗粒林と多中心損失に基づく長山分類

Long-Tailed Classification Based on Coarse-Grained Leading Forest and Multi-Center Loss ( http://arxiv.org/abs/2310.08206v1 )

ライセンス: Link先を確認
Jinye Yang, Ji Xu(参考訳) Long-tailed(LT)分類は、現実世界では避けられない、困難な問題である。 既存の長い尾の分類法のほとんどは、尾のクラスよりも先頭のクラスにより多くのサンプルが存在するクラス間不均衡を解決することのみに焦点を当て、一方、同じクラス内の先頭属性のサンプル数が尾の属性のサンプル数よりもはるかに大きいクラス内不均衡を無視している。 モデルの偏差はこれら2つの要因によって引き起こされ、属性がほとんどのデータセットで暗黙的であり、属性の組み合わせが非常に複雑であるため、クラス内の不均衡は処理が難しい。 そこで本稿では,多変量特徴学習による多粒性共同解モデルの構築を目的とした,CORF(Coarse-Grained Leading Forest)とMCL(Multi-Center Loss)を基盤とした長鎖分類フレームワークである‘textbf{\textsc{Cognisance}}を提案する。 本研究では,クラス内の属性の分布をより正確に特徴付けるために,教師なし学習手法であるCLFを設計した。 属性の分布によって異なる環境に適したサンプリング戦略を柔軟に構築することができる。 さらに,特徴学習過程において,不明瞭な属性を徐々に排除することを目的とした,新しい計量学習損失(MCL)を導入する。 さらに重要なのは、このアプローチは特定のモデル構造に依存しておらず、独立したコンポーネントとして既存のLTメソッドと統合することができます。 我々は大規模な実験を行い,既存のベンチマークである ImageNet-GLT と MSCOCO-GLT の両方で最先端の性能を示し,既存の LT 手法の性能を向上させることができる。 私たちのコードはgithubで入手できる: \url{https://github.com/jinyery/cognisance}

Long-tailed(LT) classification is an unavoidable and challenging problem in the real world. Most of the existing long-tailed classification methods focus only on solving the inter-class imbalance in which there are more samples in the head class than in the tail class, while ignoring the intra-lass imbalance in which the number of samples of the head attribute within the same class is much larger than the number of samples of the tail attribute. The deviation in the model is caused by both of these factors, and due to the fact that attributes are implicit in most datasets and the combination of attributes is very complex, the intra-class imbalance is more difficult to handle. For this purpose, we proposed a long-tailed classification framework, known as \textbf{\textsc{Cognisance}}, which is founded on Coarse-Grained Leading Forest (CLF) and Multi-Center Loss (MCL), aiming to build a multi-granularity joint solution model by means of invariant feature learning. In this method, we designed an unsupervised learning method, i.e., CLF, to better characterize the distribution of attributes within a class. Depending on the distribution of attributes, we can flexibly construct sampling strategies suitable for different environments. In addition, we introduce a new metric learning loss (MCL), which aims to gradually eliminate confusing attributes during the feature learning process. More importantly, this approach does not depend on a specific model structure and can be integrated with existing LT methods as an independent component. We have conducted extensive experiments and our approach has state-of-the-art performance in both existing benchmarks ImageNet-GLT and MSCOCO-GLT, and can improve the performance of existing LT methods. Our codes are available on GitHub: \url{https://github.com/jinyery/cognisance}
翻訳日:2023-10-14 11:50:09 公開日:2023-10-12
# forget-robust局所アライメントを用いた生涯オーディオビデオマスク付きオートエンコーダ

Lifelong Audio-video Masked Autoencoder with Forget-robust Localized Alignments ( http://arxiv.org/abs/2310.08204v1 )

ライセンス: Link先を確認
Jaewoo Lee, Jaehong Yoon, Wonjae Kim, Yunji Kim, and Sung Ju Hwang(参考訳) 本稿では,オーディオとビデオのペアを含むビデオストリームから,マルチモーダル表現を継続的に学習し,その分布は時間とともに変化する。 具体的には,(1)ローカライズアライメント:我々は,相互によく連携した音声と映像のトークンを予測できる,訓練可能な小型マルチモーダルエンコーダを導入する。 これにより、モデルは正確なマルチモーダル関係を持つ高度に相関したオーディオ視覚パッチのみを学習することができる。 2) マルチモダルパッチ選択: 現在と過去のデータペア間で各オーディオビデオパッチの相対的重要性を比較し, 先行学習したオーディオビデオ表現の意図しないドリフトを緩和する。 そこで,提案手法であるFLAVAは,学習したオーディオ視覚相関の忘れを軽減しつつ,事前学習課題の列におけるトレーニング中のオーディオとビデオのモダリティの複雑な関係をキャプチャする。 実験により、FLAVAは、連続的な音声映像表現学習シナリオ下で、複数のベンチマークデータセット上で、最先端の連続学習手法よりも優れていることを確認した。

We present a lifelong audio-video masked autoencoder that continually learns the multimodal representations from a video stream containing audio-video pairs, while its distribution continually shifts over time. Specifically, we propose two novel ideas to tackle the problem: (1) Localized Alignment: We introduce a small trainable multimodal encoder that predicts the audio and video tokens that are well-aligned with each other. This allows the model to learn only the highly correlated audiovisual patches with accurate multimodal relationships. (2) Forget-robust multimodal patch selection: We compare the relative importance of each audio-video patch between the current and past data pair to mitigate unintended drift of the previously learned audio-video representations. Our proposed method, FLAVA (Forget-robust Localized Audio-Video Alignment), therefore, captures the complex relationships between the audio and video modalities during training on a sequence of pre-training tasks while alleviating the forgetting of learned audiovisual correlations. Our experiments validate that FLAVA outperforms the state-of-the-art continual learning methods on several benchmark datasets under continual audio-video representation learning scenarios.
翻訳日:2023-10-14 11:49:35 公開日:2023-10-12
# 従来のDoEを超えて: バッテリーダイナミクスのモデル同定における実験最適化のための深層強化学習

Beyond Traditional DoE: Deep Reinforcement Learning for Optimizing Experiments in Model Identification of Battery Dynamics ( http://arxiv.org/abs/2310.08198v1 )

ライセンス: Link先を確認
Gokhan Budan, Francesca Damiani, Can Kurtulus, N. Kemal Ure(参考訳) 多くのエネルギー管理システムと設計プロセスは効率の最適化のために正確なバッテリーモデルに依存している。 バッテリーモデリングの標準的な手法は従来の実験設計(doe)であり、電池の動力学は多くの異なる電流プロファイルで励起され、測定された出力はシステムの動力学を推定するために使用される。 しかし、従来のアプローチで有用なモデルを得ることは可能だが、多くの異なる構成を網羅する必要があるため、プロセスは時間がかかり、コストがかかる。 本研究は, 深部強化学習に基づく新しいDoE手法を開発し, 過去の実験統計に基づくフライ実験の構成を変化させるものである。 提案手法は, 既定の現在のプロファイルのライブラリに留まらず, 過去の測定でカバーされた出力空間を更新することで, 動的に現在のプロファイルを修正し, 将来の実験に有効な現在のプロファイルのみを適用する。 シミュレーションと実実験により、提案手法は従来のDoEと同等に精度の高いモデルを提供するが、リソースを85%削減することを示した。

Model identification of battery dynamics is a central problem in energy research; many energy management systems and design processes rely on accurate battery models for efficiency optimization. The standard methodology for battery modelling is traditional design of experiments (DoE), where the battery dynamics are excited with many different current profiles and the measured outputs are used to estimate the system dynamics. However, although it is possible to obtain useful models with the traditional approach, the process is time consuming and expensive because of the need to sweep many different current-profile configurations. In the present work, a novel DoE approach is developed based on deep reinforcement learning, which alters the configuration of the experiments on the fly based on the statistics of past experiments. Instead of sticking to a library of predefined current profiles, the proposed approach modifies the current profiles dynamically by updating the output space covered by past measurements, hence only the current profiles that are informative for future experiments are applied. Simulations and real experiments are used to show that the proposed approach gives models that are as accurate as those obtained with traditional DoE but by using 85\% less resources.
翻訳日:2023-10-14 11:49:12 公開日:2023-10-12
# ベンガルにおける視覚質問生成

Visual Question Generation in Bengali ( http://arxiv.org/abs/2310.08187v1 )

ライセンス: Link先を確認
Mahmud Hasan, Labiba Islam, Jannatul Ferdous Ruma, Tasmiah Tahsin Mayeesha, Rashedur M. Rahman(参考訳) 視覚質問生成(vqg)のタスクは、与えられた画像に関連する人間的な質問を生成することである。 VQGは新興の研究分野であるため、既存の研究はデータセットが利用可能なため、英語のようなリソースに富む言語にのみ焦点をあてる傾向にある。 本稿では,ベンガリにおける最初の視覚質問生成タスクを提案し,画像の付与時に質問を生成するトランスフォーマーベースのエンコーダデコーダアーキテクチャを提案する。 モデルの複数の変種を提案する。 (i)画像のみ:追加情報なしで画像から質問を生成するベースラインモデル。 (II)画像カテゴリーと画像回答カテゴリ:VQGを誘導し,回答と期待された質問のカテゴリに基づいて質問を生成する。 これらのモデルは、翻訳されたVQAv2.0データセットに基づいてトレーニングされ、評価される。 ベンガル語におけるVQGタスクのためのアートモデルの最初の状態を確立し、我々のモデルが文法的に正確で関連する質問を生成できることを実証した。 その結果,画像キャットモデルでは,BLUE-1スコアが33.12,BLEU-3スコアが7.56となり,他の2変種の中で最も高い結果が得られた。 また、生成タスクの品質を評価するための人的評価も行います。 人的評価は、イメージキャットモデルは、ゴール駆動および属性固有の質問を生成でき、対応する画像に関連づけられることを示唆する。

The task of Visual Question Generation (VQG) is to generate human-like questions relevant to the given image. As VQG is an emerging research field, existing works tend to focus only on resource-rich language such as English due to the availability of datasets. In this paper, we propose the first Bengali Visual Question Generation task and develop a novel transformer-based encoder-decoder architecture that generates questions in Bengali when given an image. We propose multiple variants of models - (i) image-only: baseline model of generating questions from images without additional information, (ii) image-category and image-answer-category: guided VQG where we condition the model to generate questions based on the answer and the category of expected question. These models are trained and evaluated on the translated VQAv2.0 dataset. Our quantitative and qualitative results establish the first state of the art models for VQG task in Bengali and demonstrate that our models are capable of generating grammatically correct and relevant questions. Our quantitative results show that our image-cat model achieves a BLUE-1 score of 33.12 and BLEU-3 score of 7.56 which is the highest of the other two variants. We also perform a human evaluation to assess the quality of the generation tasks. Human evaluation suggests that image-cat model is capable of generating goal-driven and attribute-specific questions and also stays relevant to the corresponding image.
翻訳日:2023-10-14 11:48:52 公開日:2023-10-12
# 大規模言語モデルの事実知識に及ぼす共起の影響

Impact of Co-occurrence on Factual Knowledge of Large Language Models ( http://arxiv.org/abs/2310.08256v1 )

ライセンス: Link先を確認
Cheongwoong Kang and Jaesik Choi(参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションで成功したにもかかわらず、事実的に誤った反応をすることが多い。 本稿では,事前学習コーパスの単純な共起統計に大きく依存することが,事実誤りの原因となる主要な要因の1つであると仮定する。 その結果、llmは共起バイアスに対して脆弱であり、正しい回答よりも頻繁に共起する単語を好むと定義されている。 結果として、LLMは、微調整中に見られるにもかかわらず、トレーニング前のデータセットで被写体とオブジェクトが共起することがほとんどない事実を思い出すのに苦労する。 モデルサイズや微調整をスケールアップしても,共起バイアスは残ることを示す。 そこで,対象対象の共起数が高いバイアスサンプルをフィルタリングしてバイアスを緩和するために,デバイアスデータセットの微調整を提案する。 debiased finetuningは、llmがトレーニングセットでまれな事実を記憶することができるが、ファインチューニング中に見当たらないまれな事実を思い出すのに効果的ではない。 緩和に関するさらなる研究は、潜在的なエラーを防ぐことによって、信頼できる言語モデルの構築に役立つだろう。 コードは \url{https://github.com/cheongwoong/impact_of_cooccurrence} で入手できる。

Large language models (LLMs) often make factually incorrect responses despite their success in various applications. In this paper, we hypothesize that relying heavily on simple co-occurrence statistics of the pre-training corpora is one of the main factors that cause factual errors. Our results reveal that LLMs are vulnerable to the co-occurrence bias, defined as preferring frequently co-occurred words over the correct answer. Consequently, LLMs struggle to recall facts whose subject and object rarely co-occur in the pre-training dataset although they are seen during finetuning. We show that co-occurrence bias remains despite scaling up model sizes or finetuning. Therefore, we suggest finetuning on a debiased dataset to mitigate the bias by filtering out biased samples whose subject-object co-occurrence count is high. Although debiased finetuning allows LLMs to memorize rare facts in the training set, it is not effective in recalling rare facts unseen during finetuning. Further research in mitigation will help build reliable language models by preventing potential errors. The code is available at \url{https://github.com/CheongWoong/impact_of_cooccurrence}.
翻訳日:2023-10-14 11:42:16 公開日:2023-10-12
# MetaBox: 強化学習によるメタブラックボックス最適化のためのベンチマークプラットフォーム

MetaBox: A Benchmark Platform for Meta-Black-Box Optimization with Reinforcement Learning ( http://arxiv.org/abs/2310.08252v1 )

ライセンス: Link先を確認
Zeyuan Ma, Hongshu Guo, Jiacheng Chen, Zhenrui Li, Guojun Peng, Yue-Jiao Gong, Yining Ma, Zhiguang Cao(参考訳) 近年,メタブラックボックス最適化と強化学習(MetaBBO-RL)は,低レベルのブラックボックス最適化のマニュアル微調整を緩和するために,メタレベルでRLを活用する能力を示した。 しかし、このフィールドは統一ベンチマークの欠如によって妨げられている。 このギャップを埋めるために,MetaBBO-RL法の開発と評価に適した最初のベンチマークプラットフォームであるMetaBoxを紹介する。 metaboxは柔軟なアルゴリズムテンプレートを提供しており、ユーザーはプラットフォーム内で独自のデザインを自由に実装できる。 さらに、合成から現実的なシナリオから収集された300を超える問題インスタンスと、従来のブラックボックスオプティマイザと最近のMetaBBO-RLメソッドを含む19のベースラインメソッドの広範なライブラリを提供する。 さらに、metaboxは3つの標準化されたパフォーマンスメトリクスを導入し、より詳細な評価を可能にした。 厳密な評価と詳細な分析を容易にするMetaBoxの有用性を説明するため,既存のMetaBBO-RL法について広範囲にわたるベンチマーク研究を行った。 MetaBoxはオープンソースで、https://github.com/GMC-DRL/MetaBox.comでアクセスできます。

Recently, Meta-Black-Box Optimization with Reinforcement Learning (MetaBBO-RL) has showcased the power of leveraging RL at the meta-level to mitigate manual fine-tuning of low-level black-box optimizers. However, this field is hindered by the lack of a unified benchmark. To fill this gap, we introduce MetaBox, the first benchmark platform expressly tailored for developing and evaluating MetaBBO-RL methods. MetaBox offers a flexible algorithmic template that allows users to effortlessly implement their unique designs within the platform. Moreover, it provides a broad spectrum of over 300 problem instances, collected from synthetic to realistic scenarios, and an extensive library of 19 baseline methods, including both traditional black-box optimizers and recent MetaBBO-RL methods. Besides, MetaBox introduces three standardized performance metrics, enabling a more thorough assessment of the methods. In a bid to illustrate the utility of MetaBox for facilitating rigorous evaluation and in-depth analysis, we carry out a wide-ranging benchmarking study on existing MetaBBO-RL methods. Our MetaBox is open-source and accessible at: https://github.com/GMC-DRL/MetaBox.
翻訳日:2023-10-14 11:41:58 公開日:2023-10-12
# 誰が言った? ソーシャルメディアAI検出のベンチマーク

Who Said That? Benchmarking Social Media AI Detection ( http://arxiv.org/abs/2310.08240v1 )

ライセンス: Link先を確認
Wanyun Cui, Linqiu Zhang, Qianle Wang, Shuyang Cai(参考訳) AI生成テキストは、さまざまなオンラインプラットフォームで普及し、変革的な見通しを提供し、誤情報や操作に関連する重大なリスクを生じさせている。 本稿では,実際のソーシャルメディアプラットフォームにおいて,aiテキスト検出モデルの能力を評価するための新しいベンチマークである said (social media ai detection) を紹介する。 ZhihuやQuoraといったソーシャルメディアプラットフォームからのAI生成テキストを組み込んでいる。 既存のベンチマークとは異なり、その内容はインターネット上の本物のaiユーザが採用する高度な戦略を反映しており、検出や可視性の向上を回避し、より現実的で困難な評価環境を提供する。 Zhihuデータセットに基づく我々の研究の注目すべき発見は、アノテータがAI生成テキストと人間生成テキストを96.5%の平均精度で区別できることを示している。 この発見は、今日の広くAIに影響を及ぼす環境において、AI生成したテキストを認識する能力の再評価を必要とする。 さらに,ユーザ情報と複数応答に基づくAI生成テキストの同定の実用性と有効性に着目した,ユーザ指向のAIテキスト検出課題を提案する。 実験の結果,実際のソーシャルメディアプラットフォーム上での検知タスクの実行は,従来のAIテキスト検出よりも困難であることが証明された。 一方、ユーザ指向のAI生成テキスト検出は、検出精度を大幅に向上させる。

AI-generated text has proliferated across various online platforms, offering both transformative prospects and posing significant risks related to misinformation and manipulation. Addressing these challenges, this paper introduces SAID (Social media AI Detection), a novel benchmark developed to assess AI-text detection models' capabilities in real social media platforms. It incorporates real AI-generate text from popular social media platforms like Zhihu and Quora. Unlike existing benchmarks, SAID deals with content that reflects the sophisticated strategies employed by real AI users on the Internet which may evade detection or gain visibility, providing a more realistic and challenging evaluation landscape. A notable finding of our study, based on the Zhihu dataset, reveals that annotators can distinguish between AI-generated and human-generated texts with an average accuracy rate of 96.5%. This finding necessitates a re-evaluation of human capability in recognizing AI-generated text in today's widely AI-influenced environment. Furthermore, we present a new user-oriented AI-text detection challenge focusing on the practicality and effectiveness of identifying AI-generated text based on user information and multiple responses. The experimental results demonstrate that conducting detection tasks on actual social media platforms proves to be more challenging compared to traditional simulated AI-text detection, resulting in a decreased accuracy. On the other hand, user-oriented AI-generated text detection significantly improve the accuracy of detection.
翻訳日:2023-10-14 11:41:37 公開日:2023-10-12
# 共変量シフト下におけるカーネル手法の統一解析に向けて

Towards a Unified Analysis of Kernel-based Methods Under Covariate Shift ( http://arxiv.org/abs/2310.08237v1 )

ライセンス: Link先を確認
Xingdong Feng, Xin He, Caixing Wang, Chao Wang, Jingnan Zhang(参考訳) 共変量シフト(covariate shift)は、ソースとターゲットデータの入力分布が実質的に異なる、実際には一般的に発生する。 様々な学習問題において実践的な重要性があるにもかかわらず、既存の手法の多くは特定の学習課題にのみ焦点をあてており、理論的にも数値的にも十分に検証されていない。 そこで本研究では,共変量シフト下での再生核ヒルベルト空間(rkhs)における一般非パラメトリック法の統一的解析を提案する。 提案手法は, 平均回帰, 量子回帰, 確率ベース分類, マージンベース分類などの特殊事例としてよく用いられる手法を含む, リッチ損失関数ファミリーに属する一般損失について理論的に検討した。 2種類の共変量シフト問題は本論文の焦点であり、一般損失関数に対して鋭い収束率を確立し、二乗損失を使用する文献において最適結果と一致する統一的理論解析を提供する。 合成および実例に関する広範囲な数値的研究により,本手法の有効性が検証された。

Covariate shift occurs prevalently in practice, where the input distributions of the source and target data are substantially different. Despite its practical importance in various learning problems, most of the existing methods only focus on some specific learning tasks and are not well validated theoretically and numerically. To tackle this problem, we propose a unified analysis of general nonparametric methods in a reproducing kernel Hilbert space (RKHS) under covariate shift. Our theoretical results are established for a general loss belonging to a rich loss function family, which includes many commonly used methods as special cases, such as mean regression, quantile regression, likelihood-based classification, and margin-based classification. Two types of covariate shift problems are the focus of this paper and the sharp convergence rates are established for a general loss function to provide a unified theoretical analysis, which concurs with the optimal results in literature where the squared loss is used. Extensive numerical studies on synthetic and real examples confirm our theoretical findings and further illustrate the effectiveness of our proposed method.
翻訳日:2023-10-14 11:41:16 公開日:2023-10-12
# GROOT:ゲームプレイ動画を視聴して指導をフォローする学習

GROOT: Learning to Follow Instructions by Watching Gameplay Videos ( http://arxiv.org/abs/2310.08235v1 )

ライセンス: Link先を確認
Shaofei Cai, Bowei Zhang, Zihao Wang, Xiaojian Ma, Anji Liu, Yitao Liang(参考訳) オープンワールド環境においてオープンエンド命令を追従できるコントローラの構築の問題について検討する。 我々は,高額なテキストゲームアノテーションを不要にしつつ,表現力のある目標仕様を提供する指示として参照ビデオに従うことを提案する。 新しい学習フレームワークは、構造化された目標空間を誘導するビデオ命令エンコーダを作成しながら、ゲームプレイビデオからそのような指示追従コントローラを学習できるようにする。 我々はエージェントGROOTを、因果変換器をベースとしたシンプルで効果的なエンコーダデコーダアーキテクチャで実装する。 我々は,minecraft skillforgeベンチマークを用いて,オープンワールドと人間プレイヤーのgrootを評価する。 eloの評価は、grootが人間と機械のギャップを縮め、最高のジェネラリストエージェントのベースラインよりも70%の勝利率を示していることをはっきりと示している。 誘導ゴール空間の質的解析は、ゴール構成や複雑なゲームプレイ行動合成など、いくつかの興味深い創発的特性をさらに示している。 コードとビデオはwebサイトhttps://craftjarvis-groot.github.ioで見ることができる。

We study the problem of building a controller that can follow open-ended instructions in open-world environments. We propose to follow reference videos as instructions, which offer expressive goal specifications while eliminating the need for expensive text-gameplay annotations. A new learning framework is derived to allow learning such instruction-following controllers from gameplay videos while producing a video instruction encoder that induces a structured goal space. We implement our agent GROOT in a simple yet effective encoder-decoder architecture based on causal transformers. We evaluate GROOT against open-world counterparts and human players on a proposed Minecraft SkillForge benchmark. The Elo ratings clearly show that GROOT is closing the human-machine gap as well as exhibiting a 70% winning rate over the best generalist agent baseline. Qualitative analysis of the induced goal space further demonstrates some interesting emergent properties, including the goal composition and complex gameplay behavior synthesis. Code and video can be found on the website https://craftjarvis-groot.github.io.
翻訳日:2023-10-14 11:40:56 公開日:2023-10-12
# 異なるスケールの物体に対するロボットマニピュレーションシミュレーションの現実性に及ぼす時間ステップ周波数の影響

The Impact of Time Step Frequency on the Realism of Robotic Manipulation Simulation for Objects of Different Scales ( http://arxiv.org/abs/2310.08233v1 )

ライセンス: Link先を確認
Minh Q. Ta and Holly Dinkel and Hameed Abdul-Rashid and Yangfei Dai and Jessica Myers and Tan Chen and Junyi Geng and Timothy Bretl(参考訳) 本研究は,ロボット操作シミュレーションの精度に及ぼす時間ステップ周波数とコンポーネントスケールの影響を評価する。 小型物体の時間ステップ周波数を増加させることにより,シミュレーション精度が向上した。 このシミュレーションは、2つのオブジェクトジオメトリの組み立て前部分のピッキングを示し、ロボットアセンブリプロセスにおけるsim2実数転送を改善する方法について議論する出発点となる。

This work evaluates the impact of time step frequency and component scale on robotic manipulation simulation accuracy. Increasing the time step frequency for small-scale objects is shown to improve simulation accuracy. This simulation, demonstrating pre-assembly part picking for two object geometries, serves as a starting point for discussing how to improve Sim2Real transfer in robotic assembly processes.
翻訳日:2023-10-14 11:40:38 公開日:2023-10-12
# 言語モデルは普遍的な埋め込みである

Language Models are Universal Embedders ( http://arxiv.org/abs/2310.08232v1 )

ライセンス: Link先を確認
Xin Zhang, Zehan Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Meishan Zhang, Min Zhang(参考訳) 大きな言語モデル(LLM)革命において、埋め込みは様々なシステムの重要な構成要素である。 例えば、LLMの知識や記憶を検索したり、コンテンツモデレーションフィルタを構築するために使われる。 このようなケースは英語から他の自然言語やプログラミング言語、検索から分類に至るまで、それぞれのシナリオに専用のものではなく統合的な埋め込みモデルを構築することが望ましい。 本稿では,この目標に向けて最初の一歩を踏み出し,複数の言語(自然言語とプログラミング)で事前学習されたトランスフォーマデコーダが,限定された英語データに微調整された場合に普遍的に埋め込めることを実証する。 徹底的な評価を伴う総合的な実践を提供する。 英語のMTEBでは、最小限のトレーニングデータを用いて、異なる埋め込みタスクにおける競合性能を実現する。 マルチリンガル分類やコード検索のような他のベンチマークでは、我々のモデルは(監督なしで)相互に、あるいは非常に監督されたベースラインやAPIを超越している。 これらの結果は、タスクや言語にまたがって適用可能な強力な統合埋め込み子を構築するための有望な道の証拠を提供する。

In the large language model (LLM) revolution, embedding is a key component of various systems. For example, it is used to retrieve knowledge or memories for LLMs, to build content moderation filters, etc. As such cases span from English to other natural or programming languages, from retrieval to classification and beyond, it is desirable to build a unified embedding model rather than dedicated ones for each scenario. In this work, we make an initial step towards this goal, demonstrating that multiple languages (both natural and programming) pre-trained transformer decoders can embed universally when finetuned on limited English data. We provide a comprehensive practice with thorough evaluations. On English MTEB, our models achieve competitive performance on different embedding tasks by minimal training data. On other benchmarks, such as multilingual classification and code search, our models (without any supervision) perform comparably to, or even surpass heavily supervised baselines and/or APIs. These results provide evidence of a promising path towards building powerful unified embedders that can be applied across tasks and languages.
翻訳日:2023-10-14 11:40:31 公開日:2023-10-12
# 幾何学的に整合した3次元形状マッチングのための高速離散最適化

Fast Discrete Optimisation for Geometrically Consistent 3D Shape Matching ( http://arxiv.org/abs/2310.08230v1 )

ライセンス: Link先を確認
Paul Roetzer, Ahmed Abbas, Dongliang Cao, Florian Bernard, Paul Swoboda(参考訳) 本研究では,3次元形状マッチングにおける学習ベースと組合せ形式の利点を組み合わせることを提案する。 学習に基づく形状マッチングソリューションは、最先端のマッチング性能をもたらすが、幾何整合性は保証せず、得られたマッチングは局所的に非滑らかである。 反対に、公理的手法は、正当なマッチングの空間を明示的に制限することで幾何学的一貫性を考慮に入れることができる。 しかし、既存の公理的形式は、実際に関係する問題のサイズにスケールしないため、あるいは非凸最適化問題の初期化にユーザ入力を必要とするため、実用的ではない。 本研究では,このギャップを解消するために,一意に望ましい性質の集合を組み合わせた新しい組合せ解法を提案する。 (i)初期化無料。 (II)準ニュートン法による大規模並列化 (iii)最適性ギャップを提供し、 (iv) 多くのインスタンスに対して、ランタイムとグローバルに最適な結果を提供する。

In this work we propose to combine the advantages of learning-based and combinatorial formalisms for 3D shape matching. While learning-based shape matching solutions lead to state-of-the-art matching performance, they do not ensure geometric consistency, so that obtained matchings are locally unsmooth. On the contrary, axiomatic methods allow to take geometric consistency into account by explicitly constraining the space of valid matchings. However, existing axiomatic formalisms are impractical since they do not scale to practically relevant problem sizes, or they require user input for the initialisation of non-convex optimisation problems. In this work we aim to close this gap by proposing a novel combinatorial solver that combines a unique set of favourable properties: our approach is (i) initialisation free, (ii) massively parallelisable powered by a quasi-Newton method, (iii) provides optimality gaps, and (iv) delivers decreased runtime and globally optimal results for many instances.
翻訳日:2023-10-14 11:40:10 公開日:2023-10-12
# ディープニューラルネットワーク分類器における潜在バイナリエンコーディングの出現

Emergence of Latent Binary Encoding in Deep Neural Network Classifiers ( http://arxiv.org/abs/2310.08224v1 )

ライセンス: Link先を確認
Luigi Sbail\`o and Luca Ghiringhelli(参考訳) ディープニューラルネットワーク分類器の潜在空間におけるバイナリエンコーディングの出現を観察した。 このようなバイナリエンコーディングは、トレーニング中に$\exp(\vec{x}^2)$として成長する損失関数を持つ線形ペナルティメート層を導入することによって引き起こされる。 我々が記述した現象は、訓練の終末期に発生し、単純等角タイトフレーム(etf)の頂点に潜在クラス平均の崩壊を伴い、よく文書化された事象である \textit{neural collapse} の特定の例を表している。 バイナリエンコーディングは、単純なetfへの収束を加速し、分類精度を向上させる。

We observe the emergence of binary encoding within the latent space of deep-neural-network classifiers. Such binary encoding is induced by introducing a linear penultimate layer, which is equipped during training with a loss function that grows as $\exp(\vec{x}^2)$, where $\vec{x}$ are the coordinates in the latent space. The phenomenon we describe represents a specific instance of a well-documented occurrence known as \textit{neural collapse}, which arises in the terminal phase of training and entails the collapse of latent class means to the vertices of a simplex equiangular tight frame (ETF). We show that binary encoding accelerates convergence toward the simplex ETF and enhances classification accuracy.
翻訳日:2023-10-14 11:39:55 公開日:2023-10-12
# 逆例によるレーダ信号の電子的対策

Concealed Electronic Countermeasures of Radar Signal with Adversarial Examples ( http://arxiv.org/abs/2310.08292v1 )

ライセンス: Link先を確認
Ruinan Ma, Canjie Zhu, Mingfeng Lu, Yunjie Li, Yu-an Tan, Ruibin Zhang, Ran Tao(参考訳) レーダ信号を含む電子対策は現代の戦争の重要な側面である。 伝統的な電子対策技術は、通常、干渉効果を確保するために大規模な干渉信号を追加する。 近年,この問題を効果的に解決できるAIベースの攻撃手法が出現しているが,攻撃シナリオは時間領域レーダー信号の分類に限られている。 本稿では,レーダ信号の時間周波数画像分類シナリオに注目した。 まず、時間周波数画像のシナリオと高い転送性を有するDITIMI-FGSM攻撃アルゴリズムに基づく攻撃パイプラインを提案する。 そして,STFTに基づく時間領域信号攻撃(STDS)アルゴリズムを提案し,時間周波数解析における非可逆性の問題を解くことにより,干渉信号の時間領域表現を得る。 攻撃パイプラインが実現可能であり,提案手法が成功率が高いことを示す実験が多数行われた。

Electronic countermeasures involving radar signals are an important aspect of modern warfare. Traditional electronic countermeasures techniques typically add large-scale interference signals to ensure interference effects, which can lead to attacks being too obvious. In recent years, AI-based attack methods have emerged that can effectively solve this problem, but the attack scenarios are currently limited to time domain radar signal classification. In this paper, we focus on the time-frequency images classification scenario of radar signals. We first propose an attack pipeline under the time-frequency images scenario and DITIMI-FGSM attack algorithm with high transferability. Then, we propose STFT-based time domain signal attack(STDS) algorithm to solve the problem of non-invertibility in time-frequency analysis, thus obtaining the time-domain representation of the interference signal. A large number of experiments show that our attack pipeline is feasible and the proposed attack method has a high success rate.
翻訳日:2023-10-14 11:30:35 公開日:2023-10-12
# 知識ベース構築のためのBERT語彙の拡張

Expanding the Vocabulary of BERT for Knowledge Base Construction ( http://arxiv.org/abs/2310.08291v1 )

ライセンス: Link先を確認
Dong Yang, Xu Wang, Remzi Celebi(参考訳) 知識ベース構築は、構造化情報を取得し、事実データと関係データの知識ベースを作成し、質問応答、情報検索、意味理解を容易にする。 International Semantic Web Conference 2023において、"Knowledge Base Construction from Pretrained Language Models"と呼ばれる課題は、言語モデルを用いた知識ベースの構築に焦点を当てたタスクを定義する。 私たちの焦点はチャレンジのトラック1であり、パラメータは最大10億に制限されており、プロンプト内にエンティティ記述を含めることは禁止されています。 マスク付き言語モデルは語彙を拡張するのに十分な柔軟性を提供するが、本質的にはマルチトークン予測のために設計されていない。 そこで本研究では,新たに追加された単語の意味的埋め込みを維持しつつ,言語モデルの語彙を拡張する知識ベース構築のための語彙拡張可能なbertを提案する。 マスク付き言語モデルにタスク固有の事前学習を導入し、言語モデルをさらに強化する。 実験の結果,提案手法の有効性が示された。 本フレームワークは,隠れテストセットのF1スコアが0.323,検証セットの0.362,両データセットが課題によって提供される。 特に、我々のフレームワークは軽量言語モデル(BERTベース、0.13億パラメータ)を採用し、大きな言語モデルに直接プロンプト(Chatgpt-3、175億パラメータ)を使ってモデルを上回る。 さらに、Token-RecodeはRe-pretrainと同等のパフォーマンスを実現している。 本研究は、知識グラフにおけるリンク予測タスクとデータ管理におけるメタデータ補完の実質的な進歩を表わし、マルチトケエンティティの直接埋め込みを可能にすることにより、言語理解モデルを発展させる。

Knowledge base construction entails acquiring structured information to create a knowledge base of factual and relational data, facilitating question answering, information retrieval, and semantic understanding. The challenge called "Knowledge Base Construction from Pretrained Language Models" at International Semantic Web Conference 2023 defines tasks focused on constructing knowledge base using language model. Our focus was on Track 1 of the challenge, where the parameters are constrained to a maximum of 1 billion, and the inclusion of entity descriptions within the prompt is prohibited. Although the masked language model offers sufficient flexibility to extend its vocabulary, it is not inherently designed for multi-token prediction. To address this, we present Vocabulary Expandable BERT for knowledge base construction, which expand the language model's vocabulary while preserving semantic embeddings for newly added words. We adopt task-specific re-pre-training on masked language model to further enhance the language model. Through experimentation, the results show the effectiveness of our approaches. Our framework achieves F1 score of 0.323 on the hidden test set and 0.362 on the validation set, both data set is provided by the challenge. Notably, our framework adopts a lightweight language model (BERT-base, 0.13 billion parameters) and surpasses the model using prompts directly on large language model (Chatgpt-3, 175 billion parameters). Besides, Token-Recode achieves comparable performances as Re-pretrain. This research advances language understanding models by enabling the direct embedding of multi-token entities, signifying a substantial step forward in link prediction task in knowledge graph and metadata completion in data management.
翻訳日:2023-10-14 11:30:20 公開日:2023-10-12
# 超伝導空洞を用いたQRAMアーキテクチャ

QRAM architectures using superconducting cavities ( http://arxiv.org/abs/2310.08288v1 )

ライセンス: Link先を確認
D. K. Weiss and Shruti Puri and S. M. Girvin(参考訳) 量子ランダムアクセスメモリ(QRAM)は、量子化学、ウィンドウ付き量子演算、非構造化探索、機械学習、量子暗号など、多くの提案されたアルゴリズムのための一般的なアーキテクチャリソースである。 本稿では,高コヒーレンス超伝導共振器をベースとした2つのバケットブリガドQRAMアーキテクチャを提案する。 第一に、制御された$\mathsf{SWAP}$$$\textsf{CSWAP}$)演算を直接構成し、第二に、巨大一方向性エミッタ(GUE)の特性を利用する。 どちらのアーキテクチャにおいても,bosonic qubitのシングルレールおよびデュアルレール実装を解析する。 シングルレールエンコーディングでは1次アンシラエラーを検出できるが、デュアルレールエンコーディングでは光子損失の検出も可能になっている。 利害関係のパラメータについて、二重レールアーキテクチャにおけるQRAMクエリのポストセレクト不完全性は、単一レールアーキテクチャにおける対応するクエリの桁違いである。 これらの結果から, 耐故障性以前のQRAMデバイスのアーキテクチャとして, デュアルレール符号化が特に魅力的であることが示唆された。

Quantum random access memory (QRAM) is a common architecture resource for algorithms with many proposed applications, including quantum chemistry, windowed quantum arithmetic, unstructured search, machine learning, and quantum cryptography. Here we propose two bucket-brigade QRAM architectures based on high-coherence superconducting resonators, which differ in their realizations of the conditional-routing operations. In the first, we directly construct controlled-$\mathsf{SWAP}$ ($\textsf{CSWAP}$) operations, while in the second we utilize the properties of giant-unidirectional emitters (GUEs). For both architectures we analyze single-rail and dual-rail implementations of a bosonic qubit. In the single-rail encoding we can detect first-order ancilla errors, while the dual-rail encoding additionally allows for the detection of photon losses. For parameter regimes of interest the post-selected infidelity of a QRAM query in a dual-rail architecture is nearly an order of magnitude below that of a corresponding query in a single-rail architecture. These findings suggest that dual-rail encodings are particularly attractive as architectures for QRAM devices in the era before fault tolerance.
翻訳日:2023-10-14 11:29:53 公開日:2023-10-12
# ベイジアンニューラルネットワーク後駆体の対称性を考慮した探索

A Symmetry-Aware Exploration of Bayesian Neural Network Posteriors ( http://arxiv.org/abs/2310.08287v1 )

ライセンス: Link先を確認
Olivier Laurent, Emanuel Aldea and Gianni Franchi(参考訳) 最新のディープニューラルネットワーク(DNN)の重みの分布は、不確実性の定量化とロバスト性のため、非常に高い次元性のため、非常に複雑な物体である。 本稿では,深層ベイズ型ニューラルネットワーク(bnns)の後方分布を大規模に探索し,その研究成果を実世界の視覚課題とアーキテクチャに拡張する。 具体的には,後方を近似するための最適アプローチを検討し,後方品質と不確かさの定量化との関係を分析し,後方へのモードの影響を調べ,後方を視認する方法について検討した。 さらに,重量空間対称性を後部理解の重要な側面として明らかにした。 この範囲では,ベイズ後方を遠ざける傾向のある置換対称性とスケーリング対称性の両方の影響を深く評価する。 最初のタイプの変換は重複モードで知られているが、後者とL2正規化の関係を調べ、以前の誤解に挑戦する。 最後に、コミュニティがベイズの後部について理解を深めるために、何千もの現実世界のモデルやコードを含む、最初の大規模なチェックポイントデータセットをまもなくリリースします。

The distribution of the weights of modern deep neural networks (DNNs) - crucial for uncertainty quantification and robustness - is an eminently complex object due to its extremely high dimensionality. This paper proposes one of the first large-scale explorations of the posterior distribution of deep Bayesian Neural Networks (BNNs), expanding its study to real-world vision tasks and architectures. Specifically, we investigate the optimal approach for approximating the posterior, analyze the connection between posterior quality and uncertainty quantification, delve into the impact of modes on the posterior, and explore methods for visualizing the posterior. Moreover, we uncover weight-space symmetries as a critical aspect for understanding the posterior. To this extent, we develop an in-depth assessment of the impact of both permutation and scaling symmetries that tend to obfuscate the Bayesian posterior. While the first type of transformation is known for duplicating modes, we explore the relationship between the latter and L2 regularization, challenging previous misconceptions. Finally, to help the community improve our understanding of the Bayesian posterior, we will shortly release the first large-scale checkpoint dataset, including thousands of real-world models and our codes.
翻訳日:2023-10-14 11:29:32 公開日:2023-10-12
# 点眼点字リテラシーの最適化: 速度が誤りの低減と理解の向上に及ぼす影響

Optimizing Odia Braille Literacy: The Influence of Speed on Error Reduction and Enhanced Comprehension ( http://arxiv.org/abs/2310.08280v1 )

ライセンス: Link先を確認
Monnie Parida, Manjira Sinha, Anupam Basu, Pabitra Mitra(参考訳) 本研究は,視覚障害学生を対象に,オディア点字読解に関する詳細な分析を行うことを目的とする。 特にこの研究は、読み速度と手や指の動きを調査している。 この研究は、理解の難しさや、遭遇する可能性のあるエラーの読み方についても調査することを目的としている。 14歳から16歳までの9年生から10年生の6人が研究に参加した。 被験者の手の動きを観察し,読解誤りが手の動きとどのように関連しているかを把握し,読解困難を識別した。 また,読解速度(単語毎分),誤り,理解など,参加者の読解能力を評価した。 odia braille readerの平均速度は17.64wpmである。 その結果,読解速度と読解誤差との間に有意な相関が認められた。 読解速度が低下すると,読解誤差は増加する傾向にあった。 さらに,本研究は点字読解誤差の低減と読解理解の改善とを関連づけた。 対照的に、より優れた理解は読書速度の増加と関連していることがわかった。 研究チームは、好まれる点字の読み方に関する興味深い発見を締めくくった。 これらの発見は、教育に重要な理論的、発達的、方法論的意味を持つ。

This study aims to conduct an extensive detailed analysis of the Odia Braille reading comprehension among students with visual disability. Specifically, the study explores their reading speed and hand or finger movements. The study also aims to investigate any comprehension difficulties and reading errors they may encounter. Six students from the 9th and 10th grades, aged between 14 and 16, participated in the study. We observed participants hand movements to understand how reading errors were connected to hand movement and identify the students reading difficulties. We also evaluated the participants Odia Braille reading skills, including their reading speed (in words per minute), errors, and comprehension. The average speed of Odia Braille reader is 17.64wpm. According to the study, there was a noticeable correlation between reading speed and reading errors. As reading speed decreased, the number of reading errors tended to increase. Moreover, the study established a link between reduced Braille reading errors and improved reading comprehension. In contrast, the study found that better comprehension was associated with increased reading speed. The researchers concluded with some interesting findings about preferred Braille reading patterns. These findings have important theoretical, developmental, and methodological implications for instruction.
翻訳日:2023-10-14 11:29:15 公開日:2023-10-12
# CP-KGC:大規模言語モデルを用いた制約付き言語知識グラフ補完

CP-KGC: Constrained-Prompt Knowledge Graph Completion with Large Language Models ( http://arxiv.org/abs/2310.08279v1 )

ライセンス: Link先を確認
Rui Yang, Li Fang, Yi Zhou(参考訳) 知識グラフ補完(KGC)は、知識グラフ内の欠落した接続を推論し推測するために既存の知識を活用することを目的としている。 SimKGCのようなテキストベースのアプローチは、インダクティブなKGCの約束を示すグラフ埋め込み方法よりも優れています。 しかし、テキストベース手法の有効性は、実体テキスト記述の品質にかかっている。 本稿では,大規模言語モデル (LLM) が有効なテキストを生成できるかどうかについて述べる。 本稿では,LLM生成テキストにおける幻覚を軽減するために,エンティティとそのテキスト記述を文脈制約として活用し,データ品質を向上させる制約ベースのプロンプトを提案する。 制約付きprompt knowledge graph completion (cp-kgc) 法は低資源計算条件下での効果的な推論を示し, wn18rr と fb15k237 データセットの先行結果を超える。 これは、KGCタスクへのLLMの統合を示し、将来の研究のための新しい方向性を提供する。

Knowledge graph completion (KGC) aims to utilize existing knowledge to deduce and infer missing connections within knowledge graphs. Text-based approaches, like SimKGC, have outperformed graph embedding methods, showcasing the promise of inductive KGC. However, the efficacy of text-based methods hinges on the quality of entity textual descriptions. In this paper, we identify the key issue of whether large language models (LLMs) can generate effective text. To mitigate hallucination in LLM-generated text in this paper, we introduce a constraint-based prompt that utilizes the entity and its textual description as contextual constraints to enhance data quality. Our Constrained-Prompt Knowledge Graph Completion (CP-KGC) method demonstrates effective inference under low resource computing conditions and surpasses prior results on the WN18RR and FB15K237 datasets. This showcases the integration of LLMs in KGC tasks and provides new directions for future research.
翻訳日:2023-10-14 11:29:00 公開日:2023-10-12
# Lag-Llama: 時系列予測の基礎モデルを目指して

Lag-Llama: Towards Foundation Models for Time Series Forecasting ( http://arxiv.org/abs/2310.08278v1 )

ライセンス: Link先を確認
Kashif Rasul, Arjun Ashok, Andrew Robert Williams, Arian Khorasani, George Adamopoulos, Rishika Bhagwatkar, Marin Bilo\v{s}, Hena Ghonia, Nadhir Vincent Hassen, Anderson Schneider, Sahil Garg, Alexandre Drouin, Nicolas Chapados, Yuriy Nevmyvaka, Irina Rish(参考訳) 時系列予測の基礎モデルの構築と,そのスケーリング行動の研究を目的として,大規模な時系列データに基づいてトレーニングされた汎用的単変量確率的時系列予測モデルであるLag-Llamaについて述べる。 このモデルは、教師付きベースラインよりも優れており、見当たらない「分散外」時系列データセット上で優れたゼロショット予測能力を示す。 モデルのスケーリング動作を適度に予測するために,スムースに破断されたパワールールを使用します。 ソースコードはhttps://github.com/kashif/pytorch-transformer-tsで入手できる。

Aiming to build foundation models for time-series forecasting and study their scaling behavior, we present here our work-in-progress on Lag-Llama, a general-purpose univariate probabilistic time-series forecasting model trained on a large collection of time-series data. The model shows good zero-shot prediction capabilities on unseen "out-of-distribution" time-series datasets, outperforming supervised baselines. We use smoothly broken power-laws to fit and predict model scaling behavior. The open source code is made available at https://github.com/kashif/pytorch-transformer-ts.
翻訳日:2023-10-14 11:28:44 公開日:2023-10-12
# リモートセンシング画像テキスト検索のための方向指向視覚意味埋め込みモデル

Direction-Oriented Visual-semantic Embedding Model for Remote Sensing Image-text Retrieval ( http://arxiv.org/abs/2310.08276v1 )

ライセンス: Link先を確認
Qing Ma, Jiancheng Pan, Cong Bai(参考訳) 近年,画像テキスト検索が急速に進歩している。 しかし、非意味的視覚的特徴とテキスト的特徴の誤一致につながる視覚的意味的不均衡のため、リモートセンシングの課題である。 この問題を解決するために,視覚と言語の関係をマイニングする新しい方向指向視覚意味埋め込みモデル(dove)を提案する。 具体的には、ROAM(Regional-Oriented Attention Module)は、最終視覚とテキストの埋め込みの間の距離を、局所的な視覚的特徴に基づいて適応的に調整する。 一方、軽量なDigging Text Genome Assistant (DTGA) は、抽出可能なテキスト表現の範囲を広げ、注意力の少ない操作でグローバルなワードレベルのセマンティック接続を強化するように設計されている。 最終的には、グローバルな視覚意味制約を利用して、単一の視覚依存を減らし、最終的な視覚およびテキスト表現の外部制約として機能する。 RSICDとRSITMDの2つのベンチマークデータセット上で,パラメータ評価,定量的比較,アブレーション研究,視覚解析などの広範な実験により,本手法の有効性と優位性を検証した。

Image-text retrieval has developed rapidly in recent years. However, it is still a challenge in remote sensing due to visual-semantic imbalance, which leads to incorrect matching of non-semantic visual and textual features. To solve this problem, we propose a novel Direction-Oriented Visual-semantic Embedding Model (DOVE) to mine the relationship between vision and language. Concretely, a Regional-Oriented Attention Module (ROAM) adaptively adjusts the distance between the final visual and textual embeddings in the latent semantic space, oriented by regional visual features. Meanwhile, a lightweight Digging Text Genome Assistant (DTGA) is designed to expand the range of tractable textual representation and enhance global word-level semantic connections using less attention operations. Ultimately, we exploit a global visual-semantic constraint to reduce single visual dependency and serve as an external constraint for the final visual and textual representations. The effectiveness and superiority of our method are verified by extensive experiments including parameter evaluation, quantitative comparison, ablation studies and visual analysis, on two benchmark datasets, RSICD and RSITMD.
翻訳日:2023-10-14 11:28:32 公開日:2023-10-12
# GraphAlign:マルチモーダル3Dオブジェクト検出のためのグラフマッチングによる正確な特徴調整の強化

GraphAlign: Enhancing Accurate Feature Alignment by Graph matching for Multi-Modal 3D Object Detection ( http://arxiv.org/abs/2310.08261v1 )

ライセンス: Link先を確認
Ziying Song, Haiyue Wei, Lin Bai, Lei Yang, Caiyan Jia(参考訳) LiDARとカメラは、自律運転における3Dオブジェクト検出のための補完センサーである。 しかし、点雲と画像の間の不自然な相互作用を探索することは困難であり、重要な要素は不均一なモジュラリティの特徴的アライメントの実施方法である。 現在,センサ間の座標変換精度の誤差を考慮せず,投影校正のみで特徴の整列を実現する手法が多数提案されている。 本稿では,グラフマッチングによる3次元物体検出のためのより正確な特徴アライメント戦略であるGraphAlignを提案する。 具体的には、画像ブランチのセマンティックセグメンテーションエンコーダからの画像特徴と、LiDARブランチの3DスパースCNNからポイントクラウド特徴を融合する。 計算を保存するために, 点雲の特徴に分割された部分空間内のユークリッド距離を計算し, 近接関係を構築する。 画像と点雲の間の投影校正を通して、最も近い点雲の特徴を画像の特徴に投影する。 そして、最寄りの隣接点を1つの点クラウドと複数の画像にマッチングすることで、より適切な機能アライメントを探索する。 さらに,重要な関係の重み付けを強化し,不均質なモダリティ間の特徴のアライメントを微調整するセルフアテンションモジュールを提供する。 nuScenesベンチマークに関する大規模な実験は、GraphAlignの有効性と効率を実証しています。

LiDAR and cameras are complementary sensors for 3D object detection in autonomous driving. However, it is challenging to explore the unnatural interaction between point clouds and images, and the critical factor is how to conduct feature alignment of heterogeneous modalities. Currently, many methods achieve feature alignment by projection calibration only, without considering the problem of coordinate conversion accuracy errors between sensors, leading to sub-optimal performance. In this paper, we present GraphAlign, a more accurate feature alignment strategy for 3D object detection by graph matching. Specifically, we fuse image features from a semantic segmentation encoder in the image branch and point cloud features from a 3D Sparse CNN in the LiDAR branch. To save computation, we construct the nearest neighbor relationship by calculating Euclidean distance within the subspaces that are divided into the point cloud features. Through the projection calibration between the image and point cloud, we project the nearest neighbors of point cloud features onto the image features. Then by matching the nearest neighbors with a single point cloud to multiple images, we search for a more appropriate feature alignment. In addition, we provide a self-attention module to enhance the weights of significant relations to fine-tune the feature alignment between heterogeneous modalities. Extensive experiments on nuScenes benchmark demonstrate the effectiveness and efficiency of our GraphAlign.
翻訳日:2023-10-14 11:28:10 公開日:2023-10-12
# Invisible Threats: OCRシステムにおけるバックドア攻撃

Invisible Threats: Backdoor Attack in OCR Systems ( http://arxiv.org/abs/2310.08259v1 )

ライセンス: Link先を確認
Mauro Conti, Nicola Farronato, Stefanos Koffas, Luca Pajola, Stjepan Picek(参考訳) 光文字認識(OCR)は、スキャンされた文書からテキストを抽出するツールである。 今日では、最先端のニューラルネットワークを活用して実現されている。 しかし、このパフォーマンスのコストはシステムの脆弱性の代償として支払われる。 例えば、バックドア攻撃では、攻撃者は、モデル全体のパフォーマンスを損なうことなく、特定のパターンによってテスト時にアクティベートされる被害者のモデルにバックドアを挿入することで、トレーニングフェーズを妥協する。 本研究は、悪意のある入力画像から読みにくい文字を注入するOCRのバックドア攻撃を提案する。 この単純だが効果的な攻撃は、最先端のOCRの弱点を露呈し、抽出されたテキストを人間の目で修正するが、OCRを前処理ステップとするNLPアプリケーションでは使用できない。 実験の結果, 攻撃されたモデルでは, 有害なインスタンスの約90%で読みやすい文字を出力することができた。

Optical Character Recognition (OCR) is a widely used tool to extract text from scanned documents. Today, the state-of-the-art is achieved by exploiting deep neural networks. However, the cost of this performance is paid at the price of system vulnerability. For instance, in backdoor attacks, attackers compromise the training phase by inserting a backdoor in the victim's model that will be activated at testing time by specific patterns while leaving the overall model performance intact. This work proposes a backdoor attack for OCR resulting in the injection of non-readable characters from malicious input images. This simple but effective attack exposes the state-of-the-art OCR weakness, making the extracted text correct to human eyes but simultaneously unusable for the NLP application that uses OCR as a preprocessing step. Experimental results show that the attacked models successfully output non-readable characters for around 90% of the poisoned instances without harming their performance for the remaining instances.
翻訳日:2023-10-14 11:27:48 公開日:2023-10-12
# 交通流予測のための時空間適応グラフ変換器

Transport-Hub-Aware Spatial-Temporal Adaptive Graph Transformer for Traffic Flow Prediction ( http://arxiv.org/abs/2310.08328v1 )

ライセンス: Link先を確認
Xiao Xu, Lei Zhang, Bailong Liu, Zhizhen Liang and Xuefei Zhang(参考訳) インテリジェントトランスポーテーションシステム(ITS)のコア技術として、交通流予測には幅広い応用がある。 交通流のデータは時空間的であり、道路網の空間的位置と相関するだけでなく、時間的時間指標も異なる。 既存の手法では,交通フローデータの本質的特性を十分に活用しつつも,空間的・時間的依存関係を効果的にモデル化することに集中して,交通フロー予測の課題を部分的に解決している。 さらに、空間的時間的データマイニングのインクリメンタルな学習の試みはごくわずかであり、トラフィックフロー予測タスクに簡単に移行できる以前の作業はほとんどない。 トラヒックフロー予測のためのインクリメンタル学習手法の挑戦と道路網の固有特性の過小利用に動機づけられ,トラヒックフロー予測のためのh-stformer (transport-hub-aware spatial-temporal adaptive graph transformer) を提案する。 具体的には, 動的空間依存性を捉えるための新しい空間自己アテンションモジュールをまず設計する。 3つのグラフマスキング行列を空間的自己アテンションに統合し、短期的および長期的依存の両方を強調する。 さらに,トラヒックフローデータの動的時間パターンを検出するために,時間的自己アテンションモジュールを用いる。 最後に,交通流予測タスクの漸進的学習のための時空間知識蒸留モジュールを設計する。 実験により,H-STFormerの正常およびインクリメンタルトラフィックフロー予測における有効性を示す。 コードはhttps://github.com/Fantasy-Shaw/H-STFormerで入手できる。

As a core technology of Intelligent Transportation System (ITS), traffic flow prediction has a wide range of applications. Traffic flow data are spatial-temporal, which are not only correlated to spatial locations in road networks, but also vary with temporal time indices. Existing methods have solved the challenges in traffic flow prediction partly, focusing on modeling spatial-temporal dependencies effectively, while not all intrinsic properties of traffic flow data are utilized fully. Besides, there are very few attempts at incremental learning of spatial-temporal data mining, and few previous works can be easily transferred to the traffic flow prediction task. Motivated by the challenge of incremental learning methods for traffic flow prediction and the underutilization of intrinsic properties of road networks, we propose a Transport-Hub-aware Spatial-Temporal adaptive graph transFormer (H-STFormer) for traffic flow prediction. Specifically, we first design a novel spatial self-attention module to capture the dynamic spatial dependencies. Three graph masking matrices are integrated into spatial self-attentions to highlight both short- and long-term dependences. Additionally, we employ a temporal self-attention module to detect dynamic temporal patterns in the traffic flow data. Finally, we design an extra spatial-temporal knowledge distillation module for incremental learning of traffic flow prediction tasks. Through extensive experiments, we show the effectiveness of H-STFormer in normal and incremental traffic flow prediction tasks. The code is available at https://github.com/Fantasy-Shaw/H-STFormer.
翻訳日:2023-10-14 11:22:57 公開日:2023-10-12
# NSM4D:オンライン4Dポイントクラウドシーケンス理解に基づくニューラルシーンモデル

NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence Understanding ( http://arxiv.org/abs/2310.08326v1 )

ライセンス: Link先を確認
Yuhao Dong, Zhuoyang Zhang, Yunze Liu, Li Yi(参考訳) 4dポイントクラウドシーケンスのオンライン理解は、vr/ar、ロボティクス、自動運転といったさまざまなシナリオにおいて、非常に実用的なものだ。 鍵となる目標は、非構造化で冗長な点雲列が到着する3dシーンの幾何学とダイナミクスを継続的に分析することである。 そして、主な課題は、計算コストを管理しながら、長期の歴史を効果的にモデル化することである。 これらの課題に取り組むため,我々はnsm4dと呼ばれる一般的なオンライン4次元知覚パラダイムを導入する。 NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能し、屋内および屋外の両方のシナリオにおいて、オンライン認識能力を大幅に向上させる。 冗長な4次元履歴を効率的に捉えるために,幾何と動きの特徴を個別に保存する幾何トークンを構築し,幾何と動き情報を分解するニューラルシーンモデルを提案する。 履歴のエクスプロイトは、ニューラルシーンモデルをクエリするのと同じくらい簡単になります。 シーケンスが進むにつれて、ニューラルシーンモデルは動的に変形し、新しい観察と一致し、効果的に歴史的な文脈を提供し、新しい観測で自身を更新する。 トークン表現を用いることで、NSM4Dは低レベルのセンサノイズに対して堅牢性を示し、幾何学的サンプリング方式によりコンパクトなサイズを維持する。 我々はNSM4Dを最先端の4D知覚バックボーンと統合し、屋内および屋外における様々なオンライン知覚ベンチマークに顕著な改善を示す。 特に、HOI4Dオンラインアクションセグメンテーションの9.6%の精度向上、SemanticKITTIオンラインセグメンテーションの3.4%のmIoU改善を実現している。 さらに,NSM4Dはトレーニングセットを超えた長いシーケンスに対して,本質的に優れたスケーラビリティを提供する。

Understanding 4D point cloud sequences online is of significant practical value in various scenarios such as VR/AR, robotics, and autonomous driving. The key goal is to continuously analyze the geometry and dynamics of a 3D scene as unstructured and redundant point cloud sequences arrive. And the main challenge is to effectively model the long-term history while keeping computational costs manageable. To tackle these challenges, we introduce a generic online 4D perception paradigm called NSM4D. NSM4D serves as a plug-and-play strategy that can be adapted to existing 4D backbones, significantly enhancing their online perception capabilities for both indoor and outdoor scenarios. To efficiently capture the redundant 4D history, we propose a neural scene model that factorizes geometry and motion information by constructing geometry tokens separately storing geometry and motion features. Exploiting the history becomes as straightforward as querying the neural scene model. As the sequence progresses, the neural scene model dynamically deforms to align with new observations, effectively providing the historical context and updating itself with the new observations. By employing token representation, NSM4D also exhibits robustness to low-level sensor noise and maintains a compact size through a geometric sampling scheme. We integrate NSM4D with state-of-the-art 4D perception backbones, demonstrating significant improvements on various online perception benchmarks in indoor and outdoor settings. Notably, we achieve a 9.6% accuracy improvement for HOI4D online action segmentation and a 3.4% mIoU improvement for SemanticKITTI online semantic segmentation. Furthermore, we show that NSM4D inherently offers excellent scalability to longer sequences beyond the training set, which is crucial for real-world applications.
翻訳日:2023-10-14 11:22:30 公開日:2023-10-12
# バックドアでプライバシーを守る

Defending Our Privacy With Backdoors ( http://arxiv.org/abs/2310.08320v1 )

ライセンス: Link先を確認
Dominik Hintersdorf, Lukas Struppek, Daniel Neider, Kristian Kersting(参考訳) 未処理で、しばしばセンシティブなWebスクラッドデータに基づいてトレーニングされた大規模なAIモデルの拡散は、プライバシー上の大きな懸念を引き起こしている。 懸念の1つは、敵がプライバシー攻撃を使ってトレーニングデータに関する情報を抽出できることである。 残念ながら、パフォーマンスを犠牲にすることなく、特定の情報をモデルから取り除くという作業は簡単ではなく、難しいことが証明されている。 本研究では,モデルから個人名などの個人情報を取り除き,テキストエンコーダに焦点をあてるため,バックドア攻撃に基づく比較的簡単かつ効果的な防御手法を提案する。 具体的には, バックドアを戦略的に挿入することで, センシティブなフレーズの埋め込みを, 人名ではなく「人」の言葉と整合させる。 実験により, ゼロショット分類器の特殊なプライバシー攻撃を用いて, CLIP に対するバックドアベース防御の有効性を実証した。 私たちのアプローチは、バックドア攻撃に対する新たな"デュアルユース"な視点を提供するだけでなく、未確認のweb階層データでトレーニングされたモデル内の個人のプライバシを強化する有望な手段を提供します。

The proliferation of large AI models trained on uncurated, often sensitive web-scraped data has raised significant privacy concerns. One of the concerns is that adversaries can extract information about the training data using privacy attacks. Unfortunately, the task of removing specific information from the models without sacrificing performance is not straightforward and has proven to be challenging. We propose a rather easy yet effective defense based on backdoor attacks to remove private information such as names of individuals from models, and focus in this work on text encoders. Specifically, through strategic insertion of backdoors, we align the embeddings of sensitive phrases with those of neutral terms-"a person" instead of the person's name. Our empirical results demonstrate the effectiveness of our backdoor-based defense on CLIP by assessing its performance using a specialized privacy attack for zero-shot classifiers. Our approach provides not only a new "dual-use" perspective on backdoor attacks, but also presents a promising avenue to enhance the privacy of individuals within models trained on uncurated web-scraped data.
翻訳日:2023-10-14 11:21:56 公開日:2023-10-12
# NISQデバイスにおける量子ゼノ効果の観測

Observation of the Quantum Zeno Effect on a NISQ Device ( http://arxiv.org/abs/2310.08317v1 )

ライセンス: Link先を確認
Andrea Alessandrini, Carola Ciaramelletti, Simone Paganelli(参考訳) 量子ゼノ効果(qze)をibm量子体験デバイス上で単一量子ビット上で複数の測定値の影響で検討する。 我々はラビの進化と自由崩壊の2つの可能性を考える。 いずれの場合も、QZEの発生は、測定回数による生存確率の増加として観察される。

We study the Quantum Zeno Effect (QZE) on a single qubit on IBM Quantum Experience devices under the effect of multiple measurements. We consider two possible cases: the Rabi evolution and the free decay. In both cases we observe the occurrence of the QZE as an increasing of the survival probability with the number of measurements.
翻訳日:2023-10-14 11:21:37 公開日:2023-10-12
# GePSAn: 料理ビデオにおける生成手順のステップ

GePSAn: Generative Procedure Step Anticipation in Cooking Videos ( http://arxiv.org/abs/2310.08312v1 )

ライセンス: Link先を確認
Mohamed Ashraf Abdelsalam, Samrudhdhi B. Rangrej, Isma Hadji, Nikita Dvornik, Konstantinos G. Derpanis, Afsaneh Fazly(参考訳) 手続きビデオにおける今後のステップ予測の問題点について検討する。 進行中の手続き的活動のビデオから、我々はリッチな自然言語で記述された妥当な次の手順を予測する。 これまでのほとんどの研究は、プロシージャビデオデータセットにおけるデータ不足の問題に焦点を当てていたが、将来の予測におけるもう一つの大きな課題は、自然設定における複数の有望な未来の実現を説明する方法である。 この問題は以前の研究でほとんど見落とされた。 この課題に対処するために、将来のステップ予測は、次のステップにおける全ての候補の分布をモデル化するものである。 具体的には、一連のビデオクリップを入力として生成モデルを設計し、次のステップで複数の多種多様な候補(自然言語)を生成します。 先行研究の後、手続き的活動の大きなテキストベースコーパスにモデルを事前学習し、そのモデルをビデオドメインに転送することで、ビデオアノテーションの不足を解消する。 我々の実験はテキストとビデオの両方において、次のステップの予測において多様性を捉え、複数の有望な将来予測を生成することを示す。 さらに、我々のモデルはYouCookII上で新しい最先端の結果を確立し、次のステップで既存のベースラインを上回ります。 最後に,本モデルがテキストから動画領域のゼロショットieへ,微調整や適応を行わずに転送できることを示し,ビデオから良質な将来のステップ予測を生成する。

We study the problem of future step anticipation in procedural videos. Given a video of an ongoing procedural activity, we predict a plausible next procedure step described in rich natural language. While most previous work focus on the problem of data scarcity in procedural video datasets, another core challenge of future anticipation is how to account for multiple plausible future realizations in natural settings. This problem has been largely overlooked in previous work. To address this challenge, we frame future step prediction as modelling the distribution of all possible candidates for the next step. Specifically, we design a generative model that takes a series of video clips as input, and generates multiple plausible and diverse candidates (in natural language) for the next step. Following previous work, we side-step the video annotation scarcity by pretraining our model on a large text-based corpus of procedural activities, and then transfer the model to the video domain. Our experiments, both in textual and video domains, show that our model captures diversity in the next step prediction and generates multiple plausible future predictions. Moreover, our model establishes new state-of-the-art results on YouCookII, where it outperforms existing baselines on the next step anticipation. Finally, we also show that our model can successfully transfer from text to the video domain zero-shot, ie, without fine-tuning or adaptation, and produces good-quality future step predictions from video.
翻訳日:2023-10-14 11:21:33 公開日:2023-10-12
# すべてのデモ例が同等に有益ではない: コンテキスト内学習のためのデモ例の重み付け

Not All Demonstration Examples are Equally Beneficial: Reweighting Demonstration Examples for In-Context Learning ( http://arxiv.org/abs/2310.08309v1 )

ライセンス: Link先を確認
Zhe Yang, Damai Dai, Peiyi Wang, Zhifang Sui(参考訳) 大規模言語モデル(llms)は、最近、モデルのスケールアップによって、コンテキスト内学習(icl)能力を獲得し、入力シーケンスにプリインストールされたいくつかのデモ例だけで、ダウンストリームタスクに迅速に適応できるようになった。 それにもかかわらず、iclの現在の実践は、例の質が通常不均一であるため、すべてのデモンストレーション例を平等に扱う。 本稿では,実演例における平均重量の決め方とICLにおける適用方法について検討する。 追加の検証データがない場合の重量の質を評価するために,最終的なICL性能と強い相関を示すマスク付き自己予測スコア(MSP)を設計する。 重み検索処理を迅速化するために,連続的な重み空間を識別し,ビーム探索を採用する。 さらに, 最適重み付けが得られ, 異なるモデル位置における実演に適用するための2つの戦略を提案する。 8つのテキスト分類タスクの実験結果から,本手法は従来のICLよりも高い性能を示した。 私たちのコードはhttps:github.com/Zhe-Young/WICLで公開されています。

Large Language Models (LLMs) have recently gained the In-Context Learning (ICL) ability with the models scaling up, allowing them to quickly adapt to downstream tasks with only a few demonstration examples prepended in the input sequence. Nonetheless, the current practice of ICL treats all demonstration examples equally, which still warrants improvement, as the quality of examples is usually uneven. In this paper, we investigate how to determine approximately optimal weights for demonstration examples and how to apply them during ICL. To assess the quality of weights in the absence of additional validation data, we design a masked self-prediction (MSP) score that exhibits a strong correlation with the final ICL performance. To expedite the weight-searching process, we discretize the continuous weight space and adopt beam search. With approximately optimal weights obtained, we further propose two strategies to apply them to demonstrations at different model positions. Experimental results on 8 text classification tasks show that our approach outperforms conventional ICL by a large margin. Our code are publicly available at https:github.com/Zhe-Young/WICL.
翻訳日:2023-10-14 11:21:07 公開日:2023-10-12
# 選択的ウィグナー位相空間トモグラフィーとその量子カオス研究への応用

Selective Wigner phase space tomography and its application for studying quantum chaos ( http://arxiv.org/abs/2310.08307v1 )

ライセンス: Link先を確認
Deepesh Khushwani, Priya Batra, V. R. Krithika, T. S. Mahesh(参考訳) 離散ウィグナー関数の準確率分布は量子状態の完全な記述を提供し、したがって通常の密度行列記述の代替として有用である。 さらに、離散ウィグナー位相空間における実験的量子状態トモグラフィーも実装できる。 調和状態のようなある種の状態に対して、ウィグナー行列は計算ベースにおける密度行列よりもはるかにスパースである。 加えて、ウィグナー行列のほんの一部だけを読むだけで、量子力学の特定の挙動を推測できる。 このような場合、選択的なウィグナー位相空間トモグラフィ(SWPST)は、通常の密度行列トモグラフィ(DMT)よりも効率的である。 原子核磁気共鳴法を3量子ビット核スピンレジスタに応用し、2量子状態のウィグナー行列を実験的に推定する。 SWPSTの具体的な応用例として、量子カオスキックトップモデルの下でスピンコヒーレント状態の進化を研究し、ウィグナー位相空間における量子古典対応のシグネチャを抽出する。

The quasiprobability distribution of the discrete Wigner function provides a complete description of a quantum state and is, therefore, a useful alternative to the usual density matrix description. Moreover, the experimental quantum state tomography in discrete Wigner phase space can also be implemented. We observe that for a certain class of states, such as harmonic states, the Wigner matrix is far more sparse compared to the density matrix in the computational basis. Additionally, reading only a small part of the Wigner matrix may suffice to infer certain behavior of quantum dynamics. In such cases, selective Wigner phase space tomography (SWPST) can be more efficient than the usual density matrix tomography (DMT). Employing nuclear magnetic resonance methods on a three-qubit nuclear spin register, we experimentally estimate Wigner matrices of various two-qubit quantum states. As a specific example application of SWPST, we study the evolution of spin coherent states under the quantum chaotic kicked top model and extract signatures of quantum-classical correspondence in the Wigner phase space.
翻訳日:2023-10-14 11:20:48 公開日:2023-10-12
# CHIP: 対照的な階層的イメージ事前トレーニング

CHIP: Contrastive Hierarchical Image Pretraining ( http://arxiv.org/abs/2310.08304v1 )

ライセンス: Link先を確認
Arpit Mittal, Harshil Jhaveri, Swapnil Mallick, Abhishek Ajmera(参考訳) 少ないショットオブジェクト分類は、少数の例を監督として、画像内のオブジェクトを分類するタスクである。 階層的な分類において、任意の未確認クラスのオブジェクトを比較的一般的なカテゴリに分類できるワンショット/ファウショット分類モデルを提案する。 本モデルでは,3段階の階層的コントラスト損失に基づくresnet152分類器を用いて画像埋め込みから抽出した特徴に基づいてオブジェクトを分類する。 実験では、imagenet(ilsvrc-12)データセットのサブセットを使用して、モデルトレーニングのための動物クラスのみを含み、トレーニングされたモデルを評価するための未公開クラスのデータセットを作成しました。 我々のモデルは、未知のオブジェクトを後により詳細に議論された一般的なカテゴリに分類するのに十分な結果をもたらす。

Few-shot object classification is the task of classifying objects in an image with limited number of examples as supervision. We propose a one-shot/few-shot classification model that can classify an object of any unseen class into a relatively general category in an hierarchically based classification. Our model uses a three-level hierarchical contrastive loss based ResNet152 classifier for classifying an object based on its features extracted from Image embedding, not used during the training phase. For our experimentation, we have used a subset of the ImageNet (ILSVRC-12) dataset that contains only the animal classes for training our model and created our own dataset of unseen classes for evaluating our trained model. Our model provides satisfactory results in classifying the unknown objects into a generic category which has been later discussed in greater detail.
翻訳日:2023-10-14 11:20:17 公開日:2023-10-12
# mproto:遠隔教師付き名前付きエンティティ認識のための分別最適トランスポートを持つマルチプロトタイプネットワーク

MProto: Multi-Prototype Network with Denoised Optimal Transport for Distantly Supervised Named Entity Recognition ( http://arxiv.org/abs/2310.08298v1 )

ライセンス: Link先を確認
Shuhui Wu, Yongliang Shen, Zeqi Tan, Wenqi Ren, Jietian Guo, Shiliang Pu, Weiming Lu(参考訳) Distantly superviseded entity recognition (DS-NER) は、知識ベースやガゼテア、ラベルなしコーパスのみを用いて、エンティティの参照を見つけ分類することを目的としている。 しかし、遠方のアノテーションは騒々しく、NERモデルの性能を劣化させる。 本稿では,DS-NERタスクのためのMProtoというノイズローバストプロトタイプネットワークを提案する。 従来のプロトタイプベースNER法とは異なり、MProtoは各エンティティタイプを複数のプロトタイプで表現し、エンティティ表現のクラス内分散を特徴付ける。 分類器を最適化するためには,各トークンに適切な接地木プロトタイプを割り当てるべきであり,これらのトークン-プロトタイプ割り当てを最適輸送(OT)問題とみなす。 さらに,不完全ラベリングのノイズを軽減するため,新しい離散化最適輸送(dot)アルゴリズムを提案する。 具体的には、他のクラストークンと全てのプロトタイプ間の代入結果を利用して、ラベルのないエンティティトークンを真の負と区別する。 いくつかのDS-NERベンチマークの実験により、我々のMProtoが最先端のパフォーマンスを達成することが示された。 ソースコードはGithubで公開されている。

Distantly supervised named entity recognition (DS-NER) aims to locate entity mentions and classify their types with only knowledge bases or gazetteers and unlabeled corpus. However, distant annotations are noisy and degrade the performance of NER models. In this paper, we propose a noise-robust prototype network named MProto for the DS-NER task. Different from previous prototype-based NER methods, MProto represents each entity type with multiple prototypes to characterize the intra-class variance among entity representations. To optimize the classifier, each token should be assigned an appropriate ground-truth prototype and we consider such token-prototype assignment as an optimal transport (OT) problem. Furthermore, to mitigate the noise from incomplete labeling, we propose a novel denoised optimal transport (DOT) algorithm. Specifically, we utilize the assignment result between Other class tokens and all prototypes to distinguish unlabeled entity tokens from true negatives. Experiments on several DS-NER benchmarks demonstrate that our MProto achieves state-of-the-art performance. The source code is now available on Github.
翻訳日:2023-10-14 11:19:28 公開日:2023-10-12
# もし我々が、道徳を人工エージェントに組み込むことを目標とすれば、どうやってそうし始めるだろうか?

If our aim is to build morality into an artificial agent, how might we begin to go about doing so? ( http://arxiv.org/abs/2310.08295v1 )

ライセンス: Link先を確認
Reneira Seeamber and Cosmin Badea(参考訳) 人工知能(AI)が医療から自動運転まで、ほとんどの分野で普及するにつれ、機械に道徳を組み込む方法、特に意思決定に成功させることが不可欠である。 しかし、道徳的な意味の問題は、特にAIの文脈ではまだ議論されている。 本稿では、最も関連する道徳的パラダイムや課題を含む道徳的エージェントを構築する際に考慮すべきさまざまな側面を強調する。 また、デザインにおけるトップダウンとボトムアップのアプローチと、道徳における感情と知覚の役割についても論じる。 次に,設計へのハイブリッドアプローチとモラルパラダイムを結合する階層的アプローチを含むソリューションを提案する。 私たちは、AI倫理においてガバナンスとポリシーがますます重要になっていること、そして道徳的エージェントのために設定されたタスクが達成可能であること、倫理的行動が達成できること、そして優れたAIを得ることを確実にすることを強調します。

As Artificial Intelligence (AI) becomes pervasive in most fields, from healthcare to autonomous driving, it is essential that we find successful ways of building morality into our machines, especially for decision-making. However, the question of what it means to be moral is still debated, particularly in the context of AI. In this paper, we highlight the different aspects that should be considered when building moral agents, including the most relevant moral paradigms and challenges. We also discuss the top-down and bottom-up approaches to design and the role of emotion and sentience in morality. We then propose solutions including a hybrid approach to design and a hierarchical approach to combining moral paradigms. We emphasize how governance and policy are becoming ever more critical in AI Ethics and in ensuring that the tasks we set for moral agents are attainable, that ethical behavior is achieved, and that we obtain good AI.
翻訳日:2023-10-14 11:19:07 公開日:2023-10-12
# MCU:Minecraftにおけるオープンエンドエージェント評価のためのタスク中心フレームワーク

MCU: A Task-centric Framework for Open-ended Agent Evaluation in Minecraft ( http://arxiv.org/abs/2310.08367v1 )

ライセンス: Link先を確認
Haowei Lin, Zihao Wang, Jianzhu Ma, Yitao Liang(参考訳) そこで本研究では,Minecraft エージェント評価のための MCU というタスク中心のフレームワークを提案する。 MCUフレームワークは、アトミックタスクの概念を基本的なビルディングブロックとして活用し、多様なタスクや任意のタスクを生成できる。 mcuフレームワークでは、各タスクは6つの異なる難易度スコア(時間消費、運用努力、計画の複雑さ、複雑度、創造性、ノベルティ)で測定される。 これらのスコアは異なる角度からタスクの多次元評価を提供し、そのため特定の顔にエージェントの能力を明らかにすることができる。 難易度スコアは各タスクの特徴としても機能し、有意義なタスク空間を生成し、タスク間の関係を明らかにする。 MCUフレームワークを用いたMinecraftエージェントの効率的な評価のために,多種多様なカテゴリと難易度分布からなる代表的タスクからなるSkillForgeというベンチマークを統一的に維持する。 また,エージェントの特定の機能を評価するタスクを選択するための便利なフィルタも提供する。 我々は,mcuがマインクラフトエージェントに関する最近の文献で使用されているすべてのタスクをカバーする高い表現力を持つことを示し,オープンエンドのマインクラフトエージェント開発を目標とし,創造性,精密制御,分散一般化といった分野における進歩の必要性を強調する。

To pursue the goal of creating an open-ended agent in Minecraft, an open-ended game environment with unlimited possibilities, this paper introduces a task-centric framework named MCU for Minecraft agent evaluation. The MCU framework leverages the concept of atom tasks as fundamental building blocks, enabling the generation of diverse or even arbitrary tasks. Within the MCU framework, each task is measured with six distinct difficulty scores (time consumption, operational effort, planning complexity, intricacy, creativity, novelty). These scores offer a multi-dimensional assessment of a task from different angles, and thus can reveal an agent's capability on specific facets. The difficulty scores also serve as the feature of each task, which creates a meaningful task space and unveils the relationship between tasks. For efficient evaluation of Minecraft agents employing the MCU framework, we maintain a unified benchmark, namely SkillForge, which comprises representative tasks with diverse categories and difficulty distribution. We also provide convenient filters for users to select tasks to assess specific capabilities of agents. We show that MCU has the high expressivity to cover all tasks used in recent literature on Minecraft agent, and underscores the need for advancements in areas such as creativity, precise control, and out-of-distribution generalization under the goal of open-ended Minecraft agent development.
翻訳日:2023-10-14 11:11:47 公開日:2023-10-12
# がんにおけるバイオマーカー発見のための言語モデルから知識グラフへ

From Large Language Models to Knowledge Graphs for Biomarker Discovery in Cancer ( http://arxiv.org/abs/2310.08365v1 )

ライセンス: Link先を確認
Md. Rezaul Karim and Lina Molinas Comet and Md Shajalal and Oya Beyan and Dietrich Rebholz-Schuhmann and Stefan Decker(参考訳) ドメインの専門家は、予防と治療の意思決定を開発するための戦略を設計するのに役立つ特定の生物学的プロセスを逮捕し広めるために、最新の知識を頼りにすることが多い。 ai(artificial intelligence)の難解なシナリオは、生体医学データ(テキスト、画像、省略、臨床など)を使用して、がんの診断と治療の推奨を提供することだ。 がん、薬物、遺伝子、タンパク質とそのメカニズムに関するデータと知識は、構造化(知識ベース(kbs))と非構造化(科学記事など)ソースに分散している。 大規模知識グラフ(kg)は、これらのデータを統合し、セマンティックな相互関係の実体と関係に関する事実を抽出することによって構築することができる。 このようなKGは、探索と質問応答(QA)だけでなく、ドメインの専門家が新しい知識を引き出すことを可能にする。 しかし、データ資産やセマンティック技術に対する理解が不足しているため、大規模なKGの探索とクエリは非ドメインユーザにとって面倒である。 本稿では,癌特異的バイオマーカー発見と対話型QAを活用するドメインKGを開発する。 そのため、オンコネットオントロジー(ONO)と呼ばれるドメインオントロジーが開発され、遺伝子と退化の関係を検証するための意味論的推論を可能にする。 その後、ONOを調和させ、語彙を制御し、BioBERT-およびSciBERT-based information extract (IE)法を用いて、科学論文から生医学的な概念を追加することで、KGは豊かになる。 さらに、新しい発見が古い発見に取って代わられる場合が多い生体医学領域が進化しているため、aiシステムが診断と治療を提供しながら概念ドリフトを示す可能性が高い。 そこで我々は,名づけられたエンティティ認識モデルでは見られないような,最近の記事やkbsに基づいて,大言語モデル(llms)を用いてkgを微調整した。

Domain experts often rely on up-to-date knowledge for apprehending and disseminating specific biological processes that help them design strategies to develop prevention and therapeutic decision-making. A challenging scenario for artificial intelligence (AI) is using biomedical data (e.g., texts, imaging, omics, and clinical) to provide diagnosis and treatment recommendations for cancerous conditions. Data and knowledge about cancer, drugs, genes, proteins, and their mechanism is spread across structured (knowledge bases (KBs)) and unstructured (e.g., scientific articles) sources. A large-scale knowledge graph (KG) can be constructed by integrating these data, followed by extracting facts about semantically interrelated entities and relations. Such KGs not only allow exploration and question answering (QA) but also allow domain experts to deduce new knowledge. However, exploring and querying large-scale KGs is tedious for non-domain users due to a lack of understanding of the underlying data assets and semantic technologies. In this paper, we develop a domain KG to leverage cancer-specific biomarker discovery and interactive QA. For this, a domain ontology called OncoNet Ontology (ONO) is developed to enable semantic reasoning for validating gene-disease relations. The KG is then enriched by harmonizing the ONO, controlled vocabularies, and additional biomedical concepts from scientific articles by employing BioBERT- and SciBERT-based information extraction (IE) methods. Further, since the biomedical domain is evolving, where new findings often replace old ones, without employing up-to-date findings, there is a high chance an AI system exhibits concept drift while providing diagnosis and treatment. Therefore, we finetuned the KG using large language models (LLMs) based on more recent articles and KBs that might not have been seen by the named entity recognition models.
翻訳日:2023-10-14 11:11:21 公開日:2023-10-12
# 神経崩壊発生時の一般化行動の解明に向けて

Towards Demystifying the Generalization Behaviors When Neural Collapse Emerges ( http://arxiv.org/abs/2310.08358v1 )

ライセンス: Link先を確認
Peifeng Gao, Qianqian Xu, Yibo Yang, Peisong Wen, Huiyang Shao, Zhiyong Yang, Bernard Ghanem, Qingming Huang(参考訳) Neural Collapse (NC) は、トレーニングの最終段階(TPT)において、ディープニューラルネットワークのよく知られた現象である。 特徴は特徴と分類器が対称構造に崩壊することであり、これは単純な等角的タイトフレーム (ETF) として知られている。 神経崩壊のグローバル最適性を示す最適化特性に関する広範な研究は行われてきたが、nc発生時の一般化行動についてはほとんど研究されていない。 特に、tptにおける一般化改善の重要な現象は、経験的観察に留まり、厳密な理論的説明を欠いている。 本稿では,TPT中におけるCEの最小化とマルチクラスSVMの接続を確立するとともに,電車の精度が100%に達した後も,継続トレーニングがテストセットの精度向上につながる理由を理論的に説明し,マルチクラスマージン一般化境界を導出する。 さらに, モデルがNCに到達し, 同様の最適化性能を示すにもかかわらず, 単純なETFにおけるラベルと特徴のアライメントの相違により, 一般化の度合いが変化する可能性が示唆された。 この新たに発見された性質を「非保存的一般化」と呼ぶ。 実験では,理論的な結果から示唆される指標を検証するための経験的観察も提供する。

Neural Collapse (NC) is a well-known phenomenon of deep neural networks in the terminal phase of training (TPT). It is characterized by the collapse of features and classifier into a symmetrical structure, known as simplex equiangular tight frame (ETF). While there have been extensive studies on optimization characteristics showing the global optimality of neural collapse, little research has been done on the generalization behaviors during the occurrence of NC. Particularly, the important phenomenon of generalization improvement during TPT has been remaining in an empirical observation and lacking rigorous theoretical explanation. In this paper, we establish the connection between the minimization of CE and a multi-class SVM during TPT, and then derive a multi-class margin generalization bound, which provides a theoretical explanation for why continuing training can still lead to accuracy improvement on test set, even after the train accuracy has reached 100%. Additionally, our further theoretical results indicate that different alignment between labels and features in a simplex ETF can result in varying degrees of generalization improvement, despite all models reaching NC and demonstrating similar optimization performance on train set. We refer to this newly discovered property as "non-conservative generalization". In experiments, we also provide empirical observations to verify the indications suggested by our theoretical results.
翻訳日:2023-10-14 11:10:46 公開日:2023-10-12
# パフォーマティビティと展望フェアネス

Performativity and Prospective Fairness ( http://arxiv.org/abs/2310.08349v1 )

ライセンス: Link先を確認
Sebastian Zezulka and Konstantin Genin(参考訳) アルゴリズムに通知された政策の展開は、社会の構造への重要な介入である。 予測アルゴリズムの使用は、アルゴリズムが訓練されたものから社会的結果の分布をシフトさせることができる。 アルゴリズムフェアネスの研究は、通常、これらのパフォーマンス効果がトレーニングデータを引き起こす構造的不平等を悪化させるという懸念によって動機づけられる。 しかし、標準的なふりかえりの公平性方法論は、これらの効果を予測するのに不適当である。 予測アルゴリズムがトレーニングされた後に保持される静的公正性制約を課すが、それがデプロイされる前に、従って、パフォーマンス効果の前には、起動するチャンスがある。 しかし、トレーニング後の静的フェアネス基準を満たすことは、デプロイ後の不平等の悪化を避けるのに十分ではない。 アルゴリズム的公正を動機付ける基本的な懸念に対処するには、デプロイ前後の関連構造的不平等の変化を明示的に比較する必要がある。 本稿では,この後処理データからアルゴリズムポリシーに関する知識を推定するための予測手法を提案する。 これには、異なる種類のパフォーマンス効果を区別し、考慮する戦略が必要である。 本稿では,因果的下流結果変数に対するアルゴリズム的効果に着目した。 我々は、(1)最近失業した人のうちの誰が長期的に失業するかを予測するアルゴリズムの使用、(2)労働市場プログラムをターゲットとするアルゴリズムの使用など、公共行政からの申請によって導かれる。 我々は、こうした政策が労働市場の男女不平等を悪化させるかどうかを予測する方法を示した。

Deploying an algorithmically informed policy is a significant intervention in the structure of society. As is increasingly acknowledged, predictive algorithms have performative effects: using them can shift the distribution of social outcomes away from the one on which the algorithms were trained. Algorithmic fairness research is usually motivated by the worry that these performative effects will exacerbate the structural inequalities that gave rise to the training data. However, standard retrospective fairness methodologies are ill-suited to predict these effects. They impose static fairness constraints that hold after the predictive algorithm is trained, but before it is deployed and, therefore, before performative effects have had a chance to kick in. However, satisfying static fairness criteria after training is not sufficient to avoid exacerbating inequality after deployment. Addressing the fundamental worry that motivates algorithmic fairness requires explicitly comparing the change in relevant structural inequalities before and after deployment. We propose a prospective methodology for estimating this post-deployment change from pre-deployment data and knowledge about the algorithmic policy. That requires a strategy for distinguishing between, and accounting for, different kinds of performative effects. In this paper, we focus on the algorithmic effect on the causally downstream outcome variable. Throughout, we are guided by an application from public administration: the use of algorithms to (1) predict who among the recently unemployed will stay unemployed for the long term and (2) targeting them with labor market programs. We illustrate our proposal by showing how to predict whether such policies will exacerbate gender inequalities in the labor market.
翻訳日:2023-10-14 11:10:19 公開日:2023-10-12
# lightzero: 一般的な逐次決定シナリオにおけるモンテカルロ木探索の統一ベンチマーク

LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios ( http://arxiv.org/abs/2310.08348v1 )

ライセンス: Link先を確認
Yazhe Niu, Yuan Pu, Zhenjie Yang, Xueyan Li, Tong Zhou, Jiyuan Ren, Shuai Hu, Hongsheng Li, Yu Liu(参考訳) 学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。 しかし、モンテカルロ木探索 (mcts) に基づくアルゴリズムを様々な実世界応用に拡張することは、特に複雑な動作空間や大きなシミュレーションコスト、あるいは固有の確率性を伴う場合、困難あるいは不可能であると考えられている。 本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。 具体的には、一般MCTS型決定解法の設計における最も重要な課題を要約し、木探索RL法の密結合アルゴリズムとシステム設計を別個のサブモジュールに分解する。 より適切な探索と最適化戦略を導入することで、これらのサブモジュールを大幅に強化し、ボードゲーム、atari、mujoco、minigrid、gobiggerなど、幅広いドメインのタスクに取り組む強力なlightzeroエージェントを構築することができます。 詳細なベンチマークの結果は、スケーラブルで効率的な意思決定インテリジェンスを構築する上で、そのような方法が有意義であることを示している。 コードはOpenDILabのhttps://github.com/opendilab/LightZero.comで公開されている。

Building agents based on tree-search planning capabilities with learned models has achieved remarkable success in classic decision-making problems, such as Go and Atari. However, it has been deemed challenging or even infeasible to extend Monte Carlo Tree Search (MCTS) based algorithms to diverse real-world applications, especially when these environments involve complex action spaces and significant simulation costs, or inherent stochasticity. In this work, we introduce LightZero, the first unified benchmark for deploying MCTS/MuZero in general sequential decision scenarios. Specificially, we summarize the most critical challenges in designing a general MCTS-style decision-making solver, then decompose the tightly-coupled algorithm and system design of tree-search RL methods into distinct sub-modules. By incorporating more appropriate exploration and optimization strategies, we can significantly enhance these sub-modules and construct powerful LightZero agents to tackle tasks across a wide range of domains, such as board games, Atari, MuJoCo, MiniGrid and GoBigger. Detailed benchmark results reveal the significant potential of such methods in building scalable and efficient decision intelligence. The code is available as part of OpenDILab at https://github.com/opendilab/LightZero.
翻訳日:2023-10-14 11:09:52 公開日:2023-10-12
# 分散トポロジカル分析パイプラインのための汎用ソフトウェアフレームワーク

A Generic Software Framework for Distributed Topological Analysis Pipelines ( http://arxiv.org/abs/2310.08339v1 )

ライセンス: Link先を確認
Eve Le Guillou, Michael Will, Pierre Guillou, Jonas Lukasczyk, Pierre Fortin, Christoph Garth, Julien Tierny(参考訳) 本稿では,分散メモリモデルにおけるトポロジカル解析パイプラインをサポートするためのソフトウェアフレームワークを提案する。 最近のいくつかの論文では、トポロジに基づく分散メモリ環境のアプローチが紹介されているが、これらは、調整された単アルゴリズムの実装で得られた報告実験である。 対照的に,本稿では,トポロジカル解析パイプラインのための汎用汎用フレームワーク,すなわち相互に相互作用するトポロジカルアルゴリズムのシーケンス,おそらくは異なる数のプロセスについて述べる。 具体的には、Topology ToolKit (TTK)の中で、MPIモデルでフレームワークをインスタンス化した。 このフレームワークの開発中に、私たちはいくつかのアルゴリズムとソフトウェアエンジニアリングの課題に直面しました。 TTKがサポートする分散メモリトポロジカルアルゴリズムの分類法を,通信要求に応じて提供し,ハイブリッドMPI+スレッド並列化の例を示す。 詳細な性能分析の結果,並列効率は20\%$から80\%$ (アルゴリズムに依存する) であり,本フレームワークが導入するmpi固有のプリコンディショニングは,計算時間のオーバーヘッドを無視できることがわかった。 我々はTTKの新たな分散メモリ機能と、複数のアルゴリズムを組み合わせた高度な分析パイプラインの例を説明し、64ノード(合計1,536コア)の標準クラスタで発見された最大(120億頂点)の公開データセット上で実行される。 最後に,TTKのMPI拡張を完了するためのロードマップと,アルゴリズム通信カテゴリ毎の一般的なレコメンデーションを提供する。

This system paper presents a software framework for the support of topological analysis pipelines in a distributed-memory model. While several recent papers introduced topology-based approaches for distributed-memory environments, these were reporting experiments obtained with tailored, mono-algorithm implementations. In contrast, we describe in this paper a general-purpose, generic framework for topological analysis pipelines, i.e. a sequence of topological algorithms interacting together, possibly on distinct numbers of processes. Specifically, we instantiated our framework with the MPI model, within the Topology ToolKit (TTK). While developing this framework, we faced several algorithmic and software engineering challenges, which we document in this paper. We provide a taxonomy for the distributed-memory topological algorithms supported by TTK, depending on their communication needs and provide examples of hybrid MPI+thread parallelizations. Detailed performance analyses show that parallel efficiencies range from $20\%$ to $80\%$ (depending on the algorithms), and that the MPI-specific preconditioning introduced by our framework induces a negligible computation time overhead. We illustrate the new distributed-memory capabilities of TTK with an example of advanced analysis pipeline, combining multiple algorithms, run on the largest publicly available dataset we have found (120 billion vertices) on a standard cluster with 64 nodes (for a total of 1,536 cores). Finally, we provide a roadmap for the completion of TTK's MPI extension, along with generic recommendations for each algorithm communication category.
翻訳日:2023-10-14 11:09:29 公開日:2023-10-12
# 神経拡散モデル

Neural Diffusion Models ( http://arxiv.org/abs/2310.08337v1 )

ライセンス: Link先を確認
Grigory Bartosh, Dmitry Vetrov, Christian A. Naesseth(参考訳) 拡散モデルは多くの生成的タスクで顕著な性能を示している。 近年の成功にもかかわらず、ほとんどの拡散モデルはデータ分布の線形変換しか許さないという点で制限されている。 対照的に、より広範な変換の族は、生成分布の訓練をより効率的にし、逆過程を単純化し、真の負の対数類似度と変動近似の間のギャップを閉じる可能性がある。 本稿では,時間に依存しないデータの非線形変換の定義と学習を可能にする従来の拡散モデルの一般化であるニューラル拡散モデル(NDM)を提案する。 シミュレーション不要な環境で変動境界を用いてNDMを最適化する方法を示す。 さらに,NDMの時間連続的な定式化を導出し,既製の数値ODEとSDEソルバを用いた高速かつ信頼性の高い推論を可能にする。 最後に,CIFAR-10 などの標準画像生成ベンチマーク,ImageNet と CelebA-HQ のダウンサンプル版など,学習可能な変換による NDM の有用性を示す。 NDMは、可能性の観点から従来の拡散モデルより優れ、高品質なサンプルを生成する。

Diffusion models have shown remarkable performance on many generative tasks. Despite recent success, most diffusion models are restricted in that they only allow linear transformation of the data distribution. In contrast, broader family of transformations can potentially help train generative distributions more efficiently, simplifying the reverse process and closing the gap between the true negative log-likelihood and the variational approximation. In this paper, we present Neural Diffusion Models (NDMs), a generalization of conventional diffusion models that enables defining and learning time-dependent non-linear transformations of data. We show how to optimise NDMs using a variational bound in a simulation-free setting. Moreover, we derive a time-continuous formulation of NDMs, which allows fast and reliable inference using off-the-shelf numerical ODE and SDE solvers. Finally, we demonstrate the utility of NDMs with learnable transformations through experiments on standard image generation benchmarks, including CIFAR-10, downsampled versions of ImageNet and CelebA-HQ. NDMs outperform conventional diffusion models in terms of likelihood and produce high-quality samples.
翻訳日:2023-10-14 11:09:01 公開日:2023-10-12
# 2SFGL:グラフベースの不正検出のためのシンプルでロバストなプロトコル

2SFGL: A Simple And Robust Protocol For Graph-Based Fraud Detection ( http://arxiv.org/abs/2310.08335v1 )

ライセンス: Link先を確認
Zhirui Pan, Guangzhong Wang, Zhaoning Li, Lifeng Chen, Yang Bian, Zhongyuan Lai(参考訳) グラフ学習を用いた金融犯罪検出は、金融安全と効率を向上させる。 しかし、犯罪者は異なる機関間で金融犯罪を犯し、グラフ学習にローカルデータを使用する金融機関の検知が困難になる可能性がある。 多くの金融機関はデータプライバシ保護に関して厳格な規制を受けているため、トレーニングデータはしばしば孤立しており、従来の学習技術では問題に対処できない。 フェデレートラーニング(FL)により、複数の機関がデータセットを互いに公開することなくモデルをトレーニングできるため、データのプライバシ保護が保証される。 本稿では,フェデレートグラフ学習(Federated Graph Learning, 2SFGL): 2SFGLの第一段階はマルチパーティグラフの仮想融合であり,第二段階は仮想グラフのモデルトレーニングと推論である。 fraud amazondataset と fraudyelpdataset に基づいて,従来の不正検出タスクでフレームワークを評価する。 実験結果から,GCN(Graph Convolutional Network)を2SFGLフレームワークと同一タスクに統合して適用すると,FedAvgのみを使用する場合と比較して17.6\%-30.2\%,GraphSAGEを2SFGLに統合した場合はFedAvgのみを使用する場合に比べてパフォーマンスが6\%-16.2\%向上することがわかった。 提案するフレームワークは,既存のグラフベースの不正検出手法に簡単に統合可能な,堅牢でシンプルなプロトコルである。

Financial crime detection using graph learning improves financial safety and efficiency. However, criminals may commit financial crimes across different institutions to avoid detection, which increases the difficulty of detection for financial institutions which use local data for graph learning. As most financial institutions are subject to strict regulations in regards to data privacy protection, the training data is often isolated and conventional learning technology cannot handle the problem. Federated learning (FL) allows multiple institutions to train a model without revealing their datasets to each other, hence ensuring data privacy protection. In this paper, we proposes a novel two-stage approach to federated graph learning (2SFGL): The first stage of 2SFGL involves the virtual fusion of multiparty graphs, and the second involves model training and inference on the virtual graph. We evaluate our framework on a conventional fraud detection task based on the FraudAmazonDataset and FraudYelpDataset. Experimental results show that integrating and applying a GCN (Graph Convolutional Network) with our 2SFGL framework to the same task results in a 17.6\%-30.2\% increase in performance on several typical metrics compared to the case only using FedAvg, while integrating GraphSAGE with 2SFGL results in a 6\%-16.2\% increase in performance compared to the case only using FedAvg. We conclude that our proposed framework is a robust and simple protocol which can be simply integrated to pre-existing graph-based fraud detection methods.
翻訳日:2023-10-14 11:08:43 公開日:2023-10-12
# 球分散プリミティブを用いたリアルタイムニューラルBRDF

Real-Time Neural BRDF with Spherically Distributed Primitives ( http://arxiv.org/abs/2310.08332v1 )

ライセンス: Link先を確認
Yishun Dou, Zhong Zheng, Qiaoqiao Jin, Bingbing Ni, Yugang Chen and Junxiang Ke(参考訳) 本稿では,超軽量メモリとニューラルネットワークによるリアルタイムレンダリングを実現するために,小型で効率的な素材表現を実現するニューラルbrdfを提案する。 現在のデスクトップマシンでフルHD解像度でレンダリングされた図1の結果,本システムは様々な外観のリアルタイムレンダリングを実現しており,以下の2つの設計にアプローチしている。 一方,両方向反射率が非常に狭い高次元部分空間に分布していることに留意し,BRDFを2つの低次元成分,すなわち入射方向と出射方向の2つの特徴格子に投影することを提案する。 一方、学習可能なニューラルリフレクタンスプリミティブは、我々の高度に調整された球面格子上に分散され、各コンポーネントに情報的特徴を提供し、従来の重機能学習ネットワークをはるかに小さくし、非常に高速な評価をもたらす。 これらのプリミティブはコードブックに中央に格納され、材料固有の球面グリッドに格納された低コストなインデックスに基づいて、複数のグリッドや材料にわたって共有することができる。 我々のニューラルBRDFは、材料に依存しない、様々な材料を一貫した方法で表現できる統一された枠組みを提供する。 測定したbrdf圧縮, モンテカルロシミュレーションによるbrdf加速, 空間変化効果の拡張に関する総合実験の結果は, 提案手法により得られた優れた品質と一般化性を示している。

We propose a novel compact and efficient neural BRDF offering highly versatile material representation, yet with very-light memory and neural computation consumption towards achieving real-time rendering. The results in Figure 1, rendered at full HD resolution on a current desktop machine, show that our system achieves real-time rendering with a wide variety of appearances, which is approached by the following two designs. On the one hand, noting that bidirectional reflectance is distributed in a very sparse high-dimensional subspace, we propose to project the BRDF into two low-dimensional components, i.e., two hemisphere feature-grids for incoming and outgoing directions, respectively. On the other hand, learnable neural reflectance primitives are distributed on our highly-tailored spherical surface grid, which offer informative features for each component and alleviate the conventional heavy feature learning network to a much smaller one, leading to very fast evaluation. These primitives are centrally stored in a codebook and can be shared across multiple grids and even across materials, based on the low-cost indices stored in material-specific spherical surface grids. Our neural BRDF, which is agnostic to the material, provides a unified framework that can represent a variety of materials in consistent manner. Comprehensive experimental results on measured BRDF compression, Monte Carlo simulated BRDF acceleration, and extension to spatially varying effect demonstrate the superior quality and generalizability achieved by the proposed scheme.
翻訳日:2023-10-14 11:08:12 公開日:2023-10-12
# 多腕バンディット戦略が深部リカレント強化学習に及ぼす影響

Impact of multi-armed bandit strategies on deep recurrent reinforcement learning ( http://arxiv.org/abs/2310.08331v1 )

ライセンス: Link先を確認
Valentina Zangirolami and Matteo Borrotti(参考訳) 環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。 強化学習(RL)における主要なジレンマの1つは、自律エージェントがその決定を行う上で2つの対照的なニーズをバランスさせなければならないことである。累積的な報酬を最大化するために環境の現在の知識を活用することと、環境の知識を改善するための行動を探究することである。 同時に、関連する別の問題として、すべてのアプリケーションで想定されない状態の完全な可観測性がある。 例えば、3Dシミュレーション環境で最適な動作を見つけるために使用されるRLアプローチでは、2D画像のみを入力と見なす。 本研究では,運転シナリオにおけるステアリングホイールの予測のための,部分的に観測可能なシステムにおける探索と活用のトレードオフのバランスをとるために,いくつかの手法をデプロイし,テストすることで,これらの課題に対処した。 より正確には、Deep Recurrent Q-Networkと組み合わされた確率的および決定論的マルチアームバンディット戦略を使用することの効果を検討することを目的としている。 さらに,畳み込みリカレントニューラルネットワークの学習フェーズを改善するために,革新的な手法の影響を適応し,評価した。 我々は,探索のための適応確率的手法が探索と搾取の間のトレードオフをよりよく近似することを示すことを目的としており,一般に,Softmax と Max-Boltzmann の戦略は,エプシロングレード技術より優れている。

Incomplete knowledge of the environment leads an agent to make decisions under uncertainty. One of the major dilemmas in Reinforcement Learning (RL) where an autonomous agent has to balance two contrasting needs in making its decisions is: exploiting the current knowledge of the environment to maximize the cumulative reward as well as exploring actions that allow improving the knowledge of the environment, hopefully leading to higher reward values (exploration-exploitation trade-off). Concurrently, another relevant issue regards the full observability of the states, which may not be assumed in all applications. Such as when only 2D images are considered as input in a RL approach used for finding the optimal action within a 3D simulation environment. In this work, we address these issues by deploying and testing several techniques to balance exploration and exploitation trade-off on partially observable systems for predicting steering wheels in autonomous driving scenario. More precisely, the final aim is to investigate the effects of using both stochastic and deterministic multi-armed bandit strategies coupled with a Deep Recurrent Q-Network. Additionally, we adapted and evaluated the impact of an innovative method to improve the learning phase of the underlying Convolutional Recurrent Neural Network. We aim to show that adaptive stochastic methods for exploration better approximate the trade-off between exploration and exploitation as, in general, Softmax and Max-Boltzmann strategies are able to outperform epsilon-greedy techniques.
翻訳日:2023-10-14 11:07:44 公開日:2023-10-12
# 光子遮断は量子効果を損なうのか? 新古典的物語

Is the photon-blockade breakdown a quantum effect? A neoclassical story ( http://arxiv.org/abs/2310.08388v1 )

ライセンス: Link先を確認
\'Arp\'ad Kurk\'o, Nikolett N\'emet, Andr\'as Vukics(参考訳) 相互作用するクビットモード系のエネルギースペクトルを誘導する光子遮断破壊安定性を直感的に説明することができる。 しかし、駆動散逸型Jaynes-Cummingsモデルの新古典的解法は、この現象のいくつかの重要な側面を捉えることが示されている。 本稿では,完全量子解と新古典的解,半古典的解を比較した。 新古典的理論は、クビットの純粋な部分的状態の仮定に基づいているが、単に半古典的理論の$\gamma \to 0$ 極限ではなく、半古典的双対性は極限の非可換性の場合である。 さらに, 新古典学的な予測は, 小さいクォービット崩壊の場合においてもなお成り立つことを示す。 異なるデチューニングのバイスタブルな振る舞いを追跡したところ、かなりの$\Delta$値に対して堅牢であることがわかった。 新古典主義的記述の適性は、光子遮断破壊不安定性の明るい状態の高量子純度に基づいており、この現象を従来の光学的不安定性と鋭く区別している。 これにより、駆動拡散ダイナミクスは相互作用する二成分中で密接な分離可能な純粋な定常状態を生成することができることが示される。

The photon-blockade breakdown bistability can be intuitively explained invoking the energy spectrum of the interacting qubit-mode system. Yet, the neoclassical solution of the driven-dissipative Jaynes-Cummings model has been shown to capture several key aspects of the phenomenon. In this paper, we set out to compare a fully quantum solution with the neo- and semi-classical solutions. Although the neoclassical theory is founded on the assumption of a pure partial state for the qubit, it is not simply the $\gamma \to 0$ limit of the semiclassical theory; the semi- vs. neo-classical duality being a case of non-commutativity of limits. Furthermore, we show that the neoclassical predictions still hold in case of a small qubit decay. Tracing the bistable behavior for different detunings, we show that it is robust over a significant range of $\Delta$ values. We demonstrate that the aptitude of the neoclassical description is founded on the high quantum purity of the bright state of the photon-blockade breakdown bistability, which sharply differentiates this phenomenology from conventional optical bistability. It is thereby demonstrated that driven-dissipative dynamics can produce closely separable pure steady states in an interacting bipartite.
翻訳日:2023-10-14 09:17:22 公開日:2023-10-12
# meanap誘導型強化アクティブラーニングによる物体検出

MeanAP-Guided Reinforced Active Learning for Object Detection ( http://arxiv.org/abs/2310.08387v1 )

ライセンス: Link先を確認
Zhixuan Liang, Xingyu Zeng, Rui Zhao, Ping Luo(参考訳) アクティブラーニングは、最小限のラベル付きデータで高性能モデルをトレーニングするための有望な道を示し、ラベル付けする最も情報性の高いインスタンスを司法的に選択し、それらをタスクラーナに組み込むことによって達成される。 画像認識のためのアクティブラーニングの顕著な進歩にもかかわらず、クエリ戦略設計に不可欠なデータの情報ゲインを計測するために考案または学習されたメトリクスは、オブジェクト検出タスクにおける平均精度(meanap)のようなタスクモデルのパフォーマンスメトリクスと一貫して一致しません。 本稿では,タスクモデルの MeanAP メトリックを直接利用して,強化学習に基づくサンプリングエージェントを用いたサンプリング戦略を考案する手法である MeanAP-Guided Reinforceed Active Learning for Object Detection (MAGRAL) を提案する。 LSTMアーキテクチャをベースに構築されたエージェントは、その後のトレーニングインスタンスを効率的に探索し、選択し、MeanAPが報酬となるポリシ勾配を通じてプロセスを最適化する。 各ステップで平均値計算の時間集約性を認識し,エージェントトレーニングを迅速化する高速ルックアップテーブルを提案する。 一般的なベンチマークであるPASCAL VOCとMS COCOで異なるバックボーンアーキテクチャを用いてMAGRALの有効性を評価する。 経験的発見は、最近の最先端手法よりもMAGRALの方が優れており、かなりの性能向上を示している。 magralは強化アクティブオブジェクト検出のための堅牢なベースラインを確立し、フィールドを前進させる可能性を示している。

Active learning presents a promising avenue for training high-performance models with minimal labeled data, achieved by judiciously selecting the most informative instances to label and incorporating them into the task learner. Despite notable advancements in active learning for image recognition, metrics devised or learned to gauge the information gain of data, crucial for query strategy design, do not consistently align with task model performance metrics, such as Mean Average Precision (MeanAP) in object detection tasks. This paper introduces MeanAP-Guided Reinforced Active Learning for Object Detection (MAGRAL), a novel approach that directly utilizes the MeanAP metric of the task model to devise a sampling strategy employing a reinforcement learning-based sampling agent. Built upon LSTM architecture, the agent efficiently explores and selects subsequent training instances, and optimizes the process through policy gradient with MeanAP serving as reward. Recognizing the time-intensive nature of MeanAP computation at each step, we propose fast look-up tables to expedite agent training. We assess MAGRAL's efficacy across popular benchmarks, PASCAL VOC and MS COCO, utilizing different backbone architectures. Empirical findings substantiate MAGRAL's superiority over recent state-of-the-art methods, showcasing substantial performance gains. MAGRAL establishes a robust baseline for reinforced active object detection, signifying its potential in advancing the field.
翻訳日:2023-10-14 09:16:56 公開日:2023-10-12
# 対話型多目的進化アルゴリズムの動作時間解析に向けて

Towards Running Time Analysis of Interactive Multi-objective Evolutionary Algorithms ( http://arxiv.org/abs/2310.08384v1 )

ライセンス: Link先を確認
Tianhao Lu, Chao Bian, Chao Qian(参考訳) 進化的アルゴリズム(EA)は人口ベースの性質から多目的最適化に広く用いられている。 従来の多目的EA(MOEA)はパレートフロントを近似する大規模なソリューションを生成し、意思決定者(DM)が好むソリューションを選択するタスクを残している。 しかし、特に多くの目的やdmの主観的な好みが知られている場合、このプロセスは非効率で時間がかかります。 この問題を解決するために、対話型MOEA(iMOEA)は、決定を最適化プロセス、すなわちDMの助けを借りて人口を更新する。 広義の応用とは対照的に、iMOEAに関する理論的な研究は2つしか存在せず、2つの単純な単目的アルゴリズム RLS と (1+1)-EA の対話的変種しか考慮していない。 本稿では,実際のiMOEAに対して,最初の実行時間解析(EAの本質的理論的側面)を提供する。 具体的には、OneMinMax と OneJumpZeroJump の問題を解くためのよく発達した対話型 NSGA-II (R-NSGA-II) のランニング時間は、それぞれ$O(n \log n)$ と $O(n^k)$ であり、従来の NSGA-II よりも漸近的に高速であることを示す。 一方、OneMinMaxの変種を示し、R-NSGA-IIがNSGA-IIよりも指数関数的に遅いことを証明した。 これらの結果は、iMOEAの有効性を理論的に正当化し、失敗する可能性のある状況を特定する。 理論的結果を検証する実験も行われている。

Evolutionary algorithms (EAs) are widely used for multi-objective optimization due to their population-based nature. Traditional multi-objective EAs (MOEAs) generate a large set of solutions to approximate the Pareto front, leaving a decision maker (DM) with the task of selecting a preferred solution. However, this process can be inefficient and time-consuming, especially when there are many objectives or the subjective preferences of DM is known. To address this issue, interactive MOEAs (iMOEAs) combine decision making into the optimization process, i.e., update the population with the help of the DM. In contrast to their wide applications, there has existed only two pieces of theoretical works on iMOEAs, which only considered interactive variants of the two simple single-objective algorithms, RLS and (1+1)-EA. This paper provides the first running time analysis (the essential theoretical aspect of EAs) for practical iMOEAs. Specifically, we prove that the expected running time of the well-developed interactive NSGA-II (called R-NSGA-II) for solving the OneMinMax and OneJumpZeroJump problems is $O(n \log n)$ and $O(n^k)$, respectively, which are all asymptotically faster than the traditional NSGA-II. Meanwhile, we present a variant of OneMinMax, and prove that R-NSGA-II can be exponentially slower than NSGA-II. These results provide theoretical justification for the effectiveness of iMOEAs while identifying situations where they may fail. Experiments are also conducted to validate the theoretical results.
翻訳日:2023-10-14 09:16:30 公開日:2023-10-12
# テトラエドロン : 材料情報抽出の課題

Reconstructing Materials Tetrahedron: Challenges in Materials Information Extraction ( http://arxiv.org/abs/2310.08383v1 )

ライセンス: Link先を確認
Kausik Hira, Mohd Zaki, Dhruvil Sheth, Mausam, N M Anoop Krishnan(参考訳) 新しい素材の発見は、人類の進歩を何世紀にもわたって推進した歴史を文書化している。 材料の挙動は、その組成、構造、特性の関数であり、さらにその処理や試験条件に依存する。 近年のディープラーニングと自然言語処理の進歩は、ピアレビューされた出版物、書籍、特許などの出版物から大規模に情報抽出を可能にしている。 しかし、この情報はテーブル、テキスト、画像などの複数のフォーマットに分散しており、レポートスタイルの統一性はほとんど、あるいは全くないため、いくつかの機械学習課題が発生する。 本稿では,情報自動抽出(IE)におけるこれらの課題を,材料科学文献から大規模材料科学知識基盤の創出に向けて議論し,定量化し,文書化する。 具体的には、テキストとテーブルからIEに焦点を当て、いくつかの課題を例にまとめる。 我々は,本研究が研究者に,一貫性のある方法で課題に対処するよう促すことを期待し,材料知識基盤のためのIEへの補足を提供する。

Discovery of new materials has a documented history of propelling human progress for centuries and more. The behaviour of a material is a function of its composition, structure, and properties, which further depend on its processing and testing conditions. Recent developments in deep learning and natural language processing have enabled information extraction at scale from published literature such as peer-reviewed publications, books, and patents. However, this information is spread in multiple formats, such as tables, text, and images, and with little or no uniformity in reporting style giving rise to several machine learning challenges. Here, we discuss, quantify, and document these outstanding challenges in automated information extraction (IE) from materials science literature towards the creation of a large materials science knowledge base. Specifically, we focus on IE from text and tables and outline several challenges with examples. We hope the present work inspires researchers to address the challenges in a coherent fashion, providing to fillip to IE for the materials knowledge base.
翻訳日:2023-10-14 09:15:58 公開日:2023-10-12
# AutoVP: 自動Visual Promptingフレームワークとベンチマーク

AutoVP: An Automated Visual Prompting Framework and Benchmark ( http://arxiv.org/abs/2310.08381v1 )

ライセンス: Link先を確認
Hsi-Ai Tsao, Lei Hsiung, Pin-Yu Chen, Sijia Liu, Tsung-Yi Ho(参考訳) ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために事前訓練された視覚モデルを適用するための、パラメータ効率の良い微調整手法である。 しかし、VPの設計空間に関する体系的な研究はほとんどなく、その性能を評価するための明確なベンチマークも存在していない。 このギャップを埋めるため、我々はVP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと、全体的なVPパフォーマンスベンチマークとして機能する12の下流画像分類タスクを提案する。 私たちのデザインスペースは 1) プロンプトの合同最適化 2) 画像分類器及びテキスト画像エンコーダを含む事前訓練されたモデルの選定 3) 非パラメトリックおよびトレーニング可能なラベルマッピングを含むモデル出力マッピング戦略。 大規模な実験結果から,AutoVPは最大6.7%の精度向上を実現し,リニア・プロブリング(LP)ベースラインに比べて最大27.5%の性能向上を達成した。 AutoVPは、VP設計選択におけるハイパーパラメータチューニングの効率的なツールとして機能し、VPの開発を加速することが合理的に期待できる包括的なベンチマークとして機能する。 ソースコードはhttps://github.com/IBM/AutoVPで入手できる。

Visual prompting (VP) is an emerging parameter-efficient fine-tuning approach to adapting pre-trained vision models to solve various downstream image-classification tasks. However, there has hitherto been little systematic study of the design space of VP and no clear benchmark for evaluating its performance. To bridge this gap, we propose AutoVP, an end-to-end expandable framework for automating VP design choices, along with 12 downstream image-classification tasks that can serve as a holistic VP-performance benchmark. Our design space covers 1) the joint optimization of the prompts; 2) the selection of pre-trained models, including image classifiers and text-image encoders; and 3) model output mapping strategies, including nonparametric and trainable label mapping. Our extensive experimental results show that AutoVP outperforms the best-known current VP methods by a substantial margin, having up to 6.7% improvement in accuracy; and attains a maximum performance increase of 27.5% compared to linear-probing (LP) baseline. AutoVP thus makes a two-fold contribution: serving both as an efficient tool for hyperparameter tuning on VP design choices, and as a comprehensive benchmark that can reasonably be expected to accelerate VP's development. The source code is available at https://github.com/IBM/AutoVP.
翻訳日:2023-10-14 09:15:44 公開日:2023-10-12
# メカニズムを合理化してはいけません。

Do Not Marginalize Mechanisms, Rather Consolidate! ( http://arxiv.org/abs/2310.08377v1 )

ライセンス: Link先を確認
Moritz Willig (1), Matej Ze\v{c}evi\'c (1), Devendra Singh Dhami (4), Kristian Kersting (1,2,3) (Technical University of Darmstadt, (2) Hessian Center for AI, (3) German Research Center for AI (4) Eindhoven University of Technology)(参考訳) 構造因果モデル(scms)は、多くの実世界のシステムを支える複雑な因果関係を理解するための強力なツールである。 これらのシステムのサイズが大きくなるにつれて、変数の数や相互作用の複雑さも増加します。 そのため、複雑化して分析が困難になる。 これは、機械学習と人工知能のコンテキストにおいて特に当てはまり、大規模なSCMを単純化し圧縮するための新しい方法に対するデータ要求が、ますます増えている。 SCMの疎外化と抽象化の手法はすでに存在するが、その疎外化モデルの因果性を破壊する可能性がある。 これを軽減するために,一貫した介入行動を維持しつつ,大規模SCMを変革するための因果機構の統合という概念を導入する。 コンソリデーションは,SCMを単純化し,計算複雑性の低減について議論し,統合されたSCMの能力を一般化するための強力な手法であることを示す。

Structural causal models (SCMs) are a powerful tool for understanding the complex causal relationships that underlie many real-world systems. As these systems grow in size, the number of variables and complexity of interactions between them does, too. Thus, becoming convoluted and difficult to analyze. This is particularly true in the context of machine learning and artificial intelligence, where an ever increasing amount of data demands for new methods to simplify and compress large scale SCM. While methods for marginalizing and abstracting SCM already exist today, they may destroy the causality of the marginalized model. To alleviate this, we introduce the concept of consolidating causal mechanisms to transform large-scale SCM while preserving consistent interventional behaviour. We show consolidation is a powerful method for simplifying SCM, discuss reduction of computational complexity and give a perspective on generalizing abilities of consolidated SCM.
翻訳日:2023-10-14 09:15:25 公開日:2023-10-12
# 知識強化とアライメントによる知識付き対話システムにおける実情整合性の改善

Improving Factual Consistency for Knowledge-Grounded Dialogue Systems via Knowledge Enhancement and Alignment ( http://arxiv.org/abs/2310.08372v1 )

ライセンス: Link先を確認
Boyang Xue and Weichao Wang and Hongru Wang and Fei Mi and Rui Wang and Yasheng Wang and Lifeng Shang and Xin Jiang and Qun Liu and Kam-Fai Wong(参考訳) 事前訓練言語モデル(PLM)に基づく知識基底対話システムは、提供された知識源と実際に矛盾しない応答を生成する傾向にある。 このような矛盾した反応では、対話モデルは彼らが依存する外部知識を正確に表現できない。 トランスフォーマー内のフィードフォワードネットワーク(FFN)が事実知識表現の責任を負っていると判断する以前の研究から着想を得て,知識の強化とアライメントによる事実表現能力(FFNs)を効率的に改善する2つの方法を検討した。 そこで我々はまず,知識接頭辞入力の特定のパターンを考慮し,変換子に拡張FFNを導入し,現実的知識表現を向上する「textsc{K-Dial}」を提案する。 さらに,事実整合性(rlfc)法に強化学習を適用し,事実一貫性優先のためのゴールド知識と整合することにより,応答中のffn表現を暗黙的に調整する。 応答の事実整合性と対話品質を包括的に評価するために,高度な粒度NLI基準を含む広範囲な自動測度と人的評価を用いる。 WoW と CMU\_DoG データセットによる実験結果から,本手法は実測知識を伝達するFFN モジュールの効率よく向上し,実測情報に基づく対話システムにおける実測一貫性向上の有効性が検証された。

Pretrained language models (PLMs) based knowledge-grounded dialogue systems are prone to generate responses that are factually inconsistent with the provided knowledge source. In such inconsistent responses, the dialogue models fail to accurately express the external knowledge they rely upon. Inspired by previous work which identified that feed-forward networks (FFNs) within Transformers are responsible for factual knowledge expressions, we investigate two methods to efficiently improve the factual expression capability {of FFNs} by knowledge enhancement and alignment respectively. We first propose \textsc{K-Dial}, which {explicitly} introduces {extended FFNs in Transformers to enhance factual knowledge expressions} given the specific patterns of knowledge-grounded dialogue inputs. Additionally, we apply the reinforcement learning for factual consistency (RLFC) method to implicitly adjust FFNs' expressions in responses by aligning with gold knowledge for the factual consistency preference. To comprehensively assess the factual consistency and dialogue quality of responses, we employ extensive automatic measures and human evaluations including sophisticated fine-grained NLI-based metrics. Experimental results on WoW and CMU\_DoG datasets demonstrate that our methods efficiently enhance the ability of the FFN module to convey factual knowledge, validating the efficacy of improving factual consistency for knowledge-grounded dialogue systems.
翻訳日:2023-10-14 09:15:08 公開日:2023-10-12
# wasserstein ali と mipgan による最悪の形態変化

Worst-Case Morphs using Wasserstein ALI and Improved MIPGAN ( http://arxiv.org/abs/2310.08371v1 )

ライセンス: Link先を確認
Una M. Kelly, Meike Nauta, Lu Liu, Luuk J. Spreeuwers, Raymond N. J. Veldhuis(参考訳) 近年,GAN(Generative Adversarial Networks)による現実的なイメージ作成において,多くの進歩がなされている。 しかし、実際のデータを入力として再構成したり、画像を生成するためには、GANの潜在空間から画像空間へのマッピングを反転させるエンコーダが必要である。 これは、エンコーダ、デコーダ(通常のGANではジェネレータと呼ばれる)、ディスクリミネータの3つのネットワークが必要であることを意味する。 これら3つのネットワークは、同時にスクラッチから(逆学習による推論)トレーニングしたり、あるいは、イメージを \textit{pretrained} ganモデル(逆gan)の潜在空間にマッピングするエンコーダネットワークをトレーニングすることができる。 後者の場合、ネットワークは連続的にトレーニングされるので、Encoderは、GANトレーニング中にデコーダが学んだモデルに関係なくてはいけない。 同時に3つのネットワークをトレーニングすることは不安定であり、そのためより難しいが、EncoderとDecoderはトレーニング中に相互に通信する利点がある。 2つの異なるアプローチを比較し、同時に3つのネットワークをトレーニングする余分な労力に値するかどうかを議論する。

A lot of progress has been made in the last years on using Generative Adversarial Networks (GAN) to create realistic images. However, to be able reconstruct images or to generate images using real data as input, an Encoder is needed that reverses the mapping from the GAN's latent space to image space. This means that three networks are needed: an Encoder, a Decoder (called Generator in a normal GAN) and a Discriminator. These three networks can be trained from scratch simultaneously (Adversarially Learned Inference), or alternatively an Encoder network can be trained that maps images into the latent space of a \textit{pretrained} GAN model (Inverse GAN). In the latter case, the networks are trained consecutively, so the Encoder has to make do with whatever model the Decoder learned during GAN training. Training three networks simultaneously is more unstable and therefore more challenging, but it is possible that the Encoder and Decoder benefit from interacting with each other during training. We compare the two different approaches and discuss whether it is worth the extra effort to train all three networks simultaneously.
翻訳日:2023-10-14 09:14:38 公開日:2023-10-12
# UniPAD: 自動運転のためのユニバーサル事前訓練パラダイム

UniPAD: A Universal Pre-training Paradigm for Autonomous Driving ( http://arxiv.org/abs/2310.08370v1 )

ライセンス: Link先を確認
Honghui Yang and Sha Zhang and Di Huang and Xiaoyang Wu and Haoyi Zhu and Tong He and Shixiang Tang and Hengshuang Zhao and Qibo Qiu and Binbin Lin and Xiaofei He and Wanli Ouyang(参考訳) 自律運転の文脈では,効果的な特徴学習の意義が広く認識されている。 従来の3d自己教師付き事前学習手法は広く成功しているが、ほとんどの方法は元々2d画像用に設計されたアイデアに従っている。 本稿では,3次元ボリューム微分可能レンダリングを適用した新しい自己教師型学習パラダイムUniPADを提案する。 UniPADは3次元空間を暗黙的に符号化し、連続した3次元形状の構造の再構築と、それらの2次元投影の複雑な外観特性を促進する。 本手法の柔軟性により、2Dフレームワークと3Dフレームワークのシームレスな統合が可能となり、シーンのより包括的な理解が可能となった。 様々な下流3Dタスクに対して広範な実験を行うことにより,UniPADの有効性と有効性を示す。 本手法はライダーカメラ,カメラカメラ,ライダーカメラベースラインを9.1,7.7,6.9 NDSで改善する。 特に,3次元オブジェクト検出のための73.2 NDS,nuScenes検証セット上の3次元セマンティックセマンティックセグメンテーションのための79.4 mIoUを達成し,従来の手法と比較した結果を得た。 コードはhttps://github.com/Nightmare-n/UniPAD.comで入手できる。

In the context of autonomous driving, the significance of effective feature learning is widely acknowledged. While conventional 3D self-supervised pre-training methods have shown widespread success, most methods follow the ideas originally designed for 2D images. In this paper, we present UniPAD, a novel self-supervised learning paradigm applying 3D volumetric differentiable rendering. UniPAD implicitly encodes 3D space, facilitating the reconstruction of continuous 3D shape structures and the intricate appearance characteristics of their 2D projections. The flexibility of our method enables seamless integration into both 2D and 3D frameworks, enabling a more holistic comprehension of the scenes. We manifest the feasibility and effectiveness of UniPAD by conducting extensive experiments on various downstream 3D tasks. Our method significantly improves lidar-, camera-, and lidar-camera-based baseline by 9.1, 7.7, and 6.9 NDS, respectively. Notably, our pre-training pipeline achieves 73.2 NDS for 3D object detection and 79.4 mIoU for 3D semantic segmentation on the nuScenes validation set, achieving state-of-the-art results in comparison with previous methods. The code will be available at https://github.com/Nightmare-n/UniPAD.
翻訳日:2023-10-14 09:14:16 公開日:2023-10-12
# マルチモーダルなHateful Meme分類のための単語へのミームマッピング

Mapping Memes to Words for Multimodal Hateful Meme Classification ( http://arxiv.org/abs/2310.08368v1 )

ライセンス: Link先を確認
Giovanni Burbi, Alberto Baldrati, Lorenzo Agnolucci, Marco Bertini, Alberto Del Bimbo(参考訳) マルチモーダル画像テキストミームはインターネット上で普及しており、ユーモア、アイデア、感情を伝えるために視覚的およびテキスト的要素を組み合わせたユニークなコミュニケーション形態として機能する。 しかし、一部のミームは悪意があり、憎悪なコンテンツを促進し、差別を永続させる。 このマルチモーダルコンテキスト内で憎しみのあるミームを検出することは、テキストと画像の相互に結びついた意味を理解することを必要とする難しいタスクである。 本稿では,マルチモーダル・ヘイトフル・ミーム分類のためのイシューと呼ばれる新しいアプローチを提案することで,この問題に対処した。 ISSUESは、事前訓練されたCLIPビジョン言語モデルとテキストインバージョン技術を利用して、ミームのマルチモーダルなセマンティックコンテンツを効果的にキャプチャする。 実験の結果,Hateful Memes Challenge と HarMeme のデータセットにおける最先端の成果が得られた。 コードと事前学習されたモデルはhttps://github.com/miccunifi/issuesで公開されている。

Multimodal image-text memes are prevalent on the internet, serving as a unique form of communication that combines visual and textual elements to convey humor, ideas, or emotions. However, some memes take a malicious turn, promoting hateful content and perpetuating discrimination. Detecting hateful memes within this multimodal context is a challenging task that requires understanding the intertwined meaning of text and images. In this work, we address this issue by proposing a novel approach named ISSUES for multimodal hateful meme classification. ISSUES leverages a pre-trained CLIP vision-language model and the textual inversion technique to effectively capture the multimodal semantic content of the memes. The experiments show that our method achieves state-of-the-art results on the Hateful Memes Challenge and HarMeme datasets. The code and the pre-trained models are publicly available at https://github.com/miccunifi/ISSUES.
翻訳日:2023-10-14 09:13:56 公開日:2023-10-12
# 拡散モデルの訓練に関するデバイアス

Debias the Training of Diffusion Models ( http://arxiv.org/abs/2310.08442v1 )

ライセンス: Link先を確認
Hu Yu, Li Shen, Jie Huang, Man Zhou, Hongsheng Li, Feng Zhao(参考訳) 拡散モデルでは、単純な denoising score matching loss によって変分下界を最適化することで、魅力的な生成品質を示す。 本稿では,拡散モデルにおける一定損失重み戦略の利用が,トレーニング段階での偏り推定につながるという理論的根拠を与える。 ガウス雑音を一定重み付けで予測するために単純にデノナイジングネットワークを最適化することは、原画像の正確な推定を妨げる可能性がある。 この問題に対処するため,理論的に偏りのない原理に基づくエレガントで効果的な重み付け戦略を提案する。 さらに, 本研究は, その存在, 影響, 理由の観点から, 定常的な重み付け損失から生じる本質バイアス問題を明らかにするため, 包括的かつ体系的な調査を行う。 これらの分析は、拡散モデルの内部動作の理解とデミステレーションを促進することが期待されている。 実験結果から,提案手法は複雑な手法に頼らずにサンプル品質を著しく向上させ,トレーニングやサンプリング処理においてベースライン法と比較して精度が向上することを示した。

Diffusion models have demonstrated compelling generation quality by optimizing the variational lower bound through a simple denoising score matching loss. In this paper, we provide theoretical evidence that the prevailing practice of using a constant loss weight strategy in diffusion models leads to biased estimation during the training phase. Simply optimizing the denoising network to predict Gaussian noise with constant weighting may hinder precise estimations of original images. To address the issue, we propose an elegant and effective weighting strategy grounded in the theoretically unbiased principle. Moreover, we conduct a comprehensive and systematic exploration to dissect the inherent bias problem deriving from constant weighting loss from the perspectives of its existence, impact and reasons. These analyses are expected to advance our understanding and demystify the inner workings of diffusion models. Through empirical evaluation, we demonstrate that our proposed debiased estimation method significantly enhances sample quality without the reliance on complex techniques, and exhibits improved efficiency compared to the baseline method both in training and sampling processes.
翻訳日:2023-10-14 09:05:55 公開日:2023-10-12
# 視覚的注意喚起予測と学習

Visual Attention-Prompted Prediction and Learning ( http://arxiv.org/abs/2310.08420v1 )

ライセンス: Link先を確認
Yifei Zhang, Siyi Gu, Bo Pan, Guangji Bai, Xiaofeng Yang, Liang Zhao(参考訳) explanation(attention)-guided learningは、トレーニングフェーズ中に人間の理解を取り入れることで、モデルの予測能力を高める手法である。 注意誘導学習は有望な結果を示しているが、しばしば時間と計算コストのかかるモデル再訓練を伴う。 そこで本研究では,モデルの再トレーニングを必要とせず,注意プロンプトによる直接予測を可能にする注意喚起予測手法を提案する。 しかし、このアプローチにはいくつかの課題がある。 1) モデルの意思決定プロセスに視覚注意プロンプトを組み込んで,プロンプトがなくても将来の予測に活用するにはどうすればよいか? そして 2)不完全な情報を視覚注意プロンプトからどのように扱うか? これらの課題に対処するために,視覚的注意喚起をモデル決定プロセスにシームレスに統合し,注意喚起を伴わずに画像に適応する,視覚的注意喚起予測学習という新しいフレームワークを提案する。 視覚注意プロンプトの不完全な情報に対処するために,摂動に基づく注意マップ修正法を提案する。 さらに,アテンションマップ修正過程における適応的摂動アノテーションアグリゲーションのための新しい重み学習機能を備えた,最適化に基づくマスクアグリゲーション手法を提案する。 我々のフレームワークは、注意喚起のないサンプルであっても将来予測を高めるために、注意喚起ガイド付きマルチタスク方式で学習し、より良い収束のために交互に訓練するように設計されている。 2つのデータセットで実施した大規模な実験により,提案手法の有効性が示された。

Explanation(attention)-guided learning is a method that enhances a model's predictive power by incorporating human understanding during the training phase. While attention-guided learning has shown promising results, it often involves time-consuming and computationally expensive model retraining. To address this issue, we introduce the attention-prompted prediction technique, which enables direct prediction guided by the attention prompt without the need for model retraining. However, this approach presents several challenges, including: 1) How to incorporate the visual attention prompt into the model's decision-making process and leverage it for future predictions even in the absence of a prompt? and 2) How to handle the incomplete information from the visual attention prompt? To tackle these challenges, we propose a novel framework called Visual Attention-Prompted Prediction and Learning, which seamlessly integrates visual attention prompts into the model's decision-making process and adapts to images both with and without attention prompts for prediction. To address the incomplete information of the visual attention prompt, we introduce a perturbation-based attention map modification method. Additionally, we propose an optimization-based mask aggregation method with a new weight learning function for adaptive perturbed annotation aggregation in the attention map modification process. Our overall framework is designed to learn in an attention-prompt guided multi-task manner to enhance future predictions even for samples without attention prompts and trained in an alternating manner for better convergence. Extensive experiments conducted on two datasets demonstrate the effectiveness of our proposed framework in enhancing predictions for samples, both with and without provided prompts.
翻訳日:2023-10-14 09:05:37 公開日:2023-10-12
# 20のクエリにおけるブラックボックス大言語モデルの脱獄

Jailbreaking Black Box Large Language Models in Twenty Queries ( http://arxiv.org/abs/2310.08419v1 )

ライセンス: Link先を確認
Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J. Pappas, Eric Wong(参考訳) 大規模言語モデル(llm)が人間の価値観に合致することに対する関心が高まっている。 しかし、これらのモデルのアライメントは、llmを安全ガードレールをオーバーライドさせる敵のジェイルブレイクに対して脆弱である。 これらの脆弱性の特定は、固有の弱点を理解し、将来の誤用を防ぐのに役立つ。 そこで本研究では,LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムであるPrompt Automatic Iterative Refinement (PAIR)を提案する。 PAIRは、社会工学的な攻撃にインスパイアされたもので、人間の介入なしに個別のLLMに対して自動でジェイルブレイクを生成する。 このようにして、攻撃者 LLM は、ターゲットの LLM を反復的にクエリして、候補のjailbreak を更新および精査する。 経験的に、PAIRは、既存のアルゴリズムよりも桁違いに効率的なジェイルブレイクを生成するために、20未満のクエリを必要とすることが多い。 PAIRは、GPT-3.5/4、Vicuna、PaLM-2など、オープンでクローズドなLLM上で、競合するジェイルブレイクの成功率と転送性も達成している。

There is growing interest in ensuring that large language models (LLMs) align with human values. However, the alignment of such models is vulnerable to adversarial jailbreaks, which coax LLMs into overriding their safety guardrails. The identification of these vulnerabilities is therefore instrumental in understanding inherent weaknesses and preventing future misuse. To this end, we propose Prompt Automatic Iterative Refinement (PAIR), an algorithm that generates semantic jailbreaks with only black-box access to an LLM. PAIR -- which is inspired by social engineering attacks -- uses an attacker LLM to automatically generate jailbreaks for a separate targeted LLM without human intervention. In this way, the attacker LLM iteratively queries the target LLM to update and refine a candidate jailbreak. Empirically, PAIR often requires fewer than twenty queries to produce a jailbreak, which is orders of magnitude more efficient than existing algorithms. PAIR also achieves competitive jailbreaking success rates and transferability on open and closed-source LLMs, including GPT-3.5/4, Vicuna, and PaLM-2.
翻訳日:2023-10-14 09:05:11 公開日:2023-10-12
# 連続動的デカップリングのための最適制御

Optimal Control for Continuous Dynamical Decoupling ( http://arxiv.org/abs/2310.08417v1 )

ライセンス: Link先を確認
Nicolas Andr\'e da Costa Morazotti, Adonai Hil\'ario da Silva, Gabriel Audi, Reginaldo de Jesus Napolitano, and Felipe Fernandes Fanchini(参考訳) 連続動的デカップリング(CDD)のための最適設計フィールドを開発するための戦略を導入する。 提案手法は,一般的な1量子ビット量子ゲートの忠実度を最大化する最適連続体構成を求める。 これを実現するために, 弱音の摂動を考慮し, ボゾン浴の代わりに補助量子ビットを用いて浄化スキームを実装し, ユニタリダイナミクスを実現する。 2量子ユニタリ群に対するサブリーマン幾何学の枠組みを用いて、測地方程式を導出して数値解き、最適な時間依存制御ハミルトニアンを得る。 また、測地線方程式の解を見つけるのに時間を要するため、測地線解のサブセット上でニューラルネットワークを訓練し、任意の所望のゲートに対して時間依存制御ハミルトニアンを迅速に生成することができる。

We introduce a strategy to develop optimally designed fields for continuous dynamical decoupling (CDD). Our methodology obtains the optimal continuous field configuration to maximize the fidelity of a general one-qubit quantum gate. To achieve this, considering dephasing-noise perturbations, we employ an auxiliary qubit instead of the boson bath to implement a purification scheme, which results in unitary dynamics. Employing the sub-Riemannian geometry framework for the two-qubit unitary group, we derive and numerically solve the geodesic equations, obtaining the optimal time-dependent control Hamiltonian. Also, due to the extended time required to find solutions to the geodesic equations, we train a neural network on a subset of geodesic solutions, enabling us to promptly generate the time-dependent control Hamiltonian for any desired gate, which is crucial in the context of circuit optimization.
翻訳日:2023-10-14 09:04:49 公開日:2023-10-12
# ChatGPTによる医療反応の評価 : システムレビューとメタ分析

Evaluation of ChatGPT-Generated Medical Responses: A Systematic Review and Meta-Analysis ( http://arxiv.org/abs/2310.08410v1 )

ライセンス: Link先を確認
Qiuhong Wei, Zhengxiong Yao, Ying Cui, Bo Wei, Zhezhen Jin, and Ximing Xu(参考訳) ChatGPTのような大規模言語モデルは、医療分野でますます研究されている。 しかし,評価基準の欠如は,方法論上の矛盾につながっている。 本研究の目的は,ChatGPTの医学的パフォーマンスを評価する上で利用可能な証拠を要約し,今後の研究の方向性を示すことである。 2023年6月15日に「ChatGPT」というキーワードを用いて10の医学文献データベースを検索した。 総計3520の論文が同定され,60の論文がレビュー・要約され,17の論文がメタアナリシスに含まれた。 分析の結果,ChatGPTの総合的統合精度は56% (95% CI: 51%-60%, I2 = 87%) であった。 しかし,研究内容は質問資源,質問・回答プロセス,評価指標によって異なっていた。 さらに、多くの研究は、chatgptのバージョンや各質問が独立に使われたか、繰り返し使用されたかなど、方法論的な詳細を報告できなかった。 以上の結果から,chatgptは医療応用に有意な可能性を示したが,研究の不均一性と報告不足がこれらの結果の信頼性に影響を及ぼす可能性が示唆された。 医学におけるChatGPTの性能を評価するためには、包括的で透明な報告を伴うより優れた研究が必要である。

Large language models such as ChatGPT are increasingly explored in medical domains. However, the absence of standard guidelines for performance evaluation has led to methodological inconsistencies. This study aims to summarize the available evidence on evaluating ChatGPT's performance in medicine and provide direction for future research. We searched ten medical literature databases on June 15, 2023, using the keyword "ChatGPT". A total of 3520 articles were identified, of which 60 were reviewed and summarized in this paper and 17 were included in the meta-analysis. The analysis showed that ChatGPT displayed an overall integrated accuracy of 56% (95% CI: 51%-60%, I2 = 87%) in addressing medical queries. However, the studies varied in question resource, question-asking process, and evaluation metrics. Moreover, many studies failed to report methodological details, including the version of ChatGPT and whether each question was used independently or repeatedly. Our findings revealed that although ChatGPT demonstrated considerable potential for application in healthcare, the heterogeneity of the studies and insufficient reporting may affect the reliability of these results. Further well-designed studies with comprehensive and transparent reporting are needed to evaluate ChatGPT's performance in medicine.
翻訳日:2023-10-14 09:04:33 公開日:2023-10-12
# 任意層状騒音モデルにおける雑音誘起不毛高原の発生

Emergence of noise-induced barren plateaus in arbitrary layered noise models ( http://arxiv.org/abs/2310.08405v1 )

ライセンス: Link先を確認
Marco Schumann, Frank K. Wilhelm, and Alessandro Ciani(参考訳) 変分量子アルゴリズムでは、パラメータ化された量子回路のパラメータは、問題の解を符号化するコスト関数を最小化するために最適化される。 バレンプラトー現象は, 変動パラメータに対するコスト関数の指数関数的依存性として現れ, 最適化過程を阻害する。 層状雑音モデルを用いたパラメータ化量子回路において、ノイズ誘起バレンプラトー現象がどのように出現するか、その意味について論じる。 前報では, 局所的なパウリノイズ(arXiv: 2007.14384)の存在下での騒音誘起バレン台地の存在が確認されている。 これらの結果を解析的に、任意の完全正のトレース保存マップに拡張する。 1)パラメータシフト規則が成立する場合 2) 各層におけるパラメタライズド量子回路は, ユニタリな2ドル設計となる。 第2の例は、表現力に富んだユニタリが標準的な不毛高原 [arxiv:1803.11173] だけでなく、ノイズによって引き起こされるものに対してもどのように生み出すかを示している。 本論文の第2部では,$d$正則グラフと振幅減衰雑音の最大カット問題に着目し,qaoa回路におけるノイズ誘起不毛高原の発生を数値的に検討する。

In variational quantum algorithms the parameters of a parameterized quantum circuit are optimized in order to minimize a cost function that encodes the solution of the problem. The barren plateau phenomenon manifests as an exponentially vanishing dependence of the cost function with respect to the variational parameters, and thus hampers the optimization process. We discuss how, and in which sense, the phenomenon of noise-induced barren plateaus emerges in parameterized quantum circuits with a layered noise model. Previous results have shown the existence of noise-induced barren plateaus in the presence of local Pauli noise [arXiv:2007.14384]. We extend these results analytically to arbitrary completely-positive trace preserving maps in two cases: 1) when a parameter-shift rule holds, 2) when the parameterized quantum circuit at each layer forms a unitary $2$-design. The second example shows how highly expressive unitaries give rise not only to standard barren plateaus [arXiv:1803.11173], but also to noise-induced ones. In the second part of the paper, we study numerically the emergence of noise-induced barren plateaus in QAOA circuits focusing on the case of MaxCut problems on $d$-regular graphs and amplitude damping noise.
翻訳日:2023-10-14 09:04:13 公開日:2023-10-12
# 知識ベース質問生成のための連鎖型大規模言語モデルの提案

Prompting Large Language Models with Chain-of-Thought for Few-Shot Knowledge Base Question Generation ( http://arxiv.org/abs/2310.08395v1 )

ライセンス: Link先を確認
Yuanyuan Liang, Jianing Wang, Hanlun Zhu, Lei Wang, Weining Qian, Yunshi Lan(参考訳) 知識ベースに関する質問生成タスク(KBQG)は、論理形式を自然言語質問に変換することを目的としている。 大規模質問注記の費用がかかるため、低リソースシナリオにおけるkbqgの手法を緊急に開発する必要がある。 しかし、現在の手法は微調整のための注釈データに大きく依存しており、わずかな質問生成には適していない。 大規模言語モデル(llm)の出現は、わずかなタスクでその印象的な一般化能力を示している。 推論のための文脈内学習戦略であるChain-of-Thought(CoT)にインスパイアされ、KBQGタスクを推論問題として定式化し、完全な質問の生成を一連のサブクエスト生成に分割する。 提案手法であるkqg-cotは,まず,論理形式の特徴を考慮したラベルなしデータプールから支援論理形式を検索する。 次に,選択した実演に基づいて複雑な質問を生成する推論連鎖を明示するプロンプトを記述する。 さらに迅速な品質を確保するため、KQG-CoTをKQG-CoT+に拡張する。 3つのKBQGデータセットに対して広範な実験を行う。 その結果,提案手法は評価されたデータセット上での他のプロンプトベースラインよりも一貫して優れていた。 注目すべきことに、我々のKQG-CoT+法は、それぞれBLEU-4、METEOR、ROUGE-L上の18.25、10.72、および10.18の絶対点の既存の数発のSoTA結果を上回る可能性がある。

The task of Question Generation over Knowledge Bases (KBQG) aims to convert a logical form into a natural language question. For the sake of expensive cost of large-scale question annotation, the methods of KBQG under low-resource scenarios urgently need to be developed. However, current methods heavily rely on annotated data for fine-tuning, which is not well-suited for few-shot question generation. The emergence of Large Language Models (LLMs) has shown their impressive generalization ability in few-shot tasks. Inspired by Chain-of-Thought (CoT) prompting, which is an in-context learning strategy for reasoning, we formulate KBQG task as a reasoning problem, where the generation of a complete question is splitted into a series of sub-question generation. Our proposed prompting method KQG-CoT first retrieves supportive logical forms from the unlabeled data pool taking account of the characteristics of the logical form. Then, we write a prompt to explicit the reasoning chain of generating complicated questions based on the selected demonstrations. To further ensure prompt quality, we extend KQG-CoT into KQG-CoT+ via sorting the logical forms by their complexity. We conduct extensive experiments over three public KBQG datasets. The results demonstrate that our prompting method consistently outperforms other prompting baselines on the evaluated datasets. Remarkably, our KQG-CoT+ method could surpass existing few-shot SoTA results of the PathQuestions dataset by 18.25, 10.72, and 10.18 absolute points on BLEU-4, METEOR, and ROUGE-L, respectively.
翻訳日:2023-10-14 09:03:55 公開日:2023-10-12
# 指導追従のより良い評価に向けて:要約の事例研究

Towards Better Evaluation of Instruction-Following: A Case-Study in Summarization ( http://arxiv.org/abs/2310.08394v1 )

ライセンス: Link先を確認
Ondrej Skopek, Rahul Aralikatte, Sian Gooding, Victor Carbune(参考訳) 最近の進歩にもかかわらず、大きな言語モデル(LLM)がいかにユーザ命令に従うかを評価することは未解決の問題である。 言語モデルの評価手法は、プロンプトベースアプローチが増加傾向にあるが、これらの手法の正確性に関する作業は限られている。 本研究では,LLMの指示追従能力の計測精度を定量化するために,様々な指標のメタ評価を行う。 私たちの調査は、接地型クエリベースの要約に基づいて行われ、300ドルのドキュメントインストラクションペアと3ドルの回答を含む、新しい短い形式の実世界のデータセットrisumを収集します。 900ドルの回答はすべて、人間の注釈によって評価される。 riSumを用いて評価方法と人的判断の一致を分析する。 最後に、確立された基準線を改良し、高品質な要約を必要とするコストの高い基準ベースのメトリクスでオンパーを実行するLLMベースの参照フリー評価手法を提案する。

Despite recent advances, evaluating how well large language models (LLMs) follow user instructions remains an open problem. While evaluation methods of language models have seen a rise in prompt-based approaches, limited work on the correctness of these methods has been conducted. In this work, we perform a meta-evaluation of a variety of metrics to quantify how accurately they measure the instruction-following abilities of LLMs. Our investigation is performed on grounded query-based summarization by collecting a new short-form, real-world dataset riSum, containing $300$ document-instruction pairs with $3$ answers each. All $900$ answers are rated by $3$ human annotators. Using riSum, we analyze agreement between evaluation methods and human judgment. Finally, we propose new LLM-based reference-free evaluation methods that improve upon established baselines and perform on-par with costly reference-based metrics which require high-quality summaries.
翻訳日:2023-10-14 09:03:23 公開日:2023-10-12
# 線形回帰の文脈学習に必要な事前学習課題はいくつあるか?

How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? ( http://arxiv.org/abs/2310.08391v1 )

ライセンス: Link先を確認
Jingfeng Wu, Difan Zou, Zixiang Chen, Vladimir Braverman, Quanquan Gu, Peter L. Bartlett(参考訳) 様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示し、モデルパラメータを調整することなく、入力コンテキストのみに基づいて見えないタスクを解決できる。 本稿では,線形パラメータ化単一層線形アテンションモデルをガウス先行の線形回帰のために事前学習する,最も簡単な構成の1つとしてICLについて検討する。 注意モデル事前学習に縛られた統計的タスクの複雑性を確立し、有効事前学習には少数の独立したタスクしか必要としないことを示す。 さらに,事前学習したモデルがベイズ最適アルゴリズム,すなわち最適調整リッジ回帰と密接に一致し,一定のコンテキスト長の未学習タスクに対するベイズ最適リスクをほぼ達成できることを証明した。 これらの理論的な発見は、以前の実験研究を補完し、iclの統計的基礎に光を当てた。

Transformers pretrained on diverse tasks exhibit remarkable in-context learning (ICL) capabilities, enabling them to solve unseen tasks solely based on input contexts without adjusting model parameters. In this paper, we study ICL in one of its simplest setups: pretraining a linearly parameterized single-layer linear attention model for linear regression with a Gaussian prior. We establish a statistical task complexity bound for the attention model pretraining, showing that effective pretraining only requires a small number of independent tasks. Furthermore, we prove that the pretrained model closely matches the Bayes optimal algorithm, i.e., optimally tuned ridge regression, by achieving nearly Bayes optimal risk on unseen tasks under a fixed context length. These theoretical findings complement prior experimental research and shed light on the statistical foundations of ICL.
翻訳日:2023-10-14 09:03:05 公開日:2023-10-12
# Hyp-UML:不確かさを意識したメトリクス学習による双曲的画像検索

Hyp-UML: Hyperbolic Image Retrieval with Uncertainty-aware Metric Learning ( http://arxiv.org/abs/2310.08390v1 )

ライセンス: Link先を確認
Shiyang Yan, Zongxuan Liu, Lin Xu(参考訳) メトリック学習は、画像検索と分類のトレーニングにおいて重要な役割を果たす。 また、例えば、特徴学習とその距離空間におけるアライメントのための表現学習における重要なアルゴリズムでもある。 近年, 従来のユークリッド埋め込みと比較して, ハイパーボリック埋め込みが開発されており, 階層型データ構造を表現するのに有効である。 第二に、不確実性の推定/測定は人工知能における長期的な課題である。 不確実性の推定に成功すると、機械学習モデルのパフォーマンス、堅牢性、セキュリティが向上する。 双曲空間において、不確実性の測定は、少なくともそれ以上でも重要な重要性を持つ。 本稿では,画像検索のための不確実性を考慮したメトリクス学習を組み込んだハイパーボリック画像を開発する。 我々はHyp-UMLと呼ばれるハイパーボリックな不確かさを意識したメトリックラーニングを行う。 我々は,ハイパーボリック空間に基づく画像埋め込みアルゴリズムとそれに対応する不確実性値を提案する。また,一般的なコントラスト学習と従来型のマージンベースのメトリクス学習の2種類の不確実性を考慮したメトリクス学習を提案する。 我々は,提案アルゴリズムが関連する手法で最先端の成果を得られることを示すため,広範囲な実験的検証を行った。 包括的アブレーション研究は,提案アルゴリズムの各成分の有効性を検証する。

Metric learning plays a critical role in training image retrieval and classification. It is also a key algorithm in representation learning, e.g., for feature learning and its alignment in metric space. Hyperbolic embedding has been recently developed, compared to the conventional Euclidean embedding in most of the previously developed models, and can be more effective in representing the hierarchical data structure. Second, uncertainty estimation/measurement is a long-lasting challenge in artificial intelligence. Successful uncertainty estimation can improve a machine learning model's performance, robustness, and security. In Hyperbolic space, uncertainty measurement is at least with equivalent, if not more, critical importance. In this paper, we develop a Hyperbolic image embedding with uncertainty-aware metric learning for image retrieval. We call our method Hyp-UML: Hyperbolic Uncertainty-aware Metric Learning. Our contribution are threefold: we propose an image embedding algorithm based on Hyperbolic space, with their corresponding uncertainty value; we propose two types of uncertainty-aware metric learning, for the popular Contrastive learning and conventional margin-based metric learning, respectively. We perform extensive experimental validations to prove that the proposed algorithm can achieve state-of-the-art results among related methods. The comprehensive ablation study validates the effectiveness of each component of the proposed algorithm.
翻訳日:2023-10-14 09:02:49 公開日:2023-10-12
# 異種転校学習に関する調査研究

A Survey on Heterogeneous Transfer Learning ( http://arxiv.org/abs/2310.08459v1 )

ライセンス: Link先を確認
Runxue Bao, Yiming Sun, Yuhe Gao, Jindong Wang, Qiang Yang, Haifeng Chen, Zhi-Hong Mao, Xing Xie, Ye Ye(参考訳) ソースドメインからの知識を活用して対象ドメインのモデルパフォーマンスを向上させるトランスファーラーニング(transfer learning)の応用は、近年急速に増加し、現実のシナリオの多くを支えている。 その成功の鍵は、ほとんどの転校学習方法論において前提となる、ドメイン間の共通知識の共有にある。 これらの方法は通常、同じ特徴空間とラベル空間を両方の領域(同相転送学習として知られる)で仮定するが、それは必ずしも実用的仮定ではない。 多くの場合、ソースドメインとターゲットドメインは特徴空間、データ分布、ラベル空間によって異なり、同じ特徴空間とラベル空間を対象領域として持つソースドメインデータの保護が困難かコストがかかる。 これらの違いを任意に排除することは、常に可能あるいは最適であるとは限らない。 このように、異種移動学習(異種移動学習)は、様々なタスクにおいて有望なアプローチとして現れてきた。 このトピックに関する2017年の調査が存在するにもかかわらず、2017年以降の急速な進展は、更新された詳細なレビューを必要としている。 そこで本研究では,異種移動学習手法の最近の進歩を包括的に調査し,今後の研究の体系的ガイドを提供する。 本稿では,多様な学習シナリオのための方法論をレビューし,現在の研究の限界を論じ,自然言語処理,コンピュータビジョン,マルチモダリティ,バイオメディシンなど,様々な応用コンテキストを取り上げ,より深く理解し,今後の研究を促進する。

The application of transfer learning, an approach utilizing knowledge from a source domain to enhance model performance in a target domain, has seen a tremendous rise in recent years, underpinning many real-world scenarios. The key to its success lies in the shared common knowledge between the domains, a prerequisite in most transfer learning methodologies. These methods typically presuppose identical feature spaces and label spaces in both domains, known as homogeneous transfer learning, which, however, is not always a practical assumption. Oftentimes, the source and target domains vary in feature spaces, data distributions, and label spaces, making it challenging or costly to secure source domain data with identical feature and label spaces as the target domain. Arbitrary elimination of these differences is not always feasible or optimal. Thus, heterogeneous transfer learning, acknowledging and dealing with such disparities, has emerged as a promising approach for a variety of tasks. Despite the existence of a survey in 2017 on this topic, the fast-paced advances post-2017 necessitate an updated, in-depth review. We therefore present a comprehensive survey of recent developments in heterogeneous transfer learning methods, offering a systematic guide for future research. Our paper reviews methodologies for diverse learning scenarios, discusses the limitations of current studies, and covers various application contexts, including Natural Language Processing, Computer Vision, Multimodality, and Biomedicine, to foster a deeper understanding and spur future research.
翻訳日:2023-10-14 08:57:11 公開日:2023-10-12
# 動的推薦システムにおける人気バイアスのメトリクス

Metrics for popularity bias in dynamic recommender systems ( http://arxiv.org/abs/2310.08455v1 )

ライセンス: Link先を確認
Valentijn Braun, Debarati Bhaumik, and Diptish Dey(参考訳) 日常生活におけるレコメンダシステム(recsys)の広範にわたる適用にもかかわらず、そのようなシステムに存在する不公平さやバイアスを定量化するための限られた研究が行われてきた。 先行研究は主に、recsysが識別しているかどうかを決定することに重点を置いているが、これらのシステムに存在するバイアスの量を計算していない。 偏りのある推奨は、個人、敏感なユーザーグループ、社会に悪影響を及ぼす可能性がある決定につながる可能性がある。 したがって、これらのシステムの公正かつ安全な商業的応用のために、これらのバイアスを定量化することが重要である。 本稿では、RecSysモデルの出力から直接生じる人気バイアスの定量化に焦点をあて、ユーザの好みと一致しない可能性のある人気アイテムの推薦を過度に行う。 RescSysにおける人気バイアスを時間とともに定量化するための4つの指標が提案されている。 これらのメトリクスは、4つのコラボレーティブフィルタリングベースのrecsysアルゴリズムで実証されており、文献でよく使われる2つのベンチマークデータセットでトレーニングされている。 以上の結果から,提案した指標は,併用時の感度群間処理における差異の増大を包括的に把握できることを示した。

Albeit the widespread application of recommender systems (RecSys) in our daily lives, rather limited research has been done on quantifying unfairness and biases present in such systems. Prior work largely focuses on determining whether a RecSys is discriminating or not but does not compute the amount of bias present in these systems. Biased recommendations may lead to decisions that can potentially have adverse effects on individuals, sensitive user groups, and society. Hence, it is important to quantify these biases for fair and safe commercial applications of these systems. This paper focuses on quantifying popularity bias that stems directly from the output of RecSys models, leading to over recommendation of popular items that are likely to be misaligned with user preferences. Four metrics to quantify popularity bias in RescSys over time in dynamic setting across different sensitive user groups have been proposed. These metrics have been demonstrated for four collaborative filtering based RecSys algorithms trained on two commonly used benchmark datasets in the literature. Results obtained show that the metrics proposed provide a comprehensive understanding of growing disparities in treatment between sensitive groups over time when used conjointly.
翻訳日:2023-10-14 08:56:45 公開日:2023-10-12
# 手作業分析の自動化のための骨格に基づく行動認識の可能性の証明

Proving the Potential of Skeleton Based Action Recognition to Automate the Analysis of Manual Processes ( http://arxiv.org/abs/2310.08451v1 )

ライセンス: Link先を確認
Marlin Berger, Frederik Cloppenburg, Jens Eufinger, Thomas Gries(参考訳) 織物やエレクトロニクスなどの製造業では、手作業が生産の基本的な部分である。 効率的な生産設計にはプロセスの分析とモニタリングが必要である。 手動プロセスを分析する従来の方法は複雑で高価で柔軟性がない。 Methods-Time-Measurement (MTM)のような確立したアプローチと比較して、マシンラーニング(ML)メソッドは、次のように約束している。 本研究では,ビデオストリームに基づいて,手動組立プロセスにおける現在の動作クラスを検出する。 現在の動きに関する情報により、KPI(Key-Performance-Indicators)を容易に導出できる。 スケルトンベースのアクション認識アプローチが採用されており、この分野は最近、機械ビジョンタスクで大きな成功を収めている。 手動組立における骨格に基づく行動認識では、十分な事前作業が見つからなかった。 そのため、MLパイプラインを開発し、異なる(事前)処理方法とニューラルネットの広範な研究を可能にする。 適切に一般化されたアプローチが発見され、手動のプロセスの分析を強化するMLの可能性を証明した。 モデルは、オペレータが手動で実行した現在の動作を検出するが、結果はあらゆる種類の手動プロセスに転送できる。

In manufacturing sectors such as textiles and electronics, manual processes are a fundamental part of production. The analysis and monitoring of the processes is necessary for efficient production design. Traditional methods for analyzing manual processes are complex, expensive, and inflexible. Compared to established approaches such as Methods-Time-Measurement (MTM), machine learning (ML) methods promise: Higher flexibility, self-sufficient & permanent use, lower costs. In this work, based on a video stream, the current motion class in a manual assembly process is detected. With information on the current motion, Key-Performance-Indicators (KPIs) can be derived easily. A skeleton-based action recognition approach is taken, as this field recently shows major success in machine vision tasks. For skeleton-based action recognition in manual assembly, no sufficient pre-work could be found. Therefore, a ML pipeline is developed, to enable extensive research on different (pre-) processing methods and neural nets. Suitable well generalizing approaches are found, proving the potential of ML to enhance analyzation of manual processes. Models detect the current motion, performed by an operator in manual assembly, but the results can be transferred to all kinds of manual processes.
翻訳日:2023-10-14 08:56:25 公開日:2023-10-12
# モデル選択によるロバストなマルチモーダル推論

Towards Robust Multi-Modal Reasoning via Model Selection ( http://arxiv.org/abs/2310.08446v1 )

ライセンス: Link先を確認
Xiangyan Liu, Rongxue Li, Wei Ji, Tao Lin(参考訳) LLM(Large Language Model)の推論能力は、最近の研究で広く認知されており、ツール学習と自律エージェントの研究を刺激している。 LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。 簡単なタスクのために電卓や天気予報APIなどのツールを呼び出す方法とは異なり、複雑な課題のために多様なAIモデルを統合することで、マルチモーダルエージェントが優れている。 しかし、現在のマルチモーダルエージェントはモデル選択の重要性を無視しており、主に計画と実行フェーズに重点を置いており、各サブタスクに対して事前に定義されたタスク固有のモデルを起動するだけで、実行が脆弱になる。 一方、他の伝統的なモデル選択手法は、マルチステップ推論によって生じるサブタスク間の依存関係を無視するため、マルチモーダルエージェントのシナリオに不適合または最適である。 この目的のために、主要な課題を特定し、テスト時に無視できるランタイムオーバーヘッドを持つプラグインとして$\textit{M}^3$フレームワークを提案する。 このフレームワークはモデル選択を改善し、マルチステップ推論におけるマルチモーダルエージェントの堅牢性を高める。 適切なベンチマークがなければ、マルチモーダルエージェントのモデル選択課題を調査するための新しいデータセットであるMS-GQAを作成する。 実験の結果,我々のフレームワークはユーザ入力とサブタスク依存の両方を考慮し,動的モデル選択を可能にすることがわかった。 私たちのコードとベンチマークは、https://github.com/LINs-lab/M3。

The reasoning capabilities of LLM (Large Language Model) are widely acknowledged in recent research, inspiring studies on tool learning and autonomous agents. LLM serves as the "brain" of agent, orchestrating multiple tools for collaborative multi-step task solving. Unlike methods invoking tools like calculators or weather APIs for straightforward tasks, multi-modal agents excel by integrating diverse AI models for complex challenges. However, current multi-modal agents neglect the significance of model selection: they primarily focus on the planning and execution phases, and will only invoke predefined task-specific models for each subtask, making the execution fragile. Meanwhile, other traditional model selection methods are either incompatible with or suboptimal for the multi-modal agent scenarios, due to ignorance of dependencies among subtasks arising by multi-step reasoning. To this end, we identify the key challenges therein and propose the $\textit{M}^3$ framework as a plug-in with negligible runtime overhead at test-time. This framework improves model selection and bolsters the robustness of multi-modal agents in multi-step reasoning. In the absence of suitable benchmarks, we create MS-GQA, a new dataset specifically designed to investigate the model selection challenge in multi-modal agents. Our experiments reveal that our framework enables dynamic model selection, considering both user inputs and subtask dependencies, thereby robustifying the overall reasoning process. Our code and benchmark: https://github.com/LINs-lab/M3.
翻訳日:2023-10-14 08:56:07 公開日:2023-10-12
# モデルの連合性:創造的執筆におけるLCMの包括的評価

A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative Writing ( http://arxiv.org/abs/2310.08433v1 )

ライセンス: Link先を確認
Carlos G\'omez-Rodr\'iguez and Paul Williams(参考訳) 我々は、英語の創造的執筆に関する近年のLLMについて、想像力、コヒーレンス、スタイルを必要とする困難で複雑なタスクを評価した。 ピューリッツァー賞受賞小説『ダンス連合』(1980年)の主人公であるイグナティウス・J・ライリー(Ignatius J. Reilly)と、先史時代の飛行甲虫類であるプテロダクティル(Pterodactyl)との1つの戦闘の叙事詩である。 我々は複数のllmと人間にそのような物語を書き、流血、コヒーレンス、独創性、ユーモア、スタイルといった様々な基準を含む人間の評価を行うように依頼する。 その結果、最先端の商用llmは、ほとんどの次元において、私たちのライターをわずかに上回るか、あるいは上回っていることが分かりました。 人間は創造性に限界を保ち、ユーモアは人間とそれで失敗する人間とを両立できるLDMを二分していることを示している。 本研究の意義と限界を議論し,今後の研究の方向性を提案する。

We evaluate a range of recent LLMs on English creative writing, a challenging and complex task that requires imagination, coherence, and style. We use a difficult, open-ended scenario chosen to avoid training data reuse: an epic narration of a single combat between Ignatius J. Reilly, the protagonist of the Pulitzer Prize-winning novel A Confederacy of Dunces (1980), and a pterodactyl, a prehistoric flying reptile. We ask several LLMs and humans to write such a story and conduct a human evalution involving various criteria such as fluency, coherence, originality, humor, and style. Our results show that some state-of-the-art commercial LLMs match or slightly outperform our writers in most dimensions; whereas open-source LLMs lag behind. Humans retain an edge in creativity, while humor shows a binary divide between LLMs that can handle it comparably to humans and those that fail at it. We discuss the implications and limitations of our study and suggest directions for future research.
翻訳日:2023-10-14 08:55:43 公開日:2023-10-12
# 階層的指数族エネルギーモデルにおけるニューラルサンプリング

Neural Sampling in Hierarchical Exponential-family Energy-based Models ( http://arxiv.org/abs/2310.08431v1 )

ライセンス: Link先を確認
Xingsi Dong, Si Wu(参考訳) ベイジアン脳理論は、脳は外界を理解するために生成モデルを使っていることを示唆している。 サンプリングに基づく観点では、脳は確率的神経反応のサンプルを通して後部分布を推測する。 さらに、脳はその生成モデルを継続的に更新し、外界の真の分布にアプローチする。 本研究では,推論と学習のダイナミクスを捉える階層的指数族エネルギーベース(HEE)モデルを提案する。 HEEモデルでは、分割関数を個々の層に分解し、短い時間定数のニューロン群を利用して分解正規化項の勾配をサンプリングする。 これにより,従来のエネルギーベースモデル (ebms) では負の位相を回避し,分割関数を推定し,同時に推論を行うことができる。 その結果、学習プロセスは時間と空間の両方で局所化され、モデルを簡単に収束させることができる。 脳の急速な計算に適合するため、神経適応は運動量項として機能し、推論過程を著しく加速できることを実証する。 自然画像データセットでは,生体視覚系で観察された画像に類似した表現を示す。 さらに、機械学習コミュニティにとって、このモデルはジョイントまたはマージン生成を通じて観察を生成できる。 限界生成は共同生成より優れ,他のESMと同等の性能を発揮することを示す。

Bayesian brain theory suggests that the brain employs generative models to understand the external world. The sampling-based perspective posits that the brain infers the posterior distribution through samples of stochastic neuronal responses. Additionally, the brain continually updates its generative model to approach the true distribution of the external world. In this study, we introduce the Hierarchical Exponential-family Energy-based (HEE) model, which captures the dynamics of inference and learning. In the HEE model, we decompose the partition function into individual layers and leverage a group of neurons with shorter time constants to sample the gradient of the decomposed normalization term. This allows our model to estimate the partition function and perform inference simultaneously, circumventing the negative phase encountered in conventional energy-based models (EBMs). As a result, the learning process is localized both in time and space, and the model is easy to converge. To match the brain's rapid computation, we demonstrate that neural adaptation can serve as a momentum term, significantly accelerating the inference process. On natural image datasets, our model exhibits representations akin to those observed in the biological visual system. Furthermore, for the machine learning community, our model can generate observations through joint or marginal generation. We show that marginal generation outperforms joint generation and achieves performance on par with other EBMs.
翻訳日:2023-10-14 08:55:21 公開日:2023-10-12
# 畳み込みニューラルネットワークにおける回転不変性の再検討

Revisiting Data Augmentation for Rotational Invariance in Convolutional Neural Networks ( http://arxiv.org/abs/2310.08429v1 )

ライセンス: Link先を確認
Facundo Manuel Quiroga, Franco Ronchetti, Laura Lanzarini, and Aurelio Fernandez-Bariviera(参考訳) 畳み込みニューラルネットワーク(CNN)は、様々なコンピュータビジョンタスクにおけるアートパフォーマンスの状態を提供する。 これらのタスクの多くは、画像変換に対するアフィン不変(スケール、回転、変換)の異なるサブタイプを必要とする。 畳み込み層は設計によって同変であるが、基本形式では不変性がない。 本研究では,画像分類のためのCNNにおける回転不変性について検討する。 私たちの実験では、データ拡張だけで訓練されたネットワークは、通常の非回転の場合と同様に回転画像の分類が可能であることが示されています。 また,空間トランスフォーマーネットワークとグループ同変cnnの回転不変性や等分散性を達成するために,データ拡張法と2つの修正cnnモデルを比較した。 データ拡張ネットワークの場合、どの層がネットワークの回転不変性(英語版)を符号化するのに役立つかを分析する。

Convolutional Neural Networks (CNN) offer state of the art performance in various computer vision tasks. Many of those tasks require different subtypes of affine invariances (scale, rotational, translational) to image transformations. Convolutional layers are translation equivariant by design, but in their basic form lack invariances. In this work we investigate how best to include rotational invariance in a CNN for image classification. Our experiments show that networks trained with data augmentation alone can classify rotated images nearly as well as in the normal unrotated case; this increase in representational power comes only at the cost of training time. We also compare data augmentation versus two modified CNN models for achieving rotational invariance or equivariance, Spatial Transformer Networks and Group Equivariant CNNs, finding no significant accuracy increase with these specialized methods. In the case of data augmented networks, we also analyze which layers help the network to encode the rotational invariance, which is important for understanding its limitations and how to best retrain a network with data augmentation to achieve invariance to rotation.
翻訳日:2023-10-14 08:54:59 公開日:2023-10-12
# 多層ニューラルネットワークのための微分プライベート非凸学習

Differentially Private Non-convex Learning for Multi-layer Neural Networks ( http://arxiv.org/abs/2310.08425v1 )

ライセンス: Link先を確認
Hanpu Shen and Cheng-Long Wang and Zihang Xiang and Yiming Ying and Di Wang(参考訳) 本稿では、単一出力ノードを持つ(多層)完全連結ニューラルネットワークに対する微分プライベート確率最適化の問題に焦点をあてる。 第一部では,隠れノードを持たない場合,特に一般化線形モデル(glm)に着目して検討する。 ランダムノイズがゼロ平均を持ち、リンク関数が有界かつリプシッツ連続であるような well-specific モデルについて検討する。 本稿では,データ次元に不変な過剰な集団リスクを実現する可能性を示すアルゴリズムをいくつか提案する。 また,ReLUリンク関数が関与するシナリオについても検討し,有界リンク関数を反映する結果を得た。 この節は、relu回帰を代表例として、よく特定されたモデルと誤特定されたモデルを比較して結論づける。 本論文の第2部では,Sigmoid あるいは ReLU 活性化機能を持つ2層ニューラルネットワークに,そのアイデアを拡張した。 第3部では,完全連結多層ニューラルネットワークにおけるDP-SGDの理論的保証について検討した。 ニューラル・タンジェント・カーネル理論の最近の進歩を利用して、サンプルサイズとネットワーク幅の両方が十分に大きい場合に、最初の過剰人口リスクを提供する。 さらに,DP-SGDにおけるパラメータの役割を理論的にも経験的にも議論する。

This paper focuses on the problem of Differentially Private Stochastic Optimization for (multi-layer) fully connected neural networks with a single output node. In the first part, we examine cases with no hidden nodes, specifically focusing on Generalized Linear Models (GLMs). We investigate the well-specific model where the random noise possesses a zero mean, and the link function is both bounded and Lipschitz continuous. We propose several algorithms and our analysis demonstrates the feasibility of achieving an excess population risk that remains invariant to the data dimension. We also delve into the scenario involving the ReLU link function, and our findings mirror those of the bounded link function. We conclude this section by contrasting well-specified and misspecified models, using ReLU regression as a representative example. In the second part of the paper, we extend our ideas to two-layer neural networks with sigmoid or ReLU activation functions in the well-specified model. In the third part, we study the theoretical guarantees of DP-SGD in Abadi et al. (2016) for fully connected multi-layer neural networks. By utilizing recent advances in Neural Tangent Kernel theory, we provide the first excess population risk when both the sample size and the width of the network are sufficiently large. Additionally, we discuss the role of some parameters in DP-SGD regarding their utility, both theoretically and empirically.
翻訳日:2023-10-14 08:54:40 公開日:2023-10-12
# セグロック」:セキュリティ検査X線画像の高密度予測課題を対象とした新しい視覚自己監督学習方式(セグローテーション)に関する研究

"SegLoc": Study on Novel Visual Self-supervised Learning Scheme (Segment Localization) Tailored for Dense Prediction Tasks of Security Inspection X-ray Images ( http://arxiv.org/abs/2310.08421v1 )

ライセンス: Link先を確認
Shervin Halat, Mohammad Rahmati, Ehsan Nazerfard(参考訳) 近年、人工知能の顕著な進歩は、自己監督学習体系の統合によるものである。 NLPの素晴らしい成果にもかかわらず、コンピュータビジョンにおけるSSLは、比較的軌道に留まることができなかった。 近年,既存のSSLモデル上でのコントラスト学習の統合は,視覚的SSLモデルよりも優れた性能を持つコンピュータビジョンにおいて,かなりの進歩を遂げている。 しかしながら、これらの改善のほとんどは分類タスクに限られており、コンピュータビジョンの現実的なシナリオにおけるSSLモデルの評価に特化している作品はほとんどない。 そこで本研究では,セキュリティ検査x線画像における意味セグメンテーションの密集した予測タスクを検討し,提案するモデルセグメンテーションの局在性を評価する。 モデルインスタンスのローカライゼーションに基づいて、我々のモデルseglocは、対照的な学習、すなわちクエリ埋め込みの偽陰性ペアの最も難しい欠点の1つに対処しました。 そのため、ベースラインモデルであるinslocとは対照的に、プリトレーニングデータセットは、利用可能なラベル付きデータセット、フォアグラウンドからラベル付きデータセット、バックグラウンドのインスタンスにラベル付きセグメントを分割、変換、ペーストすることで合成されます。 PIDrayデータセットとSIXrayデータセットはそれぞれラベル付きデータセットとラベルなしデータセットとみなす。 さらに、メモリバンク内の各クエリに対応する負のペアを抽出するMoCo-v2において、クラス毎に1つのキューというアイデアを実装することで、偽の負のペアを避けることでラベルを完全に活用する。 提案手法はランダム初期化を3%から6%に上回り,教師付き初期化は下方修正した。

Lately, remarkable advancements of artificial intelligence have been attributed to the integration of self-supervised learning scheme. Despite impressive achievements within NLP, yet SSL in computer vision has not been able to stay on track comparatively. Recently, integration of contrastive learning on top of existing SSL models has established considerable progress in computer vision through which visual SSL models have outperformed their supervised counterparts. Nevertheless, most of these improvements were limited to classification tasks, and also, few works have been dedicated to evaluation of SSL models in real-world scenarios of computer vision, while the majority of works are centered around datasets containing class-wise portrait images, most notably, ImageNet. Consequently, in this work, we have considered dense prediction task of semantic segmentation in security inspection x-ray images to evaluate our proposed model Segmentation Localization. Based upon the model Instance Localization, our model SegLoc has managed to address one of the most challenging downsides of contrastive learning, i.e., false negative pairs of query embeddings. In order to do so, in contrast to baseline model InsLoc, our pretraining dataset is synthesized by cropping, transforming, then pasting already labeled segments from an available labeled dataset, foregrounds, onto instances of an unlabeled dataset, backgrounds. In our case, PIDray and SIXray datasets are considered as labeled and unlabeled datasets, respectively. Moreover, we fully harness labels by avoiding false negative pairs through implementing the idea, one queue per class, in MoCo-v2 whereby negative pairs corresponding to each query are extracted from its corresponding queue within the memory bank. Our approach has outperformed random initialization by 3% to 6%, while having underperformed supervised initialization.
翻訳日:2023-10-14 08:54:20 公開日:2023-10-12
# 古代中国のCWSとPOSのための不確実性に基づく検索フレームワーク

The Uncertainty-based Retrieval Framework for Ancient Chinese CWS and POS ( http://arxiv.org/abs/2310.08496v1 )

ライセンス: Link先を確認
Pengyu Wang, Zhichen Ren(参考訳) 現代中国語の自動分析は、関連分野におけるテキストマイニングの精度を大幅に向上させたが、古代中国語の研究はまだ比較的稀である。 古代のテキスト分割と辞書注釈は古典文学の理解の重要な部分であり、従来の研究では補助辞書やその他の融合した知識を構築して性能の向上に努めてきた。 本稿では,古中国語の単語セグメンテーションとパート・オブ・Speech Taggingの枠組みを提案する。一方,単語の意味論を捉えようとする一方で,外部知識を導入して,ベースラインモデルの不確実なサンプルを再予測する。 我々のアーキテクチャの性能は、CRFやJiayanのような既存のツールで事前訓練されたBERTよりも優れています。

Automatic analysis for modern Chinese has greatly improved the accuracy of text mining in related fields, but the study of ancient Chinese is still relatively rare. Ancient text division and lexical annotation are important parts of classical literature comprehension, and previous studies have tried to construct auxiliary dictionary and other fused knowledge to improve the performance. In this paper, we propose a framework for ancient Chinese Word Segmentation and Part-of-Speech Tagging that makes a twofold effort: on the one hand, we try to capture the wordhood semantics; on the other hand, we re-predict the uncertain samples of baseline model by introducing external knowledge. The performance of our architecture outperforms pre-trained BERT with CRF and existing tools such as Jiayan.
翻訳日:2023-10-14 08:46:18 公開日:2023-10-12
# エコー状態ネットワークにおける特徴的重要度を用いた気候経路のキャラクタリゼーション

Characterizing climate pathways using feature importance on echo state networks ( http://arxiv.org/abs/2310.08495v1 )

ライセンス: Link先を確認
Katherine Goode, Daniel Ries, Kellie McClernon(参考訳) 2022年、アメリカ合衆国の国防戦略は気候変動を国家安全保障に対する深刻な脅威として挙げた。 成層圏エアロゾル注入のような気候介入手法は緩和戦略として提案されているが、複雑な気候システムに対するそのような作用の下流効果はよく分かっていない。 気候変動に関連する要因と影響変数の関係を定量化するアルゴリズム技術(すなわち、気候経路)の開発は、政策決定の伝達に役立つ。 データ駆動型ディープラーニングモデルは、高度に非線形な関係をモデル化するための強力なツールとなり、気候変動関係を特徴づける手段を提供する可能性がある。 本稿では,気候経路を特徴付けるためのエコー状態ネットワーク(esn)の利用について検討する。 ESNは時間的データのために設計された計算効率の良いニューラルネットワークのバリエーションであり、最近の研究は時空間気候データの予測に有用なツールとしてESNを提案する。 他のニューラルネットワークと同様に、ESNは非解釈可能なブラックボックスモデルであり、変数関係を理解する上でハードルとなる。 本研究では,時空間データを用いてモデルが捉えた変動関係を定量化するために,ESNの特徴重み付け手法を開発することでこの問題に対処する。 我々は,特徴重要度の評価と比較を行うシミュレーション研究を行い,再分析気候データに対するアプローチを実証する。 1991年のピナツボ山の火山噴火を含む期間を選択する。 このイベントは, 人工成層圏エアロゾル注入のプロキシとして使用した, 有意な成層圏エアロゾル注入であった。 提案手法を用いて,この事象に関連する経路変数間の関係を特徴付けることができる。

The 2022 National Defense Strategy of the United States listed climate change as a serious threat to national security. Climate intervention methods, such as stratospheric aerosol injection, have been proposed as mitigation strategies, but the downstream effects of such actions on a complex climate system are not well understood. The development of algorithmic techniques for quantifying relationships between source and impact variables related to a climate event (i.e., a climate pathway) would help inform policy decisions. Data-driven deep learning models have become powerful tools for modeling highly nonlinear relationships and may provide a route to characterize climate variable relationships. In this paper, we explore the use of an echo state network (ESN) for characterizing climate pathways. ESNs are a computationally efficient neural network variation designed for temporal data, and recent work proposes ESNs as a useful tool for forecasting spatio-temporal climate data. Like other neural networks, ESNs are non-interpretable black-box models, which poses a hurdle for understanding variable relationships. We address this issue by developing feature importance methods for ESNs in the context of spatio-temporal data to quantify variable relationships captured by the model. We conduct a simulation study to assess and compare the feature importance techniques, and we demonstrate the approach on reanalysis climate data. In the climate application, we select a time period that includes the 1991 volcanic eruption of Mount Pinatubo. This event was a significant stratospheric aerosol injection, which we use as a proxy for an artificial stratospheric aerosol injection. Using the proposed approach, we are able to characterize relationships between pathway variables associated with this event.
翻訳日:2023-10-14 08:46:05 公開日:2023-10-12
# Prometheus: 言語モデルにおけるきめ細かい評価機能の導入

Prometheus: Inducing Fine-grained Evaluation Capability in Language Models ( http://arxiv.org/abs/2310.08491v1 )

ライセンス: Link先を確認
Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo(参考訳) 近年,Large Language Model (LLM, GPT-4) を長文応答評価器として活用することがデファクトスタンダードとなっている。 しかし, 大規模評価課題や, 子どもの可読性などの特質を考慮に入れた実践者に対しては, プロプライエタリなLCMを評価対象として使用することは, クローズドソースの性質, 制御不能なバージョニング, 禁止費用などにより信頼性が低い。 本稿では,適切な参照材料(参照応答,スコアルーリック)を添付した場合に,GPT-4の評価能力に匹敵する完全オープンソースLPMであるPrometheusを提案する。 まず、GPT-4で生成された1Kの微粒なスコアルーブリック、20Kの命令、100Kの応答と言語フィードバックからなる新しいデータセットであるFeedback Collectionを構築した。 フィードバックコレクションを使用することで、ユーザがカスタマイズしたスコアルーブリックに基づいて、任意の長文を評価可能な13B評価用LLMであるPrometheusをトレーニングする。 実験結果から, GPT-4(0.882), ChatGPT(0.392)に匹敵する45種類の楽譜を用いた評価において, Prometheus は Pearson と人間評価器との相関を0.897 と評価した。 さらに、4つのベンチマーク(MT Bench, Vicuna Bench, Feedback Bench, Flask Eval)にまたがる1222個のスコアルーブリックを用いたGPT-4の相関測定も同様の傾向を示し、PrometheusのLCMとしての能力を高めている。 最後に、Prometheusは、人間の嗜好データセットで明示的に訓練されたオープンソース報酬モデルと比較して、2つの人選好ベンチマーク(HHH AlignmentとMT Bench Human Judgment)で最高精度を達成し、普遍的な報奨モデルとしての可能性を強調している。 コード、データセット、モデルをhttps://github.com/kaistAI/Prometheus.comでオープンソース化しました。

Recently, using a powerful proprietary Large Language Model (LLM) (e.g., GPT-4) as an evaluator for long-form responses has become the de facto standard. However, for practitioners with large-scale evaluation tasks and custom criteria in consideration (e.g., child-readability), using proprietary LLMs as an evaluator is unreliable due to the closed-source nature, uncontrolled versioning, and prohibitive costs. In this work, we propose Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation capabilities when the appropriate reference materials (reference answer, score rubric) are accompanied. We first construct the Feedback Collection, a new dataset that consists of 1K fine-grained score rubrics, 20K instructions, and 100K responses and language feedback generated by GPT-4. Using the Feedback Collection, we train Prometheus, a 13B evaluator LLM that can assess any given long-form text based on customized score rubric provided by the user. Experimental results show that Prometheus scores a Pearson correlation of 0.897 with human evaluators when evaluating with 45 customized score rubrics, which is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392). Furthermore, measuring correlation with GPT-4 with 1222 customized score rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) shows similar trends, bolstering Prometheus's capability as an evaluator LLM. Lastly, Prometheus achieves the highest accuracy on two human preference benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced reward models explicitly trained on human preference datasets, highlighting its potential as an universal reward model. We open-source our code, dataset, and model at https://github.com/kaistAI/Prometheus.
翻訳日:2023-10-14 08:45:41 公開日:2023-10-12
# GraphextQA: グラフ強化された大規模言語モデルを評価するベンチマーク

GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language Models ( http://arxiv.org/abs/2310.08487v1 )

ライセンス: Link先を確認
Yuanchun Shen, Ruotong Liao, Zhen Han, Yunpu Ma, Volker Tresp(参考訳) マルチモーダルモデルは、画像、ビデオ、オーディオのモダリティからの情報の統合に成功しているが、グラフのモダリティを大きな言語モデル(LLM)に組み込むことは未定である。 この相違は、構造化グラフデータと非構造化テキストデータとの本質的にの相違に起因する。 グラフ知識の導入は信頼できる情報ソースを提供し、幻覚やドメイン知識の欠如といったテキスト生成の問題に対処する潜在的なソリューションを可能にする。 言語モデルへのグラフ知識の統合を評価するには、専用のデータセットが必要である。 しかし、現在マルチモーダルグラフ言語モデル用に設計されたベンチマークデータセットは存在しない。 このギャップに対処するために、Wikidataから取得したグラフ言語モデルの評価と今後の開発を容易にするために、ペア付きサブグラフを用いた質問応答データセットであるGraphextQAを提案する。 さらに,クロスグンと呼ばれるベースラインモデルを導入し,ペアグラフ上での応答生成をデコード時の横断的質問認識グラフ機能によって条件づけする。 提案したデータセットは,グラフの理解能力を評価し,回答生成に利用するように設計されている。 ペアグラフの有用性を検証し,課題の難易度を示すために,言語限定モデルと提案グラフ言語モデルを用いて実験を行った。

While multi-modal models have successfully integrated information from image, video, and audio modalities, integrating graph modality into large language models (LLMs) remains unexplored. This discrepancy largely stems from the inherent divergence between structured graph data and unstructured text data. Incorporating graph knowledge provides a reliable source of information, enabling potential solutions to address issues in text generation, e.g., hallucination, and lack of domain knowledge. To evaluate the integration of graph knowledge into language models, a dedicated dataset is needed. However, there is currently no benchmark dataset specifically designed for multimodal graph-language models. To address this gap, we propose GraphextQA, a question answering dataset with paired subgraphs, retrieved from Wikidata, to facilitate the evaluation and future development of graph-language models. Additionally, we introduce a baseline model called CrossGNN, which conditions answer generation on the paired graphs by cross-attending question-aware graph features at decoding. The proposed dataset is designed to evaluate graph-language models' ability to understand graphs and make use of it for answer generation. We perform experiments with language-only models and the proposed graph-language model to validate the usefulness of the paired graphs and to demonstrate the difficulty of the task.
翻訳日:2023-10-14 08:44:57 公開日:2023-10-12
# オンライン誤報の背後にある人間を理解する:COVID-19パンデミックのレンズを通しての観察的研究

Understanding the Humans Behind Online Misinformation: An Observational Study Through the Lens of the COVID-19 Pandemic ( http://arxiv.org/abs/2310.08483v1 )

ライセンス: Link先を確認
Mohit Chandra, Anush Mattapalli, Munmun De Choudhury(参考訳) オンライン誤報の拡散は、社会にとって最大の脅威の1つとなっている。 誤情報検出モデルの構築にかなりの努力が払われているが、誤情報の周辺は依然として多岐にわたる。 オンラインの誤情報とその影響を緩和するには、複雑な問題やトピックに富んだ情報エコシステムに関する複雑な景観の理解だけでなく、その背景にある個人の心理的要因も包含する必要がある。 時系列分析手法とロバストな因果推論に基づく設計を用いて,3200万以上のcovid-19ツイートと1600万の履歴タイムラインツイートを分析した大規模観察研究を行った。 我々は、新型コロナウイルス(covid-19)に誤情報を流布するユーザの行動と心理学を理解すること、および、パンデミック以前の非共有トピックにおける誤情報の共有に関する歴史的傾斜との関係に焦点をあてている。 本研究は,利用者の誤情報の共有に対する歴史的傾向が,緊急時等における誤情報の共有に関する現在の行動と肯定的に関連していることを強調する。 この作業は、ユーザー中心の接種戦略と、オンラインの誤った情報に効果的に取り組むための生態学的根拠に基づくアジャイル介入を設計するための貴重な基盤となるかもしれない。

The proliferation of online misinformation has emerged as one of the biggest threats to society. Considerable efforts have focused on building misinformation detection models, still the perils of misinformation remain abound. Mitigating online misinformation and its ramifications requires a holistic approach that encompasses not only an understanding of its intricate landscape in relation to the complex issue and topic-rich information ecosystem online, but also the psychological drivers of individuals behind it. Adopting a time series analytic technique and robust causal inference-based design, we conduct a large-scale observational study analyzing over 32 million COVID-19 tweets and 16 million historical timeline tweets. We focus on understanding the behavior and psychology of users disseminating misinformation during COVID-19 and its relationship with the historical inclinations towards sharing misinformation on Non-COVID topics before the pandemic. Our analysis underscores the intricacies inherent to cross-topic misinformation, and highlights that users' historical inclination toward sharing misinformation is positively associated with their present behavior pertaining to misinformation sharing on emergent topics and beyond. This work may serve as a valuable foundation for designing user-centric inoculation strategies and ecologically-grounded agile interventions for effectively tackling online misinformation.
翻訳日:2023-10-14 08:44:33 公開日:2023-10-12
# マルチモーダル大言語モデルの編集は可能か?

Can We Edit Multimodal Large Language Models? ( http://arxiv.org/abs/2310.08475v1 )

ライセンス: Link先を確認
Siyuan Cheng, Bozhong Tian, Qingbin Liu, Xi Chen, Yongheng Wang, Huajun Chen, Ningyu Zhang(参考訳) 本稿では,MLLM(Multimodal Large Language Models)の編集に焦点をあてる。 単一モードLLMの編集に比べ、マルチモーダルモデル編集はより困難であり、編集プロセスにおいてより高度な精査と慎重な考慮が必要である。 そこで本研究では,マルチモーダル LLM の編集と評価のための革新的な指標のスイートを構築するため,MMEdit という新しいベンチマークを構築した。 各種モデル編集ベースラインの包括的実験を行い、多モードLLMにおける様々なコンポーネントの編集の影響を分析した。 経験的に、以前のベースラインはある程度はマルチモーダル LLM の編集を実装できるが、その効果はいまだに十分であり、この課題の潜在的な難しさを示している。 私たちは nlp コミュニティに insights\footnote{code と dataset をhttps://github.com/zjunlp/easyedit で提供できることを願っています。

In this paper, we focus on editing Multimodal Large Language Models (MLLMs). Compared to editing single-modal LLMs, multimodal model editing is more challenging, which demands a higher level of scrutiny and careful consideration in the editing process. To facilitate research in this area, we construct a new benchmark, dubbed MMEdit, for editing multimodal LLMs and establishing a suite of innovative metrics for evaluation. We conduct comprehensive experiments involving various model editing baselines and analyze the impact of editing different components for multimodal LLMs. Empirically, we notice that previous baselines can implement editing multimodal LLMs to some extent, but the effect is still barely satisfactory, indicating the potential difficulty of this task. We hope that our work can provide the NLP community with insights\footnote{Code and dataset are available in https://github.com/zjunlp/EasyEdit.
翻訳日:2023-10-14 08:44:06 公開日:2023-10-12
# CNN画像分類における学習曲線推定の戦略と効果

Strategies and impact of learning curve estimation for CNN-based image classification ( http://arxiv.org/abs/2310.08470v1 )

ライセンス: Link先を確認
Laura Didyk, Brayden Yarish, Michael A. Beck, Christopher P. Bidinosti, Christopher J. Henry(参考訳) 学習曲線は、一定の量のトレーニングデータによって機械学習モデルのパフォーマンスが向上する尺度である。 様々な応用やモデルにおいて、学習曲線は ― 大部分が ― 権力法的な行動に従うことが観察された。 これにより、与えられたタスクのさまざまなモデルのパフォーマンスが多少予測可能になり、問題の可能なモデルとハイパーパラメータの空間を探索する実践者のためのトレーニング時間を短縮する機会が開かれる。 モデルの学習曲線を、データの小さなサブセットのトレーニングから推定することで、データセット全体のトレーニングに最適なモデルのみを考慮する必要がある。 しかし、サブセットサイズを選択する方法や、これらのモデルを使って見積もりを得る頻度は研究されていない。 目標は、パフォーマンスを時間効率のよい方法でサンプリングし、正確な学習曲線推定に導く、全体的なトレーニング時間戦略を減らすことである。 本稿では,これらの戦略の枠組みを定式化し,いくつかの戦略を提案する。 さらに,学習曲線のシミュレーションと,画像分類タスクのための一般的なデータセットやモデルを用いた実験の戦略を評価する。

Learning curves are a measure for how the performance of machine learning models improves given a certain volume of training data. Over a wide variety of applications and models it was observed that learning curves follow -- to a large extent -- a power law behavior. This makes the performance of different models for a given task somewhat predictable and opens the opportunity to reduce the training time for practitioners, who are exploring the space of possible models and hyperparameters for the problem at hand. By estimating the learning curve of a model from training on small subsets of data only the best models need to be considered for training on the full dataset. How to choose subset sizes and how often to sample models on these to obtain estimates is however not researched. Given that the goal is to reduce overall training time strategies are needed that sample the performance in a time-efficient way and yet leads to accurate learning curve estimates. In this paper we formulate the framework for these strategies and propose several strategies. Further we evaluate the strategies for simulated learning curves and in experiments with popular datasets and models for image classification tasks.
翻訳日:2023-10-14 08:43:52 公開日:2023-10-12
# 雑音量子ハードウェア用浅部深度動的アンサッツの認知的構築を支援する機械学習

Machine Learning Assisted Cognitive Construction of a Shallow Depth Dynamic Ansatz for Noisy Quantum Hardware ( http://arxiv.org/abs/2310.08468v1 )

ライセンス: Link先を確認
Sonaldeep Halder, Anish Dey, Chinmay Shrikhande, Rahul Maitra(参考訳) 様々な動的アンザッツ構築技術の開発が新しい時代に始まり、分子シミュレーションのためのノイズ中間量子(NISQ)ハードウェアの実用化がますます活発になっている。 しかし、実行中にかなりの測定コストがかかる。 この研究は、再生型機械学習方法論と多体摂動論的手法を活かし、変分量子固有ソルバ(vqe)フレームワーク内で高度に表現力が高く浅いアンサッツを構築するための新しいプロトコルの開発を含む。 機械学習手法は、N電子ヒルベルト空間の低ランク展開の基底ベクトルを用いて訓練され、多くの量子測定を必要とせず、支配的な高ランク励起行列式を同定する。 これらの選択された励起行列式は、アンサッツの低位分解によって反復的に組み込まれている。 量子測定数とアンサッツ深さの低減は,数値計算で示すように,ハードウェアノイズに対するロバスト性を示す。 さらに,提案手法は最先端のニューラルエラー軽減技術と高い互換性を有する。 このアプローチは分子系における量子シミュレーションの実現可能性を大幅に向上させ、量子計算化学における衝撃的な進歩の道を開く。

The development of various dynamic ansatz-constructing techniques has ushered in a new era, rendering the practical exploitation of Noisy Intermediate-Scale Quantum (NISQ) hardware for molecular simulations increasingly viable. However, they exhibit substantial measurement costs during their execution. This work involves the development of a novel protocol that capitalizes on regenerative machine learning methodologies and many-body perturbation theoretic measures to construct a highly expressive and shallow ansatz within the variational quantum eigensolver (VQE) framework. The machine learning methodology is trained with the basis vectors of a low-rank expansion of the N-electron Hilbert space to identify the dominant high-rank excited determinants without requiring a large number of quantum measurements. These selected excited determinants are iteratively incorporated within the ansatz through their low-rank decomposition. The reduction in the number of quantum measurements and ansatz depth manifests in the robustness of our method towards hardware noise, as demonstrated through numerical applications. Furthermore, the proposed method is highly compatible with state-of-the-art neural error mitigation techniques. This approach significantly enhances the feasibility of quantum simulations in molecular systems, paving the way for impactful advancements in quantum computational chemistry.
翻訳日:2023-10-14 08:43:34 公開日:2023-10-12
# MotionDirector:テキスト・ビデオ拡散モデルのモーションカスタマイズ

MotionDirector: Motion Customization of Text-to-Video Diffusion Models ( http://arxiv.org/abs/2310.08465v1 )

ライセンス: Link先を確認
Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou(参考訳) 大規模な事前学習拡散モデルでは、様々なビデオ世代で顕著な能力を発揮している。 同じモーションコンセプトのビデオクリップのセットが与えられた場合、モーションカスタマイズのタスクは、既存のテキスト間拡散モデルを適用して、このモーションでビデオを生成することである。 例えば、特定のカメラの動きの下で車が所定の動きで動画を生成して映画を作る場合や、クマが重りを持ち上げてクリエイターを刺激する様子を映すようなビデオなどだ。 主題やスタイルのような外観をカスタマイズする手法が開発されているが、動作については未検討である。 フルモデルチューニング、追加レイヤのパラメータ効率チューニング、Low-Rank Adaptions (LoRA)など、モーションカスタマイズのメインストリーム適応手法を拡張することは容易である。 しかし、これらの方法によって学習されたモーションコンセプトは、トレーニングビデオの限られた外観としばしば結合されるため、カスタマイズされたモーションを他の外観に一般化することは困難である。 この課題を克服するために,デュアルパスLoRAsアーキテクチャを用いたMotionDirectorを提案し,外見と動きの学習を分離する。 さらに,外見が時間的訓練目標に与える影響を軽減するために,新しい時間的損失を設計する。 実験結果から,提案手法は多様な動きを再現した映像を生成できることがわかった。 また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。 コードとモデルの重み付けがリリースされます。

Large-scale pre-trained diffusion models have exhibited remarkable capabilities in diverse video generations. Given a set of video clips of the same motion concept, the task of Motion Customization is to adapt existing text-to-video diffusion models to generate videos with this motion. For example, generating a video with a car moving in a prescribed manner under specific camera movements to make a movie, or a video illustrating how a bear would lift weights to inspire creators. Adaptation methods have been developed for customizing appearance like subject or style, yet unexplored for motion. It is straightforward to extend mainstream adaption methods for motion customization, including full model tuning, parameter-efficient tuning of additional layers, and Low-Rank Adaptions (LoRAs). However, the motion concept learned by these methods is often coupled with the limited appearances in the training videos, making it difficult to generalize the customized motion to other appearances. To overcome this challenge, we propose MotionDirector, with a dual-path LoRAs architecture to decouple the learning of appearance and motion. Further, we design a novel appearance-debiased temporal loss to mitigate the influence of appearance on the temporal training objective. Experimental results show the proposed method can generate videos of diverse appearances for the customized motions. Our method also supports various downstream applications, such as the mixing of different videos with their appearance and motion respectively, and animating a single image with customized motions. Our code and model weights will be released.
翻訳日:2023-10-14 08:43:14 公開日:2023-10-12
# DistillSpec:知識蒸留による投機的デコードの改善

DistillSpec: Improving Speculative Decoding via Knowledge Distillation ( http://arxiv.org/abs/2310.08461v1 )

ライセンス: Link先を確認
Yongchao Zhou, Kaifeng Lyu, Ankit Singh Rawat, Aditya Krishna Menon, Afshin Rostamizadeh, Sanjiv Kumar, Jean-Fran\c{c}ois Kagy, Rishabh Agarwal(参考訳) 投機的復号(SD)は、複数のトークンを生成するために高速なドラフトモデルを用いることで、より大きなターゲットモデルによって並列に検証され、ターゲットモデル分布に従って生成されたテキストによって、大きな言語モデル推論を加速する。 しかし、ターゲットモデルによく適合したコンパクトなドラフトモデルを特定することは困難である。 この問題に対処するために,SD を適用する前に,知識蒸留を用いてドラフトモデルとターゲットモデルとの整合性を向上する DistillSpec を提案する。 distillspecは、ドラフトとターゲットのアライメントを改善するために、体系的な研究を通じて重要な2つの設計選択をする: ドラフトモデルからのオンポリシーデータ生成の活用と、タスクとデコード戦略へのダイバージェンス関数の調整である。 特筆すべきは、distillspecは標準sdよりも10~45%の速さで、グリーディサンプリングと非グリーディサンプリングの両方を使って、標準sdよりも速い。 さらに、DistillSpecと損失の少ないSDを組み合わせることで、タスクパフォーマンスのトレードオフに対するレイテンシのきめ細かい制御を実現します。 最後に、さまざまなサイズのモデルを持つ実用的なシナリオでは、まず蒸留を使用してターゲットモデルのパフォーマンスを向上し、次に、十分に整列したドラフトモデルのトレーニングにdistillspecを適用することで、蒸留なしの標準的なデコードと比較して、最小のパフォーマンス低下でデコードレイテンシを6~10倍削減できる。

Speculative decoding (SD) accelerates large language model inference by employing a faster draft model for generating multiple tokens, which are then verified in parallel by the larger target model, resulting in the text generated according to the target model distribution. However, identifying a compact draft model that is well-aligned with the target model is challenging. To tackle this issue, we propose DistillSpec that uses knowledge distillation to better align the draft model with the target model, before applying SD. DistillSpec makes two key design choices, which we demonstrate via systematic study to be crucial to improving the draft and target alignment: utilizing on-policy data generation from the draft model, and tailoring the divergence function to the task and decoding strategy. Notably, DistillSpec yields impressive 10 - 45% speedups over standard SD on a range of standard benchmarks, using both greedy and non-greedy sampling. Furthermore, we combine DistillSpec with lossy SD to achieve fine-grained control over the latency vs. task performance trade-off. Finally, in practical scenarios with models of varying sizes, first using distillation to boost the performance of the target model and then applying DistillSpec to train a well-aligned draft model can reduce decoding latency by 6-10x with minimal performance drop, compared to standard decoding without distillation.
翻訳日:2023-10-14 08:42:36 公開日:2023-10-12
# ビジュアル説明のためのXAIベンチマーク

XAI Benchmark for Visual Explanation ( http://arxiv.org/abs/2310.08537v1 )

ライセンス: Link先を確認
Yifei Zhang, Siyi Gu, James Song, Bo Pan, Liang Zhao(参考訳) ディープラーニングアルゴリズムの台頭はコンピュータビジョンタスクの大幅な進歩につながったが、その「ブラックボックス」の性質は解釈可能性に関する懸念を引き起こしている。 説明可能なAI(XAI)は、この"ブラックボックス"を開くことを目的とした研究の重要領域として現れ、AIモデルの意思決定プロセスに光を当てている。 ビジュアル説明は、説明可能な人工知能(XAI)のサブセットとして、入力画像内の影響力のある領域を強調することで、視覚データを扱うAIモデルの意思決定プロセスに関する直感的な洞察を提供する。 視覚的な説明に関する広範な研究にもかかわらず、ほとんどの評価は、画像データの文脈で対応する実世界のデータセットが利用可能であるため、モデル中心である。 このギャップを埋めるために、クラスラベルとそれに対応する画像説明アノテーションの両方を提供する多様なトピックからデータセットを収集するXAIベンチマークを導入する。 さまざまなドメインのデータを処理して、統一的なビジュアル説明フレームワークに適合させました。 データ読み込み、事前処理、実験的なセットアップ、モデル評価プロセスを統合した総合的なVisual Explanationパイプラインを導入する。 この構造により、研究者は様々な視覚的説明技法の公正な比較を行うことができる。 また,データセット収集を効果的に活用するために,視覚説明のための10以上の評価方法を総合的に検討した。 既存の視覚的説明法の性能を更に評価するために,様々なモデル中心および基底真理中心の評価指標を用いて,選択したデータセット上で実験を行う。 このベンチマークが視覚的な説明モデルの進歩を促進することを期待している。 XAIデータセットの収集と評価のための使いやすいコードはhttps://xaidataset.github.ioで公開されている。

The rise of deep learning algorithms has led to significant advancements in computer vision tasks, but their "black box" nature has raised concerns regarding interpretability. Explainable AI (XAI) has emerged as a critical area of research aiming to open this "black box", and shed light on the decision-making process of AI models. Visual explanations, as a subset of Explainable Artificial Intelligence (XAI), provide intuitive insights into the decision-making processes of AI models handling visual data by highlighting influential areas in an input image. Despite extensive research conducted on visual explanations, most evaluations are model-centered since the availability of corresponding real-world datasets with ground truth explanations is scarce in the context of image data. To bridge this gap, we introduce an XAI Benchmark comprising a dataset collection from diverse topics that provide both class labels and corresponding explanation annotations for images. We have processed data from diverse domains to align with our unified visual explanation framework. We introduce a comprehensive Visual Explanation pipeline, which integrates data loading, preprocessing, experimental setup, and model evaluation processes. This structure enables researchers to conduct fair comparisons of various visual explanation techniques. In addition, we provide a comprehensive review of over 10 evaluation methods for visual explanation to assist researchers in effectively utilizing our dataset collection. To further assess the performance of existing visual explanation methods, we conduct experiments on selected datasets using various model-centered and ground truth-centered evaluation metrics. We envision this benchmark could facilitate the advancement of visual explanation models. The XAI dataset collection and easy-to-use code for evaluation are publicly accessible at https://xaidataset.github.io.
翻訳日:2023-10-14 08:36:23 公開日:2023-10-12
# LLM系剤の高レベル挙動の形式的特定

Formally Specifying the High-Level Behavior of LLM-Based Agents ( http://arxiv.org/abs/2310.08535v1 )

ライセンス: Link先を確認
Maxwell Crouse, Ibrahim Abdelaziz, Kinjal Basu, Soham Dan, Sadhana Kumaravel, Achille Fokoue, Pavan Kapanipathi, Luis Lastras(参考訳) LLMベースのエージェントは、調達にコストがかかるタスク固有の微調整モデルを必要としない、課題解決のための有望なツールとして最近登場した。 現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。 本研究では,エージェント構築のプロセスを簡単にする最小限の高レベル生成フレームワークを提案することにより,新しいエージェントの設計と実装の難しさを軽減することを目的とする。 ここで紹介するフレームワークは,LTL(Linear Temporal Logic)で希望するエージェントの動作を指定することができる。 宣言型LTL仕様は、LLMが所望の振る舞いを示す出力を生成することを保証する制約付きデコーダを構築するために使用される。 この方法でフレームワークを設計することで、複雑なエージェントの動作を強制する機能、プロンプト例を正式に検証する機能、コンテンツ中心の論理的制約をシームレスに生成に組み込む機能など、いくつかのメリットが得られる。 特に、望ましい振る舞いを実装や実施の方法を気にせずに記述する宣言的アプローチは、異なるllmベースのエージェントによる迅速な設計、実装、実験を可能にします。 提案したフレームワークが最近のLCMベースのエージェントの実装にどのように使用できるかを示し、我々のアプローチが提供するガードレールがエージェントのパフォーマンス改善につながることを示す。 さらに、コードを一般向けにリリースしています。

LLM-based agents have recently emerged as promising tools for solving challenging problems without the need for task-specific finetuned models that can be expensive to procure. Currently, the design and implementation of such agents is ad hoc, as the wide variety of tasks that LLM-based agents may be applied to naturally means there can be no one-size-fits-all approach to agent design. In this work we aim to alleviate the difficulty of designing and implementing new agents by proposing a minimalistic, high-level generation framework that simplifies the process of building agents. The framework we introduce allows the user to specify desired agent behaviors in Linear Temporal Logic (LTL). The declarative LTL specification is then used to construct a constrained decoder that guarantees the LLM will produce an output exhibiting the desired behavior. By designing our framework in this way, we obtain several benefits, including the ability to enforce complex agent behavior, the ability to formally validate prompt examples, and the ability to seamlessly incorporate content-focused logical constraints into generation. In particular, our declarative approach, in which the desired behavior is simply described without concern for how it should be implemented or enforced, enables rapid design, implementation and experimentation with different LLM-based agents. We demonstrate how the proposed framework can be used to implement recent LLM-based agents, and show how the guardrails our approach provides can lead to improvements in agent performance. In addition, we release our code for general use.
翻訳日:2023-10-14 08:35:58 公開日:2023-10-12
# 公衆衛生における機械学習のための医療データセット作成プラットフォーム

Platform for generating medical datasets for machine learning in public health ( http://arxiv.org/abs/2310.08532v1 )

ライセンス: Link先を確認
Anna Andreychenko, Viktoriia Korzhuk, Stanislav Kondratenko, Polina Cheraneva(参考訳) 現在、医療データと関連する人口データソースの相互運用には多くの困難がある。 これらの複雑さは、都市、地域、国家レベルでの高品質なデータセットの生成の邪魔になる。 さらに、大規模な医療センター内のデータセットの収集は、it部門によって実現可能だが、複数の組織から生の医療データの収集は、より複雑なプロセスである。 このような状況において、最も適切な選択肢は、マイクロサービスアーキテクチャに基づいたディジタル製品を開発することだ。 このアプローチにより、相互接続された要素が全体として振る舞うとき、システムのマルチモーダル性、インターフェースの柔軟性、内部システムアプローチが保証され、独立して働くときの挙動とは異なる振る舞いを示すことができる。 これらの条件により、結果として得られるデータセットの最大数と代表性が保証される。 本稿では,マルチモーダル医療データの品質と信頼性を持続的に生成するプラットフォームの概念を実証する。 異なる外部ソースからデータを収集し、特別なサービスを使って調和させ、調和したデータを匿名化し、処理されたデータをラベル付けする。 提案システムは,機械学習のための医療データ品質向上のための,有望なソリューションである。

Currently, there are many difficulties regarding the interoperability of medical data and related population data sources. These complications get in the way of the generation of high-quality data sets at city, region and national levels. Moreover, the collection of datasets within large medical centers is feasible due to own IT departments whereas the collection of raw medical data from multiple organizations is a more complicated process. In these circumstances, the most appropriate option is to develop digital products based on microservice architecture. Because of this approach, it is possible to ensure the multimodality of the system, the flexibility of the interface and the internal system approach, when interconnected elements behave as a whole, demonstrating behavior different from the behavior when working independently. These conditions allow, in turn, to ensure the maximum number and representativeness of the resulting data sets. This paper demonstrates a concept of the platform for a sustainable generation of quality and reliable sets of multimodal medical data. It collects data from different external sources, harmonizes it using a special service, anonymizes harmonized data, and labels processed data. The proposed system aims to be a promising solution to the improvement of medical data quality for machine learning.
翻訳日:2023-10-14 08:35:33 公開日:2023-10-12
# UniPose: キーポイントの検出

UniPose: Detecting Any Keypoints ( http://arxiv.org/abs/2310.08530v1 )

ライセンス: Link先を確認
Jie Yang, Ailing Zeng, Ruimao Zhang, Lei Zhang(参考訳) この研究は、視覚理解と操作のための視覚的またはテキスト的プロンプトを通じて、任意の節点(例えば人間と動物)、剛体、ソフトオブジェクトのキーポイントを検出するためのuniposeと呼ばれる統一フレームワークを提案している。 keypointは、構造認識、ピクセルレベル、および任意のオブジェクト、特にarticulated objectのコンパクトな表現である。 既存のきめ細かいプロンプト可能なタスクは、主にオブジェクトのインスタンスの検出とセグメンテーションにフォーカスするが、目、足、足、足など、画像とインスタンスの詳細な粒度と構造化された情報を識別できないことが多い。 一方、プロンプトベースのキーポイント検出はまだ未探索である。 このギャップを埋めるために、UniPoseと呼ばれるエンドツーエンドのプロンプトベースのキーポイント検出フレームワークを開発し、任意のオブジェクトのキーポイントを検出する。 このフレームワークでキーポイント検出タスクが統一されると、汎用的なキーポイント検出モデルをトレーニングするために、1,237のカテゴリにまたがる338のキーポイントを含む13のキーポイント検出データセットを活用できる。 uniposeは、クロスモダリティコントラスト学習最適化目標に基づくテキストプロンプトとビジュアルプロンプトの相互強化により、テキスト対キーポイントと画像対キーポイントを効果的に調整することができる。 実験結果から,UniPoseは画像スタイル,カテゴリ,ポーズにまたがって,より微細な局所化と一般化能力を有することが示された。 汎用的なキーポイント検出器としてUniPoseをベースとして、きめ細かい視覚認識、理解、生成に役立てることを願っている。

This work proposes a unified framework called UniPose to detect keypoints of any articulated (e.g., human and animal), rigid, and soft objects via visual or textual prompts for fine-grained vision understanding and manipulation. Keypoint is a structure-aware, pixel-level, and compact representation of any object, especially articulated objects. Existing fine-grained promptable tasks mainly focus on object instance detection and segmentation but often fail to identify fine-grained granularity and structured information of image and instance, such as eyes, leg, paw, etc. Meanwhile, prompt-based keypoint detection is still under-explored. To bridge the gap, we make the first attempt to develop an end-to-end prompt-based keypoint detection framework called UniPose to detect keypoints of any objects. As keypoint detection tasks are unified in this framework, we can leverage 13 keypoint detection datasets with 338 keypoints across 1,237 categories over 400K instances to train a generic keypoint detection model. UniPose can effectively align text-to-keypoint and image-to-keypoint due to the mutual enhancement of textual and visual prompts based on the cross-modality contrastive learning optimization objectives. Our experimental results show that UniPose has strong fine-grained localization and generalization abilities across image styles, categories, and poses. Based on UniPose as a generalist keypoint detector, we hope it could serve fine-grained visual perception, understanding, and generation.
翻訳日:2023-10-14 08:35:14 公開日:2023-10-12
# 自然言語によるLLM強化推論学習

LLM-augmented Preference Learning from Natural Language ( http://arxiv.org/abs/2310.08523v1 )

ライセンス: Link先を確認
Inwon Kang, Sikai Ruan, Tyler Ho, Jui-Chien Lin, Farhad Mohsin, Oshani Seneviratne, Lirong Xia(参考訳) 自然言語で表現される好みを見つけることは重要であるが、難しい課題である。 State-of-the-art(SotA)メソッドはBERT、RoBERTaなどのトランスフォーマーモデルとグラフアテンションネットワークのようなグラフニューラルアーキテクチャを利用する。 大規模言語モデル (llms) は, 文脈長の増大に対応し, モデルサイズがトランスフォーマーモデルよりもはるかに大きいため, 比較テキストを直接分類する能力について検討する。 この作業は、CPCタスクにLLMを使用するための第一歩として機能することを目的としている。 我々は、分類タスクをLSMの入力プロンプトにフォーマットする一連の実験を設計し、実行し、自動評価可能な定型応答を得るための方法論を設計する。 既存の手法と比較すると、事前学習されたLLMは、微調整を伴わずに以前のSotAモデルより優れていることが分かる。 以上の結果から,LLMは複数文からなるテキストが大きければ SotA を一貫して上回り,短いテキストでは SotA に匹敵する性能を示した。 また、ゼロショット学習よりも少ないショット学習の方が優れたパフォーマンスが得られることもわかりました。

Finding preferences expressed in natural language is an important but challenging task. State-of-the-art(SotA) methods leverage transformer-based models such as BERT, RoBERTa, etc. and graph neural architectures such as graph attention networks. Since Large Language Models (LLMs) are equipped to deal with larger context lengths and have much larger model sizes than the transformer-based model, we investigate their ability to classify comparative text directly. This work aims to serve as a first step towards using LLMs for the CPC task. We design and conduct a set of experiments that format the classification task into an input prompt for the LLM and a methodology to get a fixed-format response that can be automatically evaluated. Comparing performances with existing methods, we see that pre-trained LLMs are able to outperform the previous SotA models with no fine-tuning involved. Our results show that the LLMs can consistently outperform the SotA when the target text is large -- i.e. composed of multiple sentences --, and are still comparable to the SotA performance in shorter text. We also find that few-shot learning yields better performance than zero-shot learning.
翻訳日:2023-10-14 08:34:46 公開日:2023-10-12
# ニューラル回路における接続構造がリッチで遅延学習をどのように形成するか

How connectivity structure shapes rich and lazy learning in neural circuits ( http://arxiv.org/abs/2310.08513v1 )

ライセンス: Link先を確認
Yuhan Helena Liu, Aristide Baratin, Jonathan Cornford, Stefan Mihalas, Eric Shea-Brown, and Guillaume Lajoie(参考訳) 理論神経科学において、最近の研究は深層学習ツールを利用して、いくつかのネットワーク属性が学習ダイナミクスにどのように影響するかを探求している。 特に、小さな(大きな)分散を持つ初期重量分布は、学習の過程でネットワーク状態や表現に顕著な(小さな)変化が観測されるリッチな(遅延的な)レジームをもたらす可能性がある。 しかし、生物学では、神経回路の接続は一般に低ランク構造であるため、これらの研究で一般的に使われるランダム初期化とは著しく異なる。 そこで本研究では,初期重みの構造,特にその有効ランクがネットワーク学習体制に与える影響について検討する。 実験的および理論的分析から,高ランク初期化はラジエ学習の指標となるネットワーク変化を小さくすることが明らかとなった。 逆に、低位の初期化はよりリッチな学習への学習に偏る。 しかし、このルールの例外として、遅延学習はタスクやデータ統計と整合した低ランクな初期化によっても発生しうる。 本研究は, 可塑性の代謝コスト, 破滅的忘れ込みのリスクなど, 学習体制形成における初期重み構造の役割を強調した。

In theoretical neuroscience, recent work leverages deep learning tools to explore how some network attributes critically influence its learning dynamics. Notably, initial weight distributions with small (resp. large) variance may yield a rich (resp. lazy) regime, where significant (resp. minor) changes to network states and representation are observed over the course of learning. However, in biology, neural circuit connectivity generally has a low-rank structure and therefore differs markedly from the random initializations generally used for these studies. As such, here we investigate how the structure of the initial weights, in particular their effective rank, influences the network learning regime. Through both empirical and theoretical analyses, we discover that high-rank initializations typically yield smaller network changes indicative of lazier learning, a finding we also confirm with experimentally-driven initial connectivity in recurrent neural networks. Conversely, low-rank initialization biases learning towards richer learning. Importantly, however, as an exception to this rule, we find lazier learning can still occur with a low-rank initialization that aligns with task and data statistics. Our research highlights the pivotal role of initial weight structures in shaping learning regimes, with implications for metabolic costs of plasticity and risks of catastrophic forgetting.
翻訳日:2023-10-14 08:34:26 公開日:2023-10-12
# HoneyBee: 材料科学のための大規模言語モデルのプログレッシブなインストラクションファインタニング

HoneyBee: Progressive Instruction Finetuning of Large Language Models for Materials Science ( http://arxiv.org/abs/2310.08511v1 )

ライセンス: Link先を確認
Yu Song, Santiago Miret, Huan Zhang, Bang Liu(参考訳) 本研究では,材料科学(MatSci-Instruct)における信頼に値するデータキュレーションのための命令ベースプロセスを提案する。 MatSci-Instructは、オープン文学で利用可能な、関連性のある高品質の材料科学テキストデータの不足を軽減するのに役立ち、HoneyBeeは、材料科学に特化した最初の10億パラメータ言語モデルである。 matsci-instructでは、インストラクターモジュール(chat-gptなど)で複数の商用言語モデルを作成し、独立した検証モジュール(claudeなど)から検証することで、生成データの信頼性を向上させる。 MatSci-Instructを用いて、複数のタスクのデータセットを構築し、既知の事実に対する精度、材料科学との関係、データの完全性、合理的性など、複数の次元に沿ってデータセットの品質を測定する。 さらに,よりターゲットとした命令と命令データを反復的に生成することで,ミツバチモデルの性能を段階的に向上させる。 MatSci-NLPベンチマークによる評価は,HoneyBeeの教材科学における既存言語モデルの性能向上と,命令データの改良の継続段階における反復的改善を示す。 我々は,ミツバチの言語モデルの品質を自動評価し,ケーススタディを分析し,モデルの能力と限界をさらに理解する。 私たちのコードと関連するデータセットは、 \url{https://github.com/BangLab-UdeM-Mila/NLP4MatSci-HoneyBee}で公開されています。

We propose an instruction-based process for trustworthy data curation in materials science (MatSci-Instruct), which we then apply to finetune a LLaMa-based language model targeted for materials science (HoneyBee). MatSci-Instruct helps alleviate the scarcity of relevant, high-quality materials science textual data available in the open literature, and HoneyBee is the first billion-parameter language model specialized to materials science. In MatSci-Instruct we improve the trustworthiness of generated data by prompting multiple commercially available large language models for generation with an Instructor module (e.g. Chat-GPT) and verification from an independent Verifier module (e.g. Claude). Using MatSci-Instruct, we construct a dataset of multiple tasks and measure the quality of our dataset along multiple dimensions, including accuracy against known facts, relevance to materials science, as well as completeness and reasonableness of the data. Moreover, we iteratively generate more targeted instructions and instruction-data in a finetuning-evaluation-feedback loop leading to progressively better performance for our finetuned HoneyBee models. Our evaluation on the MatSci-NLP benchmark shows HoneyBee's outperformance of existing language models on materials science tasks and iterative improvement in successive stages of instruction-data refinement. We study the quality of HoneyBee's language modeling through automatic evaluation and analyze case studies to further understand the model's capabilities and limitations. Our code and relevant datasets are publicly available at \url{https://github.com/BangLab-UdeM-Mila/NLP4MatSci-HoneyBee}.
翻訳日:2023-10-14 08:34:02 公開日:2023-10-12
# laguerre-gaussモードのコヒーレント状態

Coherent states of Laguerre-Gauss modes ( http://arxiv.org/abs/2310.08510v1 )

ライセンス: Link先を確認
M. P. Morales Rodr\'iguez and O. S. Maga\~na-Loaiza and B. Perez-Garcia and L. M. Nieto Calzada and F. Marroqu\'in and B. M. Rodr\'iguez-Lara(参考訳) 大規模量子フォトニックシステム内の複雑な相互作用は、古典的能力を超えて計算を行う可能性を提供する。 その可能性にもかかわらず、これらの量子システムの準備は依然として大きな課題である。 光の空間モードを利用して多粒子動力学の研究を行う。 本手法は電磁界の励起モードを空間ラゲール・ガウスモードの物理的性質にマッピングし,様々な対称性を利用してラゲール・ガウスモードのコヒーレント状態を構築することができる。 興味深いことに,本研究は多粒子系の励起数ダイナミクスとラゲール・ガウスモードの経時的および経時的特性の進化との直接的関係を定めている。 この接続は、量子多粒子系の基本特性を比較的単純な方法でテストするための汎用プラットフォームとしての光子の自由度を横切る可能性を強調している。

Complex interactions within large quantum photonic systems offer the potential to perform computations beyond classical capabilities. Despite their potential, preparing these quantum systems remains a significant challenge. We explore an alternative approach to studying multiparticle dynamics by utilizing spatial modes of light. Our operational approach facilitates the mapping of the excitation mode of the electromagnetic field to physical properties of spatial Laguerre-Gauss modes, enabling us to leverage various symmetries to construct coherent states for Laguerre-Gauss modes. Interestingly, our work establishes a direct link between the excitation number dynamics of multiparticle systems and the evolution of transverse and longitudinal properties of Laguerre-Gauss modes. This connection highlights the potential of the transverse spatial degree of freedom of the photon as a versatile platform for testing fundamental properties of quantum multiparticle systems in a relatively simple manner.
翻訳日:2023-10-14 08:33:33 公開日:2023-10-12
# 顕微鏡画像におけるセルインスタンスセグメンテーションのための物体中心埋め込みの教師なし学習

Unsupervised Learning of Object-Centric Embeddings for Cell Instance Segmentation in Microscopy Images ( http://arxiv.org/abs/2310.08501v1 )

ライセンス: Link先を確認
Steffen Wolf, Manan Lalit, Henry Westmacott, Katie McDole, Jan Funke(参考訳) 多くのバイオメディカル応用には、顕微鏡画像中の物体のセグメンテーションが必要である。 我々は,同一オブジェクトから切り出されたパッチ間の空間的オフセットが保存されるように画像パッチを埋め込み,オブジェクト中心埋め込み(oces)を導入する。 これらの学習された埋め込みは個々のオブジェクトを記述し、インスタンスのセグメンテーションを得るのに使うことができる。 ここでは、顕微鏡画像でよく見られる仮定の下で、OCEは画像パッチ間の空間的オフセットを予測する自己監督タスクによって学習可能であることを示す。 そこで本研究では,9種類の大規模顕微鏡データを用いて,教師なしのセルインスタンス分割手法を構築した。 提案手法により得られたセグメンテーションは,9つのデータセットのうち6つの最新技術ベースラインと比較して有意に改善され,残りの3つのデータセットに匹敵する性能を示した。 地中アノテーションが利用可能であれば,本手法は教師あり訓練の出発点として優れ,必要な地中アノテーションの量を1桁削減できるため,本手法の実用的適用性が大幅に向上する。 ソースコードはhttps://github.com/funkelab/cellulusで入手できる。

Segmentation of objects in microscopy images is required for many biomedical applications. We introduce object-centric embeddings (OCEs), which embed image patches such that the spatial offsets between patches cropped from the same object are preserved. Those learnt embeddings can be used to delineate individual objects and thus obtain instance segmentations. Here, we show theoretically that, under assumptions commonly found in microscopy images, OCEs can be learnt through a self-supervised task that predicts the spatial offset between image patches. Together, this forms an unsupervised cell instance segmentation method which we evaluate on nine diverse large-scale microscopy datasets. Segmentations obtained with our method lead to substantially improved results, compared to state-of-the-art baselines on six out of nine datasets, and perform on par on the remaining three datasets. If ground-truth annotations are available, our method serves as an excellent starting point for supervised training, reducing the required amount of ground-truth needed by one order of magnitude, thus substantially increasing the practical applicability of our method. Source code is available at https://github.com/funkelab/cellulus.
翻訳日:2023-10-14 08:33:20 公開日:2023-10-12
# 時間と音符持続時間トークン化が深層学習記号音楽モデリングに及ぼす影響

Impact of time and note duration tokenizations on deep learning symbolic music modeling ( http://arxiv.org/abs/2310.08497v1 )

ライセンス: Link先を確認
Nathan Fradet, Nicolas Gutowski, Fabien Chhel, Jean-Pierre Briot(参考訳) シンボリック音楽は、生成、転写、合成、音楽情報検索(MIR)など様々なディープラーニングタスクで広く使われている。 主に、音楽のトークン化を必要とするトランスフォーマーのような離散モデルで使用されており、トークンと呼ばれる異なる要素のシーケンスに形式化されている。 トークン化は様々な方法で行うことができる。 Transformerは推論に苦労するが、より容易に明示的な情報を取得するため、そのようなモデルに対する情報の表現方法がパフォーマンスに与える影響を研究することが重要である。 本研究では,共通トークン化手法を分析し,時間と音符の持続時間表現を実験する。 作曲・感情分類,音楽生成,シーケンス表現学習などのタスクにおいて,これらの2つの影響のある基準の性能を比較した。 明示的な情報がタスクによってより良い結果をもたらすことを示す。

Symbolic music is widely used in various deep learning tasks, including generation, transcription, synthesis, and Music Information Retrieval (MIR). It is mostly employed with discrete models like Transformers, which require music to be tokenized, i.e., formatted into sequences of distinct elements called tokens. Tokenization can be performed in different ways. As Transformer can struggle at reasoning, but capture more easily explicit information, it is important to study how the way the information is represented for such model impact their performances. In this work, we analyze the common tokenization methods and experiment with time and note duration representations. We compare the performances of these two impactful criteria on several tasks, including composer and emotion classification, music generation, and sequence representation learning. We demonstrate that explicit information leads to better results depending on the task.
翻訳日:2023-10-14 08:32:57 公開日:2023-10-12
# Bucks for Buckets (B4B): ステアリングエンコーダに対するアクティブディフェンス

Bucks for Buckets (B4B): Active Defenses Against Stealing Encoders ( http://arxiv.org/abs/2310.08571v1 )

ライセンス: Link先を確認
Jan Dubi\'nski, Stanis{\l}aw Pawlak, Franziska Boenisch, Tomasz Trzci\'nski, Adam Dziedzic(参考訳) 機械学習・アズ・ア・サービス(MLaaS)APIは、所定の入力に対してベクトル表現を生成する準備ができている高ユーティリティエンコーダを提供する。 これらのエンコーダはトレーニングに非常にコストがかかるため、敵がAPIへのクエリアクセスを活用して、オリジナルのトレーニングコストのごく一部でエンコーダをローカルに複製するモデル盗難攻撃の収益目標となる。 我々はbucks for buckets (b4b)を提案する。これは、正当なapiユーザの表現品質を損なうことなく攻撃が行われている間、盗みを防止する最初のアクティブディフェンスである。 我々の弁護は、エンコーダの機能を盗もうとする敵に返却された表現が、エンコーダを使用して特定の下流タスクを解決する正当なユーザの表現よりも、埋め込み空間のかなり大きな部分をカバーしているという観察に依存している。vb4bは、これを利用して、エンコーダが返された表現の効用を、ユーザの埋め込み空間の範囲に応じて適応的に調整する。 B4Bは、複数のユーザアカウント(シビル)を作成するだけで、適応的な敵が防御を損なうのを防ぐため、各ユーザの表現を個別に変換する。 これにより、敵は複数のアカウント上の表現を直接集約して盗んだエンコーダコピーを作成することができない。 私たちのactive defenseは、公開apiよりもエンコーダをセキュアに共有し、民主化する新たな道を開きます。

Machine Learning as a Service (MLaaS) APIs provide ready-to-use and high-utility encoders that generate vector representations for given inputs. Since these encoders are very costly to train, they become lucrative targets for model stealing attacks during which an adversary leverages query access to the API to replicate the encoder locally at a fraction of the original training costs. We propose Bucks for Buckets (B4B), the first active defense that prevents stealing while the attack is happening without degrading representation quality for legitimate API users. Our defense relies on the observation that the representations returned to adversaries who try to steal the encoder's functionality cover a significantly larger fraction of the embedding space than representations of legitimate users who utilize the encoder to solve a particular downstream task.vB4B leverages this to adaptively adjust the utility of the returned representations according to a user's coverage of the embedding space. To prevent adaptive adversaries from eluding our defense by simply creating multiple user accounts (sybils), B4B also individually transforms each user's representations. This prevents the adversary from directly aggregating representations over multiple accounts to create their stolen encoder copy. Our active defense opens a new path towards securely sharing and democratizing encoders over public APIs.
翻訳日:2023-10-14 08:25:33 公開日:2023-10-12
# 意思決定者としてのトランスフォーマー:教師付き事前トレーニングによるコンテキスト内強化学習の実現

Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining ( http://arxiv.org/abs/2310.08566v1 )

ライセンス: Link先を確認
Licong Lin, Yu Bai, Song Mei(参考訳) オフラインの強化学習データセットで事前訓練された大きなトランスフォーマーモデルは、目に見えない環境からの相互作用軌跡に刺激されて適切な判断を下すことができる、優れたコンテキスト内強化学習(ICRL)能力を示している。 しかし、いつどのようにトランスフォーマーを訓練してicrlを実行するかは理論的によく理解されていない。 特に、強化学習アルゴリズムがどのような状況で実行可能であるか、オフライントレーニングデータにおける分布ミスマッチが学習アルゴリズムに与える影響は明らかでない。 本稿では、ICRLの教師付き事前学習を分析する理論的枠組みを提供する。 これには、最近提案された2つの訓練方法 - アルゴリズム蒸留と決定事前学習トランスフォーマーが含まれる。 まず、モデル実現可能性を想定して、教師付き予測変換器が観測された軌道からの専門家アルゴリズムの条件予測を模倣することを示す。 一般化エラーは、モデルキャパシティと、エキスパートアルゴリズムとオフラインアルゴリズムの分散発散係数でスケールする。 次に,線形バンドイットに対するlinucbやトンプソンサンプリング,表マルコフ決定過程のためのucb-viなどのオンライン強化学習アルゴリズムを,relu注意のトランスフォーマによって効率的に近似できることを示す。 これは、オフライン軌道から事前訓練された変換器のICRL能力を初めて定量的に分析する。

Large transformer models pretrained on offline reinforcement learning datasets have demonstrated remarkable in-context reinforcement learning (ICRL) capabilities, where they can make good decisions when prompted with interaction trajectories from unseen environments. However, when and how transformers can be trained to perform ICRL have not been theoretically well-understood. In particular, it is unclear which reinforcement-learning algorithms transformers can perform in context, and how distribution mismatch in offline training data affects the learned algorithms. This paper provides a theoretical framework that analyzes supervised pretraining for ICRL. This includes two recently proposed training methods -- algorithm distillation and decision-pretrained transformers. First, assuming model realizability, we prove the supervised-pretrained transformer will imitate the conditional expectation of the expert algorithm given the observed trajectory. The generalization error will scale with model capacity and a distribution divergence factor between the expert and offline algorithms. Second, we show transformers with ReLU attention can efficiently approximate near-optimal online reinforcement learning algorithms like LinUCB and Thompson sampling for stochastic linear bandits, and UCB-VI for tabular Markov decision processes. This provides the first quantitative analysis of the ICRL capabilities of transformers pretrained from offline trajectories.
翻訳日:2023-10-14 08:25:04 公開日:2023-10-12
# AI-ロボティクスにおけるセキュリティの考察 : 現状の方法,課題,機会の調査

Security Considerations in AI-Robotics: A Survey of Current Methods, Challenges, and Opportunities ( http://arxiv.org/abs/2310.08565v1 )

ライセンス: Link先を確認
Subash Neupane, Shaswata Mitra, Ivan A. Fernandez, Swayamjit Saha, Sudip Mittal, Jingdao Chen, Nisha Pillai, Shahram Rahimi(参考訳) ロボットと人工知能(AI)は、その誕生以来、巧妙に介入してきた。 今日では、ロボット掃除機から半自動走行車まで、AI-ロボティクスシステムは私たちの日常生活の不可欠な部分となっている。 これらのシステムは、知覚、ナビゲーション、計画、制御という3つの基本的なアーキテクチャ要素に基づいて構築されている。 しかし、ai-ロボティクスシステムの統合は私たちの生活の質を高めていますが、深刻な問題も指摘されています。 AIロボットシステムを構成する物理的なコンポーネント、アルゴリズム、データは悪意あるアクターによって悪用され、恐ろしい結果をもたらす可能性がある。 本稿では,AI-ロボティクスシステムにおけるセキュリティ問題への対処の必要性から,アタックサーフェス,倫理的・法的懸念,ヒューマンロボットインタラクション(HRI)セキュリティの3次元にわたる包括的調査と分類について述べる。 私たちの目標は、ユーザや開発者、その他のステークホルダに、これらの領域に関する総合的な理解を提供し、ai-ロボティクスシステム全体のセキュリティを強化することです。 まず、潜在的な攻撃面を調査し、防御戦略を緩和することから始める。 次に、依存関係や心理的影響などの倫理的問題や、これらのシステムに対する説明責任に関する法的懸念を掘り下げる。 さらに、プライバシー、完全性、安全性、信頼性、説明可能性に関する懸念など、HRIのような新たなトレンドも議論されている。 最後に、このダイナミックで有望な分野における今後の研究方向性の展望を示す。

Robotics and Artificial Intelligence (AI) have been inextricably intertwined since their inception. Today, AI-Robotics systems have become an integral part of our daily lives, from robotic vacuum cleaners to semi-autonomous cars. These systems are built upon three fundamental architectural elements: perception, navigation and planning, and control. However, while the integration of AI-Robotics systems has enhanced the quality our lives, it has also presented a serious problem - these systems are vulnerable to security attacks. The physical components, algorithms, and data that make up AI-Robotics systems can be exploited by malicious actors, potentially leading to dire consequences. Motivated by the need to address the security concerns in AI-Robotics systems, this paper presents a comprehensive survey and taxonomy across three dimensions: attack surfaces, ethical and legal concerns, and Human-Robot Interaction (HRI) security. Our goal is to provide users, developers and other stakeholders with a holistic understanding of these areas to enhance the overall AI-Robotics system security. We begin by surveying potential attack surfaces and provide mitigating defensive strategies. We then delve into ethical issues, such as dependency and psychological impact, as well as the legal concerns regarding accountability for these systems. Besides, emerging trends such as HRI are discussed, considering privacy, integrity, safety, trustworthiness, and explainability concerns. Finally, we present our vision for future research directions in this dynamic and promising field.
翻訳日:2023-10-14 08:24:40 公開日:2023-10-12
# MemGPT:オペレーティングシステムとしてのLLMを目指して

MemGPT: Towards LLMs as Operating Systems ( http://arxiv.org/abs/2310.08560v1 )

ライセンス: Link先を確認
Charles Packer, Vivian Fang, Shishir G. Patil, Kevin Lin, Sarah Wooders, Joseph E. Gonzalez(参考訳) 大規模言語モデル(LLM)はAIに革命をもたらしたが、コンテキストウィンドウの制限により制約され、会話の拡張やドキュメント分析といったタスクにおいてその実用性が妨げられている。 コンテクストを制限されたコンテキストウインドウを超えて利用できるようにするために,従来のオペレーティングシステムにおける階層型メモリシステムからインスピレーションを得て,高速メモリと低速メモリ間のデータ移動による大規模メモリリソースの出現を実現する技術である仮想コンテクスト管理を提案する。 この手法を用いて,LLMの限られたコンテキストウィンドウ内に拡張コンテキストを効果的に提供するために,異なるメモリ層をインテリジェントに管理するシステムであるMemGPT(Memory-GPT)を導入し,インタプリタを用いて自身とユーザ間の制御フローを管理する。 我々は,現在のllmの限られたコンテキストウィンドウがパフォーマンスを著しく損なう2つの領域において,osにインスパイアされた設計を評価する。 ドキュメント分析, llmのコンテキストウィンドウをはるかに越えた大規模ドキュメントを解析可能なmemgpt, ユーザとの長期的インタラクションを通じて動的に記憶し, 反映し, 進化する対話型エージェントを作成できるマルチセッションチャットである。 私たちはMemGPTコードと実験のためのデータをhttps://memgpt.ai.comでリリースします。

Large language models (LLMs) have revolutionized AI, but are constrained by limited context windows, hindering their utility in tasks like extended conversations and document analysis. To enable using context beyond limited context windows, we propose virtual context management, a technique drawing inspiration from hierarchical memory systems in traditional operating systems that provide the appearance of large memory resources through data movement between fast and slow memory. Using this technique, we introduce MemGPT (Memory-GPT), a system that intelligently manages different memory tiers in order to effectively provide extended context within the LLM's limited context window, and utilizes interrupts to manage control flow between itself and the user. We evaluate our OS-inspired design in two domains where the limited context windows of modern LLMs severely handicaps their performance: document analysis, where MemGPT is able to analyze large documents that far exceed the underlying LLM's context window, and multi-session chat, where MemGPT can create conversational agents that remember, reflect, and evolve dynamically through long-term interactions with their users. We release MemGPT code and data for our experiments at https://memgpt.ai.
翻訳日:2023-10-14 08:24:17 公開日:2023-10-12
# 現象を補う:仮説補充を伴う言語モデルの帰納的推論能力のテスト

Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement ( http://arxiv.org/abs/2310.08559v1 )

ライセンス: Link先を確認
Linlu Qiu, Liwei Jiang, Ximing Lu, Melanie Sclar, Valentina Pyatkin, Chandra Bhagavatula, Bailin Wang, Yoon Kim, Yejin Choi, Nouha Dziri, Xiang Ren(参考訳) 一握りの観察から基本原理を導き出し、帰納的推論として知られる新しい状況に一般化する能力は、人間の知性の中心である。 以前の研究は、言語モデル(LM)が、しばしば帰納的推論に不足していることを示唆している。 本研究では,標準的な入出力プロンプトよりも人間の帰納的過程をより密接に反映する手法である反復的仮説リファインメントを用いて,lmsの帰納的推論能力に関する体系的研究を行う。 反復的仮説の洗練は、テキスト規則の形で仮説を提案、選択、洗練する3段階のプロセスを用いる。 中間ルールを検証した結果,LMは現象仮説の提案者(すなわち,候補規則の生成)であり,提案したルールセットを体系的にフィルタリングする(タスク固有の)シンボリックインタプリタと組み合わせることで,因果関係,言語的指示,記号的概念の誘導を必要とする帰納的推論ベンチマークに対して強い結果が得られた。 しかし、それらは帰納的推論器としても振舞い、規則帰納法(可算規則の特定)と規則適用法(インスタンスに提案された規則を適用する)の顕著なパフォーマンスギャップを示し、LMが実際に規則を適用することなく仮説を提案していることを示唆している。 経験的および人的分析により, LMの誘導的推論過程と人間とのいくつかの相違が明らかとなり, 誘導的推論タスクにおけるLMの使用の可能性と限界の両方に光を当てる。

The ability to derive underlying principles from a handful of observations and then generalize to novel situations -- known as inductive reasoning -- is central to human intelligence. Prior work suggests that language models (LMs) often fall short on inductive reasoning, despite achieving impressive success on research benchmarks. In this work, we conduct a systematic study of the inductive reasoning capabilities of LMs through iterative hypothesis refinement, a technique that more closely mirrors the human inductive process than standard input-output prompting. Iterative hypothesis refinement employs a three-step process: proposing, selecting, and refining hypotheses in the form of textual rules. By examining the intermediate rules, we observe that LMs are phenomenal hypothesis proposers (i.e., generating candidate rules), and when coupled with a (task-specific) symbolic interpreter that is able to systematically filter the proposed set of rules, this hybrid approach achieves strong results across inductive reasoning benchmarks that require inducing causal relations, language-like instructions, and symbolic concepts. However, they also behave as puzzling inductive reasoners, showing notable performance gaps in rule induction (i.e., identifying plausible rules) and rule application (i.e., applying proposed rules to instances), suggesting that LMs are proposing hypotheses without being able to actually apply the rules. Through empirical and human analyses, we further reveal several discrepancies between the inductive reasoning processes of LMs and humans, shedding light on both the potentials and limitations of using LMs in inductive reasoning tasks.
翻訳日:2023-10-14 08:23:54 公開日:2023-10-12
# オンラインRLのためのオフラインリトレーニング:探索バイアス軽減のための政策学習の分離

Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias ( http://arxiv.org/abs/2310.08558v1 )

ライセンス: Link先を確認
Max Sobol Mark, Archit Sharma, Fahim Tajwar, Rafael Rafailov, Sergey Levine, Chelsea Finn(参考訳) オンライン強化学習(rl)や微調整、特に事前オフラインデータが十分な状態カバレッジを提供していない場合には、楽観的に新しい状態や行動を探索することが望ましい。 しかしながら、探索ボーナスは学習したポリシーに偏りがあるため、我々の実験では、そのようなボーナスの単純かつ標準的な使用は、パフォーマンスポリシーの回復に失敗する可能性がある。 同時に、オフラインRLでの悲観的なトレーニングは、静的データセットからパフォーマンスポリシーの回復を可能にした。 オフラインrlを利用して、オンラインインタラクションからより良いポリシーを回復できるだろうか? 我々は,すべての対話データと悲観的目標をスクラッチから学習できることから,データ収集や評価に使用されるポリシを分離できる,という簡単な観察を行う。 具体的には,強化学習(rl)のためのオフライン-オンライン-オフライン-オフライン-オフライン(ooo)フレームワークにおける,オンラインの微調整終了時のポリシ抽出ステップであるオフラインリトレーニングを提案する。 楽観的(爆発)ポリシーは環境と相互作用するために使われ、別個の悲観的(爆発)ポリシーは観測されたすべてのデータに基づいて訓練され、評価される。 このような疎結合は、評価ポリシーにおけるオンラインインタラクション(本質的な報酬、プライマリシーバイアス)からのバイアスを減らし、オンラインインタラクション中により探索的な振る舞いを可能にする。 OOOはオフラインからオンラインまでのRLとオンラインのRLメソッドを補完し、我々の微調整実験で平均性能を14%から26%改善し、D4RLベンチマークのいくつかの環境で最先端のパフォーマンスを達成し、2つのOpenAIジム環境でオンラインRLのパフォーマンスを165%改善します。 さらに、OOOは、前のメソッドがパフォーマンスポリシーを回復できない不完全なオフラインデータセットからの微調整を可能にする。 実装:https://github.com/MaxSobolMark/OOO

It is desirable for policies to optimistically explore new states and behaviors during online reinforcement learning (RL) or fine-tuning, especially when prior offline data does not provide enough state coverage. However, exploration bonuses can bias the learned policy, and our experiments find that naive, yet standard use of such bonuses can fail to recover a performant policy. Concurrently, pessimistic training in offline RL has enabled recovery of performant policies from static datasets. Can we leverage offline RL to recover better policies from online interaction? We make a simple observation that a policy can be trained from scratch on all interaction data with pessimistic objectives, thereby decoupling the policies used for data collection and for evaluation. Specifically, we propose offline retraining, a policy extraction step at the end of online fine-tuning in our Offline-to-Online-to-Offline (OOO) framework for reinforcement learning (RL). An optimistic (exploration) policy is used to interact with the environment, and a separate pessimistic (exploitation) policy is trained on all the observed data for evaluation. Such decoupling can reduce any bias from online interaction (intrinsic rewards, primacy bias) in the evaluation policy, and can allow more exploratory behaviors during online interaction which in turn can generate better data for exploitation. OOO is complementary to several offline-to-online RL and online RL methods, and improves their average performance by 14% to 26% in our fine-tuning experiments, achieves state-of-the-art performance on several environments in the D4RL benchmarks, and improves online RL performance by 165% on two OpenAI gym environments. Further, OOO can enable fine-tuning from incomplete offline datasets where prior methods can fail to recover a performant policy. Implementation: https://github.com/MaxSobolMark/OOO
翻訳日:2023-10-14 08:23:20 公開日:2023-10-12
# 変圧器用クロス・エピソディック・カリキュラム

Cross-Episodic Curriculum for Transformer Agents ( http://arxiv.org/abs/2310.08549v1 )

ライセンス: Link先を確認
Lucy Xiaoyang Shi and Yunfan Jiang and Jake Grigsby and Linxi "Jim" Fan and Yuke Zhu(参考訳) 本稿では,トランスフォーマーエージェントの学習効率の向上と一般化を図るため,CEC(Cross-Episodic Curriculum)というアルゴリズムを提案する。 CECの中心は、カリキュラムの基礎を形成するトランスフォーマーの文脈に異種体験を配置することである。 CECは、オンライン学習の試行と混合品質の実証を逐次的に構成することで、エピソードごとの学習の進歩と習熟度向上をカプセル化するカリキュラムを構築している。 このようなシナジーとトランスフォーマーモデルの強力なパターン認識能力が組み合わさって、強力なエポゾディック・アテンション機構を提供する。 CECの有効性は2つの代表的なシナリオで示される:例えばDeepMind Lab(英語版)では、カリキュラムは個別および漸進的に複雑な環境で学習の進行を捉えるが、RoboMimic(英語版)では、カリキュラムは実証者の専門知識の向上を捉えている。 いずれの場合も、CECから得られるポリシーは優れた性能と強力な一般化を示す。 Transformerエージェント学習の研究を促進するため、コードはhttps://cec-agent.github.io/でオープンソース化されている。

We present a new algorithm, Cross-Episodic Curriculum (CEC), to boost the learning efficiency and generalization of Transformer agents. Central to CEC is the placement of cross-episodic experiences into a Transformer's context, which forms the basis of a curriculum. By sequentially structuring online learning trials and mixed-quality demonstrations, CEC constructs curricula that encapsulate learning progression and proficiency increase across episodes. Such synergy combined with the potent pattern recognition capabilities of Transformer models delivers a powerful cross-episodic attention mechanism. The effectiveness of CEC is demonstrated under two representative scenarios: one involving multi-task reinforcement learning with discrete control, such as in DeepMind Lab, where the curriculum captures the learning progression in both individual and progressively complex settings; and the other involving imitation learning with mixed-quality data for continuous control, as seen in RoboMimic, where the curriculum captures the improvement in demonstrators' expertise. In all instances, policies resulting from CEC exhibit superior performance and strong generalization. Code is open-sourced at https://cec-agent.github.io/ to facilitate research on Transformer agent learning.
翻訳日:2023-10-14 08:22:49 公開日:2023-10-12
# Idea2Img:自動画像設計と生成のためのGPT-4V(ision)による反復自己精製

Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation ( http://arxiv.org/abs/2310.08541v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang(参考訳) 本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己複製システム「Idea to Image」を紹介し,画像の自動設計と生成を行う。 人間は反復探索により、異なるテキスト・ツー・イメージ(T2I)モデルの特徴を素早く特定できる。 これにより、高レベルのアイデアを効率的なT2Iプロンプトに変換し、優れた画像を生成することができる。 大規模マルチモーダルモデル(LMM)に基づくシステムを用いて,未知のモデルや環境を自己精製によって探索できる類似のマルチモーダル自己精製能力を実現することができるかを検討する。 idea2imgは、t2iモデルの特徴を記憶して、ドラフトイメージを合成するための修正されたt2iプロンプトを周期的に生成し、プロンプトリビジョンのための方向フィードバックを提供する。 反復自己定義は、vanilla t2iモデルに対するidea2imgの様々な利点をもたらす。 特筆すべきは、idea2imgは、画像テキストシーケンスをインターリーブした入力アイデアを処理し、設計指示でアイデアをフォローし、よりセマンティックで視覚的な品質のイメージを生成する。 ユーザ嗜好研究では,マルチモーダル反復自己定義による画像の自動設計と生成の有効性を検証する。

We introduce ``Idea to Image,'' a system that enables multimodal iterative self-refinement with GPT-4V(ision) for automatic image design and generation. Humans can quickly identify the characteristics of different text-to-image (T2I) models via iterative explorations. This enables them to efficiently convert their high-level generation ideas into effective T2I prompts that can produce good images. We investigate if systems based on large multimodal models (LMMs) can develop analogous multimodal self-refinement abilities that enable exploring unknown models or environments via self-refining tries. Idea2Img cyclically generates revised T2I prompts to synthesize draft images, and provides directional feedback for prompt revision, both conditioned on its memory of the probed T2I model's characteristics. The iterative self-refinement brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img can process input ideas with interleaved image-text sequences, follow ideas with design instructions, and generate images of better semantic and visual qualities. The user preference study validates the efficacy of multimodal iterative self-refinement on automatic image design and generation.
翻訳日:2023-10-14 08:22:22 公開日:2023-10-12
# 事前学習されたトランスフォーマーは、勾配降下によってコンテキスト内学習を実際に行うのか?

Do pretrained Transformers Really Learn In-context by Gradient Descent? ( http://arxiv.org/abs/2310.08540v1 )

ライセンス: Link先を確認
Lingfeng Shen, Aayush Mishra, Daniel Khashabi(参考訳) In-Context Learning (ICL) はグラディエント・Descent (GD) と暗黙的に等価か? 最近のいくつかの著作は、大きな言語モデルにおけるgdのダイナミクスと icl の創発的挙動の類似性を示している。 しかし、これらの作品は、言語モデルを訓練する現実的な自然言語設定から遠く離れている。 このような理論と実践の相違は、それらの適用性を検証するためにさらなる調査が必要である。 まず、勾配降下をシミュレートするTransformer重みを構成する以前の作業の弱点を強調します。 icl目的のトレーニングトランスフォーマ実験、iclとgdの順序感度の不一致、構築された重みのスパース性、パラメータ変化に対する感度など、現実世界の設定とのミスマッチの例である。 さらに、自然条件下でICL対GD仮説を探索し、比較する。 本研究では,自然データ(LLaMa-7B)に基づく言語モデルに関する包括的実験分析を行った。 各種パフォーマンス指標の比較では,データセットやモデル,デモ数など,さまざまな要因の関数として,ICLとGDの不整合挙動に着目した。 iclとgdは言語モデルの出力分布に異なる適応性を示す。 これらの結果から, icl と gd の同値性は公然の仮説であり, ニュアンス的考察を必要とし, さらなる研究を求める。

Is In-Context Learning (ICL) implicitly equivalent to Gradient Descent (GD)? Several recent works draw analogies between the dynamics of GD and the emergent behavior of ICL in large language models. However, these works make assumptions far from the realistic natural language setting in which language models are trained. Such discrepancies between theory and practice, therefore, necessitate further investigation to validate their applicability. We start by highlighting the weaknesses in prior works that construct Transformer weights to simulate gradient descent. Their experiments with training Transformers on ICL objective, inconsistencies in the order sensitivity of ICL and GD, sparsity of the constructed weights, and sensitivity to parameter changes are some examples of a mismatch from the real-world setting. Furthermore, we probe and compare the ICL vs. GD hypothesis in a natural setting. We conduct comprehensive empirical analyses on language models pretrained on natural data (LLaMa-7B). Our comparisons on various performance metrics highlight the inconsistent behavior of ICL and GD as a function of various factors such as datasets, models, and number of demonstrations. We observe that ICL and GD adapt the output distribution of language models differently. These results indicate that the equivalence between ICL and GD is an open hypothesis, requires nuanced considerations and calls for further studies.
翻訳日:2023-10-14 08:21:57 公開日:2023-10-12
# Image2PCI - 画像から直接舗装条件指標を推定するマルチタスク学習フレームワーク

Image2PCI -- A Multitask Learning Framework for Estimating Pavement Condition Indices Directly from Images ( http://arxiv.org/abs/2310.08538v1 )

ライセンス: Link先を確認
Neema Jakisa Owor, Hang Du, Abdulateef Daud, Armstrong Aboah, Yaw Adu-Gyamfi(参考訳) 舗装条件指標(pci)は、舗装面に検出された災害の種類、程度、重大度に基づいて舗装性能を評価するために広く用いられる指標である。 近年,PCI推定プロセスの自動化に深層学習アプローチを利用することで大きな進歩を遂げている。 しかしながら、現在のアプローチでは、PCI値を推定するための少なくとも2つの別々のモデルに依存しています。 このアプローチは、複雑度、高い計算資源要求、注意深い考慮と解決を必要とするメンテナンスの負担など、いくつかの課題を提起する。 これらの課題を克服するため,本研究では,トップダウン舗装画像から直接pciを予測する統合マルチタスクモデルを開発した。 提案手法は,特徴抽出のための1つのエンコーダと,2つの検出ヘッド,1つのセグメンテーションヘッド,1つのpci推定ヘッドの4つのデコーダからなるマルチタスクモデルである。 マルチタスクにより、画像から直接PCIを推定するための検出およびセグメント化ヘッドから特徴を抽出することができる。 このモデルは、マルチタスク学習(この種の最初のもの)用にアノテートされた、ベンチマークとオープン舗装の苦難データセットで非常にうまく機能します。 我々の知る限り、これは、画像から直接PCIをリアルタイムに推定できる最初の仕事であり、クラック検出とセグメンテーションのすべての関連タスクにおいて優れた精度を維持しながら、優れた精度を維持している。

The Pavement Condition Index (PCI) is a widely used metric for evaluating pavement performance based on the type, extent and severity of distresses detected on a pavement surface. In recent times, significant progress has been made in utilizing deep-learning approaches to automate PCI estimation process. However, the current approaches rely on at least two separate models to estimate PCI values -- one model dedicated to determining the type and extent and another for estimating their severity. This approach presents several challenges, including complexities, high computational resource demands, and maintenance burdens that necessitate careful consideration and resolution. To overcome these challenges, the current study develops a unified multi-tasking model that predicts the PCI directly from a top-down pavement image. The proposed architecture is a multi-task model composed of one encoder for feature extraction and four decoders to handle specific tasks: two detection heads, one segmentation head and one PCI estimation head. By multitasking, we are able to extract features from the detection and segmentation heads for automatically estimating the PCI directly from the images. The model performs very well on our benchmarked and open pavement distress dataset that is annotated for multitask learning (the first of its kind). To our best knowledge, this is the first work that can estimate PCI directly from an image at real time speeds while maintaining excellent accuracy on all related tasks for crack detection and segmentation.
翻訳日:2023-10-14 08:21:37 公開日:2023-10-12
# octopus:環境フィードバックによる視覚言語プログラマの具体化

Octopus: Embodied Vision-Language Programmer from Environmental Feedback ( http://arxiv.org/abs/2310.08588v1 )

ライセンス: Link先を確認
Jingkang Yang, Yuhao Dong, Shuai Liu, Bo Li, Ziyue Wang, Chencheng Jiang, Haoran Tan, Jiamu Kang, Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu(参考訳) 大規模視覚言語モデル (VLM) はマルチモーダル認識と推論において大きな進歩を遂げた。 さらに、具体化エージェントにシームレスに統合すると、計画の策定やコマンドの実行を高精度に行える自律的・文脈対応システムの構築に向けた重要な一歩となる。 本稿では,エージェントの視覚とテキストタスクの目的を正確に解読し,複雑なアクションシーケンスを定式化し,実行可能なコードを生成する新しいVLMであるOctopusを紹介する。 我々の設計では、シミュレーターの日常的な雑用から複雑なビデオゲームの高度なインタラクションまで、エージェントは幅広いタスクを十分に処理できる。 Octopus は GPT-4 を利用して、OctoVerse と呼ばれる実験環境で、爆発的エージェントを制御してトレーニングデータ、すなわちアクションブループリントと対応する実行可能コードを生成する。 また,環境フィードバックによる強化学習(rlef)の強化学習を可能としたフィードバックも収集した。 一連の実験を通して、オクトパスの機能を照らし、説得力のある結果を示し、提案されたRLEFはエージェントの意思決定を洗練させることが判明した。 モデルアーキテクチャ、シミュレータ、データセットをオープンソース化することで、私たちはさらなるイノベーションを刺激し、より広範なAIコミュニティ内で協調的なアプリケーションを育むことを目標にしています。

Large vision-language models (VLMs) have achieved substantial progress in multimodal perception and reasoning. Furthermore, when seamlessly integrated into an embodied agent, it signifies a crucial stride towards the creation of autonomous and context-aware systems capable of formulating plans and executing commands with precision. In this paper, we introduce Octopus, a novel VLM designed to proficiently decipher an agent's vision and textual task objectives and to formulate intricate action sequences and generate executable code. Our design allows the agent to adeptly handle a wide spectrum of tasks, ranging from mundane daily chores in simulators to sophisticated interactions in complex video games. Octopus is trained by leveraging GPT-4 to control an explorative agent to generate training data, i.e., action blueprints and the corresponding executable code, within our experimental environment called OctoVerse. We also collect the feedback that allows the enhanced training scheme of Reinforcement Learning with Environmental Feedback (RLEF). Through a series of experiments, we illuminate Octopus's functionality and present compelling results, and the proposed RLEF turns out to refine the agent's decision-making. By open-sourcing our model architecture, simulator, and dataset, we aspire to ignite further innovation and foster collaborative applications within the broader embodied AI community.
翻訳日:2023-10-14 08:16:19 公開日:2023-10-12
# 今日、単眼ビデオからの一般化されたダイナミックノベルビュー合成は可能か?

Is Generalized Dynamic Novel View Synthesis from Monocular Videos Possible Today? ( http://arxiv.org/abs/2310.08587v1 )

ライセンス: Link先を確認
Xiaoming Zhao, Alex Colburn, Fangchang Ma, Miguel Angel Bautista, Joshua M. Susskind, Alexander G. Schwing(参考訳) 新たな視点から単眼映像で見るシーンのレンダリングは難しい問題である。 静的なシーンでは、すべてのテストシーンを最適化するシーン固有の最適化テクニックと、テストシーンでディープネットフォワードのみを実行する一般化テクニックの両方を研究した。 対照的に、動的シーンにはシーン固有の最適化技術が存在するが、我々の知る限りでは、与えられた単眼ビデオから動的に新規なビューを合成するための一般的な方法は存在しない。 モノクラービデオから一般化された動的新規ビュー合成が可能かどうかを問うため、既存の技術に基づく分析フレームワークを構築し、一般化されたアプローチに向けた作業を行う。 シーン特有の外観最適化を伴わない擬似一般化プロセスは可能であるが、幾何学的および時間的一貫性のある深さ推定が必要である。 シーン固有の外観最適化はないが、擬似一般化アプローチはシーン固有の方法を改善する。

Rendering scenes observed in a monocular video from novel viewpoints is a challenging problem. For static scenes the community has studied both scene-specific optimization techniques, which optimize on every test scene, and generalized techniques, which only run a deep net forward pass on a test scene. In contrast, for dynamic scenes, scene-specific optimization techniques exist, but, to our best knowledge, there is currently no generalized method for dynamic novel view synthesis from a given monocular video. To answer whether generalized dynamic novel view synthesis from monocular videos is possible today, we establish an analysis framework based on existing techniques and work toward the generalized approach. We find a pseudo-generalized process without scene-specific appearance optimization is possible, but geometrically and temporally consistent depth estimates are needed. Despite no scene-specific appearance optimization, the pseudo-generalized approach improves upon some scene-specific methods.
翻訳日:2023-10-14 08:15:57 公開日:2023-10-12
# PonderV2: 普遍的な事前学習パラダイムによる3Dファウンデーションモデルの構築

PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm ( http://arxiv.org/abs/2310.08586v1 )

ライセンス: Link先を確認
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang(参考訳) 多くのNLPや2Dコンピュータビジョンの基礎モデルとは対照的に、堅牢で高度に一般化された3D基礎モデルの学習は大きな課題をもたらす。 これは主に、固有のデータ変動性とダウンストリームタスクの多様性によるものだ。 本稿では,効率的な3D表現の獲得を容易にするために設計された,総合的な3D事前学習フレームワークを提案する。 実写画像のレンダリングに活用できるリッチな幾何学的特徴と外観的手がかりをエンコード可能な情報的3D特徴により,我々は,3次元世界と2次元世界のブリッジとして機能する,微分可能なニューラルレンダリングによりポイントクラウド表現を学習するための,新しい普遍パラダイムを提案する。 我々は,実画像とレンダリング画像を比較することにより,考案したボリュームトリクスニューラルレンダラ内でポイントクラウドエンコーダを訓練する。 特に,本手法では,学習した3Dエンコーダを多様な下流タスクにシームレスに統合する。 これらのタスクは、3D検出やセグメンテーションといったハイレベルな課題だけでなく、3D再構成や画像合成といった低レベルな目標も含んでいる。 さらに,提案手法を用いて2次元バックボーンを事前学習する能力を示し,従来のプレトレーニング手法を大差で上回った。 初めて、 \sexynameは11の屋内および屋外ベンチマークで最先端のパフォーマンスを達成している。 各種設定における一貫した改善は,提案手法の有効性を示唆する。 コードとモデルはhttps://github.com/pointcept/pointceptで利用可能になる。

In contrast to numerous NLP and 2D computer vision foundational models, the learning of a robust and highly generalized 3D foundational model poses considerably greater challenges. This is primarily due to the inherent data variability and the diversity of downstream tasks. In this paper, we introduce a comprehensive 3D pre-training framework designed to facilitate the acquisition of efficient 3D representations, thereby establishing a pathway to 3D foundational models. Motivated by the fact that informative 3D features should be able to encode rich geometry and appearance cues that can be utilized to render realistic images, we propose a novel universal paradigm to learn point cloud representations by differentiable neural rendering, serving as a bridge between 3D and 2D worlds. We train a point cloud encoder within a devised volumetric neural renderer by comparing the rendered images with the real images. Notably, our approach demonstrates the seamless integration of the learned 3D encoder into diverse downstream tasks. These tasks encompass not only high-level challenges such as 3D detection and segmentation but also low-level objectives like 3D reconstruction and image synthesis, spanning both indoor and outdoor scenarios. Besides, we also illustrate the capability of pre-training a 2D backbone using the proposed universal methodology, surpassing conventional pre-training methods by a large margin. For the first time, \sexyname achieves state-of-the-art performance on 11 indoor and outdoor benchmarks. The consistent improvements in various settings imply the effectiveness of the proposed method. Code and models will be made available at https://github.com/Pointcept/Pointcept.
翻訳日:2023-10-14 08:15:43 公開日:2023-10-12
# Im4D:ダイナミックシーンのための高忠実でリアルタイムな新しいビュー合成

Im4D: High-Fidelity and Real-Time Novel View Synthesis for Dynamic Scenes ( http://arxiv.org/abs/2310.08585v1 )

ライセンス: Link先を確認
Haotong Lin, Sida Peng, Zhen Xu, Tao Xie, Xingyi He, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,マルチビュービデオからの動的ビュー合成の課題に取り組むことを目的とする。 キーとなる観察は、従来のグリッドベースの手法が一貫したレンダリングを提供する一方で、複雑なダイナミックシーンの外観の詳細を捉えていないことである。 2つの世界のベストを組み合わせるために、グリッドベースの幾何表現と多視点イメージベースの外観表現からなるハイブリッドなシーン表現im4dを紹介する。 具体的には、動的幾何を時空間的特徴平面と小さなmlpネットワークからなる4次元密度関数として符号化し、シーン構造をグローバルにモデル化し、レンダリング一貫性を促進する。 画像特徴から3Dポイントの色を予測することを学習するネットワークと、オリジナルのマルチビュービデオによってシーンの外観を表現し、ネットワークの詳細な外観を記憶する代わりに、ネットワークの学習を自然に容易にする。 提案手法はDyNeRF, ZJU-MoCap, NHR, DNA-Rendering, ENeRF-Outdoorの5つの動的ビュー合成データセットを用いて評価した。 その結果、Im4Dはレンダリング品質の最先端性能を示し、効率よくトレーニングでき、RTX 3090 GPU上で512x512画像に対して79.8 FPSの速度でリアルタイムレンダリングを実現することができた。

This paper aims to tackle the challenge of dynamic view synthesis from multi-view videos. The key observation is that while previous grid-based methods offer consistent rendering, they fall short in capturing appearance details of a complex dynamic scene, a domain where multi-view image-based rendering methods demonstrate the opposite properties. To combine the best of two worlds, we introduce Im4D, a hybrid scene representation that consists of a grid-based geometry representation and a multi-view image-based appearance representation. Specifically, the dynamic geometry is encoded as a 4D density function composed of spatiotemporal feature planes and a small MLP network, which globally models the scene structure and facilitates the rendering consistency. We represent the scene appearance by the original multi-view videos and a network that learns to predict the color of a 3D point from image features, instead of memorizing detailed appearance totally with networks, thereby naturally making the learning of networks easier. Our method is evaluated on five dynamic view synthesis datasets including DyNeRF, ZJU-MoCap, NHR, DNA-Rendering and ENeRF-Outdoor datasets. The results show that Im4D exhibits state-of-the-art performance in rendering quality and can be trained efficiently, while realizing real-time rendering with a speed of 79.8 FPS for 512x512 images, on a single RTX 3090 GPU.
翻訳日:2023-10-14 08:15:16 公開日:2023-10-12
# ImageNetは1ビデオの価値はあるか? 1時間無ラベルビデオから強い画像エンコーダを学習する

Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video ( http://arxiv.org/abs/2310.08584v1 )

ライセンス: Link先を確認
Shashanka Venkataramanan, Mamshad Nayeem Rizve, Jo\~ao Carreira, Yuki M. Asano, Yannis Avrithis(参考訳) 自己教師付き学習は、アノテーションが不要であるため、何十億もの画像に事前学習を拡大する可能性を解き放った。 しかし、私たちはデータを最大限に活用していますか? どのくらい経済的なのか。 本研究では,2つの貢献によってこの質問に答える。 まず,初対人ビデオを調査し,「ウォーキングツアー」データセットを導入する。 これらのビデオは高解像度で何時間にもわたって撮影され、多数のオブジェクトやアクションに自然なシーンの遷移を描いている。 ラベルなしで未計算なので、自己スーパービジョンには現実的であり、人間の学習に匹敵する。 第2に,連続映像から学習するための自己教師付き画像事前学習手法を提案する。 既存の手法は通常、より多くのフレームを組み込むために画像ベースの事前学習アプローチを適用する。 代わりに、私たちは"認識を学ぶための追跡"アプローチを提唱します。 我々の手法であるDoRAは、トランスフォーマーのクロスアテンションを用いて、時間とともにオブジェクトを発見・tRAckするアテンションマップを生成する。 トラックから複数のビューを導き,古典的な自己監督型蒸留損失に利用した。 われわれの新しいアプローチでは、単一のウォーキングツアービデオが、いくつかの画像やビデオのダウンストリームタスクにおいて、ImageNetの強力なライバルとなる。

Self-supervised learning has unlocked the potential of scaling up pretraining to billions of images, since annotation is unnecessary. But are we making the best use of data? How more economical can we be? In this work, we attempt to answer this question by making two contributions. First, we investigate first-person videos and introduce a "Walking Tours" dataset. These videos are high-resolution, hours-long, captured in a single uninterrupted take, depicting a large number of objects and actions with natural scene transitions. They are unlabeled and uncurated, thus realistic for self-supervision and comparable with human learning. Second, we introduce a novel self-supervised image pretraining method tailored for learning from continuous videos. Existing methods typically adapt image-based pretraining approaches to incorporate more frames. Instead, we advocate a "tracking to learn to recognize" approach. Our method called DoRA, leads to attention maps that Discover and tRAck objects over time in an end-to-end manner, using transformer cross-attention. We derive multiple views from the tracks and use them in a classical self-supervised distillation loss. Using our novel approach, a single Walking Tours video remarkably becomes a strong competitor to ImageNet for several image and video downstream tasks.
翻訳日:2023-10-14 08:14:52 公開日:2023-10-12
# Tree-Planner: 大規模言語モデルを用いた効率的なクローズループタスク計画

Tree-Planner: Efficient Close-loop Task Planning with Large Language Models ( http://arxiv.org/abs/2310.08582v1 )

ライセンス: Link先を確認
Mengkang Hu, Yao Mu, Xinmiao Yu, Mingyu Ding, Shiguang Wu, Wenqi Shao, Qiguang Chen, Bin Wang, Yu Qiao, Ping Luo(参考訳) 本稿では,実時間観測に基づいて計画に適応しながら,特定の目標を達成するための一連のスキル(計画)を生成する過程を,クローズループタスクプランニングと呼ぶ。 近年,Large Language Models (LLM) の動作を反復的に生成するよう促すことが,パフォーマンスとユーザフレンドリさの面で広く普及している。 しかし、このパラダイムは高いトークン消費と冗長なエラー訂正という2つの非効率さに悩まされている。 これらの問題に対処するため,LLMを用いたタスクプランニングを3つの異なるフェーズ(プランサンプリング,アクションツリー構築,グラウンドド決定)に再編成するツリープランナーを提案する。 tree-plannerは、llmを使用して実行前に潜在的なプランのセットをサンプリングし、それらを集約してアクションツリーを形成する。 最後に、LLMは、リアルタイム環境情報を考慮したトップダウン決定プロセスを実行する。 実験の結果,Tree-Plannerは高い効率を保ちながら最先端のパフォーマンスを実現することがわかった。 LLMクエリを1つのプランサンプリングコールと複数のグラウンド決定コールに分解することで、プロンプトのかなりの部分が繰り返し消費されることが少なくなる。 その結果、トークンの消費は、以前のベストパフォーマンスモデルと比較して92.2%削減される。 さらに、必要に応じてアクションツリーのバックトラッキングを有効にすることで、修正プロセスが柔軟になり、エラー訂正が40.5%削減される。 プロジェクトページ: https://tree-planner.github.io/

This paper studies close-loop task planning, which refers to the process of generating a sequence of skills (a plan) to accomplish a specific goal while adapting the plan based on real-time observations. Recently, prompting Large Language Models (LLMs) to generate actions iteratively has become a prevalent paradigm due to its superior performance and user-friendliness. However, this paradigm is plagued by two inefficiencies: high token consumption and redundant error correction, both of which hinder its scalability for large-scale testing and applications. To address these issues, we propose Tree-Planner, which reframes task planning with LLMs into three distinct phases: plan sampling, action tree construction, and grounded deciding. Tree-Planner starts by using an LLM to sample a set of potential plans before execution, followed by the aggregation of them to form an action tree. Finally, the LLM performs a top-down decision-making process on the tree, taking into account real-time environmental information. Experiments show that Tree-Planner achieves state-of-the-art performance while maintaining high efficiency. By decomposing LLM queries into a single plan-sampling call and multiple grounded-deciding calls, a considerable part of the prompt are less likely to be repeatedly consumed. As a result, token consumption is reduced by 92.2% compared to the previously best-performing model. Additionally, by enabling backtracking on the action tree as needed, the correction process becomes more flexible, leading to a 40.5% decrease in error corrections. Project page: https://tree-planner.github.io/
翻訳日:2023-10-14 08:14:32 公開日:2023-10-12
# HyperHuman: 潜在構造拡散を伴う超現実的ヒューマンジェネレーション

HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion ( http://arxiv.org/abs/2310.08579v1 )

ライセンス: Link先を確認
Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov(参考訳) 大規模テキストから画像へのモデルの大幅な進歩にもかかわらず、超現実主義的な人間の画像生成は望ましいが未解決の課題である。 安定拡散やDALL-E 2のような既存のモデルは、不整合部分や不自然なポーズを持つ人間の画像を生成する傾向がある。 これらの課題に取り組むために、私たちの重要な洞察は、人間のイメージは本質的に、粗いボディスケルトンからきめ細かい空間幾何学まで、複数の粒度にまたがる構造であるということです。 したがって、1つのモデルにおける明示的な外観と潜伏構造との相関を捉えることは、コヒーレントで自然な人間の画像を生成するのに不可欠である。 そこで本研究では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。 具体的には 1)人間中心の大規模なデータセット、HumanVerseは、人間のポーズ、深さ、表面正常といった包括的なアノテーションを備えた3億4000万の画像で構成されています。 2) 次に,合成したrgb画像と共に深さと表面正規値を同時に発声する潜在構造拡散モデルを提案する。 本モデルでは,画像の出現,空間的関係,幾何の共学習を統一ネットワークで実施し,モデル内の各ブランチが構造認識とテクスチャ豊かさの両方で相互補完する。 3) さらに視覚的品質を高めるために,より詳細な高分解能発生のための予測条件を構成する構造ガイド精錬機を提案する。 大規模な実験により、我々のフレームワークは最先端の性能を示し、多様なシナリオ下で超現実的な人間の画像を生成する。 プロジェクトページ: https://snap-research.github.io/hyperhuman/

Despite significant advances in large-scale text-to-image models, achieving hyper-realistic human image generation remains a desirable yet unsolved task. Existing models like Stable Diffusion and DALL-E 2 tend to generate human images with incoherent parts or unnatural poses. To tackle these challenges, our key insight is that human image is inherently structural over multiple granularities, from the coarse-level body skeleton to fine-grained spatial geometry. Therefore, capturing such correlations between the explicit appearance and latent structure in one model is essential to generate coherent and natural human images. To this end, we propose a unified framework, HyperHuman, that generates in-the-wild human images of high realism and diverse layouts. Specifically, 1) we first build a large-scale human-centric dataset, named HumanVerse, which consists of 340M images with comprehensive annotations like human pose, depth, and surface normal. 2) Next, we propose a Latent Structural Diffusion Model that simultaneously denoises the depth and surface normal along with the synthesized RGB image. Our model enforces the joint learning of image appearance, spatial relationship, and geometry in a unified network, where each branch in the model complements to each other with both structural awareness and textural richness. 3) Finally, to further boost the visual quality, we propose a Structure-Guided Refiner to compose the predicted conditions for more detailed generation of higher resolution. Extensive experiments demonstrate that our framework yields the state-of-the-art performance, generating hyper-realistic human images under diverse scenarios. Project Page: https://snap-research.github.io/HyperHuman/
翻訳日:2023-10-14 08:14:07 公開日:2023-10-12
# 視覚言語モデルのスケーリングから視覚データ型理解は生まれない

Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models ( http://arxiv.org/abs/2310.08577v1 )

ライセンス: Link先を確認
Vishaal Udandarao, Max F. Burg, Samuel Albanie, Matthias Bethge(参考訳) 近年の視覚言語モデル(VLM)の発展は、構成的イメージ理解の印象的な例を含む視覚意味コンテンツ認識において顕著な成功を収めている。 ここでは,データキュレーション(大規模データセットからのノイズデータ削除,ドメイン固有検索など)と自律視覚(例えば,カメラのレンズ染色と気象条件の変化を区別する)に意味を持つ基本的な知覚スキルである \textit{visual data-type identification} という新しいタスクを紹介する。 4つのカテゴリにわたる27のvisual \textit{data-types}の多様なセットにまたがる動物画像からなる2つのデータセットを開発した。 100Mから80Bのパラメータを含む39個のVLMの広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。 VLMは漫画やスケッチのようなある種のスタイリスティックな \textit{data-types} を特定するのに適しているが、画像の回転や付加的なノイズといった基本的な操作から生じる単純な \textit{data-types} と競合する。 私たちの発見は (i)モデルスケーリングだけでCLIPのような対照的に訓練されたモデルに対して限界ゲインが得られる。 (ii)openflamingoのような最大の自己回帰訓練vlmの性能低下が顕著である。 この発見は、現在のフロンティアのVLMにおいて盲点を示している: セマンティックコンテンツを認識するのに優れるが、スケーリングを通じて視覚的 \textit{data-types} を理解することに失敗する。 これらのモデルの事前学習分布を分析し、微調整中にキャプションに \textit{data-type} 情報を組み込むことで、性能を大幅に向上する。 これまでにない課題を探索することにより,視覚的データ型理解を付加するために,VLMをさらに前進させるステージを設定することを目指している。 コードとデータセットは \href{https://github.com/bethgelab/datatypeidentification}{here} としてリリースされる。

Recent advances in the development of vision-language models (VLMs) are yielding remarkable success in recognizing visual semantic content, including impressive instances of compositional image understanding. Here, we introduce the novel task of \textit{Visual Data-Type Identification}, a basic perceptual skill with implications for data curation (e.g., noisy data-removal from large datasets, domain-specific retrieval) and autonomous vision (e.g., distinguishing changing weather conditions from camera lens staining). We develop two datasets consisting of animal images altered across a diverse set of 27 visual \textit{data-types}, spanning four broad categories. An extensive zero-shot evaluation of 39 VLMs, ranging from 100M to 80B parameters, shows a nuanced performance landscape. While VLMs are reasonably good at identifying certain stylistic \textit{data-types}, such as cartoons and sketches, they struggle with simpler \textit{data-types} arising from basic manipulations like image rotations or additive noise. Our findings reveal that (i) model scaling alone yields marginal gains for contrastively-trained models like CLIP, and (ii) there is a pronounced drop in performance for the largest auto-regressively trained VLMs like OpenFlamingo. This finding points to a blind spot in current frontier VLMs: they excel in recognizing semantic content but fail to acquire an understanding of visual \textit{data-types} through scaling. By analyzing the pre-training distributions of these models and incorporating \textit{data-type} information into the captions during fine-tuning, we achieve a significant enhancement in performance. By exploring this previously uncharted task, we aim to set the stage for further advancing VLMs to equip them with visual data-type understanding. Code and datasets are released \href{https://github.com/bethgelab/DataTypeIdentification}{here}.
翻訳日:2023-10-14 08:13:35 公開日:2023-10-12
# ディエンス対応によるアクションレスビデオからの行動学習

Learning to Act from Actionless Videos through Dense Correspondences ( http://arxiv.org/abs/2310.08576v1 )

ライセンス: Link先を確認
Po-Chen Ko, Jiayuan Mao, Yilun Du, Shao-Hua Sun, Joshua B. Tenenbaum(参考訳) 本稿では,アクションアノテーションを使わずに,様々なロボットや環境にまたがる多様なタスクを確実に実行可能な映像ベースのロボットポリシーを構築する手法を提案する。 本手法は,ロボットの目標を特定する汎用表現として,状態情報と行動情報の両方を符号化するタスク依存表現として画像を利用する。 ロボットが動作を実行するビデオの合成とフレーム間の密接な対応を組み合わせることで,明示的な動作ラベルを必要とせずに,閉鎖的な動作を環境に推論することができる。 このユニークな機能は、RGBビデオのみに基づいてポリシーをトレーニングし、さまざまなロボットタスクに学習されたポリシーをデプロイすることを可能にする。 テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。 さらに、効率的なビデオモデリングのためのオープンソースのフレームワークを提供し、一日で4つのGPUで高忠実度ポリシーモデルのトレーニングを可能にする。

In this work, we present an approach to construct a video-based robot policy capable of reliably executing diverse tasks across different robots and environments from few video demonstrations without using any action annotations. Our method leverages images as a task-agnostic representation, encoding both the state and action information, and text as a general representation for specifying robot goals. By synthesizing videos that ``hallucinate'' robot executing actions and in combination with dense correspondences between frames, our approach can infer the closed-formed action to execute to an environment without the need of any explicit action labels. This unique capability allows us to train the policy solely based on RGB videos and deploy learned policies to various robotic tasks. We demonstrate the efficacy of our approach in learning policies on table-top manipulation and navigation tasks. Additionally, we contribute an open-source framework for efficient video modeling, enabling the training of high-fidelity policy models with four GPUs within a single day.
翻訳日:2023-10-14 08:12:57 公開日:2023-10-12
# jigsaw: ai foundationモデルの組み立てによるマルチモーダルアプリケーションのプロトタイプ作成支援

Jigsaw: Supporting Designers in Prototyping Multimodal Applications by Assembling AI Foundation Models ( http://arxiv.org/abs/2310.08574v1 )

ライセンス: Link先を確認
David Chuan-En Lin, Nikolas Martelaro(参考訳) aiファウンデーションモデルの最近の進歩により、デザインコンセプトの考案やビジュアルプロトタイプの作成など、既製の創造的なタスクに使用できるようになりました。 しかし、これらのモデルを創造的なプロセスに統合することは、特定のタスクに適したスタンドアロンアプリケーションとしてしばしば存在するため、難しい。 この課題に対処するため,基礎モデルを表現するメタファーとしてパズルピースを用いたプロトタイプシステムであるJigsawを紹介した。 Jigsawは、互換性のあるパズルを組み立てることで、さまざまなモダリティでさまざまな基礎モデル機能を組み合わせることができる。 Jigsawの設計を知らせるために、私たちは10人のデザイナと設計目標についてインタビューしました。 ユーザスタディでは、Jigsawが利用可能な基盤モデル機能に対するデザイナの理解を強化し、さまざまなモダリティやタスクにまたがる機能の組み合わせに関するガイダンスを提供し、デザイン探索、プロトタイピング、ドキュメンテーションをサポートするキャンバスとして機能することを示しました。

Recent advancements in AI foundation models have made it possible for them to be utilized off-the-shelf for creative tasks, including ideating design concepts or generating visual prototypes. However, integrating these models into the creative process can be challenging as they often exist as standalone applications tailored to specific tasks. To address this challenge, we introduce Jigsaw, a prototype system that employs puzzle pieces as metaphors to represent foundation models. Jigsaw allows designers to combine different foundation model capabilities across various modalities by assembling compatible puzzle pieces. To inform the design of Jigsaw, we interviewed ten designers and distilled design goals. In a user study, we showed that Jigsaw enhanced designers' understanding of available foundation model capabilities, provided guidance on combining capabilities across different modalities and tasks, and served as a canvas to support design exploration, prototyping, and documentation.
翻訳日:2023-10-14 08:12:40 公開日:2023-10-12
# 情報理論分布の多様化によるフェデレーション一般化

Federated Generalization via Information-Theoretic Distribution Diversification ( http://arxiv.org/abs/2310.07171v2 )

ライセンス: Link先を確認
Zheshun Wu, Zenglin Xu, Dun Zeng, Qifan Wang(参考訳) Federated Learning (FL)は、直接的なデータ共有を伴わない協調モデルトレーニングの能力により、人気が高まっている。 しかし、非独立分散(非iid)チャレンジとしばしば呼ばれるクライアント間のローカルなデータ分散の差は、flの一般化効果にとって大きな障害となっている。 このシナリオは、すべてのクライアントがトレーニングプロセスに参加していない場合、不安定なネットワーク接続や計算能力の制限などにより、さらに複雑になる。 これは、訓練されたモデルの一般化能力の評価を大幅に複雑にする。 近年, 多様な分布を持つクライアントの未確認データに関する一般化のギャップが注目されているが, 参加クライアントのトレーニング分布と非参加クライアントの試験分布との相違は概ね見過ごされている。 そこで本稿では,FLのための情報理論の一般化フレームワークについて紹介する。 具体的には、局所分布の情報エントロピーを評価して一般化誤差を定量化し、これらの分布全体の不一致を識別する。 導出一般化境界に着想を得て、重み付け集約アプローチとクライアント選択戦略の二重化を導入する。 これらの革新は、より多様なクライアントデータ分布を包含することで、flの一般化を促進することを目的としている。 提案手法の有効性を再確認し,理論的構成とシームレスに一致させた。

Federated Learning (FL) has surged in prominence due to its capability of collaborative model training without direct data sharing. However, the vast disparity in local data distributions among clients, often termed the non-Independent Identically Distributed (non-IID) challenge, poses a significant hurdle to FL's generalization efficacy. The scenario becomes even more complex when not all clients participate in the training process, a common occurrence due to unstable network connections or limited computational capacities. This can greatly complicate the assessment of the trained models' generalization abilities. While a plethora of recent studies has centered on the generalization gap pertaining to unseen data from participating clients with diverse distributions, the divergence between the training distributions of participating clients and the testing distributions of non-participating ones has been largely overlooked. In response, our paper unveils an information-theoretic generalization framework for FL. Specifically, it quantifies generalization errors by evaluating the information entropy of local distributions and discerning discrepancies across these distributions. Inspired by our deduced generalization bounds, we introduce a weighted aggregation approach and a duo of client selection strategies. These innovations aim to bolster FL's generalization prowess by encompassing a more varied set of client data distributions. Our extensive empirical evaluations reaffirm the potency of our proposed methods, aligning seamlessly with our theoretical construct.
翻訳日:2023-10-14 02:31:27 公開日:2023-10-12
# 量子エンハンス予測:ストックリターン予測に量子グラム角場とcnnを活用する

Quantum-Enhanced Forecasting: Leveraging Quantum Gramian Angular Field and CNNs for Stock Return Predictions ( http://arxiv.org/abs/2310.07427v2 )

ライセンス: Link先を確認
Zhengmeng Xu and Hai Lin(参考訳) 量子グラム角場(qgaf)と呼ばれる時系列予測手法を提案する。 このアプローチは、時系列分類と予測の精度を高めることを目的として、量子コンピューティング技術の利点とディープラーニングを融合する。 我々は,特定の量子回路を設計することで,畳み込みニューラルネットワーク(cnn)トレーニングに適した二次元画像にストックリターン時系列データを変換することに成功した。 古典的なGramian Angular Field(GAF)アプローチとは違い、QGAFのユニークな点は、データの正規化や逆コサイン計算の必要性を排除し、時系列データから2次元画像への変換プロセスを簡素化することにある。 本手法の有効性を検証するために,中国a株市場,香港証券取引所,米国株式市場の3つの主要株式市場のデータセットについて実験を行った。 実験の結果,従来のGAF法と比較して,QGAF法では時系列予測精度が有意に向上し,平均絶対誤差(MAE)平均25%,平均正方形誤差(MSE)平均48%の予測誤差が減少した。 本研究は、金融時系列予測における量子コンピューティングとディープラーニング技術の統合の可能性と将来性を検証する。

We propose a time series forecasting method named Quantum Gramian Angular Field (QGAF). This approach merges the advantages of quantum computing technology with deep learning, aiming to enhance the precision of time series classification and forecasting. We successfully transformed stock return time series data into two-dimensional images suitable for Convolutional Neural Network (CNN) training by designing specific quantum circuits. Distinct from the classical Gramian Angular Field (GAF) approach, QGAF's uniqueness lies in eliminating the need for data normalization and inverse cosine calculations, simplifying the transformation process from time series data to two-dimensional images. To validate the effectiveness of this method, we conducted experiments on datasets from three major stock markets: the China A-share market, the Hong Kong stock market, and the US stock market. Experimental results revealed that compared to the classical GAF method, the QGAF approach significantly improved time series prediction accuracy, reducing prediction errors by an average of 25% for Mean Absolute Error (MAE) and 48% for Mean Squared Error (MSE). This research confirms the potential and promising prospects of integrating quantum computing with deep learning techniques in financial time series forecasting.
翻訳日:2023-10-14 02:22:38 公開日:2023-10-12
# 帰納的説明の公理的集約

Axiomatic Aggregations of Abductive Explanations ( http://arxiv.org/abs/2310.03131v3 )

ライセンス: Link先を確認
Gagan Biradar, Yacine Izza, Elita Lobo, Vignesh Viswanathan, Yair Zick(参考訳) ポストホックモデル近似法(LIMEやSHAPなど)のロバスト性に対する最近の批判は、モデル精度の導出的説明の台頭につながっている。 データポイントごとに、帰納的説明は結果を生成するのに十分な機能の最小限のサブセットを提供する。 理論上、健全で厳格な、誘惑的な説明は大きな問題に悩まされるが、同じデータポイントに対していくつかの有効な誘惑的な説明がある。 そのような場合、単一の帰納的説明を提供することは不十分であり、一方、有効な帰納的説明を提供することは、その大きさのため理解できない。 本研究では,この課題を,多量の帰納的説明を特徴量スコアに集約することで解決する。 本研究では,協調ゲーム理論のパワー指標に基づく2つの集計法と,既知の因果強度尺度に基づく3つの集計法を提案する。 これら3つの手法を公理的に特徴づけ、それぞれが一意に望ましい性質の集合を満たすことを示す。 また、複数のデータセット上で評価し、これらの説明がSHAPやLIMEを騙す攻撃に対して堅牢であることを示す。

The recent criticisms of the robustness of post hoc model approximation explanation methods (like LIME and SHAP) have led to the rise of model-precise abductive explanations. For each data point, abductive explanations provide a minimal subset of features that are sufficient to generate the outcome. While theoretically sound and rigorous, abductive explanations suffer from a major issue -- there can be several valid abductive explanations for the same data point. In such cases, providing a single abductive explanation can be insufficient; on the other hand, providing all valid abductive explanations can be incomprehensible due to their size. In this work, we solve this issue by aggregating the many possible abductive explanations into feature importance scores. We propose three aggregation methods: two based on power indices from cooperative game theory and a third based on a well-known measure of causal strength. We characterize these three methods axiomatically, showing that each of them uniquely satisfies a set of desirable properties. We also evaluate them on multiple datasets and show that these explanations are robust to the attacks that fool SHAP and LIME.
翻訳日:2023-10-13 22:44:08 公開日:2023-10-12
# テンソルプログラムvi:無限深層ニューラルネットワークにおける特徴学習

Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks ( http://arxiv.org/abs/2310.02244v5 )

ライセンス: Link先を確認
Greg Yang, Dingli Yu, Chen Zhu, Soufiane Hayou(参考訳) 無限幅のニューラルネットワークを分類し、 *optimal* 限界を識別することで、テンソルプログラム iv と v は *widthwise hyperparameter transfer* に対して $\mu$p と呼ばれる普遍的な方法、すなわち狭いものから広いニューラルネットワークの最適ハイパーパラメータを予測することを証明した。 ここでは、深い残留ネットワーク(resnets)の*depthwise parametrization*の類似分類について検討する。 我々はブロック乗数と学習率の深さ方向のパラメトリゼーションを、その無限幅とその深度制限によって分類する。 各ブロックが1つの層しか持たないresnetsでは、深さ-$\mu$pと呼ばれる一意な最適パラメトリゼーションを識別し、深さ方向のハイパーパラメータ転送を経験的に示す。 深さ-$\mu$p は、特徴の学習と特徴の多様性の両方を最大化することが特徴である。 これを実行すると、すべての均質な非線形性の中で絶対値が特徴の多様性を最大化し、実際に経験的に性能が著しく向上することがわかった。 しかし、各ブロックがより深い(現代の変圧器のような)場合、そのようなパラメトリゼーションの可能な無限深度制限の基本的な制限を見つけ、これは理論上も経験的にも単純なネットワーク上でも、Common Crawlで訓練されたメガトロン変換器と同様に説明できる。

By classifying infinite-width neural networks and identifying the *optimal* limit, Tensor Programs IV and V demonstrated a universal way, called $\mu$P, for *widthwise hyperparameter transfer*, i.e., predicting optimal hyperparameters of wide neural networks from narrow ones. Here we investigate the analogous classification for *depthwise parametrizations* of deep residual networks (resnets). We classify depthwise parametrizations of block multiplier and learning rate by their infinite-width-then-depth limits. In resnets where each block has only one layer, we identify a unique optimal parametrization, called Depth-$\mu$P that extends $\mu$P and show empirically it admits depthwise hyperparameter transfer. We identify *feature diversity* as a crucial factor in deep networks, and Depth-$\mu$P can be characterized as maximizing both feature learning and feature diversity. Exploiting this, we find that absolute value, among all homogeneous nonlinearities, maximizes feature diversity and indeed empirically leads to significantly better performance. However, if each block is deeper (such as modern transformers), then we find fundamental limitations in all possible infinite-depth limits of such parametrizations, which we illustrate both theoretically and empirically on simple networks as well as Megatron transformer trained on Common Crawl.
翻訳日:2023-10-13 22:43:49 公開日:2023-10-12
# 弾性決定変換器

Elastic Decision Transformer ( http://arxiv.org/abs/2307.02484v5 )

ライセンス: Link先を確認
Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya(参考訳) 本稿では,既存のDecision Transformer(DT)とその変種に対する大幅な進歩であるElastic Decision Transformer(EDT)を紹介する。 dtは最適軌道を生成することを主張するが、実験的な証拠は軌道縫いに苦しむことを示唆しており、これは一連の準最適軌道の最良の部分から最適軌道または至近軌道を生成する過程である。 提案するEMTは,DTに保持される履歴長を調整することにより,試験時間における動作推論時の軌跡縫合を容易にすることで,自分自身を識別する。 さらに、edtは、前回の軌道が最適であるときに長い履歴を保持し、副最適である場合にはより短い履歴を保持して軌道を最適化し、より最適な軌道で「固定」することができる。 広範な実験は、dtベースとqベースのアプローチのパフォーマンスギャップを橋渡しできるedtの能力を示している。 特に、EDTは、D4RLのローコモーションベンチマークとAtariゲームでマルチタスク方式でQ Learningベースの手法より優れている。 ビデオは、https://kristery.github.io/edt/で公開されている。

This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to "stitch" with a more optimal trajectory. Extensive experimentation demonstrates EDT's ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/
翻訳日:2023-10-13 22:41:37 公開日:2023-10-12
# 事前学習された視覚と言語モデルは視覚情報探索質問に答えられるか?

Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions? ( http://arxiv.org/abs/2302.11713v4 )

ライセンス: Link先を確認
Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang(参考訳) 事前訓練されたビジョンと言語モデルは、視覚質問応答を含む画像やテキストを含む既存のタスクよりも最先端の能力を示している。 しかし、これらのモデルが、視覚的コンテンツだけでなく、知識集約や情報探索といった質問に答える能力を持っているかどうかは不明だ。 本研究では,共通感覚知識だけでは回答できない情報検索質問用に調整された,視覚的質問応答データセットであるinfoseekを紹介する。 InfoSeekを用いて、事前学習した様々な視覚的質問応答モデルを分析し、その特徴について洞察を得る。 この結果から,最先端の事前学習型マルチモーダルモデル(PaLI-X,BLIP2など)は,視覚情報検索の課題に直面するが,InfoSeekデータセットの微調整では,事前学習中に学習した詳細な知識をモデルに与えていることがわかった。 さらに,関連する文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。

Pre-trained vision and language models have demonstrated state-of-the-art capabilities over existing tasks involving images and texts, including visual question answering. However, it remains unclear whether these models possess the capability to answer questions that are not only querying visual content but knowledge-intensive and information-seeking. In this study, we introduce InfoSeek, a visual question answering dataset tailored for information-seeking questions that cannot be answered with only common sense knowledge. Using InfoSeek, we analyze various pre-trained visual question answering models and gain insights into their characteristics. Our findings reveal that state-of-the-art pre-trained multi-modal models (e.g., PaLI-X, BLIP2, etc.) face challenges in answering visual information-seeking questions, but fine-tuning on the InfoSeek dataset elicits models to use fine-grained knowledge that was learned during their pre-training. Furthermore, we show that accurate visual entity recognition can be used to improve performance on InfoSeek by retrieving relevant documents, showing a significant space for improvement.
翻訳日:2023-10-13 14:37:02 公開日:2023-10-12
# 事前学習された視覚と言語モデルは視覚情報探索質問に答えられるか?

Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions? ( http://arxiv.org/abs/2302.11713v3 )

ライセンス: Link先を確認
Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang(参考訳) 事前訓練されたビジョンと言語モデルは、視覚質問応答を含む画像やテキストを含む既存のタスクよりも最先端の能力を示している。 しかし、これらのモデルが、視覚的コンテンツだけでなく、知識集約や情報探索といった質問に答える能力を持っているかどうかは不明だ。 本研究では,共通感覚知識だけでは回答できない情報検索質問用に調整された,視覚的質問応答データセットであるinfoseekを紹介する。 InfoSeekを用いて、事前学習した様々な視覚的質問応答モデルを分析し、その特徴について洞察を得る。 この結果から,最先端の事前学習型マルチモーダルモデル(PaLI-X,BLIP2など)は,視覚情報検索の課題に直面するが,InfoSeekデータセットの微調整では,事前学習中に学習した詳細な知識をモデルに与えていることがわかった。 さらに,関連する文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。

Pre-trained vision and language models have demonstrated state-of-the-art capabilities over existing tasks involving images and texts, including visual question answering. However, it remains unclear whether these models possess the capability to answer questions that are not only querying visual content but knowledge-intensive and information-seeking. In this study, we introduce InfoSeek, a visual question answering dataset tailored for information-seeking questions that cannot be answered with only common sense knowledge. Using InfoSeek, we analyze various pre-trained visual question answering models and gain insights into their characteristics. Our findings reveal that state-of-the-art pre-trained multi-modal models (e.g., PaLI-X, BLIP2, etc.) face challenges in answering visual information-seeking questions, but fine-tuning on the InfoSeek dataset elicits models to use fine-grained knowledge that was learned during their pre-training. Furthermore, we show that accurate visual entity recognition can be used to improve performance on InfoSeek by retrieving relevant documents, showing a significant space for improvement.
翻訳日:2023-10-13 14:36:42 公開日:2023-10-12
# 文脈化文学に基づく発見による新しい科学的方向の学習

Learning to Generate Novel Scientific Directions with Contextualized Literature-based Discovery ( http://arxiv.org/abs/2305.14259v3 )

ライセンス: Link先を確認
Qingyun Wang, Doug Downey, Heng Ji, Tom Hope(参考訳) 文学に基づく発見(LBD)は、論文の採掘と仮説の生成によって新しい科学的知識を発見することを目的としている。 標準LBDは、離散概念(例えば、薬物放出リンク)のペアワイズ関係の予測に限られており、実験的な設定(例えば、薬物が評価される特定の患者集団)や背景動機(例えば、特定の副作用のない薬物を見つけるために)のような重要な文脈を無視する。 これらの制約を文脈化されたLBD (C-LBD) の新たな定式化によって解決し、仮説探索空間を制御するコンテキストに基礎を置いている。 本稿では,過去の学術論文から<inspirations'を検索したモデルフレームワークを提案する。 評価の結果、gpt-4は技術的な奥行きが低く斬新なアイデアを生み出す傾向にあり、私たちのインスピレーションを促すアプローチがこの問題を部分的に緩和していることが明らかとなった。 私たちの研究は、科学文献から新たなアイデアを生み出す言語モデルを構築するための第一歩です。

Literature-Based Discovery (LBD) aims to discover new scientific knowledge by mining papers and generating hypotheses. Standard LBD is limited to predicting pairwise relations between discrete concepts (e.g., drug-disease links), and ignores critical contexts like experimental settings (e.g., a specific patient population where a drug is evaluated) and background motivations (e.g., to find drugs without specific side effects). We address these limitations with a novel formulation of contextualized-LBD (C-LBD): generating scientific hypotheses in natural language, while grounding them in a context that controls the hypothesis search space. We present a modeling framework using retrieval of ``inspirations'' from past scientific papers. Our evaluations reveal that GPT-4 tends to generate ideas with overall low technical depth and novelty, while our inspiration prompting approaches partially mitigate this issue. Our work represents a first step toward building language models that generate new ideas derived from scientific literature.
翻訳日:2023-10-13 12:26:09 公開日:2023-10-12
# 文脈化文学に基づく発見による新しい科学的方向の学習

Learning to Generate Novel Scientific Directions with Contextualized Literature-based Discovery ( http://arxiv.org/abs/2305.14259v2 )

ライセンス: Link先を確認
Qingyun Wang, Doug Downey, Heng Ji, Tom Hope(参考訳) 文学に基づく発見(LBD)は、論文の採掘と仮説の生成によって新しい科学的知識を発見することを目的としている。 標準LBDは、離散概念(例えば、薬物放出リンク)のペアワイズ関係の予測に限られており、実験的な設定(例えば、薬物が評価される特定の患者集団)や背景動機(例えば、特定の副作用のない薬物を見つけるために)のような重要な文脈を無視する。 これらの制約を文脈化されたLBD (C-LBD) の新たな定式化によって解決し、仮説探索空間を制御するコンテキストに基礎を置いている。 本稿では,過去の学術論文から<inspirations'を検索したモデルフレームワークを提案する。 評価の結果、gpt-4は技術的な奥行きが低く斬新なアイデアを生み出す傾向にあり、私たちのインスピレーションを促すアプローチがこの問題を部分的に緩和していることが明らかとなった。 私たちの研究は、科学文献から新たなアイデアを生み出す言語モデルを構築するための第一歩です。

Literature-Based Discovery (LBD) aims to discover new scientific knowledge by mining papers and generating hypotheses. Standard LBD is limited to predicting pairwise relations between discrete concepts (e.g., drug-disease links), and ignores critical contexts like experimental settings (e.g., a specific patient population where a drug is evaluated) and background motivations (e.g., to find drugs without specific side effects). We address these limitations with a novel formulation of contextualized-LBD (C-LBD): generating scientific hypotheses in natural language, while grounding them in a context that controls the hypothesis search space. We present a modeling framework using retrieval of ``inspirations'' from past scientific papers. Our evaluations reveal that GPT-4 tends to generate ideas with overall low technical depth and novelty, while our inspiration prompting approaches partially mitigate this issue. Our work represents a first step toward building language models that generate new ideas derived from scientific literature.
翻訳日:2023-10-13 12:25:48 公開日:2023-10-12
# PlatoLM: ソクラティック質問ユーザシミュレータによるLLM教育

PlatoLM: Teaching LLMs via a Socratic Questioning User Simulator ( http://arxiv.org/abs/2308.11534v4 )

ライセンス: Link先を確認
Chuyi Kong, Yaxin Fan, Xiang Wan, Feng Jiang, Benyou Wang(参考訳) クローズドソースのChatGPTのパフォーマンスは、Vicunaが証明したように、実際のユーザとChatGPTの会話を活用することで、その民主化への努力を喚起している。 しかし、人間の参加に関わる会話を集める上での課題から、BaizeやUltraChatといった現在の取り組みは、会話データを自動的に生成することを目指している。 彼らは主に、人間からの本物の学習ではなく、指示に基づいて人間の行動をシミュレートするために、チャットgptを実行することに頼り、スコープが限られ、多様性が減少し、真のマルチラウンド会話のダイナミクスが欠如した。 上記の課題に対処するため,真の人間機械会話から抽出した人間の質問を学習目標とし,「ソクラティック」と呼ばれるユーザシミュレーターを訓練し,高品質な人間中心の合成会話データセットを作成する。 その後、このデータセットを使用して、"PlatoLM"という名前のアシスタントモデルをトレーニングしました。 実験により,platolmは,等価なトレーニングセットサイズを考慮した場合の対数比較により,vicuna-benchおよびmt-benchのベースラインモデルを上回った。 興味深いことに、最新のLLaMA 2モデルで微調整されたPlatoLMは、MT-BenchベンチマークとAlpaca-Evalベンチマークで7Bモデル(LLaMA-2-13B-chatやGPT-3.5など)のSOTA性能を達成した。 さらに詳細な分析により,我々のアプローチのスケーラビリティと伝達性を示す。 コードはhttps://github.com/FreedomIntelligence/PlatoLMで公開されている。

The unparalleled performance of closed-sourced ChatGPT has sparked efforts towards its democratization, with notable strides made by leveraging real user and ChatGPT conversations, as evidenced by Vicuna. However, due to challenges in gathering conversations involving human participation, current endeavors like Baize and UltraChat aim to automatically generate conversational data. They primarily rely on ChatGPT conducting roleplay to simulate human behaviors based on instructions rather than genuine learning from humans, resulting in limited scope, diminished diversity, and an absence of genuine multi-round conversational dynamics. To address the above issues, we target human questions extracted from genuine human-machine conversations as a learning goal and train a user simulator called `Socratic' to produce a high-quality human-centric synthetic conversation dataset. Subsequently, this dataset was used to train our assistant model, named `PlatoLM'. Experimentally, PlatoLM outpaces baseline models in both Vicuna-Bench and MT-Bench by pairwise comparison when considering equivalent training set sizes, and manual evaluation also shows that our model is highly competitive. Impressively, when fine-tuned with the latest LLaMA 2 model, PlatoLM achieves the SOTA performance among 7B models (including LLaMA-2-7B-chat and Vicuna-7B) in MT-Bench benchmark and in Alpaca-Eval benchmark, it ranks second among 7B models, even beating some larger scale models (including LLaMA-2-13B-chat and GPT-3.5). Further in-depth analysis demonstrates the scalability and transferability of our approach. The code is available at https://github.com/FreedomIntelligence/PlatoLM.
翻訳日:2023-10-13 11:45:50 公開日:2023-10-12
# SpikeCLIP: コントラスト言語による事前訓練型スパイクニューラルネットワーク

SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network ( http://arxiv.org/abs/2310.06488v2 )

ライセンス: Link先を確認
Tianlong Li, Wenhao Liu, Changze Lv, Jianhan Xu, Cenyuan Zhang, Muling Wu, Xiaoqing Zheng, Xuanjing Huang(参考訳) スパイキングニューラルネットワーク(SNN)は、視覚領域と言語領域の両方においてディープニューラルネットワーク(DNN)に匹敵する性能を達成する能力を示し、エネルギー効率の改善と生物学的な可視性への固執の利点を提供する。 しかし、そのような単一モダリティSNNをマルチモーダルシナリオの領域に拡張することは、まだ未解決領域である。 対照的な言語イメージ事前学習(CLIP)の概念からインスピレーションを得た新しいフレームワークであるSpikeCLIPを導入し、スパイクベースのコンピューティングの文脈における2つのモード間のギャップを「アライメント事前学習+デュアルロス微調整」を含む2段階のレシピで解決する。 大規模な実験により、SNNはDNNと同等の結果を得る一方で、マルチモーダルモデル評価に一般的に使用される様々なデータセットのエネルギー消費を大幅に削減することを示した。 さらに、SpikeCLIPは、特定のカテゴリ内で事前に定義されていないクラスラベルを含む画像分類タスクにおいて、堅牢なパフォーマンスを維持している。

Spiking neural networks (SNNs) have demonstrated the capability to achieve comparable performance to deep neural networks (DNNs) in both visual and linguistic domains while offering the advantages of improved energy efficiency and adherence to biological plausibility. However, the extension of such single-modality SNNs into the realm of multimodal scenarios remains an unexplored territory. Drawing inspiration from the concept of contrastive language-image pre-training (CLIP), we introduce a novel framework, named SpikeCLIP, to address the gap between two modalities within the context of spike-based computing through a two-step recipe involving ``Alignment Pre-training + Dual-Loss Fine-tuning". Extensive experiments demonstrate that SNNs achieve comparable results to their DNN counterparts while significantly reducing energy consumption across a variety of datasets commonly used for multimodal model evaluation. Furthermore, SpikeCLIP maintains robust performance in image classification tasks that involve class labels not predefined within specific categories.
翻訳日:2023-10-13 11:33:16 公開日:2023-10-12
# GPT-4はAgronomist Assistant? 大規模言語モデルを用いた農業試験の回答

GPT-4 as an Agronomist Assistant? Answering Agriculture Exams Using Large Language Models ( http://arxiv.org/abs/2310.06225v2 )

ライセンス: Link先を確認
Bruno Silva, Leonardo Nunes, Roberto Estev\~ao, Vijay Aski, Ranveer Chandra(参考訳) 大規模言語モデル(LLM)は、医療や金融など、さまざまな分野における自然言語理解において顕著な能力を示している。 一部のタスクでは、LLMは訓練された人間よりも類似または優れたパフォーマンスを達成するため、LLMのパフォーマンスを評価するために人間の試験(例えば、認定試験)を採用するのが妥当である。 本稿では,Llama 2 や GPT などの一般的な LLM の総合評価を行い,農業関連問題への回答能力について述べる。 評価では,情報検索と生成機能を組み合わせたRAG(Retrieval-Augmented Generation)とER(Ensemble Refinement)技術を採用し,LCMの性能向上のための戦略を推進している。 LLMの能力を実証するため,ブラジル,インド,米国の三大農業生産国から,農業試験とベンチマークデータセットを選択した。 分析では,gpt-4がagronomist認定の更新のクレジットを得るための試験のパススコアを達成する能力を強調し,質問の93%を正しく回答し,88%の精度を実現した従来の汎用モデルよりも優れていた。 実験の1つで, GPT-4はヒトと比較して高い性能を示した。 この成績は、GPT-4が大卒の入学試験に合格したり、アグロノミー認定証の更新のクレジットを得られる可能性を示唆している。 また、ブラジル農業庁(Embrapa)の堅牢なデータセットとインドからの大学院プログラム試験を利用して、一般的な農業関連問題に対処し、ブラジルおよびインドの農家のための作物管理ガイドラインを作成するためのモデルの能力についても検討する。 その結果, GPT-4, ER, RAGは農業教育, 評価, 作物管理の実践に有意義に寄与し, 農家や農業専門家に貴重な洞察を与えることができた。

Large language models (LLMs) have demonstrated remarkable capabilities in natural language understanding across various domains, including healthcare and finance. For some tasks, LLMs achieve similar or better performance than trained human beings, therefore it is reasonable to employ human exams (e.g., certification tests) to assess the performance of LLMs. We present a comprehensive evaluation of popular LLMs, such as Llama 2 and GPT, on their ability to answer agriculture-related questions. In our evaluation, we also employ RAG (Retrieval-Augmented Generation) and ER (Ensemble Refinement) techniques, which combine information retrieval, generation capabilities, and prompting strategies to improve the LLMs' performance. To demonstrate the capabilities of LLMs, we selected agriculture exams and benchmark datasets from three of the largest agriculture producer countries: Brazil, India, and the USA. Our analysis highlights GPT-4's ability to achieve a passing score on exams to earn credits for renewing agronomist certifications, answering 93% of the questions correctly and outperforming earlier general-purpose models, which achieved 88% accuracy. On one of our experiments, GPT-4 obtained the highest performance when compared to human subjects. This performance suggests that GPT-4 could potentially pass on major graduate education admission tests or even earn credits for renewing agronomy certificates. We also explore the models' capacity to address general agriculture-related questions and generate crop management guidelines for Brazilian and Indian farmers, utilizing robust datasets from the Brazilian Agency of Agriculture (Embrapa) and graduate program exams from India. The results suggest that GPT-4, ER, and RAG can contribute meaningfully to agricultural education, assessment, and crop management practice, offering valuable insights to farmers and agricultural professionals.
翻訳日:2023-10-13 11:32:57 公開日:2023-10-12
# Lyapunovの予測通り、ライオンは秘密裏に最適化する

Lion Secretly Solves Constrained Optimization: As Lyapunov Predicts ( http://arxiv.org/abs/2310.05898v2 )

ライセンス: Link先を確認
Lizhang Chen, Bo Liu, Kaizhao Liang, Qiang Liu(参考訳) プログラム検索を通じて発見された新しいオプティマイザであるLion(Evolved Sign Momentum)は、大規模なAIモデルのトレーニングにおいて有望な結果を示している。 AdamWと同等か好意的に動作するが、メモリ効率は高い。 ランダム探索プログラムの結果から想像できるように、lionは、符号付き運動量、デカップリングされた重みの減衰、polak、ネステロフ運動量を含む、いくつかの既存のアルゴリズムの要素を組み込んでいるが、理論上既定のオプティマイザのどのカテゴリにも当てはまらない。 したがって、ライオンは幅広いタスクの汎用最適化器として機能するように見えるが、理論的根拠は定かではない。 この理論的明快さの欠如は、ライオンの有効性をさらに強化し拡大する機会を制限している。 この作品はライオンを軽蔑することを目的としている。 連続時間解析と離散時間解析の両方に基づき、Lion は一般損失関数 $f(x)$ を最小化し、有界制約 $\|x\|_\infty \leq 1/\lambda$ を強制する理論的および原理的アプローチであることを示した。 ライオンはこれをデカップリングウェイト崩壊の包含によって達成し、$\lambda$はウェイト崩壊係数を表す。 我々の分析はライオン更新のための新しいリアプノフ関数の開発によって可能である。 これは、Lion-$\kappa$アルゴリズムのより広範なファミリーに適用され、Lionの$\text{sign}(\cdot)$演算子は凸関数 $\kappa$ の次数に置き換えられ、一般的な合成最適化問題である $\min_x f(x) + \kappa^*(x)$ の解となる。 我々の発見はライオンのダイナミクスに関する貴重な洞察を与え、ライオン関連アルゴリズムのさらなる改良と拡張の道を開く。

Lion (Evolved Sign Momentum), a new optimizer discovered through program search, has shown promising results in training large AI models. It performs comparably or favorably to AdamW but with greater memory efficiency. As we can expect from the results of a random search program, Lion incorporates elements from several existing algorithms, including signed momentum, decoupled weight decay, Polak, and Nesterov momentum, but does not fit into any existing category of theoretically grounded optimizers. Thus, even though Lion appears to perform well as a general-purpose optimizer for a wide range of tasks, its theoretical basis remains uncertain. This lack of theoretical clarity limits opportunities to further enhance and expand Lion's efficacy. This work aims to demystify Lion. Based on both continuous-time and discrete-time analysis, we demonstrate that Lion is a theoretically novel and principled approach for minimizing a general loss function $f(x)$ while enforcing a bound constraint $\|x\|_\infty \leq 1/\lambda$. Lion achieves this through the incorporation of decoupled weight decay, where $\lambda$ represents the weight decay coefficient. Our analysis is made possible by the development of a new Lyapunov function for the Lion updates. It applies to a broader family of Lion-$\kappa$ algorithms, where the $\text{sign}(\cdot)$ operator in Lion is replaced by the subgradient of a convex function $\kappa$, leading to the solution of a general composite optimization problem of $\min_x f(x) + \kappa^*(x)$. Our findings provide valuable insights into the dynamics of Lion and pave the way for further improvements and extensions of Lion-related algorithms.
翻訳日:2023-10-13 11:32:24 公開日:2023-10-12
# Qibosoq:量子回路RFSoCプログラミングのためのオープンソースのフレームワーク

Qibosoq: an open-source framework for quantum circuit RFSoC programming ( http://arxiv.org/abs/2310.05851v2 )

ライセンス: Link先を確認
Rodolfo Carobene, Alessandro Candido, Javier Serrano, Alvaro Orgaz-Fuertes, Andrea Giachero, Stefano Carrazza(参考訳) 本稿では,自己ホスト型量子処理装置上で任意のパルスシーケンスを実行するためのrfsoc(radio frequency system on chip)用に設計された,オープンソースのサーバサイドソフトウェアパッケージqibosoqを提案する。 qibosoqは、量子計測制御キットであるqickによって提供されるrfsocファームウェアと、量子コンピューティングミドルウェアフレームワークであるqiboをブリッジする。 実験家や開発者は、クライアントサーバ通信プロトコルのすべての複雑な側面をライブラリに委譲し、テストと検証プロトコルを実装します。 クライアントサイドの統合は、qiboの量子ハードウェア制御のための専用ソフトウェアモジュールqibolabに実装された専用ドライバによって達成される。 したがって、このセットアップはRFSoCエレクトロニクスによって制御される独自の自己ホスト型量子ハードウェアプラットフォームに回路ベースのアルゴリズムをデプロイするためのシームレスなメカニズムを提供する。 まず、ソフトウェアパッケージのすべてのコンポーネントの状態を説明し、超伝導量子ビットプラットフォームにおける制御設定の例を示す。 最後に、RFSoC性能と回路ベースアルゴリズムに関する応用結果について述べる。

We present Qibosoq, an open-source server-side software package designed for radio frequency system on chip (RFSoC) for executing arbitrary pulse sequences on self-hosted quantum processing units. Qibosoq bridges the RFSoC firmware provided by Qick, a Quantum Instrumentation Control Kit, with Qibo, a quantum computing middleware framework. It enables experimentalists and developers to delegate all complex aspects of client-server communication protocols to the library, implementing tests and validation protocols. The client-side integration is achieved with dedicated drivers implemented in Qibolab, the specialized software module of Qibo for quantum hardware control. Therefore, this setup provides a seamless mechanism to deploy circuit-based algorithms on custom self-hosted quantum hardware platforms controlled by RFSoC electronics. We first describe the status of all components of the software package, then we show examples of control setup for superconducting qubits platforms. Finally, we present successful application results related to RFSoC performance and circuit-based algorithms.
翻訳日:2023-10-13 11:31:46 公開日:2023-10-12
# 法的事実からの自動議論生成

Automated Argument Generation from Legal Facts ( http://arxiv.org/abs/2310.05680v3 )

ライセンス: Link先を確認
Oscar Tuvey, Procheta Sen(参考訳) 差し掛かるケースの数は、各国で指数関数的に増加した(例えば、インドだけで1000万件以上の差し掛かっているケースがある)。 主な問題は、法律体系に提出された事件の数が、ある国の法律専門家の数よりもはるかに多いという事実にある。 この世界的な状況を踏まえると、AI技術の利用は、法的手続きの効率性とスピードを高めるために最重要視されている。 本研究では,訴訟分析の過程において,法的専門家を支援することに焦点を当てた。 我々の具体的な調査は、オープンソースの大規模言語モデルの生成能力を活用して、訴訟に存在する事実から派生した議論を生み出すことである。 実験結果から,ベストパフォーマンスメソッドから生成された引数は,ベンチマークセットのゴールド標準アノテーションと平均63%の重なりを持つことがわかった。

The count of pending cases has shown an exponential rise across nations (e.g., with more than 10 million pending cases in India alone). The main issue lies in the fact that the number of cases submitted to the law system is far greater than the available number of legal professionals present in a country. Given this worldwide context, the utilization of AI technology has gained paramount importance to enhance the efficiency and speed of legal procedures. In this study we partcularly focus on helping legal professionals in the process of analyzing a legal case. Our specific investigation delves into harnessing the generative capabilities of open-sourced large language models to create arguments derived from the facts present in legal cases. Experimental results show that the generated arguments from the best performing method have on average 63% overlap with the benchmark set gold standard annotations.
翻訳日:2023-10-13 11:31:26 公開日:2023-10-12
# 局所性を考慮した一般化暗黙的神経表現

Locality-Aware Generalizable Implicit Neural Representation ( http://arxiv.org/abs/2310.05624v2 )

ライセンス: Link先を確認
Doyup Lee, Chiheon Kim, Minsu Cho, Wook-Shin Han(参考訳) generalizable implicit neural representation (inr)は、単一の連続関数、すなわち座標ベースのニューラルネットワークが、潜在コードを用いて重みや中間特徴を変調することで、複数のデータインスタンスを表現できる。 しかし、最先端変調の表現力は、特定のピクセルや光線などのデータエンティティの詳細な詳細をローカライズおよびキャプチャできないために制限されている。 この問題に対処するために,変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRフレームワークを提案する。 トランスコーダは、データインスタンスから潜在トークンのセットを予測して、各潜在トークンにローカル情報をエンコードする。 局所性認識INRデコーダは、座標入力のクロスアテンションを介して潜在トークンを選択的に集約して変調ベクトルを抽出し、複数の周波数帯域を通して粗大な変調で段階的に復号することで出力を予測する。 選択的トークンアグリゲーションとマルチバンド特徴変調により,空間的およびスペクトル的側面における局所性認識表現をそれぞれ学習できる。 このフレームワークは,従来の一般化したinrsを著しく上回っており,画像生成などの下流タスクにおける局所性を考慮した潜在子の有用性を検証している。

Generalizable implicit neural representation (INR) enables a single continuous function, i.e., a coordinate-based neural network, to represent multiple data instances by modulating its weights or intermediate features using latent codes. However, the expressive power of the state-of-the-art modulation is limited due to its inability to localize and capture fine-grained details of data entities such as specific pixels and rays. To address this issue, we propose a novel framework for generalizable INR that combines a transformer encoder with a locality-aware INR decoder. The transformer encoder predicts a set of latent tokens from a data instance to encode local information into each latent token. The locality-aware INR decoder extracts a modulation vector by selectively aggregating the latent tokens via cross-attention for a coordinate input and then predicts the output by progressively decoding with coarse-to-fine modulation through multiple frequency bandwidths. The selective token aggregation and the multi-band feature modulation enable us to learn locality-aware representation in spatial and spectral aspects, respectively. Our framework significantly outperforms previous generalizable INRs and validates the usefulness of the locality-aware latents for downstream tasks such as image generation.
翻訳日:2023-10-13 11:31:14 公開日:2023-10-12
# ゆるい唇シンク船:人間フィードバックからの強化学習における長さバイアスの軽減

Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2310.05199v2 )

ライセンス: Link先を確認
Wei Shen, Rui Zheng, Wenyu Zhan, Jun Zhao, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 人間のフィードバックからの強化学習は重要な橋渡しとなり、大きな言語モデルと人間と社会の価値観を結びつける。 このアライメントには、報酬モデルを学ぶために膨大な人間のフィードバックが必要であり、その後言語モデルの微調整に使用される。 しかし、報酬モデルが意図した目的を回避できるショートカットを見つけることがしばしばあり、人間がより長い反応を好むと誤解を招く。 長さバイアスの出現は、しばしばより長い出力を好むようモデルに誘導するが、これらの出力内で有用な情報の増加には相当しない。 本稿では,報酬モデルとシーケンス長の影響を分離するためにProduct-of-Experts(PoE)技術を適用した革新的なソリューションを提案する。 我々のフレームワークでは、主要な専門家は人間の意図を理解することに集中し、偏りのある専門家は長さバイアスの識別と捕捉を目標としています。 偏見の学習をさらに促進するために,偏見に着目した専門家に摂動を導入し,意味情報の流路を乱す。 提案手法の有効性を実験的に検証し,シーケンス長に関わらず,言語モデルの性能が向上したことを示す。

Reinforcement learning from human feedback serves as a crucial bridge, aligning large language models with human and societal values. This alignment requires a vast corpus of human feedback to learn a reward model, which is subsequently used to finetune language models. However, we have identified that the reward model often finds shortcuts to bypass its intended objectives, misleadingly assuming that humans prefer longer responses. The emergence of length bias often induces the model to favor longer outputs, yet it doesn't equate to an increase in helpful information within these outputs. In this paper, we propose an innovative solution, applying the Product-of-Experts (PoE) technique to separate reward modeling from the influence of sequence length. In our framework, the main expert concentrates on understanding human intents, while the biased expert targets the identification and capture of length bias. To further enhance the learning of bias, we introduce perturbations into the bias-focused expert, disrupting the flow of semantic information. Experimental results validate the effectiveness of our approach, indicating that language model performance is improved, irrespective of sequence length.
翻訳日:2023-10-13 11:30:40 公開日:2023-10-12
# tempo:時系列予測のためのプロンプトベース生成事前学習トランス

TEMPO: Prompt-based Generative Pre-trained Transformer for Time Series Forecasting ( http://arxiv.org/abs/2310.04948v2 )

ライセンス: Link先を確認
Defu Cao, Furong Jia, Sercan O Arik, Tomas Pfister, Yixiang Zheng, Wen Ye, Yan Liu(参考訳) 過去10年間、ディープラーニングによる時系列モデリングが大幅に進歩している。 最先端の成果を得る一方で、ベストパフォーマンスなアーキテクチャはアプリケーションやドメインによって大きく異なります。 一方、自然言語処理では、GPT(Generative Pre-trained Transformer)が、さまざまなテキストデータセットにまたがる1つの汎用モデルをトレーニングすることで、素晴らしいパフォーマンスを示している。 GPT型アーキテクチャが時系列に有効であるかどうかを探求し、本質的な動的属性をキャプチャし、精度を大幅に向上させる。 本稿では,時系列表現を効果的に学習できる新しいフレームワークであるtempoを提案する。 事前学習モデルにおける時系列課題の2つの本質的帰納バイアスの活用に焦点をあてた。 (i)傾向、季節、残留成分の複雑な相互作用の分解 (ii)非定常時系列における分布適応を容易にするために選択に基づくプロンプトを導入する。 TEMPOは、様々な領域のデータから現実世界の時間現象を動的にモデル化する機能を拡張する。 本実験は,多数の時系列ベンチマークデータセット上での最先端手法よりもTEMPOの方が優れた性能を示す。 このパフォーマンス向上は、標準的な教師付き学習設定だけでなく、以前見つからなかったデータセットを含むシナリオや、マルチモーダル入力のシナリオでも観察される。 この魅力的な発見は、基礎的なモデル構築フレームワークを構成するTEMPOの可能性を強調します。

The past decade has witnessed significant advances in time series modeling with deep learning. While achieving state-of-the-art results, the best-performing architectures vary highly across applications and domains. Meanwhile, for natural language processing, the Generative Pre-trained Transformer (GPT) has demonstrated impressive performance via training one general-purpose model across various textual datasets. It is intriguing to explore whether GPT-type architectures can be effective for time series, capturing the intrinsic dynamic attributes and leading to significant accuracy improvements. In this paper, we propose a novel framework, TEMPO, that can effectively learn time series representations. We focus on utilizing two essential inductive biases of the time series task for pre-trained models: (i) decomposition of the complex interaction between trend, seasonal and residual components; and (ii) introducing the selection-based prompts to facilitate distribution adaptation in non-stationary time series. TEMPO expands the capability for dynamically modeling real-world temporal phenomena from data within diverse domains. Our experiments demonstrate the superior performance of TEMPO over state-of-the-art methods on a number of time series benchmark datasets. This performance gain is observed not only in standard supervised learning settings but also in scenarios involving previously unseen datasets as well as in scenarios with multi-modal inputs. This compelling finding highlights TEMPO's potential to constitute a foundational model-building framework.
翻訳日:2023-10-13 11:29:50 公開日:2023-10-12
# ダイヤモンド中のスピンの周波数混合分光

Frequency mixing spectroscopy of spins in diamond ( http://arxiv.org/abs/2310.07398v2 )

ライセンス: Link先を確認
Mohammed Attrash, Sergei Masis, Sergey Hazanov, Oleg Shtempluck and Eyal Buks(参考訳) スピン系における周波数混合プロセスは、気象学や量子データ処理に様々な応用がある。 周波数混合に基づくスピン分光は、駆動と検出の間のクロストークを排除できるなど、いくつかの利点がある。 ダイヤモンド中の負電荷窒素空孔欠陥を有する非線形周波数混合過程を低温および準レベル反交差で実験的に検討した。 実験装置は縦方向と横方向に同時に磁気駆動を行うことができる。 磁気共鳴検出は、Landau Zener St\"uckelberg interferometry と 2-tone driving spectroscopy の両方を用いて実証される。 実験結果は、回転波近似に基づく理論解析の予測と比較した。

Frequency mixing processes in spin systems have a variety of applications in meteorology and in quantum data processing. Spin spectroscopy based on frequency mixing offers some advantages, including the ability to eliminate crosstalk between driving and detection. We experimentally explore nonlinear frequency mixing processes with negatively charged nitrogen-vacancy defects in diamond at low temperatures, and near level anti crossing. The experimental setup allows simultaneously applying magnetic driving in the longitudinal and transverse directions. Magnetic resonance detection is demonstrated using both Landau Zener St\"uckelberg interferometry and two-tone driving spectroscopy. The experimental results are compared with predictions of a theoretical analysis based on the rotating wave approximation.
翻訳日:2023-10-13 11:24:25 公開日:2023-10-12
# GraphControl: グラフドメイン転送学習のためのUniversal Graph事前学習モデルに条件制御を追加する

GraphControl: Adding Conditional Control to Universal Graph Pre-trained Models for Graph Domain Transfer Learning ( http://arxiv.org/abs/2310.07365v2 )

ライセンス: Link先を確認
Yun Zhu, Yaoke Wang, Haizhou Shi, Zhenshuo Zhang, Siliang Tang(参考訳) グラフ構造化データは、オブジェクト間の複雑な関係をモデル化し、様々なwebアプリケーションを可能にする世界でユビキタスである。 Web上のラベルなしグラフデータの毎日の流入は、これらのアプリケーションにとって大きな可能性を秘めている。 グラフ自己教師付きアルゴリズムは、豊富なラベルのないグラフデータからジェネリック知識を取得することに成功している。 これらの事前トレーニングされたモデルは、さまざまなダウンストリームwebアプリケーションに適用でき、トレーニング時間を短縮し、ダウンストリーム(ターゲット)パフォーマンスを改善する。 しかし、類似しているように見えるドメインの異なるグラフは、属性のセマンティクスの観点からは、トレーニング済みのモデルを下流のタスクに転送する際の困難を生じさせる可能性がある。 具体的には、例えば、下流タスク(特異性)におけるタスク固有の追加情報は通常、事前訓練された表現(転送可能性)を活用できるように意図的に省略される。 このようなトレードオフは、この作品において「伝達可能性-特異性ジレンマ」と呼ばれる。 この課題に対処するために、我々は、より良いグラフドメイン転送学習を実現するために、Controlと呼ばれるGraphControlと呼ばれる革新的なデプロイモジュールを導入しました。 具体的には、普遍的構造事前学習モデルとグラフ制御を利用することで、様々なグラフにまたがる入力空間を整列し、対象データのユニークな特徴を条件付き入力として取り入れる。 これらの条件は、コントロールネットによる微調整や迅速なチューニングの間、段階的にモデルに統合され、パーソナライズされたデプロイメントが容易になる。 実験の結果,提案手法は,対象とする属性データセットに対する事前学習モデルの適応性を著しく向上し,1.4~3倍の性能向上を達成した。 さらに、ターゲットデータに対するトレーニング・バイ・スクラッチ法を同等のマージンで上回り、より高速な収束を示す。

Graph-structured data is ubiquitous in the world which models complex relationships between objects, enabling various Web applications. Daily influxes of unlabeled graph data on the Web offer immense potential for these applications. Graph self-supervised algorithms have achieved significant success in acquiring generic knowledge from abundant unlabeled graph data. These pre-trained models can be applied to various downstream Web applications, saving training time and improving downstream (target) performance. However, different graphs, even across seemingly similar domains, can differ significantly in terms of attribute semantics, posing difficulties, if not infeasibility, for transferring the pre-trained models to downstream tasks. Concretely speaking, for example, the additional task-specific node information in downstream tasks (specificity) is usually deliberately omitted so that the pre-trained representation (transferability) can be leveraged. The trade-off as such is termed as "transferability-specificity dilemma" in this work. To address this challenge, we introduce an innovative deployment module coined as GraphControl, motivated by ControlNet, to realize better graph domain transfer learning. Specifically, by leveraging universal structural pre-trained models and GraphControl, we align the input space across various graphs and incorporate unique characteristics of target data as conditional inputs. These conditions will be progressively integrated into the model during fine-tuning or prompt tuning through ControlNet, facilitating personalized deployment. Extensive experiments show that our method significantly enhances the adaptability of pre-trained models on target attributed datasets, achieving 1.4-3x performance gain. Furthermore, it outperforms training-from-scratch methods on target data with a comparable margin and exhibits faster convergence.
翻訳日:2023-10-13 11:24:14 公開日:2023-10-12
# WiGenAI:拡散モデルによるワイヤレスおよび生成AIのシンフォニー

WiGenAI: The Symphony of Wireless and Generative AI via Diffusion Models ( http://arxiv.org/abs/2310.07312v2 )

ライセンス: Link先を確認
Mehdi Letafati, Samad Ali, and Matti Latva-aho(参考訳) GPT-3や安定拡散モデルのような革新的基礎モデルは、人工知能(AI)の領域をAIベースのシステムへとパラダイムシフトさせた。 データ通信とネットワークの観点から見ると、AIと機械学習(AI/ML)アルゴリズムは、次世代の無線通信システムに広く組み込まれ、創発的な通信シナリオに対する新しいAIネイティブソリューションの必要性を強調している。 本稿では,無線通信システムにおける生成AIの応用について概説する。 生成モデルの新たな最先端パラダイムである拡散型生成モデルを導入し,無線通信システムにおけるそれらの応用について論じる。 レジリエントなAIネイティブ通信システムの開発に拡散モデルをどのように活用するかを示すために、2つのケーススタディも提示されている。 具体的には,非理想的トランシーバを用いた無線通信方式において,ビット誤り率で30%改善が達成されるデノイジング拡散確率モデル(ddpm)を提案する。 第2の用途として、DDPMを送信機に使用して星座のシンボルを形作り、ロバストなアウト・オブ・ディストリビューション性能を示す。 最後に,無線生成AI(WiGenAI)に向けた今後の研究を推進すべく,生成AIベースの無線システムの開発に向けた今後の方向性と課題について論じる。

Innovative foundation models, such as GPT-3 and stable diffusion models, have made a paradigm shift in the realm of artificial intelligence (AI) towards generative AI-based systems. In unison, from data communication and networking perspective, AI and machine learning (AI/ML) algorithms are envisioned to be pervasively incorporated into the future generations of wireless communications systems, highlighting the need for novel AI-native solutions for the emergent communication scenarios. In this article, we outline the applications of generative AI in wireless communication systems to lay the foundations for research in this field. Diffusion-based generative models, as the new state-of-the-art paradigm of generative models, are introduced, and their applications in wireless communication systems are discussed. Two case studies are also presented to showcase how diffusion models can be exploited for the development of resilient AI-native communication systems. Specifically, we propose denoising diffusion probabilistic models (DDPM) for a wireless communication scheme with non-ideal transceivers, where 30% improvement is achieved in terms of bit error rate. As the second application, DDPMs are employed at the transmitter to shape the constellation symbols, highlighting a robust out-of-distribution performance. Finally, future directions and open issues for the development of generative AI-based wireless systems are discussed to promote future research endeavors towards wireless generative AI (WiGenAI).
翻訳日:2023-10-13 11:23:44 公開日:2023-10-12
# 拡散挙動によるスコア正規化政策最適化

Score Regularized Policy Optimization through Diffusion Behavior ( http://arxiv.org/abs/2310.07297v2 )

ライセンス: Link先を確認
Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, Jun Zhu(参考訳) オフライン強化学習の最近の進展は、異種行動ポリシーの表現に優れた拡散モデリングの膨大な可能性を見出している。 しかし、拡散政策からのサンプリングは、1つのアクションに対して数十から数百の反復推論ステップを必要とするため、かなり遅い。 この問題に対処するために,批判モデルと事前訓練された拡散行動モデルから効率的な決定論的推論ポリシーを抽出し,後者を活用して,最適化中の行動分布のスコア関数と直接正規化する手法を提案する。 本手法は, 学習と評価の両方において, 計算集約型および時間消費型拡散サンプリングスキームを完全に回避しながら, 拡散モデリングの強力な生成能力を享受する。 d4rlタスクの広範な結果から,ロコモーションタスクにおける各種拡散ベース手法と比較して,動作サンプリング速度は25倍以上向上することが分かった。

Recent developments in offline reinforcement learning have uncovered the immense potential of diffusion modeling, which excels at representing heterogeneous behavior policies. However, sampling from diffusion policies is considerably slow because it necessitates tens to hundreds of iterative inference steps for one action. To address this issue, we propose to extract an efficient deterministic inference policy from critic models and pretrained diffusion behavior models, leveraging the latter to directly regularize the policy gradient with the behavior distribution's score function during optimization. Our method enjoys powerful generative capabilities of diffusion modeling while completely circumventing the computationally intensive and time-consuming diffusion sampling scheme, both during training and evaluation. Extensive results on D4RL tasks show that our method boosts action sampling speed by more than 25 times compared with various leading diffusion-based methods in locomotion tasks, while still maintaining state-of-the-art performance.
翻訳日:2023-10-13 11:23:19 公開日:2023-10-12
# コークテールパーティーで聴くタイピング:テキスト誘導型ターゲット話者抽出

Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction ( http://arxiv.org/abs/2310.07284v2 )

ライセンス: Link先を確認
Xiang Hao, Jibin Wu, Jianwei Yu, Chenglin Xu, Kay Chen Tan(参考訳) 人間は複雑な音響環境の中で、特にカクテルパーティーのシナリオと呼ばれる音の源に選択的に焦点を合わせる能力を持っている。 この顕著な聴覚的注意力を機械に再現する試みとして、ターゲット話者抽出(TSE)モデルが開発された。 これらのモデルは、対象話者の予め登録された手がかりを利用して、興味のある音源を抽出する。 しかし、これらのモデルの有効性は、信頼できない、あるいは登録済みのキューが存在しないために、現実のシナリオでは妨げられる。 この制限に対処するため,既存のTSEモデルの実現可能性,制御性,性能を高めるために,自然言語記述の統合について検討した。 具体的には,LLM-TSEというモデルを提案し,ユーザが入力したテキストから有用な意味的手がかりを抽出する大規模言語モデル(LLM)を提案する。 これらのキューは、独立した抽出キュー、TSEプロセスを制御するタスクセレクタ、または登録済みキューを補完する。 本研究は,テキストベースの手がかりのみを提示する場合,入力テキストをタスクセレクタとして使用することの有効性,テキストベースのキューと事前登録した手がかりを組み合わせる際の新たな最先端技術,といった競合性能を示す。 我々の知る限り、これは目標話者抽出を誘導するためにLSMをうまく組み込んだ最初の研究であり、これはカクテルパーティー問題研究の基盤となる可能性がある。

Humans possess an extraordinary ability to selectively focus on the sound source of interest amidst complex acoustic environments, commonly referred to as cocktail party scenarios. In an attempt to replicate this remarkable auditory attention capability in machines, target speaker extraction (TSE) models have been developed. These models leverage the pre-registered cues of the target speaker to extract the sound source of interest. However, the effectiveness of these models is hindered in real-world scenarios due to the unreliable or even absence of pre-registered cues. To address this limitation, this study investigates the integration of natural language description to enhance the feasibility, controllability, and performance of existing TSE models. Specifically, we propose a model named LLM-TSE, wherein a large language model (LLM) to extract useful semantic cues from the user's typed text input. These cues can serve as independent extraction cues, task selectors to control the TSE process, or complement the pre-registered cues. Our experimental results demonstrate competitive performance when only text-based cues are presented, the effectiveness of using input text as a task selector, and a new state-of-the-art when combining text-based cues with pre-registered cues. To our knowledge, this is the first study to successfully incorporate LLMs to guide target speaker extraction, which can be a cornerstone for cocktail party problem research.
翻訳日:2023-10-13 11:23:01 公開日:2023-10-12
# 医療における大規模言語モデルの分析 : BioBERT を事例として

An Analysis on Large Language Models in Healthcare: A Case Study of BioBERT ( http://arxiv.org/abs/2310.07282v2 )

ライセンス: Link先を確認
Shyni Sharaf and V. S. Anoop(参考訳) 本稿では,大規模言語モデル,特にBioBERTを医療に応用するための包括的調査を行う。 まずは、医療における従来の自然言語処理(NLP)アプローチを徹底的に検討し、これらの手法が直面する限界と課題に光を当てることから始まります。 その後、この研究はBioBERTの医療応用への導入に繋がる道を探り、バイオメディカルテキストマイニングに関連するタスクの具体的な要件に対処するための適合性を強調した。 分析は、医療ドメインのユニークなニーズを満たすために、バイオバートを微調整するための体系的な方法論を概説する。 このアプローチには、幅広い医療ソースからのデータの収集、医療エンティティの識別や分類といったタスクのためのデータアノテーション、バイオメディカルテキストで見られる複雑さを扱うための特別な前処理技術の適用など、さまざまなコンポーネントが含まれている。 さらに,本論文では, 生体医学, 質問応答, 臨床文書分類, 医学的実体認識における自然言語処理などの, 医療ベンチマークや機能を中心に, モデル評価に関する側面を取り上げている。 モデルの解釈性を改善するテクニックを探求し、既存の医療中心の言語モデルと比較して、そのパフォーマンスを検証する。 論文は、特に患者プライバシとデータセキュリティに関する倫理的考察を徹底的に検討している。 医療のコンテキストにbiobertを組み込むことのメリットを強調しており、臨床判断サポートの強化やより効率的な情報検索などが行われている。 それでも同社は,データのプライバシや透明性,リソース集約的な要件,さまざまな医療ドメインに対応するためのモデルカスタマイズの必要性など,この統合の障害と複雑さを認めている。

This paper conducts a comprehensive investigation into applying large language models, particularly on BioBERT, in healthcare. It begins with thoroughly examining previous natural language processing (NLP) approaches in healthcare, shedding light on the limitations and challenges these methods face. Following that, this research explores the path that led to the incorporation of BioBERT into healthcare applications, highlighting its suitability for addressing the specific requirements of tasks related to biomedical text mining. The analysis outlines a systematic methodology for fine-tuning BioBERT to meet the unique needs of the healthcare domain. This approach includes various components, including the gathering of data from a wide range of healthcare sources, data annotation for tasks like identifying medical entities and categorizing them, and the application of specialized preprocessing techniques tailored to handle the complexities found in biomedical texts. Additionally, the paper covers aspects related to model evaluation, with a focus on healthcare benchmarks and functions like processing of natural language in biomedical, question-answering, clinical document classification, and medical entity recognition. It explores techniques to improve the model's interpretability and validates its performance compared to existing healthcare-focused language models. The paper thoroughly examines ethical considerations, particularly patient privacy and data security. It highlights the benefits of incorporating BioBERT into healthcare contexts, including enhanced clinical decision support and more efficient information retrieval. Nevertheless, it acknowledges the impediments and complexities of this integration, encompassing concerns regarding data privacy, transparency, resource-intensive requirements, and the necessity for model customization to align with diverse healthcare domains.
翻訳日:2023-10-13 11:22:36 公開日:2023-10-12
# Flood and Echo: 分散コンピューティングによるGNNのアルゴリズムアライメント

Flood and Echo: Algorithmic Alignment of GNNs with Distributed Computing ( http://arxiv.org/abs/2310.06970v2 )

ライセンス: Link先を確認
Jo\"el Mathys, Florian Gr\"otschla, Kalyan Varma Nadimpalli, Roger Wattenhofer(参考訳) グラフニューラルネットワークは、学習アルゴリズムに自然に適合する。 抽象的だが多彩なグラフ構造を通じてタスクを直接表現し、さまざまなサイズの入力を処理することができる。 これにより、大きなグラフへのスケーリングと外挿が可能となり、アルゴリズムの最も重要な利点の1つである。 しかし、これは2つの疑問を提起する。 i) たとえ遠くにいても,ノードが所定のグラフ(\textit{information exchange}$)で必要な情報を収集できるようにするには,どのようにすればよいか。 ii) より大きなグラフサイズへの外挿に関するこの情報交換を可能にする実行フレームワークをどのように設計すればよいか(\textit{algorithmic alignment for extrapolation}$)。 分散アルゴリズムの設計原理にインスパイアされた新しい実行フレームワークであるFloodとEcho Netを提案する。 アクティベーションパターンのようなウェーブで、グラフ全体を通してメッセージを伝搬し、自然により大きなインスタンスに一般化する。 スパースだが並列なアクティベーションにより、メッセージの複雑さの点で、明らかに効率が良い。 提案モデルについて検討し,その表現性,効率性,情報交換能力,外挿能力の両面から,実証的証拠と理論的知見を提供する。

Graph Neural Networks are a natural fit for learning algorithms. They can directly represent tasks through an abstract but versatile graph structure and handle inputs of different sizes. This opens up the possibility for scaling and extrapolation to larger graphs, one of the most important advantages of an algorithm. However, this raises two core questions i) How can we enable nodes to gather the required information in a given graph ($\textit{information exchange}$), even if is far away and ii) How can we design an execution framework which enables this information exchange for extrapolation to larger graph sizes ($\textit{algorithmic alignment for extrapolation}$). We propose a new execution framework that is inspired by the design principles of distributed algorithms: Flood and Echo Net. It propagates messages through the entire graph in a wave like activation pattern, which naturally generalizes to larger instances. Through its sparse but parallel activations it is provably more efficient in terms of message complexity. We study the proposed model and provide both empirical evidence and theoretical insights in terms of its expressiveness, efficiency, information exchange and ability to extrapolate.
翻訳日:2023-10-13 11:22:08 公開日:2023-10-12
# neco: 分布外検出に基づく神経崩壊

NECO: NEural Collapse Based Out-of-distribution detection ( http://arxiv.org/abs/2310.06823v2 )

ライセンス: Link先を確認
Mou\"in Ben Ammar, Nacim Belkhir, Sebastian Popescu, Antoine Manzanera, Gianni Franchi(参考訳) アウト・オブ・ディストリビューション(ood)データの検出は、モデル過信(model overconfidence)による機械学習における重要な課題である。 我々は、損失収束を超えて訓練されたモデルの分配データに影響を及ぼす現象である「神経崩壊」もOODデータに影響を与えると仮定する。 この相互作用を生かしたNECOは,「神経崩壊」や主成分空間の幾何学的特性を活用してOODデータを識別する新しいポストホックなOOD検出法である。 NECOは,大規模OOD検出タスクと大規模OOD検出タスクの両方において,異なるネットワークアーキテクチャにまたがる強力な一般化能力を示しながら,最先端の成果が得られることを示す。 さらに,OOD検出における本手法の有効性を理論的に説明する。 匿名期間終了後にコードを公開する予定です。

Detecting out-of-distribution (OOD) data is a critical challenge in machine learning due to model overconfidence, often without awareness of their epistemological limits. We hypothesize that ``neural collapse'', a phenomenon affecting in-distribution data for models trained beyond loss convergence, also influences OOD data. To benefit from this interplay, we introduce NECO, a novel post-hoc method for OOD detection, which leverages the geometric properties of ``neural collapse'' and of principal component spaces to identify OOD data. Our extensive experiments demonstrate that NECO achieves state-of-the-art results on both small and large-scale OOD detection tasks while exhibiting strong generalization capabilities across different network architectures. Furthermore, we provide a theoretical explanation for the effectiveness of our method in OOD detection. We plan to release the code after the anonymity period.
翻訳日:2023-10-13 11:21:46 公開日:2023-10-12
# FABind:高速かつ高精度なタンパク質-リガンド結合

FABind: Fast and Accurate Protein-Ligand Binding ( http://arxiv.org/abs/2310.06763v2 )

ライセンス: Link先を確認
Qizhi Pei, Kaiyuan Gao, Lijun Wu, Jinhua Zhu, Yingce Xia, Shufang Xie, Tao Qin, Kun He, Tie-Yan Liu, Rui Yan(参考訳) タンパク質とリガンド間の相互作用をモデル化し、その結合構造を正確に予測することは、薬物の発見において非常に難しい課題である。 ディープラーニングの最近の進歩は、サンプリングベースと回帰ベースの方法が2つの顕著なアプローチとして登場し、この問題に対処する上で有望であることを示している。 しかし、これらの方法には顕著な制限がある。 サンプリングベースの方法は、選択のために複数の候補構造を生成する必要があるため、しばしば効率が低下する。 一方,回帰法では予測速度は速いが,精度は低下する可能性がある。 さらに、タンパク質サイズの変化は、しばしば適切な結合ポケットを選択するために外部モジュールを必要とする。 そこで本研究では,ポケット予測とドッキングを組み合わせて,高精度かつ高速なタンパク質-リガンド結合を実現するエンド・ツー・エンドモデルである $\mathbf{FABind}$ を提案する。 $\mathbf{FABind}$にはユニークなリガンドインフォームドポケット予測モジュールが組み込まれており、ドッキングポーズ推定にも利用される。 このモデルは、予測されたポケットを統合してタンパク質-リガンド結合を最適化し、トレーニングと推論の相違を減らすことでドッキングをさらに強化する。 ベンチマークデータセットに関する広範な実験を通じて,提案した$\mathbf{FABind}$は,既存手法と比較して有効性や効率性に強い優位性を示す。 私たちのコードは$\href{https://github.com/QizhiPei/FABind}{Github}$で利用可能です。

Modeling the interaction between proteins and ligands and accurately predicting their binding structures is a critical yet challenging task in drug discovery. Recent advancements in deep learning have shown promise in addressing this challenge, with sampling-based and regression-based methods emerging as two prominent approaches. However, these methods have notable limitations. Sampling-based methods often suffer from low efficiency due to the need for generating multiple candidate structures for selection. On the other hand, regression-based methods offer fast predictions but may experience decreased accuracy. Additionally, the variation in protein sizes often requires external modules for selecting suitable binding pockets, further impacting efficiency. In this work, we propose $\mathbf{FABind}$, an end-to-end model that combines pocket prediction and docking to achieve accurate and fast protein-ligand binding. $\mathbf{FABind}$ incorporates a unique ligand-informed pocket prediction module, which is also leveraged for docking pose estimation. The model further enhances the docking process by incrementally integrating the predicted pocket to optimize protein-ligand binding, reducing discrepancies between training and inference. Through extensive experiments on benchmark datasets, our proposed $\mathbf{FABind}$ demonstrates strong advantages in terms of effectiveness and efficiency compared to existing methods. Our code is available at $\href{https://github.com/QizhiPei/FABind}{Github}$.
翻訳日:2023-10-13 11:21:31 公開日:2023-10-12
# Well Begun is Half Done: Generator-Agnostic Knowledge Pre-Selection for Knowledge-Grounded Dialogue

Well Begun is Half Done: Generator-agnostic Knowledge Pre-Selection for Knowledge-Grounded Dialogue ( http://arxiv.org/abs/2310.07659v2 )

ライセンス: Link先を確認
Lang Qin, Yao Zhang, Hongru Liang, Jun Wang, Zhenglu Yang(参考訳) 正確な知識選択は知識接地対話システムにおいて不可欠である。 より深く見ていくために、私たちは既存の文学、すなわち知識の選択を、世代、後、前と組み合わせて組織化するための新しい視点を提供する。 本研究は,前もって知識を正確に選択できるだけでなく,後続の応答生成モデル,特にllmの学習,調整,解釈の負担を軽減することができる。 異なる知識構造と可変知識要求の中から文脈関連知識を選択することにより,後続の応答生成モデルに対する知識を作成できる,ジェネレータ非依存な知識選択手法であるgateを提案する。 実験の結果、GATEの優位性を示し、生成前の知識選択がLSM(例えばChatGPT)を促進し、より情報的な応答を生成するための軽量で効果的な方法であることを示す。

Accurate knowledge selection is critical in knowledge-grounded dialogue systems. Towards a closer look at it, we offer a novel perspective to organize existing literature, i.e., knowledge selection coupled with, after, and before generation. We focus on the third under-explored category of study, which can not only select knowledge accurately in advance, but has the advantage to reduce the learning, adjustment, and interpretation burden of subsequent response generation models, especially LLMs. We propose GATE, a generator-agnostic knowledge selection method, to prepare knowledge for subsequent response generation models by selecting context-related knowledge among different knowledge structures and variable knowledge requirements. Experimental results demonstrate the superiority of GATE, and indicate that knowledge selection before generation is a lightweight yet effective way to facilitate LLMs (e.g., ChatGPT) to generate more informative responses.
翻訳日:2023-10-13 11:13:14 公開日:2023-10-12
# DNA配列に対するBERT-like Pretrainingの再検討

Rethinking the BERT-like Pretraining for DNA Sequences ( http://arxiv.org/abs/2310.07644v2 )

ライセンス: Link先を確認
Chaoqi Liang, Weiqiang Bai, Lifeng Qiao, Yuchen Ren, Jianle Sun, Peng Ye, Hongliang Yan, Xinzhu Ma, Wangmeng Zuo, and Wanli Ouyang(参考訳) NLPにおける大規模プレトレーニングの成功により、生命科学分野に適用する傾向が高まっている。 特に、DNA配列に基づく事前学習法は、遺伝子に関する一般的な情報を取得する可能性から注目されている。 しかし、既存のDNA配列の事前訓練法は主にNLPからのBERTの直接導入に依存しており、包括的理解と特異的に調整されたアプローチが欠如している。 この研究ギャップに対処するため、私たちはまず一連の探索実験を行い、いくつかの洞察に富んだ観察を行った。 1) In the fine-tuning phase of downstream tasks, when using K-mer overlapping tokenization instead of K-mer non-overlapping tokenization, both overlapping and non-overlapping pretraining weights show consistent performance improvement.2) During the pre-training process, using K-mer overlapping tokenization quickly produces clear K-mer embeddings and reduces the loss to a very low level, while using K-mer non-overlapping tokenization results in less distinct embeddings and continuously decreases the loss. 3) 重なり合うトークン化を用いることで,事前学習されたモデルの中間層における自己着脱は,これらの層が適切に最適化されていないことを反映して,特定のトークンに過度に注目する傾向がある。 要約すると、重複するトークン化は下流タスクの微調整に役立つが、高速収束による不適切な事前トレーニングにつながる。 これは、マスク境界を継続的に拡大し、モデルにより多くの知識を学ばせることによって、bertのような事前学習のタスクの難易度を徐々に高めるものである。 RandomMaskはシンプルだが効果的で、7つのダウンストリームタスクにまたがる28のデータセットからなる26のデータセットで最高のパフォーマンスを実現する。

With the success of large-scale pretraining in NLP, there is an increasing trend of applying it to the domain of life sciences. In particular, pretraining methods based on DNA sequences have garnered growing attention due to their potential to capture generic information about genes. However, existing pretraining methods for DNA sequences largely rely on direct adoptions of BERT pretraining from NLP, lacking a comprehensive understanding and a specifically tailored approach. To address this research gap, we first conducted a series of exploratory experiments and gained several insightful observations: 1) In the fine-tuning phase of downstream tasks, when using K-mer overlapping tokenization instead of K-mer non-overlapping tokenization, both overlapping and non-overlapping pretraining weights show consistent performance improvement.2) During the pre-training process, using K-mer overlapping tokenization quickly produces clear K-mer embeddings and reduces the loss to a very low level, while using K-mer non-overlapping tokenization results in less distinct embeddings and continuously decreases the loss. 3) Using overlapping tokenization causes the self-attention in the intermediate layers of pre-trained models to tend to overly focus on certain tokens, reflecting that these layers are not adequately optimized. In summary, overlapping tokenization can benefit the fine-tuning of downstream tasks but leads to inadequate pretraining with fast convergence. To unleash the pretraining potential, we introduce a novel approach called RandomMask, which gradually increases the task difficulty of BERT-like pretraining by continuously expanding its mask boundary, forcing the model to learn more knowledge. RandomMask is simple but effective, achieving top-tier performance across 26 datasets of 28 datasets spanning 7 downstream tasks.
翻訳日:2023-10-13 11:12:55 公開日:2023-10-12
# opseval: 大きな言語モデルのための包括的なタスク指向aiopsベンチマーク

OpsEval: A Comprehensive Task-Oriented AIOps Benchmark for Large Language Models ( http://arxiv.org/abs/2310.07637v2 )

ライセンス: Link先を確認
Yuhe Liu, Changhua Pei, Longlong Xu, Bohan Chen, Mingze Sun, Zhirui Zhang, Yongqian Sun, Shenglin Zhang, Kun Wang, Haiming Zhang, Jianhui Li, Gaogang Xie, Xidao Wen, Xiaohui Nie, Dan Pei(参考訳) 大規模言語モデル(LLM)は、翻訳、要約、生成といったNLP関連のタスクにおいて顕著な機能を示した。 特定の分野、特にAIOps (Artificial Intelligence for IT Operations) における LLM の応用は、情報要約、レポート分析、API呼び出し能力の高度な能力によって大きな可能性を秘めている。 しかし、aiopsタスクにおける現在のllmのパフォーマンスはまだ決定されていない。 さらに、AIOps用に調整されたLLMの最適化を行うには、包括的なベンチマークが必要である。 本稿では,ネットワーク構成などの特定の分野に注目する既存のベンチマークと比較し,llms用に設計された包括的タスク指向aiopsベンチマークである \textbf{opseval} を提案する。 opsevalは3つの重要なシナリオ(有線ネットワーク操作、5g通信操作、データベース操作)において、様々な能力レベル(知識リコール、分析思考、実践的応用)においてllmsの熟練度を評価する。 ベンチマークには、複数選択と質問回答(QA)形式の7,200の質問が含まれている。 定量的・定性的な結果から,ゼロショット,チェーン・オブ・コンテクスト,マイト・イン・コンテキスト学習など,さまざまなllmトリックがaiopsのパフォーマンスに与える影響を示す。 GPT4スコアは Bleu や Rouge よりも専門家との整合性が高く,大規模定性評価のための自動メトリクスの代替に利用することができる。

Large language models (LLMs) have exhibited remarkable capabilities in NLP-related tasks such as translation, summarizing, and generation. The application of LLMs in specific areas, notably AIOps (Artificial Intelligence for IT Operations), holds great potential due to their advanced abilities in information summarizing, report analyzing, and ability of API calling. Nevertheless, the performance of current LLMs in AIOps tasks is yet to be determined. Furthermore, a comprehensive benchmark is required to steer the optimization of LLMs tailored for AIOps. Compared with existing benchmarks that focus on evaluating specific fields like network configuration, in this paper, we present \textbf{OpsEval}, a comprehensive task-oriented AIOps benchmark designed for LLMs. For the first time, OpsEval assesses LLMs' proficiency in three crucial scenarios (Wired Network Operation, 5G Communication Operation, and Database Operation) at various ability levels (knowledge recall, analytical thinking, and practical application). The benchmark includes 7,200 questions in both multiple-choice and question-answer (QA) formats, available in English and Chinese. With quantitative and qualitative results, we show how various LLM tricks can affect the performance of AIOps, including zero-shot, chain-of-thought, and few-shot in-context learning. We find that GPT4-score is more consistent with experts than widely used Bleu and Rouge, which can be used to replace automatic metrics for large-scale qualitative evaluations.
翻訳日:2023-10-13 11:12:25 公開日:2023-10-12
# in-context unlearning: 少数のunlearnerによる言語モデル

In-Context Unlearning: Language Models as Few Shot Unlearners ( http://arxiv.org/abs/2310.07579v2 )

ライセンス: Link先を確認
Martin Pawelczyk, Seth Neel, Himabindu Lakkaraju(参考訳) 訓練されたモデルに対する特定のトレーニングポイントの影響を効率的に排除する研究である機械学習は、忘れられる権利のようなプライバシー規制に従わなければならないことから、遅れて注目を集めている。 アンラーニングは著作権問題に照らしてLLMにとって特に意味があるが、正確なアンラーニングを達成することは非常に大きなモデルでは計算不可能である。 この目的のために、近年の研究では、モデルを再トレーニングすることなくトレーニングデータの除去を近似するアルゴリズムがいくつか提案されている。 これらのアルゴリズムは、計算上の制約や LLM が API 経由でアクセスされた場合に、実際に保持されない仮定であるモデルを更新するために、モデルパラメータへのアクセスに決定的に依存する。 本研究では、モデルパラメータを更新せずに、コンテキスト内の入力を提供する、"in-context unlearning"と呼ばれるllmのための新しいアンラーニング手法を提案する。 特定のトレーニングインスタンスを解放するために、推論時に LLM への入力としてプリプションされる、フリップラベルと正しくラベル付けされた追加のインスタンスを提供する。 実験の結果,llmパラメータへのアクセスを必要とする最先端のアンラーニング手法と競合する(あるいはそれを超える)パフォーマンスレベルを維持しながら,これらのコンテキストがトレーニングセットから特定の情報を効果的に削除できることが示されている。

Machine unlearning, the study of efficiently removing the impact of specific training points on the trained model, has garnered increased attention of late, driven by the need to comply with privacy regulations like the Right to be Forgotten. Although unlearning is particularly relevant for LLMs in light of the copyright issues they raise, achieving precise unlearning is computationally infeasible for very large models. To this end, recent work has proposed several algorithms which approximate the removal of training data without retraining the model. These algorithms crucially rely on access to the model parameters in order to update them, an assumption that may not hold in practice due to computational constraints or when the LLM is accessed via API. In this work, we propose a new class of unlearning methods for LLMs we call ''In-Context Unlearning'', providing inputs in context and without having to update model parameters. To unlearn a particular training instance, we provide the instance alongside a flipped label and additional correctly labelled instances which are prepended as inputs to the LLM at inference time. Our experimental results demonstrate that these contexts effectively remove specific information from the training set while maintaining performance levels that are competitive with (or in some cases exceed) state-of-the-art unlearning methods that require access to the LLM parameters.
翻訳日:2023-10-13 11:11:58 公開日:2023-10-12
# S4C: ニューラルネットワークを用いた自己監視セマンティックシーン補完

S4C: Self-Supervised Semantic Scene Completion with Neural Fields ( http://arxiv.org/abs/2310.07522v2 )

ライセンス: Link先を確認
Adrian Hayler, Felix Wimbauer, Dominik Muhle, Christian Rupprecht, Daniel Cremers(参考訳) 3Dセマンティックシーン理解はコンピュータビジョンの基本的な課題である。 モバイルエージェントは任意の環境を自律的に計画し、ナビゲートすることができる。 SSCはこの課題を、シーンのスパース観測から密な幾何学と意味情報を共同で推定するものとして定式化している。 SSCの現在の手法は、集約されたLiDARスキャンに基づいて、一般に3D地上真実に基づいて訓練されている。 このプロセスは、コストがかかり、スケールが良くない特別なセンサーと手によるアノテーションに依存している。 この問題を克服するため,本研究では3次元基底データに依存しないsscに対する最初の自己教師ありアプローチであるs4cを提案する。 提案手法は,1つの画像からシーンを再構成し,トレーニング中にオフザシェルフ画像セグメンテーションネットワークから生成された映像と擬似セグメンテーションの真実のみに依存する。 離散的なボクセルグリッドを使用する既存の方法とは異なり、シーンは暗黙のセマンティックフィールドとして表現する。 この定式化により、占有率とセマンティクスクラスのカメラフラスタム内の任意のポイントをクエリできる。 私たちのアーキテクチャはレンダリングベースの自己管理的損失によって訓練されています。 しかしながら,本手法は完全教師付き最先端手法に近い性能を実現する。 さらに,強い一般化能力を示し,遠方から見て正確なセグメンテーションマップを合成する。

3D semantic scene understanding is a fundamental challenge in computer vision. It enables mobile agents to autonomously plan and navigate arbitrary environments. SSC formalizes this challenge as jointly estimating dense geometry and semantic information from sparse observations of a scene. Current methods for SSC are generally trained on 3D ground truth based on aggregated LiDAR scans. This process relies on special sensors and annotation by hand which are costly and do not scale well. To overcome this issue, our work presents the first self-supervised approach to SSC called S4C that does not rely on 3D ground truth data. Our proposed method can reconstruct a scene from a single image and only relies on videos and pseudo segmentation ground truth generated from off-the-shelf image segmentation network during training. Unlike existing methods, which use discrete voxel grids, we represent scenes as implicit semantic fields. This formulation allows querying any point within the camera frustum for occupancy and semantic class. Our architecture is trained through rendering-based self-supervised losses. Nonetheless, our method achieves performance close to fully supervised state-of-the-art methods. Additionally, our method demonstrates strong generalization capabilities and can synthesize accurate segmentation maps for far away viewpoints.
翻訳日:2023-10-13 11:11:34 公開日:2023-10-12
# 経路ベル試験による長距離量子相関の証明

Certifying long-range quantum correlations through routed Bell tests ( http://arxiv.org/abs/2310.07484v2 )

ライセンス: Link先を確認
Edwin Peter Lobo, Jef Pauwels, and Stefano Pironio(参考訳) 伝送チャネルの損失は距離とともに増大し、量子非局所性のフォトニクスの実証とその応用にとって大きな障害となる。 最近、Chaturvedi, Viola, and Pawlowski (CVP) [arXiv:2211.14231] は、量子非局所性を証明できる範囲を拡張することを目的として、標準ベルの実験のバリエーションを導入した。 我々が「ローテッドベル実験」と呼ぶこれらの実験では、ボブは量子粒子を2つの可能な経路に沿って経路付けし、2つの異なる位置で測定することができる。 ショートパスのベル違反は、ロングパスの非局所的相関を検出するために必要な条件を弱めるべきである。 実際、CVPはルーティングされたベル実験において、検出効率が任意に低い場合でも、リモートデバイスの結果を古典的に規定できないような量子相関が存在することを示した。 本稿では,CVPが考慮した相関関係を古典的に規定することはできないが,遠隔デバイスへの量子システムの伝送を必要としないことを示す。 これにより、ルート付きベル実験において「短距離」および「長距離」量子相関の概念が定義される。 これらの相関は、非可換多項式最適化のための標準半定義型プログラミング階層によって特徴づけられることを示す。 次に、短距離量子相関を除外できる条件について検討する。 我々は、遠隔装置の臨界検出効率に基本的な低値が存在することを指摘し、経路ベル実験は任意に広い距離で長距離量子非局所性を示すことができないことを示唆する。 しかし,経路付きベル実験により検出効率の閾値が低下することが判明した。 しかし、改善はCVPの分析によって示唆されるものよりも大幅に小さい。

Losses in the transmission channel, which increase with distance, pose a major obstacle to photonics demonstrations of quantum nonlocality and its applications. Recently, Chaturvedi, Viola, and Pawlowski (CVP) [arXiv:2211.14231] introduced a variation of standard Bell experiments with the goal of extending the range over which quantum nonlocality can be demonstrated. In these experiments, which we call 'routed Bell experiments', Bob can route his quantum particle along two possible paths and measure it at two distinct locations - one near and another far from the source. The idea is that a Bell violation in the short-path should weaken the conditions required to detect nonlocal correlations in the long-path. Indeed, CVP showed that there are quantum correlations in routed Bell experiments such that the outcomes of the remote device cannot be classically predetermined, even when its detection efficiency is arbitrarily low. In this paper, we show that the correlations considered by CVP, though they cannot be classically predetermined, do not require the transmission of quantum systems to the remote device. This leads us to define the concept of 'short-range' and 'long-range' quantum correlations in routed Bell experiments. We show that these correlations can be characterized through standard semidefinite programming hierarchies for non-commutative polynomial optimization. We then explore the conditions under which short-range quantum correlations can be ruled out. We point out that there exist fundamental lower-bounds on the critical detection efficiency of the distant device, implying that routed Bell experiments cannot demonstrate long-range quantum nonlocality at arbitrarily large distances. However, we do find that routed Bell experiments allow for reducing the detection efficiency threshold. The improvements, though, are significantly smaller than those suggested by CVP's analysis.
翻訳日:2023-10-13 11:11:15 公開日:2023-10-12
# 生成課題に対するマルチモーダルグラフ学習

Multimodal Graph Learning for Generative Tasks ( http://arxiv.org/abs/2310.07478v2 )

ライセンス: Link先を確認
Minji Yoon, Jing Yu Koh, Bryan Hooi, Ruslan Salakhutdinov(参考訳) マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。 ほとんどのマルチモーダル学習アルゴリズムは、画像キャプチャペアや音声テキストペアといった2つのモダリティから、単純な1対1のデータをモデル化することに焦点を当てている。 しかし、現実世界のほとんどの設定では、異なるモジュラリティのエンティティがより複雑で多面的な方法で相互作用し、1対1のマッピングを超える。 我々は、これらの複雑な関係をグラフとして表現し、任意のモダリティを持つデータと、あるサンプルから別のサンプルへ柔軟に変化するモダリティの間の複雑な関係をキャプチャできるようにする。 この目的に向けて,関係構造を持つ複数のマルチモーダルの隣人から情報を収集するための汎用的かつ体系的なフレームワークであるマルチモーダルグラフ学習(mmgl)を提案する。 特に,事前学習された言語モデル(lms)に基づく生成タスクのためのmmglに着目し,マルチモーダルな隣接コンテキストによるテキスト生成の強化を目標とした。 MMGLが提起した3つの研究課題について研究する:(1) 拡張性の問題を避けつつ、事前訓練されたLMに複数の隣接情報を注入する方法。 2) マルチモーダル近傍間のグラフ構造情報を lms にどのように組み込むことができるか? そして(3)パラメータ効率のよい方法で、事前学習したlmsを近隣のコンテキストから学ぶには、どのように微調整すればよいのか? MMGLに関するこれらの3つの質問に回答し、実験結果を分析し、今後のMMGL研究の道を開く。

Multimodal learning combines multiple data modalities, broadening the types and complexity of data our models can utilize: for example, from plain text to image-caption pairs. Most multimodal learning algorithms focus on modeling simple one-to-one pairs of data from two modalities, such as image-caption pairs, or audio-text pairs. However, in most real-world settings, entities of different modalities interact with each other in more complex and multifaceted ways, going beyond one-to-one mappings. We propose to represent these complex relationships as graphs, allowing us to capture data with any number of modalities, and with complex relationships between modalities that can flexibly vary from one sample to another. Toward this goal, we propose Multimodal Graph Learning (MMGL), a general and systematic framework for capturing information from multiple multimodal neighbors with relational structures among them. In particular, we focus on MMGL for generative tasks, building upon pretrained Language Models (LMs), aiming to augment their text generation with multimodal neighbor contexts. We study three research questions raised by MMGL: (1) how can we infuse multiple neighbor information into the pretrained LMs, while avoiding scalability issues? (2) how can we infuse the graph structure information among multimodal neighbors into the LMs? and (3) how can we finetune the pretrained LMs to learn from the neighbor context in a parameter-efficient manner? We conduct extensive experiments to answer these three questions on MMGL and analyze the empirical results to pave the way for future MMGL research.
翻訳日:2023-10-13 11:10:44 公開日:2023-10-12
# PoRF: 正確な神経表面再構成のための残留電位場

PoRF: Pose Residual Field for Accurate Neural Surface Reconstruction ( http://arxiv.org/abs/2310.07449v2 )

ライセンス: Link先を確認
Jia-Wang Bian, Wenjing Bian, Victor Adrian Prisacariu, Philip Torr(参考訳) ニューラルサーフェス再構成は、COLMAPやARKitのような最先端のポーズ推定装置を使用しても、カメラポーズノイズに敏感である。 さらに重要なことに、既存のPose-NeRF共同最適化手法は、現実のシナリオに挑戦する際のポーズの精度を改善するのに苦労している。 これらの課題を克服するために、ポーズ更新の回帰にMLPを使用する新しい暗黙の表現である、ポーズ残留フィールド(\textbf{PoRF})を導入する。 これは、シーケンス全体にわたってグローバル情報を活用するパラメータ共有のため、従来のポーズパラメータ最適化よりも堅牢である。 さらに,計算オーバヘッドを余分に必要とせずに,colmap結果から出力される対応を活用できる監督を強化するためのエピポーラ幾何損失を提案する。 我々の方法は有望な結果をもたらす。 DTUデータセットでは,COLMAPポーズの回転誤差を78\%削減し,シャンファー距離を3.48mmから0.85mmに短縮した。 本手法は,カジュアルにキャプチャされた360度ビデオを含むmobilebrickデータセットにおいて,arkitのポーズを洗練し,69.18から75.67までの再構成f1スコアを改善する。 これらの成果は,現実世界のシナリオにおいて,カメラポーズの精密化と神経表面再構成の精度向上に本手法の有効性を示す。

Neural surface reconstruction is sensitive to the camera pose noise, even if state-of-the-art pose estimators like COLMAP or ARKit are used. More importantly, existing Pose-NeRF joint optimisation methods have struggled to improve pose accuracy in challenging real-world scenarios. To overcome the challenges, we introduce the pose residual field (\textbf{PoRF}), a novel implicit representation that uses an MLP for regressing pose updates. This is more robust than the conventional pose parameter optimisation due to parameter sharing that leverages global information over the entire sequence. Furthermore, we propose an epipolar geometry loss to enhance the supervision that leverages the correspondences exported from COLMAP results without the extra computational overhead. Our method yields promising results. On the DTU dataset, we reduce the rotation error by 78\% for COLMAP poses, leading to the decreased reconstruction Chamfer distance from 3.48mm to 0.85mm. On the MobileBrick dataset that contains casually captured unbounded 360-degree videos, our method refines ARKit poses and improves the reconstruction F1 score from 69.18 to 75.67, outperforming that with the dataset provided ground-truth pose (75.14). These achievements demonstrate the efficacy of our approach in refining camera poses and improving the accuracy of neural surface reconstruction in real-world scenarios.
翻訳日:2023-10-13 11:10:16 公開日:2023-10-12
# 自動割引スケジューリングによる観察からの模倣学習

Imitation Learning from Observation with Automatic Discount Scheduling ( http://arxiv.org/abs/2310.07433v2 )

ライセンス: Link先を確認
Yuyang Liu, Weijun Dong, Yingdong Hu, Chuan Wen, Zhao-Heng Yin, Chongjie Zhang, Yang Gao(参考訳) 人間はしばしば観察と模倣によって新しいスキルを得る。 ロボットエージェントにとって、インターネット上で利用可能な多数のラベルのないビデオデモデータから学ぶことは、専門家をそのアクションにアクセスせずに模倣することを必要とし、Imitation Learning from Observations (ILfO)として知られる課題を提示している。 ILfO問題に取り組むための一般的なアプローチは、エージェントと専門家の観察から計算したプロキシ報酬を利用して、それらを逆強化学習問題に変換することである。 いずれにせよ,プログレッシブ依存特性に特徴付けられるタスクがこのようなアプローチに重大な課題をもたらすことは明らかであり,これらのタスクでは,エージェントは,後続のタスクを習得する前に,まず専門家の以前の振る舞いを学習する必要がある。 調査の結果,後段に割り当てられた報奨信号が初期行動の学習を妨げることが主な原因であることが判明した。 この課題に対処するために、エージェントが後続のエージェントに進む前に以前の動作をマスターできる新しいILfOフレームワークを提案する。 学習段階での強化学習における割引要因を適応的に変更し、初期報酬を優先し、初期行動がマスターされた場合にのみ後続報酬を徐々に実施する自動割引スケジューリング(ads)機構を導入する。 9つのメタワールドタスクで実施した実験により,本手法がすべてのタスクにおいて,解決不能なメソッドを含む最先端のメソッドを大幅に上回ることを実証した。

Humans often acquire new skills through observation and imitation. For robotic agents, learning from the plethora of unlabeled video demonstration data available on the Internet necessitates imitating the expert without access to its action, presenting a challenge known as Imitation Learning from Observations (ILfO). A common approach to tackle ILfO problems is to convert them into inverse reinforcement learning problems, utilizing a proxy reward computed from the agent's and the expert's observations. Nonetheless, we identify that tasks characterized by a progress dependency property pose significant challenges for such approaches; in these tasks, the agent needs to initially learn the expert's preceding behaviors before mastering the subsequent ones. Our investigation reveals that the main cause is that the reward signals assigned to later steps hinder the learning of initial behaviors. To address this challenge, we present a novel ILfO framework that enables the agent to master earlier behaviors before advancing to later ones. We introduce an Automatic Discount Scheduling (ADS) mechanism that adaptively alters the discount factor in reinforcement learning during the training phase, prioritizing earlier rewards initially and gradually engaging later rewards only when the earlier behaviors have been mastered. Our experiments, conducted on nine Meta-World tasks, demonstrate that our method significantly outperforms state-of-the-art methods across all tasks, including those that are unsolvable by them.
翻訳日:2023-10-13 11:09:49 公開日:2023-10-12
# NuTime: 大規模時系列事前トレーニングのための数値的マルチスケール埋め込み

NuTime: Numerically Multi-Scaled Embedding for Large-Scale Time Series Pretraining ( http://arxiv.org/abs/2310.07402v2 )

ライセンス: Link先を確認
Chenguo Lin, Xumeng Wen, Wei Cao, Congrui Huang, Jiang Bian, Stephen Lin, Zhirong Wu(参考訳) 時系列自己教師付きモデルに関する最近の研究は、意味表現の学習において大きな期待を示している。 しかし、数千の時間的シーケンスなど、小規模なデータセットに制限されている。 本研究では,時系列データの数値特性に合わせた重要な技術的貢献を行い,そのモデルを大規模データセット,例えば数百万の時間的シーケンスにスケールできるようにする。 入力をオーバーラップしないウィンドウに分割することでTransformerアーキテクチャを採用する。 各ウィンドウは、その正規化された形状と、各ウィンドウ内の平均と標準偏差を示す2つのスカラー値によって特徴づけられる。 任意の数値スケールを持つスカラー値を高次元ベクトルに埋め込むため,スカラー値に対して可能なすべてのスケールを列挙する数値的多スケール埋め込みモジュールを提案する。 このモデルは、100万以上のシーケンスを含む大規模データセットに対して、単純なコントラスト目的の数値的マルチスケール埋め込みを用いて事前学習を行う。 複数の単変量および多変量分類ベンチマーク上での転送性能について検討する。 本手法は,従来の表現型学習手法に対して著しく改善し,ドメイン固有の非学習型手法と比較しても新しい状態を確立する。

Recent research on time-series self-supervised models shows great promise in learning semantic representations. However, it has been limited to small-scale datasets, e.g., thousands of temporal sequences. In this work, we make key technical contributions that are tailored to the numerical properties of time-series data and allow the model to scale to large datasets, e.g., millions of temporal sequences. We adopt the Transformer architecture by first partitioning the input into non-overlapping windows. Each window is then characterized by its normalized shape and two scalar values denoting the mean and standard deviation within each window. To embed scalar values that may possess arbitrary numerical scales to high-dimensional vectors, we propose a numerically multi-scaled embedding module enumerating all possible scales for the scalar values. The model undergoes pretraining using the proposed numerically multi-scaled embedding with a simple contrastive objective on a large-scale dataset containing over a million sequences. We study its transfer performance on a number of univariate and multivariate classification benchmarks. Our method exhibits remarkable improvement against previous representation learning approaches and establishes the new state of the art, even compared with domain-specific non-learning-based methods.
翻訳日:2023-10-13 11:09:23 公開日:2023-10-12