このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230904となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# Synchro:ステートシャーディングにおけるクロスシャードトランザクションを同期処理するブロックジェネレーションプロトコル
Synchro: Block-generation Protocol to Synchronously Process Cross-shard Transactions in State Sharding ( http://arxiv.org/abs/2309.01332v1 ) ライセンス: Link先を確認 | Takaki Asanuma, Takeshi Miyamae, Yuji Yamaoka, | (参考訳) 従来のブロックチェーンはWeb2と同じトランザクションスループットを達成できないため、ユースケースは限られている。
そのため、ブロックチェーンネットワークを分割し、ステートとトランザクションを並列に管理することで、トランザクションスループットを改善するためにステートシャーディングが提案されている。
しかし、状態シャーディングの一種であるNightshadeは、2フェーズコミットでクロスシャードトランザクション(CSTX)を処理するため、一貫性のないトランザクション結果を含むブロックの生成をキャンセルするロールバックプロトコルを提供する。
本稿では,CSTXを繰り返し実行し,確実に状態の不整合を生じさせ,連続的なロールバックを発生させることにより,新しいブロックの発生を阻害する新たな攻撃を提案する。
我々はまた、各CSTXのすべての状態変化を同一ブロックに組み込むためのSynchroと呼ばれるブロック生成プロトコルを提案し、各シャード内のトランザクションを承認する前にブロックをコーディネートする。
Synchroは、CSTXによる状態の不整合の発生とロールバックプロトコルの必要性を取り除く。
我々は、ゼロ知識証明を用いて、Synchroをグローバルな検証フェーズでスケーラブルにする。
ゼロ知識証明の実際のオーバーヘッドはまだ評価されていないが、理論上はゼロ知識証明技術の革新によって、SynchroがNightshadeと同じトランザクションスループットを達成できることが示されている。
Traditional blockchains cannot achieve the same transaction throughput as Web2, so their use cases are limited. Therefore, state sharding has been proposed to improve transaction throughput by dividing the blockchain network and managing states and transactions in parallel. However, Nightshade in the NEAR Protocol, a type of state sharding, provides a rollback protocol to cancel the generation of blocks containing inconsistent transaction results because processing cross-shard transactions (CSTXs) in a 2-phase commit may cause state inconsistency. We present a new attack that interferes with the generation of new blocks by repeatedly executing CSTXs that certainly causes state inconsistency, causing continuous rollback. We also propose a block-generation protocol called Synchro to incorporate all the state changes of each CSTX into the same block by coordinating the block prior to approving transactions in each shard. Synchro eliminates the occurrence of the state inconsistency caused by the CSTXs and the necessity of the rollback protocol. We use zero-knowledge proof to make Synchro scalable in the global validation phase. Although the actual overhead of the zero-knowledge proof has not yet been evaluated, we show that Synchro could achieve the same transaction throughput as Nightshade theoretically, depending on the future innovations in zero-knowledge proof techniques. | 翻訳日:2024-03-25 23:19:21 公開日:2023-09-04 |
# SemProtector: ディープラーニングに基づくセマンティック通信システムにおけるセマンティック保護のための統一フレームワーク
SemProtector: A Unified Framework for Semantic Protection in Deep Learning-based Semantic Communication Systems ( http://arxiv.org/abs/2309.01386v1 ) ライセンス: Link先を確認 | Xinghan Liu, Guoshun Nan, Qimei Cui, Zeju Li, Peiyuan Liu, Zebin Xing, Hanqing Mu, Xiaofeng Tao, Tony Q. S. Quek, | (参考訳) 最近普及している意味コミュニケーション(SC)は、ソースが伝達する意味を効果的に伝達し、目的地における意味を正確に解釈することを目的としている。
このようなパラダイムは、無線通信をよりインテリジェントにするという約束を持っているが、無線チャネルのオープンな性質と神経モジュールの脆弱さのために、盗聴、プライバシー漏洩、偽造といった深刻なセマンティックセキュリティ問題にも悩まされている。
以前の研究は、システム全体のオフラインの敵対的トレーニングを通じて、SCの堅牢性に重点を置いていたが、オンラインセマンティックプロテクション(実世界ではより実践的な設定)は、いまだほとんど探索されていない。
この目的のために,3つのホットプラグ可能なセマンティックプロテクションモジュールを用いたオンラインSCシステムのセキュア化を目的とした統合フレームワークであるSemProtectorを提案する。
具体的には、これらの保護モジュールは、暗号化方法により送信されるセマンティックスを暗号化し、摂動機構により無線チャネルからのプライバシーリスクを軽減し、セマンティックシグネチャ生成方法により目的地における歪んだセマンティクスを校正することができる。
我々のフレームワークは、既存のオンラインSCシステムにおいて、上記の3つのプラグイン可能なモジュールを動的に組み立てて、カスタマイズされたセマンティックプロテクション要件を満たすことを可能にし、現実のSCシステムにおける実践的な展開を容易にする。
2つの公開データセットの実験では、提案したSemProtectorの有効性が示され、SCシステムの機密性、プライバシ、整合性という目標を達成する方法について、いくつかの洞察が得られています。
最後に,セマンティック・プロテクションの今後の方向性について述べる。
Recently proliferated semantic communications (SC) aim at effectively transmitting the semantics conveyed by the source and accurately interpreting the meaning at the destination. While such a paradigm holds the promise of making wireless communications more intelligent, it also suffers from severe semantic security issues, such as eavesdropping, privacy leaking, and spoofing, due to the open nature of wireless channels and the fragility of neural modules. Previous works focus more on the robustness of SC via offline adversarial training of the whole system, while online semantic protection, a more practical setting in the real world, is still largely under-explored. To this end, we present SemProtector, a unified framework that aims to secure an online SC system with three hot-pluggable semantic protection modules. Specifically, these protection modules are able to encrypt semantics to be transmitted by an encryption method, mitigate privacy risks from wireless channels by a perturbation mechanism, and calibrate distorted semantics at the destination by a semantic signature generation method. Our framework enables an existing online SC system to dynamically assemble the above three pluggable modules to meet customized semantic protection requirements, facilitating the practical deployment in real-world SC systems. Experiments on two public datasets show the effectiveness of our proposed SemProtector, offering some insights of how we reach the goal of secrecy, privacy and integrity of an SC system. Finally, we discuss some future directions for the semantic protection. | 翻訳日:2024-03-25 23:19:21 公開日:2023-09-04 |
# 暗号化放送プロトコルにおける低域通信
Communication Lower Bounds for Cryptographic Broadcast Protocols ( http://arxiv.org/abs/2309.01466v1 ) ライセンス: Link先を確認 | Erica Blum, Elette Boyle, Ran Cohen, Chen-Da Liu-Zhang, | (参考訳) ブロードキャストプロトコルは、悪質な当事者による攻撃に対してさえも、指定された送信者の入力に$n$のパーティが同意することを可能にする。
正直な設定では、ランダム化と暗号を利用して、サブクアドラルな全通信とバランスの取れたサブ線形コストで低コミュニケーションの放送を実現した。
しかし、不正直な設定ではほとんど知られていない。
ここでは、通信効率が最も高い構成はドレフとストロング(SICOMP '83)に基づいており、サブクオーラ放送は行われていない。
一方、非自明な$\omega(n)$の通信下界は決定論的プロトコルに制限されるか、あるいはメッセージの削除後に"実行された"強い適応的敵に対して制限される。
我々は、任意の暗号や設定の前提に反する、この空間における新しい通信の下限と、最初のバウンダリの密接度を示す単純なプロトコルを提供する。
1)$n-o(n)$の静的汚職に対してセキュアなプロトコルに対するレジリエンスと通信のトレードオフを示す。
例えば、$\Omega(n\cdot {\sf polylog}(n))$メッセージは、正直な相手の数が$n/{\sf polylog}(n)$; $\Omega(n\sqrt{n})$メッセージは$O(\sqrt{n})$正直な相手、$\Omega(n^2)$メッセージは$O(1)$正直な相手の場合に必要である。
相補的に$O(n\cdot{\sf polylog}(n))$トータル通信で、静的な破損の一定割合に直面した放送を実演する。
2つ目の境界線は、$n/2 + k$の汚職と、"事実の後に"メッセージを削除することができない弱い適応的な敵を考える。
この設定内の任意のブロードキャストプロトコルを攻撃して、任意のパーティに$k$の他のパーティへのメッセージ送信を強制できることを示します。
例えば、このルールは、すべての非売春当事者がサブリニアな通信地域を持つ51%の汚職に直面して放送される。
Broadcast protocols enable a set of $n$ parties to agree on the input of a designated sender, even facing attacks by malicious parties. In the honest-majority setting, randomization and cryptography were harnessed to achieve low-communication broadcast with sub-quadratic total communication and balanced sub-linear cost per party. However, comparatively little is known in the dishonest-majority setting. Here, the most communication-efficient constructions are based on Dolev and Strong (SICOMP '83), and sub-quadratic broadcast has not been achieved. On the other hand, the only nontrivial $\omega(n)$ communication lower bounds are restricted to deterministic protocols, or against strong adaptive adversaries that can perform "after the fact" removal of messages. We provide new communication lower bounds in this space, which hold against arbitrary cryptography and setup assumptions, as well as a simple protocol showing near tightness of our first bound. 1) We demonstrate a tradeoff between resiliency and communication for protocols secure against $n-o(n)$ static corruptions. For example, $\Omega(n\cdot {\sf polylog}(n))$ messages are needed when the number of honest parties is $n/{\sf polylog}(n)$; $\Omega(n\sqrt{n})$ messages are needed for $O(\sqrt{n})$ honest parties; and $\Omega(n^2)$ messages are needed for $O(1)$ honest parties. Complementarily, we demonstrate broadcast with $O(n\cdot{\sf polylog}(n))$ total communication facing any constant fraction of static corruptions. 2) Our second bound considers $n/2 + k$ corruptions and a weakly adaptive adversary that cannot remove messages "after the fact." We show that any broadcast protocol within this setting can be attacked to force an arbitrary party to send messages to $k$ other parties. This rules out, for example, broadcast facing 51% corruptions in which all non-sender parties have sublinear communication locality. | 翻訳日:2024-03-25 23:19:21 公開日:2023-09-04 |
# 2次プログラミングのための同型暗号化勾配降下アルゴリズム
Homomorphically encrypted gradient descent algorithms for quadratic programming ( http://arxiv.org/abs/2309.01559v1 ) ライセンス: Link先を確認 | André Bertolace, Konstantinos Gatsis, Kostas Margellos, | (参考訳) 本稿では, 完全同型暗号方式の評価を行い, 実装を提案し, 準同型暗号方式で2次プログラミングを解くための勾配降下アルゴリズムの適用性を数値解析する。
ホモモルフィック暗号回路の乗算深度に対する制限は、勾配降下アルゴリズムのような反復的な手順にとって大きな課題である。
我々の分析は,これらの制約をプロトタイプの例で定量化し,将来の調査のベンチマークとして機能するだけでなく,勾配降下法や加速勾配降下法などのトレードオフも強調し,最適化に基づく制御に広く用いられている反復的手順において,同型暗号化技術を使用するための道を開く。
さらに、利用可能な同型暗号化スキームのうち、CKKSが勾配勾配勾配アルゴリズムの実装に最適な唯一のスキームであると主張する。
適切なステップサイズを選択することは、手順の収束に不可欠である。
本論文は, 等式的に暗号化された勾配勾配アルゴリズムの有効性を, 直接的に示すものである。
In this paper, we evaluate the different fully homomorphic encryption schemes, propose an implementation, and numerically analyze the applicability of gradient descent algorithms to solve quadratic programming in a homomorphic encryption setup. The limit on the multiplication depth of homomorphic encryption circuits is a major challenge for iterative procedures such as gradient descent algorithms. Our analysis not only quantifies these limitations on prototype examples, thus serving as a benchmark for future investigations, but also highlights additional trade-offs like the ones pertaining the choice of gradient descent or accelerated gradient descent methods, opening the road for the use of homomorphic encryption techniques in iterative procedures widely used in optimization based control. In addition, we argue that, among the available homomorphic encryption schemes, the one adopted in this work, namely CKKS, is the only suitable scheme for implementing gradient descent algorithms. The choice of the appropriate step size is crucial to the convergence of the procedure. The paper shows firsthand the feasibility of homomorphically encrypted gradient descent algorithms. | 翻訳日:2024-03-25 23:19:21 公開日:2023-09-04 |
# ChatGPTを用いた自動スキャニング
Automatic Scam-Baiting Using ChatGPT ( http://arxiv.org/abs/2309.01586v1 ) ライセンス: Link先を確認 | Piyush Bajaj, Matthew Edwards, | (参考訳) 自動詐欺ベイティング(Automatic scam-baiting)は、オンライン詐欺師が時間を浪費し、リソースを浪費し、攻撃者を本当の犠牲者から遠ざけるためのオンライン詐欺対策である。
これまでの研究では、テキスト生成システムは自動詐欺バイターとして攻撃者との連携が可能であることが実証されてきたが、生成されたテキストの流布と一貫性は、そのようなシステムの有効性に限界がある可能性がある。
本稿では,ChatGPTをベースとした2つの自動詐欺バイターの有効性を制御尺度に比較した1ヶ月の実験結果について報告する。
その結果,250人以上の実メール詐欺師の関与により,ChatGPTをベースとした詐欺バイターは,制御基準に対するスケマー応答率と会話長が著しく増加し,従来のアプローチよりも優れていたことがわかった。
本稿では,これらの結果の意義と,自動詐欺ベイティングの広範な展開に向けた実践的考察について論じる。
Automatic scam-baiting is an online fraud countermeasure that involves automated systems responding to online fraudsters in order to waste their time and deplete their resources, diverting attackers away from real potential victims. Previous work has demonstrated that text generation systems are capable of engaging with attackers as automatic scam-baiters, but the fluency and coherence of generated text may be a limit to the effectiveness of such systems. In this paper, we report on the results of a month-long experiment comparing the effectiveness of two ChatGPT-based automatic scam-baiters to a control measure. Within our results, with engagement from over 250 real email fraudsters, we find that ChatGPT-based scam-baiters show a marked increase in scammer response rate and conversation length relative to the control measure, outperforming previous approaches. We discuss the implications of these results and practical considerations for wider deployment of automatic scam-baiting. | 翻訳日:2024-03-25 23:19:21 公開日:2023-09-04 |
# Pisces: プライベートでコンプライアンス可能な暗号通貨交換
Pisces: Private and Compliable Cryptocurrency Exchange ( http://arxiv.org/abs/2309.01667v1 ) ライセンス: Link先を確認 | Ya-nan Li, Tian Qiu, Qiang Tang, | (参考訳) CoinbaseやBinanceといった暗号通貨交換プラットフォームは、株式や商品の取引と同じように、ユーザーが暗号通貨を便利に売買することができる。
しかしながら、ブロックチェーンの性質から、ユーザがコインを引き出したとき(すなわち、外部のオンチェーンアカウントにコインを転送する場合)、プラットフォームによってすべての将来的なトランザクションを学ぶことができる。
これは、ユーザーの外部活動が常にプラットフォームから隠されている従来の証券取引所とは対照的である。
このプラットフォームは、パスポート番号、銀行情報、すべての(オンチェーン)トランザクションのリンクなど、非常に機密性の高いユーザー個人情報を知っており、これらの暗号通貨交換プラットフォームにおける破壊的なデータ漏洩に関する深刻なプライバシー上の懸念を引き起こす。
本稿では,ユーザの匿名性を初めて回復する暗号通貨取引所を提案する。
驚いたことに、プライバシーと匿名性に関する問題は、この設定でいくつかの新しい課題を抱えている。
パブリックブロックチェーンと内部トランザクションのアクティビティがプラットフォームに多くの非自明なリークを自然に提供するため、内部プライバシは通常の意味で有用であるだけでなく、ユーザトランザクションの基本的な匿名性を取り戻す上でも必要になる。
また、利用者が2倍の支出をしないことを保証し、利用者は税益の累積利益を、たとえ民間でも適切に報告する必要がある。
我々は,暗号ツールと厳密なセキュリティ解析のみを用いて,一定の計算と通信オーバーヘッドを実現するシステムの構築を慎重に行うとともに,本システムの実装と実用性能の評価を行う。
Cryptocurrency exchange platforms such as Coinbase, Binance, enable users to purchase and sell cryptocurrencies conveniently just like trading stocks/commodities. However, because of the nature of blockchain, when a user withdraws coins (i.e., transfers coins to an external on-chain account), all future transactions can be learned by the platform. This is in sharp contrast to conventional stock exchange where all external activities of users are always hidden from the platform. Since the platform knows highly sensitive user private information such as passport number, bank information etc, linking all (on-chain) transactions raises a serious privacy concern about the potential disastrous data breach in those cryptocurrency exchange platforms. In this paper, we propose a cryptocurrency exchange that restores user anonymity for the first time. To our surprise, the seemingly well-studied privacy/anonymity problem has several new challenges in this setting. Since the public blockchain and internal transaction activities naturally provide many non-trivial leakages to the platform, internal privacy is not only useful in the usual sense but also becomes necessary for regaining the basic anonymity of user transactions. We also ensure that the user cannot double spend, and the user has to properly report accumulated profit for tax purposes, even in the private setting. We give a careful modeling and efficient construction of the system that achieves constant computation and communication overhead (with only simple cryptographic tools and rigorous security analysis); we also implement our system and evaluate its practical performance. | 翻訳日:2024-03-25 23:19:21 公開日:2023-09-04 |
# 有限場上の一変数アフィンマップに基づくケイリーハッシュ関数のクリプトアナリシス
Cryptanalysis of a Cayley Hash Function Based on Affine Maps in one Variable over a Finite Field ( http://arxiv.org/abs/2308.15765v3 ) ライセンス: Link先を確認 | Bianca Sosnovski, | (参考訳) ケイリーハッシュ関数は、グループのケイリーグラフから構築された暗号ハッシュである。
Shpilrain と Sosnovski (2016) によって提案されたハッシュ関数は、有限体上の線型函数に基づいて、安全でないことが証明された。
本稿では, シュピリンとソスノフスキのハッシュを用いたGhaffari and Mostaghim (2018) の提案も安全でないことを示す。
衝突によるセキュリティの脆弱性を実証する。
Cayley hash functions are cryptographic hashes constructed from Cayley graphs of groups. The hash function proposed by Shpilrain and Sosnovski (2016), based on linear functions over a finite field, was proven insecure. This paper shows that the proposal by Ghaffari and Mostaghim (2018) that uses the Shpilrain and Sosnovski's hash in its construction is also insecure. We demonstrate its security vulnerability by constructing collisions. | 翻訳日:2024-03-19 07:03:01 公開日:2023-09-04 |
# 研究の目的とは何か?
d'objectifs autod{\'e}finis 生産におけるモチベーションネル L'origine de l'objectif est-elle importante? Effets motivationnels d'objectifs autod{\'e}finis en production ( http://arxiv.org/abs/2311.05626v1 ) ライセンス: Link先を確認 | Mario Passalacqua (MAGI), Robert Pellerin (MAGI), Florian Magnani (CERGAM), Laurent Joblot (LISPEN), Esma Yahia (LISPEN), Fr\'ed\'eric Rosin (LAMIH), Pierre-Majorique L\'eger (HEC Montr\'eal) | (参考訳) 従業員の21%が自身を仕事とみなしている。
さらに、仕事が反復的である場合には、離脱がさらに問題となることが示されている。
エンゲージメントの欠如は、従業員や企業のさまざまなネガティブな結果(離職、欠席、幸福、安全事故、生産性など)に関連している。
ゲーム化、すなわちゲーム要素をワークシステムに統合することで、作業タスクが日常的で反復的であっても、エンゲージメントとモチベーションを高めることに成功している。
本研究では, 自己決定理論とゴール設定理論のレンズを通して, 一般的なゲーム要素であるゴール設定に着目した。
我々は、外部ソース(例えば、会社、実験者)が与えるゴールが外在的なモチベーションを生み出し、短期的にのみエンゲージメントとパフォーマンスを改善すると論じる。
私たちは、自己設定の目標がより自律的なモチベーション、すなわち長期的なエンゲージメントとパフォーマンスにつながると仮定します。
100人の参加者が3つの条件(割り当て目標、自己設定目標、目標なし)の1つで反復的な物質処理タスクを完了しました。
その結果,目標が自己設定された場合,自律性(自律的モチベーション)とパフォーマンスが最善であることがわかった。
しかし、エンゲージメントは自己設定と割り当てられた目標とで等しかった。
その結果、自己設定目標が従業員と企業の両方に長期的なポジティブな結果をもたらす最大の可能性を示唆している。 Only 21% of employees consider themselves engaged at work. Moreover, disengagement has been shown to be even more problematic when work is repetitive in nature. Lack of engagement has been linked to variety of negative outcomes for employees and companies (e.g., turnover, absenteeism, well-being, safety incidents, productivity). Gamification, i.e., integrating game elements into work systems, has been successfully used to increase engagement and motivation, even when work tasks were mundane and repetitive. In the current study, we focused on a commonly used game element, goal setting, through the lens of self-determination theory and goal-setting theory. We argue that goals given by an external source (e.g., company, experimenter) produce extrinsic motivation, which improves engagement and performance only in the short term. We posit that self-set goals lead to more autonomous motivation, and therefore long-term engagement and performance. One hundred two participants completed a repetitive material-handling task in one of three conditions (assigned goal, self-set goal, no goal). Results showed that perceived autonomy (autonomous motivation) and performance were best when goals were self-set. Engagement, however, was equal between self-set and assigned goals. The results indicate that self-set goals have the greatest potential to generate long-term positive outcomes both for employees and companies. | 翻訳日:2024-01-15 16:32:41 公開日:2023-09-04 |
# 知識グラフアプローチを用いたコミットメッセージにおけるリズムの理解と分析 Towards Understanding and Analyzing Rationale in Commit Messages using a Knowledge Graph Approach ( http://arxiv.org/abs/2311.03358v1 ) ライセンス: Link先を確認 | Mouna Dhaouadi, Bentley James Oakes, Michalis Famelis | (参考訳) コミットメッセージから合理的な情報を抽出することで、開発者はシステムとその過去の開発をよりよく理解できる。
ここでは,kantara end-to-end rationale reconstruction pipelineについて紹介する。
a) オントロジに基づく知識グラフにおける情報の合理的な構造
b) この情報をコミットから抽出し、分類し、
c) 開発者のために分析レポートと可視化を作成する。
また、LinuxカーネルのOut-of-Memoryコンポーネントの実行例用にラベル付きデータセットを作成する作業も行います。
このデータセットは,有望な結果を示すNLP分類手法,特にマルチ分類手法XGBoostの評価のための基礎的真実として使用される。 Extracting rationale information from commit messages allows developers to better understand a system and its past development. Here we present our ongoing work on the Kantara end-to-end rationale reconstruction pipeline to a) structure rationale information in an ontologically-based knowledge graph, b) extract and classify this information from commits, and c) produce analysis reports and visualizations for developers. We also present our work on creating a labelled dataset for our running example of the Out-of-Memory component of the Linux kernel. This dataset is used as ground truth for our evaluation of NLP classification techniques which show promising results, especially the multi-classification technique XGBoost. | 翻訳日:2024-01-15 16:30:08 公開日:2023-09-04 |
# ディープラーニングを用いた動画像データセット間の移動学習 -フレームワークの検証とデータセットの比較- Transfer Learning between Motor Imagery Datasets using Deep Learning -- Validation of Framework and Comparison of Datasets ( http://arxiv.org/abs/2311.16109v1 ) ライセンス: Link先を確認 | Pierre Guetschel, Michael Tangermann | (参考訳) 本稿では,コンピュータビジョンで一般的に使用される単純な深層学習ベースのフレームワークを示し,脳-コンピュータインタフェース(bci)の分野に共通するメンタルイメージ復号タスクにおけるデータ間転送学習の有効性を実証する。
本研究では,ドナーとレシーバーの両方として,転送に適した12のモータイメージデータセットの大規模な選択について検討した。
挑戦。
ディープラーニングのモデルは通常、長いトレーニング時間を必要とし、データ格納型であり、bciシステムの使用を妨げ、(トレーニング)例の記録時間を最小にし、人間の被験者による実験によって引き起こされる制約を受ける。
両方の問題に対する解決策は転送学習だが、それ自身の課題、すなわちデータセットと主題、さらにはそれに続く同じ主題のセッション間での実質的なデータ分散シフトが伴う。
アプローチ。
事前トレーニング(ドナー)とテスト(レシーバ)の各データセットに対して、まずドナー上でモデルをトレーニングし、次に、いくつかのレシーバー試行に基づいて、新たな線形分類層をトレーニングします。
この転送アプローチのパフォーマンスは、受信データセットの他の試行でテストされる。
重要なこと。
まず、モーターイメージデータセット間の転送学習を使用する閾値を下げる: フレームワーク全体は非常に単純で、それでも適切な分類スコアを得る。
第2に,提案するフレームワークがオンラインシナリオで実現可能であること,および第1に概説した理由から,ディープラーニングモデルがモータ画像のクロスデータセット転送に適した選択肢であることを実証する。
最後に、転送学習に最も適したデータセットの分析は、将来の研究者が事前トレーニングやベンチマークに使用するデータセットを判断するためのリファレンスとして使用できる。 We present a simple deep learning-based framework commonly used in computer vision and demonstrate its effectiveness for cross-dataset transfer learning in mental imagery decoding tasks that are common in the field of Brain-Computer Interfaces (BCI). We investigate, on a large selection of 12 motor-imagery datasets, which ones are well suited for transfer, both as donors and as receivers. Challenges. Deep learning models typically require long training times and are data-hungry, which impedes their use for BCI systems that have to minimize the recording time for (training) examples and are subject to constraints induced by experiments involving human subjects. A solution to both issues is transfer learning, but it comes with its own challenge, i.e., substantial data distribution shifts between datasets, subjects and even between subsequent sessions of the same subject. Approach. For every pair of pre-training (donor) and test (receiver) dataset, we first train a model on the donor before training merely an additional new linear classification layer based on a few receiver trials. Performance of this transfer approach is then tested on other trials of the receiver dataset. Significance. First, we lower the threshold to use transfer learning between motor imagery datasets: the overall framework is extremely simple and nevertheless obtains decent classification scores. Second, we demonstrate that deep learning models are a good option for motor imagery cross-dataset transfer both for the reasons outlined in the first point and because the framework presented is viable in online scenarios. Finally, analysing which datasets are best suited for transfer learning can be used as a reference for future researchers to determine which to use for pre-training or benchmarking. | 翻訳日:2024-01-15 15:22:51 公開日:2023-09-04 |
# androidは架空の参照を夢見るか?
ChatGPT3.5との書誌対話 Do androids dream of fictional references? A bibliographic dialogue with ChatGPT3.5 ( http://arxiv.org/abs/2312.00789v1 ) ライセンス: Link先を確認 | Olivier Las Vergnas (AFA, CIREL) | (参考訳) 本稿では、ChatGPT3.5ツールによって生成された文献参照に焦点を当てる。
openai社が開発したgptジェネレーションモデルchatgpt3.5に基づくこのツールを用いて,6つの異なるテーマを検討し,モデルによって生成された参照のサンプルをフランス語と英語で分析した。
その結果、いくつかの分野における虚偽参照の割合が高く、研究に使用する前にこれらの参照を慎重にチェックすることの重要性が明らかになった。
5月から7月にかけて、ChatGPR3.5が特に訓練されたテーマに関する英語の言及に関して、結果の改善が注目されたが、例えばフランス語では相応しい状況であった。
また、この記事のテキストの多くは、ChatGPTが人間作家と共同で作成したものであることも指摘すべきである。 This article focuses on bibliographic references generated by the ChatGPT3.5 tool. Using this tool based on the trained GPT generation model ChatGPT3.5, developed by the company OpenAI, we explored six different themes and analyzed a sample of references generated by the model, in French and English. The results revealed high percentages of fictitious references in several fields, underlining the importance of carefully checking these references before using them in research work. An improvement in results was nevertheless noted between May and July with regard to English references for themes on which ChatGPR3.5 has been particularly trained, but the situation remains unsatisfactory in French, for example. It should also be pointed out that much of the text in this article was generated by ChatGPT in a joint effort with the human author. | 翻訳日:2024-01-15 15:10:55 公開日:2023-09-04 |
# 人間とロボット(wtf 2023)の会話でトラブルや失敗に対処し、cuiの設計はまだ整っているか? Working with Trouble and Failures in Conversation between Humans and Robots (WTF 2023) & Is CUI Design Ready Yet? ( http://arxiv.org/abs/2401.04108v1 ) ライセンス: Link先を確認 | Frank F\"orster, Marta Romeo, Patrick Holthaus, Maria Jose Galvez Trigo, Joel E. Fischer, Birthe Nesset, Christian Dondrup, Christine Murad, Cosmin Munteanu, Benjamin R. Cowan, Leigh Clark, Martin Porcheron, Heloisa Candello, Raina Langevin | (参考訳) WTF 2023)と「Is CUI Design Ready Yet?」の2つのワークショップのワークショップは、会話型ユーザインタフェース2023に関するACM会議の一部であった。
wtf 23の目的は、人間とロボットの対話、対話システム、人間とコンピュータの対話、会話分析から研究者をまとめることである。
あらゆる進歩にもかかわらず、ロボットの音声インターフェイスは多くの点で不安定であり続けており、そのようなインターフェイスの失敗の経験はロボット工学者の間では一般的である。
しかし、技術文献は好成績に好意的に傾いている。
このワークショップは、人間とロボットの対話におけるコミュニケーション上のトラブルと失敗と、非ロボット的な音声インタフェースにおける関連障害を議論するためのプラットフォームを提供することを目的としている。
目標には、コミュニケーション上の失敗の厳密な調査、このような失敗の分類の取り組み、潜在的な緩和戦略に関する予備的な議論の実施が含まれる。
ワークショップウェブサイト: https://sites.google.com/view/wtf2023/overview is CUI Design Ready yet?
CUIが学術研究と商業市場の両方で普及するにつれて、使用可能なCUIを設計することがより重要になる。
商業用CUIの設計方法については研究が進んでいるが、実際的なCUI設計を支援する設計資源を開発するというコミュニティの実践についてはほとんど議論されていない。
そこで本ワークショップは,cuiコミュニティを集結させ,実践的なcui設計のためのツールやリソース開発の現状,これらのツールやリソースの採用(あるいは非アドオプティオン),新たなcui設計者の育成と教育にこれらのリソースをどのように活用するかを議論することを目的としている。
ワークショップwebサイト: https://speech-interaction.org/cui2023_design_workshop/index.html Workshop proceedings of two co-located workshops "Working with Troubles and Failures in Conversation with Humans and Robots" (WTF 2023) and "Is CUI Design Ready Yet?", both of which were part of the ACM conference on conversational user interfaces 2023. WTF 23 aimed at bringing together researchers from human-robot interaction, dialogue systems, human-computer interaction, and conversation analysis. Despite all progress, robotic speech interfaces continue to be brittle in a number of ways and the experience of failure of such interfaces is commonplace amongst roboticists. However, the technical literature is positively skewed toward their good performance. The workshop aims to provide a platform for discussing communicative troubles and failures in human-robot interactions and related failures in non-robotic speech interfaces. Aims include a scrupulous investigation into communicative failures, to begin working on a taxonomy of such failures, and enable a preliminary discussion on possible mitigating strategies. Workshop website: https://sites.google.com/view/wtf2023/overview Is CUI Design Ready Yet? As CUIs become more prevalent in both academic research and the commercial market, it becomes more essential to design usable and adoptable CUIs. While research has been growing on the methods for designing CUIs for commercial use, there has been little discussion on the overall community practice of developing design resources to aid in practical CUI design. The aim of this workshop, therefore, is to bring the CUI community together to discuss the current practices for developing tools and resources for practical CUI design, the adoption (or non-adoption) of these tools and resources, and how these resources are utilized in the training and education of new CUI designers entering the field. Workshop website: https://speech-interaction.org/cui2023_design_workshop/index.html | 翻訳日:2024-01-15 09:21:19 公開日:2023-09-04 |
# KubernetesからKnactorへ - サービス統合の国家中心再考 From Kubernetes to Knactor: A State-Centric Rethink of Service Integration ( http://arxiv.org/abs/2309.01805v1 ) ライセンス: Link先を確認 | Silvery Fu, Hong Zhang, Ryan Teoh, Taras Priadka, Sylvia Ratnasamy | (参考訳) マイクロサービスは現代のアプリケーションでますます使われており、効果的なサービス統合ソリューションの必要性が高まっている。
しかし、従来のapi中心の統合メカニズム(rpc、rest、pub/subなど)がマイクロサービスのモジュラリティを阻害していると主張する。
これらのメカニズムは、厳格なコードレベルの結合、分散統合ロジック、およびサービス間状態交換の可視性を妨げる。
最終的にこれらの制限は、マイクロサービスベースのアプリケーションのメンテナンスと進化を複雑にする。
これに対し、サービス統合の再考と、マイクロサービスが提供するモジュール性を取り戻すための、新しいステート中心の統合フレームワークであるKnactorを提案する。
knactorはサービス統合をサービス開発から分離し、複数のサービス間の明示的な状態交換として実装できる。
最初のケーススタディでは、Knactorはサービス統合を単純化し、最適化の新しい機会を生み出します。 Microservices are increasingly used in modern applications, leading to a growing need for effective service integration solutions. However, we argue that traditional API-centric integration mechanisms (e.g., RPC, REST, and Pub/Sub) hamper the modularity of microservices. These mechanisms introduce rigid code-level coupling, scatter integration logic, and hinder visibility into cross-service state exchanges. Ultimately, these limitations complicate the maintenance and evolution of microservice-based applications. In response, we propose a rethinking of service integration and present Knactor, a new state-centric integration framework to restore the modularity that microservices were intended to offer. Knactor decouples service integration from service development, allowing integration to be implemented as explicit state exchanges among multiple services. Our initial case study suggests that Knactor simplifies service integration and creates new opportunities for optimizations. | 翻訳日:2023-10-23 11:34:07 公開日:2023-09-04 |
# ハイレベルな問題とそれを引き起こすプロセスインスタンスの相互作用 The Interplay Between High-Level Problems and The Process Instances That Give Rise To Them ( http://arxiv.org/abs/2309.01571v1 ) ライセンス: Link先を確認 | Bianka Bakullari, Jules van Thoor, Dirk Fahland, Wil M.P. van der Aalst | (参考訳) ビジネスプロセスは、短時間で処理する必要があるタスクの数、リソースのワークロードと作業パターン、ボトルネックによって、さまざまな問題に直面します。
これらの問題は局所的に発生し、短命になる可能性があるが、プロセスが標準キャパシティ外で動作しなければならないため、基礎となるプロセスインスタンスへの影響はコストがかかる可能性がある。
個々のプロセスインスタンスで取得できないすべてのプロセスの振る舞いをカバーするために、ハイレベルな振る舞いという用語を使用します。
%) の行動が出現すると, it参加事例に関与した事例を呼び出した。
自然の疑問は、ケースの特徴がそれらが生み出すハイレベルな行動にどのように関係するかという点で生じる。
本研究では,まず,高次問題の観測を検出・相関し,対応する(非参加的)事例を決定する方法について述べる。
次に,任意のケースレベル特性と検出されたハイレベル問題の列との関係を評価する方法を示す。
実際のローン申請プロセスのイベントデータに本手法を適用すると、プロセスの特定の部分がアプリケーションの持続時間と肯定的な結果の確率と相関する遅延、バッチ、忙しいリソースの特定の組み合わせが明らかになる。 Business processes may face a variety of problems due to the number of tasks that need to be handled within short time periods, resources' workload and working patterns, as well as bottlenecks. These problems may arise locally and be short-lived, but as the process is forced to operate outside its standard capacity, the effect on the underlying process instances can be costly. We use the term high-level behavior to cover all process behavior which can not be captured in terms of the individual process instances. %Whenever such behavior emerges, we call the cases which are involved in it participating cases. The natural question arises as to how the characteristics of cases relate to the high-level behavior they give rise to. In this work, we first show how to detect and correlate observations of high-level problems, as well as determine the corresponding (non-)participating cases. Then we show how to assess the connection between any case-level characteristic and any given detected sequence of high-level problems. Applying our method on the event data of a real loan application process revealed which specific combinations of delays, batching and busy resources at which particular parts of the process correlate with an application's duration and chance of a positive outcome. | 翻訳日:2023-10-23 09:16:19 公開日:2023-09-04 |
# MLGuard: マシンラーニングモデルの定義! MLGuard: Defend Your Machine Learning Model! ( http://arxiv.org/abs/2309.01379v1 ) ライセンス: Link先を確認 | Sheng Wong, Scott Barnett, Jessica Rivera-Villicana, Anj Simmons, Hala Abdelkader, Jean-Guy Schneider, Rajesh Vasa | (参考訳) 機械学習(ML)は、金融、医療、交通など、非常に高度に規制された、かつ高度な分野に使われている。
これらのML応用の正しさは、人間の安全と経済的利益にとって重要である。
MLのテストと監視の改善が進められている。
しかし これらのアプローチは
一 不確実性に対処する前又は後条件
二 確率的結果に基づく補正行為の定義、又は
三 システム運転中の継続検証。
本稿では,MLアプリケーションのコントラクトを指定する新しいアプローチであるMLGuardを提案する。
私たちのアプローチは
a) 前/後条件、不変条件及び変更動作を定義するML契約明細書
ロ 契約違反の確率を決定するための検証モデルの作成、及び
c) 契約を強制し,違反に応答するMLラッパー発生装置
私たちの仕事は、MLアプリケーションの構築と安全性の監視に必要な、包括的なフレームワークを提供することを目的としています。 Machine Learning (ML) is used in critical highly regulated and high-stakes fields such as finance, medicine, and transportation. The correctness of these ML applications is important for human safety and economic benefit. Progress has been made on improving ML testing and monitoring of ML. However, these approaches do not provide i) pre/post conditions to handle uncertainty, ii) defining corrective actions based on probabilistic outcomes, or iii) continual verification during system operation. In this paper, we propose MLGuard, a new approach to specify contracts for ML applications. Our approach consists of a) an ML contract specification defining pre/post conditions, invariants, and altering behaviours, b) generated validation models to determine the probability of contract violation, and c) an ML wrapper generator to enforce the contract and respond to violations. Our work is intended to provide the overarching framework required for building ML applications and monitoring their safety. | 翻訳日:2023-10-23 09:15:58 公開日:2023-09-04 |
# 鯨最適化アルゴリズムの等価かつ公正な性能評価 Equitable and Fair Performance Evaluation of Whale Optimization Algorithm ( http://arxiv.org/abs/2310.07723v1 ) ライセンス: Link先を確認 | Bryar A. Hassan, Tarik A. Rashid, Aram Ahmed, Shko M. Qader, Jaffer Majidpour, Mohmad Hussein Abdalla, Noor Tayfor, Hozan K. Hamarashid, Haval Sidqi, Kaniaw A. Noori | (参考訳) すべてのアルゴリズムは、徹底的に、幾分、知的に評価されることが不可欠である。
それでも、最適化アルゴリズムの有効性を公平かつ公平に評価することは、様々な理由から簡単なプロセスではない。
各メソッドの検索領域のサイズ問題や,問題の削減に必要なイテレーション数など,重要なパラメータの選択と初期化は,特に困難である。
その結果,本章は,ベンチマーク関数のハードネススコアや初期制御パラメータの変動が問題次元や探索空間に匹敵する場合,選択されたベンチマーク問題群において,最新のアルゴリズムと鯨最適化アルゴリズム(woa)を対比することを目的とした。
難易度,寸法,探索領域の異なる幅広い数値最適化問題を解く場合,woaは,収束速度,実行時間,メモリ使用率を参照して,先行アルゴリズムよりも統計的に優れているか劣っている可能性が示唆された。 It is essential that all algorithms are exhaustively, somewhat, and intelligently evaluated. Nonetheless, evaluating the effectiveness of optimization algorithms equitably and fairly is not an easy process for various reasons. Choosing and initializing essential parameters, such as the size issues of the search area for each method and the number of iterations required to reduce the issues, might be particularly challenging. As a result, this chapter aims to contrast the Whale Optimization Algorithm (WOA) with the most recent algorithms on a selected set of benchmark problems with varying benchmark function hardness scores and initial control parameters comparable problem dimensions and search space. When solving a wide range of numerical optimization problems with varying difficulty scores, dimensions, and search areas, the experimental findings suggest that WOA may be statistically superior or inferior to the preceding algorithms referencing convergence speed, running time, and memory utilization. | 翻訳日:2023-10-23 03:13:42 公開日:2023-09-04 |
# t_d$対称性におけるスピン軌道結合とjahn-teller効果:ダイヤモンドの置換ニッケル欠陥に関する \textit{ab initio}研究 Spin-orbit coupling and Jahn-Teller effect in $T_d$ symmetry: an \textit{ab initio} study on the substitutional nickel defect in diamond ( http://arxiv.org/abs/2310.08591v1 ) ライセンス: Link先を確認 | Gerg\H{o} Thiering and Adam Gali | (参考訳) 我々は半導体の置換遷移金属欠陥に関連する$T_d$対称性におけるスピン軌道とヤーン・テラー相互作用を分析する。
この理論をダイヤモンドの置換ニッケル欠陥に適用し、ハイブリッド密度汎関数理論を用いて適切な微細リーブ構造と磁気光学パラメータを計算する。
その結果,2.56-eVと2.51-eVの光学中心がこの欠陥と関連していることがわかった。
電子構造の解析は、観測された光遷移と光学的に検出された磁気共鳴信号の背後にあるメカニズムを解明する。 We analyze the spin-orbit and Jahn-Teller interactions in $T_d$ symmetry that are relevant for substitutional transition metal defects in semiconductors. We apply our theory to the substitutional nickel defect in diamond and compute the appropriate fine-leve structure and magneto-optical parameters by means of hybrid density functional theory. Our calculations confirm the intepretations of previous experimental findings that the 2.56-eV and 2.51-eV optical centres are associated with this defect. Our analysis of the electronic structure unravels possible mechanisms behind the observed optical transitions and the optically detected magnetic resonance signal, too. | 翻訳日:2023-10-23 02:51:18 公開日:2023-09-04 |
# 人為的共感分類:深層学習技術、データセット、評価尺度の調査 Artificial Empathy Classification: A Survey of Deep Learning Techniques, Datasets, and Evaluation Scales ( http://arxiv.org/abs/2310.00010v1 ) ライセンス: Link先を確認 | Sharjeel Tahir, Syed Afaq Shah, Jumana Abu-Khalaf | (参考訳) 過去10年間、機械学習(ML)と補助発達ロボット(ADR)の研究者は、人間-ロボット相互作用(HRI)の将来のパラダイムとして、人工共感(AE)に関心を寄せてきた。
人間は生まれてから共感を学ぶため、ロボットや知能機械にこの感覚を浸透させることは困難である。
それでも、大量のデータと時間のトレーニングによって、ある程度の共感を模倣することで、ロボットにとって可能となる。
AEのトレーニング技術は、共感的AI研究の分野からの発見とともに、常に進化している。
人工共感のための標準的なワークフローは、3つのステージから構成される。
1)ビデオまたはテキストデータから抽出した特徴を用いた感情認識(er)
2)最善の行動経路を選択するための感情や共感の程度を分析すること
3) 対応行動を実施すること。
AEが仮想エージェントやロボットで使用されていることを示す最近の研究は、しばしばDeep Learning (DL)技術を含んでいる。
例えば、VGGFaceのようなモデルはERを実行するために使用される。
オートエンコーダのような半教師付きモデルは、対応する感情状態と行動応答を生成する。
しかしながら、AEを評価するための独立したアプローチや、反応が共感的であった程度を示す研究は行われていない。
本稿では,これまでに収集および使用されてきたデータセットとともに,共感の計測と評価のための既存の作業について検討し,評価することを目的とする。
我々のゴールは、その性能を比較することで、AE領域における最先端の手法の活用を強調し、促進することである。
これにより、AE領域の研究者が精度でアプローチを選択するのに役立つ。 From the last decade, researchers in the field of machine learning (ML) and assistive developmental robotics (ADR) have taken an interest in artificial empathy (AE) as a possible future paradigm for human-robot interaction (HRI). Humans learn empathy since birth, therefore, it is challenging to instill this sense in robots and intelligent machines. Nevertheless, by training over a vast amount of data and time, imitating empathy, to a certain extent, can be possible for robots. Training techniques for AE, along with findings from the field of empathetic AI research, are ever-evolving. The standard workflow for artificial empathy consists of three stages: 1) Emotion Recognition (ER) using the retrieved features from video or textual data, 2) analyzing the perceived emotion or degree of empathy to choose the best course of action, and 3) carrying out a response action. Recent studies that show AE being used with virtual agents or robots often include Deep Learning (DL) techniques. For instance, models like VGGFace are used to conduct ER. Semi-supervised models like Autoencoders generate the corresponding emotional states and behavioral responses. However, there has not been any study that presents an independent approach for evaluating AE, or the degree to which a reaction was empathetic. This paper aims to investigate and evaluate existing works for measuring and evaluating empathy, as well as the datasets that have been collected and used so far. Our goal is to highlight and facilitate the use of state-of-the-art methods in the area of AE by comparing their performance. This will aid researchers in the area of AE in selecting their approaches with precision. | 翻訳日:2023-10-08 11:14:44 公開日:2023-09-04 |
# NLPとサンプリングによる効果的な社会的選択 Efficient Social Choice via NLP and Sampling ( http://arxiv.org/abs/2309.12360v1 ) ライセンス: Link先を確認 | Lior Ashkenazy and Nimrod Talmon | (参考訳) アテンション・アウェア・ソーシャル・チョイスは、一部のエージェント・コミュニティが直面する根本的な対立に対処し、意思決定プロセスに全メンバーを含めることを望んでおり、コミュニティ・メンバーを処分する時間と注意を制限している。
そこで本研究では,自然言語処理(nlp)とサンプリングの2つの手法の組み合わせについて検討した。
基本的に、現状を変更するための各ガバナンス提案は、まず、すべてのコミュニティメンバーが直接投票した場合、提案が通過する確率を推定する訓練されたnlpモデルに送られ、その推定に基づいて、一定のサイズの人口サンプルが選択され、サンプル多数を採って提案が決定されるシステムを提案する。
本稿では,複数の分散自治機構(DAOs)などを含む,さまざまなデータを用いて具体的なアルゴリズムを開発し,評価する。 Attention-Aware Social Choice tackles the fundamental conflict faced by some agent communities between their desire to include all members in the decision making processes and the limited time and attention that are at the disposal of the community members. Here, we investigate a combination of two techniques for attention-aware social choice, namely Natural Language Processing (NLP) and Sampling. Essentially, we propose a system in which each governance proposal to change the status quo is first sent to a trained NLP model that estimates the probability that the proposal would pass if all community members directly vote on it; then, based on such an estimation, a population sample of a certain size is being selected and the proposal is decided upon by taking the sample majority. We develop several concrete algorithms following the scheme described above and evaluate them using various data, including such from several Decentralized Autonomous Organizations (DAOs). | 翻訳日:2023-10-01 12:45:42 公開日:2023-09-04 |
# ヨーロッパにおけるオープンアクセス:国と地域の比較 Open access in Europe: a national and regional comparison ( http://arxiv.org/abs/2309.12359v1 ) ライセンス: Link先を確認 | Abdelghani Maddi (GEMASS, CEPN, OST), Esther Lardreau (OST), David Sapinho (OST) | (参考訳) 科学出版物へのオープンアクセスは、欧州の政策立案者にとって徐々に重要な問題となり、各国が開発を促進するための具体的な措置がとられている。
論文の目的は、欧州におけるoaポリシーの概要をざっと紹介した後、web of science(wos)データベースのデータを用いて、欧州諸国におけるoaプラクティスの比較研究を行うことである。
この分析は、時間とともに進化を示すOAシェアと、国家の学際構造を考慮した空間比較を可能にする正常化OA指標(NOAI)の2つの指標に基づいている。
以上の結果から,OAの進展は期待どおりに推移するが,早期にOAに有利な措置を採り始めるかによって,各国間で大きな格差が生じる。
政策の重要性とその国レベルでのオープンアクセスへの影響を強調することは可能であるが、地域レベルではそうではないようである。
オープンアクセスの指標に関して、同じ国内において、地域間の変動はそれほど多くない。 Open access to scientific publications has progressively become a key issue for European policy makers, resulting in concrete measures by the different country members to promote its development. The aim of paper is, after providing a quick overview of OA policies in Europe, to carry out a comparative study of OA practices within European countries, using data from the Web of Science (WoS) database. This analysis is based on two indicators: the OA share that illustrates the evolution over time, and the normalized OA indicator (NOAI) that allows spatial comparisons, taking into account disciplinary structures of countries. Results show a general trend towards the development of OA over time as expected, but with large disparities between countries, depending on how early they begin taking measures in favor of OA. While it is possible to stress the importance of policy and its influence on open access at country level, this does not appear to be the case at the regional level. There is not much variability between regions, within the same country, in terms of open access indicators. | 翻訳日:2023-10-01 12:45:25 公開日:2023-09-04 |
# NeuroCADR:新しい抗てんかん薬候補の検索と統合的計算アプローチ NeuroCADR: Drug Repurposing to Reveal Novel Anti-Epileptic Drug Candidates Through an Integrated Computational Approach ( http://arxiv.org/abs/2309.13047v1 ) ライセンス: Link先を確認 | Srilekha Mamidala | (参考訳) 薬物再精製は、新しい目的のために既存の薬物の再割り当てを含む薬物発見の新しいアプローチである。
薬物開発における伝統的なデ・ノボのプロセスの代替として、再利用された薬物は、従来の方法から開発された薬物よりも速く、安価で、失敗しやすい。
近年, シリコでは, 標的タンパク質と薬物分子との相互作用を検索し, 薬物候補を同定するために, 薬物データベースと化学物質情報の活用が試みられている。
提案するアルゴリズムはNeuroCADRであり,k-nearest neighbor algorithm (KNN),ランダム森林分類,決定木からなる多目的アプローチによる薬物再資源化システムである。
データは病気、症状、遺伝子、および関連する薬物分子間の相互作用からなるデータベースから作成され、その後バイナリで表現されたデータセットにコンパイルされた。
提案手法は高い精度を示し,シリコアプローチのほぼすべてに匹敵する精度を示した。
神経CADRはてんかんを特徴とするてんかん、脳細胞における制御不能な電気活動のバーストを伴う期間で実施された。
既存のてんかん治療薬は効果がなく高価であり、新しい抗てんかん薬の必要性が浮かび上がっている。
neurocadrは、臨床試験を通じてさらに承認できる新しいてんかん候補を同定した。
このアルゴリズムは、患者の以前の医療履歴に基づいて、患者を処方する薬物の組み合わせを決定できる可能性がある。
本研究は, てんかんなどの神経疾患における薬物候補を解明する新手法であるNeuroCADRについて検討する。 Drug repurposing is an emerging approach for drug discovery involving the reassignment of existing drugs for novel purposes. An alternative to the traditional de novo process of drug development, repurposed drugs are faster, cheaper, and less failure prone than drugs developed from traditional methods. Recently, drug repurposing has been performed in silico, in which databases of drugs and chemical information are used to determine interactions between target proteins and drug molecules to identify potential drug candidates. A proposed algorithm is NeuroCADR, a novel system for drug repurposing via a multi-pronged approach consisting of k-nearest neighbor algorithms (KNN), random forest classification, and decision trees. Data was sourced from several databases consisting of interactions between diseases, symptoms, genes, and affiliated drug molecules, which were then compiled into datasets expressed in binary. The proposed method displayed a high level of accuracy, outperforming nearly all in silico approaches. NeuroCADR was performed on epilepsy, a condition characterized by seizures, periods of time with bursts of uncontrolled electrical activity in brain cells. Existing drugs for epilepsy can be ineffective and expensive, revealing a need for new antiepileptic drugs. NeuroCADR identified novel drug candidates for epilepsy that can be further approved through clinical trials. The algorithm has the potential to determine possible drug combinations to prescribe a patient based on a patient's prior medical history. This project examines NeuroCADR, a novel approach to computational drug repurposing capable of revealing potential drug candidates in neurological diseases such as epilepsy. | 翻訳日:2023-10-01 12:35:07 公開日:2023-09-04 |
# プログラム実行からの補足によるコード表現事前学習 Code Representation Pre-training with Complements from Program Executions ( http://arxiv.org/abs/2309.09980v1 ) ライセンス: Link先を確認 | Jiabo Huang, Jianyu Zhao, Yuyang Rong, Yiwen Guo, Yifeng He, Hao Chen | (参考訳) 自然言語処理のための大規模言語モデル(LLM)は、コードインテリジェンスを向上するためのプログラミング言語モデリングに移植されている。
テキスト形式で表現できるが、コードは構文上より厳密で、適切にコンパイルされたり解釈されたりして、任意の入力に対して望ましい振る舞いを実行することができる。
この場合、既存の作品は抽象構文木や制御フローグラフなどの形で曖昧さのないコードから学ぶための構文表現の恩恵を受けます。
しかし、同じ目的のプログラムは、異なる構文表現を示す様々な方法で実装できるが、類似のプログラムは異なる振る舞いを持つことができる。
実行中に簡単に示されるが、機能に関するこのような意味論は、特に教師なしの方法で、コードから直接学ぶことは困難である。
そこで本稿では,テストケースで明らかにされるプログラムの動的情報を探索し,補完としてコードの特徴表現に組み込むため,fuzzpretrainを提案する。
テストケースはカスタマイズされたファザーの助けを借りて入手され、事前トレーニング中にのみ必要となる。
FuzzPretrainは、ソースコードとASTのみをトレーニングしたコード検索に対して、6%/9%以上のmAP改善を実現した。
広範な実験結果から,プログラム実行による識別的コード表現の学習の利点が示された。 Large language models (LLMs) for natural language processing have been grafted onto programming language modeling for advancing code intelligence. Although it can be represented in the text format, code is syntactically more rigorous in order to be properly compiled or interpreted to perform a desired set of behaviors given any inputs. In this case, existing works benefit from syntactic representations to learn from code less ambiguously in the forms of abstract syntax tree, control-flow graph, etc. However, programs with the same purpose can be implemented in various ways showing different syntactic representations while the ones with similar implementations can have distinct behaviors. Though trivially demonstrated during executions, such semantics about functionality are challenging to be learned directly from code, especially in an unsupervised manner. Hence, in this paper, we propose FuzzPretrain to explore the dynamic information of programs revealed by their test cases and embed it into the feature representations of code as complements. The test cases are obtained with the assistance of a customized fuzzer and are only required during pre-training. FuzzPretrain yielded more than 6%/9% mAP improvements on code search over its counterparts trained with only source code or AST, respectively. Our extensive experimental results show the benefits of learning discriminative code representations with program executions. | 翻訳日:2023-09-24 04:06:45 公開日:2023-09-04 |
# 人工知能に基づく卓球テニス選手の運動能力の認識・評価システムの設計 Design of Recognition and Evaluation System for Table Tennis Players' Motor Skills Based on Artificial Intelligence ( http://arxiv.org/abs/2309.07141v1 ) ライセンス: Link先を確認 | Zhuo-yong Shi, Ye-tao Jia, Ke-xin Zhang, Ding-han Wang, Long-meng Ji, and Yong Wu | (参考訳) 電子科学と技術の急速な発展により、ウェアラブルデバイスの研究は常に更新されているが、今のところウェアラブルデバイスが特定のスポーツの動きを認識し分析することは包括的ではない。
そこで本研究では,卓球のウェアラブルデバイスを改善し,人工知能による卓球選手の運動スキルのパターン認識と評価を実現する。
まず、テーブルテニス選手の動き情報を収集する装置を設計し、実際の動きデータを処理する。
第2に、収集した動きデータを6つのテーブルテニスベンチマーク運動の特徴データベースに分割するスライディングウィンドウを設ける。
第3に, 運動特性は特徴工学に基づいて構築され, 次元化後, 異なるモデルに対して運動スキルが同定された。
最後に、異なる評価指標の損失関数を用いて、モータスキルの階層的評価システムを確立する。
その結果,本論文で提案するbpニューラルネットワークは,卓球選手の運動能力の認識において,従来の畳み込みニューラルネットワークよりも認識精度が高く,一般化能力が高いことがわかった。 With the rapid development of electronic science and technology, the research on wearable devices is constantly updated, but for now, it is not comprehensive for wearable devices to recognize and analyze the movement of specific sports. Based on this, this paper improves wearable devices of table tennis sport, and realizes the pattern recognition and evaluation of table tennis players' motor skills through artificial intelligence. Firstly, a device is designed to collect the movement information of table tennis players and the actual movement data is processed. Secondly, a sliding window is made to divide the collected motion data into a characteristic database of six table tennis benchmark movements. Thirdly, motion features were constructed based on feature engineering, and motor skills were identified for different models after dimensionality reduction. Finally, the hierarchical evaluation system of motor skills is established with the loss functions of different evaluation indexes. The results show that in the recognition of table tennis players' motor skills, the feature-based BP neural network proposed in this paper has higher recognition accuracy and stronger generalization ability than the traditional convolutional neural network. | 翻訳日:2023-09-17 13:39:07 公開日:2023-09-04 |
# スポーツタイムタブリングで選択するアルゴリズムは? Which algorithm to select in sports timetabling? ( http://arxiv.org/abs/2309.03229v1 ) ライセンス: Link先を確認 | David Van Bulck, Dries Goossens, Jan-Patrick Clarner, Angelos Dimitsas, George H. G. Fonseca, Carlos Lamas-Fernandez, Martin Mariusz Lester, Jaap Pedersen, Antony E. Phillips, Roberto Maria Rosati | (参考訳) スポーツ競技にはタイムテーブルが必要で、チームがいつどこで会うかを指定する。
近年のITC2021(International Timetabling Competition)では、一般的なアルゴリズムを開発できるが、各アルゴリズムの性能は問題インスタンスによって大きく異なることが示されている。
本稿は,8つの最先端アルゴリズムの強みと弱みに関する強力な洞察を与える,スポーツタイムタブリングのインスタンス空間分析を提供する。
機械学習技術に基づいて,スポーツ時変問題インスタンスの特徴を考慮し,どのアルゴリズムが最適に動作するかを予測するアルゴリズム選択システムを提案する。
さらに,その予測においてどの特性が重要であるかを特定し,アルゴリズムの性能に関する洞察を与え,さらに改善するための提案を行う。
最後に、事例の実証的硬さを評価する。
この結果は,500以上の新しい問題インスタンス上で約50年間のCPU時間を含む大規模計算実験に基づいている。 Any sports competition needs a timetable, specifying when and where teams meet each other. The recent International Timetabling Competition (ITC2021) on sports timetabling showed that, although it is possible to develop general algorithms, the performance of each algorithm varies considerably over the problem instances. This paper provides an instance space analysis for sports timetabling, resulting in powerful insights into the strengths and weaknesses of eight state-of-the-art algorithms. Based on machine learning techniques, we propose an algorithm selection system that predicts which algorithm is likely to perform best when given the characteristics of a sports timetabling problem instance. Furthermore, we identify which characteristics are important in making that prediction, providing insights in the performance of the algorithms, and suggestions to further improve them. Finally, we assess the empirical hardness of the instances. Our results are based on large computational experiments involving about 50 years of CPU time on more than 500 newly generated problem instances. | 翻訳日:2023-09-08 15:40:30 公開日:2023-09-04 |
# 特許インフォームドバイオメディカル知識グラフの学習 : 医薬品再配置候補の技術的可能性 Learning a Patent-Informed Biomedical Knowledge Graph Reveals Technological Potential of Drug Repositioning Candidates ( http://arxiv.org/abs/2309.03227v1 ) ライセンス: Link先を確認 | Yongseung Jegal, Jaewoong Choi, Jiho Lee, Ki-Su Park, Seyoung Lee, Janghyeok Yoon | (参考訳) 薬物再配置-既存の薬物の新しい治療用途を発見するための有望な戦略--生物医学データベースを用いた計算科学文献においてますます研究されている。
しかし、薬物再配置候補の技術的可能性はしばしば見過ごされている。
本研究は,医薬品特許やバイオメディカルデータベースなどの様々な資料を包括的に分析し,技術的可能性と科学的証拠の両方を持つ薬物再配置候補を同定するための新しいプロトコルを提案する。
そこで我々はまず, 薬物, 疾患, および生物医学データベースから得られた遺伝子を関連付ける科学的バイオメディカル知識グラフ(s-BKG)を構築した。
本プロトコルでは, 標的疾患と限られた関連性を示す薬物を, s-BKGの薬剤候補として同定する。
特許を付与した生体医学知識グラフ(p-bkg)を構築した。
最後に,p-BKGの構造を確認するためのグラフ埋め込みプロトコルを開発した。
アルツハイマー病の症例研究は,その有効性と実現可能性を示し,その定量的結果と体系的手法は,薬物再配置研究における計算的発見と成功した市場応用とのギャップを埋めることが期待される。 Drug repositioning-a promising strategy for discovering new therapeutic uses for existing drugs-has been increasingly explored in the computational science literature using biomedical databases. However, the technological potential of drug repositioning candidates has often been overlooked. This study presents a novel protocol to comprehensively analyse various sources such as pharmaceutical patents and biomedical databases, and identify drug repositioning candidates with both technological potential and scientific evidence. To this end, first, we constructed a scientific biomedical knowledge graph (s-BKG) comprising relationships between drugs, diseases, and genes derived from biomedical databases. Our protocol involves identifying drugs that exhibit limited association with the target disease but are closely located in the s-BKG, as potential drug candidates. We constructed a patent-informed biomedical knowledge graph (p-BKG) by adding pharmaceutical patent information. Finally, we developed a graph embedding protocol to ascertain the structure of the p-BKG, thereby calculating the relevance scores of those candidates with target disease-related patents to evaluate their technological potential. Our case study on Alzheimer's disease demonstrates its efficacy and feasibility, while the quantitative outcomes and systematic methods are expected to bridge the gap between computational discoveries and successful market applications in drug repositioning research. | 翻訳日:2023-09-08 15:40:15 公開日:2023-09-04 |
# リレー拡散:画像合成のための解像度を越えた拡散過程の統一 Relay Diffusion: Unifying diffusion process across resolutions for image synthesis ( http://arxiv.org/abs/2309.03350v1 ) ライセンス: Link先を確認 | Jiayan Teng, Wendi Zheng, Ming Ding, Wenyi Hong, Jianqiao Wangni, Zhuoyi Yang, Jie Tang | (参考訳) 拡散モデルは画像合成で大きな成功を収めたが、高分解能生成では依然として課題に直面している。
離散コサイン変換のレンズを通して、高分解能における同じノイズレベルが周波数領域において高い信号対雑音比となることが主な理由であることが分かる。
本研究では,低分解能画像やノイズを,ぼかし拡散とブロックノイズによる拡散モデルに等価な高分解能画像に転送するリレー拡散モデル(rdm)を提案する。
したがって、純粋なノイズや低解像度条件から再開することなく、拡散過程を任意の新しい解像度やモデルでシームレスに継続することができる。
RDM は CelebA-HQ の最先端 FID と ImageNet 256$\times$256 の sFID を達成し、ADM, LDM, DiT といった以前の作品を大きく上回っている。
すべてのコードとチェックポイントは、 \url{https://github.com/thudm/relaydiffusion}でオープンソースである。 Diffusion models achieved great success in image synthesis, but still face challenges in high-resolution generation. Through the lens of discrete cosine transformation, we find the main reason is that \emph{the same noise level on a higher resolution results in a higher Signal-to-Noise Ratio in the frequency domain}. In this work, we present Relay Diffusion Model (RDM), which transfers a low-resolution image or noise into an equivalent high-resolution one for diffusion model via blurring diffusion and block noise. Therefore, the diffusion process can continue seamlessly in any new resolution or model without restarting from pure noise or low-resolution conditioning. RDM achieves state-of-the-art FID on CelebA-HQ and sFID on ImageNet 256$\times$256, surpassing previous works such as ADM, LDM and DiT by a large margin. All the codes and checkpoints are open-sourced at \url{https://github.com/THUDM/RelayDiffusion}. | 翻訳日:2023-09-08 14:56:56 公開日:2023-09-04 |
# 音韻記憶の最小有効理論--音声の誤りによる局所的相関を捉える Minimal Effective Theory for Phonotactic Memory: Capturing Local Correlations due to Errors in Speech ( http://arxiv.org/abs/2309.02466v1 ) ライセンス: Link先を確認 | Paul Myles Eugenio | (参考訳) 音声言語は、人間の口の構造などの要因に依存する、言語経済によって制約されるように進化する。
これにより、話し言葉の局所的な音声的相関が生じる。
本稿では,これらの局所的相関関係が,情報量を減らすことにより,話し言葉の学習を促進することを実証する。
我々は、多体物理学で用いられる類似の変分モデルに触発された局所連結テンソル-ネットワークモデルを構築し、これらの局所音韻相関を利用して音声単語の学習を容易にする。
したがって、モデルは音素記憶の最小モデルであり、「発音への学習」と「単語の学習」は同一である。
その結果、ターゲット言語に対して音声学的に妥当な新しい単語を生成することができるようになり、また、音声の動作中に発生する可能性のある最も可能性の高いエラーの階層を提供する。
モデルはラテン語とトルコ語の単語に対してテストします。
(コードはgithubで入手できる)。 Spoken language evolves constrained by the economy of speech, which depends on factors such as the structure of the human mouth. This gives rise to local phonetic correlations in spoken words. Here we demonstrate that these local correlations facilitate the learning of spoken words by reducing their information content. We do this by constructing a locally-connected tensor-network model, inspired by similar variational models used for many-body physics, which exploits these local phonetic correlations to facilitate the learning of spoken words. The model is therefore a minimal model of phonetic memory, where "learning to pronounce" and "learning a word" are one and the same. A consequence of which is the learned ability to produce new words which are phonetically reasonable for the target language; as well as providing a hierarchy of the most likely errors that could be produced during the action of speech. We test our model against Latin and Turkish words. (The code is available on GitHub.) | 翻訳日:2023-09-07 18:06:38 公開日:2023-09-04 |
# 付加生産のための基礎的AIモデルに向けて:Gコードのデバッグ、操作、理解のための言語モデル Towards Foundational AI Models for Additive Manufacturing: Language Models for G-Code Debugging, Manipulation, and Comprehension ( http://arxiv.org/abs/2309.02465v1 ) ライセンス: Link先を確認 | Anushrut Jignasu, Kelly Marshall, Baskar Ganapathysubramanian, Aditya Balu, Chinmay Hegde, Adarsh Krishnamurthy | (参考訳) 3Dプリンティングまたは添加物製造は、デジタルモデルから物理的オブジェクトを作成できる革命的な技術である。
しかし、3dプリンティングの品質と精度は、3dプリンタの素材の移動と押出の仕方を指示する低レベルの数値制御プログラミング言語g-codeの正確性と効率に依存する。
g-codeのデバッグは、g-codeフォーマットと印刷すべき部分の形状を構文的かつ意味的に理解する必要がある、難しいタスクである。
本稿では,3DプリンティングのためのG-codeファイルのコンパイルとデバッギングのための6つの最先端基盤言語モデル (LLM) の広範な評価を行う。
我々は,事前学習したllmがgコードを理解し,操作できるように効果的なプロンプトを設計し,共通エラーの検出と修正,幾何変換を行う機能など,gコードデバッグと操作のさまざまな面でその性能をテストする。
完全なg-codeファイルを理解するための強みと弱みを分析する。
また、G-code 理解に LLM を用いることの意義と限界についても論じる。 3D printing or additive manufacturing is a revolutionary technology that enables the creation of physical objects from digital models. However, the quality and accuracy of 3D printing depend on the correctness and efficiency of the G-code, a low-level numerical control programming language that instructs 3D printers how to move and extrude material. Debugging G-code is a challenging task that requires a syntactic and semantic understanding of the G-code format and the geometry of the part to be printed. In this paper, we present the first extensive evaluation of six state-of-the-art foundational large language models (LLMs) for comprehending and debugging G-code files for 3D printing. We design effective prompts to enable pre-trained LLMs to understand and manipulate G-code and test their performance on various aspects of G-code debugging and manipulation, including detection and correction of common errors and the ability to perform geometric transformations. We analyze their strengths and weaknesses for understanding complete G-code files. We also discuss the implications and limitations of using LLMs for G-code comprehension. | 翻訳日:2023-09-07 18:06:23 公開日:2023-09-04 |
# 深部強化学習による三次元シリンダのアクティブフロー制御 Active flow control for three-dimensional cylinders through deep reinforcement learning ( http://arxiv.org/abs/2309.02462v1 ) ライセンス: Link先を確認 | Pol Su\'arez, Francisco Alc\'antara-\'Avila, Arnau Mir\'o, Jean Rabault, Bernat Font, Oriol Lehmkuhl and R. Vinuesa | (参考訳) 本稿では, 個別に制御された0-net-mass-flux合成ジェットを用いたアクティブフロー制御を初めて成功させた。
ジェットはそのスパンに沿って三次元シリンダ上に配置され、抗力係数を低減させる。
計算流体力学解法を近位法最適化アルゴリズムを用いたエージェントと結合する深層強化学習フレームワークに基づいている。
局所不変量を活用したマルチエージェント強化学習フレームワークを実装し,異なるジオメトリに適応し,トランスファー学習やエージェントのクロスアプリケーションを容易にすることで,大幅なトレーニングスピードアップを実現している。
本報告では,DRLに基づく制御を3つの異なる構成で適用し,大幅なドラッグ低減を図った。 This paper presents for the first time successful results of active flow control with multiple independently controlled zero-net-mass-flux synthetic jets. The jets are placed on a three-dimensional cylinder along its span with the aim of reducing the drag coefficient. The method is based on a deep-reinforcement-learning framework that couples a computational-fluid-dynamics solver with an agent using the proximal-policy-optimization algorithm. We implement a multi-agent reinforcement-learning framework which offers numerous advantages: it exploits local invariants, makes the control adaptable to different geometries, facilitates transfer learning and cross-application of agents and results in significant training speedup. In this contribution we report significant drag reduction after applying the DRL-based control in three different configurations of the problem. | 翻訳日:2023-09-07 18:05:55 公開日:2023-09-04 |
# 暗号トランザクションネットワーク上での不正アカウント検出に有効なマルチグラフニューラルネットワーク Effective Multi-Graph Neural Networks for Illicit Account Detection on Cryptocurrency Transaction Networks ( http://arxiv.org/abs/2309.02460v1 ) ライセンス: Link先を確認 | Zhihao Ding, Jieming Shi, Qing Li, Jiannong Cao | (参考訳) オンライン金融市場で極めて重要な暗号通貨の取引ネットワークにおける不正アカウント検出について検討する。
暗号通貨に対する不正行為の急増は、通常のユーザーから何十億もの損失をもたらした。
既存のソリューションは、手作りの機能を得るために退屈な機能エンジニアリングに依存しているか、あるいは暗号トランザクションデータのリッチなセマンティクスを十分に活用するのに不適当である。
本稿では、エッジ属性を持つ有向多重グラフ上の分類タスクとして不正アカウント検出問題を定式化し、大規模トランザクションネットワーク上で不正アカウントを効果的に検出する新しいマルチグラフニューラルネットワークモデルであるDIAMを提案する。
まず、diamには、エッジ属性と有向エッジシーケンス依存性の両方を考慮して、並列エッジの固有トランザクションパターンを保存する効果的なノード表現を自動的に学習するedge2seqモジュールが含まれている。
マルチグラフトポロジを利用すると、DIAMは新しいMultigraph Discrepancy(MGD)モジュールとよく設計されたメッセージパッシング機構を使用して、アテンションメカニズムによってサポートされている正常ノードと不正ノード間の不一致の特徴をキャプチャする。
すべてのテクニックを組み立てると、DIAMはエンドツーエンドでトレーニングされます。
大規模な実験は、ビットコインとイーサリアムの4つの暗号通貨データセット上の14の既存のソリューションと比較し、DIAMが不正なアカウントを正確に検出し、効率的であることを証明する。
例えば、2000万のノードと203万のエッジを持つBitcoinデータセットでは、DIAMはF1スコア96.55%を獲得し、F1スコア83.92%よりも大幅に高い。 We study illicit account detection on transaction networks of cryptocurrencies that are increasi_testngly important in online financial markets. The surge of illicit activities on cryptocurrencies has resulted in billions of losses from normal users. Existing solutions either rely on tedious feature engineering to get handcrafted features, or are inadequate to fully utilize the rich semantics of cryptocurrency transaction data, and consequently, yield sub-optimal performance. In this paper, we formulate the illicit account detection problem as a classification task over directed multigraphs with edge attributes, and present DIAM, a novel multi-graph neural network model to effectively detect illicit accounts on large transaction networks. First, DIAM includes an Edge2Seq module that automatically learns effective node representations preserving intrinsic transaction patterns of parallel edges, by considering both edge attributes and directed edge sequence dependencies. Then utilizing the multigraph topology, DIAM employs a new Multigraph Discrepancy (MGD) module with a well-designed message passing mechanism to capture the discrepant features between normal and illicit nodes, supported by an attention mechanism. Assembling all techniques, DIAM is trained in an end-to-end manner. Extensive experiments, comparing against 14 existing solutions on 4 large cryptocurrency datasets of Bitcoin and Ethereum, demonstrate that DIAM consistently achieves the best performance to accurately detect illicit accounts, while being efficient. For instance, on a Bitcoin dataset with 20 million nodes and 203 million edges, DIAM achieves F1 score 96.55%, significantly higher than the F1 score 83.92% of the best competitor. | 翻訳日:2023-09-07 18:05:42 公開日:2023-09-04 |
# ダウンサンプリング音響表現によるエンドツーエンド音声認識のためのテキストオンリードメイン適応 Text-Only Domain Adaptation for End-to-End Speech Recognition through Down-Sampling Acoustic Representation ( http://arxiv.org/abs/2309.02459v1 ) ライセンス: Link先を確認 | Jiaxu Zhu, Weinan Tong, Yaoxun Xu, Changhe Song, Zhiyong Wu, Zhao You, Dan Su, Dong Yu, Helen Meng | (参考訳) 音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
しかし、音声表現とテキスト表現の長さは一致しない。
前者は、テキスト表現を音響モダリティに合わせるようにサンプリングするが、実際の継続時間には一致しない。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリングによる音響表現による新しい表現マッチング戦略を提案する。
トークン長に整合した音響表現を生成するCIF(Continuous Integration-and-fire)モジュールを導入することにより,ASRモデルは両モードからの統一表現をよりよく学習し,対象ドメインのテキストのみのデータを用いたドメイン適応を可能にする。
提案手法の有効性を示す新しい領域データの実験結果を得た。 Mapping two modalities, speech and text, into a shared representation space, is a research topic of using text-only data to improve end-to-end automatic speech recognition (ASR) performance in new domains. However, the length of speech representation and text representation is inconsistent. Although the previous method up-samples the text representation to align with acoustic modality, it may not match the expected actual duration. In this paper, we proposed novel representations match strategy through down-sampling acoustic representation to align with text modality. By introducing a continuous integrate-and-fire (CIF) module generating acoustic representations consistent with token length, our ASR model can learn unified representations from both modalities better, allowing for domain adaptation using text-only data of the target domain. Experiment results of new domain data demonstrate the effectiveness of the proposed method. | 翻訳日:2023-09-07 18:05:13 公開日:2023-09-04 |
# 医用画像の微妙な異常検出に向けて Towards frugal unsupervised detection of subtle abnormalities in medical imaging ( http://arxiv.org/abs/2309.02458v1 ) ライセンス: Link先を確認 | Geoffroy Oudoumanessah (GIN, CREATIS, STATIFY), Carole Lartizien (CREATIS), Michel Dojat (GIN), Florence Forbes (STATIFY) | (参考訳) 医用画像における異常検出は、異常に注釈が付かない状況において困難な課題である。
この問題は、通常のプロファイルの参照モデルと一致しない特徴を識別するunsupervised anomaly detection(uad)メソッドによって対処できる。
人工ニューラルネットワークは、UADに広く使われているが、一般的には、精度と計算要求の間の最適なトレードオフo$\hookleftarrowを達成していない。
代替として,様々なデータやタスクに対して汎用性が広く認識されている確率分布の混合について検討し,過剰な設計 e$\hookleftarrow$ort やチューニングは必要としない。
その表現性は、複雑な多変量参照モデルを説明する良い候補となる。
パラメータの数が非常に少なく、解釈やe cient learningに適しています。
しかし、期待最大化アルゴリズムのような標準的な推定手順は、高いメモリ使用量を必要とするため、大容量のデータにうまくスケールしない。
この問題に対処するため,我々はインクリメンタルに推定量を計算することを提案する。
このオンラインアプローチは、新たに診断されたパーキンソン病患者の追跡において、MR脳スキャンの微妙な異常の検出が困難であることを示す。
同定された構造異常は、ホーンスケールとイェールスケールによって説明されるように、疾患の進行と一致している。 Anomaly detection in medical imaging is a challenging task in contexts where abnormalities are not annotated. This problem can be addressed through unsupervised anomaly detection (UAD) methods, which identify features that do not match with a reference model of normal profiles. Artificial neural networks have been extensively used for UAD but they do not generally achieve an optimal trade-o$\hookleftarrow$ between accuracy and computational demand. As an alternative, we investigate mixtures of probability distributions whose versatility has been widely recognized for a variety of data and tasks, while not requiring excessive design e$\hookleftarrow$ort or tuning. Their expressivity makes them good candidates to account for complex multivariate reference models. Their much smaller number of parameters makes them more amenable to interpretation and e cient learning. However, standard estimation procedures, such as the Expectation-Maximization algorithm, do not scale well to large data volumes as they require high memory usage. To address this issue, we propose to incrementally compute inferential quantities. This online approach is illustrated on the challenging detection of subtle abnormalities in MR brain scans for the follow-up of newly diagnosed Parkinsonian patients. The identified structural abnormalities are consistent with the disease progression, as accounted by the Hoehn and Yahr scale. | 翻訳日:2023-09-07 18:04:56 公開日:2023-09-04 |
# 非凸ペナルティを有するスパースペナル化量子回帰のための平滑化ADMM Smoothing ADMM for Sparse-Penalized Quantile Regression with Non-Convex Penalties ( http://arxiv.org/abs/2309.03094v1 ) ライセンス: Link先を確認 | Reza Mirzaeifard, Naveen K. D. Venkategowda, Vinay Chakravarthi Gogineni, Stefan Werner | (参考訳) 本稿では,ミニマックス・コンケーブペナルティ (MCP) やスムーズクリッピング絶対偏差 (SCAD) など,非凸および非滑らかなスパースペナルティの存在下での定量回帰について検討する。
これらの問題の非スムースかつ非凸性は、しばしば多くのアルゴリズムの収束の困難をもたらす。
座標降下や局所線形近似のような反復的な手法は収束を容易にするが、プロセスはしばしば遅い。
このゆるやかなペースは、主に各ステップで完全収束するまでこれらの近似テクニックを実行する必要があるためであり、この要件を \emph{secondary convergence iteration} と呼ぶ。
収束速度を高速化するために,乗算器の交互方向法(admm)を用い,分散ペナルティパラメータを増加させる単ループ平滑化admmアルゴリズム(sad,sparse-penalized quantile regression)を導入する。
まず,提案したSIADアルゴリズムの収束特性を探索し,収束に必要な条件を確立する。
理論的には、拡大ラグランジアンの部分階境界に対して$o\big({k^{-\frac{1}{4}}}\big)$の収束率を確認する。
その後、SIADアルゴリズムの有効性を示す数値的な結果を提供する。
その結果,SIAD法は既存の手法よりも優れており,より高速で安定な量子化回帰法を提供することがわかった。 This paper investigates quantile regression in the presence of non-convex and non-smooth sparse penalties, such as the minimax concave penalty (MCP) and smoothly clipped absolute deviation (SCAD). The non-smooth and non-convex nature of these problems often leads to convergence difficulties for many algorithms. While iterative techniques like coordinate descent and local linear approximation can facilitate convergence, the process is often slow. This sluggish pace is primarily due to the need to run these approximation techniques until full convergence at each step, a requirement we term as a \emph{secondary convergence iteration}. To accelerate the convergence speed, we employ the alternating direction method of multipliers (ADMM) and introduce a novel single-loop smoothing ADMM algorithm with an increasing penalty parameter, named SIAD, specifically tailored for sparse-penalized quantile regression. We first delve into the convergence properties of the proposed SIAD algorithm and establish the necessary conditions for convergence. Theoretically, we confirm a convergence rate of $o\big({k^{-\frac{1}{4}}}\big)$ for the sub-gradient bound of augmented Lagrangian. Subsequently, we provide numerical results to showcase the effectiveness of the SIAD algorithm. Our findings highlight that the SIAD method outperforms existing approaches, providing a faster and more stable solution for sparse-penalized quantile regression. | 翻訳日:2023-09-07 14:58:17 公開日:2023-09-04 |
# モンテカルロ対実レギュレット最小化 Pure Monte Carlo Counterfactual Regret Minimization ( http://arxiv.org/abs/2309.03084v1 ) ライセンス: Link先を確認 | Ju Qi, Ting Feng, Falun Hei, Zhemei Fang, Yunfeng Luo | (参考訳) 対実回帰最小化(CFR)とその変種は、大規模な不完全情報ゲームの解決に最適なアルゴリズムである。
本稿では,CFRをベースとしたPure CFR(PCFR)というアルゴリズムを提案する。
PCFR は CFR と Fictitious Play (FP) の組み合わせと見なすことができ、CFR から反実的後悔 (value) の概念を継承し、次のイテレーションの後悔マッチング戦略の代わりに最良の反応戦略を使用する。
我々は, PCFRがブラックウェルのアプローチ性を実現することができるという理論的証明により, モンテカルロCFR (MCCFR) を含む任意のCFR変種とPCFRが結合できることを示す。
その結果、PMCCFR (PMCCFR) は時間と空間の複雑さを著しく減少させる。
特にPMCCFRの収束速度はMCCFRの3倍である。
また,pmccfrは厳密な支配戦略の経路を通り抜けないので,厳密な支配戦略除去法に触発された新しいウォームスタートアルゴリズムを開発した。
これにより、新しいウォームスタートアルゴリズムによるPMCCFRは、CFR+アルゴリズムよりも2桁早く収束することができる。 Counterfactual Regret Minimization (CFR) and its variants are the best algorithms so far for solving large-scale incomplete information games. Building upon CFR, this paper proposes a new algorithm named Pure CFR (PCFR) for achieving better performance. PCFR can be seen as a combination of CFR and Fictitious Play (FP), inheriting the concept of counterfactual regret (value) from CFR, and using the best response strategy instead of the regret matching strategy for the next iteration. Our theoretical proof that PCFR can achieve Blackwell approachability enables PCFR's ability to combine with any CFR variant including Monte Carlo CFR (MCCFR). The resultant Pure MCCFR (PMCCFR) can significantly reduce time and space complexity. Particularly, the convergence speed of PMCCFR is at least three times more than that of MCCFR. In addition, since PMCCFR does not pass through the path of strictly dominated strategies, we developed a new warm-start algorithm inspired by the strictly dominated strategies elimination method. Consequently, the PMCCFR with new warm start algorithm can converge by two orders of magnitude faster than the CFR+ algorithm. | 翻訳日:2023-09-07 14:57:32 公開日:2023-09-04 |
# Quid Manumit - アートのためのQubitを解放する Quid Manumit -- Freeing the Qubit for Art ( http://arxiv.org/abs/2309.03104v1 ) ライセンス: Link先を確認 | Mark Carney | (参考訳) 本稿では,独立した量子音楽効果や楽器を作成することにより,芸術の「量子ビットを解放する」方法について述べる。
先にリリースされたarmベースのraspberry pi pi pico組み込みマイクロコントローラ用の量子シミュレータコードはここで使用されており、組み込みリソースを利用するさまざまな方法を示すいくつかの例が構築されている。
2つ目は、量子回路に従って楽器の生音を変更する量子歪みモジュールで、これは、自己完結した量子スチロフォンと、Korg Nu:Tekt NTS-1用の「QubitCrusher」と呼ばれるエフェクトモジュールプラグインの2つの形式で提示される。
本稿では,量子機器の今後の取り組みや方向性についても論じ,オープンソースとしてすべての例を挙げる。
これは著者の知る限り、音楽の楽器のための量子シミュレータ(別のQSIM)を組み込んだ最初の例である。 This paper describes how to `Free the Qubit' for art, by creating standalone quantum musical effects and instruments. Previously released quantum simulator code for an ARM-based Raspberry Pi Pico embedded microcontroller is utilised here, and several examples are built demonstrating different methods of utilising embedded resources: The first is a Quantum MIDI processor that generates additional notes for accompaniment and unique quantum generated instruments based on the input notes, decoded and passed through a quantum circuit in an embedded simulator. The second is a Quantum Distortion module that changes an instrument's raw sound according to a quantum circuit, which is presented in two forms; a self-contained Quantum Stylophone, and an effect module plugin called 'QubitCrusher' for the Korg Nu:Tekt NTS-1. This paper also discusses future work and directions for quantum instruments, and provides all examples as open source. This is, to the author's knowledge, the first example of embedded Quantum Simulators for Instruments of Music (another QSIM). | 翻訳日:2023-09-07 14:44:07 公開日:2023-09-04 |
# kontsevich graphs から feynman graphs へ : スカラー場の星積の観点から From Kontsevich Graphs to Feynman graphs, a Viewpoint from the Star Products of Scalar Fields ( http://arxiv.org/abs/1908.09666v4 ) ライセンス: Link先を確認 | Zhou Mai | (参考訳) 本稿では,共変の場合におけるスカラー場に関する星生成物を新しいアプローチで構築する。
我々は、Rd、体、汎函数上の関数のレベルである3つのレベルで星生成物を構築する。
我々は、機能レベルにおける星生成物は、我々の設定において本質的かつ出発点であると強調する。
まず、関数のスター積は、スカラー場と関数に関するスター積のすべての代数的および組合せ的情報を含む。
第二に、函数の星生成物は有限次元の問題のみに関係しており、これは抽象係数を持つ双ベクトル場によって生成されるRd上のモヤルのような星生成物である。
したがって、カンツェヴィチグラフは自然にいくつかの役割を果たす。
実際、コンツェビッチグラフのクラスとファインマングラフの間にはオノ1対応が存在することが証明される。
さらに、ウィックの定理、ウィック・パワー、およびウィック・モノミアルの期待は、関数のレベルにおけるスター積の観点から議論される。
我々の構成は、 [1],[2] で導入された摂動的代数的量子場理論とツイスト積のスター積の一般化と見なすことができる。 In the present paper we construct the star products concerning scalar fields in the covariant case from a new approach. We construct the star products at three levels, which are levels of functions on Rd, fields and functionals respectively. We emphases that the star product at level of functions is essence and starting point for our setting. Firstly the star product of functions includes all algebraic and combinatorial information of the star products concerning the scalar fields and functionals almost. Secondly, a more interesting point is that the star product of functions concerns only finite dimensional issue, which is a Moyal-like star product on Rd generated by a bi-vector field with abstract coefficients. Thus the Kontsevich graphs play some roles naturally. Actually we prove that there is an ono-one correspondence between a class of Kontsevich graphs and the Feynman graphs. Additionally the Wick theorem, Wick power and the expectation of Wick-monomial are discussed in terms of the star product at level of functions. Our construction can be considered as the generalisation of the star products in perturbative algebraic quantum fields theory and twist product introduced in [1],[2]. | 翻訳日:2023-09-07 12:38:42 公開日:2023-09-04 |
# 流れに基づく時空間構造による運動ダイナミクスの予測 Flow-based Spatio-Temporal Structured Prediction of Motion Dynamics ( http://arxiv.org/abs/2104.04391v3 ) ライセンス: Link先を確認 | Mohsen Zand, Ali Etemad, and Michael Greenspan | (参考訳) 条件付き正規化フロー (CNF) は、高次元と高次元の相関関係を持つ複雑な分布を表現できる柔軟な生成モデルであり、構造化された出力学習にアピールする。
多変量時空間構造データのモデル化におけるそれらの効果は、まだ完全には研究されていない。
本研究では,時空間入力の出力分布を自己回帰的に予測する新しい正規化フロー手法としてMotionFlowを提案する。
決定論的および確率的表現をcnfsと組み合わせ、高次元構造化時空間データに見られる変動性をモデル化する確率的ニューラルネットワーク生成アプローチを作成する。
具体的には、時間依存モデリングの潜在空間を分解するために条件付き述語を用いることを提案する。
また,CNFにおける自己回帰条件としてマスク付き畳み込みを用いた。
その結果,多変量予測タスクにおいて,任意に表現可能な出力確率分布を時間動的に定義できる。
提案手法は,軌道予測,運動予測,時系列予測,二分節分割など,様々なタスクに適用し,正規化フローを利用して複雑な時間依存条件分布を学習できることを実証する。 Conditional Normalizing Flows (CNFs) are flexible generative models capable of representing complicated distributions with high dimensionality and large interdimensional correlations, making them appealing for structured output learning. Their effectiveness in modelling multivariates spatio-temporal structured data has yet to be completely investigated. We propose MotionFlow as a novel normalizing flows approach that autoregressively conditions the output distributions on the spatio-temporal input features. It combines deterministic and stochastic representations with CNFs to create a probabilistic neural generative approach that can model the variability seen in high dimensional structured spatio-temporal data. We specifically propose to use conditional priors to factorize the latent space for the time dependent modeling. We also exploit the use of masked convolutions as autoregressive conditionals in CNFs. As a result, our method is able to define arbitrarily expressive output probability distributions under temporal dynamics in multivariate prediction tasks. We apply our method to different tasks, including trajectory prediction, motion prediction, time series forecasting, and binary segmentation, and demonstrate that our model is able to leverage normalizing flows to learn complicated time dependent conditional distributions. | 翻訳日:2023-09-07 12:33:48 公開日:2023-09-04 |
# 量子状態のコレクションのアイデンティティをテストする:サンプル複雑性分析 Testing identity of collections of quantum states: sample complexity analysis ( http://arxiv.org/abs/2103.14511v4 ) ライセンス: Link先を確認 | Marco Fanizza, Raffaele Salvia, Vittorio Giovannetti | (参考訳) 我々は、このコレクションへのサンプルアクセスが与えられた未知の量子状態の集合の同一性をテストする問題について検討する。
濃度 $n$ の $d$-次元量子状態の集合に対して、サンプル複雑性は $o(\sqrt{n}d/\epsilon^2)$, {with a matching lower bound, up to a multiplicative constant} である。
このテストは、B\u{a}descu, O'Donnell, Wright (https://dl.acm.org/doi/10.1145/3313276.3316344) による2つの未知の状態の間のヒルベルト-シュミット距離の推定器の適切な一般化により、状態間の平均2乗ヒルベルト-シュミット距離を推定することによって得られる。 We study the problem of testing identity of a collection of unknown quantum states given sample access to this collection, each state appearing with some known probability. We show that for a collection of $d$-dimensional quantum states of cardinality $N$, the sample complexity is $O(\sqrt{N}d/\epsilon^2)$, {with a matching lower bound, up to a multiplicative constant}. The test is obtained by estimating the mean squared Hilbert-Schmidt distance between the states, thanks to a suitable generalization of the estimator of the Hilbert-Schmidt distance between two unknown states by B\u{a}descu, O'Donnell, and Wright (https://dl.acm.org/doi/10.1145/3313276.3316344). | 翻訳日:2023-09-07 12:33:29 公開日:2023-09-04 |
# 非同期Q-LearningとTD-Learningの有限サンプル保証に対するリアプノフ理論 A Lyapunov Theory for Finite-Sample Guarantees of Asynchronous Q-Learning and TD-Learning Variants ( http://arxiv.org/abs/2102.01567v4 ) ライセンス: Link先を確認 | Zaiwei Chen, Siva Theja Maguluri, Sanjay Shakkottai, and Karthikeyan Shanmugam | (参考訳) 本稿では,大規模な値ベース非同期強化学習(RL)アルゴリズムの有限サンプル収束を保証する統一フレームワークを開発する。
固定点方程式を解くために、まず RL アルゴリズムを \textit{Markovian Stochastic Approximation} (SA) アルゴリズムとして再構成する。
次に、リアプノフ解析を開発し、マルコフSAの収束に基づく平均二乗誤差境界を導出する。
この結果に基づいて,Q$-learning,$n$-step TD,TD$(\lambda)$,V-traceを含む非政治的TDアルゴリズムなどの非同期RLアルゴリズムに対して,有限サンプル平均二乗収束境界を確立する。
副産物として、$n$-step TD と TD$(\lambda)$ の収束境界を解析することにより、バイアス分散トレードオフ、すなわち RL におけるブートストラップの効率に関する理論的洞察を提供する。
これは最初に開問題として提起された(Sutton, 1999)。 This paper develops an unified framework to study finite-sample convergence guarantees of a large class of value-based asynchronous reinforcement learning (RL) algorithms. We do this by first reformulating the RL algorithms as \textit{Markovian Stochastic Approximation} (SA) algorithms to solve fixed-point equations. We then develop a Lyapunov analysis and derive mean-square error bounds on the convergence of the Markovian SA. Based on this result, we establish finite-sample mean-square convergence bounds for asynchronous RL algorithms such as $Q$-learning, $n$-step TD, TD$(\lambda)$, and off-policy TD algorithms including V-trace. As a by-product, by analyzing the convergence bounds of $n$-step TD and TD$(\lambda)$, we provide theoretical insights into the bias-variance trade-off, i.e., efficiency of bootstrapping in RL. This was first posed as an open problem in (Sutton, 1999). | 翻訳日:2023-09-07 12:33:06 公開日:2023-09-04 |
# 公平性保証付きフェデレーション学習のための効率向上型クライアント選択方式 An Efficiency-boosting Client Selection Scheme for Federated Learning with Fairness Guarantee ( http://arxiv.org/abs/2011.01783v5 ) ライセンス: Link先を確認 | Tiansheng Huang, Weiwei Lin, Wentai Wu, Ligang He, Keqin Li and Albert Y.Zomaya | (参考訳) 集中型AIのモデルトレーニングにおける潜在的なプライバシリークの問題は、世間から大きな関心を集めている。
フェデレーション・ラーニング(fl)と呼ばれる並列分散コンピューティング(pdc)スキームは、クライアントが個人の機密データをアップロードする必要なしに、ローカルでモデルトレーニングを行うことで、プライバシの問題に対処するための新しいパラダイムとして登場した。
flでは、クライアントの数は十分大きいかもしれないが、モデルの配布と再アップロードに利用可能な帯域幅は極めて限られており、トレーニングプロセスに参加するボランティアの一部だけを巻き込むのが賢明である。
クライアント選択ポリシーは、トレーニング効率、最終モデルの質、公平性という点において、flプロセスにとって重要である。
本稿では,Lyapunov最適化問題としてクライアント選択の公正性をモデル化し,各クライアントとサーバ間のモデル交換時間を推定するためのC2MABに基づく手法を提案し,問題解決のためにRBCS-Fと呼ばれる公正性保証アルゴリズムを設計する。
RBCS-Fの後悔は有限定数によって厳密に拘束され、理論的な実現可能性の正当化となる。
理論的結果は、より経験的なデータは、公開データセットの実際のトレーニング実験から導き出すことができる。 The issue of potential privacy leakage during centralized AI's model training has drawn intensive concern from the public. A Parallel and Distributed Computing (or PDC) scheme, termed Federated Learning (FL), has emerged as a new paradigm to cope with the privacy issue by allowing clients to perform model training locally, without the necessity to upload their personal sensitive data. In FL, the number of clients could be sufficiently large, but the bandwidth available for model distribution and re-upload is quite limited, making it sensible to only involve part of the volunteers to participate in the training process. The client selection policy is critical to an FL process in terms of training efficiency, the final model's quality as well as fairness. In this paper, we will model the fairness guaranteed client selection as a Lyapunov optimization problem and then a C2MAB-based method is proposed for estimation of the model exchange time between each client and the server, based on which we design a fairness guaranteed algorithm termed RBCS-F for problem-solving. The regret of RBCS-F is strictly bounded by a finite constant, justifying its theoretical feasibility. Barring the theoretical results, more empirical data can be derived from our real training experiments on public datasets. | 翻訳日:2023-09-07 12:32:33 公開日:2023-09-04 |
# 機械学習(In)セキュリティ: 問題の流れ Machine Learning (In) Security: A Stream of Problems ( http://arxiv.org/abs/2010.16045v2 ) ライセンス: Link先を確認 | Fabr\'icio Ceschin and Marcus Botacin and Albert Bifet and Bernhard Pfahringer and Luiz S. Oliveira and Heitor Murilo Gomes and Andr\'e Gr\'egio | (参考訳) 機械学習(ML)はサイバーセキュリティに広く適用されており、この分野の多くのオープンな問題を解決する最先端技術と考えられている。
しかし、セキュリティ上の課題が他の領域に現れない可能性があるため、生成したソリューションがどの程度優れているかを評価することは極めて困難である。
悪質なアクターは常に防衛ソリューションを克服するための新しい脅威を創り出すことができ、あるアプローチではそれらを考慮しないかもしれない。
そのため、MLベースのセキュリティソリューションを適切に構築し、評価する方法を知ることが不可欠である。
本稿では,ML技術のサイバーセキュリティデータへの正しい適用における主な課題を識別し,詳細化し,議論する。
我々は,概念のドリフト,進化,ラベルの遅延,および既存のソリューションに対する敵MLの影響を評価する。
さらに,データ収集に関する課題がセキュリティ文献に提示された結果の品質にどのように影響するかを考察し,現在のソリューションを改善するために新たな戦略が必要であることを示す。
最後に、ある状況下で既存のソリューションが失敗する可能性を示し、それらに対する緩和を提案し、将来のサイバーセキュリティのためのMLソリューションの開発を支援するための新しいチェックリストを提示します。 Machine Learning (ML) has been widely applied to cybersecurity and is considered state-of-the-art for solving many of the open issues in that field. However, it is very difficult to evaluate how good the produced solutions are, since the challenges faced in security may not appear in other areas. One of these challenges is the concept drift, which increases the existing arms race between attackers and defenders: malicious actors can always create novel threats to overcome the defense solutions, which may not consider them in some approaches. Due to this, it is essential to know how to properly build and evaluate an ML-based security solution. In this paper, we identify, detail, and discuss the main challenges in the correct application of ML techniques to cybersecurity data. We evaluate how concept drift, evolution, delayed labels, and adversarial ML impact the existing solutions. Moreover, we address how issues related to data collection affect the quality of the results presented in the security literature, showing that new strategies are needed to improve current solutions. Finally, we present how existing solutions may fail under certain circumstances, and propose mitigations to them, presenting a novel checklist to help the development of future ML solutions for cybersecurity. | 翻訳日:2023-09-07 12:32:13 公開日:2023-09-04 |
# 不和合性とベル非局所性の間の質的等価性 Qualitative equivalence between incompatibility and Bell nonlocality ( http://arxiv.org/abs/2008.10100v2 ) ライセンス: Link先を確認 | Shiv Akshar Yadavalli, Nikola Andrejic, Ravi Kunjwal | (参考訳) 量子論における測定は、共同測定不可能である。
絡み合いと同様に、この測定の不適合性はベルの不等式に違反するには不十分である。
一連の測定間の(可逆性の関係は、関節測定可能性構造、すなわち、頂点が測定を示すハイパーグラフと、ハイパーエッジがすべての、かつ唯一の互換性のある測定集合を表す。
ベル違反には非互換性が必要であるため、ベル実験の各翼のジョイント可測性構造は必ずしも自明でなければならない。
ここでは、有限個の頂点を持つ任意の非自明な合同可測性構造に対して、ベルの違反を可能にする一連の測度、すなわちアリスがこの非互換な測定値にアクセスできることを考えると、Bob とそれらの間で共有される絡み合った状態の集合が存在して、ベルの不等式を共同で破ることができることを示す。
したがって、ベル違反には非自明な関節測定構造が必要であるだけでなく、十分である。
また、興味の最も単純な関節測定可能性構造におけるベルの不等式違反、すなわち3つの対互換性を持つ3つの不整合測定からなるスペクターのシナリオに有用な量子ビット測定の部分的特徴を与える。 Measurements in quantum theory can fail to be jointly measurable. Like entanglement, this incompatibility of measurements is necessary but not sufficient for violating Bell inequalities. The (in)compatibility relations among a set of measurements can be represented by a joint measurability structure, i.e., a hypergraph whose vertices denote measurements and hyperedges denote all and only compatible sets of measurements. Since incompatibility is necessary for a Bell violation, the joint measurability structure on each wing of a Bell experiment must necessarily be non-trivial, i.e., it must admit a subset of incompatible vertices. Here we show that for any non-trivial joint measurability structure with a finite set of vertices, there exists a quantum realization with a set of measurements that enables a Bell violation, i.e., given that Alice has access to this incompatible set of measurements, there exists a set of measurements for Bob and an entangled state shared between them such that they can jointly violate a Bell inequality. Hence, a non-trivial joint measurability structure is not only necessary for a Bell violation, but also sufficient. We also provide a partial characterization of qubit measurements that are useful for Bell inequality violations in the simplest joint measurability structure of interest, i.e., Specker's scenario, which consists of three pairwise compatible but triplewise incompatible measurements. | 翻訳日:2023-09-07 12:31:30 公開日:2023-09-04 |
# 自律運転のための画像からの3次元物体検出:調査 3D Object Detection from Images for Autonomous Driving: A Survey ( http://arxiv.org/abs/2202.02980v3 ) ライセンス: Link先を確認 | Xinzhu Ma, Wanli Ouyang, Andrea Simonelli, Elisa Ricci | (参考訳) 自動運転における基本的かつ困難な問題の一つである画像からの3dオブジェクト検出は、近年、産学界からも注目を集めている。
ディープラーニング技術の急速な発展により、画像に基づく3D検出は目覚ましい進歩を遂げた。
特に、2015年から2021年にかけて200以上の著作がこの問題を研究しており、幅広い理論、アルゴリズム、応用を含んでいる。
しかし、この知識を収集・整理するための最近の調査は存在しない。
本稿では,このギャップを文献に埋めて,この新規かつ継続的な研究分野の包括的調査を行い,イメージベース3d検出のための最も一般的なパイプラインを要約し,各コンポーネントを深く分析する。
さらに,最新の手法を異なるカテゴリに整理するための2つの新しい分類法を提案し,既存の手法をより体系的に検討し,今後の手法との公平な比較を促進することを意図した。
これまでの成果を振り返って,この分野の課題を分析し,画像に基づく3次元検出研究の今後の方向性について考察する。 3D object detection from images, one of the fundamental and challenging problems in autonomous driving, has received increasing attention from both industry and academia in recent years. Benefiting from the rapid development of deep learning technologies, image-based 3D detection has achieved remarkable progress. Particularly, more than 200 works have studied this problem from 2015 to 2021, encompassing a broad spectrum of theories, algorithms, and applications. However, to date no recent survey exists to collect and organize this knowledge. In this paper, we fill this gap in the literature and provide the first comprehensive survey of this novel and continuously growing research field, summarizing the most commonly used pipelines for image-based 3D detection and deeply analyzing each of their components. Additionally, we also propose two new taxonomies to organize the state-of-the-art methods into different categories, with the intent of providing a more systematic review of existing methods and facilitating fair comparisons with future works. In retrospect of what has been achieved so far, we also analyze the current challenges in the field and discuss future directions for image-based 3D detection research. | 翻訳日:2023-09-07 12:25:02 公開日:2023-09-04 |
# 超解法ネットワークの一般化能力の評価 Evaluating the Generalization Ability of Super-Resolution Networks ( http://arxiv.org/abs/2205.07019v2 ) ライセンス: Link先を確認 | Yihao Liu, Hengyuan Zhao, Jinjin Gu, Yu Qiao, Chao Dong | (参考訳) ディープラーニングモデルを評価する上で,パフォーマンスと一般化能力は2つの重要な側面である。
しかし、スーパーリゾリューション(SR)ネットワークの一般化能力については現在研究されていない。
深層モデルの一般化能力を評価することは、その本質的なメカニズムを理解するのに役立つだけでなく、その適用可能性の境界を定量的に測定できる。
そこで本研究では,srネットワークの一般化評価指標であるsrgaを提案する。
SRGAは、ディープネットワークの内部特性の統計特性を利用して一般化能力を測定する。
特に、非パラメトリックかつ非学習メトリックである。
提案手法をよりよく検証するために, 合成画像と実画像の両方を含むパッチベースの画像評価セット(PIES)を収集し, 広範囲の劣化をカバーした。
SRGAおよびPIESデータセットを用いて、一般化能力に関する既存のSRモデルをベンチマークする。
この研究は、低レベルのビジョンにおけるモデル一般化に関する将来の研究のための洞察とツールを提供する。 Performance and generalization ability are two important aspects to evaluate the deep learning models. However, research on the generalization ability of Super-Resolution (SR) networks is currently absent. Assessing the generalization ability of deep models not only helps us to understand their intrinsic mechanisms, but also allows us to quantitatively measure their applicability boundaries, which is important for unrestricted real-world applications. To this end, we make the first attempt to propose a Generalization Assessment Index for SR networks, namely SRGA. SRGA exploits the statistical characteristics of the internal features of deep networks to measure the generalization ability. Specially, it is a non-parametric and non-learning metric. To better validate our method, we collect a patch-based image evaluation set (PIES) that includes both synthetic and real-world images, covering a wide range of degradations. With SRGA and PIES dataset, we benchmark existing SR models on the generalization ability. This work provides insights and tools for future research on model generalization in low-level vision. | 翻訳日:2023-09-07 12:14:30 公開日:2023-09-04 |
# MLPハッシュ:ランダム化マルチ層パーセプトロンのハッシュによる顔テンプレート保護 MLP-Hash: Protecting Face Templates via Hashing of Randomized Multi-Layer Perceptron ( http://arxiv.org/abs/2204.11054v2 ) ライセンス: Link先を確認 | Hatef Otroshi Shahreza, Vedrana Krivoku\'ca Hahn, S\'ebastien Marcel | (参考訳) 顔認識システムの認証への応用は急速に進んでいる。
最先端の顔認識システム(SOTA)は認識精度が高いが、ユーザ毎に抽出され、システムのデータベースに格納される特徴には、プライバシに敏感な情報が含まれている。
そのため、データの妥協はユーザーのプライバシーを損なうことになる。
本稿では,MLP(Multi-weighted Multi-layer Perceptron)をユーザ固有のランダムな多層パーセプトロン(MLP)に渡し,MLP出力をバイナライズすることで,保護テンプレートを生成する。
また,ISO/IEC30136標準要件を満たすため,提案したバイオメトリックテンプレート保護法の非リンク性,不可逆性,認識精度を評価した。
提案手法は,MOBIOおよびLFWデータセットを用いたSOTA顔認識システムを用いた実験により,BioHashingおよびIoM Hashing(IoM-GRPおよびIoM-URP)テンプレート保護アルゴリズムと競合する性能を示した。
本論文では、他の研究者が我々の発見を検証し、我々の研究に基づいて構築できるように、これらの実験をオープンソースで実装する。 Applications of face recognition systems for authentication purposes are growing rapidly. Although state-of-the-art (SOTA) face recognition systems have high recognition accuracy, the features which are extracted for each user and are stored in the system's database contain privacy-sensitive information. Accordingly, compromising this data would jeopardize users' privacy. In this paper, we propose a new cancelable template protection method, dubbed MLP-hash, which generates protected templates by passing the extracted features through a user-specific randomly-weighted multi-layer perceptron (MLP) and binarizing the MLP output. We evaluated the unlinkability, irreversibility, and recognition accuracy of our proposed biometric template protection method to fulfill the ISO/IEC 30136 standard requirements. Our experiments with SOTA face recognition systems on the MOBIO and LFW datasets show that our method has competitive performance with the BioHashing and IoM Hashing (IoM-GRP and IoM-URP) template protection algorithms. We provide an open-source implementation of all the experiments presented in this paper so that other researchers can verify our findings and build upon our work. | 翻訳日:2023-09-07 12:12:46 公開日:2023-09-04 |
# 音声感情認識におけるトランスフォーマー時代の夜明け--ヴァレンスギャップを閉じる Dawn of the transformer era in speech emotion recognition: closing the valence gap ( http://arxiv.org/abs/2203.07378v3 ) ライセンス: Link先を確認 | Johannes Wagner, Andreas Triantafyllopoulos, Hagen Wierstorf, Maximilian Schmitt, Felix Burkhardt, Florian Eyben, Bj\"orn W. Schuller | (参考訳) 自己教師付き方式で事前訓練されたトランスフォーマーアーキテクチャの最近の進歩は、いくつかの機械学習タスクにおいて大きな可能性を秘めている。
音声領域では、そのようなアーキテクチャは音声感情認識(SER)の分野でもうまく活用されている。
しかし、既存の研究はモデルサイズや事前学習データの影響を下流のパフォーマンスに評価しておらず、一般化、堅牢性、公平性、効率性に限定的な注意を払っている。
本研究は,MSPポッドキャストの興奮,支配,有病率を微調整したwav2vec 2.0およびHuBERTの事前学習版について,また,IEMOCAPおよびMOSIを用いてクロスコーパス一般化の検証を行った。
我々は,msp-podcast における .638 の一致相関係数 (ccc) を用いて,明示的な言語情報を用いずに価数予測の最高性能を得る。
さらに, トランスフォーマーをベースとしたアーキテクチャは, CNNベースのベースラインに比べて小さな摂動に対してより堅牢であり, 生物学的性グループに対しては公正である。
最後に, 変圧器層を微調整する際に学習した暗黙的な言語情報に基づいて, テキスト情報を明示的に活用する最近のマルチモーダルアプローチと同等に機能することを示す。
トランスフォーマーベースのアーキテクチャは、serの新たな最先端を構成するが、強固さと個々の話者問題を軽減するために、さらなる進歩が必要である。
研究成果を再現するために,コミュニティに最高のパフォーマンスモデルをリリースする。 Recent advances in transformer-based architectures which are pre-trained in self-supervised manner have shown great promise in several machine learning tasks. In the audio domain, such architectures have also been successfully utilised in the field of speech emotion recognition (SER). However, existing works have not evaluated the influence of model size and pre-training data on downstream performance, and have shown limited attention to generalisation, robustness, fairness, and efficiency. The present contribution conducts a thorough analysis of these aspects on several pre-trained variants of wav2vec 2.0 and HuBERT that we fine-tuned on the dimensions arousal, dominance, and valence of MSP-Podcast, while additionally using IEMOCAP and MOSI to test cross-corpus generalisation. To the best of our knowledge, we obtain the top performance for valence prediction without use of explicit linguistic information, with a concordance correlation coefficient (CCC) of .638 on MSP-Podcast. Furthermore, our investigations reveal that transformer-based architectures are more robust to small perturbations compared to a CNN-based baseline and fair with respect to biological sex groups, but not towards individual speakers. Finally, we are the first to show that their extraordinary success on valence is based on implicit linguistic information learnt during fine-tuning of the transformer layers, which explains why they perform on-par with recent multimodal approaches that explicitly utilise textual information. Our findings collectively paint the following picture: transformer-based architectures constitute the new state-of-the-art in SER, but further advances are needed to mitigate remaining robustness and individual speaker issues. To make our findings reproducible, we release the best performing model to the community. | 翻訳日:2023-09-07 12:11:34 公開日:2023-09-04 |
# resnorm:正規化によるグラフニューラルネットワークの長テール次数分布問題への取り組み ResNorm: Tackling Long-tailed Degree Distribution Issue in Graph Neural Networks via Normalization ( http://arxiv.org/abs/2206.08181v2 ) ライセンス: Link先を確認 | Langzhang Liang, Zenglin Xu, Zixing Song, Irwin King, Yuan Qi, Jieping Ye | (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データから表現を学習する能力から注目されている。
多くの領域でGNNが成功したにもかかわらず、GNNの最適化はあまり研究されておらず、ノード分類の性能は長い尾のノード次数分布に大きく左右される。
本稿では,正規化によるGNNの性能向上に焦点をあてる。
詳しくは、グラフ内のノード次数の長期分布を研究することにより、ResNorm (\textbf{Res}haping the long-tailed distribution to a normal-like distribution via \textbf{norm}alization)と呼ばれるGNNの新しい正規化法を提案する。
ResNormの$scale$操作は、尾ノード(\textit{i})の精度を改善するために、ノード単位の標準偏差(NStd)分布を再設定する。
\textit{e}。
、低度ノード)。
上記の$scale$のメカニズムを理解するための理論的解釈と実証的な証拠を提供する。
長期にわたる流通問題に加えて、過密はコミュニティを悩ませる根本的な問題でもある。
この目的のために,標準シフトの挙動を分析し,標準シフトが重み行列のプレコンディショナーとして働くことを証明し,オーバースモーシングのリスクを増大させる。
過度にスムースな問題を念頭に置いて、低コストで次数固有のパラメータ戦略をシミュレートするResNormの$shift$演算を設計する。
大規模な実験により、いくつかのノード分類ベンチマークデータセットにおけるResNormの有効性が検証された。 Graph Neural Networks (GNNs) have attracted much attention due to their ability in learning representations from graph-structured data. Despite the successful applications of GNNs in many domains, the optimization of GNNs is less well studied, and the performance on node classification heavily suffers from the long-tailed node degree distribution. This paper focuses on improving the performance of GNNs via normalization. In detail, by studying the long-tailed distribution of node degrees in the graph, we propose a novel normalization method for GNNs, which is termed ResNorm (\textbf{Res}haping the long-tailed distribution into a normal-like distribution via \textbf{norm}alization). The $scale$ operation of ResNorm reshapes the node-wise standard deviation (NStd) distribution so as to improve the accuracy of tail nodes (\textit{i}.\textit{e}., low-degree nodes). We provide a theoretical interpretation and empirical evidence for understanding the mechanism of the above $scale$. In addition to the long-tailed distribution issue, over-smoothing is also a fundamental issue plaguing the community. To this end, we analyze the behavior of the standard shift and prove that the standard shift serves as a preconditioner on the weight matrix, increasing the risk of over-smoothing. With the over-smoothing issue in mind, we design a $shift$ operation for ResNorm that simulates the degree-specific parameter strategy in a low-cost manner. Extensive experiments have validated the effectiveness of ResNorm on several node classification benchmark datasets. | 翻訳日:2023-09-07 12:04:03 公開日:2023-09-04 |
# FOF:単眼リアルタイム再建のためのフーリエ活動場 FOF: Learning Fourier Occupancy Field for Monocular Real-time Human Reconstruction ( http://arxiv.org/abs/2206.02194v2 ) ライセンス: Link先を確認 | Qiao Feng, Yebin Liu, Yu-Kun Lai, Jingyu Yang, Kun Li | (参考訳) 深層学習の出現は、単眼的ヒト再建の著しい進歩をもたらした。
しかしながら、パラメトリックモデル、ボクセルグリッド、メッシュ、暗黙の神経表現といった既存の表現は、高品質な結果とリアルタイムの速度を同時に達成するのに困難である。
本稿では,モノクロリアルタイムかつ高精度な人体再構成のための,新しい強力で効率的で柔軟な3D表現であるFourier Occupancy Field (FOF)を提案する。
FOFは、ビュー方向と直交する2Dフィールドを有する3Dオブジェクトを表し、各2D位置において、ビュー方向に沿ったオブジェクトの占有体が、2D領域のトポロジと近傍関係を保持するフーリエ級数の最初の数項でコンパクトに表現される。
FOFは、2D畳み込みニューラルネットワークと互換性があり、3Dジオメトリと2Dイメージのギャップを埋めることのできるマルチチャネルイメージとして保存することができる。
FOFは非常に柔軟で拡張性があり、例えばパラメトリックモデルはより堅牢な結果を得るためにFOFに簡単に統合できる。
fofに基づいて、最初の30fpsの高忠実度リアルタイムヒト再建フレームワークをデザインする。
公開データセットと実際のキャプチャデータの両方でFOFの可能性を実証する。
コードは研究目的でリリースされる予定だ。 The advent of deep learning has led to significant progress in monocular human reconstruction. However, existing representations, such as parametric models, voxel grids, meshes and implicit neural representations, have difficulties achieving high-quality results and real-time speed at the same time. In this paper, we propose Fourier Occupancy Field (FOF), a novel powerful, efficient and flexible 3D representation, for monocular real-time and accurate human reconstruction. The FOF represents a 3D object with a 2D field orthogonal to the view direction where at each 2D position the occupancy field of the object along the view direction is compactly represented with the first few terms of Fourier series, which retains the topology and neighborhood relation in the 2D domain. A FOF can be stored as a multi-channel image, which is compatible with 2D convolutional neural networks and can bridge the gap between 3D geometries and 2D images. The FOF is very flexible and extensible, e.g., parametric models can be easily integrated into a FOF as a prior to generate more robust results. Based on FOF, we design the first 30+FPS high-fidelity real-time monocular human reconstruction framework. We demonstrate the potential of FOF on both public dataset and real captured data. The code will be released for research purposes. | 翻訳日:2023-09-07 12:02:49 公開日:2023-09-04 |
# CAFA:テスト時間適応のためのクラス認識機能アライメント CAFA: Class-Aware Feature Alignment for Test-Time Adaptation ( http://arxiv.org/abs/2206.00205v3 ) ライセンス: Link先を確認 | Sanghun Jung, Jungsoo Lee, Nanhee Kim, Amirreza Shaban, Byron Boots, Jaegul Choo | (参考訳) 近年のディープラーニングの進歩にもかかわらず、深層ニューラルネットワークは、トレーニングデータとは異なる新しいデータに適用した場合、パフォーマンス劣化に悩まされ続けている。
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
TTAは、トレーニング手順を変更することなく事前訓練されたネットワークに適用することができ、順応のために十分に整ったソース分布を利用することができる。
可能なアプローチの1つは、テストサンプルの表現空間をソース分布に合わせることである(\textit{i,e,} 特徴のアライメント)。
しかし、TTAにおける特徴アライメントの実行は、ラベル付きソースデータへのアクセスが適応中に制限されるという点で特に困難である。
すなわち、モデルはクラス識別的な方法でテストデータを学ぶ機会がなく、ソースデータに対する教師付き損失を通じて他の適応タスク(\textit{e.} unsupervised domain adaptation)で実現可能であった。
そこで本研究では,CAFA(Class-Aware Feature Alignment)と呼ばれるシンプルな機能アライメント損失を提案する。
1)クラス識別的な方法で対象表現を学習するようモデルに促す。
2) テスト時の分布シフトを効果的に緩和する。
提案手法では,従来の手法では必要とされていたハイパーパラメータや余分な損失は不要である。
6つの異なるデータセットに対して広範な実験を行い、提案手法が既存のベースラインを一貫して上回ることを示す。 Despite recent advancements in deep learning, deep neural networks continue to suffer from performance degradation when applied to new data that differs from training data. Test-time adaptation (TTA) aims to address this challenge by adapting a model to unlabeled data at test time. TTA can be applied to pretrained networks without modifying their training procedures, enabling them to utilize a well-formed source distribution for adaptation. One possible approach is to align the representation space of test samples to the source distribution (\textit{i.e.,} feature alignment). However, performing feature alignment in TTA is especially challenging in that access to labeled source data is restricted during adaptation. That is, a model does not have a chance to learn test data in a class-discriminative manner, which was feasible in other adaptation tasks (\textit{e.g.,} unsupervised domain adaptation) via supervised losses on the source data. Based on this observation, we propose a simple yet effective feature alignment loss, termed as Class-Aware Feature Alignment (CAFA), which simultaneously 1) encourages a model to learn target representations in a class-discriminative manner and 2) effectively mitigates the distribution shifts at test time. Our method does not require any hyper-parameters or additional losses, which are required in previous approaches. We conduct extensive experiments on 6 different datasets and show our proposed method consistently outperforms existing baselines. | 翻訳日:2023-09-07 12:02:26 公開日:2023-09-04 |
# 心的辞書における試行錯誤学習の地図化 : 線形弁別学習を用いた語彙決定のモデル化 How trial-to-trial learning shapes mappings in the mental lexicon: Modelling Lexical Decision with Linear Discriminative Learning ( http://arxiv.org/abs/2207.00430v3 ) ライセンス: Link先を確認 | Maria Heitmeier, Yu-Ying Chuang and R. Harald Baayen | (参考訳) 多くの研究で、刺激の処理がその後の臨床試験の反応に影響を与えることが示されている。
特別の場合として、誤り駆動学習をうまくモデル化したプライミング効果があり(Marsolek, 2008)、実験中に参加者が継続的に学習していることを示している。
本研究では,未熟な語彙決定実験において,試行錯誤学習が検出できるかどうかを検討する。
分布セマンティクスからの意味表現を持つメンタルレキシコンのモデルである判別レキシコンモデル(dlm, baayen et al., 2019)を用いて,widrow-hoffルールによる誤り駆動インクリメンタル学習をモデル化した。
我々は,British Lexicon Project (BLP; Keuleers et al., 2012) のデータを用いて,DLMによる語彙決定実験を,各被験者に対して個別に試行的にシミュレーションした。
次に, DLMシミュレーションから導出した反応時間を予測器としてGAM(Generalized Additive Models)を用いて予測した。
被験者1人あたりの2つのシミュレーション(試行錯誤による学習と学習の更新を伴うもの)から測定値を抽出し、2つのガンの入力として使用した。
学習ベースモデルは、ほとんどの被験者にとって非学習モデルよりも適している。
また、語彙処理と個人差に関する洞察も提供する。
これはdlmが行動データをモデル化する可能性を示し、試行錯誤学習が非素直な語彙決定で実際に検出できるという結論を導く。
我々の研究結果は、語彙的知識が継続的な変化の対象となる可能性を支持する。 Trial-to-trial effects have been found in a number of studies, indicating that processing a stimulus influences responses in subsequent trials. A special case are priming effects which have been modelled successfully with error-driven learning (Marsolek, 2008), implying that participants are continuously learning during experiments. This study investigates whether trial-to-trial learning can be detected in an unprimed lexical decision experiment. We used the Discriminative Lexicon Model (DLM; Baayen et al., 2019), a model of the mental lexicon with meaning representations from distributional semantics, which models error-driven incremental learning with the Widrow-Hoff rule. We used data from the British Lexicon Project (BLP; Keuleers et al., 2012) and simulated the lexical decision experiment with the DLM on a trial-by-trial basis for each subject individually. Then, reaction times were predicted with Generalised Additive Models (GAMs), using measures derived from the DLM simulations as predictors. We extracted measures from two simulations per subject (one with learning updates between trials and one without), and used them as input to two GAMs. Learning-based models showed better model fit than the non-learning ones for the majority of subjects. Our measures also provide insights into lexical processing and individual differences. This demonstrates the potential of the DLM to model behavioural data and leads to the conclusion that trial-to-trial learning can indeed be detected in unprimed lexical decision. Our results support the possibility that our lexical knowledge is subject to continuous changes. | 翻訳日:2023-09-07 11:52:42 公開日:2023-09-04 |
# 機械学習を用いた観察ネットワークデータによる治療効果推定 Treatment Effect Estimation with Observational Network Data using Machine Learning ( http://arxiv.org/abs/2206.14591v3 ) ライセンス: Link先を確認 | Corinne Emmenegger and Meta-Lina Spohn and Timon Elmer and Peter B\"uhlmann | (参考訳) 治療効果推定のための因果推論法は通常独立した単位を仮定する。
しかし、この仮定は、ユニットが相互作用し、ユニット間のこぼれを引き起こす可能性があるため、しばしば疑わしい。
本研究では,1つの(社会的)ネットワークからの観測データによる処理の直接効果を推定および推定するための拡張逆確率重み付け(AIPW)を開発した。
パラメトリックレートで収束し,漸近的にガウス分布に従う半パラメトリック処理効果推定器を得るために,プラグイン機械学習とサンプル分割を用いる。
本研究では,スイスの学生生活調査データにAIPW法を適用し,学生のソーシャルネットワークの試験成績に及ぼす学習時間の影響を検討した。 Causal inference methods for treatment effect estimation usually assume independent units. However, this assumption is often questionable because units may interact, resulting in spillover effects between units. We develop augmented inverse probability weighting (AIPW) for estimation and inference of the direct effect of the treatment with observational data from a single (social) network with spillover effects. We use plugin machine learning and sample splitting to obtain a semiparametric treatment effect estimator that converges at the parametric rate and asymptotically follows a Gaussian distribution. We apply our AIPW method to the Swiss StudentLife Study data to investigate the effect of hours spent studying on exam performance accounting for the students' social network. | 翻訳日:2023-09-07 11:52:09 公開日:2023-09-04 |
# 巨大なラベルなし歩行ビデオから歩行表現を学ぶ:ベンチマーク Learning Gait Representation from Massive Unlabelled Walking Videos: A Benchmark ( http://arxiv.org/abs/2206.13964v2 ) ライセンス: Link先を確認 | Chao Fan, Saihui Hou, Jilong Wang, Yongzhen Huang, and Shiqi Yu | (参考訳) ゲイトは個人独自の歩行パターンを描き、人間の識別において最も有望な生体認証の特徴の1つとなった。
細かな認識タスクとして、歩容認識は多くの要因に影響を受けやすく、通常、費用がかかり、満足できない大量の完全な注釈付きデータを必要とする。
本論文は,大規模非ラベル歩行ビデオから一般の歩行表現を学習することを目的とした,コントラスト学習を用いた歩行認識のための大規模自己教師付ベンチマークを提案する。
具体的には,1.02万個の歩行シーケンスからなる大規模歩行データセットGaitLU-1Mを収集し,概念的にシンプルだが実証的に強力なベースラインモデルGaitSSBを提案する。
実験では,casia-b,ou-mvlp,grove,gait3dの4つのgaitベンチマークにおいて,トランスファー学習の有無で事前学習モデルを評価する。
教師なしの結果は、初期のモデルベースやGEIベースの方法と同等か、それ以上に優れている。
移動学習では,ほとんどの場合,既存の手法よりも大きな差がある。
理論的には,歩行特有のコントラストフレームワークの重要な問題について議論し,さらなる研究のための洞察を与える。
われわれが知る限り、GaitLU-1Mは最初の大規模未ラベル歩行データセットであり、GaitSSBは前述のベンチマークで目立った教師なしの結果を得る最初の方法である。
GaitSSBのソースコードはOpenGaitに統合され、https://github.com/ShiqiYu/OpenGaitで入手できる。 Gait depicts individuals' unique and distinguishing walking patterns and has become one of the most promising biometric features for human identification. As a fine-grained recognition task, gait recognition is easily affected by many factors and usually requires a large amount of completely annotated data that is costly and insatiable. This paper proposes a large-scale self-supervised benchmark for gait recognition with contrastive learning, aiming to learn the general gait representation from massive unlabelled walking videos for practical applications via offering informative walking priors and diverse real-world variations. Specifically, we collect a large-scale unlabelled gait dataset GaitLU-1M consisting of 1.02M walking sequences and propose a conceptually simple yet empirically powerful baseline model GaitSSB. Experimentally, we evaluate the pre-trained model on four widely-used gait benchmarks, CASIA-B, OU-MVLP, GREW and Gait3D with or without transfer learning. The unsupervised results are comparable to or even better than the early model-based and GEI-based methods. After transfer learning, our method outperforms existing methods by a large margin in most cases. Theoretically, we discuss the critical issues for gait-specific contrastive framework and present some insights for further study. As far as we know, GaitLU-1M is the first large-scale unlabelled gait dataset, and GaitSSB is the first method that achieves remarkable unsupervised results on the aforementioned benchmarks. The source code of GaitSSB will be integrated into OpenGait which is available at https://github.com/ShiqiYu/OpenGait. | 翻訳日:2023-09-07 11:51:56 公開日:2023-09-04 |
# 最適測定による非エルミート系の量子パラメータ推定 Quantum parameter estimation of non-Hermitian systems with optimal measurements ( http://arxiv.org/abs/2208.05159v3 ) ライセンス: Link先を確認 | Xinglei Yu, Chengjie Zhang | (参考訳) エルミート系による量子パラメータ推定は様々な分野に適用されているが、非エルミート系に関する結果は比較的少ない。
本稿では,一般エルミート・ハミルトニアンの量子パラメータ推定について検討し,純状態に対する量子フィッシャー情報(QFI)の直感的な表現を導出する。
さらに,Hermitianと非Hermitian Hamiltonianの両方に適用可能な最適測定条件を提案する。
これらの結果を説明するために、特定の $\mathcal{pt}$-symmetric non-hermitian hamiltonian の qfi を計算・研究し、最適な測定を行う。
驚くことに、EPにおけるQFIの突然変異など、この$\mathcal{PT}$-symmetric Hamiltonian QFIの興味深い性質がいくつか見つかる。
さらに, 最適測定による推定のばらつきを理論精度と比較し, 提案する最適測定条件の検証を行った。 Quantum parameter estimation with Hermitian systems has been applied in various fields, but there are relatively few results concerning non-Hermitian systems. Here, we study the quantum parameter estimation for general non-Hermitian Hamiltonians and derive an intuitive expression of quantum Fisher information (QFI) for pure states. Furthermore, we propose the condition for optimal measurements, which is applicable to both Hermitian and non-Hermitian Hamiltonians. To illustrate these results, we calculate and study the QFI of a specific $\mathcal{PT}$-symmetric non-Hermitian Hamiltonian, and give the optimal measurement. Surprisingly, we find some interesting properties of this $\mathcal{PT}$-symmetric Hamiltonian QFI, such as the mutations in QFI at EP. Moreover, we also compare the variance of estimation generated by the optimal measurement with the theoretical precision bound to verify the condition for optimal measurements we proposed. | 翻訳日:2023-09-07 11:43:01 公開日:2023-09-04 |
# 責任ある都市知能:研究課題に向けて Responsible Urban Intelligence: Towards a Research Agenda ( http://arxiv.org/abs/2208.04727v2 ) ライセンス: Link先を確認 | Rui Cao, Qi-Li Gao, Guoping Qiu | (参考訳) 都市化の加速は持続可能な開発にとって大きな課題となっている。
ビッグデータと人工知能(AI)技術へのアクセシビリティの増大は多くの分野に革命をもたらし、都市問題に対処する大きな可能性を秘めている。
しかし、これらの技術は責任を考慮せず、新たな社会問題や環境問題をもたらすことになる。
潜在的な問題を最小化しながら、ビッグデータとAIのメリットを最大化するために、レスポンシブル・アーバン・インテリジェンス(RUI)の概念的枠組みを構想し、アクションの議題を提唱する。
We first define RUI as consisting of three major components including urban problems, enabling technologies, and responsibilities; then introduce transparency, fairness, and eco-friendliness as the three dimensions of responsibilities which naturally link with the human, space, and time dimensions of cities; and further develop a four-stage implementation framework for responsibilities as consisting of solution design, data preparation, model building, and practical application; and finally present a research agenda for RUI addressing challenging issues including data and model transparency, tension between performance and fairness, and solving urban problems in an eco-friendly manner. Acceleration of urbanisation is posing great challenges to sustainable development. Growing accessibility to big data and artificial intelligence (AI) technologies have revolutionised many fields and offered great potential for addressing pressing urban problems. However, using these technologies without explicitly considering responsibilities would bring new societal and environmental issues. To maximise the benefits of big data and AI while minimising potential issues, we envisage a conceptual framework of Responsible Urban Intelligence (RUI) and advocate an agenda for action. We first define RUI as consisting of three major components including urban problems, enabling technologies, and responsibilities; then introduce transparency, fairness, and eco-friendliness as the three dimensions of responsibilities which naturally link with the human, space, and time dimensions of cities; and further develop a four-stage implementation framework for responsibilities as consisting of solution design, data preparation, model building, and practical application; and finally present a research agenda for RUI addressing challenging issues including data and model transparency, tension between performance and fairness, and solving urban problems in an eco-friendly manner. | 翻訳日:2023-09-07 11:42:42 公開日:2023-09-04 |
# customsインポート宣言データセット Customs Import Declaration Datasets ( http://arxiv.org/abs/2208.02484v3 ) ライセンス: Link先を確認 | Chaeyoon Jeong and Sundong Kim and Jaewoo Park and Yeonsoo Choi | (参考訳) 国境を越えた大量の流れを考えると、違法貿易から人々や社会を守るために、効果的かつ効率的な貿易統制がより重要となる。
しかし、トランザクションレベルの取引データセットのアクセシビリティの制限は、オープンリサーチの進展を妨げるものであり、データベースのリスク管理の最近の進歩から多くの税関管理が恩恵を受けていない。
本稿では,税関管理のドメインエキスパートと,データサイエンスや機械学習など多様な分野の研究者のコラボレーションを促進するために,インポート宣言データセットを提案する。
データセットは、22のキー属性を持つ54,000の人工的に生成された取引を含み、相関した特徴を維持しながら条件付き表状GANで合成される。
合成データにはいくつかの利点がある。
まず、データセットのリリースは、オリジナルのインポートデータを公開できない制限から解放される。
製造段階は、貿易統計に存在している可能性のあるアイデンティティリスクを最小化する。
第二に、公開されたデータはソースデータと同様の分布に従っており、様々な下流タスクで使用することができる。
したがって、我々のデータセットは任意の分類アルゴリズムの性能をテストするベンチマークとして利用できる。
データの提供と生成プロセスにより、我々は不正検出タスクのベースラインコードを開く。 Given the huge volume of cross-border flows, effective and efficient control of trade becomes more crucial in protecting people and society from illicit trade. However, limited accessibility of the transaction-level trade datasets hinders the progress of open research, and lots of customs administrations have not benefited from the recent progress in data-based risk management. In this paper, we introduce an import declaration dataset to facilitate the collaboration between domain experts in customs administrations and researchers from diverse domains, such as data science and machine learning. The dataset contains 54,000 artificially generated trades with 22 key attributes, and it is synthesized with conditional tabular GAN while maintaining correlated features. Synthetic data has several advantages. First, releasing the dataset is free from restrictions that do not allow disclosing the original import data. The fabrication step minimizes the possible identity risk which may exist in trade statistics. Second, the published data follow a similar distribution to the source data so that it can be used in various downstream tasks. Hence, our dataset can be used as a benchmark for testing the performance of any classification algorithm. With the provision of data and its generation process, we open baseline codes for fraud detection tasks, as we empirically show that more advanced algorithms can better detect fraud. | 翻訳日:2023-09-07 11:42:22 公開日:2023-09-04 |
# MolGraph:TensorFlowとKerasを使った分子グラフとグラフニューラルネットワークの実装のためのPythonパッケージ MolGraph: a Python package for the implementation of molecular graphs and graph neural networks with TensorFlow and Keras ( http://arxiv.org/abs/2208.09944v4 ) ライセンス: Link先を確認 | Alexander Kensert, Gert Desmet, Deirdre Cabooter | (参考訳) 分子機械学習(ML)は、分子記述子や指紋に基づく分子特性の予測など、様々な分子問題に取り組む上で重要であることが証明されている。
比較的最近になって、graph neural network(gnn)アルゴリズムが分子ml向けに実装され、ディスクリプタや指紋ベースのアプローチと同等あるいは優れたパフォーマンスを示している。
分子MLにGNNを適用するためのさまざまなツールやパッケージが存在するが、新しいGNNパッケージであるMorGraphは、TensorFlowやKerasアプリケーションプログラミングインターフェース(API)と高い互換性を持つGNNモデルパイプラインを作成する動機によって、この作業で開発された。
MolGraphはまた、分子ML問題を解決するためにGNNアルゴリズムに渡すことができる小さな分子グラフを生成するための化学モジュールを実装している。
GNNを検証するため、MoeculeNetのデータセットと3つのクロマトグラフィー保持時間データセットとをベンチマークした。
これらのベンチマークの結果は、GNNが期待通りに実行したことを示している。
さらに、GNNは分子識別に有用であり、クロマトグラフィー保持時間データの解釈性を改善した。
MolGraphはhttps://github.com/akensert/molgraph.comから入手できる。
インストール、チュートリアル、実装の詳細はhttps://molgraph.readthedocs.io/en/latest/にある。 Molecular machine learning (ML) has proven important for tackling various molecular problems, such as predicting molecular properties based on molecular descriptors or fingerprints. Since relatively recently, graph neural network (GNN) algorithms have been implemented for molecular ML, showing comparable or superior performance to descriptor or fingerprint-based approaches. Although various tools and packages exist to apply GNNs in molecular ML, a new GNN package, named MolGraph, was developed in this work with the motivation to create GNN model pipelines highly compatible with the TensorFlow and Keras application programming interface (API). MolGraph also implements a chemistry module to accommodate the generation of small molecular graphs, which can be passed to a GNN algorithm to solve a molecular ML problem. To validate the GNNs, they were benchmarked against the datasets of MoleculeNet, as well as three chromatographic retention time datasets. The results on these benchmarks illustrate that the GNNs performed as expected. Additionally, the GNNs proved useful for molecular identification and improved interpretability of chromatographic retention time data. MolGraph is available at https://github.com/akensert/molgraph. Installation, tutorials and implementation details can be found at https://molgraph.readthedocs.io/en/latest/. | 翻訳日:2023-09-07 11:15:01 公開日:2023-09-04 |
# 機械学習における格差の所在 Locating disparities in machine learning ( http://arxiv.org/abs/2208.06680v3 ) ライセンス: Link先を確認 | Moritz von Zahn, Oliver Hinz, Stefan Feuerriegel | (参考訳) 機械学習は、人口のサブグループ(例えば年齢、性別、その他の敏感な属性によって定義される)が体系的に不利である、異なる結果の予測を提供することができる。
今後の法律に準拠するために、実践者はそのような異なる結果を見つける必要がある。
しかし、従来の文献では、通常、感度の高い属性が事前指定された場合の統計的手続きを通じて、不一致を検出する。
これにより、データセットが高次元であり、その上、機密性の高い属性が不明な実世界での適用性が制限される。
そこで本稿では,機械学習における格差の特定を目的とした,ALD(Automatic Location of Disparities)と呼ばれるデータ駆動型フレームワークを提案する。
ald(1)は任意の機械学習分類器に適用可能であり、(2)異なる異質性の定義(例えば、統計パリティや等化オッズ)に基づいて動作し、(3)交叉性(英語版)として知られる複雑多方向相互作用(例えば60歳以上および女性)から異質性が生じる場合でも、カテゴリー的および連続的予測器の両方を扱う。
ALDは解釈可能な監査レポートを出力として生成する。
合成と実世界の両方のデータセットに基づくALDの有効性を示す。
その結果、機械学習アルゴリズムにおける格差を効果的に発見・緩和し、アルゴリズムによる監査を行い、個人を差別から保護する。 Machine learning can provide predictions with disparate outcomes, in which subgroups of the population (e.g., defined by age, gender, or other sensitive attributes) are systematically disadvantaged. In order to comply with upcoming legislation, practitioners need to locate such disparate outcomes. However, previous literature typically detects disparities through statistical procedures for when the sensitive attribute is specified a priori. This limits applicability in real-world settings where datasets are high dimensional and, on top of that, sensitive attributes may be unknown. As a remedy, we propose a data-driven framework called Automatic Location of Disparities (ALD) which aims at locating disparities in machine learning. ALD meets several demands from industry: ALD (1) is applicable to arbitrary machine learning classifiers; (2) operates on different definitions of disparities (e.g., statistical parity or equalized odds); and (3) deals with both categorical and continuous predictors even if disparities arise from complex and multi-way interactions known as intersectionality (e. g., age above 60 and female). ALD produces interpretable audit reports as output. We demonstrate the effectiveness of ALD based on both synthetic and real-world datasets. As a result, we empower practitioners to effectively locate and mitigate disparities in machine learning algorithms, conduct algorithmic audits, and protect individuals from discrimination. | 翻訳日:2023-09-07 11:14:20 公開日:2023-09-04 |
# 機械学習の薬理ゲノミクスへの応用:血漿濃度-時間曲線のクラスタリング Applications of Machine Learning in Pharmacogenomics: Clustering Plasma Concentration-Time Curves ( http://arxiv.org/abs/2210.13310v2 ) ライセンス: Link先を確認 | Jackson P. Lautier, Stella Grosser, Jessica Kim, Hyewon Kim, Junghi Kim | (参考訳) 製薬研究者は、薬物開発プロセスと患者の成果の両方を改善する技術を模索し続けている。
近年の関心領域は、薬理学における機械学習(ML)応用の可能性である。
あまり研究されていない応用の1つは、血漿濃度-時間曲線(以下、pk曲線)の教師なしクラスタリングである。
本稿では,pk曲線の類似性からpk曲線をクラスター化する方法について考察する。
具体的には、クラスタリングが類似の形状のPK曲線を同定し、PK曲線の各クラスタ内のパターンを理解するのに有効であることを示す。
PK曲線は時系列データオブジェクトであるため,本手法では時系列データのクラスタリングに関する広範な研究を出発点として活用する。
そこで, 時系列データオブジェクト間の相違点を多数検討し, PK曲線に最も適した値を求める。
ユークリッド距離はpk曲線のクラスタリングに最も適しており、さらに動的時間ゆがみ、fr\'{e}chet、構造に基づく相関のような相似性の尺度が予期しない結果をもたらすことも示している。
本稿では,前回の薬理学的研究で使用した250PK曲線のケーススタディにこれらの手法を適用した。
本ケーススタディでは,euclidean distanceを用いた教師なしmlクラスタリングは,対象遺伝子情報なくとも,基準薬理ゲノミクスの結果と同じ結論を独立に検証できることがわかった。
私たちの知る限り、このデモは初めてのものです。
さらに,本研究は,pk曲線のクラスタリングが,pk指標の集団レベルの要約統計だけでは理解できない洞察をいかに生み出すかを示す。 Pharmaceutical researchers are continually searching for techniques to improve both drug development processes and patient outcomes. An area of recent interest is the potential for machine learning (ML) applications within pharmacology. One such application not yet given close study is the unsupervised clustering of plasma concentration-time curves, hereafter, pharmacokinetic (PK) curves. In this paper, we present our findings on how to cluster PK curves by their similarity. Specifically, we find clustering to be effective at identifying similar-shaped PK curves and informative for understanding patterns within each cluster of PK curves. Because PK curves are time series data objects, our approach utilizes the extensive body of research related to the clustering of time series data as a starting point. As such, we examine many dissimilarity measures between time series data objects to find those most suitable for PK curves. We identify Euclidean distance as generally most appropriate for clustering PK curves, and we further show that dynamic time warping, Fr\'{e}chet, and structure-based measures of dissimilarity like correlation may produce unexpected results. As an illustration, we apply these methods in a case study with 250 PK curves used in a previous pharmacogenomic study. Our case study finds that an unsupervised ML clustering with Euclidean distance, without any subject genetic information, is able to independently validate the same conclusions as the reference pharmacogenomic results. To our knowledge, this is the first such demonstration. Further, the case study demonstrates how the clustering of PK curves may generate insights that could be difficult to perceive solely with population level summary statistics of PK metrics. | 翻訳日:2023-09-07 07:35:49 公開日:2023-09-04 |
# glff:ai合成画像検出のためのグローバルおよびローカル機能融合 GLFF: Global and Local Feature Fusion for AI-synthesized Image Detection ( http://arxiv.org/abs/2211.08615v7 ) ライセンス: Link先を確認 | Yan Ju, Shan Jia, Jialing Cai, Haiying Guan, Siwei Lyu | (参考訳) 深層生成モデル(生成逆ネットワークや拡散モデルなど)の急速な発展により、ai合成画像は高品質になり、人間はそれらと原始的なものを区別できないようになった。
既存の検出手法は、例えば、実世界の後処理を行わないモデルや画像からの画像で、特定の評価設定で高いパフォーマンスを示すが、より強力な世代モデルや様々な後処理操作でテスト画像を生成する現実のシナリオでは、深刻なパフォーマンス劣化を被る傾向にある。
本稿では,ai合成画像検出のための情報パッチから,画像全体から多スケールのグローバル特徴と洗練された局所特徴を組み合わせることで,リッチで識別的な表現を学習するためのグローバル・ローカル特徴融合(glff)フレームワークを提案する。
GLFFは2つのブランチから情報を抽出するグローバルブランチと、詳細なローカルアーティファクト抽出のための情報パッチを選択するローカルブランチである。
実世界の応用をシミュレートする合成画像データセットが欠如しているため、我々はさらに、DeepFakeFaceForensics (DF 3 )という、現実のシナリオにアプローチするための6つの最先端生成モデルとさまざまな後処理技術を含む、挑戦的なフェイク画像データセットを作成する。
実験の結果,提案するDF3データセットおよび他の3つのオープンソースデータセットの最先端手法に対する本手法の優位性を示した。 With the rapid development of deep generative models (such as Generative Adversarial Networks and Diffusion models), AI-synthesized images are now of such high quality that humans can hardly distinguish them from pristine ones. Although existing detection methods have shown high performance in specific evaluation settings, e.g., on images from seen models or on images without real-world post-processing, they tend to suffer serious performance degradation in real-world scenarios where testing images can be generated by more powerful generation models or combined with various post-processing operations. To address this issue, we propose a Global and Local Feature Fusion (GLFF) framework to learn rich and discriminative representations by combining multi-scale global features from the whole image with refined local features from informative patches for AI synthesized image detection. GLFF fuses information from two branches: the global branch to extract multi-scale semantic features and the local branch to select informative patches for detailed local artifacts extraction. Due to the lack of a synthesized image dataset simulating real-world applications for evaluation, we further create a challenging fake image dataset, named DeepFakeFaceForensics (DF 3 ), which contains 6 state-of-the-art generation models and a variety of post-processing techniques to approach the real-world scenarios. Experimental results demonstrate the superiority of our method to the state-of-the-art methods on the proposed DF 3 dataset and three other open-source datasets. | 翻訳日:2023-09-07 07:26:33 公開日:2023-09-04 |
# MemoNet:CTR予測のためのマルチハッシュコードブックネットワークによる全クロスフィーチャの表現を効率的に記憶する MemoNet: Memorizing All Cross Features' Representations Efficiently via Multi-Hash Codebook Network for CTR Prediction ( http://arxiv.org/abs/2211.01334v3 ) ライセンス: Link先を確認 | Pengtao Zhang and Junlin Zhang | (参考訳) 自然言語処理(NLP)の新たな発見は、強い記憶能力がLarge Language Models(LLM)の成功に大きく貢献していることを示している。
これにより、CTRランキングモデルに独立メモリ機構を明示的に導入して、クロスフィーチャの表現を学習し記憶することが可能になる。
本稿では,CTRタスクにおけるクロス機能の表現を効率的に学習し記憶するためのメモリ機構として,マルチハッシュコードブックネットワーク(HCNet)を提案する。
HCNetはマルチハッシュのコードブックをメインメモリとして使用し、メモリプロシージャは、マルチハッシュアドレッシング、メモリ復元、機能縮小という3つのフェーズで構成されている。
また,HCNetとDNNバックボーンを組み合わせた新しいCTRモデルMemoNetを提案する。
3つの公開データセットとオンラインテストによる大規模な実験結果は、MemoNetが最先端のアプローチよりも優れたパフォーマンスを達成していることを示している。
さらに、memonet は nlp における大規模言語モデルのスケーリング則を示しており、hcnet のコードブックのサイズを拡大してパフォーマンスを持続的に得ることができる。
我々の研究は、クロス特徴の学習と記憶の表現の重要性と実現可能性を示し、新しい有望な研究方向性に光を当てている。 New findings in natural language processing (NLP) demonstrate that the strong memorization capability contributes a lot to the success of Large Language Models (LLM). This inspires us to explicitly bring an independent memory mechanism into CTR ranking model to learn and memorize cross features' representations. In this paper, we propose multi-Hash Codebook NETwork (HCNet) as the memory mechanism for efficiently learning and memorizing representations of cross features in CTR tasks. HCNet uses a multi-hash codebook as the main memory place and the whole memory procedure consists of three phases: multi-hash addressing, memory restoring, and feature shrinking. We also propose a new CTR model named MemoNet which combines HCNet with a DNN backbone. Extensive experimental results on three public datasets and online test show that MemoNet reaches superior performance over state-of-the-art approaches. Besides, MemoNet shows scaling law of large language model in NLP, which means we can enlarge the size of the codebook in HCNet to sustainably obtain performance gains. Our work demonstrates the importance and feasibility of learning and memorizing representations of cross features, which sheds light on a new promising research direction. | 翻訳日:2023-09-07 07:25:00 公開日:2023-09-04 |
# 有限オートマトンによるニューラルネットワークの検証と解釈 Verifying And Interpreting Neural Networks using Finite Automata ( http://arxiv.org/abs/2211.01022v2 ) ライセンス: Link先を確認 | Marco S\"alzer, Eric Alsmann, Florian Bruse and Martin Lange | (参考訳) ディープニューラルネットワーク(dnn)の特性の検証と振る舞いの解釈は、安全性クリティカルなものを含むユビキタスな用途やブラックボックスの性質を考える上で重要なタスクである。
DNN解析における問題に対する自動理論アプローチを提案する。
我々は,DNNの入力出力動作を,(特殊)弱いB\"uchiオートマトンによって正確に把握できることを示し,DNNの対向ロバスト性や最小の十分な理由のような共通的な検証や解釈タスクにどのように対応できるかを示す。 Verifying properties and interpreting the behaviour of deep neural networks (DNN) is an important task given their ubiquitous use in applications, including safety-critical ones, and their black-box nature. We propose an automata-theoric approach to tackling problems arising in DNN analysis. We show that the input-output behaviour of a DNN can be captured precisely by a (special) weak B\"uchi automaton and we show how these can be used to address common verification and interpretation tasks of DNN like adversarial robustness or minimum sufficient reasons. | 翻訳日:2023-09-07 07:24:40 公開日:2023-09-04 |
# 医用画像超解像のための微調整逆数ネットワークモデル Fine-tuned Generative Adversarial Network-based Model for Medical Image Super-Resolution ( http://arxiv.org/abs/2211.00577v6 ) ライセンス: Link先を確認 | Alireza Aghelan, Modjtaba Rouhani | (参考訳) 医用画像解析の分野では、診断精度を向上させるために高解像度(HR)画像が必要である。
しかし、高度な機器とかなりの時間を要するため、HR医療画像を得ることは難しい課題である。
深層学習に基づく超解像法は、低解像度(LR)医療画像の解像度と知覚品質を改善するのに役立つ。
近年,GAN(Generative Adversarial Network)に基づく手法は,ディープラーニングに基づく超解像法において顕著な性能を示した。
real-enhanced super- resolution generative adversarial network (real-esrgan)は、実世界のlr画像からhr画像を取得するための実用的なモデルである。
提案手法では,医用画像データセットを用いたトランスファーラーニング手法を用いて,事前学習したReal-ESRGANモデルを微調整する。
この手法はモデルの性能を向上させるのに役立つ。
本研究の目的は,胸部X線像と網膜像の解像度と知覚品質の向上である。
我々は,結核胸部X線データセットと網膜画像のSTAREデータセットを用いてモデルを微調整する。
提案モデルでは,Real-ESRGANモデルに比べて知覚品質が優れ,細部を効果的に保存し,より現実的なテクスチャで画像を生成する。 In the field of medical image analysis, there is a substantial need for high-resolution (HR) images to improve diagnostic accuracy. However, It is a challenging task to obtain HR medical images, as it requires advanced instruments and significant time. Deep learning-based super-resolution methods can help to improve the resolution and perceptual quality of low-resolution (LR) medical images. Recently, Generative Adversarial Network (GAN) based methods have shown remarkable performance among deep learning-based super-resolution methods. Real-Enhanced Super-Resolution Generative Adversarial Network (Real-ESRGAN) is a practical model for recovering HR images from real-world LR images. In our proposed approach, we use transfer learning technique and fine-tune the pre-trained Real-ESRGAN model using medical image datasets. This technique helps in improving the performance of the model. The focus of this paper is on enhancing the resolution and perceptual quality of chest X-ray and retinal images. We use the Tuberculosis chest X-ray (Shenzhen) dataset and the STARE dataset of retinal images for fine-tuning the model. The proposed model achieves superior perceptual quality compared to the Real-ESRGAN model, effectively preserving fine details and generating images with more realistic textures. | 翻訳日:2023-09-07 07:24:28 公開日:2023-09-04 |
# JAX-DIPS:有限離散化法のニューラルブートストラップと不連続な楕円問題への応用 JAX-DIPS: Neural bootstrapping of finite discretization methods and application to elliptic problems with discontinuities ( http://arxiv.org/abs/2210.14312v3 ) ライセンス: Link先を確認 | Pouria Mistani, Samira Pakravan, Rajesh Ilango, Frederic Gibou | (参考訳) 本稿では,メッシュ型数値離散化法に基づくメッシュフリーハイブリッド型ニューロシンボリック偏微分方程式解法の開発のためのスケーラブルな戦略を提案する。
特に、この戦略は偏微分方程式のモデルを効率的に訓練するために使うことができる。
(i)高度な数値解法、解法、プリコンディショナーの精度と収束特性の活用
二 最適化を一階自動微分に厳格に制限することにより、高階PDEに対するスケーラビリティを向上する。
提案手法(以下nbmと呼ぶ)は、ニューラルネットワークの学習可能なパラメータに関して、ランダムなコロケーション点の集合を中心とする暗黙のデカルトセル上で得られるpdeシステムの有限離散化残差の評価に基づいている。
重要なことに、ブートストラップされた有限離散化方程式に存在する保存則と対称性は、トレーニングポイントの局所近傍における解正則性についてニューラルネットワークに知らせる。
NBMを3次元における不規則な界面を横断するジャンプ条件を持つ楕円問題の重要なクラスに適用する。
本手法は,領域内のコロケーション点数を増やして残差を前置することにより,モデルの精度が向上するように収束することを示す。
NBMは他のPINNタイプのフレームワークとメモリとトレーニングの速度で競合することを示す。
ここで提示されるアルゴリズムは、ソフトウェアパッケージ \texttt{JAX-DIPS} (https://github.com/JAX-DIPS/JAX-DIPS) に \textt{JAX} を用いて実装され、相違可能な界面PDEソルバを表す。
我々は,ハイブリッド pde ソルバ開発における微分可能アルゴリズムの利用研究を容易にするために, \texttt{jax-dips} をオープンソース化した。 We present a scalable strategy for development of mesh-free hybrid neuro-symbolic partial differential equation solvers based on existing mesh-based numerical discretization methods. Particularly, this strategy can be used to efficiently train neural network surrogate models of partial differential equations by (i) leveraging the accuracy and convergence properties of advanced numerical methods, solvers, and preconditioners, as well as (ii) better scalability to higher order PDEs by strictly limiting optimization to first order automatic differentiation. The presented neural bootstrapping method (hereby dubbed NBM) is based on evaluation of the finite discretization residuals of the PDE system obtained on implicit Cartesian cells centered on a set of random collocation points with respect to trainable parameters of the neural network. Importantly, the conservation laws and symmetries present in the bootstrapped finite discretization equations inform the neural network about solution regularities within local neighborhoods of training points. We apply NBM to the important class of elliptic problems with jump conditions across irregular interfaces in three spatial dimensions. We show the method is convergent such that model accuracy improves by increasing number of collocation points in the domain and predonditioning the residuals. We show NBM is competitive in terms of memory and training speed with other PINN-type frameworks. The algorithms presented here are implemented using \texttt{JAX} in a software package named \texttt{JAX-DIPS} (https://github.com/JAX-DIPS/JAX-DIPS), standing for differentiable interfacial PDE solver. We open sourced \texttt{JAX-DIPS} to facilitate research into use of differentiable algorithms for developing hybrid PDE solvers. | 翻訳日:2023-09-07 07:23:21 公開日:2023-09-04 |
# アルツハイマー病分類のための多角的隠れ注意パターンに基づく動的機能接続ネットワークの高次配列特徴の再構成 Reconstructing high-order sequence features of dynamic functional connectivity networks based on diversified covert attention patterns for Alzheimer's disease classification ( http://arxiv.org/abs/2211.11750v2 ) ライセンス: Link先を確認 | Zhixiang Zhang, Biao Jie, Zhengdong Wang, Jie Zhou, Yang Yang | (参考訳) 近年の研究では、畳み込みリカレントニューラルネットワーク(CRN)やトランスフォーマーなどのディープラーニング手法を、アルツハイマー病(AD)のような動的機能接続ネットワーク(dFCN)に基づく脳疾患分類に適用し、従来の機械学習手法よりも優れたパフォーマンスを実現している。
しかし、crnでは、高次集計特徴を得るために使用される連続畳み込み操作は、畳み込みの本質が局所要素の線形重み付け和であるため、異なる脳領域間の非線形相関を見逃す可能性がある。
神経系における隠蔽注意の研究について、現代の神経科学に触発されて、トランスフォーマーのコアモジュールである自己注意機構を導入し、多彩な隠蔽注意パターンをモデル化し、これらのパターンを適用して、dFCNの高次配列の特徴を再構築し、脳情報の流れの複雑な動的変化を学習する。
そこで本研究では,局所時空間特徴とシーケンス変化パターンを抽出するCRNの利点と,グローバルおよび高次相関特徴を学習するトランスフォーマーを組み合わせた,多彩な隠蔽注意パターンに基づく新しいCRN手法DCA-CRNを提案する。
ADNIとADHD-200データセットの実験結果は,提案手法の予測性能と一般化能力を示す。 Recent studies have applied deep learning methods such as convolutional recurrent neural networks (CRNs) and Transformers to brain disease classification based on dynamic functional connectivity networks (dFCNs), such as Alzheimer's disease (AD), achieving better performance than traditional machine learning methods. However, in CRNs, the continuous convolution operations used to obtain high-order aggregation features may overlook the non-linear correlation between different brain regions due to the essence of convolution being the linear weighted sum of local elements. Inspired by modern neuroscience on the research of covert attention in the nervous system, we introduce the self-attention mechanism, a core module of Transformers, to model diversified covert attention patterns and apply these patterns to reconstruct high-order sequence features of dFCNs in order to learn complex dynamic changes in brain information flow. Therefore, we propose a novel CRN method based on diversified covert attention patterns, DCA-CRN, which combines the advantages of CRNs in capturing local spatio-temporal features and sequence change patterns, as well as Transformers in learning global and high-order correlation features. Experimental results on the ADNI and ADHD-200 datasets demonstrate the prediction performance and generalization ability of our proposed method. | 翻訳日:2023-09-07 07:14:11 公開日:2023-09-04 |
# 画像生成モデルからの概念蒸留による前景-背景分離 Foreground-Background Separation through Concept Distillation from Generative Image Foundation Models ( http://arxiv.org/abs/2212.14306v2 ) ライセンス: Link先を確認 | Mischa Dombrowski, Hadrien Reynaud, Matthew Baugh and Bernhard Kainz | (参考訳) オブジェクトセグメンテーションのためのデータセットのキュレーションは難しい作業です。
大規模事前学習型生成モデルの出現により、条件付き画像生成は結果の品質と使いやすさを著しく向上させた。
本稿では,単純なテキスト記述から,セグメンテーションラベルを必要とせずに,一般的なフォアグラウンド・バックグラウンド・セグメンテーションモデルを生成する手法を提案する。
事前学習した潜在拡散モデルを利用して、概念や対象に対する弱いセグメンテーションマスクを自動生成する。
マスクは塗布作業で拡散モデルを微調整するために使用され、それによってオブジェクトのきめ細かい除去が可能となり、同時に合成フォアグラウンドと背景データセットが提供される。
我々は,この手法が従来の手法を判別的・生成的性能の両方で破り,画素単位のオブジェクトラベルを必要とせず,完全に教師付きトレーニングでギャップを埋めることを示した。
医療画像解析において,4つの異なる対象(人間,犬,車,鳥)を分割する作業と,ユースケースのシナリオを示す。
コードはhttps://github.com/mischad/fobadiffusionで入手できる。 Curating datasets for object segmentation is a difficult task. With the advent of large-scale pre-trained generative models, conditional image generation has been given a significant boost in result quality and ease of use. In this paper, we present a novel method that enables the generation of general foreground-background segmentation models from simple textual descriptions, without requiring segmentation labels. We leverage and explore pre-trained latent diffusion models, to automatically generate weak segmentation masks for concepts and objects. The masks are then used to fine-tune the diffusion model on an inpainting task, which enables fine-grained removal of the object, while at the same time providing a synthetic foreground and background dataset. We demonstrate that using this method beats previous methods in both discriminative and generative performance and closes the gap with fully supervised training while requiring no pixel-wise object labels. We show results on the task of segmenting four different objects (humans, dogs, cars, birds) and a use case scenario in medical image analysis. The code is available at https://github.com/MischaD/fobadiffusion. | 翻訳日:2023-09-07 07:06:44 公開日:2023-09-04 |
# 後進カリキュラム強化学習 Backward Curriculum Reinforcement Learning ( http://arxiv.org/abs/2212.14214v4 ) ライセンス: Link先を確認 | KyungMin Ko | (参考訳) 現在の強化学習アルゴリズムは、エージェントが可能な限り探索できるように、前向きに生成された軌道を使ってエージェントを訓練する。
十分な探索から強化学習結果の価値を実現する一方で,本手法はアルゴリズムの性能に重要な要因であるサンプル効率の低下にトレードオフをもたらす。
以前のタスクでは、サンプル効率を向上させるために報酬シェーピング技術とネットワーク構造の変更を使用する。
しかし、これらの方法は実装に多くのステップを必要とする。
そこで本研究では,本エピソードの後方軌跡を用いてエージェントを訓練し始める新しい後進カリキュラム強化学習を提案する。
このアプローチはエージェントに強い報酬信号を与え、サンプル効率のよい学習を可能にする。
さらに,本手法ではエージェントの訓練前に軌道の順序を逆転させるアルゴリズムを少しだけ変更するだけで,どの最先端アルゴリズムにも簡単に適用できる。 Current reinforcement learning algorithms train an agent using forward-generated trajectories, which provide little guidance so that the agent can explore as much as possible. While realizing the value of reinforcement learning results from sufficient exploration, this approach leads to a trade-off in losing sample efficiency, an essential factor impacting algorithm performance. Previous tasks use reward-shaping techniques and network structure modification to increase sample efficiency. However, these methods require many steps to implement. In this work, we propose novel backward curriculum reinforcement learning that begins training the agent using the backward trajectory of the episode instead of the original forward trajectory. This approach provides the agent with a strong reward signal, enabling more sample-efficient learning. Moreover, our method only requires a minor change in the algorithm of reversing the order of the trajectory before agent training, allowing a straightforward application to any state-of-the-art algorithm. | 翻訳日:2023-09-07 07:06:24 公開日:2023-09-04 |
# ローカライゼーションによるパスロスとToAラジオマップのデータセット Dataset of Pathloss and ToA Radio Maps With Localization Application ( http://arxiv.org/abs/2212.11777v2 ) ライセンス: Link先を確認 | \c{C}a\u{g}kan Yapar, Ron Levie, Gitta Kutyniok, Giuseppe Caire | (参考訳) 本稿では,密集した都市環境における無線地図データセットの集合について紹介する。
データセットには、実都市地図における現実的な密集した都市環境の集合体に、シミュレートされたパスロス/受信信号強度(RSS)と到着時刻(ToA)ラジオマップが含まれる。
提示されたデータセットの2つの主な応用は
1)入力都市地図(すなわち深層学習に基づくシミュレーション)からパスロスを予測する学習方法、及び
2)無線位置決め。
RSSとToAマップが同じ都市マップ上で同じシミュレーションによって計算されているという事実は、RSSとToAベースのローカライゼーション手法を公平に比較することができる。 In this article, we present a collection of radio map datasets in dense urban setting, which we generated and made publicly available. The datasets include simulated pathloss/received signal strength (RSS) and time of arrival (ToA) radio maps over a large collection of realistic dense urban setting in real city maps. The two main applications of the presented dataset are 1) learning methods that predict the pathloss from input city maps (namely, deep learning-based simulations), and, 2) wireless localization. The fact that the RSS and ToA maps are computed by the same simulations over the same city maps allows for a fair comparison of the RSS and ToA-based localization methods. | 翻訳日:2023-09-07 07:06:10 公開日:2023-09-04 |
# MobileNetサイズとスピードのためのビジョントランスの再考 Rethinking Vision Transformers for MobileNet Size and Speed ( http://arxiv.org/abs/2212.08059v2 ) ライセンス: Link先を確認 | Yanyu Li, Ju Hu, Yang Wen, Georgios Evangelidis, Kamyar Salahi, Yanzhi Wang, Sergey Tulyakov, Jian Ren | (参考訳) コンピュータビジョンタスクにおけるビジョントランスフォーマー(ViT)の成功により、最近の芸術はモバイルデバイスへの効率的なデプロイを可能にするために、ViTのパフォーマンスと複雑さを最適化しようと試みている。
複数のアプローチが注目メカニズムを加速し、非効率な設計を改善したり、モバイルフレンドリーな軽量な畳み込みを組み込んでハイブリッドアーキテクチャを構築する。
しかし、vitとその変種は、軽量cnnよりもレイテンシやパラメータがかなり高いままであり、何年も前のmobilenetにも当てはまる。
実際に、レイテンシとサイズは、リソース制約のあるハードウェアへの効率的なデプロイに不可欠です。
この研究では、トランスフォーマーモデルはMobileNetと同じくらい高速に動作し、同様のサイズを維持することができるのか?
我々はvitの設計選択を再検討し,低レイテンシ,高パラメータ効率の新しいスーパーネットを提案する。
さらに,レイテンシとパラメータ数を同時に最適化することで,効率的なアーキテクチャを見出すことができるトランスフォーマモデルのための,新しい細粒度ジョイント探索手法を提案する。
提案モデルである efficientformerv2 は、同様のレイテンシとパラメータを持つ imagenet-1k の mobilenetv2 よりも3.5%高い top-1 精度を実現している。
この研究は、適切に設計され最適化されたビジョントランスフォーマーが、mobilenetレベルのサイズと速度でも高い性能を達成できることを実証する。 With the success of Vision Transformers (ViTs) in computer vision tasks, recent arts try to optimize the performance and complexity of ViTs to enable efficient deployment on mobile devices. Multiple approaches are proposed to accelerate attention mechanism, improve inefficient designs, or incorporate mobile-friendly lightweight convolutions to form hybrid architectures. However, ViT and its variants still have higher latency or considerably more parameters than lightweight CNNs, even true for the years-old MobileNet. In practice, latency and size are both crucial for efficient deployment on resource-constraint hardware. In this work, we investigate a central question, can transformer models run as fast as MobileNet and maintain a similar size? We revisit the design choices of ViTs and propose a novel supernet with low latency and high parameter efficiency. We further introduce a novel fine-grained joint search strategy for transformer models that can find efficient architectures by optimizing latency and number of parameters simultaneously. The proposed models, EfficientFormerV2, achieve 3.5% higher top-1 accuracy than MobileNetV2 on ImageNet-1K with similar latency and parameters. This work demonstrate that properly designed and optimized vision transformers can achieve high performance even with MobileNet-level size and speed. | 翻訳日:2023-09-07 07:04:45 公開日:2023-09-04 |
# LatentSwap3D: 3D画像のセマンティック編集 LatentSwap3D: Semantic Edits on 3D Image GANs ( http://arxiv.org/abs/2212.01381v2 ) ライセンス: Link先を確認 | Enis Simsar and Alessio Tonioni and Evin P{\i}nar \"Ornek and Federico Tombari | (参考訳) 3D GANは2D画像だけでなく、全3Dボリュームの潜在コードを生成することができる。
これらのモデルは、高品質な幾何学やマルチビュー整合性などの望ましい特徴を提供するが、2Dモデルとは異なり、3D GANのための複雑なセマンティック画像編集タスクは部分的には検討されていない。
そこで,本研究では,市販の3dおよび2d ganモデルおよびデータセットで使用可能な潜在空間発見に基づく意味的編集手法である latentswap3d を提案する。
LatentSwap3Dは、ランダムフォレスト分類器を用いた特徴ランク付けによって、特定の属性に対応する潜在コード次元を特定することに依存する。
次に、自動選択された基準画像から編集対象の画像の寸法を編集対象の画像と入れ替えて編集を行う。
主に2次元gan用に設計された他の潜在空間制御ベースの編集方法と比較して,3次元ganの手法は,不連続な方法で極めて一貫した意味的編集を提供し,質的かつ定量的に他の方法よりも優れる。
7つの3D GAN(pi-GAN, GIRAFFE, StyleSDF, MVCGAN, EG3D, StyleNeRF, VolumeGAN)と5つのデータセット(FFHQ, AFHQ, Cats, MetFaces, CompCars)について結果を示す。 3D GANs have the ability to generate latent codes for entire 3D volumes rather than only 2D images. These models offer desirable features like high-quality geometry and multi-view consistency, but, unlike their 2D counterparts, complex semantic image editing tasks for 3D GANs have only been partially explored. To address this problem, we propose LatentSwap3D, a semantic edit approach based on latent space discovery that can be used with any off-the-shelf 3D or 2D GAN model and on any dataset. LatentSwap3D relies on identifying the latent code dimensions corresponding to specific attributes by feature ranking using a random forest classifier. It then performs the edit by swapping the selected dimensions of the image being edited with the ones from an automatically selected reference image. Compared to other latent space control-based edit methods, which were mainly designed for 2D GANs, our method on 3D GANs provides remarkably consistent semantic edits in a disentangled manner and outperforms others both qualitatively and quantitatively. We show results on seven 3D GANs (pi-GAN, GIRAFFE, StyleSDF, MVCGAN, EG3D, StyleNeRF, and VolumeGAN) and on five datasets (FFHQ, AFHQ, Cats, MetFaces, and CompCars). | 翻訳日:2023-09-07 07:04:23 公開日:2023-09-04 |
# 画像データを用いたポイントクラウドセグメンテーションネットワークの自己監督事前学習のためのコントラスト学習 Contrastive Learning for Self-Supervised Pre-Training of Point Cloud Segmentation Networks With Image Data ( http://arxiv.org/abs/2301.07283v3 ) ライセンス: Link先を確認 | Andrej Janda, Brandon Wagstaff, Edwin G. Ng, and Jonathan Kelly | (参考訳) ラベルが不足しコストがかかる場合、教師付きトレーニングに必要なアノテーションの量を減らすことが不可欠です。
この削減は、3Dデータセットを含むセマンティックセグメンテーションタスクにおいて特に重要である。
ラベルのないデータに対する自己教師付き事前トレーニングは、手動アノテーションの量を減らす方法のひとつだ。
以前の作業では、ポイントクラウドのみによる事前トレーニングに重点を置いていた。
便利ではあるが、このアプローチは2つ以上の登録ビューを必要とすることが多い。
本研究では,まず自己教師付き画像特徴を学習し,その特徴を用いて3次元モデルを訓練することで,画像とポイントクラウドのモダリティを組み合わせる。
多くの3dデータセットにしばしば含まれる画像データを組み込むことで、事前学習方法はシーンのスキャンを1回だけ必要とし、ローカライズ情報が利用できない場合に適用できる。
当社の事前トレーニングアプローチは、単一のスキャンを使用しても、他のマルチスキャン、ポイントクラウドのみの方法と同等のパフォーマンスを実現しています。 Reducing the quantity of annotations required for supervised training is vital when labels are scarce and costly. This reduction is particularly important for semantic segmentation tasks involving 3D datasets, which are often significantly smaller and more challenging to annotate than their image-based counterparts. Self-supervised pre-training on unlabelled data is one way to reduce the amount of manual annotations needed. Previous work has focused on pre-training with point clouds exclusively. While useful, this approach often requires two or more registered views. In the present work, we combine image and point cloud modalities by first learning self-supervised image features and then using these features to train a 3D model. By incorporating image data, which is often included in many 3D datasets, our pre-training method only requires a single scan of a scene and can be applied to cases where localization information is unavailable. We demonstrate that our pre-training approach, despite using single scans, achieves comparable performance to other multi-scan, point cloud-only methods. | 翻訳日:2023-09-07 06:56:35 公開日:2023-09-04 |
# プライバシー制約下でのグラフトポロジ学習 Graph Topology Learning Under Privacy Constraints ( http://arxiv.org/abs/2301.06662v2 ) ライセンス: Link先を確認 | Xiang Zhang | (参考訳) 我々は、データを分散クライアントに配置し、プライバシに敏感な、斬新だが実用的なシナリオにおいて、滑らかなグラフ信号から基盤となるグラフトポロジーを推測する問題を考える。
このタスクの主な困難は、プライバシーの制約下で、すべての孤立したクライアントの潜在的異種データをどのように利用するかである。
この目的のために,ローカルクライアントのパーソナライズされたグラフとコンセンサスグラフを併用して学習するフレームワークを提案する。
パーソナライズされたグラフは局所的なデータ分布と一致し、データの多様性を緩和し、コンセンサスグラフはグローバル情報をキャプチャする。
次に,プライバシの制約に違反せず,すなわち,すべてのプライベートデータがローカルに処理されるような問題を解くためのアルゴリズムを考案する。
プライバシ保護をさらに強化するため,提案アルゴリズムに差分プライバシー(DP)を導入し,モデル更新の送信時にプライバシ攻撃に抵抗する。
理論的には、DPを含む提案アルゴリズムの証明可能な収束解析を確立する。
最後に、提案フレームワークを検証するために、合成データと実世界のデータの両方について広範な実験を行う。
実験の結果,本手法は対象シナリオで効果的にグラフを学習できることが判明した。 We consider the problem of inferring the underlying graph topology from smooth graph signals in a novel but practical scenario where data are located in distributed clients and are privacy-sensitive. The main difficulty of this task lies in how to utilize the potentially heterogeneous data of all isolated clients under privacy constraints. Towards this end, we propose a framework where personalized graphs for local clients as well as a consensus graph are jointly learned. The personalized graphs match local data distributions, thereby mitigating data heterogeneity, while the consensus graph captures the global information. We next devise a tailored algorithm to solve the induced problem without violating privacy constraints, i.e., all private data are processed locally. To further enhance privacy protection, we introduce differential privacy (DP) into the proposed algorithm to resist privacy attacks when transmitting model updates. Theoretically, we establish provable convergence analyses for the proposed algorithms, including that with DP. Finally, extensive experiments on both synthetic and real-world data are carried out to validate the proposed framework. Experimental results illustrate that our approach can learn graphs effectively in the target scenario. | 翻訳日:2023-09-07 06:55:45 公開日:2023-09-04 |
# 胸部X線画像における深層学習に基づく新型コロナウイルス認識モデルの設計 : 知識蒸留アプローチ Designing an Improved Deep Learning-based Model for COVID-19 Recognition in Chest X-ray Images: A Knowledge Distillation Approach ( http://arxiv.org/abs/2301.02735v2 ) ライセンス: Link先を確認 | AmirReza BabaAhmadi, Sahar Khalafi, Masoud ShariatPanahi, Moosa Ayati | (参考訳) 新型コロナウイルス(covid-19)は、異なる側面の人間や社会に悪影響を及ぼしている。
新型コロナウイルスの診断が不正確で、適切な治療が不十分なため、多くの人が死亡した。
世界中の研究者によって,手動・自動特徴抽出技術に基づく多数の解が研究されている。
通常、自動特徴抽出法、特にディープラーニングモデルは、必要な計算を実行するために強力なハードウェアシステムを必要とする。
残念なことに、多くの機関や社会は、高品質のハードウェア機器の高価さのために、これらの進歩から利益を得ることができない。
その結果,本研究では, 組込みデバイス, モバイルデバイス, 従来のコンピュータ上でのモデル実行に伴う計算コストの低減, および, 医用認識タスクの性能と精度を確保するために, これまでに公表した手法(少なくとも最先端モデルと同等の性能)と比較して, モデルの性能を向上すること, の2つの目標に焦点をあてた。
本研究では,VGG19とResNet50V2という2つのニューラルネットワークを用いて,データセットの特徴抽出を改善した。
これらのネットワークはどちらも、指定されたデータセットからセマンティック機能を提供する。
この目的のために、モバイルと組み込みデバイスで最小限の計算を必要としながらセマンティック機能を抽出するMobileNetV2という代替ネットワークが検討された。
知識蒸留(KD)は、教師ネットワーク(統合ResNet50V2とVGG19)から学生ネットワーク(MobileNetV2)へ知識を伝達し、MobileNetV2の性能を改善し、胸部X線画像から新型コロナウイルス識別タスクの堅牢で正確なモデルを実現するために用いられた。 COVID-19 has adversely affected humans and societies in different aspects. Numerous people have perished due to inaccurate COVID-19 identification and, consequently, a lack of appropriate medical treatment. Numerous solutions based on manual and automatic feature extraction techniques have been investigated to address this issue by researchers worldwide. Typically, automatic feature extraction methods, particularly deep learning models, necessitate a powerful hardware system to perform the necessary computations. Unfortunately, many institutions and societies cannot benefit from these advancements due to the prohibitively high cost of high-quality hardware equipment. As a result, this study focused on two primary goals: first, lowering the computational costs associated with running the proposed model on embedded devices, mobile devices, and conventional computers; and second, improving the model's performance in comparison to previously published methods (at least performs on par with state-of-the-art models) in order to ensure its performance and accuracy for the medical recognition task. This study used two neural networks to improve feature extraction from our dataset: VGG19 and ResNet50V2. Both of these networks are capable of providing semantic features from the nominated dataset. To this end, An alternative network was considered, namely MobileNetV2, which excels at extracting semantic features while requiring minimal computation on mobile and embedded devices. Knowledge distillation (KD) was used to transfer knowledge from the teacher network (concatenated ResNet50V2 and VGG19) to the student network (MobileNetV2) to improve MobileNetV2 performance and to achieve a robust and accurate model for the COVID-19 identification task from chest X-ray images. | 翻訳日:2023-09-07 06:54:29 公開日:2023-09-04 |
# 連続運転空間におけるBEVマップ生成 Generating Evidential BEV Maps in Continuous Driving Space ( http://arxiv.org/abs/2302.02928v2 ) ライセンス: Link先を確認 | Yunshuang Yuan, Hao Cheng, Michael Ying Yang and Monika Sester | (参考訳) 安全性は自動運転には不可欠であり、安全性を向上させる1つの側面は、認識システムの不確実性を正確に捉えることである。
知覚シナリオに対する部分的情報のみを提供する確率的対象検出など,決定論的あるいは確率的結果のみを提供するのと異なり,gevbev という完全確率的モデルを提案する。
2次元駆動空間を、点ベースの空間ガウス分布を持つ確率的バードズアイビュー (BEV) マップとして解釈し、そこから連続駆動空間内の任意の新しい標本点のカテゴリー的ディリクレ分布のパラメータとして証拠を引き出すことができる。
実験の結果、GevBEVはより信頼性の高い不確実性定量化を提供するだけでなく、シミュレーションおよび実世界の運転シナリオにおける協調認識のためのBEVマップ解釈のOPV2VとV2V4Realのベンチマークにおける先行研究よりも優れていた。
協調的知覚における重要な要因は、通信チャネルを通じたデータ伝送サイズである。
gevbevは、学習した不確実性から共有すべき最も重要な情報のみを選択することで、コミュニケーションのオーバーヘッドを削減するのに役立つ。
私たちのコードはhttps://github.com/yuanyunshuang/gevbevで公開しています。 Safety is critical for autonomous driving, and one aspect of improving safety is to accurately capture the uncertainties of the perception system, especially knowing the unknown. Different from only providing deterministic or probabilistic results, e.g., probabilistic object detection, that only provide partial information for the perception scenario, we propose a complete probabilistic model named GevBEV. It interprets the 2D driving space as a probabilistic Bird's Eye View (BEV) map with point-based spatial Gaussian distributions, from which one can draw evidence as the parameters for the categorical Dirichlet distribution of any new sample point in the continuous driving space. The experimental results show that GevBEV not only provides more reliable uncertainty quantification but also outperforms the previous works on the benchmarks OPV2V and V2V4Real of BEV map interpretation for cooperative perception in simulated and real-world driving scenarios, respectively. A critical factor in cooperative perception is the data transmission size through the communication channels. GevBEV helps reduce communication overhead by selecting only the most important information to share from the learned uncertainty, reducing the average information communicated by 87% with only a slight performance drop. Our code is published at https://github.com/YuanYunshuang/GevBEV. | 翻訳日:2023-09-07 06:47:40 公開日:2023-09-04 |
# NeuRI: 帰納的ルール推論によるDNN生成の多様化 NeuRI: Diversifying DNN Generation via Inductive Rule Inference ( http://arxiv.org/abs/2302.02261v3 ) ライセンス: Link先を確認 | Jiawei Liu, Jinjun Peng, Yuyao Wang, Lingming Zhang | (参考訳) ディープラーニング(DL)は、意思決定を改善し、プロセスを自動化するために様々な業界で広く使われています。
DLシステムの正確性は、DLアプリケーションの信頼性に不可欠である。
このように、最近の研究の波は、ファジィDLシステムのためのテストケース(DNNモデルとその入力)の自動合成の研究である。
しかし、既存のモデルジェネレータは限られた数の演算子のみをサブスクライブし、演算子制約を広くモデル化する能力に欠ける。
この課題に対処するために,数百種類の演算子からなる有効かつ多様なDLモデルを生成するための,完全に自動化されたアプローチであるNeuRIを提案する。
NeuRIは3段階のプロセスを採用しています。
i) 各種情報源から有効かつ無効なAPIトレースを収集すること。
(ii)有効なモデルを構築するための制約を推測するために、トレースに帰納的プログラム合成を適用すること。
(iii)シンボリック演算子と具体演算子を併用したハイブリッドモデル生成の利用。
我々の評価によると、NeuRIは最先端のモデルレベルのファザよりもTensorFlowとPyTorchのブランチカバレッジを24%、15%改善している。
NeuRIは4ヶ月でPyTorchとTensorFlowの100の新しいバグを発見し、81がすでに修正または確認されている。
そのうち9つのバグは高い優先度またはセキュリティ上の脆弱性とラベル付けされており、この期間のすべての優先度の高いバグの10%を構成している。
オープンソース開発者は、私たちが報告したエラー誘発テストは"高品質"で"実際に一般的"だと考えている。 Deep Learning (DL) is prevalently used in various industries to improve decision-making and automate processes, driven by the ever-evolving DL libraries and compilers. The correctness of DL systems is crucial for trust in DL applications. As such, the recent wave of research has been studying the automated synthesis of test-cases (i.e., DNN models and their inputs) for fuzzing DL systems. However, existing model generators only subsume a limited number of operators, lacking the ability to pervasively model operator constraints. To address this challenge, we propose NeuRI, a fully automated approach for generating valid and diverse DL models composed of hundreds of types of operators. NeuRI adopts a three-step process: (i) collecting valid and invalid API traces from various sources; (ii) applying inductive program synthesis over the traces to infer the constraints for constructing valid models; and (iii) using hybrid model generation which incorporates both symbolic and concrete operators. Our evaluation shows that NeuRI improves branch coverage of TensorFlow and PyTorch by 24% and 15% over the state-of-the-art model-level fuzzers. NeuRI finds 100 new bugs for PyTorch and TensorFlow in four months, with 81 already fixed or confirmed. Of these, 9 bugs are labelled as high priority or security vulnerability, constituting 10% of all high-priority bugs of the period. Open-source developers regard error-inducing tests reported by us as "high-quality" and "common in practice". | 翻訳日:2023-09-07 06:47:15 公開日:2023-09-04 |
# 観測エントロピーの連続性境界と相対エントロピーの測定 Continuity bounds on observational entropy and measured relative entropies ( http://arxiv.org/abs/2302.00400v2 ) ライセンス: Link先を確認 | Joseph Schindler, Andreas Winter | (参考訳) 我々は、一般のPOVM測定のための観測エントロピーに縛られる測定非依存の漸近連続性を導出し、その有界凹凸の性質を必須に活用する。
同じ洞察を他のエントロピー量に対する連続性境界を得るために使用し、一般的な測定セットの下で一連の状態の対流に対して測定された相対エントロピー距離を含む。
特別の場合として、別の(測定されていない)サブシステムの量子状態に条件付された1つの(測定された)サブシステムにおける観測エントロピーである条件付き観測エントロピーを定義し、研究する。
また,共同チャネルに対する相対エントロピーの連続性についても検討し,観測エントロピーが測定関数として一様連続であることを発見した。
しかし、この測定の下での連続性は具体的な漸近境界の形ではあり得ないという例を示す。 We derive a measurement-independent asymptotic continuity bound on the observational entropy for general POVM measurements, making essential use of its property of bounded concavity. The same insight is used to obtain continuity bounds for other entropic quantities, including the measured relative entropy distance to a convex a set of states under a general set of measurements. As a special case, we define and study conditional observational entropy, which is an observational entropy in one (measured) subsystem conditioned on the quantum state in another (unmeasured) subsystem. We also study continuity of relative entropy with respect to a jointly applied channel, finding that observational entropy is uniformly continuous as a function of the measurement. But we show by means of an example that this continuity under measurements cannot have the form of a concrete asymptotic bound. | 翻訳日:2023-09-07 06:46:18 公開日:2023-09-04 |
# 単調ゲームにおける2重最適no-regret学習 Doubly Optimal No-Regret Learning in Monotone Games ( http://arxiv.org/abs/2301.13120v2 ) ライセンス: Link先を確認 | Yang Cai, Weiqiang Zheng | (参考訳) マルチプレイヤースムーズなモノトーンゲームにおけるオンライン学習について考察する。
既存のアルゴリズムには、(1)強単調ゲームにのみ適用できる、(2)非相対保証がない、(3)漸近的あるいは遅い$O(\frac{1}{\sqrt{T}})$最後の点収束速度をナッシュ平衡に限定するといった制限がある。
o(\frac{1}{\sqrt{t}})$レートは、よく研究された超勾配アルゴリズムや楽観的勾配アルゴリズムを含む多くのアルゴリズムには厳しいが、すべての勾配に基づくアルゴリズムには最適ではない。
本研究では,スムーズなモノトーンゲームのための2倍最適非線形学習アルゴリズムであるAOGアルゴリズムを提案する。
すなわち、我々のアルゴリズムは両方を達成する。
(i)滑らかかつ凸損失関数の下での敵対的設定における最適な$o(\sqrt{t})$ regret
(ii) 最適$O(\frac{1}{T})$ストレート収束速度は、マルチプレイヤーの滑らかなモノトーンゲームにおいてナッシュ平衡となる。
加速された最終項目収束率の副産物として、各プレイヤーが1個$O(\log T)$個々の最悪の動的後悔に悩まされ、以前の最先端の$O(\sqrt{T})$境界よりも指数関数的に改善されることが示される。 We consider online learning in multi-player smooth monotone games. Existing algorithms have limitations such as (1) being only applicable to strongly monotone games; (2) lacking the no-regret guarantee; (3) having only asymptotic or slow $O(\frac{1}{\sqrt{T}})$ last-iterate convergence rate to a Nash equilibrium. While the $O(\frac{1}{\sqrt{T}})$ rate is tight for a large class of algorithms including the well-studied extragradient algorithm and optimistic gradient algorithm, it is not optimal for all gradient-based algorithms. We propose the accelerated optimistic gradient (AOG) algorithm, the first doubly optimal no-regret learning algorithm for smooth monotone games. Namely, our algorithm achieves both (i) the optimal $O(\sqrt{T})$ regret in the adversarial setting under smooth and convex loss functions and (ii) the optimal $O(\frac{1}{T})$ last-iterate convergence rate to a Nash equilibrium in multi-player smooth monotone games. As a byproduct of the accelerated last-iterate convergence rate, we further show that each player suffers only an $O(\log T)$ individual worst-case dynamic regret, providing an exponential improvement over the previous state-of-the-art $O(\sqrt{T})$ bound. | 翻訳日:2023-09-07 06:45:08 公開日:2023-09-04 |
# 屈曲最適化による解のバックプロパゲーション Backpropagation of Unrolled Solvers with Folded Optimization ( http://arxiv.org/abs/2301.12047v2 ) ライセンス: Link先を確認 | James Kotary, My H. Dinh, Ferdinando Fioretto | (参考訳) ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は、通常閉形式を持たない最適化問題の解によるバックプロパゲーションである。
典型的な戦略の1つはアルゴリズムの展開であり、反復解法の操作による自動微分に依存する。
柔軟で汎用的なアンローリングは、実際には正確さと効率性の問題がある。
これらの問題は最適化の分析的な分化によって回避できるが、現在のフレームワークは最適化問題の形式に厳格な要件を課している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
さらに,最適化マッピングによるアンロールと解析的微分の統一的視点を提案する。
様々なモデルに基づく学習課題に対する実験は、計算的および表現性の向上の観点からアプローチの利点を示す。 The integration of constrained optimization models as components in deep networks has led to promising advances on many specialized learning tasks. A central challenge in this setting is backpropagation through the solution of an optimization problem, which typically lacks a closed form. One typical strategy is algorithm unrolling, which relies on automatic differentiation through the operations of an iterative solver. While flexible and general, unrolling can encounter accuracy and efficiency issues in practice. These issues can be avoided by analytical differentiation of the optimization, but current frameworks impose rigid requirements on the optimization problem's form. This paper provides theoretical insights into the backward pass of unrolled optimization, leading to a system for generating efficiently solvable analytical models of backpropagation. Additionally, it proposes a unifying view of unrolling and analytical differentiation through optimization mappings. Experiments over various model-based learning tasks demonstrate the advantages of the approach both computationally and in terms of enhanced expressiveness. | 翻訳日:2023-09-07 06:44:42 公開日:2023-09-04 |
# パラメトリック一般化分数法ニキフォロフ-ウバロフ法とその応用 The Parametric Generalized Fractional Nikiforov-Uvarov Method and Its Applications ( http://arxiv.org/abs/2301.07493v2 ) ライセンス: Link先を確認 | M. Abu-shady and H. M. Fath-Allah | (参考訳) 一般化分数微分を用いることにより、パラメトリック一般化分数法ニキフォロフ-ウバロフ法(nu法)を導入する。
2階パラメトリック一般化微分方程式は分数形で正確に解かれる。
得られた結果は、分子物理学やハドロン物理学の分野で重要な役割を果たしている拡張コーネルポテンシャル、ペスドハーモニックポテンシャル、ミーポテンシャル、クラッツァー・フューズポテンシャル、調和振動子ポテンシャル、モースポテンシャル、ウッズ・サクソンポテンシャル、ハルトヘンポテンシャル、変形したローゼン・モースポテンシャル、ポシュル・テラーポテンシャルに応用される。
特殊古典的ケースは、最近の作品と一致する ELFA = BETA = 1 の分数的なケースから得られる。 By using generalized fractional derivative, the parametric generalized fractional Nikiforov-Uvarov (NU) method is introduced. The second-order parametric generalized differential equation is exactly solved in the fractional form. The obtained results are applied on the extended Cornell potential, the pesudoharmonic potential, the Mie potential, the Kratzer-Fues potential, the harmonic oscillator potential, the Morse potential, the Woods-Saxon potential, the Hulthen potential, the deformed Rosen-Morse potential and the Poschl-Teller potential which play an important role in the fields of molecular and hadron physics. The special classical cases are obtained from the fractional cases at ELFA = BETA =1 which are agreements with recent works. | 翻訳日:2023-09-07 06:44:00 公開日:2023-09-04 |
# BiasTestGPT: 言語モデルのソーシャルバイアステストにChatGPTを使用する BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models ( http://arxiv.org/abs/2302.07371v2 ) ライセンス: Link先を確認 | Rafal Kocielnik, Shrimai Prabhumoye, Vivian Zhang, Roy Jiang, R. Michael Alvarez, Anima Anandkumar | (参考訳) 事前訓練された言語モデル(plm)は、実世界の有害な影響をもたらす社会的バイアスを包含している。
このような社会的バイアスは、plmが異なる社会グループと一連のテスト文に現れる属性に対して出力する確率値によって測定される。
しかし、テスト文は限られた手動テンプレートから生成するか、高価なクラウドソーシングを必要とするため、現在バイアステストは面倒である。
テスト文に現れる社会的グループと属性の任意の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。
テンプレートベースの手法と比較して,テスト文生成にChatGPTを用いるアプローチは,特に交叉バイアスなどの困難な状況において,社会的バイアスの検出に優れている。
本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
特定の社会的グループと属性要件を満足し,人間生成文の品質に適合する,chatgptによって生成されたテスト文の多種多様なデータセットを提供する。
これにより,ソーシャルカテゴリと属性の組み合わせに対して,多種多様なテスト文の自動生成により,plmをシームレスに拡張したソーシャルバイアステストを可能にする。 Pretrained Language Models (PLMs) harbor inherent social biases that can result in harmful real-world implications. Such social biases are measured through the probability values that PLMs output for different social groups and attributes appearing in a set of test sentences. However, bias testing is currently cumbersome since the test sentences are generated either from a limited set of manual templates or need expensive crowd-sourcing. We instead propose using ChatGPT for controllable generation of test sentences, given any arbitrary user-specified combination of social groups and attributes appearing in the test sentences. When compared to template-based methods, our approach using ChatGPT for test sentence generation is superior in detecting social bias, especially in challenging settings such as intersectional biases. We present an open-source comprehensive bias testing framework (BiasTestGPT), hosted on HuggingFace, that can be plugged into any open-source PLM for bias testing. We provide a large diverse dataset of test sentences generated by ChatGPT that satisfies the specified social group and attribute requirements and matches the quality of human-generated sentences. We thus enable seamless open-ended social bias testing of PLMs through an automatic large-scale generation of diverse test sentences for any combination of social categories and attributes. | 翻訳日:2023-09-07 06:35:55 公開日:2023-09-04 |
# 分布ランダム林の信頼性と不確実性評価 Confidence and Uncertainty Assessment for Distributional Random Forests ( http://arxiv.org/abs/2302.05761v2 ) ライセンス: Link先を確認 | Jeffrey N\"af, Corinne Emmenegger, Peter B\"uhlmann, Nicolai Meinshausen | (参考訳) distributional random forest (drf) は、多変量条件分布を推定するために最近導入されたランダムフォレストアルゴリズムである。
一般的な推定手順のため、条件平均処理効果、条件量子量、条件相関など、幅広い対象を推定することができる。
しかし、DRF予測の一貫性と収束率についてのみ結果が得られている。
我々は,drfの漸近分布を特徴付け,そのブートストラップ近似を開発した。
これにより、標準誤差を定量化するための推論ツールと、漸近的カバレッジ保証を有する信頼領域の構築を導出できる。
シミュレーション研究では,低次元対象推定理論と2つの個体群間の分布差の検証を経験的に検証した。 The Distributional Random Forest (DRF) is a recently introduced Random Forest algorithm to estimate multivariate conditional distributions. Due to its general estimation procedure, it can be employed to estimate a wide range of targets such as conditional average treatment effects, conditional quantiles, and conditional correlations. However, only results about the consistency and convergence rate of the DRF prediction are available so far. We characterize the asymptotic distribution of DRF and develop a bootstrap approximation of it. This allows us to derive inferential tools for quantifying standard errors and the construction of confidence regions that have asymptotic coverage guarantees. In simulation studies, we empirically validate the developed theory for inference of low-dimensional targets and for testing distributional differences between two populations. | 翻訳日:2023-09-07 06:34:07 公開日:2023-09-04 |
# シリコンにおける高忠実度2ビット動作の整合性 Consistency of high-fidelity two-qubit operations in silicon ( http://arxiv.org/abs/2303.04090v2 ) ライセンス: Link先を確認 | Tuomo Tanttu, Wee Han Lim, Jonathan Y. Huang, Nard Dumoulin Stuyck, Will Gilbert, Rocky Y. Su, MengKe Feng, Jesus D. Cifuentes, Amanda E. Seedhouse, Stefan K. Seritan, Corey I. Ostrove, Kenneth M. Rudinger, Ross C. C. Leon, Wister Huang, Christopher C. Escott, Kohei M. Itoh, Nikolay V. Abrosimov, Hans-Joachim Pohl, Michael L. W. Thewalt, Fay E. Hudson, Robin Blume-Kohout, Stephen D. Bartlett, Andrea Morello, Arne Laucht, Chih Hwan Yang, Andre Saraiva, Andrew S. Dzurak | (参考訳) 量子ビット間のエンタングリング操作の一貫性は、マルチキュービットシステムの性能に不可欠であり、フォールトトレラントな量子プロセッサを実現する上で重要な要素である。
固体プラットフォームは、クォービット間の性能の材料依存性と時間経過に伴うゲートフィラリティの不安定性により、特に不整合に晒される。
ここでは、スピン量子ビットのこの一貫性を定量化し、その物理的起源に結び付けるとともに、技術的に重要なシリコン金属酸化物半導体(SiMOS)量子ドットプラットフォームにおいて、99%以上の忠実度を持つ2量子ビットゲートの持続的かつ繰り返し動作を示す。
我々は,複数機器のエラーやフィディリティを多数の試行と運用期間を通して解析することにより,これらの動作の安定性に関する詳細な研究を行う。
3つの異なるキャラクタリゼーション手法を用いて,96.8%から99.8%までの密閉ゲート形状を測定する。
私たちの分析ツールは、キュービット劣化の物理的原因を特定し、許容範囲内でパフォーマンスを維持する方法も提供します。
さらに,qubit設計,フィードバックシステム,ロバストゲートがスケーラブルで高忠実な制御戦略の実装に与える影響について検討する。
これらの結果は、スピンベースの量子ビットをフルスケールの量子プロセッサにスケールアップする能力と課題の両方を強調している。 The consistency of entangling operations between qubits is essential for the performance of multi-qubit systems, and is a crucial factor in achieving fault-tolerant quantum processors. Solid-state platforms are particularly exposed to inconsistency due to the materials-induced variability of performance between qubits and the instability of gate fidelities over time. Here we quantify this consistency for spin qubits, tying it to its physical origins, while demonstrating sustained and repeatable operation of two-qubit gates with fidelities above 99% in the technologically important silicon metal-oxide-semiconductor (SiMOS) quantum dot platform. We undertake a detailed study of the stability of these operations by analysing errors and fidelities in multiple devices through numerous trials and extended periods of operation. Adopting three different characterisation methods, we measure entangling gate fidelities ranging from 96.8% to 99.8%. Our analysis tools also identify physical causes of qubit degradation and offer ways to maintain performance within tolerance. Furthermore, we investigate the impact of qubit design, feedback systems, and robust gates on implementing scalable, high-fidelity control strategies. These results highlight both the capabilities and challenges for the scaling up of spin-based qubits into full-scale quantum processors. | 翻訳日:2023-09-07 06:26:52 公開日:2023-09-04 |
# 熱Rydberg原子のアンサンブルに基づく単一光子源の集合放出の解析 Analyzing the collective emission of a single-photon source based on an ensemble of thermal Rydberg atoms ( http://arxiv.org/abs/2303.03937v2 ) ライセンス: Link先を確認 | Jan A. P. Reuter, Max M\"ausezahl, Felix Moumtsilis, Tilman Pfau, Tommaso Calarco, Robert L\"ow, Matthias M. M\"uller | (参考訳) ライドベルク原子のアンサンブルはレーザーによって励起され、リドベルク封鎖半径内に1つの集合励起しか持たない絡み合った状態へと進化する。
この状態の崩壊は、単一の反結合光子の放出につながる。
マイクロセル中のルビジウム原子の高温蒸気について、原子密度分布やレーザーによる電子状態の選択のような異なる実験条件下で、そのような単一光子源の有効性を数値的に研究する。
3つの長方形レーザーパルスを用いた励起過程について, 切断ヒルベルト空間における系のコヒーレントダイナミクスをシミュレートする。
そこで我々は, 移動Rydberg原子の放射挙動を調査し, レーザーパルスシーケンスを最適化する。
単一励起の集団的崩壊は高速で指向的な光子放出につながり、さらにスピンエコーに似たパルスシーケンスは光子の方向性を高めることが判明した。
最後に,残余の二重励起を解析し,これら集合的崩壊特性を示さず,小さな有害な役割のみを果たすことを見出した。 An ensemble of Rydberg atoms can be excited with lasers such that it evolves into an entangled state with just one collective excitation within the Rydberg blockade radius. The decay of this state leads to the emission of a single, antibunched photon. For a hot vapor of Rubidium atoms in a micro cell we numerically study the feasibility of such a single-photon source under different experimental conditions like the atomic density distribution and the choice of electronic states addressed by the lasers. For the excitation process with three rectangular lasers pulses, we simulate the coherent dynamics of the system in a truncated Hilbert space. We investigate the radiative behavior of the moving Rydberg atoms and optimize the laser pulse sequence accordingly. We find that the collective decay of the single-excitation leads to a fast and directed photon emission and further, that a pulse sequence similar to a spin echo increases the directionality of the photon. Finally, we analyze the residual double-excitations and find that they do not exhibit these collective decay properties and play only a minor deleterious role. | 翻訳日:2023-09-07 06:26:28 公開日:2023-09-04 |
# 非エルミートフォトニック構造における量子PT相図 Quantum PT-Phase Diagram in a Non-Hermitian Photonic Structure ( http://arxiv.org/abs/2303.00189v3 ) ライセンス: Link先を確認 | Xinchen Zhang and Yun Ma and Qi Liu and Nuo Wang and Yali Jia and Qi Zhang and Zhanqiang Bai and Junxiang Zhang and Qihuang Gong and Ying Gu | (参考訳) フォトニック構造は屈折率や利得損失を変調することでpt相転移を実現する固有の利点を持つ。
しかし、これらのフォトニック系の量子PT特性はまだ包括的に研究されていない。
ここでは、損失と利得が同時に存在する二光子構造において、定常状態下での量子PT相図を解析的に取得した。
PT対称性を特徴付けるために、2つのモードの二次変数間の交換を表現するエルミート交換作用素を定義する。
数光子フォック状態がPT分解二導波路分裂系に入力されると、ほとんどの光子はいくつかの状態分布を持つ支配的な導波路に集中する。
量子pt位相図は、非エルミートフォトニック系における量子状態工学、量子干渉、論理演算への道を開く。 Photonic structures have an inherent advantage to realize PT-phase transition through modulating the refractive index or gain-loss. However, quantum PT properties of these photonic systems have not been comprehensively studied yet. Here, in a bi-photonic structure with loss and gain simultaneously existing, we analytically obtained the quantum PT-phase diagram under the steady state condition. To characterize the PT-symmetry or -broken phase, we define an Hermitian exchange operator expressing the exchange between quadrature variables of two modes. If inputting several-photon Fock states into a PT-broken bi-waveguide splitting system, most photons will concentrate in the dominant waveguide with some state distributions. Quantum PT-phase diagram paves the way to the quantum state engineering, quantum interferences, and logic operations in non-Hermitian photonic systems. | 翻訳日:2023-09-07 06:25:46 公開日:2023-09-04 |
# 電子-フォノン系のハイブリッド量子古典法 A Hybrid Quantum-Classical Method for Electron-Phonon Systems ( http://arxiv.org/abs/2302.09824v2 ) ライセンス: Link先を確認 | M. Michael Denner, Alexander Miessen, Haoran Yan, Ivano Tavernelli, Titus Neupert, Eugene Demler, Yao Wang | (参考訳) 電子とフォノンの相互作用は量子材料において重要な役割を果たす。
しかし、強い電子-フォノン相互作用と電子相関を同時に正確に説明できる普遍的な方法はない。
変分量子固有解法と変分非ガウジアン解法を組み合わせることにより、このタイプの相関系に適したハイブリッド量子古典アルゴリズムを開発した。
このハイブリッド法は、純粋な電子モデルと比較して必要な量子ビットや量子ゲートの数を増やすことなく、任意に強い電子-フォノンカップリングを持つシステムに取り組む。
本手法は,半充填時のパラダイム的ハバード・ホルシュタインモデルに適用し,電荷密度波と反強磁性相の競合を正確に捉え,正確な対角化と定量的に一致していることを示す。 Interactions between electrons and phonons play a crucial role in quantum materials. Yet, there is no universal method that would simultaneously accurately account for strong electron-phonon interactions and electronic correlations. By combining methods of the variational quantum eigensolver and the variational non-Gaussian solver, we develop a hybrid quantum-classical algorithm suitable for this type of correlated systems. This hybrid method tackles systems with arbitrarily strong electron-phonon coupling without increasing the number of required qubits and quantum gates, as compared to purely electronic models. We benchmark the new method by applying it to the paradigmatic Hubbard-Holstein model at half filling, and show that it correctly captures the competition between charge density wave and antiferromagnetic phases, quantitatively consistent with exact diagonalization. | 翻訳日:2023-09-07 06:24:20 公開日:2023-09-04 |
# 自律運転における3次元動作推定のための簡易試み A Simple Attempt for 3D Occupancy Estimation in Autonomous Driving ( http://arxiv.org/abs/2303.10076v3 ) ライセンス: Link先を確認 | Wanshui Gan, Ningkai Mo, Hongbin Xu, Naoto Yokoya | (参考訳) 周囲の画像から3D占有率を推定するタスクは、Bird's Eye View (BEV) の認識の成功に続いて、自動運転分野におけるエキサイティングな発展である。
このタスクは、運転環境の重要な3D特性を提供し、周囲空間の全体的な理解と認識を高める。
本研究では,ネットワーク設計,最適化,評価など3次元占有率推定の重要な要素を明らかにするために設計されたcnnベースのフレームワークである3次元占有率推定のための簡易な試みを提案する。
さらに,3次元占有率推定と,単眼深度推定,ステレオマッチング,BEV知覚(3Dオブジェクト検出,マップセグメンテーション)などの関連課題との関係について検討した。
評価のために,現在の公開データセットに柔軟である占有評価基準を定義するための簡単なサンプリング戦略を提案する。
さらに,提案手法をDDADおよびNuscenesデータセット上の単眼深度推定法と比較し,競合性能を達成するため,深度推定の指標として新たなベンチマークを構築した。関連コードはhttps://github.com/GANWANSHUI/SimpleOccupancyで利用可能となる。 The task of estimating 3D occupancy from surrounding-view images is an exciting development in the field of autonomous driving, following the success of Bird's Eye View (BEV) perception. This task provides crucial 3D attributes of the driving environment, enhancing the overall understanding and perception of the surrounding space. In this work, we present a simple attempt for 3D occupancy estimation, which is a CNN-based framework designed to reveal several key factors for 3D occupancy estimation, such as network design, optimization, and evaluation. In addition, we explore the relationship between 3D occupancy estimation and other related tasks, such as monocular depth estimation, stereo matching, and BEV perception (3D object detection and map segmentation), which could advance the study on 3D occupancy estimation. For evaluation, we propose a simple sampling strategy to define the metric for occupancy evaluation, which is flexible for current public datasets. Moreover, we establish a new benchmark in terms of the depth estimation metric, where we compare our proposed method with monocular depth estimation methods on the DDAD and Nuscenes datasets and achieve competitive performance.The relevant code will be available in https://github.com/GANWANSHUI/SimpleOccupancy | 翻訳日:2023-09-07 06:16:13 公開日:2023-09-04 |
# グラフ上の自己超越信号としての特徴伝播 Feature propagation as self-supervision signals on graphs ( http://arxiv.org/abs/2303.08644v2 ) ライセンス: Link先を確認 | Oscar Pina and Ver\'onica Vilaplana | (参考訳) グラフ表現学習における広範なアノテーションの必要性を回避するソリューションとして,自己教師付き学習が注目されている。
現在のアルゴリズムは、メモリコストの計算であるコントラスト学習と、あるグラフ拡張の下での不変性の仮定に基づいている。
しかし、エッジサンプリングのようなグラフ変換はデータのセマンティクスを変更して、等分散仮定が誤っている可能性がある。
本稿では,ノードの局所的およびグローバル的コンテキストをエンコードするグラフを通じて,出力ノード埋め込み間の相互情報を最大化することにより,グラフニューラルネットワークエンコーダを訓練する,ノードレベルの自己教師付き学習のための単純かつ効果的なフレームワークである正規化グラフインフォマックス(rgi)を提案する。
RGIはグラフデータ拡張を使用しず、代わりに特徴伝播を伴う自己超越信号を生成し、非競合性であり、2つの分岐アーキテクチャに依存しない。
一般的なグラフベンチマークでトランスダクティブとインダクティブの両方の設定でrgiを実行し、単純さに関わらず最先端のパフォーマンスを達成できることを示しています。 Self-supervised learning is gaining considerable attention as a solution to avoid the requirement of extensive annotations in representation learning on graphs. Current algorithms are based on contrastive learning, which is computation an memory expensive, and the assumption of invariance under certain graph augmentations. However, graph transformations such as edge sampling may modify the semantics of the data so that the iinvariance assumption may be incorrect. We introduce Regularized Graph Infomax (RGI), a simple yet effective framework for node level self-supervised learning that trains a graph neural network encoder by maximizing the mutual information between output node embeddings and their propagation through the graph, which encode the nodes' local and global context, respectively. RGI do not use graph data augmentations but instead generates self-supervision signals with feature propagation, is non-contrastive and does not depend on a two branch architecture. We run RGI on both transductive and inductive settings with popular graph benchmarks and show that it can achieve state-of-the-art performance regardless of its simplicity. | 翻訳日:2023-09-07 06:15:11 公開日:2023-09-04 |
# FAStEN:高次元機能回帰における特徴選択と推定のための効率的な適応手法 FAStEN: an efficient adaptive method for feature selection and estimation in high-dimensional functional regressions ( http://arxiv.org/abs/2303.14801v2 ) ライセンス: Link先を確認 | Tobia Boschi, Lorenzo Testa, Francesca Chiaromonte, Matthew Reimherr | (参考訳) 関数回帰分析は、現代の多くの科学応用において確立されたツールである。
大規模で複雑なデータセットを含む回帰問題はユビキタスであり、オーバーフィットを避け、正確な予測を達成するためには特徴選択が不可欠である。
スパース高次元関数オンファンクション回帰問題において特徴選択を行うための新しい,柔軟で,超効率的なアプローチを提案し,それをスカラー・オンファンクション・フレームワークに拡張する方法を示す。
FAStENと呼ばれる本手法は,機能データ,最適化,機械学習技術を組み合わせて特徴選択とパラメータ推定を同時に行う。
機能主成分の性質と2重拡張ラグランジアン問題に固有のスパーシティを利用して計算コストを大幅に削減し,選択精度を向上させる適応スキームを提案する。
さらに,提案したFAStEN推定器における推定と選択の整合性を保証する漸近オラクル特性を導出する。
大規模なシミュレーション研究を通じて,提案手法を既存の競合相手にベンチマークし,CPU時間と選択性能の点で,係数推定の品質を犠牲にすることなく,大幅な向上を示した。
理論的導出とシミュレーション研究は,我々のアプローチに強い動機を与える。
最後に、AOMIC PIOP1による脳MRIデータへの応用について述べる。 Functional regression analysis is an established tool for many contemporary scientific applications. Regression problems involving large and complex data sets are ubiquitous, and feature selection is crucial for avoiding overfitting and achieving accurate predictions. We propose a new, flexible and ultra-efficient approach to perform feature selection in a sparse high dimensional function-on-function regression problem, and we show how to extend it to the scalar-on-function framework. Our method, called FAStEN, combines functional data, optimization, and machine learning techniques to perform feature selection and parameter estimation simultaneously. We exploit the properties of Functional Principal Components and the sparsity inherent to the Dual Augmented Lagrangian problem to significantly reduce computational cost, and we introduce an adaptive scheme to improve selection accuracy. In addition, we derive asymptotic oracle properties, which guarantee estimation and selection consistency for the proposed FAStEN estimator. Through an extensive simulation study, we benchmark our approach to the best existing competitors and demonstrate a massive gain in terms of CPU time and selection performance, without sacrificing the quality of the coefficients' estimation. The theoretical derivations and the simulation study provide a strong motivation for our approach. Finally, we present an application to brain fMRI data from the AOMIC PIOP1 study. | 翻訳日:2023-09-07 06:07:11 公開日:2023-09-04 |
# 360bev:屋内の鳥の目に見えるパノラマ意味マッピング 360BEV: Panoramic Semantic Mapping for Indoor Bird's-Eye View ( http://arxiv.org/abs/2303.11910v4 ) ライセンス: Link先を確認 | Zhifeng Teng, Jiaming Zhang, Kailun Yang, Kunyu Peng, Hao Shi, Simon Rei{\ss}, Ke Cao, Rainer Stiefelhagen | (参考訳) 全体の一部だけを見ることは、完全な状況を知ることではありません。
鳥眼視(Bird's-eye-view、BEV)は、細い視野(FoV)のみを用いることで、自我中心の視点から同心写像を得る過程を制限する。
本研究では,360{\deg}パノラマからbevセマンティクスへのマッピング,360bevタスクを初めて確立し,トップダウンビューで室内シーンの全体的表現を実現する。
狭いFoV画像列に頼る代わりに、奥行き情報を持つパノラマ画像は、全体論的BEVセマンティックマップを生成するのに十分である。
360BEVをベンチマークするために、私たちは2つの屋内データセット、360BEV-Matterportと360BEV-Stanfordを紹介します。
異なるマッピングパラダイムを深く掘り下げると同時に,パノラマ意味マッピングのための専用ソリューション,すなわち360mapperを提案する。
広範な実験により,両データセットでそれぞれ44.32%,45.78%のmiouをそれぞれ達成し,+7.60%,+9.70%をそれぞれ上回った。
コードとデータセットはプロジェクトのページで公開されている。 Seeing only a tiny part of the whole is not knowing the full circumstance. Bird's-eye-view (BEV) perception, a process of obtaining allocentric maps from egocentric views, is restricted when using a narrow Field of View (FoV) alone. In this work, mapping from 360{\deg} panoramas to BEV semantics, the 360BEV task, is established for the first time to achieve holistic representations of indoor scenes in a top-down view. Instead of relying on narrow-FoV image sequences, a panoramic image with depth information is sufficient to generate a holistic BEV semantic map. To benchmark 360BEV, we present two indoor datasets, 360BEV-Matterport and 360BEV-Stanford, both of which include egocentric panoramic images and semantic segmentation labels, as well as allocentric semantic maps. Besides delving deep into different mapping paradigms, we propose a dedicated solution for panoramic semantic mapping, namely 360Mapper. Through extensive experiments, our methods achieve 44.32% and 45.78% in mIoU on both datasets respectively, surpassing previous counterparts with gains of +7.60% and +9.70% in mIoU. Code and datasets are available at the project page: https://jamycheung.github.io/360BEV.html. | 翻訳日:2023-09-07 06:04:53 公開日:2023-09-04 |
# 観測可能なエッジラベルと観測不可能なノードラベルを持つ二部グラフのグラフ推定 Graphon Estimation in bipartite graphs with observable edge labels and unobservable node labels ( http://arxiv.org/abs/2304.03590v2 ) ライセンス: Link先を確認 | Etienne Donier-Meroz, Arnak S. Dalalyan, Francis Kramarz, Philippe Chon\'e, Xavier D'Haultfoeuille | (参考訳) 多くの現実世界のデータセットは、異なる性質の2つのエンティティ(webユーザがwebページを訪問する回数、対象の学生の成績、患者の医師の評価など)間の相互作用に対応する行列形式で提示することができる。
本稿では、上記の相互作用が各エンティティを記述する観測不能な潜在変数によって決定されると仮定する。
我々の目的は、観測不能変数からデータ行列の条件付き期待値を推定することである。
これはgraphonと呼ばれる双変量関数の推定問題として提示される。
区分定数およびh\"older-continuous graphonsの場合について検討する。
最小二乗推定値と指数重み付き集合に対する有限なサンプルリスク境界を確立する。
これらの境界は、データセットのサイズ、相互作用の最大強度、ノイズレベルに対する推定誤差の依存性を強調する。
解析された最小二乗推定器は難解であるため、最小二乗推定器の近似を計算するためにロイドの交代最小化アルゴリズムの適応を提案する。
最後に,合成データセット上でのグラフトン推定器の実験的性能を示すための数値実験を行った。 Many real-world data sets can be presented in the form of a matrix whose entries correspond to the interaction between two entities of different natures (number of times a web user visits a web page, a student's grade in a subject, a patient's rating of a doctor, etc.). We assume in this paper that the mentioned interaction is determined by unobservable latent variables describing each entity. Our objective is to estimate the conditional expectation of the data matrix given the unobservable variables. This is presented as a problem of estimation of a bivariate function referred to as graphon. We study the cases of piecewise constant and H\"older-continuous graphons. We establish finite sample risk bounds for the least squares estimator and the exponentially weighted aggregate. These bounds highlight the dependence of the estimation error on the size of the data set, the maximum intensity of the interactions, and the level of noise. As the analyzed least-squares estimator is intractable, we propose an adaptation of Lloyd's alternating minimization algorithm to compute an approximation of the least-squares estimator. Finally, we present numerical experiments in order to illustrate the empirical performance of the graphon estimator on synthetic data sets. | 翻訳日:2023-09-07 05:55:15 公開日:2023-09-04 |
# 双曲平面における強結合モデルの状態密度 Density of states of tight-binding models in the hyperbolic plane ( http://arxiv.org/abs/2304.02382v2 ) ライセンス: Link先を確認 | R. Mosseri, J. Vidal | (参考訳) 正規双曲型タイリングに対する強結合ハミルトニアンのエネルギースペクトルについて検討する。
より具体的には、10^9$ 以上の点と開境界条件を持つ有限サイズの系におけるグリーン関数の継続フラクション展開を用いて状態密度を計算する。
この膨張の係数は、熱力学的極限をかなり正確に推測できるように素早く収束することが分かる。
この状態密度は、最近提案された双曲バンド理論に由来する予測とは対照的である。
したがって、双曲的ブロッホ様波動固有関数によって記述されるエネルギースペクトルの分画は熱力学的極限で消滅する。 We study the energy spectrum of tight-binding Hamiltonian for regular hyperbolic tilings. More specifically, we compute the density of states using the continued-fraction expansion of the Green function on finite-size systems with more than $10^9$ sites and open boundary conditions. The coefficients of this expansion are found to quickly converge so that the thermodynamical limit can be inferred quite accurately. This density of states is in stark contrast with the prediction stemming from the recently proposed hyperbolic band theory. Thus, we conclude that the fraction of the energy spectrum described by the hyperbolic Bloch-like wave eigenfunctions vanishes in the thermodynamical limit. | 翻訳日:2023-09-07 05:54:55 公開日:2023-09-04 |
# MapFormer: 事前変更情報による変更検出の強化 MapFormer: Boosting Change Detection by Using Pre-change Information ( http://arxiv.org/abs/2303.17859v3 ) ライセンス: Link先を確認 | Maximilian Bernhard, Niklas Strau{\ss}, Matthias Schubert | (参考訳) リモートセンシング画像における変化検出は、都市計画、災害管理、気候研究などの様々な応用に不可欠である。
しかし、意味的に変化した領域を識別する既存の方法は、地球表面の特徴を記述した既存の地図の形で意味情報の可用性を見落としている。
本稿では,この情報を両時間画像の変化検出に活用する。
潜在表現の連結による付加情報の統合は、最先端の変更検出方法よりも大幅に優れていることを示す。
この観察に動機づけられて,前変化意味情報をバイタイム画像の隣の入力として使用する,条件変化検出*という新しいタスクを提案する。
余分な情報をフル活用するために、利用可能なセマンティック情報に基づいて特徴処理を可能にするマルチモーダル機能融合モジュールに基づく新しいアーキテクチャである*MapFormer*を提案する。
さらに、視覚表現の学習を導くために、教師付き横断的コントラスト損失を用いる。
提案手法は,DynamicEarthNet と HRSCD のバイナリ変更 IoU において,絶対 11.7 % と 18.4 % で既存の変化検出手法より優れている。
さらに,事前変更のセマンティック情報の品質に対するアプローチの頑健さと,事前変更画像の欠如を実証した。
コードはhttps://github.com/mxbh/mapformerで入手できる。 Change detection in remote sensing imagery is essential for a variety of applications such as urban planning, disaster management, and climate research. However, existing methods for identifying semantically changed areas overlook the availability of semantic information in the form of existing maps describing features of the earth's surface. In this paper, we leverage this information for change detection in bi-temporal images. We show that the simple integration of the additional information via concatenation of latent representations suffices to significantly outperform state-of-the-art change detection methods. Motivated by this observation, we propose the new task of *Conditional Change Detection*, where pre-change semantic information is used as input next to bi-temporal images. To fully exploit the extra information, we propose *MapFormer*, a novel architecture based on a multi-modal feature fusion module that allows for feature processing conditioned on the available semantic information. We further employ a supervised, cross-modal contrastive loss to guide the learning of visual representations. Our approach outperforms existing change detection methods by an absolute 11.7\% and 18.4\% in terms of binary change IoU on DynamicEarthNet and HRSCD, respectively. Furthermore, we demonstrate the robustness of our approach to the quality of the pre-change semantic information and the absence pre-change imagery. The code is available at https://github.com/mxbh/mapformer. | 翻訳日:2023-09-07 05:54:38 公開日:2023-09-04 |
# RAPID: 動的パブリッククラウド環境における高速オンラインポリシ学習の実現 RAPID: Enabling Fast Online Policy Learning in Dynamic Public Cloud Environments ( http://arxiv.org/abs/2304.04797v2 ) ライセンス: Link先を確認 | Drew Penney, Bin Li, Lizhong Chen, Jaroslaw J. Sydir, Anna Drewek-Ossowicka, Ramesh Illikkal, Charlie Tai, Ravi Iyer, Andrew Herdrich | (参考訳) 複数のワークロード間のリソース共有は、リソース利用の改善とオーナシップコストの削減という需要に動機付けられ、クラウドサービスプロバイダの間で顕著なプラクティスになっています。
しかしながら、リソース競合が、厳格なQuality of Service(QoS)要件を持つ高優先度でユーザ向きのワークロードに悪影響を及ぼすため、効果的なリソース共有は依然としてオープンな課題である。
最近のアプローチは有望な結果を示しているが、ワークロードが事前に知られておらず、短期間しか実行できないため、オフライン学習を禁止し、オンライン学習を著しく妨げているため、パブリッククラウド環境ではほとんど実用的ではない。
本稿では,高速かつ完全オンラインなリソース割り当てポリシー学習のための,動的環境下での新たなフレームワークであるRAPIDを提案する。
RAPIDは、サンプル効率とバイアス低減のためにドメイン知識にインスパイアされた技術によって実現された軽量QoS予測を活用し、従来のフィードバックソースから制御を分離し、前よりも桁違いの速度でポリシー学習を指導する。
代表的なクラウドワークロードを備えた実世界のサーバプラットフォームの評価では、前回の最先端の時間と比べて、rapidは数分で安定したリソース割り当てポリシーを学習できると同時に、qosを9.0倍改善し、ベストエフォートなワークロードのパフォーマンスを19-43%向上している。 Resource sharing between multiple workloads has become a prominent practice among cloud service providers, motivated by demand for improved resource utilization and reduced cost of ownership. Effective resource sharing, however, remains an open challenge due to the adverse effects that resource contention can have on high-priority, user-facing workloads with strict Quality of Service (QoS) requirements. Although recent approaches have demonstrated promising results, those works remain largely impractical in public cloud environments since workloads are not known in advance and may only run for a brief period, thus prohibiting offline learning and significantly hindering online learning. In this paper, we propose RAPID, a novel framework for fast, fully-online resource allocation policy learning in highly dynamic operating environments. RAPID leverages lightweight QoS predictions, enabled by domain-knowledge-inspired techniques for sample efficiency and bias reduction, to decouple control from conventional feedback sources and guide policy learning at a rate orders of magnitude faster than prior work. Evaluation on a real-world server platform with representative cloud workloads confirms that RAPID can learn stable resource allocation policies in minutes, as compared with hours in prior state-of-the-art, while improving QoS by 9.0x and increasing best-effort workload performance by 19-43%. | 翻訳日:2023-09-07 05:45:15 公開日:2023-09-04 |
# 事例 ニューラル放射場 Instance Neural Radiance Field ( http://arxiv.org/abs/2304.04395v3 ) ライセンス: Link先を確認 | Yichen Liu, Benran Hu, Junkai Huang, Yu-Wing Tai, Chi-Keung Tang | (参考訳) 本稿では,neural radiance field または instance nerf と呼ばれる,最初の学習ベースの3dインスタンスセグメンテーションパイプラインの1つを提案する。
マルチビューRGB画像から予めトレーニングされたNeRFを入力として、インスタンスNeRFは、NeRFモデルのインスタンスフィールドコンポーネントとして表される、与えられたシーンの3Dインスタンスセグメンテーションを学習することができる。
この目的のために,NeRFからサンプリングされたボリューム特徴に3次元提案に基づくマスク予測ネットワークを導入し,個別の3次元マスクを生成する。
次に、粗い3dマスク予測を画像空間に投影し、既存のpanopticセグメンテーションモデルによって生成された異なるビューからの2dセグメンテーションマスクとマッチングし、インスタンスフィールドのトレーニングを監督する。
特に、新しいビューから一貫した2Dセグメンテーションマップを生成するだけでなく、インスタンスNeRFは任意の3Dポイントでインスタンス情報をクエリすることができる。
また,本手法は,純粋な推論による結果を達成する最初の方法の1つである。
複雑な屋内シーンを持つ合成および実世界のNeRFデータセットで実験した結果、インスタンスNeRFは、それまでのNeRFセグメンテーション作業と、目に見えないビューでのセグメンテーションパフォーマンスにおける競合する2Dセグメンテーションメソッドを上回った。
デモビデオはhttps://youtu.be/wW9Bme73coI。
コードとデータはhttps://github.com/lyclyc52/instance_nerfで入手できる。 This paper presents one of the first learning-based NeRF 3D instance segmentation pipelines, dubbed as Instance Neural Radiance Field, or Instance NeRF. Taking a NeRF pretrained from multi-view RGB images as input, Instance NeRF can learn 3D instance segmentation of a given scene, represented as an instance field component of the NeRF model. To this end, we adopt a 3D proposal-based mask prediction network on the sampled volumetric features from NeRF, which generates discrete 3D instance masks. The coarse 3D mask prediction is then projected to image space to match 2D segmentation masks from different views generated by existing panoptic segmentation models, which are used to supervise the training of the instance field. Notably, beyond generating consistent 2D segmentation maps from novel views, Instance NeRF can query instance information at any 3D point, which greatly enhances NeRF object segmentation and manipulation. Our method is also one of the first to achieve such results in pure inference. Experimented on synthetic and real-world NeRF datasets with complex indoor scenes, Instance NeRF surpasses previous NeRF segmentation works and competitive 2D segmentation methods in segmentation performance on unseen views. Watch the demo video at https://youtu.be/wW9Bme73coI. Code and data are available at https://github.com/lyclyc52/Instance_NeRF. | 翻訳日:2023-09-07 05:44:50 公開日:2023-09-04 |
# テンソル-ネットワーク状態における対称性富化位相間の量子相転移 Quantum phase transition between symmetry enriched topological phases in tensor-network states ( http://arxiv.org/abs/2305.02432v2 ) ライセンス: Link先を確認 | Lukas Haller, Wen-Tao Xu, Yu-Jie Liu, Frank Pollmann | (参考訳) 異なる位相秩序相間の量子相転移はリッチな構造を示し、顕微鏡格子モデルで研究するのが一般的である。
本研究では,異なる対称性富化位相(SET)位相間のチューニングが可能なテンソルネットワーク可解モデルを提案する。
具体的には、基底状態が結合次元$D=3$と2つの可変パラメータを持つ2次元テンソルネットワーク状態として表現できる2次元トーリック符号モデルを考える。
時間反転(TR)対称系は3つの異なる位相を示す。
(i)SETトーリック符号相で、任意のオンがTRの下で非自明に変換される
二 TRが分別しないトーリック符号相及び
(iii)積状態と断続的に接続される位相的に自明な位相相。
トポロジ的絡み合いエントロピーと2つのSET位相を区別する膜秩序パラメータを用いて異なる位相を特徴付ける。
設定されたトーリック符号位相とトーリック符号位相の間の位相境界に沿って、モデルは拡張された$u(1)$対称性を持ち、基底状態は古典的$o(2)$モデルの分割関数と同値な二乗ノルムを持つ量子臨界ループガス波動関数である。
双対変換により、このテンソル-ネットワーク可解モデルは、2次元のSET双対相と$\mathbb{Z}_2\times\mathbb{Z}_2^T$対称性保護位相の間の遷移を記述するのにも使うことができる。 Quantum phase transitions between different topologically ordered phases exhibit rich structures and are generically challenging to study in microscopic lattice models. In this work, we propose a tensor-network solvable model that allows us to tune between different symmetry enriched topological (SET) phases. Concretely, we consider a decorated two-dimensional toric code model for which the ground state can be expressed as a two-dimensional tensor-network state with bond dimension $D=3$ and two tunable parameters. We find that the time-reversal (TR) symmetric system exhibits three distinct phases (i) an SET toric code phase in which anyons transform non-trivially under TR, (ii) a toric code phase in which TR does not fractionalize, and (iii) a topologically trivial phase that is adiabatically connected to a product state. We characterize the different phases using the topological entanglement entropy and a membrane order parameter that distinguishes the two SET phases. Along the phase boundary between the SET toric code phase and the toric code phase, the model has an enhanced $U(1)$ symmetry and the ground state is a quantum critical loop gas wavefunction whose squared norm is equivalent to the partition function of the classical $O(2)$ model. By duality transformations, this tensor-network solvable model can also be used to describe transitions between SET double-semion phases and between $\mathbb{Z}_2\times\mathbb{Z}_2^T$ symmetry protected topological phases in two dimensions. | 翻訳日:2023-09-07 05:36:06 公開日:2023-09-04 |
# ClusterNet: 散乱データに対する知覚ベースのクラスタリングモデル ClusterNet: A Perception-Based Clustering Model for Scattered Data ( http://arxiv.org/abs/2304.14185v2 ) ライセンス: Link先を確認 | Sebastian Hartwig, Christian van Onzenoodt, Pedro Hermosilla, Timo Ropinski | (参考訳) 散在データの可視化は、相関推定、異常検出、クラスタ分離など、さまざまなタスクを解決してデータの特定の属性を理解するために使用される。
本稿では,後者の課題に着目し,人間の知覚と整合する手法を考案し,散乱データ中の人間のクラスタリングをどのように知覚するかを理解し,より理解を深めるために最適化するかを検討する。
クラスタ分離は一般的に、k-meansやDBSCANといった広く使われているクラスタリング技術によって取り組まれるタスクである。
しかし,これらのアルゴリズムは非知覚的メトリクスに基づいており,人間のクラスタ認識を反映していないことを示す。
本稿では,分散データを直接操作する学習戦略を提案する。
このデータに対する知覚的クラスタ分離を学ぶために,384人のクラウドワーカーがラベル付けした2変量データに対する7,320個のポイントワイズクラスタアフィリエイションからなる大規模データセットをクラウドソースした。
このデータに基づいて、ポイントベースのディープラーニングモデルであるclusternetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練しました。
ヒトのアノテートデータ上でClusterNetをトレーニングするために、ポイントクラウドでの推論を可能にするPointNet++アーキテクチャを使用します。
本研究では、データセットの収集方法の詳細と、得られたアノテーションの統計を報告し、実世界のデータに対するクラスタ分離の知覚的一致について検討する。
さらに,クラスタネットの学習と評価プロトコルを報告し,クラスタリング手法と人間の注釈器群との精度を測定する新しい指標を提案する。
最後に、既存の最先端クラスタリング技術に対する我々のアプローチを比較し、ClusterNetがスコープデータの見当たらない領域に一般化できることを示します。 Visualizations for scattered data are used to make users understand certain attributes of their data by solving different tasks, e.g. correlation estimation, outlier detection, cluster separation. In this paper, we focus on the later task, and develop a technique that is aligned to human perception, that can be used to understand how human subjects perceive clusterings in scattered data and possibly optimize for better understanding. Cluster separation in scatterplots is a task that is typically tackled by widely used clustering techniques, such as for instance k-means or DBSCAN. However, as these algorithms are based on non-perceptual metrics, we can show in our experiments, that their output do not reflect human cluster perception. We propose a learning strategy which directly operates on scattered data. To learn perceptual cluster separation on this data, we crowdsourced a large scale dataset, consisting of 7,320 point-wise cluster affiliations for bivariate data, which has been labeled by 384 human crowd workers. Based on this data, we were able to train ClusterNet, a point-based deep learning model, trained to reflect human perception of cluster separability. In order to train ClusterNet on human annotated data, we use a PointNet++ architecture enabling inference on point clouds directly. In this work, we provide details on how we collected our dataset, report statistics of the resulting annotations, and investigate perceptual agreement of cluster separation for real-world data. We further report the training and evaluation protocol of ClusterNet and introduce a novel metric, that measures the accuracy between a clustering technique and a group of human annotators. Finally, we compare our approach against existing state-of-the-art clustering techniques and can show, that ClusterNet is able to generalize to unseen and out of scope data. | 翻訳日:2023-09-07 05:35:30 公開日:2023-09-04 |
# レイコンディショニング:マルチビュー画像生成におけるフォトリアリズムのトレーディングフォトコンディショナビリティ Ray Conditioning: Trading Photo-consistency for Photo-realism in Multi-view Image Generation ( http://arxiv.org/abs/2304.13681v2 ) ライセンス: Link先を確認 | Eric Ming Chen, Sidhanth Holalkere, Ruyu Yan, Kai Zhang, Abe Davis | (参考訳) マルチビュー画像生成は、画像視点編集など、将来性のある3D関連アプリケーションのために、近年特に注目を集めている。
既存の手法の多くは、3D表現が最初に合成され、2D画像に描画され、視点間の光一貫性を保証するパラダイムに従っている。
しかし、このようなフォトコンシステンシーに対する明らかなバイアスは、フォトリアリズムを犠牲にし、実際の画像の編集にこれらの方法を適用すると、幾何学的アーティファクトと細部の詳細が失われる。
この問題に対処するために,フォトコンシステンシー制約を緩和する幾何学フリーな選択肢であるレイコンディショニングを提案する。
本手法は,光フィールドに2D GANを条件付けることで,マルチビュー画像を生成する。
視点制御,最先端のフォトリアリズム,アイデンティティの整合性などにより,視点編集作業に特に適している。 Multi-view image generation attracts particular attention these days due to its promising 3D-related applications, e.g., image viewpoint editing. Most existing methods follow a paradigm where a 3D representation is first synthesized, and then rendered into 2D images to ensure photo-consistency across viewpoints. However, such explicit bias for photo-consistency sacrifices photo-realism, causing geometry artifacts and loss of fine-scale details when these methods are applied to edit real images. To address this issue, we propose ray conditioning, a geometry-free alternative that relaxes the photo-consistency constraint. Our method generates multi-view images by conditioning a 2D GAN on a light field prior. With explicit viewpoint control, state-of-the-art photo-realism and identity consistency, our method is particularly suited for the viewpoint editing task. | 翻訳日:2023-09-07 05:35:02 公開日:2023-09-04 |
# ICU外傷患者の早期発作発症予測のためのNPRL:夜間プロファイル表現学習 NPRL: Nightly Profile Representation Learning for Early Sepsis Onset Prediction in ICU Trauma Patients ( http://arxiv.org/abs/2304.12737v2 ) ライセンス: Link先を確認 | Tucker Stewart, Katherine Stern, Grant O'Keefe, Ankur Teredesai, Juhua Hu | (参考訳) セプシス(Sepsis)は、感染の有無に応じて発症する症候群である。
重篤な臓器機能障害を特徴とし、世界中の集中治療室(ICU)で死因の1つとなっている。
これらの合併症は抗生物質の早期投与によって軽減できるため、敗血症の発症を早期に予測する能力は患者の生存と幸福に不可欠である。
医療インフラ内に展開されている現在の機械学習アルゴリズムは、パフォーマンスが悪く、早期の敗血症を予測できない。
近年では、深層学習の手法がセプシスを予測するために提案されているが、発症時期(例えば、患者の全訪問をセプシスの発症と分類するなど)を把握できないものや、医療施設(例えば、発症時期をアプリオリと呼ぶ必要があるような固定時間を用いてトレーニングインスタンスを作成するなど)に展開することができないものもある。
そこで本研究では,夜間に収集した最新のデータをもとに,毎朝24時間以内に敗血症発症を予測できる新しい現実的な予測フレームワークを提案する。
しかし, 予測率を日次に引き上げるにつれ, 負のインスタンス数が増加する一方, 正のインスタンスのインスタンス数は同じである。
その後,重度のクラス不均衡が問題となり,稀な敗血症症例の把握が困難となった。
この問題に対処するため,各患者に対して夜間プロファイル表現学習(NPRL)を提案する。
nprlが理論的にレアイベント問題を緩和できることを証明します。
レベル1トラウマセンターのデータを用いた実証研究により,提案手法の有効性がさらに示された。 Sepsis is a syndrome that develops in response to the presence of infection. It is characterized by severe organ dysfunction and is one of the leading causes of mortality in Intensive Care Units (ICUs) worldwide. These complications can be reduced through early application of antibiotics, hence the ability to anticipate the onset of sepsis early is crucial to the survival and well-being of patients. Current machine learning algorithms deployed inside medical infrastructures have demonstrated poor performance and are insufficient for anticipating sepsis onset early. In recent years, deep learning methodologies have been proposed to predict sepsis, but some fail to capture the time of onset (e.g., classifying patients' entire visits as developing sepsis or not) and others are unrealistic to be deployed into medical facilities (e.g., creating training instances using a fixed time to onset where the time of onset needs to be known apriori). Therefore, in this paper, we first propose a novel but realistic prediction framework that predicts each morning whether sepsis onset will occur within the next 24 hours with the help of most recent data collected at night, when patient-provider ratios are higher due to cross-coverage resulting in limited observation to each patient. However, as we increase the prediction rate into daily, the number of negative instances will increase while that of positive ones remain the same. Thereafter, we have a severe class imbalance problem, making a machine learning model hard to capture rare sepsis cases. To address this problem, we propose to do nightly profile representation learning (NPRL) for each patient. We prove that NPRL can theoretically alleviate the rare event problem. Our empirical study using data from a level-1 trauma center further demonstrates the effectiveness of our proposal. | 翻訳日:2023-09-07 05:34:45 公開日:2023-09-04 |
# ChatGPTを活用した労働市場の将来 : 予備研究 The Future of ChatGPT-enabled Labor Market: A Preliminary Study ( http://arxiv.org/abs/2304.09823v3 ) ライセンス: Link先を確認 | Lan Chen, Xi Chen, Shiyu Wu, Yaqi Yang, Meng Chang, Hengshu Zhu | (参考訳) 驚くべき大きな言語モデルとして、chatgptは様々な現実世界のタスクで並行して成功し、日々の生活や仕事においてますます重要な役割を演じています。
しかし、倫理的な問題、特にChatGPTのような人工知能(AGI)が人間の仕事を置き換えるかどうかについても、大きな懸念が持ち上がっている。
そこで,本稿では,人間-AIコンファレンスではなく,人間-AI共生の観点から,ChatGPTを活用した労働市場の将来に関する予備的なデータ駆動研究を紹介する。
具体的には、中国最大のオンラインリクルートプラットフォームであるboss zhipinで、大規模求人データの詳細な分析をまず実施する。
その結果、現在の労働市場の職業の約28%はChatGPT関連のスキルを必要とすることがわかった。
さらに,大規模職業中心知識グラフに基づいて,労働市場における職業スキル関係を予測するための意味情報強化協調フィルタリングアルゴリズムを開発した。
その結果,今後45%の職業がchatgpt関連のスキルを必要とすることがわかった。
特に、技術、製品、オペレーションに関連する産業は、ChatGPT関連のスキルに対して高い熟練度を要求され、一方、製造、サービス、教育、健康科学関連産業は、ChatGPT関連スキルに対してより低い熟練度を要求される。 As a phenomenal large language model, ChatGPT has achieved unparalleled success in various real-world tasks and increasingly plays an important role in our daily lives and work. However, extensive concerns are also raised about the potential ethical issues, especially about whether ChatGPT-like artificial general intelligence (AGI) will replace human jobs. To this end, in this paper, we introduce a preliminary data-driven study on the future of ChatGPT-enabled labor market from the view of Human-AI Symbiosis instead of Human-AI Confrontation. To be specific, we first conduct an in-depth analysis of large-scale job posting data in BOSS Zhipin, the largest online recruitment platform in China. The results indicate that about 28% of occupations in the current labor market require ChatGPT-related skills. Furthermore, based on a large-scale occupation-centered knowledge graph, we develop a semantic information enhanced collaborative filtering algorithm to predict the future occupation-skill relations in the labor market. As a result, we find that additional 45% occupations in the future will require ChatGPT-related skills. In particular, industries related to technology, products, and operations are expected to have higher proficiency requirements for ChatGPT-related skills, while the manufacturing, services, education, and health science related industries will have lower requirements for ChatGPT-related skills. | 翻訳日:2023-09-07 05:33:18 公開日:2023-09-04 |
# qubit-plasmon-phonon超強結合系からの仮想光子とフォノン対の放出 Release of virtual photon and phonon pairs from qubit-plasmon-phonon ultrastrong coupling system ( http://arxiv.org/abs/2304.08704v2 ) ライセンス: Link先を確認 | Ting-ting Ma, Yu-qiang Liu and Chang-shui Yu | (参考訳) 超強結合と非超強結合の最も重要な違いは、基底状態が励起を含むことである。
クビットプラズモン-フォノン超強結合系 (USC) は光子とフォノンに結合した3レベル原子を上2つのエネルギー準位で結合し, 中間状態から基底状態までの原子の自然放出がフォトンとフォノン対を生成することを示す。
その結果、現在の系は強い光子/フォノンの流れを生じさせ、原子-フォノンカップリングがアクティブな役割を果たすことが示され、実験的な検出が保証される。
放射スペクトルと様々な高次相関関数は、光子とフォノンの対の生成を確認する。
本研究は,usc体制下における仮想光子とフォノン対の生成に関する今後の研究に重要な意味を持つ。 The most important difference between ultrastrong and non-ultrastrong coupling regimes is that the ground state contains excitations. We consider a qubit-plasmon-phonon ultrastrong coupling (USC) system with a three-level atom coupled to the photon and phonon via its upper two energy levels and show that spontaneous emission of the atom from its intermediate to its ground state produces photon and phonon pairs. It is shown that the current system can produce a strong photon/phonon stream and the atom-phonon coupling plays the active role, which ensures the experimental detection. The emission spectrum and various high-order correlation functions confirm the generation of the pairs of photons and phonons. Our study has important implications for future research on virtual photon and phonon pairs creation in the ground state of the USC regime. | 翻訳日:2023-09-07 05:32:56 公開日:2023-09-04 |
# マテリアルワールドに生きる: セマンティクスセグメンテーションのためのフルウェーブフォームフラッシュlidarデータからの教材特性の学習 Living in a Material World: Learning Material Properties from Full-Waveform Flash Lidar Data for Semantic Segmentation ( http://arxiv.org/abs/2305.04334v2 ) ライセンス: Link先を確認 | Andrej Janda, Pierre Merriaux, Pierre Olivier, Jonathan Kelly | (参考訳) ライダー技術の進歩により、3Dポイントクラウドの収集が迅速かつ容易になった。
ほとんどのライダーセンサーは距離測定とともにポイント毎の強度(または反射率)の値を返すが、フラッシュライダーセンサーは帰還パルスの形状に関する情報を提供することができる。
戻り波形の形状は、光パルスが移動する距離や表面への入射角度など、多くの要因に影響される。
重要なことに、戻り波形の形状は反射面の材料特性にも依存する。
本稿では,材料の種類やクラスが全波形応答から決定できるかどうかを検討する。
まず,概念実証として,意味的セグメンテーションなどのシーン理解タスクにおいて,材料クラスに関する余分な情報が正確に分かっている場合,性能を向上できることを実証する。
次に、ランダム森林分類器と時間畳み込みニューラルネットワーク分類器の2つの異なるフルウェーブフォーム材料分類器を学習する。
場合によっては、材料の種類を区別することができ、tcnはより広い範囲の材料で一般的により良く機能する。
しかし、入射角、材料色、材料類似性などの要因は全体的な性能を阻害する可能性がある。 Advances in lidar technology have made the collection of 3D point clouds fast and easy. While most lidar sensors return per-point intensity (or reflectance) values along with range measurements, flash lidar sensors are able to provide information about the shape of the return pulse. The shape of the return waveform is affected by many factors, including the distance that the light pulse travels and the angle of incidence with a surface. Importantly, the shape of the return waveform also depends on the material properties of the reflecting surface. In this paper, we investigate whether the material type or class can be determined from the full-waveform response. First, as a proof of concept, we demonstrate that the extra information about material class, if known accurately, can improve performance on scene understanding tasks such as semantic segmentation. Next, we learn two different full-waveform material classifiers: a random forest classifier and a temporal convolutional neural network (TCN) classifier. We find that, in some cases, material types can be distinguished, and that the TCN generally performs better across a wider range of materials. However, factors such as angle of incidence, material colour, and material similarity may hinder overall performance. | 翻訳日:2023-09-07 05:25:08 公開日:2023-09-04 |
# Bi-Mapper: 自律運転のためのホロスティックなBEVセマンティックマッピング Bi-Mapper: Holistic BEV Semantic Mapping for Autonomous Driving ( http://arxiv.org/abs/2305.04205v2 ) ライセンス: Link先を確認 | Siyu Li, Kailun Yang, Hao Shi, Jiaming Zhang, Jiacheng Lin, Zhifeng Teng, Zhiyong Li | (参考訳) 基本道路要素をカバーする道路シーンのセマンティックマップは、自動運転システムにおいて重要な要素である。
これはバードズ・アイ・ビュー (bev) でレンダリングされた時の位置決めと計画のための重要な知覚基盤を提供する。
現在、仮説深度に関する事前の知識は、キャリブレーションパラメータの助けを借りて、正面視像を直接BEVに翻訳する学習を導くことができる。
しかし、遠方の物体の表現における幾何学的歪みに苦しむ。
さらに、事前知識のない別の手法のストリームは、グローバルな視点でフロントビューとBEVの間の変換を暗黙的に学習することができる。
異なる学習方法の融合が驚くべき効果をもたらすことを考慮し,グローバル視点と局所事前知識を組み込んだ,トップダウン・ロード・シーン意味理解のためのバイマッパーフレームワークを提案する。
相互通信の信頼性を高めるため,非同期相互学習戦略を提案する。
同時に、ASL(Across-Space Loss)は幾何学的歪みの負の影響を軽減するように設計されている。
nuScenesとCam2BEVデータセットの広範な結果は、提案したBi-Mapperフレームワークにおける各モジュールの一貫性のある有効性を検証する。
道路マッピングネットワークと比較して、提案したBi-MapperはnuScenesデータセット上で2.1%高いIoUを達成する。
さらに,実世界の運転シナリオにおけるBi-Mapperの一般化性能を検証する。
コードはhttps://github.com/lynn-yu/Bi-Mapper.comから入手できる。 A semantic map of the road scene, covering fundamental road elements, is an essential ingredient in autonomous driving systems. It provides important perception foundations for positioning and planning when rendered in the Bird's-Eye-View (BEV). Currently, the prior knowledge of hypothetical depth can guide the learning of translating front perspective views into BEV directly with the help of calibration parameters. However, it suffers from geometric distortions in the representation of distant objects. In addition, another stream of methods without prior knowledge can learn the transformation between front perspective views and BEV implicitly with a global view. Considering that the fusion of different learning methods may bring surprising beneficial effects, we propose a Bi-Mapper framework for top-down road-scene semantic understanding, which incorporates a global view and local prior knowledge. To enhance reliable interaction between them, an asynchronous mutual learning strategy is proposed. At the same time, an Across-Space Loss (ASL) is designed to mitigate the negative impact of geometric distortions. Extensive results on nuScenes and Cam2BEV datasets verify the consistent effectiveness of each module in the proposed Bi-Mapper framework. Compared with exiting road mapping networks, the proposed Bi-Mapper achieves 2.1% higher IoU on the nuScenes dataset. Moreover, we verify the generalization performance of Bi-Mapper in a real-world driving scenario. Code will be available at https://github.com/lynn-yu/Bi-Mapper. | 翻訳日:2023-09-07 05:24:46 公開日:2023-09-04 |
# aUToLights:ロバストなマルチカメラ交通光検出・追跡システム aUToLights: A Robust Multi-Camera Traffic Light Detection and Tracking System ( http://arxiv.org/abs/2305.08673v2 ) ライセンス: Link先を確認 | Sean Wu and Nicole Amenta and Jiachen Zhou and Sandro Papais and Jonathan Kelly | (参考訳) SAEオートドライブチャレンジシリーズIでの4年間の成功に続いて、トロント大学は2025年までに様々な都市交通シナリオを扱えるレベル4の自動運転旅客車を開発するシリーズIIコンペティションに参加している。
交通信号の正確な検出とその状態の正確な識別は、都市における安全な自律運転に不可欠である。
ここでは、トロント大学の自動運転車であるartemisのような自動運転車のための、最近再設計された交通光認識システムについて述べる。
ほとんどの交通光センシングシステムと同様に、私たちは主にカメラベースの物体検出器に依存しています。
複数のカメラにまたがってボックスレグレッションとトラフィック光の分類を行うためのYOLOv5検出器をデプロイし、観測結果を融合する。
頑健性を改善するため,高精細なセマンティックマップから先行情報を取り込み,隠れマルコフモデルを用いて状態フィルタリングを行う。
複数の可視交差点、交通光の変動、一時的な閉塞、点滅光状態を含む複雑な状況を処理するマルチカメラでリアルタイムな交通光認識パイプラインを実証する。
本システムを検証するために, 点滅状態と様々な閉塞型を含む様々なデータセットを収集, 注釈付けした。
実世界のシナリオにおいて,単一フレーム,単一カメラオブジェクト検出と比較して,より優れた性能を示す。 Following four successful years in the SAE AutoDrive Challenge Series I, the University of Toronto is participating in the Series II competition to develop a Level 4 autonomous passenger vehicle capable of handling various urban driving scenarios by 2025. Accurate detection of traffic lights and correct identification of their states is essential for safe autonomous operation in cities. Herein, we describe our recently-redesigned traffic light perception system for autonomous vehicles like the University of Toronto's self-driving car, Artemis. Similar to most traffic light perception systems, we rely primarily on camera-based object detectors. We deploy the YOLOv5 detector for bounding box regression and traffic light classification across multiple cameras and fuse the observations. To improve robustness, we incorporate priors from high-definition semantic maps and perform state filtering using hidden Markov models. We demonstrate a multi-camera, real time-capable traffic light perception pipeline that handles complex situations including multiple visible intersections, traffic light variations, temporary occlusion, and flashing light states. To validate our system, we collected and annotated a varied dataset incorporating flashing states and a range of occlusion types. Our results show superior performance in challenging real-world scenarios compared to single-frame, single-camera object detection. | 翻訳日:2023-09-07 05:14:14 公開日:2023-09-04 |
# rl + model-based control: オンデマンド最適制御を用いた多目的歩行学習 RL + Model-based Control: Using On-demand Optimal Control to Learn Versatile Legged Locomotion ( http://arxiv.org/abs/2305.17842v3 ) ライセンス: Link先を確認 | Dongho Kang, Jin Cheng, Miguel Zamora, Fatemeh Zargarbashi, Stelian Coros | (参考訳) 本稿では,モデルベース最適制御と強化学習(rl)を組み合わせた多目的かつロコモーションを実現するための制御フレームワークを提案する。
提案手法は,有限水平最適制御により発生するオンデマンド参照運動を取り入れ,幅広い速度と歩行をカバーし,RLトレーニングプロセスを強化する。
これらの参照動作は、RLポリシーを模倣するターゲットとして機能し、信頼性で学習できる堅牢な制御ポリシーの開発につながる。
さらに、全身ダイナミクスをキャプチャする現実的なシミュレーションデータを利用することで、rlはモデリング単純化によって課される参照動作の固有の制限を効果的に克服する。
我々は,RLトレーニングプロセスの堅牢性と制御性について,一連の実験を通じて検証する。
これらの実験では、RLの柔軟性により、参照運動を一般化し、より複雑な移動タスクを効果的に処理できる能力を示した。
さらに,報奨機能やハイパーパラメータにおけるロボット特有の調整の必要性をなくし,多様な次元のロボットの制御ポリシーのトレーニングを無力にサポートする。 This paper presents a control framework that combines model-based optimal control and reinforcement learning (RL) to achieve versatile and robust legged locomotion. Our approach enhances the RL training process by incorporating on-demand reference motions generated through finite-horizon optimal control, covering a broad range of velocities and gaits. These reference motions serve as targets for the RL policy to imitate, leading to the development of robust control policies that can be learned with reliability. Furthermore, by utilizing realistic simulation data that captures whole-body dynamics, RL effectively overcomes the inherent limitations in reference motions imposed by modeling simplifications. We validate the robustness and controllability of the RL training process within our framework through a series of experiments. In these experiments, our method showcases its capability to generalize reference motions and effectively handle more complex locomotion tasks that may pose challenges for the simplified model, thanks to RL's flexibility. Additionally, our framework effortlessly supports the training of control policies for robots with diverse dimensions, eliminating the necessity for robot-specific adjustments in the reward function and hyperparameters. | 翻訳日:2023-09-07 05:07:48 公開日:2023-09-04 |
# ノイズ量子電池の量子ワーク抽出効率:コヒーレンスの役割 Quantum work extraction efficiency for noisy quantum batteries: the role of coherence ( http://arxiv.org/abs/2305.16803v3 ) ライセンス: Link先を確認 | Salvatore Tirone, Raffaele Salvia, Stefano Chessa and Vittorio Giovannetti | (参考訳) 量子ワーク容量と最大漸近的作業/エネルギー比は、量子システムの集合によって形成された量子電池におけるワーク抽出プロセスの雑音に対するロバスト性を示す。
本稿では,これらの関数間の直接的接続を確立し,その結果を生かして,自己放出,熱分解,消音効果を模倣した様々なノイズモデルの解析を行う。
この文脈では、入力量子コヒーレンスがノイズ量子電池の記憶性能を大幅に向上させ、最大出力エルゴトロピーが利用可能な最大入力エネルギーによって常に達成されるとは限らないことを示す。 Quantum work capacitances and maximal asymptotic work/energy ratios are figures of merit characterizing the robustness against noise of work extraction processes in quantum batteries formed by collections of quantum systems. In this paper we establish a direct connection between these functionals and, exploiting this result, we analyze different types of noise models mimicking self-discharging, thermalization and dephasing effects. In this context we show that input quantum coherence can significantly improve the storage performance of noisy quantum batteries and that the maximum output ergotropy is not always achieved by the maximum available input energy. | 翻訳日:2023-09-07 05:06:24 公開日:2023-09-04 |
# カダノフ・バイム方程式の時間的非局所成分に対する記憶の重要さについて On the unimportance of memory for the time non-local components of the Kadanoff-Baym equations ( http://arxiv.org/abs/2306.06225v2 ) ライセンス: Link先を確認 | Cian C. Reeves, Yuanran Zhu, Chao Yang, Vojtech Vlcek | (参考訳) 一般化されたカダノフ・ベイム・アンサッツ (gkba) はカダノフ・ベイム方程式 (kbe) の近似であり、グリーン関数に不等式で寄与する特定の記憶効果を無視する。
ここでは,KBE と GKBA が適切である条件下で GKBA を導出する場合に無視される量の実用的意義を示すための議論と数値的な結果を示す。
我々は、無視された項にスケーリングを束縛する数学的証明を提供し、さらにこれらの項が GKBA に保持されている用語と比較して典型的に小さいことを補強する。
我々は、異なるシステムサイズや充填率を含む様々なモデルで計算を行い、実験的な非平衡励起を行う。
GKBAとKBEはどちらも、中等度で強い相互作用を持つ相互作用系の力学をうまく捉えている。
我々は、GKBA近似で無視された項を明示的に計算し、ここで検証されたシナリオでは、それらが説明される項よりも桁違いに小さいことを示し、すなわち、完全なカダノフ・バイム方程式に含まれるときのみ小さな補正を与える。 The generalized Kadanoff-Baym ansatz (GKBA) is an approximation to the Kadanoff-Baym equations (KBE), that neglects certain memory effects that contribute to the Green's function at non-equal times. Here we present arguments and numerical results to demonstrate the practical insignificance of the quantities neglected when deriving the GKBA at conditions at which KBE and GKBA are appropriate. We provide a mathematical proof that places a scaling bound on the neglected terms, further reinforcing that these terms are typically small in comparison to terms that are kept in the GKBA. We perform calculations in a range of models, including different system sizes and filling fractions, as well as experimentally relevant non-equilibrium excitations. We find that both the GKBA and KBE capture the dynamics of interacting systems with moderate and even strong interactions well. We explicitly compute terms neglected in the GKBA approximation and show, in the scenarios tested here, that they are orders of magnitude smaller than the terms that are accounted for, i.e., they offer only a small correction when included in the full Kadanoff-Baym equations. | 翻訳日:2023-09-07 04:57:06 公開日:2023-09-04 |
# 任意耐故障グラフ状態コンパイル用基板スケジューリング器 A Substrate Scheduler for Compiling Arbitrary Fault-tolerant Graph States ( http://arxiv.org/abs/2306.03758v2 ) ライセンス: Link先を確認 | Sitong Liu, Naphan Benchasattabuse, Darcy QC Morgan, Michal Hajdu\v{s}ek, Simon J. Devitt and Rodney Van Meter | (参考訳) グラフ状態は量子コンピューティング、特に測定に基づく量子計算モデルにおいて有用な計算資源である。
しかし、フォールトトレラントなサーフェスコード実行のために任意のグラフ状態を実行可能な形式にコンパイルし、コンパイルコストと実行時のリソースコストを正確に推定することは未解決の問題である。
我々は,フォールトトレラントグラフ状態コンパイル用に設計されたコンパイラモジュールである基板スケジューラを紹介する。
基板スケジューラは、グラフ状態を生成する時空間ボリュームコストを最小化することを目的としている。
基板スケジューラは"a game of surface codes"形式のパッチベースサーフェスコードシステムにおいて,数千の頂点を持つグラフ状態を効率的にコンパイルできることを示す。
以上の結果から,我々のモジュールは今までで最低実行時間でグラフ状態を生成し,頂点数において線形以下であるグラフ状態生成時間複雑性を実現し,一定の生成時間複雑性を持つグラフの種類を示す。
さらに、幅広い後古典的量子コンピューティングアプリケーションに対応するのに必要な数百万から数十億という、より多くの頂点を処理するコンパイラを開発するための確かな基盤を提供する。 Graph states are useful computational resources in quantum computing, particularly in measurement-based quantum computing models. However, compiling arbitrary graph states into executable form for fault-tolerant surface code execution and accurately estimating the compilation cost and the run-time resource cost remains an open problem. We introduce the Substrate Scheduler, a compiler module designed for fault-tolerant graph state compilation. The Substrate Scheduler aims to minimize the space-time volume cost of generating graph states. We show that Substrate Scheduler can efficiently compile graph states with thousands of vertices for "A Game of Surface Codes"-style patch-based surface code systems. Our results show that our module generates graph states with the lowest execution time complexity to date, achieving graph state generation time complexity that is at or below linear in the number of vertices and demonstrating specific types of graphs to have constant generation time complexity. Moreover, it provides a solid foundation for developing compilers that can handle a larger number of vertices, up to the millions or billions needed to accommodate a wide range of post-classical quantum computing applications. | 翻訳日:2023-09-07 04:56:14 公開日:2023-09-04 |
# 一般化可能な新しい視点合成のための調整可能な視覚外観 Adjustable Visual Appearance for Generalizable Novel View Synthesis ( http://arxiv.org/abs/2306.01344v2 ) ライセンス: Link先を確認 | Josef Bengtson, David Nilsson, Che-Tsung Lin, Marcel B\"usching and Fredrik Kahl | (参考訳) 対象の気象条件や照明条件に適合するレンダリングビューの視覚的外観をシーン固有のトレーニングなしに修正できる汎用的な新規ビュー合成法を提案する。
本手法は, 一般化されたトランスフォーマーアーキテクチャに基づき, 異なる外観条件下で合成生成シーンを訓練する。
これにより、トレーニングセットに含まれていない3Dシーンに対して、新しいビューを一貫した方法でレンダリングすることができる。
(i)その外観を目標条件に合わせるように変更し、
(ii)異なる条件間をスムーズに補間する。
実写シーンと合成シーンでの実験では,映像に2Dスタイルの転送手法を適用した定性的,定量的な比較など,現実的な外観変化をしながら3次元一貫したレンダリングを生成できることが示されている。
ビデオの結果については、プロジェクトページを参照してください。 We present a generalizable novel view synthesis method where it is possible to modify the visual appearance of rendered views to match a target weather or lighting condition without any scene specific training. Our method is based on a generalizable transformer architecture and is trained on synthetically generated scenes under different appearance conditions. This allows for rendering novel views in a consistent manner for 3D scenes that were not included in the training set, along with the ability to (i) modify their appearance to match the target condition and (ii) smoothly interpolate between different conditions. Experiments on real and synthetic scenes show that our method is able to generate 3D consistent renderings while making realistic appearance changes, including qualitative and quantitative comparisons with applying 2D style transfer methods on rendered views. Please refer to our project page for video results: https://ava-nvs.github.io/ | 翻訳日:2023-09-07 04:55:58 公開日:2023-09-04 |
# ヨルダン非エルミート皮膚効果と魔法の和によるランダム回路の平均純度変化のファントム緩和速度 Phantom relaxation rate of the average purity evolution in random circuits due to Jordan non-Hermitian skin effect and magic sums ( http://arxiv.org/abs/2306.07876v2 ) ライセンス: Link先を確認 | Marko Znidaric | (参考訳) ファントム緩和(Phantom relaxation)とは、有限のスペクトルギャップによって与えられない速度で緩和することである。
階段のランダムハール回路における平均純度ダイナミクスとマルコフの進化を記述した非対称行列のスペクトル分解について検討し、それが通常のスペクトルからどのように生じるかを説明する。
重要なのは、全ユニタリ進化の下での平均純度ダイナミクスを記述する行列における非エルミート皮膚効果によって熱力学的限界に分岐する交互膨張係数である。
神秘的なファントム緩和は、ジョルダン正規形式核を記述する局所一般化固有ベクトルから現れ、独立に、局所化された真の固有ベクトルによる興味深い三角和から生じる。
これらの全ては、非エルミート行列を扱うとき、スペクトルが関連する対象ではない、むしろ擬スペクトルである、あるいは、局所化された固有ベクトルによって可能となる繊細なキャンセルであることを示す。 Phantom relaxation is relaxation with a rate that is not given by a finite spectral gap. Studying the average purity dynamics in a staircase random Haar circuit and the spectral decomposition of a non-symmetric matrix describing the underlying Markovian evolution, we explain how that can arise out of an ordinary-looking spectrum. Crucial are alternating expansion coefficients that diverge in the thermodynamic limit due to the non-Hermitian skin effect in the matrix describing the average purity dynamics under an overall unitary evolution. The mysterious phantom relaxation emerges out of localized generalized eigenvectors describing the Jordan normal form kernel, and, independently, also out of interesting trigonometric sums due to localized true eigenvectors. All this shows that when dealing with non-Hermitian matrices it can happen that the spectrum is not the relevant object; rather, it is the pseudospectrum, or, equivalently, a delicate cancellation enabled by localized eigenvectors. | 翻訳日:2023-09-07 04:46:26 公開日:2023-09-04 |
# SAMのロバスト性: 破壊とそれ以上のセグメンテーション Robustness of SAM: Segment Anything Under Corruptions and Beyond ( http://arxiv.org/abs/2306.07713v3 ) ライセンス: Link先を確認 | Yu Qiao, Chaoning Zhang, Taegoo Kang, Donghun Kim, Chenshuang Zhang, Choong Seon Hong | (参考訳) Segment Any Model (SAM) は、名前が示すように、任意のオブジェクトをカットアウトでき、プロンプトの誘導によって、印象的なゼロショット転送性能を示す。
しかし、現在では様々な汚職下での堅牢性に関する総合的な評価が欠如している。
さまざまな汚職シナリオにおけるSAMの堅牢性を理解することは、現実世界のデプロイメントに不可欠である。
以前の研究では、SAMは形状よりもテクスチャ(スタイル)に偏っていることが示されており、その動機は、合成汚職であるスタイル転送に対する堅牢性の調査から始まる。
本研究は, 合成汚損の影響をスタイル変化として解釈し, 15種類の共通汚損に対する強靭性を総合的に評価する。
これらの汚職は、主にデジタル、ノイズ、天気、ぼやけなどのカテゴリに分類され、各汚職カテゴリーでは、現実世界の汚職シナリオをシミュレートする5つの深刻度レベルを探索する。
汚職以外では,SAMの局所閉塞性および局所敵パッチ攻撃に対する堅牢性をさらに評価した。
我々の知る限り、我々の研究はSAMのスタイル変更、局所閉塞、および局所的敵パッチアタックによる堅牢性を評価するための最初の試みである。
人間の目に見えるパッチアタックは容易に検出できるので、人間の目では認識できない世界的敵攻撃に対するロバスト性をさらに評価する。
全体として、この研究はsamの堅牢性に関する包括的な実証的研究を提供し、様々な腐敗下でのパフォーマンスを評価し、局所的な閉塞、局所的な敵パッチ攻撃、グローバルな敵対的攻撃といった重要な側面に評価を拡張している。
これらの評価は、現実世界の課題に対処するためのSAMの実用性と有効性に関する貴重な洞察を与える。 Segment anything model (SAM), as the name suggests, is claimed to be capable of cutting out any object and demonstrates impressive zero-shot transfer performance with the guidance of prompts. However, there is currently a lack of comprehensive evaluation regarding its robustness under various corruptions. Understanding the robustness of SAM across different corruption scenarios is crucial for its real-world deployment. Prior works show that SAM is biased towards texture (style) rather than shape, motivated by which we start by investigating its robustness against style transfer, which is synthetic corruption. Following by interpreting the effects of synthetic corruption as style changes, we proceed to conduct a comprehensive evaluation for its robustness against 15 types of common corruption. These corruptions mainly fall into categories such as digital, noise, weather, and blur, and within each corruption category, we explore 5 severity levels to simulate real-world corruption scenarios. Beyond the corruptions, we further assess the robustness of SAM against local occlusion and local adversarial patch attacks. To the best of our knowledge, our work is the first of its kind to evaluate the robustness of SAM under style change, local occlusion, and local adversarial patch attacks. Given that patch attacks visible to human eyes are easily detectable, we further assess its robustness against global adversarial attacks that are imperceptible to human eyes. Overall, this work provides a comprehensive empirical study of the robustness of SAM, evaluating its performance under various corruptions and extending the assessment to critical aspects such as local occlusion, local adversarial patch attacks, and global adversarial attacks. These evaluations yield valuable insights into the practical applicability and effectiveness of SAM in addressing real-world challenges. | 翻訳日:2023-09-07 04:46:08 公開日:2023-09-04 |
# 外乱検出のためのカーネルランダム投影深さ Kernel Random Projection Depth for Outlier Detection ( http://arxiv.org/abs/2306.07056v3 ) ライセンス: Link先を確認 | Akira Tamamori | (参考訳) 本稿では,データクラウド上の複数のモダリティと非凸性に対処するために,ランダム射影深さ(rpd)の拡張を提案する。
提案手法の枠組みでは、RCDは再生カーネルヒルベルト空間で計算される。
カーネル主成分分析の助けを借りて,提案手法が上記の多重様相と非凸性に対応することを期待する。
実験結果は,提案手法がrdpよりも優れており,受信機動作特性(roc)の曲線下領域(aucs)に関するベンチマークデータセットの既存の検出モデルと同等であることを示す。 This paper proposes an extension of Random Projection Depth (RPD) to cope with multiple modalities and non-convexity on data clouds. In the framework of the proposed method, the RPD is computed in a reproducing kernel Hilbert space. With the help of kernel principal component analysis, we expect that the proposed method can cope with the above multiple modalities and non-convexity. The experimental results demonstrate that the proposed method outperforms RPD and is comparable to other existing detection models on benchmark datasets regarding Area Under the Curves (AUCs) of Receiver Operating Characteristic (ROC). | 翻訳日:2023-09-07 04:45:37 公開日:2023-09-04 |
# MeciFace: 顔・食活動のエッジリアルタイム認識のためのメカノノグラフィと慣性核融合ガラス MeciFace: Mechanomyography and Inertial Fusion based Glasses for Edge Real-Time Recognition of Facial and Eating Activities ( http://arxiv.org/abs/2306.13674v2 ) ライセンス: Link先を確認 | Hymalai Bello, Sungho Suh, Bo Zhou and Paul Lukowicz | (参考訳) ストレス関連食行動の頻度の増加と健康への影響は、効果的なモニタリングシステムの重要性を強調している。
本稿では,リアルタイム・オン・ザ・エッジ(RTE)における表情・食事活動の監視を目的とした,革新的なウェアラブル技術であるMeciFaceを提案する。
mecifaceは、健康的な食事行動やストレス管理を促進するための、低消費電力、プライバシー意識、高精度なツールを提供することを目的としている。
顔の表情と食事のモニタリングシナリオのバックボーンモデルとして,軽量畳み込みニューラルネットワークを採用している。
MeciFaceシステムは11KBから19KBまでのメモリフットプリントで効率的なデータ処理を実現する。
RTE評価において, 表情認識ではF1スコアが86%, 食事や飲酒のモニタリングでは90%, 目に見えないユーザのRTEでもF1スコアが得られた。 The increasing prevalence of stress-related eating behaviors and their impact on overall health highlights the importance of effective monitoring systems. In this paper, we present MeciFace, an innovative wearable technology designed to monitor facial expressions and eating activities in real-time on-the-edge (RTE). MeciFace aims to provide a low-power, privacy-conscious, and highly accurate tool for promoting healthy eating behaviors and stress management. We employ lightweight convolutional neural networks as backbone models for facial expression and eating monitoring scenarios. The MeciFace system ensures efficient data processing with a tiny memory footprint, ranging from 11KB to 19KB. During RTE evaluation, the system achieves impressive performance, yielding an F1-score of < 86% for facial expression recognition and 90% for eating/drinking monitoring, even for the RTE of an unseen user. | 翻訳日:2023-09-07 04:37:01 公開日:2023-09-04 |
# 実世界の生画像からの効率的なHDR再構成 Efficient HDR Reconstruction From Real-World Raw Images ( http://arxiv.org/abs/2306.10311v3 ) ライセンス: Link先を確認 | Qirui Yang, Yihao Liu, Qihua Chen and Jingyu Yang | (参考訳) 高ダイナミックレンジ(HDR)イメージングは、一般的な画像センサのダイナミックレンジが限られているため、重大な課題である。
既存の学習ベースのHDR再構成手法の多くは、ダイナミックレンジを拡張するために、ブラケット付き露光sRGB画像のセットを用いる。
しかし、異なる露光で一組のsRGB画像を処理する際に、ISP(Image Signal Processors)の計算とメモリの非効率性を見落としている。
さらに、大規模な生のHDRデータセットがないため、HDRイメージングの研究は制限される。
本研究は,新たな側面から,生画像から直接HDRを再構築する優れた機会を発見し,モバイルデバイスの展開に寄与する新しいニューラルネットワーク構造を探索する。
一方,srgb画像を得るための生画像とプロセスを含む新しいhdrデータセットを構築し,長短露光画像のユニークな特徴を利用したhdr再構成モデルを構築した。
1)新しい計算用LDR-HDRペア生成パイプラインはRealRaw-HDRと呼ばれる実世界の生HDRデータセットを構築するために設計され、(2)軽量なHDRモデルRepUNetは構造的パラメータ化技術を用いて開発され、(3)プラグアンドプレイアライメントフリーかつモーションアライメント対応のショート露光ファースト選択損失とカラフルネスの損失がゴーストアーティファクトやカラーキャストを緩和するために提案されている。
広汎な実験結果から,本手法は視覚的品質と定量的指標の両面で最先端の性能を達成することが示された。 High dynamic range (HDR) imaging is a significant yet challenging problem due to the limited dynamic range of generic image sensors. Most existing learning-based HDR reconstruction methods take a set of bracketed exposure sRGB images to extend the dynamic range. However, they overlook the computational and memory inefficiencies of Image Signal Processors (ISPs) when processing a set of sRGB images with different exposures. Furthermore, the absence of large-scale raw-based HDR datasets limits the research on HDR imaging. In this work, in a new aspect, we discover an excellent opportunity for HDR reconstructing directly from raw images and investigating novel neural network structures that benefit the deployment of mobile devices. Meanwhile, we construct a new HDR dataset containing raw images and process to obtain sRGB images and design a new model to reconstruct HDR utilizing the unique characteristics of long- and short-exposure images. Our key insights are threefold: (1) a new computational raw LDR-HDR pair formation pipeline is designed to construct a real-world raw HDR dataset called RealRaw-HDR; (2) a lightweight-efficient HDR model, RepUNet, is developed using the structural reparameterization technique; (3) a plug-and-play alignment-free and motion-aware short-exposure-first selection loss and a colorfulness loss are proposed to mitigate ghost artifacts and color cast. Extensive experiment results demonstrate that our approach achieves state-of-the-art performance in both visual quality and quantitative metrics. | 翻訳日:2023-09-07 04:34:29 公開日:2023-09-04 |
# 支援を求めるロボット: 大きな言語モデルプランナーのための不確実性アライメント Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners ( http://arxiv.org/abs/2307.01928v2 ) ライセンス: Link先を確認 | Allen Z. Ren, Anushri Dixit, Alexandra Bodrova, Sumeet Singh, Stephen Tu, Noah Brown, Peng Xu, Leila Takayama, Fei Xia, Jake Varley, Zhenjia Xu, Dorsa Sadigh, Andy Zeng, Anirudha Majumdar | (参考訳) 大規模言語モデル(llm)は、ステップバイステップの計画からコモンセンス推論まで、幅広い有望な能力を示しており、ロボットの実用性を提供するが、自信を持って幻覚的な予測を行う可能性が高い。
本研究では,LLMをベースとしたプランナの不確実性を計測・調整するフレームワークであるKnowNoについて述べる。
KnowNoは、複雑な多段階計画設定において人間の助けを最小化しながら、タスク完了に関する統計的保証を提供する共形予測理論に基づいている。
例えば、人間の好みからウィノグラードのスキーマまで、空間的な不確実性から数値的な不確実性まで)の異なるモードのタスクを含む様々なシミュレーションされた実ロボットのセットアップの実験では、KnowNoは効率性と自律性の向上の観点からモダンなベースライン(アンサンブルや広範囲な急進的なチューニングを含む)に対して好適に機能し、形式的な保証を提供する。
KnowNo はモデルファインタニングなしで LLM を最初から使用することができ、基礎モデルの増大する能力を補完し拡張できる不確実性をモデリングするための有望な軽量なアプローチを提案する。
ウェブサイト:https://robot-help.github.io Large language models (LLMs) exhibit a wide range of promising capabilities -- from step-by-step planning to commonsense reasoning -- that may provide utility for robots, but remain prone to confidently hallucinated predictions. In this work, we present KnowNo, which is a framework for measuring and aligning the uncertainty of LLM-based planners such that they know when they don't know and ask for help when needed. KnowNo builds on the theory of conformal prediction to provide statistical guarantees on task completion while minimizing human help in complex multi-step planning settings. Experiments across a variety of simulated and real robot setups that involve tasks with different modes of ambiguity (e.g., from spatial to numeric uncertainties, from human preferences to Winograd schemas) show that KnowNo performs favorably over modern baselines (which may involve ensembles or extensive prompt tuning) in terms of improving efficiency and autonomy, while providing formal assurances. KnowNo can be used with LLMs out of the box without model-finetuning, and suggests a promising lightweight approach to modeling uncertainty that can complement and scale with the growing capabilities of foundation models. Website: https://robot-help.github.io | 翻訳日:2023-09-07 04:27:28 公開日:2023-09-04 |
# グループベースロバストネス:実世界のロバストネスをカスタマイズするための汎用フレームワーク Group-based Robustness: A General Framework for Customized Robustness in the Real World ( http://arxiv.org/abs/2306.16614v2 ) ライセンス: Link先を確認 | Weiran Lin and Keane Lucas and Neo Eyal and Lujo Bauer and Michael K. Reiter and Mahmood Sharif | (参考訳) 機械学習モデルは、誤分類を引き起こすためにパーターブモデル入力の回避攻撃に弱いことが知られている。
本研究では,既存の攻撃によって真の脅威を正確に評価できない実世界のシナリオを特定する。
具体的には、対象とするロバスト性を測定する従来の指標は、あるソースクラスから別のターゲットクラスへの攻撃に耐えるモデルの能力を適切に反映していない。
既存の手法の欠点に対処するため,既存の手法を補完し,特定の攻撃シナリオにおけるモデル性能を評価するのに適した,グループベースロバストネスと呼ばれる新しい指標を正式に定義する。
従来のロバスト性指標が適用されない状況において,特定の脅威モデルに対するモデルの脆弱性を区別できることが,グループベースのロバスト性を示す。
さらに,グループベースロバストネスを効率的に高精度に測定する。
1)損失関数を2つ提案し,
2)新たな攻撃戦略を3つ挙げる。
実験により,新たな損失関数を用いた回避サンプルの発見は,対象クラス数に匹敵する計算係数を削減し,新たな攻撃戦略を用いた回避サンプルの発見は,ブルートフォース探索法と比較して最大99%の時間を節約できることを示した。
最後に,最大 3.52$\times$ でグループベースロバスト性を向上させる防衛手法を提案する。 Machine-learning models are known to be vulnerable to evasion attacks that perturb model inputs to induce misclassifications. In this work, we identify real-world scenarios where the true threat cannot be assessed accurately by existing attacks. Specifically, we find that conventional metrics measuring targeted and untargeted robustness do not appropriately reflect a model's ability to withstand attacks from one set of source classes to another set of target classes. To address the shortcomings of existing methods, we formally define a new metric, termed group-based robustness, that complements existing metrics and is better-suited for evaluating model performance in certain attack scenarios. We show empirically that group-based robustness allows us to distinguish between models' vulnerability against specific threat models in situations where traditional robustness metrics do not apply. Moreover, to measure group-based robustness efficiently and accurately, we 1) propose two loss functions and 2) identify three new attack strategies. We show empirically that with comparable success rates, finding evasive samples using our new loss functions saves computation by a factor as large as the number of targeted classes, and finding evasive samples using our new attack strategies saves time by up to 99\% compared to brute-force search methods. Finally, we propose a defense method that increases group-based robustness by up to 3.52$\times$. | 翻訳日:2023-09-07 04:26:31 公開日:2023-09-04 |
# 夜間深度知覚のための学習可能ディファレンスセンター Learnable Differencing Center for Nighttime Depth Perception ( http://arxiv.org/abs/2306.14538v4 ) ライセンス: Link先を確認 | Zhiqiang Yan and Yupeng Zheng and Chongyi Li and Jun Li and Jian Yang | (参考訳) 深度完了は、通常カラー画像の助けを借りて、スパースマップから深度マップを復元する作業である。
既存の画像誘導方式は、昼間の深度知覚自動運転ベンチマークではよく機能するが、夜間のシナリオでは視界が悪く、複雑な照明が難しい。
これらの課題に対処するために, LDCNet というシンプルなフレームワークを提案する。
我々のキーとなる考え方は、リカレント・インターコンボリューション・ディフレクション(RICD)とイルミネーション・アフィニティブ・イントラコンボリューション・ディフレクション(IAICD)を使用して、夜間のカラー画像を強化し、様々な照明の負の効果を低減することである。
RICDは、異なるカーネルと異なる2つのコンボリューションを区別して、大カーネルコンボリューション機能の中心として扱うことで、グローバル照明を明示的に推定する。
IAICDは、隣接する画素とRICDの推定照明マップに基づいて、中心を動的に集約する単一の畳み込みを区別することにより、局所的な相対光強度をソフトに緩和する。
夜間の深度推定と深度推定の両課題において, LDCNetの有効性を実証し, 最先端技術に到達した。 Depth completion is the task of recovering dense depth maps from sparse ones, usually with the help of color images. Existing image-guided methods perform well on daytime depth perception self-driving benchmarks, but struggle in nighttime scenarios with poor visibility and complex illumination. To address these challenges, we propose a simple yet effective framework called LDCNet. Our key idea is to use Recurrent Inter-Convolution Differencing (RICD) and Illumination-Affinitive Intra-Convolution Differencing (IAICD) to enhance the nighttime color images and reduce the negative effects of the varying illumination, respectively. RICD explicitly estimates global illumination by differencing two convolutions with different kernels, treating the small-kernel-convolution feature as the center of the large-kernel-convolution feature in a new perspective. IAICD softly alleviates local relative light intensity by differencing a single convolution, where the center is dynamically aggregated based on neighboring pixels and the estimated illumination map in RICD. On both nighttime depth completion and depth estimation tasks, extensive experiments demonstrate the effectiveness of our LDCNet, reaching the state of the art. | 翻訳日:2023-09-07 04:25:00 公開日:2023-09-04 |
# Deep Network Approximation: ReLUを超えて、さまざまなアクティベーション関数 Deep Network Approximation: Beyond ReLU to Diverse Activation Functions ( http://arxiv.org/abs/2307.06555v2 ) ライセンス: Link先を確認 | Shijun Zhang, Jianfeng Lu, Hongkai Zhao | (参考訳) 本稿では,多様な活性化関数に対するディープニューラルネットワークの表現力について検討する。
$\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\matht{ReLU}^2$, $\matht{ELU}$, $\matht{SELU}$, $\matht{Softplus}$, $\matht{GELU}$, $\matht{SiLU}$, $\matht{Swish}$, $\matht{Swish}$, $\matht{Mish}$, $\matht{Sigmoid}$, $\matht{ReLU}$, $\matht{Sigmoid}$, $\matht{ReLU}^2$, $\mathtt{SELU}$, $, $\mathtt{Softplus}$, $\mathtt{GELU}$, $, $\mathttt{Swish}$, $, $\mathtt{Swish}$, $\mathtt{Swish}$, $, $\mathtt{Swish}$, $\mathtt{Swish}$, $, $\mathttt{Sig}$\mathtt{Sig}$, $, $\mathttttt{Sig}$, $, $\mathttttt{Sig}$\matht{Sig}$, $, $\mathttttt{Sig}$}$, $\mathttt{Sig}$}$}$, $}$, $\matht{Swt{Swt{Sw}$, $, $\matht{Swt{Swt{Sw}$, $, $}
任意の活性化関数 $\varrho\in \mathscr{a}$ に対して、$\mathtt{relu}$ 幅$n$ と深さ$l$ のネットワークは、任意の有界集合上で$\varrho$-activated network of width $6n$ と depth $2l$ によって任意の精度に近似できる。
この発見により、$\mathtt{relu}$ネットワークで達成されたほとんどの近似結果が、より大きい定数のコストで、他の様々な活性化関数に拡張できる。 This paper explores the expressive power of deep neural networks for a diverse range of activation functions. An activation function set $\mathscr{A}$ is defined to encompass the majority of commonly used activation functions, such as $\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\mathtt{ReLU}^2$, $\mathtt{ELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$, $\mathtt{SiLU}$, $\mathtt{Swish}$, $\mathtt{Mish}$, $\mathtt{Sigmoid}$, $\mathtt{Tanh}$, $\mathtt{Arctan}$, $\mathtt{Softsign}$, $\mathtt{dSiLU}$, and $\mathtt{SRS}$. We demonstrate that for any activation function $\varrho\in \mathscr{A}$, a $\mathtt{ReLU}$ network of width $N$ and depth $L$ can be approximated to arbitrary precision by a $\varrho$-activated network of width $6N$ and depth $2L$ on any bounded set. This finding enables the extension of most approximation results achieved with $\mathtt{ReLU}$ networks to a wide variety of other activation functions, at the cost of slightly larger constants. | 翻訳日:2023-09-07 04:19:51 公開日:2023-09-04 |
# 接続の開放:アインシュタインの業績におけるERブリッジとEPR Unveiling the Connection: ER bridges and EPR in the work of Einstein ( http://arxiv.org/abs/2307.05548v2 ) ライセンス: Link先を確認 | Galina Weinstein | (参考訳) 本稿では,ERブリッジ理論とその量子現象との関係について考察する。
ERブリッジ理論は量子現象に明示的に対応せず、アインシュタインがERブリッジ理論内の個々の粒子とEPRパラドックスに関わる系とを区別することを意図している、という主張が成り立つ。
しかし、この論文はアインシュタインが異なる視点を持っていたと論じている。
一般相対性理論を変更して量子特性の解明に尽力し、量子力学の原理に頼らずに局所現実主義、分離性、因果性、決定論といった概念を取り入れることを目指した。
彼は2枚の平板を接続する平行ER橋を用いた素粒子の表現を提案した。 This paper explores the ER bridges theory and its relationship with quantum phenomena. An argument can be made that the ER bridges theory does not explicitly address quantum phenomena and implies that Einstein intended to differentiate between individual particles within the ER bridges theory and the systems involved in the EPR paradox. However, this paper contends that Einstein held a distinct viewpoint. He endeavored to elucidate quantum characteristics by modifying general relativity, aiming to incorporate concepts such as local realism, separability, causality, and determinism, without relying on the principles of quantum mechanics. He proposed representing elementary particles using parallel ER bridges connecting two flat sheets to achieve this. | 翻訳日:2023-09-07 04:16:06 公開日:2023-09-04 |
# サンプル認識プロンプトと動的リビジョンチェーンを備えた検索型gpt-3.5ベースのtext-to-sqlフレームワーク Retrieval-augmented GPT-3.5-based Text-to-SQL Framework with Sample-aware Prompting and Dynamic Revision Chain ( http://arxiv.org/abs/2307.05074v2 ) ライセンス: Link先を確認 | Chunxi Guo, Zhiliang Tian, Jintao Tang, Shasha Li, Zhihua Wen, Kaixuan Wang and Ting Wang | (参考訳) text-to-sqlは、自然言語の質問に対してsqlクエリを生成することを目的としている。
大規模言語モデル(LLM)によるプロンプト学習は、入力問題を理解し、対応するSQLを生成するためにLLMを導くように設計する最近のアプローチとして現れている。
しかし、厳格なSQL構文要求で問題に直面している。
既存の作業は、SQLを生成するための実演例のリスト(例えば、質問とSQLのペア)でLLMに促すが、固定プロンプトは、検索された実演と入力された質問の間の意味的なギャップが大きいシナリオをほとんど扱えない。
本稿では、サンプル認識プロンプトと動的リビジョンチェーンを含むLLMベースのText-to-SQLフレームワークの検索強化プロンプト手法を提案する。
提案手法では,SQL演算子の合成と質問内容に関する詳細な情報を含むサンプル認識型実演を取り入れた。
類似した意図を入力質問と共有する質問を検索するために,検索を支援する2つの戦略を提案する。
まず,最初の質問を単純化し,構文を統一し,ユーザの意図を明確化するために,llmを活用する。
人間の介入なしに実行可能で正確なSQLを生成するために、我々は以前生成されたSQLからのきめ細かいフィードバックを反復的に適応する動的リビジョンチェーンを設計する。
3つのtext-to-sqlベンチマークにおける実験結果は、強力なベースラインモデルよりも優れた方法を示している。 Text-to-SQL aims at generating SQL queries for the given natural language questions and thus helping users to query databases. Prompt learning with large language models (LLMs) has emerged as a recent approach, which designs prompts to lead LLMs to understand the input question and generate the corresponding SQL. However, it faces challenges with strict SQL syntax requirements. Existing work prompts the LLMs with a list of demonstration examples (i.e. question-SQL pairs) to generate SQL, but the fixed prompts can hardly handle the scenario where the semantic gap between the retrieved demonstration and the input question is large. In this paper, we propose a retrieval-augmented prompting method for a LLM-based Text-to-SQL framework, involving sample-aware prompting and a dynamic revision chain. Our approach incorporates sample-aware demonstrations, which include the composition of SQL operators and fine-grained information related to the given question. To retrieve questions sharing similar intents with input questions, we propose two strategies for assisting retrieval. Firstly, we leverage LLMs to simplify the original questions, unifying the syntax and thereby clarifying the users' intentions. To generate executable and accurate SQLs without human intervention, we design a dynamic revision chain which iteratively adapts fine-grained feedback from the previously generated SQL. Experimental results on three Text-to-SQL benchmarks demonstrate the superiority of our method over strong baseline models. | 翻訳日:2023-09-07 04:15:54 公開日:2023-09-04 |
# オフライン強化学習における分散一般化のための拡散ポリシー Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning ( http://arxiv.org/abs/2307.04726v3 ) ライセンス: Link先を確認 | Suzan Ece Ada, Erhan Oztop, Emre Ugur | (参考訳) オフライン強化学習(RL)手法は、過去の経験を活用して、データ収集に使用される行動ポリシーよりも優れたポリシーを学習する。
専門家によるデモンストレーションからデータを収集すると仮定する行動クローニングとは対照的に、オフラインのRLは非専門的なデータやマルチモーダルな行動ポリシーで動作する。
しかし、オフラインのRLアルゴリズムは、トレーニング中にオンラインインタラクションが欠如しているため、分散シフトの処理やポリシーの効果的表現において課題に直面している。
オフラインrlの以前の作業では、条件拡散モデルを使用してデータセット内のマルチモーダルな振る舞いを表現する。
しかしながら、これらの手法は分布外状態の一般化を緩和するためには適していない。
本稿では,最近の拡散政策のクラスに状態復元機能学習を組み込んだ,拡散政策のための状態再構成法(state reconstruction for diffusion policies, srdp)を提案する。
状態再構成損失は、アウト・オブ・ディストリビューション(OOD)状態によって生じる分散シフトを軽減するために、状態の一般化可能な表現学習を促進する。
我々は,従来のアルゴリズムと比較して,OODの一般化とSRDPの高速収束を示すために,新しい2次元マルチモーダルコンテキスト帯域環境を設計する。
さらに,D4RL連続制御ベンチマーク,すなわち8-DoFアリのナビゲーションと半チーター,ホッパー,ウォーカー2dの前方移動の性能を評価し,最先端の結果を得た。 Offline Reinforcement Learning (RL) methods leverage previous experiences to learn better policies than the behavior policy used for data collection. In contrast to behavior cloning, which assumes the data is collected from expert demonstrations, offline RL can work with non-expert data and multimodal behavior policies. However, offline RL algorithms face challenges in handling distribution shifts and effectively representing policies due to the lack of online interaction during training. Prior work on offline RL uses conditional diffusion models to represent multimodal behavior in the dataset. Nevertheless, these methods are not tailored toward alleviating the out-of-distribution state generalization. We introduce a novel method named State Reconstruction for Diffusion Policies (SRDP), incorporating state reconstruction feature learning in the recent class of diffusion policies to address the out-of-distribution generalization problem. State reconstruction loss promotes generalizable representation learning of states to alleviate the distribution shift incurred by the out-of-distribution (OOD) states. We design a novel 2D Multimodal Contextual Bandit environment to illustrate the OOD generalization and faster convergence of SRDP compared to prior algorithms. In addition, we assess the performance of our model on D4RL continuous control benchmarks, namely the navigation of an 8-DoF ant and forward locomotion of half-cheetah, hopper, and walker2d, achieving state-of-the-art results. | 翻訳日:2023-09-07 04:15:26 公開日:2023-09-04 |
# フロンティアai規制 - 公共安全に対する新たなリスク管理 Frontier AI Regulation: Managing Emerging Risks to Public Safety ( http://arxiv.org/abs/2307.03718v3 ) ライセンス: Link先を確認 | Markus Anderljung, Joslyn Barnhart, Anton Korinek, Jade Leung, Cullen O'Keefe, Jess Whittlestone, Shahar Avin, Miles Brundage, Justin Bullock, Duncan Cass-Beggs, Ben Chang, Tantum Collins, Tim Fist, Gillian Hadfield, Alan Hayes, Lewis Ho, Sara Hooker, Eric Horvitz, Noam Kolt, Jonas Schuett, Yonadav Shavit, Divya Siddarth, Robert Trager, Kevin Wolf | (参考訳) 高度なAIモデルは人類にとって大きな利益をもたらすと約束しているが、社会はそれに伴うリスクを積極的に管理する必要がある。
本稿では,公共の安全に重大なリスクをもたらすのに十分な危険能力を有するような,高度な能力を持つ基盤モデルについて述べる。
危険な能力が予期せず出現する可能性があり、デプロイされたモデルが誤用されることを堅牢に防止することは困難であり、モデルの能力が広範囲に普及することを止めるのは難しい。
これらの課題に対処するには、(1)フロンティアAI開発者の適切な要件を特定するための標準設定プロセス、(2)フロンティアAI開発プロセスの可視性を提供するための規制当局の登録および報告要件、(3)フロンティアAIモデルの開発と展開のための安全基準の遵守を保証するメカニズムの3つが必要である。
業界の自己規制は重要な第一歩です。
しかし、より広範な社会的な議論と政府の介入は、標準の作成とコンプライアンスの確保のために必要となる。
我々は、規制当局への執行権限の付与やフロンティアaiモデルのライセンス制度など、この目的へのいくつかの選択肢を検討します。
最後に,安全基準の第一セットを提案する。
これには、デプロイ前のリスクアセスメントの実行、モデルの振る舞いの外部的検査、デプロイメント決定にリスクアセスメントを使用すること、モデルの能力とデプロイ後の使用に関する新しい情報に関する監視と応答が含まれる。
この議論が、ai開発のフロンティアにおける公衆安全のリスクとイノベーションのメリットのバランスのとり方に関する幅広い議論に貢献できることを願っている。 Advanced AI models hold the promise of tremendous benefits for humanity, but society needs to proactively manage the accompanying risks. In this paper, we focus on what we term "frontier AI" models: highly capable foundation models that could possess dangerous capabilities sufficient to pose severe risks to public safety. Frontier AI models pose a distinct regulatory challenge: dangerous capabilities can arise unexpectedly; it is difficult to robustly prevent a deployed model from being misused; and, it is difficult to stop a model's capabilities from proliferating broadly. To address these challenges, at least three building blocks for the regulation of frontier models are needed: (1) standard-setting processes to identify appropriate requirements for frontier AI developers, (2) registration and reporting requirements to provide regulators with visibility into frontier AI development processes, and (3) mechanisms to ensure compliance with safety standards for the development and deployment of frontier AI models. Industry self-regulation is an important first step. However, wider societal discussions and government intervention will be needed to create standards and to ensure compliance with them. We consider several options to this end, including granting enforcement powers to supervisory authorities and licensure regimes for frontier AI models. Finally, we propose an initial set of safety standards. These include conducting pre-deployment risk assessments; external scrutiny of model behavior; using risk assessments to inform deployment decisions; and monitoring and responding to new information about model capabilities and uses post-deployment. We hope this discussion contributes to the broader conversation on how to balance public safety risks and innovation benefits from advances at the frontier of AI development. | 翻訳日:2023-09-07 04:14:39 公開日:2023-09-04 |
# デコードとトレーニングに焦点をあてて:HOIスプリットデコーダと特定目標誘導デノージングによる効率的なトレーニング Focusing on what to decode and what to train: Efficient Training with HOI Split Decoders and Specific Target Guided DeNoising ( http://arxiv.org/abs/2307.02291v2 ) ライセンス: Link先を確認 | Junwen Chen, Yingcheng Wang, Keiji Yanai | (参考訳) 最近の一段変圧器に基づく手法は, detrの検出を活用し, 人間-物体間インタラクション検出(hoi)タスクにおいて顕著な成果を得た。
しかし、現在のメソッドはオブジェクトデコーダの検出ターゲットをリダイレクトしており、ボックスターゲットはクエリの埋め込みから明示的に分離されていないため、長くて厳しいトレーニングにつながる。
さらに、予測されたHOIインスタンスと地平線とのマッチングは、オブジェクト検出よりも難しいため、単にオブジェクト検出からトレーニング戦略を適用するだけで、トレーニングがより難しくなる。
そこで本研究では,対象デコーダ,オブジェクトデコーダ,動詞デコーダから構成される新しいワンステージフレームワーク(SOV)を提案する。
さらに,学習可能なオブジェクトと動詞ラベルの埋め込みを活用して学習指導を指導し,学習の収束を加速する,特定目標指導(STG)訓練戦略を提案する。
また、推論部では、学習可能なラベル埋め込みからクエリ埋め込みを初期化することにより、ラベル固有情報をデコーダに直接供給する。
付加的な特徴や事前言語知識がなければ,本手法は訓練の3分の1における最先端手法よりも精度が高い。
コードは、このhttps://github.com/cjw2021/SOV-STGで入手できる。 Recent one-stage transformer-based methods achieve notable gains in the Human-object Interaction Detection (HOI) task by leveraging the detection of DETR. However, the current methods redirect the detection target of the object decoder, and the box target is not explicitly separated from the query embeddings, which leads to long and hard training. Furthermore, matching the predicted HOI instances with the ground-truth is more challenging than object detection, simply adapting training strategies from the object detection makes the training more difficult. To clear the ambiguity between human and object detection and share the prediction burden, we propose a novel one-stage framework (SOV), which consists of a subject decoder, an object decoder, and a verb decoder. Moreover, we propose a novel Specific Target Guided (STG) DeNoising training strategy, which leverages learnable object and verb label embeddings to guide the training and accelerate the training convergence. In addition, for the inference part, the label-specific information is directly fed into the decoders by initializing the query embeddings from the learnable label embeddings. Without additional features or prior language knowledge, our method (SOV-STG) achieves higher accuracy than the state-of-the-art method in one-third of training epochs. The code is available at this https://github.com/cjw2021/SOV-STG. | 翻訳日:2023-09-07 04:13:54 公開日:2023-09-04 |
# 注意ネットワークの学習ダイナミクスについて On the Learning Dynamics of Attention Networks ( http://arxiv.org/abs/2307.13421v3 ) ライセンス: Link先を確認 | Rahul Vashisht and Harish G. Ramaswamy | (参考訳) 注意モデルは一般的に、ソフトアテンション(Soft attention)、ハードアテンション(ハードアテンション)、潜在変数の辺縁的可能性(Latent variable marginal chance, LVML)という3つの標準的な損失関数のうちの1つを最適化することによって学習される。これら3つのパラダイムは、入力の右 \textit{segment} を 'select' する 'focus' モデルと、選択したセグメントをターゲットラベルに処理する 'classification' モデルである。
しかし、これらは選択されたセグメントを集約する方法で大きく異なり、異なるダイナミクスと最終的な結果をもたらす。
これらのパラダイムを用いて学習したモデルのユニークなシグネチャを観察し,フォーカスモデルが固定された場合の勾配降下下での分類モデルの進化の帰結として説明する。
また,これらのパラダイムを簡単な設定で解析し,勾配流下のパラメータ軌跡の閉形式式を導出する。
ソフトアテンションの損失により、フォーカスモデルは初期化と後続のスパッタで急速に改善する。
一方、注意喪失は反対方向に振る舞う。
我々の観測に基づいて、異なる損失関数の利点を組み合わせた単純なハイブリッドアプローチを提案し、半合成および実世界のデータセットの集合上でそれを実証する。 Attention models are typically learned by optimizing one of three standard loss functions that are variously called -- soft attention, hard attention, and latent variable marginal likelihood (LVML) attention. All three paradigms are motivated by the same goal of finding two models -- a `focus' model that `selects' the right \textit{segment} of the input and a `classification' model that processes the selected segment into the target label. However, they differ significantly in the way the selected segments are aggregated, resulting in distinct dynamics and final results. We observe a unique signature of models learned using these paradigms and explain this as a consequence of the evolution of the classification model under gradient descent when the focus model is fixed. We also analyze these paradigms in a simple setting and derive closed-form expressions for the parameter trajectory under gradient flow. With the soft attention loss, the focus model improves quickly at initialization and splutters later on. On the other hand, hard attention loss behaves in the opposite fashion. Based on our observations, we propose a simple hybrid approach that combines the advantages of the different loss functions and demonstrates it on a collection of semi-synthetic and real-world datasets | 翻訳日:2023-09-07 04:08:40 公開日:2023-09-04 |
# OUTFOX: 逆生成例を用いた文脈内学習によるLLM検出 OUTFOX: LLM-generated Essay Detection through In-context Learning with Adversarially Generated Examples ( http://arxiv.org/abs/2307.11729v2 ) ライセンス: Link先を確認 | Ryuto Koike, Masahiro Kaneko, Naoaki Okazaki | (参考訳) 大規模言語モデル (LLM) はテキスト生成において人間レベルの流布を達成しており、人間の書き起こしとLLM生成の区別が難しい。
これはLSMを誤用するリスクが増大し、LSM生成テキストを特定するための検出器の開発が要求される。
しかし、既存の検出器は攻撃に対する堅牢性に欠けており、単にllm生成テキストをパラフレージングすることで検出精度を低下させる。
さらに、悪意のあるユーザは、検出結果に基づいて意図的に検出を回避しようとするかもしれないが、これは以前の研究では想定されていなかった。
本稿では,検出器と攻撃者の両方が互いの出力を考慮できるように,llm生成テキスト検出器のロバスト性を向上させるフレームワークであるexfoxを提案する。
このフレームワークでは、検知器の予測ラベルをコンテキスト内学習の例として使用し、検出しにくいエッセイを逆向きに生成する一方、検出器は逆向きに生成されたエッセイをコンテキスト内学習の例として使用して、強い攻撃者からのエッセイを検出する。
学生エッセイの領域における実験により,提案手法は,f1-scoreにおいて最大41.3ポイントの精度で攻撃者生成テキストの検出性能を向上させることが示された。
さらに,F1スコアで96.9ポイントの最先端検出性能を示し,非攻撃テキスト上で既存の検出器を打ち破った。
最後に、提案する攻撃者は検出器の性能を-57.0点f1-scoreまで劇的に低下させ、検出を回避するためのベースラインパラフレージング法を大きく上回っている。 Large Language Models (LLMs) have achieved human-level fluency in text generation, making it difficult to distinguish between human-written and LLM-generated texts. This poses a growing risk of misuse of LLMs and demands the development of detectors to identify LLM-generated texts. However, existing detectors lack robustness against attacks: they degrade detection accuracy by simply paraphrasing LLM-generated texts. Furthermore, a malicious user might attempt to deliberately evade the detectors based on detection results, but this has not been assumed in previous studies. In this paper, we propose OUTFOX, a framework that improves the robustness of LLM-generated-text detectors by allowing both the detector and the attacker to consider each other's output. In this framework, the attacker uses the detector's prediction labels as examples for in-context learning and adversarially generates essays that are harder to detect, while the detector uses the adversarially generated essays as examples for in-context learning to learn to detect essays from a strong attacker. Experiments in the domain of student essays show that the proposed detector improves the detection performance on the attacker-generated texts by up to +41.3 points in F1-score. Furthermore, the proposed detector shows a state-of-the-art detection performance: up to 96.9 points in F1-score, beating existing detectors on non-attacked texts. Finally, the proposed attacker drastically degrades the performance of detectors by up to -57.0 points F1-score, massively outperforming the baseline paraphrasing method for evading detection. | 翻訳日:2023-09-07 04:07:16 公開日:2023-09-04 |
# EndoSurf:ステレオ内視鏡による変形性組織の神経表面再構成 EndoSurf: Neural Surface Reconstruction of Deformable Tissues with Stereo Endoscope Videos ( http://arxiv.org/abs/2307.11307v2 ) ライセンス: Link先を確認 | Ruyi Zha, Xuelian Cheng, Hongdong Li, Mehrtash Harandi, Zongyuan Ge | (参考訳) ステレオ内視鏡ビデオから軟組織を再構成することは、多くの医療応用にとって必須の前提条件である。
従来の手法では、3Dシーンの表現が不十分なため、高品質な幾何学や外観を作り出すのに苦労していた。
この問題に対処するため,我々は,RGBD配列から変形面を表現することを効果的に学習する,EndoSurfと呼ばれるニューラルフィールドベースの新しい手法を提案する。
endosurfでは、表面ダイナミクス、形状、テクスチャを3つの神経場でモデル化する。
まず、変形場を用いて、観測された空間から標準空間へ3Dポイントを変換する。
符号付き距離関数(SDF)フィールドと放射場はそれぞれSDFと色を予測し、RGBD画像は異なるボリュームレンダリングによって合成できる。
複数の正則化戦略を調整し、幾何学と外観を分離することで学習した形状を制約する。
公開内視鏡データセットの実験では、特に高忠実度形状の再構成において、EndoSurfが既存のソリューションよりも大幅に優れていることが示されている。
コードはhttps://github.com/Ruyi-Zha/endosurf.gitで入手できる。 Reconstructing soft tissues from stereo endoscope videos is an essential prerequisite for many medical applications. Previous methods struggle to produce high-quality geometry and appearance due to their inadequate representations of 3D scenes. To address this issue, we propose a novel neural-field-based method, called EndoSurf, which effectively learns to represent a deforming surface from an RGBD sequence. In EndoSurf, we model surface dynamics, shape, and texture with three neural fields. First, 3D points are transformed from the observed space to the canonical space using the deformation field. The signed distance function (SDF) field and radiance field then predict their SDFs and colors, respectively, with which RGBD images can be synthesized via differentiable volume rendering. We constrain the learned shape by tailoring multiple regularization strategies and disentangling geometry and appearance. Experiments on public endoscope datasets demonstrate that EndoSurf significantly outperforms existing solutions, particularly in reconstructing high-fidelity shapes. Code is available at https://github.com/Ruyi-Zha/endosurf.git. | 翻訳日:2023-09-07 04:06:24 公開日:2023-09-04 |
# 非滑らかな非凸最適化における確率的下位手法の収束保証 Convergence Guarantees for Stochastic Subgradient Methods in Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2307.10053v2 ) ライセンス: Link先を確認 | Nachuan Xiao, Xiaoyin Hu, Kim-Chuan Toh | (参考訳) 本稿では, 確率勾配降下法(sgd)法とその変種, 特に非運動活性化関数を用いたニューラルネットワークの学習において, 収束特性について検討する。
運動量項と変数をそれぞれ更新するためのステップ化に異なる時間スケールを割り当てる新しいフレームワークを開発した。
軽度条件下では, 単一時間スケールと2時間スケールのいずれにおいても, 提案するフレームワークのグローバルな収束が証明される。
提案手法は, ヘビーボールSGD, SignSGD, Lion, 正規化SGD, クリッピングSGDなど, 広く知られたSGD型手法を含む。
さらに、目的関数が有限サム定式化を採用すると、提案フレームワークに基づくこれらのSGD型手法の収束特性が証明される。
特に、これらのSGD型手法は、ランダムに選択されたステップサイズと初期点を持つ目的関数のクラーク定常点を求める。
予備数値実験により,sgd型解析法の高効率化が実証された。 In this paper, we investigate the convergence properties of the stochastic gradient descent (SGD) method and its variants, especially in training neural networks built from nonsmooth activation functions. We develop a novel framework that assigns different timescales to stepsizes for updating the momentum terms and variables, respectively. Under mild conditions, we prove the global convergence of our proposed framework in both single-timescale and two-timescale cases. We show that our proposed framework encompasses a wide range of well-known SGD-type methods, including heavy-ball SGD, SignSGD, Lion, normalized SGD and clipped SGD. Furthermore, when the objective function adopts a finite-sum formulation, we prove the convergence properties for these SGD-type methods based on our proposed framework. In particular, we prove that these SGD-type methods find the Clarke stationary points of the objective function with randomly chosen stepsizes and initial points under mild assumptions. Preliminary numerical experiments demonstrate the high efficiency of our analyzed SGD-type methods. | 翻訳日:2023-09-07 04:06:05 公開日:2023-09-04 |
# メタバリュー学習 : 学習意識を持つ学習のための汎用フレームワーク Meta-Value Learning: a General Framework for Learning with Learning Awareness ( http://arxiv.org/abs/2307.08863v2 ) ライセンス: Link先を確認 | Tim Cooijmans, Milad Aghajohari, Aaron Courville | (参考訳) マルチエージェントシステムにおける勾配ベースの学習は、エージェントの学習プロセス間の相互作用を考慮しない一階モデルに由来するため、難しい。
LOLA (arXiv:1709.04326) は最適化の一段階を微分することでこれを説明している。
本稿では, 将来の最適化のリターンに対する割引金額であるメタ値を用いて, 長期的見通しで共同政策を判断することを提案する。
ポリシー更新の継続的アクション空間を明示的に表現する必要をなくす方法で、最適化のメタゲームにq-learningの形式を適用する。
結果、MeVaは一貫性があり、遠目であり、REINFORCE推定器を必要としない。
玩具ゲームにおける本手法の挙動を解析し,反復行列ゲームにおける先行作業と比較する。 Gradient-based learning in multi-agent systems is difficult because the gradient derives from a first-order model which does not account for the interaction between agents' learning processes. LOLA (arXiv:1709.04326) accounts for this by differentiating through one step of optimization. We propose to judge joint policies by their long-term prospects as measured by the meta-value, a discounted sum over the returns of future optimization iterates. We apply a form of Q-learning to the meta-game of optimization, in a way that avoids the need to explicitly represent the continuous action space of policy updates. The resulting method, MeVa, is consistent and far-sighted, and does not require REINFORCE estimators. We analyze the behavior of our method on a toy game and compare to prior work on repeated matrix games. | 翻訳日:2023-09-07 04:05:36 公開日:2023-09-04 |
# 16ビットニューラルネットワークトレーニングにおけるバックプロパゲーションにおける数値的不安定さの軽減法 An Efficient Approach to Mitigate Numerical Instability in Backpropagation for 16-bit Neural Network Training ( http://arxiv.org/abs/2307.16189v2 ) ライセンス: Link先を確認 | Juyoung Yun | (参考訳) 本研究では,機械学習モデルの16ビット計算において観測される数値不安定性の複雑さ,特にRMSPropやAdamのような一般的な最適化アルゴリズムを用いる場合について検討する。
この不安定性は、ディープニューラルネットワークのトレーニングフェーズで一般的に経験され、学習プロセスを混乱させ、そのようなモデルの効果的な展開を妨げる。
この数値不安定性の背後にある主要な原因は、単一の超パラメータであるエプシロンである。
これらのオプティマイザにおける16ビット計算におけるepsilonの役割の詳細な調査により、その値の微調整がrmspropとadamの機能を回復し、16ビットニューラルネットワークの有効利用を可能にすることが明らかとなった。
同定された数値不安定問題を軽減する新しい手法を提案する。
この手法は,Adamオプティマイザからの更新を活かし,16ビット計算における学習プロセスの堅牢性を大幅に向上させる。
本研究は、低精度計算における最適化の理解を深め、より効率的で安定したモデルトレーニングのための新しい道を開く深層ニューラルネットワークの訓練における長年の課題に対して効果的な解決策を提供する。 In this research, we delve into the intricacies of the numerical instability observed in 16-bit computations of machine learning models, particularly when employing popular optimization algorithms such as RMSProp and Adam. This instability is commonly experienced during the training phase of deep neural networks, leading to disrupted learning processes and hindering the effective deployment of such models. We identify the single hyperparameter, epsilon, as the main culprit behind this numerical instability. An in-depth exploration of the role of epsilon in these optimizers within 16-bit computations reveals that a minor adjustment of its value can restore the functionality of RMSProp and Adam, consequently enabling the effective utilization of 16-bit neural networks. We propose a novel method to mitigate the identified numerical instability issues. This method capitalizes on the updates from the Adam optimizer and significantly improves the robustness of the learning process in 16-bit computations. This study contributes to better understanding of optimization in low-precision computations and provides an effective solution to a longstanding issue in training deep neural networks, opening new avenues for more efficient and stable model training. | 翻訳日:2023-09-07 03:55:51 公開日:2023-09-04 |
# 1次元量子多体系における活性誘起強磁性 Activity-induced ferromagnetism in one-dimensional quantum many-body systems ( http://arxiv.org/abs/2308.04382v2 ) ライセンス: Link先を確認 | Kazuaki Takasan, Kyosuke Adachi, Kyogo Kawaguchi | (参考訳) 自己推進体のアンサンブルである活性物質は、様々な非平衡相転移を示す。
本稿では,活性物質の原型モデルであるヴィエクモデルに類似した1次元の非エルミート量子多体モデルを構築し,その量子相転移について検討する。
このモデルは強磁性相互作用と活性を伴う2成分ハードコアボソンから構成される:スピン依存非対称ホッピング。
数値的な結果は、古典的な例ではフラッキングの量子的相反する活性によって誘導される強磁性秩序の出現を示し、強磁性相互作用なしでも生き残る。
摂動理論と2粒子の場合の解法により、2粒子レベルでの非エルミート皮膚効果がこの群れ形成に不可欠であることがわかった。
この効果を考慮に入れ,二点平均場理論を用いて数値的に求めた位相図を定性的に再現する。
さらに,ハードコア条件が緩和されたモデルの変形を数値的に検討し,強磁性秩序のロバスト性を確認した。 Active matter, an ensemble of self-propelled entities, exhibits various nonequilibrium phase transitions. In this paper, we construct a non-Hermitian quantum many-body model in one dimension analogous to the Vicsek model, a prototypical model of active matter, and investigate its quantum phase transitions. The model consists of two-component hard-core bosons undergoing ferromagnetic interactions and with activity: spin-dependent asymmetric hopping. Numerical results show the emergence of a ferromagnetic order induced by the activity, which is a quantum counterpart of flocking in classical examples, and it even survives without the ferromagnetic interaction. We find through perturbation theory and solving the two-particle case that the non-Hermitian skin effect at the two-particle level is crucial for this flocking phase. To take this effect into account, we employ a two-site mean-field theory and qualitatively reproduce the numerically obtained phase diagram. We further numerically study a variant of our model, where the hard-core condition is relaxed, and confirm the robustness of the ferromagnetic order. | 翻訳日:2023-09-07 03:48:13 公開日:2023-09-04 |
# 高分解能サルエント物体検出のためのリカレントマルチスケール変圧器 Recurrent Multi-scale Transformer for High-Resolution Salient Object Detection ( http://arxiv.org/abs/2308.03826v2 ) ライセンス: Link先を確認 | Xinhao Deng and Pingping Zhang and Wei Liu and Huchuan Lu | (参考訳) Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
重要な前処理ステップとして、マルチメディアおよびビジョンタスクに多くの潜在的な応用がある。
撮像装置の進歩により、高解像度画像付きSODは近年非常に需要がある。
しかし、従来のSOD法は主に低解像度画像に限られており、高分解能SOD(HRSOD)の開発に適応することが困難である。
HRSODメソッドがいくつか現れるが、トレーニングや評価に十分なデータセットは存在しない。
さらに、現在のHRSOD法は一般に不完全な対象領域と不規則な対象境界を生成する。
上記の問題に対処するため,我々はまず2K-8K解像度で10,500個の高品質な注釈付き画像を含む新しいHRS10Kデータセットを提案する。
私たちが知る限り、これはhrsodタスクで最大のデータセットであり、将来のモデルのトレーニングと評価作業において非常に役立ちます。
さらに,HRSODの性能向上のために,共有トランスフォーマとマルチスケールリファインメントアーキテクチャを連続的に利用するRMFormer(Recurrent Multi-scale Transformer)を提案する。
したがって、低分解能予測のガイダンスにより、高分解能サリエンシマップを生成することができる。
高分解能および低分解能のベンチマークの広範な実験は、提案フレームワークの有効性と優位性を示している。
ソースコードとデータセットは、https://github.com/DrowsyMon/RMFormer.comで公開されている。 Salient Object Detection (SOD) aims to identify and segment the most conspicuous objects in an image or video. As an important pre-processing step, it has many potential applications in multimedia and vision tasks. With the advance of imaging devices, SOD with high-resolution images is of great demand, recently. However, traditional SOD methods are largely limited to low-resolution images, making them difficult to adapt to the development of High-Resolution SOD (HRSOD). Although some HRSOD methods emerge, there are no large enough datasets for training and evaluating. Besides, current HRSOD methods generally produce incomplete object regions and irregular object boundaries. To address above issues, in this work, we first propose a new HRS10K dataset, which contains 10,500 high-quality annotated images at 2K-8K resolution. As far as we know, it is the largest dataset for the HRSOD task, which will significantly help future works in training and evaluating models. Furthermore, to improve the HRSOD performance, we propose a novel Recurrent Multi-scale Transformer (RMFormer), which recurrently utilizes shared Transformers and multi-scale refinement architectures. Thus, high-resolution saliency maps can be generated with the guidance of lower-resolution predictions. Extensive experiments on both high-resolution and low-resolution benchmarks show the effectiveness and superiority of the proposed framework. The source code and dataset are released at: https://github.com/DrowsyMon/RMFormer. | 翻訳日:2023-09-07 03:47:45 公開日:2023-09-04 |
# 部分観測可能なコンテキスト帯域における確率的学習 Provably Efficient Learning in Partially Observable Contextual Bandit ( http://arxiv.org/abs/2308.03572v2 ) ライセンス: Link先を確認 | Xueping Gong and Jiheng Zhang | (参考訳) 本稿では,エージェントが他のエージェントからの知識や隠れた共同設立者に関する情報を限定した,部分的に観察可能なコンテキストバンディットにおける転送学習について検討する。
まず、最適化問題を通じて、行動と報酬の間の因果効果を識別または部分的に識別する。
これらの最適化問題を解決するために、未知分布の本来の機能的制約を線形制約に分類し、線形プログラミングを逐次解き、推定誤差を考慮した因果境界を求める。
サンプリングアルゴリズムは適切なサンプリング分布に対して望ましい収束結果を与える。
次に,因果境界を古典的なバンディットアルゴリズムの改善に適用し,動作集合や関数空間の大きさに対する後悔に影響を与えることを示す。
特に,一般的な文脈分布を処理可能な関数近似のタスクでは,従来の文献と比較して関数空間サイズの順序依存性が改善される。
因果的に拡張されたアルゴリズムが古典的なバンディットアルゴリズムよりも優れており、収束率が桁違いに速いことを正式に証明する。
最後に,現在の最先端手法と比較して,戦略の効率性を示すシミュレーションを行う。
本研究は,データが少なく,取得に費用がかかる実世界のアプリケーションにおいて,文脈的盗聴エージェントの性能を向上させる可能性がある。 In this paper, we investigate transfer learning in partially observable contextual bandits, where agents have limited knowledge from other agents and partial information about hidden confounders. We first convert the problem to identifying or partially identifying causal effects between actions and rewards through optimization problems. To solve these optimization problems, we discretize the original functional constraints of unknown distributions into linear constraints, and sample compatible causal models via sequentially solving linear programmings to obtain causal bounds with the consideration of estimation error. Our sampling algorithms provide desirable convergence results for suitable sampling distributions. We then show how causal bounds can be applied to improving classical bandit algorithms and affect the regrets with respect to the size of action sets and function spaces. Notably, in the task with function approximation which allows us to handle general context distributions, our method improves the order dependence on function space size compared with previous literatures. We formally prove that our causally enhanced algorithms outperform classical bandit algorithms and achieve orders of magnitude faster convergence rates. Finally, we perform simulations that demonstrate the efficiency of our strategy compared to the current state-of-the-art methods. This research has the potential to enhance the performance of contextual bandit agents in real-world applications where data is scarce and costly to obtain. | 翻訳日:2023-09-07 03:47:24 公開日:2023-09-04 |
# 双対性ツイストからの量子コンピュータにおけるマヨラナモードの分離 Isolated Majorana mode in a quantum computer from a duality twist ( http://arxiv.org/abs/2308.02387v3 ) ライセンス: Link先を確認 | Sutapa Samanta, Derek S. Wang, Armin Rahmani, Aditi Mitra | (参考訳) 双対性、一般化対称性、理論モデルを超えた位相的欠陥の相互作用を研究することは、凝縮物物理学や量子材料において重要な課題である。
この物理学を示す単純なモデルは横場イジングモデルであり、クラマース・ワニエ双対変換を実行する非可逆位相的欠陥をホストすることができる。
空間の一点に作用するとき、この双対性欠陥は双対性ツイスト境界条件を課し、単一のマヨラナ零モードを結合する。
このマヨラナゼロモードは局所化されたパートナーがなく、有限系においても無限の寿命を持つため、珍しい。
二重性欠陥を持つ閉IsingチェーンのFloquet駆動を用いて、ディジタル量子コンピュータにおいてこのMajoranaゼロモードを生成する。
効率的なサンプリングプロトコルとエラー緩和のための複合戦略を用いて,関連する持続的自己相関関数を測定することで,モードの検出を行う。
また,mallana zeroモードはkramers-wannier双対性に関連する2つの領域の間のドメインウォールに存在することを示した。
最後に,分離マヨラナゼロモードの可積分性と対称性破壊摂動に対する堅牢性を強調した。
本研究は,ディジタル量子デバイスにおけるエキゾチックな位相的欠陥を調査するためのアプローチを提供する。 Investigating the interplay of dualities, generalized symmetries, and topological defects beyond theoretical models is an important challenge in condensed matter physics and quantum materials. A simple model exhibiting this physics is the transverse-field Ising model, which can host a noninvertible topological defect that performs the Kramers-Wannier duality transformation. When acting on one point in space, this duality defect imposes the duality twisted boundary condition and binds a single Majorana zero mode. This Majorana zero mode is unusual as it lacks localized partners and has an infinite lifetime, even in finite systems. Using Floquet driving of a closed Ising chain with a duality defect, we generate this Majorana zero mode in a digital quantum computer. We detect the mode by measuring its associated persistent autocorrelation function using an efficient sampling protocol and a compound strategy for error mitigation. We also show that the Majorana zero mode resides at the domain wall between two regions related by a Kramers-Wannier duality. Finally, we highlight the robustness of the isolated Majorana zero mode to integrability and symmetry-breaking perturbations. Our findings offer an approach to investigating exotic topological defects in digitized quantum devices. | 翻訳日:2023-09-07 03:46:06 公開日:2023-09-04 |
# 滑らかなアクティベーションを有する2層ニューラルネットワークのメモリ容量 Memory capacity of two layer neural networks with smooth activations ( http://arxiv.org/abs/2308.02001v2 ) ライセンス: Link先を確認 | Liam Madden and Christos Thrampoulidis | (参考訳) 2層ニューラルネットワークのメモリ容量を$m$の隠れニューロンと入力次元$d$(例えば、$md+m$トータルトレーニング可能なパラメータ)で決定することは、ネットワークが記憶できる一般的なデータの最大サイズを指す、基本的な機械学習問題である。
x^k$ が $\binom{d+k}{d-1}\ge n$ となるような多項式の活性化や、sgmoids や smoothed rectified linear units (smoothed relus) のような実解析的な活性化に対しては、$\lfloor md/2\rfloor$ の下限と、約 2 倍までの最適性を確立する。
類似の結果はheavisideおよびreluアクティベーションに限定された。
一般の実解析的活性化を分析するために、ネットワークのヤコビアン(英語版)の正確な総称階数(英語版)を導出する。
解析は古典線形代数的事実をハダマールの力のランクで拡張する。
全体として、我々のアプローチはメモリ容量に関する以前の作業と異なり、より深いモデルや他のアーキテクチャへの拡張の可能性を秘めています。 Determining the memory capacity of two layer neural networks with $m$ hidden neurons and input dimension $d$ (i.e., $md+m$ total trainable parameters), which refers to the largest size of general data the network can memorize, is a fundamental machine learning question. For polynomial activations of sufficiently high degree, such as $x^k$ with $\binom{d+k}{d-1}\ge n$, and real analytic activations, such as sigmoids and smoothed rectified linear units (smoothed ReLUs), we establish a lower bound of $\lfloor md/2\rfloor$ and optimality up to a factor of approximately 2. Analogous prior results were limited to Heaviside and ReLU activations. In order to analyze general real analytic activations, we derive the precise generic rank of the network's Jacobian, which can be written in terms of Hadamard powers and the Khatri-Rao product. Our analysis extends classical linear algebraic facts about the rank of Hadamard powers. Overall, our approach differs from prior works on memory capacity and holds promise for extending to deeper models and other architectures. | 翻訳日:2023-09-07 03:45:43 公開日:2023-09-04 |
# 経路付きトポロジカルグラフニューラルネットワークの一般化 Generalizing Topological Graph Neural Networks with Paths ( http://arxiv.org/abs/2308.06838v2 ) ライセンス: Link先を確認 | Quang Truong and Peter Chin | (参考訳) グラフニューラルネットワーク(GNN)は様々な分野で大きな進歩を遂げているが、1-Weisfeiler-Lehmannテストとして知られる理論的な制約によって妨げられている。
高次のGNNの最近の進歩は、この境界を克服することができるが、一般的には、傾きやサイクルのような特定のグラフコンポーネントを中心にしている。
しかし、我々の調査は別のルートで行われます。
すべてのグラフに固有のパスに重点を置いています。
我々はより一般的な位相的視点を構築し、他の位相的領域に関する確立された理論を橋渡しすることができる。
興味深いことに、グラフのサブ構造を仮定せずに、この分野での我々のアプローチは、いくつかのベンチマークで最先端のパフォーマンスを達成している。 While Graph Neural Networks (GNNs) have made significant strides in diverse areas, they are hindered by a theoretical constraint known as the 1-Weisfeiler-Lehmann test. Even though latest advancements in higher-order GNNs can overcome this boundary, they typically center around certain graph components like cliques or cycles. However, our investigation goes a different route. We put emphasis on paths, which are inherent in every graph. We are able to construct a more general topological perspective and form a bridge to certain established theories about other topological domains. Interestingly, without any assumptions on graph sub-structures, our approach surpasses earlier techniques in this field, achieving state-of-the-art performance on several benchmarks. | 翻訳日:2023-09-07 03:37:37 公開日:2023-09-04 |
# 予測言語処理におけるマルチモーダル大言語モデルにおける人間の視覚言語統合の証明 Evidence of Human-Like Visual-Linguistic Integration in Multimodal Large Language Models During Predictive Language Processing ( http://arxiv.org/abs/2308.06035v2 ) ライセンス: Link先を確認 | Viktor Kewenig, Christopher Edwards, Quitterie Lacome DEstalenx, Akilles Rechardt, Jeremy I Skipper and Gabriella Vigliocco | (参考訳) 大きな言語モデル(LLM)の高度な言語処理能力は、人間のような認知過程を再現する能力についての議論を刺激している。
LLMにおける言語処理と人間との差別化要因の1つは、言語入力がいくつかの知覚的モダリティに基礎を置いていることである。
マルチモーダルグラウンドリングは、視覚的コンテキストを言語情報と統合することで、次の単語の空間に制約を課し、認知負荷を減らし、理解を改善します。
近年のマルチモーダルLLM (mLLMs) は, 視覚言語的埋め込み空間と変圧器型アテンション機構を組み合わせて, 単語の予測を行う。
ここでは,mLLMにおけるマルチモーダル入力に基づく予測言語処理が人間と一致しているかを問う。
2人の被験者が短い音声映像クリップと、次の動詞や名詞の予測可能性を見た。
同じクリップはmLLM CLIPによって処理され、画像とテキストの特徴ベクトルの比較に基づいて予測可能性スコアが得られた。
視線追跡は参加者の視覚特徴を推定するために用いられ、クリップの視覚的注意重みが記録された。
予測可能性スコアのアライメントは,CLIP (unimodal state-of-the-art LLMのアライメントなし) とアライメント機構(注意重みが乱れていた場合や,注意のないマルチモーダルモデルに同じ入力が供給された場合のアライメントなし) のマルチモーダル性によってもたらされた。
さらに、CLIPの視覚的注意重みと人間の視線追跡データの間に大きな空間的重なりがあることを見出した。
結果から,マルチモーダル情報の統合プロセスは,mLLMとヒトにおける予測言語処理を支援することが示唆された。 The advanced language processing abilities of large language models (LLMs) have stimulated debate over their capacity to replicate human-like cognitive processes. One differentiating factor between language processing in LLMs and humans is that language input is often grounded in several perceptual modalities, whereas most LLMs process solely text-based information. Multimodal grounding allows humans to integrate - e.g. visual context with linguistic information and thereby place constraints on the space of upcoming words, reducing cognitive load and improving comprehension. Recent multimodal LLMs (mLLMs) combine a visual-linguistic embedding space with a transformer type attention mechanism for next-word prediction. Here we ask whether predictive language processing based on multimodal input in mLLMs aligns with humans. Two-hundred participants watched short audio-visual clips and estimated predictability of an upcoming verb or noun. The same clips were processed by the mLLM CLIP, with predictability scores based on comparing image and text feature vectors. Eye-tracking was used to estimate what visual features participants attended to, and CLIP's visual attention weights were recorded. We find that alignment of predictability scores was driven by multimodality of CLIP (no alignment for a unimodal state-of-the-art LLM) and by the attention mechanism (no alignment when attention weights were perturbated or when the same input was fed to a multimodal model without attention). We further find a significant spatial overlap between CLIP's visual attention weights and human eye-tracking data. Results suggest that comparable processes of integrating multimodal information, guided by attention to relevant visual features, supports predictive language processing in mLLMs and humans. | 翻訳日:2023-09-07 03:36:20 公開日:2023-09-04 |
# MS3D++:3Dオブジェクト検出におけるマルチソース非教師付きドメイン適応の専門家の集まり MS3D++: Ensemble of Experts for Multi-Source Unsupervised Domain Adaptation in 3D Object Detection ( http://arxiv.org/abs/2308.05988v2 ) ライセンス: Link先を確認 | Darren Tsai, Julie Stephany Berrio, Mao Shan, Eduardo Nebot and Stewart Worrall | (参考訳) 未知の領域に3D検出器を配置すると、トレーニングデータセットからライダー、地理、天候の変化により、検出率が70-90%低下することが示されている。
この領域ギャップは、密集した観測対象の発見の欠如、不一致の信頼スコア、高信頼の偽陽性の増加、検出器の信頼性の低下につながる。
そこで我々は,マルチソース非教師なしドメイン適応のための3dオブジェクト検出のための自己学習フレームワークms3d++を紹介する。
MS3D++は高品質な擬似ラベルを生成し、3D検出器はその密度に関係なく、様々なライダータイプで高い性能を達成できる。
提案手法は,異なるソース領域からの複数フレーム事前学習検出器のアンサンブルの予測を効果的に融合し,ドメインの一般化を改善する。
その後,ボックスの局所化とオブジェクト分類における時間的一貫性を確保するために,予測を時間的に洗練する。
さらに、クロスドメインコンテキストにおける様々な3D検出器部品の性能と慣用性について詳細な研究を行い、クロスドメイン検出器アンサンブルの改善に有用な知見を提供する。
Waymo、nuScenes、Lyftの実験結果によると、MS3D++の擬似ラベルでトレーニングされた検出器は、低密度ライダーと高密度ライダーの両方に対するBird's Eye View (BEV)評価において、人間の注釈付きラベルによるトレーニングに匹敵する、最先端のパフォーマンスを実現している。
コードはhttps://github.com/darrenjkt/MS3Dで入手できる。 Deploying 3D detectors in unfamiliar domains has been demonstrated to result in a significant 70-90% drop in detection rate due to variations in lidar, geography, or weather from their training dataset. This domain gap leads to missing detections for densely observed objects, misaligned confidence scores, and increased high-confidence false positives, rendering the detector highly unreliable. To address this, we introduce MS3D++, a self-training framework for multi-source unsupervised domain adaptation in 3D object detection. MS3D++ generates high-quality pseudo-labels, allowing 3D detectors to achieve high performance on a range of lidar types, regardless of their density. Our approach effectively fuses predictions of an ensemble of multi-frame pre-trained detectors from different source domains to improve domain generalization. We subsequently refine predictions temporally to ensure temporal consistency in box localization and object classification. Furthermore, we present an in-depth study into the performance and idiosyncrasies of various 3D detector components in a cross-domain context, providing valuable insights for improved cross-domain detector ensembling. Experimental results on Waymo, nuScenes and Lyft demonstrate that detectors trained with MS3D++ pseudo-labels achieve state-of-the-art performance, comparable to training with human-annotated labels in Bird's Eye View (BEV) evaluation for both low and high density lidar. Code is available at https://github.com/darrenjkt/MS3D | 翻訳日:2023-09-07 03:35:45 公開日:2023-09-04 |
# 音声の匿名化:話者匿名化手法の評価と設計 Anonymizing Speech: Evaluating and Designing Speaker Anonymization Techniques ( http://arxiv.org/abs/2308.04455v2 ) ライセンス: Link先を確認 | Pierre Champion | (参考訳) 音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。
データ収集は、ほとんどの音声サービスを支える効率的なツールの開発を可能にするが、集中ストレージが個人の音声データをサイバー脅威に脆弱にするため、ユーザーにとって深刻なプライバシー問題を引き起こす。
AmazonのAlexa、GoogleのHome、AppleのSiriといった音声ベースのデジタルアシスタントの利用が増加し、パーソナル音声データの収集が容易になったことで、音声クローズとスピーカー/ジェンダー/病理/etcの悪意ある使用のリスクが高まった。
認識が高まりました
本論文は,音声の匿名化と匿名化の程度を評価するための解を提案する。
本研究において、匿名化とは、音声信号(例えば、言語コンテンツへのアクセス)の有用性(有効性)を維持しつつ、個人音声データをアイデンティティーと結びつかないものにすることを指す。
まず、評価プロトコルがプライバシー保護の程度を適切に評価するために考慮する必要があるいくつかの課題を特定することから始める。
評価のために匿名化システムをどのように構成するかを明確にし、多くの実用的なデプロイメント構成ではプライバシ評価が許されていないことを強調する。
さらに,最も一般的な音声変換に基づく匿名化システムについて検討し,いくつかの制限を克服するための新しい手法を提案する前に,その弱点を特定する。
匿名化システムのすべてのコンポーネントを分離し、各コンポーネントに関連付けられた話者PPIの度合いを評価する。
次に,各コンポーネントに対して,実用性を維持しながら話者ppiを可能な限り削減するための変換手法を提案する。
我々は、量子化に基づく変換に基づく匿名化アルゴリズムを、最もよく使われ、よく知られたノイズベースアプローチの代替として推奨する。
最後に,匿名化を回避すべく,新たな攻撃手法を提案する。 The growing use of voice user interfaces has led to a surge in the collection and storage of speech data. While data collection allows for the development of efficient tools powering most speech services, it also poses serious privacy issues for users as centralized storage makes private personal speech data vulnerable to cyber threats. With the increasing use of voice-based digital assistants like Amazon's Alexa, Google's Home, and Apple's Siri, and with the increasing ease with which personal speech data can be collected, the risk of malicious use of voice-cloning and speaker/gender/pathological/etc. recognition has increased. This thesis proposes solutions for anonymizing speech and evaluating the degree of the anonymization. In this work, anonymization refers to making personal speech data unlinkable to an identity while maintaining the usefulness (utility) of the speech signal (e.g., access to linguistic content). We start by identifying several challenges that evaluation protocols need to consider to evaluate the degree of privacy protection properly. We clarify how anonymization systems must be configured for evaluation purposes and highlight that many practical deployment configurations do not permit privacy evaluation. Furthermore, we study and examine the most common voice conversion-based anonymization system and identify its weak points before suggesting new methods to overcome some limitations. We isolate all components of the anonymization system to evaluate the degree of speaker PPI associated with each of them. Then, we propose several transformation methods for each component to reduce as much as possible speaker PPI while maintaining utility. We promote anonymization algorithms based on quantization-based transformation as an alternative to the most-used and well-known noise-based approach. Finally, we endeavor a new attack method to invert anonymization. | 翻訳日:2023-09-07 03:34:00 公開日:2023-09-04 |
# real robot challenge 2022: 現実世界のオフラインデータからデクスター処理を学ぶ Real Robot Challenge 2022: Learning Dexterous Manipulation from Offline Data in the Real World ( http://arxiv.org/abs/2308.07741v2 ) ライセンス: Link先を確認 | Nico G\"urtler, Felix Widmaier, Cansu Sancaktar, Sebastian Blaes, Pavel Kolev, Stefan Bauer, Manuel W\"uthrich, Markus Wulfmeier, Martin Riedmiller, Arthur Allshire, Qiang Wang, Robert McCarthy, Hangyeol Kim, Jongchan Baek Pohang, Wookyong Kwon, Shanliang Qian, Yasunori Toshimitsu, Mike Yan Michelis, Amirhossein Kazemipour, Arman Raayatsanati, Hehui Zheng, Barnabas Gavin Cangan, Bernhard Sch\"olkopf, Georg Martius | (参考訳) 実際のロボットの実験には時間とコストが要求される。
このため、強化学習(RL)コミュニティの大部分はシミュレータを使ってアルゴリズムを開発し、ベンチマークしている。
しかしながら、シミュレーションで得られた洞察は、実際のロボット、特に環境との複雑な相互作用に関わるタスクに必ずしも変換されない。
それゆえ、実際のロボットチャレンジ2022は、参加者が実際のロボットを遠隔で実験することを可能にすることで、rlとロボットコミュニティの橋渡しとなった。
近年、オフラインの強化学習が成熟し、事前コンパイルされたデータセットから学習するための有望なパラダイムとなり、高価なオンラインインタラクションへの依存が軽減された。
そこで我々は参加者に対して,提供された実ロボットデータセットからプッシュ,握り,手動の向きを含む2つの巧妙な操作タスクを学ぶように求めた。
大規模なソフトウェアドキュメンテーションと、実際のセットアップのシミュレーションに基づく初期ステージは、競争を特にアクセスしやすくした。
それぞれのチームに、オフラインで学習したポリシーを7つのTriFingerプラットホームのクラスタで評価するための、十分なアクセス予算を与えることで、機械学習とロボティクスのエキサイティングな競争を組織した。
本研究では,競争のルールを述べ,勝敗チームが使用する手法を示し,課題データセット上の最先端のオフラインRLアルゴリズムのベンチマークと比較する。 Experimentation on real robots is demanding in terms of time and costs. For this reason, a large part of the reinforcement learning (RL) community uses simulators to develop and benchmark algorithms. However, insights gained in simulation do not necessarily translate to real robots, in particular for tasks involving complex interactions with the environment. The Real Robot Challenge 2022 therefore served as a bridge between the RL and robotics communities by allowing participants to experiment remotely with a real robot - as easily as in simulation. In the last years, offline reinforcement learning has matured into a promising paradigm for learning from pre-collected datasets, alleviating the reliance on expensive online interactions. We therefore asked the participants to learn two dexterous manipulation tasks involving pushing, grasping, and in-hand orientation from provided real-robot datasets. An extensive software documentation and an initial stage based on a simulation of the real set-up made the competition particularly accessible. By giving each team plenty of access budget to evaluate their offline-learned policies on a cluster of seven identical real TriFinger platforms, we organized an exciting competition for machine learners and roboticists alike. In this work we state the rules of the competition, present the methods used by the winning teams and compare their results with a benchmark of state-of-the-art offline RL algorithms on the challenge datasets. | 翻訳日:2023-09-07 03:25:56 公開日:2023-09-04 |
# エントロピー最小化における群衆の知恵を活用したオープンセットテスト時間適応に向けて Towards Open-Set Test-Time Adaptation Utilizing the Wisdom of Crowds in Entropy Minimization ( http://arxiv.org/abs/2308.06879v2 ) ライセンス: Link先を確認 | Jungsoo Lee, Debasmit Das, Jaegul Choo, Sungha Choi | (参考訳) 実験時間適応 (TTA) 法は、一般に、源となる事前訓練されたモデルをラベルのない対象領域に適応させるためにモデルの予測(例えばエントロピー最小化)に依存するが、ノイズ信号に悩まされる。
1)間違っているか
2) オープンセット予測。
このようなノイズ信号によって長期安定適応が妨げられるため、そのようなエラー蓄積のないトレーニングモデルは実用的TTAにとって不可欠である。
オープンセットTTAを含むこれらの課題に対処するため, 以下の重要な経験的発見から着想を得た, 単純かつ効果的なサンプル選択法を提案する。
エントロピー最小化は予測ラベルの確率を増加させる(すなわち信頼度値)ことをモデルに強制するが、ノイズのあるサンプルは信頼度値の低下を示す。
より具体的に言うと、エントロピー最小化は個々のサンプルの予測の信頼度値を上昇させようとするが、他の多くの予測(すなわち群衆の知恵)からの信号の影響によって個人の信頼度が上昇または低下する可能性がある。
この事実から、一般に正しい信号に見られるような「群衆の知恵」と混同されるノイズ信号は、それらを増やそうとするにも拘わらず、間違ったサンプルの個人的信頼値を上げることができない。
そこで,本研究では,従来のモデルよりも信頼度が低く,ノイズの少ないサンプルをフィルタリングする手法を提案する。
提案手法は既存のTTA手法に適用可能であり,画像分類(例:TENTによる誤り率49.4%削減)とセマンティックセグメンテーション(例:TENTによるmIoUの11.7%向上)の両方において,長期適応性能を向上させる。 Test-time adaptation (TTA) methods, which generally rely on the model's predictions (e.g., entropy minimization) to adapt the source pretrained model to the unlabeled target domain, suffer from noisy signals originating from 1) incorrect or 2) open-set predictions. Long-term stable adaptation is hampered by such noisy signals, so training models without such error accumulation is crucial for practical TTA. To address these issues, including open-set TTA, we propose a simple yet effective sample selection method inspired by the following crucial empirical finding. While entropy minimization compels the model to increase the probability of its predicted label (i.e., confidence values), we found that noisy samples rather show decreased confidence values. To be more specific, entropy minimization attempts to raise the confidence values of an individual sample's prediction, but individual confidence values may rise or fall due to the influence of signals from numerous other predictions (i.e., wisdom of crowds). Due to this fact, noisy signals misaligned with such 'wisdom of crowds', generally found in the correct signals, fail to raise the individual confidence values of wrong samples, despite attempts to increase them. Based on such findings, we filter out the samples whose confidence values are lower in the adapted model than in the original model, as they are likely to be noisy. Our method is widely applicable to existing TTA methods and improves their long-term adaptation performance in both image classification (e.g., 49.4% reduced error rates with TENT) and semantic segmentation (e.g., 11.7% gain in mIoU with TENT). | 翻訳日:2023-09-07 03:25:12 公開日:2023-09-04 |
# スパイキング拡散:スパイキングニューラルネットワークを用いたベクトル量子離散拡散モデル Spiking-Diffusion: Vector Quantized Discrete Diffusion Model with Spiking Neural Networks ( http://arxiv.org/abs/2308.10187v3 ) ライセンス: Link先を確認 | Mingxuan Liu, Rui Wen, and Hong Chen | (参考訳) スパイキングニューラルネットワーク(SNN)は、そのバイナリとイベント駆動アーキテクチャにより、エネルギー効率のよいニューロモルフィックチップに多大な可能性を持っている。
SNNは主に分類タスクで使用されているが、画像生成タスクの探索は限られている。
このギャップを埋めるために,ベクトル量子化離散拡散モデルに基づくスパイキング拡散モデルを提案する。
まず,SNN(VQ-SVAE)を用いたベクトル量子化変分オートエンコーダを開発し,画像の離散潜在空間を学習する。
VQ-SVAEでは、画像特徴はスパイク発火速度とシナプス後電位の両方を用いて符号化され、適応スパイク発生器はスパイク列車の形で埋め込み特徴を復元するように設計されている。
次に、離散潜在空間における吸収状態拡散を行い、SNNで拡散拡散画像デコーダ(SDID)を構築する。
私たちの仕事は、SNN層から完全に拡散モデルを構築する最初のものです。
MNIST、FMNIST、KMNIST、Leters、Cifar10の実験結果は、スパイキング拡散が既存のSNNベースの生成モデルより優れていることを示している。
上記のデータセット上で37.50, 91.98, 59.23, 67.41, 120.5のfidをそれぞれ達成し, 58.60\%, 18.75\%, 64.51\%, 29.75\%, 44.88\%の削減を行った。
私たちのコードは \url{https://github.com/Arktis2022/Spiking-Diffusion} で公開されます。 Spiking neural networks (SNNs) have tremendous potential for energy-efficient neuromorphic chips due to their binary and event-driven architecture. SNNs have been primarily used in classification tasks, but limited exploration on image generation tasks. To fill the gap, we propose a Spiking-Diffusion model, which is based on the vector quantized discrete diffusion model. First, we develop a vector quantized variational autoencoder with SNNs (VQ-SVAE) to learn a discrete latent space for images. In VQ-SVAE, image features are encoded using both the spike firing rate and postsynaptic potential, and an adaptive spike generator is designed to restore embedding features in the form of spike trains. Next, we perform absorbing state diffusion in the discrete latent space and construct a spiking diffusion image decoder (SDID) with SNNs to denoise the image. Our work is the first to build the diffusion model entirely from SNN layers. Experimental results on MNIST, FMNIST, KMNIST, Letters, and Cifar10 demonstrate that Spiking-Diffusion outperforms the existing SNN-based generation model. We achieve FIDs of 37.50, 91.98, 59.23, 67.41, and 120.5 on the above datasets respectively, with reductions of 58.60\%, 18.75\%, 64.51\%, 29.75\%, and 44.88\% in FIDs compared with the state-of-art work. Our code will be available at \url{https://github.com/Arktis2022/Spiking-Diffusion}. | 翻訳日:2023-09-07 03:16:43 公開日:2023-09-04 |
# CausalGPTに向けて : LLMにおける因果一貫性の促進による多元的知識推論 Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs ( http://arxiv.org/abs/2308.11914v2 ) ライセンス: Link先を確認 | Ziyi Tang, Ruilin Wang, Weixing Chen, Keze Wang, Yang Liu, Tianshui Chen, Liang Lin | (参考訳) LLMの進歩にもかかわらず、知識に基づく推論は、知識のリコールと推論の脆弱さのために、長く続く問題である。
既存の手法は、LLMが自律的に問題を計画し解決したり、概念や推論の誤りに対処することなく、推論チェーンを広範囲にサンプリングしたりすることを推奨している。
推論の誤りを軽減し,マルチエージェントコラボレーションからのインスピレーションを引き出すことを目的として,知識に基づく推論における忠実さと因果性を高める枠組みを提案する。
具体的には、複数の知的エージェント(すなわち、推論者および評価者)を用いて、推論と合意のパラダイムで協調して働くことを提案する。
推論者は、オープンドメインの問題を解決するために、人間のような因果関係のソリューションを提供することに集中する。
一方、 \textit{evaluator} エージェントは、解が非因果的視点から導出可能で、反事実的候補に挑戦されたときにまだ保持されているかどうかを精査する。
様々な知識推論タスク(科学質問応答やコモンセンス推論など)に関する広範囲かつ包括的な評価によると、我々のフレームワークは、最先端のアプローチを大きなマージンで比較する上で優れています。 Despite advancements in LLMs, knowledge-based reasoning remains a longstanding issue due to the fragility of knowledge recall and inference. Existing methods primarily encourage LLMs to autonomously plan and solve problems or to extensively sample reasoning chains without addressing the conceptual and inferential fallacies. Attempting to alleviate inferential fallacies and drawing inspiration from multi-agent collaboration, we present a framework to increase faithfulness and causality for knowledge-based reasoning. Specifically, we propose to employ multiple intelligent agents (i.e., reasoners and an evaluator) to work collaboratively in a reasoning-and-consensus paradigm for elevated reasoning faithfulness. The reasoners focus on providing solutions with human-like causality to solve open-domain problems. On the other hand, the \textit{evaluator} agent scrutinizes if a solution is deducible from a non-causal perspective and if it still holds when challenged by a counterfactual candidate. According to the extensive and comprehensive evaluations on a variety of knowledge reasoning tasks (e.g., science question answering and commonsense reasoning), our framework outperforms all compared state-of-the-art approaches by large margins. | 翻訳日:2023-09-07 03:08:26 公開日:2023-09-04 |
# 航空ビジョン・ダイアログナビゲーションのための目標位置グラフ認識トランスフォーマ Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog Navigation ( http://arxiv.org/abs/2308.11561v4 ) ライセンス: Link先を確認 | Yifei Su, Dong An, Yuan Xu, Kehan Chen, Yan Huang | (参考訳) 本報告では,ICCV CLVL 2023におけるAVDNチャレンジの入賞方法について詳述する。
このコンペティションは、ドローンエージェントが対話履歴と空中観測を関連づけて目的地に到達する必要がある、ANDH(Aerial Navigation from Dialog History)タスクに対処する。
ドローンエージェントのクロスモーダルグラウンド機能を改善するため,TG-GAT(Target-Grounded Graph-Aware Transformer)フレームワークを提案する。
具体的には、TG-GATはまずグラフ対応トランスフォーマーを利用して時空間依存性をキャプチャし、ナビゲーション状態のトラッキングとロバストなアクションプランニングに役立てる。
加えて、エージェントが参照するランドマークに対する認識を高めるために補助的な視覚接地タスクが考案されている。
さらに,大規模言語モデルに基づくハイブリッド拡張戦略を用いて,データ不足の軽減を図る。
我々のTG-GATフレームワークは、それぞれSPLとSRメトリクスのベースラインに対して2.2%と3.0%の絶対的な改善を達成しました。
コードはhttps://github.com/yifeisu/tg-gatで入手できる。 This report details the methods of the winning entry of the AVDN Challenge in ICCV CLVL 2023. The competition addresses the Aerial Navigation from Dialog History (ANDH) task, which requires a drone agent to associate dialog history with aerial observations to reach the destination. For better cross-modal grounding abilities of the drone agent, we propose a Target-Grounded Graph-Aware Transformer (TG-GAT) framework. Concretely, TG-GAT first leverages a graph-aware transformer to capture spatiotemporal dependency, which benefits navigation state tracking and robust action planning. In addition,an auxiliary visual grounding task is devised to boost the agent's awareness of referred landmarks. Moreover, a hybrid augmentation strategy based on large language models is utilized to mitigate data scarcity limitations. Our TG-GAT framework won the AVDN Challenge, with 2.2% and 3.0% absolute improvements over the baseline on SPL and SR metrics, respectively. The code is available at https://github.com/yifeisu/TG-GAT. | 翻訳日:2023-09-07 03:06:18 公開日:2023-09-04 |
# Do-Not-Answer: LLMにおけるセーフガードの評価データセット Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs ( http://arxiv.org/abs/2308.13387v2 ) ライセンス: Link先を確認 | Yuxia Wang, Haonan Li, Xudong Han, Preslav Nakov, Timothy Baldwin | (参考訳) 大きな言語モデル(LLM)の急速な進化に伴い、新しく予測しにくい有害な能力が出現している。
これによって開発者は,LSMを責任を持ってデプロイするために,“危険な機能”の評価を通じてリスクを識別することが可能になる。
本研究では,LLMの安全性を評価するための最初のオープンソースデータセットを収集し,より安全なLLMを低コストでデプロイする。
私たちのデータセットは、責任ある言語モデルが従うべきでない命令のみで構成されている。
これらの命令に対する6つの人気のあるLCMの応答を注釈し評価する。
本アノテーションに基づき, BERTライクな分類器を複数トレーニングし, 自動安全性評価において, GPT-4に匹敵する結果が得られることを確認した。
警告: 本論文は攻撃的、有害、または偏見のあるデータを含む。 With the rapid evolution of large language models (LLMs), new and hard-to-predict harmful capabilities are emerging. This requires developers to be able to identify risks through the evaluation of "dangerous capabilities" in order to responsibly deploy LLMs. In this work, we collect the first open-source dataset to evaluate safeguards in LLMs, and deploy safer open-source LLMs at a low cost. Our dataset is curated and filtered to consist only of instructions that responsible language models should not follow. We annotate and assess the responses of six popular LLMs to these instructions. Based on our annotation, we proceed to train several BERT-like classifiers, and find that these small classifiers can achieve results that are comparable with GPT-4 on automatic safety evaluation. Warning: this paper contains example data that may be offensive, harmful, or biased. | 翻訳日:2023-09-07 02:57:13 公開日:2023-09-04 |
# 文法と言語モデルの構築 Construction Grammar and Language Models ( http://arxiv.org/abs/2308.13315v2 ) ライセンス: Link先を確認 | Harish Tayyar Madabushi and Laurence Romain and Petar Milin and Dagmar Divjak | (参考訳) 近年のディープラーニングと自然言語処理の進歩は、主にクローゼのようなタスクで訓練され、建設的な知識を含む重要な言語情報にアクセスできることを示す強力なモデルを生み出している。
この画期的な発見は、計算方法と建設文法研究の相乗的関係にエキサイティングな機会をもたらす。
本章では,計算手法と構成文法の相互作用に対する3つの異なるアプローチについて考察する。
(i)テキスト解析のための計算方法
(ii)計算構成文法、及び
(iii)ディープラーニングモデル、特に言語モデルに焦点を当てた。
最初の2つのアプローチは、計算手法を使用するための文脈的基盤として、ディープラーニングモデルのアクセス可能で、かつ包括的な概要を提供する前に触れる。
さらに,これらのモデルにおける構築的関連情報の出現を探索する実験と,これらのモデルにとって課題となる構築文法の側面を考察する。
本章は自然言語処理と構築文法の分野の研究者間のコラボレーションを促進することを目的としている。
そうすることで、両方の分野で新たな洞察と進歩の道を開いたいと考えています。 Recent progress in deep learning and natural language processing has given rise to powerful models that are primarily trained on a cloze-like task and show some evidence of having access to substantial linguistic information, including some constructional knowledge. This groundbreaking discovery presents an exciting opportunity for a synergistic relationship between computational methods and Construction Grammar research. In this chapter, we explore three distinct approaches to the interplay between computational methods and Construction Grammar: (i) computational methods for text analysis, (ii) computational Construction Grammar, and (iii) deep learning models, with a particular focus on language models. We touch upon the first two approaches as a contextual foundation for the use of computational methods before providing an accessible, yet comprehensive overview of deep learning models, which also addresses reservations construction grammarians may have. Additionally, we delve into experiments that explore the emergence of constructionally relevant information within these models while also examining the aspects of Construction Grammar that may pose challenges for these models. This chapter aims to foster collaboration between researchers in the fields of natural language processing and Construction Grammar. By doing so, we hope to pave the way for new insights and advancements in both these fields. | 翻訳日:2023-09-07 02:56:59 公開日:2023-09-04 |
# 非古典的性質の保存における重力猫状態の利点 Advantage of gravitational cat states in preserving non-classical characteristics ( http://arxiv.org/abs/2308.12536v2 ) ライセンス: Link先を確認 | Atta ur Rahman, Ao-Xiang Liu, Saeed Haddadi, Cong-Feng Qiao | (参考訳) 量子相関性を維持するために, 重力猫状態の資源性について検討する。
本研究では, 熱場, 古典確率場, 一般崩壊場, パワーロー騒音場などの異なる条件下での重力猫状態のダイナミクスについて検討する。
特に、2つのキュービットにおけるワンウェイステアビリティ、ベル非局所性、絡み合い、純度が主な焦点です。
また,量子相関のダイナミクスと状態の純度に関する弱い測定反転プロトコルについても論じた。
以上の結果から,重力猫状態は量子相関を保ち,量子情報処理プロトコルの展開に優れた資源の1つであることが示唆された。 We investigate how resourceful gravitational cat states are to preserve quantum correlations. In this regard, we explore the dynamics of gravitational cat states under different situations such as thermal, classical stochastic, general decaying, and power-law noisy fields. In particular, the one-way steerability, Bell non-locality, entanglement, and purity in two qubits are our main focus. We also address the weak measurement reversal protocol on the dynamics of quantum correlations and purity of the state. Our results show that the gravitational cat states have a reliable and better capacity to preserve quantum correlations and remain one of the good resources for the deployment of quantum information processing protocols. | 翻訳日:2023-09-07 02:56:27 公開日:2023-09-04 |
# 超伝導回路におけるフェルミオンボソンモデルのデジタルアナログ量子コンピューティング Digital-analog quantum computing of fermion-boson models in superconducting circuits ( http://arxiv.org/abs/2308.12040v2 ) ライセンス: Link先を確認 | Shubham Kumar, Narendra N. Hegade, Enrique Solano, Francisco Albarr\'an-Arriagada, and Gabriel Alvarado Barrios | (参考訳) 本稿では,ハバード・ホルシュタイン模型をシミュレートするディジタルアナログ量子アルゴリズムを提案し,強相関フェルミオン-ボーソン相互作用を超伝導回路と適切なアーキテクチャで記述する。
共振器で接続された量子ビットの線形鎖を持ち、電子-電子(e-e)と電子-フォノン(e-p)の相互作用をエミュレートする。
本手法はハバード・ホルシュタインモデルを含むフェルミオン・ボソンモデルのデジタルアナログ量子コンピューティング(DAQC)に適している。
ディジタルステップとアナログブロックのシーケンスであるdaqcアルゴリズムの回路深さの低減が,純粋ディジタルアプローチよりも優れていることを示す。
半充填2点ハバード・ホルシュタイン模型の量子シミュレーションを例示する。
そのような例では、0.98以上の忠実度を求め、固体系の動的挙動を研究するのに適していることを示す。
本提案は,化学,材料,高エネルギー物理学の複雑な計算システムへの扉を開く。 We propose a digital-analog quantum algorithm for simulating the Hubbard-Holstein model, describing strongly-correlated fermion-boson interactions, in a suitable architecture with superconducting circuits. It comprises a linear chain of qubits connected by resonators, emulating electron-electron (e-e) and electron-phonon (e-p) interactions, as well as fermion tunneling. Our approach is adequate for a digital-analog quantum computing (DAQC) of fermion-boson models including those described by the Hubbard-Holstein model. We show the reduction in the circuit depth of the DAQC algorithm, a sequence of digital steps and analog blocks, outperforming the purely digital approach. We exemplify the quantum simulation of a half-filling two-site Hubbard-Holstein model. In such example we obtain fidelities larger than 0.98, showing that our proposal is suitable to study the dynamical behavior of solid-state systems. Our proposal opens the door to computing complex systems for chemistry, materials, and high-energy physics. | 翻訳日:2023-09-07 02:55:52 公開日:2023-09-04 |
# 指示から本質的人間価値へ ---大規模モデルのためのアライメント目標の調査- From Instructions to Intrinsic Human Values -- A Survey of Alignment Goals for Big Models ( http://arxiv.org/abs/2308.12014v2 ) ライセンス: Link先を確認 | Jing Yao, Xiaoyuan Yi, Xiting Wang, Jindong Wang and Xing Xie | (参考訳) 大きなモデルは、大きな言語モデル(llm)によって例示され、通常、巨大なデータに基づいて事前訓練されたモデルであり、巨大なパラメータで構成されます。
しかし、大きなモデルと人間の日常生活との絡み合いが増すことは潜在的なリスクをもたらし、深刻な社会的危害を引き起こす可能性がある。
そのため、LLMを人間と整合させ、利用者の指示に従い、人間の嗜好を満たすために多くの努力がなされている。
それでも 'What toaligned' は十分に議論されておらず、不適切なアライメントの目標がバックファイアすることさえある。
本稿では,既存の作業におけるアライメント目標の総合的な調査を行い,その進化経路を辿り,最も重要な目標の特定を支援する。
特に,アライメント目標の定義とアライメント評価という2つの視点から関連する作業について検討する。
我々の分析は3つの異なるアライメント目標を包含し、基本的な能力から価値指向への目標転換を明らかにし、LLMの強化のためのアライメント目標として本質的な人間の価値の可能性を示している。
これらの結果を踏まえて,本質的価値アライメントを実現するための課題をさらに議論し,大規模モデルのアライメントに関する今後の研究のために利用可能なリソースのコレクションを提供する。 Big models, exemplified by Large Language Models (LLMs), are models typically pre-trained on massive data and comprised of enormous parameters, which not only obtain significantly improved performance across diverse tasks but also present emergent capabilities absent in smaller models. However, the growing intertwining of big models with everyday human lives poses potential risks and might cause serious social harm. Therefore, many efforts have been made to align LLMs with humans to make them better follow user instructions and satisfy human preferences. Nevertheless, `what to align with' has not been fully discussed, and inappropriate alignment goals might even backfire. In this paper, we conduct a comprehensive survey of different alignment goals in existing work and trace their evolution paths to help identify the most essential goal. Particularly, we investigate related works from two perspectives: the definition of alignment goals and alignment evaluation. Our analysis encompasses three distinct levels of alignment goals and reveals a goal transformation from fundamental abilities to value orientation, indicating the potential of intrinsic human values as the alignment goal for enhanced LLMs. Based on such results, we further discuss the challenges of achieving such intrinsic value alignment and provide a collection of available resources for future research on the alignment of big models. | 翻訳日:2023-09-07 02:54:56 公開日:2023-09-04 |
# 固定予算付き2要素バンドのベストアーム同定のための一様最適アルゴリズムについて On Uniformly Optimal Algorithms for Best Arm Identification in Two-Armed Bandits with Fixed Budget ( http://arxiv.org/abs/2308.12000v3 ) ライセンス: Link先を確認 | Po-An Wang, Kaito Ariu, Alexandre Proutiere | (参考訳) ベルヌーイ報奨を伴う確率的二本腕包帯における固定予算によるベストアーム識別の問題について検討した。
アルゴリズムが存在しないことを証明します
(i)すべてのインスタンスで各アームを等しくサンプリングするアルゴリズム(このアルゴリズムは「一様サンプリング」と呼ばれる)と同様に、そのアルゴリズムを実行する。
(ii) このアルゴリズムを少なくとも1つのインスタンスで厳密に上回る。
要するに、一様サンプリングアルゴリズムより優れたアルゴリズムは存在しない。
この結果に向けて、まず自然クラスである it consistent} と {\it stable} アルゴリズムを導入し、全てのインスタンスにおける一様サンプリングアルゴリズムと同様に動作する任意のアルゴリズムがこのクラスに属することを示す。
証明は、任意の一貫した安定なアルゴリズムで満たされた誤差率の低い境界を導出し、均一サンプリングアルゴリズムがこの下限に一致することを示す。
この結果は, cite{qin2022open} で示される2つの開問題に対する解を提供する。 We study the problem of best-arm identification with fixed budget in stochastic two-arm bandits with Bernoulli rewards. We prove that there is no algorithm that (i) performs as well as the algorithm sampling each arm equally (this algorithm is referred to as the {\it uniform sampling} algorithm) on all instances, and that (ii) strictly outperforms this algorithm on at least one instance. In short, there is no algorithm better than the uniform sampling algorithm. Towards this result, we first introduce the natural class of {\it consistent} and {\it stable} algorithms, and show that any algorithm that performs as well as the uniform sampling algorithm on all instances belongs to this class. The proof then proceeds by deriving a lower bound on the error rate satisfied by any consistent and stable algorithm, and by showing that the uniform sampling algorithm matches this lower bound. Our results provide a solution to the two open problems presented in \cite{qin2022open}. | 翻訳日:2023-09-07 02:54:32 公開日:2023-09-04 |
# LLMによる交通信号制御のためのSim-to-real転送 LLM Powered Sim-to-real Transfer for Traffic Signal Control ( http://arxiv.org/abs/2308.14284v2 ) ライセンス: Link先を確認 | Longchao Da, Minchiuan Gao, Hao Mei, Hua Wei | (参考訳) 交通信号制御(TSC)の課題に対して,効率的な輸送と渋滞の軽減を目的とした多くの解決策が提案されている。
近年,シミュレータの試行錯誤による強化学習 (Reinforcement Learning, RL) 手法によって有望な結果が得られ,都市での混雑頭痛の解決に自信が持たれている。
しかし、シミュレータ訓練されたポリシーが現実世界にデプロイされる際には、まだパフォーマンスのギャップが残っている。
この問題は主に、トレーニングシミュレータと実環境とのシステムの動的差異によって引き起こされる。
大規模言語モデル(LLM)は大量知識に基づいて訓練されており、驚くべき推論能力を備えていることが判明した。
本研究では,llmを利用して,プロンプトベースの接地行動変換によるシステムダイナミクスの理解とプロファイルを行う。
クローズプロンプトテンプレートを受信し、アクセス可能なコンテキストに基づいて回答を入力し、事前学習したLCMの推論能力を利用して、気象条件、交通状況、道路タイプが交通力学にどのように影響するかを理解し、これを認識し、現実的なダイナミクスに基づいてポリシーのアクションを取り込み、グラウンドドするので、エージェントはより現実的なポリシーを学ぶのに役立つ。
我々はDQNを用いてシミュレーションから現実(シミュレート・トゥ・リアル)までの性能ギャップを緩和するPromptGATの有効性を示す実験を行った。 Numerous solutions are proposed for the Traffic Signal Control (TSC) tasks aiming to provide efficient transportation and mitigate congestion waste. In recent, promising results have been attained by Reinforcement Learning (RL) methods through trial and error in simulators, bringing confidence in solving cities' congestion headaches. However, there still exist performance gaps when simulator-trained policies are deployed to the real world. This issue is mainly introduced by the system dynamic difference between the training simulator and the real-world environments. The Large Language Models (LLMs) are trained on mass knowledge and proved to be equipped with astonishing inference abilities. In this work, we leverage LLMs to understand and profile the system dynamics by a prompt-based grounded action transformation. Accepting the cloze prompt template, and then filling in the answer based on accessible context, the pre-trained LLM's inference ability is exploited and applied to understand how weather conditions, traffic states, and road types influence traffic dynamics, being aware of this, the policies' action is taken and grounded based on realistic dynamics, thus help the agent learn a more realistic policy. We conduct experiments using DQN to show the effectiveness of the proposed PromptGAT's ability in mitigating the performance gap from simulation to reality (sim-to-real). | 翻訳日:2023-09-07 02:48:31 公開日:2023-09-04 |
# さまざまなデータモダリティのためのAI生成コンテンツ:調査 AI-generated Content for Various Data Modalities: A Survey ( http://arxiv.org/abs/2308.14177v2 ) ライセンス: Link先を確認 | Lin Geng Foo, Hossein Rahmani, Jun Liu | (参考訳) AIGCメソッドは、AIアルゴリズムを使用してテキスト、画像、ビデオ、3Dアセット、その他のメディアを生成することを目的としている。
幅広い応用と最近の研究の可能性を実証したAIGCの開発が近年注目を集めており、画像、ビデオ、テキスト、三次元形状(ボクセル、点雲、メッシュ、神経暗黙界など)、3Dシーン、3Dヒューマンアバター(体と頭)、3Dモーション、オーディオなど、さまざまなデータモダリティに対してAIGC手法が開発されている。
さらに、一方のモダリティにおいて条件入力を受け取り、他方のモダリティで出力を出力する生成手法として、相互モダリティAIGC法において多くの重要な発展があった。
例えば、様々なモダリティから画像、ビデオ、3D形状、3Dシーン、3Dアバター(体と頭)、3Dモーション(骨格とアバター)、オーディオモダリティなどがある。
本稿では,個別モダリティ法とクロスモダリティ法の両方を含む,異なるデータモダリティにまたがるaigc手法の包括的レビューを行い,各設定における様々な課題,代表的作業,最近の技術的方向性について述べる。
また,モダリティ全体の代表データセットを調査し,様々なモダリティの比較結果を示す。
さらに,今後の課題と今後の課題についても考察する。 AI-generated content (AIGC) methods aim to produce text, images, videos, 3D assets, and other media using AI algorithms. Due to its wide range of applications and the demonstrated potential of recent works, AIGC developments have been attracting lots of attention recently, and AIGC methods have been developed for various data modalities, such as image, video, text, 3D shape (as voxels, point clouds, meshes, and neural implicit fields), 3D scene, 3D human avatar (body and head), 3D motion, and audio -- each presenting different characteristics and challenges. Furthermore, there have also been many significant developments in cross-modality AIGC methods, where generative methods can receive conditioning input in one modality and produce outputs in another. Examples include going from various modalities to image, video, 3D shape, 3D scene, 3D avatar (body and head), 3D motion (skeleton and avatar), and audio modalities. In this paper, we provide a comprehensive review of AIGC methods across different data modalities, including both single-modality and cross-modality methods, highlighting the various challenges, representative works, and recent technical directions in each setting. We also survey the representative datasets throughout the modalities, and present comparative results for various modalities. Moreover, we also discuss the challenges and potential future research directions. | 翻訳日:2023-09-07 02:48:06 公開日:2023-09-04 |
# デンテックスチャレンジ2023の相互分割と検出モデル Intergrated Segmentation and Detection Models for Dentex Challenge 2023 ( http://arxiv.org/abs/2308.14161v2 ) ライセンス: Link先を確認 | Lanshan He, Yusheng Liu, Lisheng Wang | (参考訳) パノラマx線は歯科診断によく用いられる。
深層学習の進展に伴い、歯科用パノラマX線による疾患の自動検出は、歯科医がより効率的に疾患を診断するのに役立つ。
本稿では,異常歯の検出と列挙IDの取得にセグメンテーションと検出モデルを統合した手法を提案し,そのコードをhttps://github.com/xyzlancehe/DentexSegAndDetで公開している。 Dental panoramic x-rays are commonly used in dental diagnosing. With the development of deep learning, auto detection of diseases from dental panoramic x-rays can help dentists to diagnose diseases more efficiently.The Dentex Challenge 2023 is a competition for automatic detection of abnormal teeth along with their enumeration ids from dental panoramic x-rays. In this paper, we propose a method integrating segmentation and detection models to detect abnormal teeth as well as obtain their enumeration ids.Our codes are available at https://github.com/xyzlancehe/DentexSegAndDet. | 翻訳日:2023-09-07 02:47:40 公開日:2023-09-04 |
# サブグラフ補間を用いた量子ネットワークにおける多部絡み合い Multipartite Entanglement in Quantum Networks using Subgraph Complementations ( http://arxiv.org/abs/2308.13700v2 ) ライセンス: Link先を確認 | Aniruddha Sen, Kenneth Goodenough, Don Towsley | (参考訳) 量子ネットワークは量子通信において重要であり、量子テレポーテーション、量子鍵分布、量子センシング、量子誤り訂正など多くのタスクに不可欠な絡み合った状態で構成されている。
グラフ状態 (Graph state) は、グラフで表現できる多部交絡状態の特定のクラスである。
量子ネットワーク上でグラフ状態を分散する新しい手法を提案する。
グラフ状態の分布は、基底グラフの最小ランクと量子状態のシュミットランクによって量子化された絡み合いの度合いにも関係している部分グラフ補間システムによって特徴づけられることを示す。
我々は,提案アルゴリズムのリソース使用量を分析し,従来の作業と比較して,キュービット数,古典的通信用ビット数,EPRペア数にマッチするか,改善されるかを示す。
局所的な操作の回数は効率的であり、我々のアプローチのリソース消費は頂点の数に線形にスケールする。
これは、密グラフで表されるいくつかのグラフ状態の完了時間の二次的改善を示し、ノイズの存在下で忠実性が向上する可能性を示唆する。
グラフ状態の共通クラスは、サブグラフ補完を用いた分布の最適時間とともに分類される。
また、任意のグラフ状態を分配する操作の最適シーケンスを同様に見つけ、近似したグリードアルゴリズムとともに上限を証明するためのフレームワークも提供する。 Quantum networks are important for quantum communication and consist of entangled states that are essential for many tasks such as quantum teleportation, quantum key distribution, quantum sensing and quantum error correction. Graph states are a specific class of multipartite entangled states that can be represented by graphs. We propose a novel approach for distributing graph states across a quantum network. We show that the distribution of graph states can be characterised by a system of subgraph complementations, which we also relate to the minimum rank of the underlying graph and the degree of entanglement quantified by the Schmidt-rank of the quantum state. We analyse resource usage for our algorithm and show it to match or be improved in the number of qubits, bits for classical communication and EPR pairs utilised, as compared to prior work. The number of local operations is efficient, and the resource consumption for our approach scales linearly in the number of vertices. This presents a quadratic improvement in completion time for several classes of graph states represented by dense graphs, and implies a potential for improved fidelity in the presence of noise. Common classes of graph states are classified along with the optimal time for their distribution using subgraph complementations. We also provide a framework to similarly find the optimal sequence of operations to distribute an arbitrary graph state, and prove upper bounds along with providing approximate greedy algorithms. | 翻訳日:2023-09-07 02:46:44 公開日:2023-09-04 |
# Dance with You: The Diversity Controllable Dancer Generation by Diffusion Models Dance with You: The Diversity Controllable Dancer Generation via Diffusion Models ( http://arxiv.org/abs/2308.13551v2 ) ライセンス: Link先を確認 | Siyue Yao, Mingjie Sun, Bingliang Li, Fengyu Yang, Junle Wang, Ruimao Zhang | (参考訳) 近年,仮想環境における対人インタラクションのためのデジタル人間が注目されている。
本稿では,ユーザとのダンスを行うことができる仮想的人間ダンサーを合成する,パートナダンサー生成という,新しいマルチダンサー合成タスクを提案する。
このタスクは、リードダンサーとパートナーダンサーの間のポーズの多様性を制御することを目的としている。
このタスクの中核は、リードダンサーとの時間的調整を維持しながら、生成したパートナーダンサーの制御可能な多様性を確保することである。
このシナリオは、事前に定義された多様性、リードダンサーのポーズ、伴奏曲に応じてパートナーダンサーの姿勢を自動的に設計することを重視し、音楽によって駆動されるダンスの動きを生成する以前の研究から異なる。
この目的を達成するために,Dance-with-You (DanY) と呼ばれる3段階のフレームワークを提案する。
まず,3次元ポーズ収集ステージを用いて,動作生成のための基準として,様々な基本ダンスポーズを収集する。
次に,ポーズをマスキングすることでダンサー間の類似性を調整するハイパーパラメータを導入し,多変量あるいは一貫したシーケンスの生成を防止する。
動きの剛性を避けるために,これらの仮面ポーズをゼロで満たすのではなく,事前に生成するダンス前生成ステージをデザインする。
その後、ダンス・モーション・トランスファー(Dance Motion Transfer)ステージがリーダーシーケンスと音楽に採用され、複数条件のサンプリング式が書き換えられ、プレ生成されたポーズがパートナースタイルのシーケンスに転送される。
実際には、マルチパーソンデータセットの欠如に対処するために、パートナーダンサー生成のための新しいデータセットであるAIST-Mを導入する。
AIST-Mデータセットの総合的な評価は、提案したDanYが良好なパートナーダンサー結果を制御可能な多様性で合成できることを実証している。 Recently, digital humans for interpersonal interaction in virtual environments have gained significant attention. In this paper, we introduce a novel multi-dancer synthesis task called partner dancer generation, which involves synthesizing virtual human dancers capable of performing dance with users. The task aims to control the pose diversity between the lead dancer and the partner dancer. The core of this task is to ensure the controllable diversity of the generated partner dancer while maintaining temporal coordination with the lead dancer. This scenario varies from earlier research in generating dance motions driven by music, as our emphasis is on automatically designing partner dancer postures according to pre-defined diversity, the pose of lead dancer, as well as the accompanying tunes. To achieve this objective, we propose a three-stage framework called Dance-with-You (DanY). Initially, we employ a 3D Pose Collection stage to collect a wide range of basic dance poses as references for motion generation. Then, we introduce a hyper-parameter that coordinates the similarity between dancers by masking poses to prevent the generation of sequences that are over-diverse or consistent. To avoid the rigidity of movements, we design a Dance Pre-generated stage to pre-generate these masked poses instead of filling them with zeros. After that, a Dance Motion Transfer stage is adopted with leader sequences and music, in which a multi-conditional sampling formula is rewritten to transfer the pre-generated poses into a sequence with a partner style. In practice, to address the lack of multi-person datasets, we introduce AIST-M, a new dataset for partner dancer generation, which is publicly availiable. Comprehensive evaluations on our AIST-M dataset demonstrate that the proposed DanY can synthesize satisfactory partner dancer results with controllable diversity. | 翻訳日:2023-09-07 02:45:58 公開日:2023-09-04 |
# ParaGuide: プラグアンドプレイテキストスタイル転送のためのガイド付き拡散パラフレーズ ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style Transfer ( http://arxiv.org/abs/2308.15459v2 ) ライセンス: Link先を確認 | Zachary Horvitz, Ajay Patel, Chris Callison-Burch, Zhou Yu, Kathleen McKeown | (参考訳) テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
ターゲットの「スタイル」は、単一の属性(形式性など)から著者シップ(シェイクスピアなど)まで、様々な方法で定義することができる。
従来の教師なしスタイル転送のアプローチは、固定されたスタイルのみに対して大量のラベル付きデータに依存するか、大きな言語モデルを必要とする。
これとは対照的に,任意のスタイルに柔軟に適用可能な汎用型転送のための新しい拡散型フレームワークを提案する。
パラメータ効率のよいアプローチであるParaGuideは、パラフレーズ条件付き拡散モデルと、オフザシェルフ分類器と強力なスタイル埋め込み器の両方からの勾配に基づくガイダンスを利用して、意味情報を保持しながらテキストのスタイルを変換する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。 Textual style transfer is the task of transforming stylistic properties of text while preserving meaning. Target "styles" can be defined in numerous ways, ranging from single attributes (e.g, formality) to authorship (e.g, Shakespeare). Previous unsupervised style-transfer approaches generally rely on significant amounts of labeled data for only a fixed set of styles or require large language models. In contrast, we introduce a novel diffusion-based framework for general-purpose style transfer that can be flexibly adapted to arbitrary target styles at inference time. Our parameter-efficient approach, ParaGuide, leverages paraphrase-conditioned diffusion models alongside gradient-based guidance from both off-the-shelf classifiers and strong existing style embedders to transform the style of text while preserving semantic information. We validate the method on the Enron Email Corpus, with both human and automatic evaluations, and find that it outperforms strong baselines on formality, sentiment, and even authorship style transfer. | 翻訳日:2023-09-07 02:37:28 公開日:2023-09-04 |
# 近似比保証に必要なQAOAラウンド数に関する下限 Lower Bounds on Number of QAOA Rounds Required for Guaranteed Approximation Ratios ( http://arxiv.org/abs/2308.15442v3 ) ライセンス: Link先を確認 | Naphan Benchasattabuse, Andreas B\"artschi, Luis Pedro Garc\'ia-Pintos, John Golden, Nathan Lemons and Stephan Eidenbenz | (参考訳) 量子交互作用素 ansatz (qaoa) は、最大充足可能性のような組合せ最適化問題に対する高品質な近似解を見つけるためのヒューリスティックなハイブリッド量子古典アルゴリズムである。
QAOAはよく研究されているが、実行時や近似比の保証に関する理論的結果はまだ比較的少ない。
我々はQAOAに必要なラウンド数(QAOAランタイムの主要なコンポーネント)について、最初の下位境界をいくつか提示する。
私たちの主な成果は
(i) 量子アニーリング時間とqaoaの角度との関係を利用して、保証された近似比に対してqaoaのラウンド数に対する下界を導出する。
我々は、Groverスタイルの混合ユニタリでこれを適用し、計算する。
(ii) このタイプのQAOAは、ほとんどの問題に対して定数近似比を保証するために少なくとも1つの多項式数を必要とすることを示す。
私たちも
(iii) 有界関数は対象関数の統計値にのみ依存し、問題が$k$局所ハミルトニアンとしてモデル化できる場合、ハミルトニアンの係数から容易に推定できることを示す。
従来の横フィールドミキサーについて
(iv)本フレームワークは,局所的な局所的コスト問題と厳密な$k$-ローカルなコストハミルトニアンは,これらのクラスからのいくつかの最適化問題に対して,定数近似比が一定のラウンドQAOAで得られることを既知の結果と一致する。
新たな証明フレームワークを使って
(v)非構造化探索のためのGroverの下限を復元し、小さな修正を加えて、混合ユニタリの基底状態から始まるQAOAスタイルのサーチプロトコルに我々のバウンドが適用されることを示す。 The quantum alternating operator ansatz (QAOA) is a heuristic hybrid quantum-classical algorithm for finding high-quality approximate solutions to combinatorial optimization problems, such as Maximum Satisfiability. While QAOA is well-studied, theoretical results as to its runtime or approximation ratio guarantees are still relatively sparse. We provide some of the first lower bounds for the number of rounds (the dominant component of QAOA runtimes) required for QAOA. For our main result, (i) we leverage a connection between quantum annealing times and the angles of QAOA to derive a lower bound on the number of rounds of QAOA with respect to the guaranteed approximation ratio. We apply and calculate this bound with Grover-style mixing unitaries and (ii) show that this type of QAOA requires at least a polynomial number of rounds to guarantee any constant approximation ratios for most problems. We also (iii) show that the bound depends only on the statistical values of the objective functions, and when the problem can be modeled as a $k$-local Hamiltonian, can be easily estimated from the coefficients of the Hamiltonians. For the conventional transverse field mixer, (iv) our framework gives a trivial lower bound to all bounded occurrence local cost problems and all strictly $k$-local cost Hamiltonians matching known results that constant approximation ratio is obtainable with constant round QAOA for a few optimization problems from these classes. Using our novel proof framework, (v) we recover the Grover lower bound for unstructured search and -- with small modification -- show that our bound applies to any QAOA-style search protocol that starts in the ground state of the mixing unitaries. | 翻訳日:2023-09-07 02:37:10 公開日:2023-09-04 |
# 異常GPT:大規模視線モデルを用いた産業異常の検出 AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models ( http://arxiv.org/abs/2308.15366v2 ) ライセンス: Link先を確認 | Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Ming Tang, Jinqiao Wang | (参考訳) MiniGPT-4やLLaVAのようなLVLM(Large Vision-Language Model)は、画像の理解能力を示し、様々な視覚タスクにおいて優れたパフォーマンスを実現している。
広範なトレーニングデータセットによる共通オブジェクトの認識能力は高いが、特定のドメイン知識が欠如しており、オブジェクト内のローカライズされた詳細の理解が弱く、産業的異常検出(iad)タスクの有効性を阻害している。
一方,既存のIAD法では,通常の検体と異常検体を区別するために,異常スコアのみを提供し,しきい値のマニュアル設定が必要である。
本稿では,iad問題に対するlvlmの活用について検討し,lvlmに基づく新しいiadアプローチであるanomalygptを提案する。
異常画像をシミュレートし、画像毎に対応するテキスト記述を生成してトレーニングデータを生成する。
また,画像デコーダを用いて微細なセマンティクスを提供し,迅速な埋め込みによるLVLMの微調整を行う。
我々のAnomalyGPTは手動しきい値調整の必要性を排除し、異常の有無を直接評価する。
さらに、AnomalyGPTはマルチターンダイアログをサポートし、印象的なインコンテキスト学習機能を提供する。
通常のショットは1枚のみで、AnomalyGPTは86.1%の精度、画像レベルのAUC94.1%、ピクセルレベルのAUC95.3%の精度で最先端のパフォーマンスを達成した。
コードはhttps://github.com/CASIA-IVA-Lab/AnomalyGPTで入手できる。 Large Vision-Language Models (LVLMs) such as MiniGPT-4 and LLaVA have demonstrated the capability of understanding images and achieved remarkable performance in various visual tasks. Despite their strong abilities in recognizing common objects due to extensive training datasets, they lack specific domain knowledge and have a weaker understanding of localized details within objects, which hinders their effectiveness in the Industrial Anomaly Detection (IAD) task. On the other hand, most existing IAD methods only provide anomaly scores and necessitate the manual setting of thresholds to distinguish between normal and abnormal samples, which restricts their practical implementation. In this paper, we explore the utilization of LVLM to address the IAD problem and propose AnomalyGPT, a novel IAD approach based on LVLM. We generate training data by simulating anomalous images and producing corresponding textual descriptions for each image. We also employ an image decoder to provide fine-grained semantic and design a prompt learner to fine-tune the LVLM using prompt embeddings. Our AnomalyGPT eliminates the need for manual threshold adjustments, thus directly assesses the presence and locations of anomalies. Additionally, AnomalyGPT supports multi-turn dialogues and exhibits impressive few-shot in-context learning capabilities. With only one normal shot, AnomalyGPT achieves the state-of-the-art performance with an accuracy of 86.1%, an image-level AUC of 94.1%, and a pixel-level AUC of 95.3% on the MVTec-AD dataset. Code is available at https://github.com/CASIA-IVA-Lab/AnomalyGPT. | 翻訳日:2023-09-07 02:35:54 公開日:2023-09-04 |
# コンフリクト対応アクティブオートマトン学習(拡張版) Conflict-Aware Active Automata Learning (Extended Version) ( http://arxiv.org/abs/2308.14781v2 ) ライセンス: Link先を確認 | Tiago Ferreira, L\'eo Henry, Raquel Fernandes da Silva and Alexandra Silva | (参考訳) アクティブオートマトン学習アルゴリズムは、観測データ(同じ入力で観測された異なる出力)の衝突を容易に処理できない。
紛争後に回復できないこの本質的な障害は、ノイズが存在する場合や学習中のシステムが変化している場合において、効果的な適用性を損なう。
本稿では,学習過程において矛盾する情報を扱えるように,C3AL(Conflict-Aware Active Automata Learning)フレームワークを提案する。
中心となるアイデアは、いわゆる観察木を学習プロセスの第一級市民とみなすことである。
このアイデアは最近の研究で検討されているが、既存の学習者との使用を可能にするとともに、特に対立に直面したシステム上で実施されるテストの数を最小化することで、その効果を最大限に活用する。
我々はC3ALを大規模なベンチマークで評価し、30以上の現実的なターゲットと18,000以上のシナリオをカバーした。
評価の結果、C3ALはノイズや突然変異をよりよく扱えるクローズドボックス学習に適したフレームワークであることがわかった。 Active automata learning algorithms cannot easily handle conflict in the observation data (different outputs observed for the same inputs). This inherent inability to recover after a conflict impairs their effective applicability in scenarios where noise is present or the system under learning is mutating. We propose the Conflict-Aware Active Automata Learning (C3AL) framework to enable handling conflicting information during the learning process. The core idea is to consider the so-called observation tree as a first-class citizen in the learning process. Though this idea is explored in recent work, we take it to its full effect by enabling its use with any existing learner and minimizing the number of tests performed on the system under learning, specially in the face of conflicts. We evaluate C3AL in a large set of benchmarks, covering over 30 different realistic targets, and over 18,000 different scenarios. The results of the evaluation show that C3AL is a suitable alternative framework for closed-box learning that can better handle noise and mutations. | 翻訳日:2023-09-07 02:34:58 公開日:2023-09-04 |
# 骨格に基づく行動認識のための位相認識型MLP Topology-aware MLP for Skeleton-based Action Recognition ( http://arxiv.org/abs/2308.16018v2 ) ライセンス: Link先を確認 | Shaojie Zhang, Jianqin Yin, Yonghao Dang and Jiajun Fu | (参考訳) グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において顕著な性能を発揮する。
しかし、既存のgcnベースの手法は精巧な人体前処理に過剰に依存しており、ネットワークの一般化性を制限する複雑な特徴集約機構を構築している。
これらの問題を解決するために, 余分な事前条件を伴わずに MLP ベースの変種である空間位相ゲーティングユニット (STGU) を提案し, 空間依存性を全関節にエンコードする共起位相特徴を捉える。
STGUでは、サンプル固有かつ完全に独立した点対応トポロジ注意をモデル化するために、入力から生成された注目マップによって特徴点間を活性化する新しいゲートベースの特徴相互作用機構を導入する。
本稿では,STGUに基づいて,骨格に基づく行動認識のための最初のトポロジ対応MLPモデルTa-MLPを提案する。
3つの大規模データセットの既存の手法と比較して、Ta-MLPは競争力のある性能を達成する。
さらに、Ta-MLPはパラメータを62.5%まで削減し、良好な結果を得る。
従来のSOAT(State-of-the-art)アプローチと比較して、Ta-MLPはリアルタイムアクション認識のフロンティアを推進している。
コードはhttps://github.com/BUPTSJZhang/Ta-MLPで入手できる。 Graph convolution networks (GCNs) have achieved remarkable performance in skeleton-based action recognition. However, existing previous GCN-based methods have relied excessively on elaborate human body priors and constructed complex feature aggregation mechanisms, which limits the generalizability of networks. To solve these problems, we propose a novel Spatial Topology Gating Unit (STGU), which is an MLP-based variant without extra priors, to capture the co-occurrence topology features that encode the spatial dependency across all joints. In STGU, to model the sample-specific and completely independent point-wise topology attention, a new gate-based feature interaction mechanism is introduced to activate the features point-to-point by the attention map generated from the input. Based on the STGU, in this work, we propose the first topology-aware MLP-based model, Ta-MLP, for skeleton-based action recognition. In comparison with existing previous methods on three large-scale datasets, Ta-MLP achieves competitive performance. In addition, Ta-MLP reduces the parameters by up to 62.5% with favorable results. Compared with previous state-of-the-art (SOAT) approaches, Ta-MLP pushes the frontier of real-time action recognition. The code will be available at https://github.com/BUPTSJZhang/Ta-MLP. | 翻訳日:2023-09-07 02:29:29 公開日:2023-09-04 |
# 分布調整による衛星画像からのきめ細かい社会経済予測 Fine-Grained Socioeconomic Prediction from Satellite Images with Distributional Adjustment ( http://arxiv.org/abs/2308.15979v2 ) ライセンス: Link先を確認 | Donghyun Ahn, Minhyuk Song, Seungeon Lee, Yubin Choi, Jihee Kim, Sangyoon Park, Hyunjoo Yang and Meeyoung Cha | (参考訳) 社会経済指標の測定は自治体がインフォームド政策決定を行う上で重要であるが、自治体のような細かなレベルでは利用できないことが多い。
本研究は,衛星画像からの深層学習に基づく予測を用いてそのギャップを狭める。
地上の真実に基づいて,より広い領域で観測される分布挙動を捉え,各衛星画像に社会経済的スコアを割り当てる手法を提案する。
順序回帰採点モデルを訓練し,スコアを調整して,地域内および地域間の共通パワー法則に従う。
韓国の公的な統計に基づく評価の結果, この手法は, 自治体, グリッドレベルでの人口・雇用規模予測において, 従来モデルよりも優れていた。
また,不均一な開発が進んでいる地域では,信頼性の高い細粒度のデータが乏しい発展途上国での利用の可能性も示唆している。 While measuring socioeconomic indicators is critical for local governments to make informed policy decisions, such measurements are often unavailable at fine-grained levels like municipality. This study employs deep learning-based predictions from satellite images to close the gap. We propose a method that assigns a socioeconomic score to each satellite image by capturing the distributional behavior observed in larger areas based on the ground truth. We train an ordinal regression scoring model and adjust the scores to follow the common power law within and across regions. Evaluation based on official statistics in South Korea shows that our method outperforms previous models in predicting population and employment size at both the municipality and grid levels. Our method also demonstrates robust performance in districts with uneven development, suggesting its potential use in developing countries where reliable, fine-grained data is scarce. | 翻訳日:2023-09-07 02:29:08 公開日:2023-09-04 |
# グラフニューラルネットワークのオーバースカッシング: 総合的な調査 Over-Squashing in Graph Neural Networks: A Comprehensive survey ( http://arxiv.org/abs/2308.15568v2 ) ライセンス: Link先を確認 | Singh Akansha | (参考訳) グラフニューラルネットワーク(gnns)は、マシンラーニングの領域における革命的パラダイムとして登場し、グラフ構造化データに固有の複雑な関係を分類するトランスフォーメーションアプローチを提供する。
多くのGNNの基本アーキテクチャは、ノード分類、リンク予測、レコメンデーションシステムを含む様々なアプリケーションにおいて顕著な効果を示すメカニズムである、相互接続ノード間のメッセージアグリゲーションと変換による情報の拡散である。
それでも、その潜在能力は、広い文脈的洞察を必要とするシナリオに固有の制約に遭遇する。
特定の文脈では、正確な予測はノードの直近の局所的な環境だけでなく、遠くの領域にまたがる相互作用にも当てはまる。
この長距離情報拡散の複雑な需要は、遠方のノードから流れる情報の忠実さが歪む「オーバー・スカッシング」として認識される重要な課題を露呈する。
この現象は、特に複雑な長距離相互作用に依存するタスクにおいて、メッセージパッシングメカニズムの効率を大幅に低下させる。
本稿では,GNNの過度な侵入の制約について概説する。
我々の調査は、この制限によって引き起こされる影響を改善するために、研究者による進行中の努力を細心の注意を要する。
体系的な解明を通じて,これまで提案されてきた戦略,方法論,イノベーションを掘り下げる。
この複雑に織り込まれた問題に光を当てることで、GNNのランドスケープにおける課題と、それらを克服するために設計された進化的ソリューションの微妙な理解に貢献することを目指している。 Graph Neural Networks (GNNs) have emerged as a revolutionary paradigm in the realm of machine learning, offering a transformative approach to dissect intricate relationships inherent in graph-structured data. The foundational architecture of most GNNs involves the dissemination of information through message aggregation and transformation among interconnected nodes, a mechanism that has demonstrated remarkable efficacy across diverse applications encompassing node classification, link prediction, and recommendation systems. Nonetheless, their potential prowess encounters a restraint intrinsic to scenarios necessitating extensive contextual insights. In certain contexts, accurate predictions hinge not only upon a node's immediate local surroundings but also on interactions spanning far-reaching domains. This intricate demand for long-range information dissemination exposes a pivotal challenge recognized as "over-squashing," wherein the fidelity of information flow from distant nodes becomes distorted. This phenomenon significantly curtails the efficiency of message-passing mechanisms, particularly for tasks reliant on intricate long-distance interactions. In this comprehensive article, we illuminate the prevalent constraint of over-squashing pervading GNNs. Our exploration entails a meticulous exposition of the ongoing efforts by researchers to improve the ramifications posed by this limitation. Through systematic elucidation, we delve into strategies, methodologies, and innovations proposed thus far, all aimed at mitigating the detriments of over-squashing. By shedding light on this intricately woven issue, we aim to contribute to a nuanced understanding of the challenges within the GNN landscape and the evolving solutions designed to surmount them. | 翻訳日:2023-09-07 02:26:05 公開日:2023-09-04 |
# 小ささに耳を傾ける: クラス不均衡のための暗号化されたトラフィック分類 Listen to Minority: Encrypted Traffic Classification for Class Imbalance with Contrastive Pre-Training ( http://arxiv.org/abs/2308.16453v2 ) ライセンス: Link先を確認 | Xiang Li, Juncheng Guo, Qige Song, Jiang Xie, Yafei Sang, Shuyuan Zhao, and Yongzheng Zhang | (参考訳) モバイルインターネットは、様々な面で現代のライフスタイルを大きく変えてきた。
暗号化トラフィック分類(ETC)は、モバイルインターネットの管理において、特に暗号化通信を用いたモバイルアプリの爆発的な成長において、自然に重要な役割を果たす。
既存の学習ベースのETC手法では有望な結果を示しているが、現実のネットワーク環境では3倍の制限が残っている。
1)交通階級の不均衡によるラベルバイアス
2)部品共有による交通の均質性
3)十分なラベル付きトラフィックに依存したトレーニング。
既存のETCメソッドではこれらの制限に対処できない。
本稿では,新しい事前学習型etcフレームワークであるpassを提案する。
私たちの重要な洞察は、オリジナルのトレインデータセットを再サンプリングし、個々のアプリラベルを直接使用せずにコントラスト的な事前トレーニングを実行することで、クラス不均衡に起因するラベルバイアスの問題を回避すると同時に、前向きなトラフィックペアを近付け、負のペアを遠ざけることで、重複する同種トラフィックを区別する堅牢な特徴表現を得ることです。
一方,PASSは擬似ラベル反復と動的損失重み付けアルゴリズムに基づく半教師付き最適化戦略を設計し,大規模ラベル付きトラフィックデータを効果的に活用し,手動列車のデータセットアノテーションの作業量を軽減する。
PASSは、クラス不均衡とトラフィックの均一性の著しい4つの公開データセットに対して、最先端のETC法と一般的なサンプリング手法を上回り、Cross-Platform215のF1を1.31%、ICCX-17を9.12%で圧倒した。
さらに,様々な特徴抽出器を用いたetcメソッドを適応的に活用できるpassのコントラストプレトレーニングおよび擬似ラベル反復コンポーネントの汎用性を検証する。 Mobile Internet has profoundly reshaped modern lifestyles in various aspects. Encrypted Traffic Classification (ETC) naturally plays a crucial role in managing mobile Internet, especially with the explosive growth of mobile apps using encrypted communication. Despite some existing learning-based ETC methods showing promising results, three-fold limitations still remain in real-world network environments, 1) label bias caused by traffic class imbalance, 2) traffic homogeneity caused by component sharing, and 3) training with reliance on sufficient labeled traffic. None of the existing ETC methods can address all these limitations. In this paper, we propose a novel Pre-trAining Semi-Supervised ETC framework, dubbed PASS. Our key insight is to resample the original train dataset and perform contrastive pre-training without using individual app labels directly to avoid label bias issues caused by class imbalance, while obtaining a robust feature representation to differentiate overlapping homogeneous traffic by pulling positive traffic pairs closer and pushing negative pairs away. Meanwhile, PASS designs a semi-supervised optimization strategy based on pseudo-label iteration and dynamic loss weighting algorithms in order to effectively utilize massive unlabeled traffic data and alleviate manual train dataset annotation workload. PASS outperforms state-of-the-art ETC methods and generic sampling approaches on four public datasets with significant class imbalance and traffic homogeneity, remarkably pushing the F1 of Cross-Platform215 with 1.31%, ISCX-17 with 9.12%. Furthermore, we validate the generality of the contrastive pre-training and pseudo-label iteration components of PASS, which can adaptively benefit ETC methods with diverse feature extractors. | 翻訳日:2023-09-07 02:16:56 公開日:2023-09-04 |
# ディープビデオコーデック制御 Deep Video Codec Control ( http://arxiv.org/abs/2308.16215v2 ) ライセンス: Link先を確認 | Christoph Reich, Biplob Debnath, Deep Patel, Tim Prangemeier, Srimat Chakradhar | (参考訳) 損失のあるビデオ圧縮は、ビデオデータの転送と保存によく使用される。
H.264やH.265のような統一ビデオコーデックは、高度な(神経的な)圧縮アプローチが可能であるにもかかわらず、デファクトスタンダードのままである。
動的ネットワーク帯域幅の条件で動画を送信するには、ビデオコーデックが全く異なる圧縮強度に適応する必要がある。
レート制御モジュールはコーデックの圧縮を増大させ、帯域制限が満たされ、ビデオ歪みが最小化される。
ビデオコードとそのレート制御モジュールは、人間の品質評価の歪みを最小限に抑えるために開発されたが、ディープビジョンモデルの下流性能は考慮されていない。
本稿では,既存の規格を破ることなく,帯域制限とダウンストリーム視覚性能の両方を考慮した,エンドツーエンドで学習可能なディープビデオコーデック制御を提案する。
我々は2つの共通ビジョンタスク(セマンティックセグメンテーションと光フロー推定)と2つの異なるデータセットに対して、ダイナミックな帯域幅制約を満たし、標準化に固執しながら、2パス平均ビットレート制御を使用するよりも、より深いコーデック制御の方が下流のパフォーマンスを良く維持できることを示す。 Lossy video compression is commonly used when transmitting and storing video data. Unified video codecs (e.g., H.264 or H.265) remain the de facto standard, despite the availability of advanced (neural) compression approaches. Transmitting videos in the face of dynamic network bandwidth conditions requires video codecs to adapt to vastly different compression strengths. Rate control modules augment the codec's compression such that bandwidth constraints are satisfied and video distortion is minimized. While, both standard video codes and their rate control modules are developed to minimize video distortion w.r.t. human quality assessment, preserving the downstream performance of deep vision models is not considered. In this paper, we present the first end-to-end learnable deep video codec control considering both bandwidth constraints and downstream vision performance, while not breaking existing standardization. We demonstrate for two common vision tasks (semantic segmentation and optical flow estimation) and on two different datasets that our deep codec control better preserves downstream performance than using 2-pass average bit rate control while meeting dynamic bandwidth constraints and adhering to standardizations. | 翻訳日:2023-09-07 02:15:27 公開日:2023-09-04 |
# エージェントチームリング状況認識(ATSA) : ヒューマンAIチームのための状況認識フレームワーク Agent Teaming Situation Awareness (ATSA): A Situation Awareness Framework for Human-AI Teaming ( http://arxiv.org/abs/2308.16785v2 ) ライセンス: Link先を確認 | Qi Gao, Wei Xu, Mowei Shen, Zaifeng Gao | (参考訳) 人工知能(AI)の急速な進歩は、様々な分野における人間とAIのチームリング(HAT)の増大に繋がった。
機械が単なる自動化から自律状態へと進化し続けるにつれ、状況認識(SA)など、予期せぬ行動や人間のような認知/知能がますます現れている。
このシフトは、人間とマシン間の動的なSAインタラクションをより深く理解する必要性を強調し、人間とAIの混在するチームのパフォーマンスを高める可能性がある。
この目的のために、我々は、HATの重要な特徴とプロセスに基づいて、先導的なSA理論モデルと、HATコンテキストにおけるSAの新しいフレームワークについてレビューする。
Agent Teaming situation Awareness (ATSA)フレームワークは、人間とAIの振る舞いを統一し、双方向、動的相互作用を含む。
このフレームワークは個人とチームsaモデルに基づいており、モデリングハットの認知メカニズムについて詳述している。
同様の知覚サイクルは、HATコンテキストのユニークな要件に合わせて、個人(人間とAIの両方を含む)とチーム全体に対して採用されます。
ATSAは、チームリング理解、チームリング制御、世界、および接着活性部分を含む構造や構成要素を通して、凝集性で効果的なHATを強調している。
さらに,ATSAの特有な貢献を拡大し,具体的かつ推進的な次のステップに対処するための今後の研究指針を提案する。 The rapid advancements in artificial intelligence (AI) have led to a growing trend of human-AI teaming (HAT) in various fields. As machines continue to evolve from mere automation to a state of autonomy, they are increasingly exhibiting unexpected behaviors and human-like cognitive/intelligent capabilities, including situation awareness (SA). This shift has the potential to enhance the performance of mixed human-AI teams over all-human teams, underscoring the need for a better understanding of the dynamic SA interactions between humans and machines. To this end, we provide a review of leading SA theoretical models and a new framework for SA in the HAT context based on the key features and processes of HAT. The Agent Teaming Situation Awareness (ATSA) framework unifies human and AI behavior, and involves bidirectional, and dynamic interaction. The framework is based on the individual and team SA models and elaborates on the cognitive mechanisms for modeling HAT. Similar perceptual cycles are adopted for the individual (including both human and AI) and the whole team, which is tailored to the unique requirements of the HAT context. ATSA emphasizes cohesive and effective HAT through structures and components, including teaming understanding, teaming control, and the world, as well as adhesive transactive part. We further propose several future research directions to expand on the distinctive contributions of ATSA and address the specific and pressing next steps. | 翻訳日:2023-09-07 02:09:23 公開日:2023-09-04 |
# 低障壁サイバーセキュリティ研究と産業制御システム教育に向けて Towards Low-Barrier Cybersecurity Research and Education for Industrial Control Systems ( http://arxiv.org/abs/2308.16769v2 ) ライセンス: Link先を確認 | Colman McGuan, Chansu Yu, Qin Lin | (参考訳) 公共の重要インフラで使用される産業制御システム(ICS)の保護は、サイバー攻撃が引き起こす破滅的な物理的損害のために非常に重要である。
調査コミュニティはICSを保護するために、様々な侵入検出アルゴリズムを検証および比較するためにテストベッドを必要とする。
しかし、高価なハードウェア、ソフトウェア、そして現実世界のシステムを操作できる固有の危険のために、ICSサイバーセキュリティ分野の研究と教育の参入には高い障壁がある。
最近開発された3d高忠実度シミュレータをベースにしたこのギャップを埋めるため、サイバー攻撃を自動的に起動し、データを収集し、機械学習モデルを訓練し、実用的な化学および製造プロセスを評価するための統合フレームワークをさらに紹介します。
テストベッド上では,スライディングウィンドウと分類しきい値を組み合わせた一クラスSVMを介して教師なし機械学習を利用するMinTWin SVM(Minmal Threshold and Window SVM)と呼ばれる侵入検出モデルの有効性を検証する。
その結果、MinTWin SVMは偽陽性を最小限に抑え、物理的プロセス異常に応答することを示した。
さらに, 学生が実践的なicデータセットを用いて機械学習理論を実践する実践的経験を積んだ学習コースにおいて, 当社のデータセットを用いて, icサイバーセキュリティ教育の枠組みを取り入れる。
すべての実装がオープンソース化されました。 The protection of Industrial Control Systems (ICS) that are employed in public critical infrastructures is of utmost importance due to catastrophic physical damages cyberattacks may cause. The research community requires testbeds for validation and comparing various intrusion detection algorithms to protect ICS. However, there exist high barriers to entry for research and education in the ICS cybersecurity domain due to expensive hardware, software, and inherent dangers of manipulating real-world systems. To close the gap, built upon recently developed 3D high-fidelity simulators, we further showcase our integrated framework to automatically launch cyberattacks, collect data, train machine learning models, and evaluate for practical chemical and manufacturing processes. On our testbed, we validate our proposed intrusion detection model called Minimal Threshold and Window SVM (MinTWin SVM) that utilizes unsupervised machine learning via a one-class SVM in combination with a sliding window and classification threshold. Results show that MinTWin SVM minimizes false positives and is responsive to physical process anomalies. Furthermore, we incorporate our framework with ICS cybersecurity education by using our dataset in an undergraduate machine learning course where students gain hands-on experience in practicing machine learning theory with a practical ICS dataset. All of our implementations have been open-sourced. | 翻訳日:2023-09-07 02:08:37 公開日:2023-09-04 |
# MS23D:マルチスケール意味的特徴点を用いた3次元物体検出手法 MS23D: A 3D Object Detection Method Using Multi-Scale Semantic Feature Points to Construct 3D Feature Layer ( http://arxiv.org/abs/2308.16518v2 ) ライセンス: Link先を確認 | Yongxin Shao, Aihong Tan, Tianhong Yan, Zhetao Sun | (参考訳) ライダー点雲は、正確な距離知覚を持つデータの一種であり、3次元空間における物体の動きと姿勢を効果的に表すことができる。
しかし、点雲の広がりや乱れは、それらから直接特徴を引き出すのを困難にしている。
多くの研究が点雲を正則なボクセル表現に変換することでこの問題に対処している。
しかし,これらの手法は,ダウンサンプリングによる局所特徴情報の微細化につながることが多い。
さらに,点雲のスパース性は,voxelに基づく2段法を用いて3次元特徴層の特徴を効率的に集約することは困難である。
そこで本研究では,MS$^{2}$3Dと呼ばれる2段階の3D検出フレームワークを提案する。
MS$^{2}$3Dでは、小型のボクセルを用いて微細な局所特徴と大型のボクセルを抽出し、長距離の局所特徴を捕捉する。
さらに,マルチスケールな意味的特徴点を用いた3次元特徴層の構築手法を提案し,スパースな3次元特徴層をよりコンパクトな表現に変換する。
さらに、3d特徴層の特徴点とオブジェクトのセンタロイドの間のオフセットを計算し、オブジェクトの中心にできるだけ近いものにすることを目指している。
これは特徴集約の効率を大幅に向上させる。
提案手法の有効性を検証するため,KITTIデータセットとONCEデータセットを併用して評価を行った。 Lidar point clouds, as a type of data with accurate distance perception, can effectively represent the motion and posture of objects in three-dimensional space. However, the sparsity and disorderliness of point clouds make it challenging to extract features directly from them. Many studies have addressed this issue by transforming point clouds into regular voxel representations. However, these methods often lead to the loss of fine-grained local feature information due to downsampling. Moreover, the sparsity of point clouds poses difficulties in efficiently aggregating features in 3D feature layer using voxel-based two-stage methods. To address these issues, this paper proposes a two-stage 3D detection framework called MS$^{2}$3D. In MS$^{2}$3D, we utilize small-sized voxels to extract fine-grained local features and large-sized voxels to capture long-range local features. Additionally, we propose a method for constructing 3D feature layer using multi-scale semantic feature points, enabling the transformation of sparse 3D feature layer into more compact representations. Furthermore, we compute the offset between feature points in the 3D feature layer and the centroid of objects, aiming to bring them as close as possible to the object's center. It significantly enhances the efficiency of feature aggregation. To validate the effectiveness of our method, we evaluated our method on the KITTI dataset and ONCE dataset together. | 翻訳日:2023-09-07 02:06:35 公開日:2023-09-04 |
# パノラマX線異常歯の検出・分類のための連続的枠組み A Sequential Framework for Detection and Classification of Abnormal Teeth in Panoramic X-rays ( http://arxiv.org/abs/2309.00027v2 ) ライセンス: Link先を確認 | Tudor Dascalu, Shaqayeq Ramezanzade, Azam Bakhshandeh, Lars Bjorndal, and Bulat Ibragimov | (参考訳) 本報告では,MICCAI 2023におけるパノラマX線検査における歯列挙と診断の解決策について述べる。
本手法は, 異常歯の検出と分類に適応した多段階フレームワークである。
このソリューションは、歯科用インスタンス検出、健全なインスタンスフィルタリング、異常なインスタンス分類の3段階を含む。
第一段階では, 歯の発見と識別にFaster-RCNNモデルを用いた。
その後の段階で, 歯科病変検出に最適化されたプレトレーニングU-netの符号化経路をVgg16アーキテクチャにマージするモデルを構築した。
結果として得られたモデルは、最初に健全な歯を濾過するために使用された。
そして, 特定された異常歯を分類し, 埋伏, 根尖部病変, カリー, 深部カリーの1つ以上の条件に陥る可能性が示唆された。
歯科症例検出モデルではAPスコアが0.49。
健常歯を同定するモデルでは,f1得点0.71。
一方, マルチラベル歯科疾患分類のためのモデルでは, F1スコアが0.76。
コードはhttps://github.com/tudordascalu/2d-teeth-detection-challengeで入手できる。 This paper describes our solution for the Dental Enumeration and Diagnosis on Panoramic X-rays Challenge at MICCAI 2023. Our approach consists of a multi-step framework tailored to the task of detecting and classifying abnormal teeth. The solution includes three sequential stages: dental instance detection, healthy instance filtering, and abnormal instance classification. In the first stage, we employed a Faster-RCNN model for detecting and identifying teeth. In subsequent stages, we designed a model that merged the encoding pathway of a pretrained U-net, optimized for dental lesion detection, with the Vgg16 architecture. The resulting model was first used for filtering out healthy teeth. Then, any identified abnormal teeth were categorized, potentially falling into one or more of the following conditions: embedded, periapical lesion, caries, deep caries. The model performing dental instance detection achieved an AP score of 0.49. The model responsible for identifying healthy teeth attained an F1 score of 0.71. Meanwhile, the model trained for multi-label dental disease classification achieved an F1 score of 0.76. The code is available at https://github.com/tudordascalu/2d-teeth-detection-challenge. | 翻訳日:2023-09-07 01:55:58 公開日:2023-09-04 |
# 複雑な環境における非制限ナビゲーションのためのプログレッシブカメラ配置によるNeRF品質向上 Improving NeRF Quality by Progressive Camera Placement for Unrestricted Navigation in Complex Environments ( http://arxiv.org/abs/2309.00014v2 ) ライセンス: Link先を確認 | Georgios Kopanas, George Drettakis | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、レンダリングのための新しいビュー合成と3D再構成を大幅に改善した。
NeRFは、オブジェクト中心の再構成において印象的な結果をもたらすが、複雑な環境(部屋、家など)における自由視点ナビゲーションによる新しいビュー合成の品質は、しばしば問題となる。
本研究は,NeRFの最適化は本質的にはデータ駆動のプロセスであるため,再現の最終的な品質において,良質なデータが基本的な役割を担っていることを示す。
結果として、最終的に最適化によって、高品質のフリービューポイントナビゲーションを可能にするソリューションに収束させることができるように、データサンプル(この場合、カメラ)を選択することが重要です。
私たちの貢献は、最小限の仮定で視覚品質を改善する新しいカメラ配置を効率的に提案するアルゴリズムです。
私たちのソリューションは、あらゆるNeRFモデルで使用することができ、ベースラインや同様の作業より優れています。 Neural Radiance Fields, or NeRFs, have drastically improved novel view synthesis and 3D reconstruction for rendering. NeRFs achieve impressive results on object-centric reconstructions, but the quality of novel view synthesis with free-viewpoint navigation in complex environments (rooms, houses, etc) is often problematic. While algorithmic improvements play an important role in the resulting quality of novel view synthesis, in this work, we show that because optimizing a NeRF is inherently a data-driven process, good quality data play a fundamental role in the final quality of the reconstruction. As a consequence, it is critical to choose the data samples -- in this case the cameras -- in a way that will eventually allow the optimization to converge to a solution that allows free-viewpoint navigation with good quality. Our main contribution is an algorithm that efficiently proposes new camera placements that improve visual quality with minimal assumptions. Our solution can be used with any NeRF model and outperforms baselines and similar work. | 翻訳日:2023-09-07 01:55:42 公開日:2023-09-04 |
# TouchStone: 言語モデルによる視覚言語モデルの評価 TouchStone: Evaluating Vision-Language Models by Language Models ( http://arxiv.org/abs/2308.16890v2 ) ライセンス: Link先を確認 | Shuai Bai, Shusheng Yang, Jinze Bai, Peng Wang, Xingxuan Zhang, Junyang Lin, Xinggang Wang, Chang Zhou, Jingren Zhou | (参考訳) 大規模視覚言語モデル(LVLM)は近年急速に進歩し、視覚受容体と大きな言語モデル(LLM)を接続することで視覚情報の認識、理解、処理に顕著な能力を発揮している。
しかし、現在の評価は、主に認識能力と推論能力、会話スキルの直接評価の欠如、視覚的ストーリーテリング能力の欠如に焦点を当てている。
本稿では,LVLMの様々な能力を総合的に評価するために,強力なLLMを裁判官として利用する評価手法を提案する。
まず,オープンワールド画像と質問からなる総合的なビジュアル対話データセット touchstone を構築し,5つの主要な能力カテゴリと27のサブタスクをカバーする。
このデータセットは基本的な認識と理解だけでなく、文学的創造にまで及ぶ。
次に、詳細な画像アノテーションを統合することで、マルチモーダル入力コンテンツをllmsで理解可能な形式に効果的に変換する。
これにより、人間の介入を必要とせずに、マルチモーダル対話の品質を直接評価するための高度なllmが利用できる。
検証を通じて,gpt-4などの強力なlvlmが,人間の好みに合わせて,テキスト能力のみを活用して対話品質を効果的に評価できることを実証する。
我々の研究がLVLMの評価の基礎となり、より強力なLVLMの構築の道を開くことを願っている。
評価コードはhttps://github.com/ofa-sys/touchstoneで入手できる。 Large vision-language models (LVLMs) have recently witnessed rapid advancements, exhibiting a remarkable capacity for perceiving, understanding, and processing visual information by connecting visual receptor with large language models (LLMs). However, current assessments mainly focus on recognizing and reasoning abilities, lacking direct evaluation of conversational skills and neglecting visual storytelling abilities. In this paper, we propose an evaluation method that uses strong LLMs as judges to comprehensively evaluate the various abilities of LVLMs. Firstly, we construct a comprehensive visual dialogue dataset TouchStone, consisting of open-world images and questions, covering five major categories of abilities and 27 subtasks. This dataset not only covers fundamental recognition and comprehension but also extends to literary creation. Secondly, by integrating detailed image annotations we effectively transform the multimodal input content into a form understandable by LLMs. This enables us to employ advanced LLMs for directly evaluating the quality of the multimodal dialogue without requiring human intervention. Through validation, we demonstrate that powerful LVLMs, such as GPT-4, can effectively score dialogue quality by leveraging their textual capabilities alone, aligning with human preferences. We hope our work can serve as a touchstone for LVLMs' evaluation and pave the way for building stronger LVLMs. The evaluation code is available at https://github.com/OFA-Sys/TouchStone. | 翻訳日:2023-09-07 01:55:00 公開日:2023-09-04 |
# EMR-MSF:Ego-Motion Rigidityを爆発する単眼循環流 EMR-MSF: Self-Supervised Recurrent Monocular Scene Flow Exploiting Ego-Motion Rigidity ( http://arxiv.org/abs/2309.01296v1 ) ライセンス: Link先を確認 | Zijie Jiang, Masatoshi Okutomi | (参考訳) 2つの時間的連続した単眼画像から3次元構造と3次元運動の両方を理解することを目的とした自己監督型単眼シーンフロー推定は、そのシンプルで経済的なセンサー構成に注目が集まっている。
しかし、現在の手法の精度は、より効率的なネットワークアーキテクチャのボトルネックと正規化のための運動剛性の欠如に悩まされている。
本稿では,教師あり学習の範囲内でのネットワークアーキテクチャ設計の利点を活かして,EMR-MSFという優れたモデルを提案する。
さらに,厳密に構築されたエゴモーションアグリゲーションモジュールを用いて,静的領域を用いた安定なエゴモーション推定のための動的領域をフィルタリングする剛性ソフトマスクを提案することで,明示的かつ堅牢な幾何的制約を課す。
さらに,静的領域を完全に活用するためのマスク正規化損失とともに,動きの整合性損失を提案する。
グラデーション分離技術や改良されたビュー合成プロセスなど、より効率的なトレーニング戦略が統合され、パフォーマンスが向上している。
提案手法は,従来の自己監督作業よりも大きなマージンで性能を向上し,教師付き手法の性能に追いつく。
kitti scene flowベンチマークでは,最先端の自己教師付き単眼法のsf-allメトリックを44%改善し,奥行きや視覚のオドメトリーなどのサブタスクに対して,他の自己教師付きシングルタスクやマルチタスクメソッドよりも優れたパフォーマンスを示す。 Self-supervised monocular scene flow estimation, aiming to understand both 3D structures and 3D motions from two temporally consecutive monocular images, has received increasing attention for its simple and economical sensor setup. However, the accuracy of current methods suffers from the bottleneck of less-efficient network architecture and lack of motion rigidity for regularization. In this paper, we propose a superior model named EMR-MSF by borrowing the advantages of network architecture design under the scope of supervised learning. We further impose explicit and robust geometric constraints with an elaborately constructed ego-motion aggregation module where a rigidity soft mask is proposed to filter out dynamic regions for stable ego-motion estimation using static regions. Moreover, we propose a motion consistency loss along with a mask regularization loss to fully exploit static regions. Several efficient training strategies are integrated including a gradient detachment technique and an enhanced view synthesis process for better performance. Our proposed method outperforms the previous self-supervised works by a large margin and catches up to the performance of supervised methods. On the KITTI scene flow benchmark, our approach improves the SF-all metric of the state-of-the-art self-supervised monocular method by 44% and demonstrates superior performance across sub-tasks including depth and visual odometry, amongst other self-supervised single-task or multi-task methods. | 翻訳日:2023-09-06 20:24:25 公開日:2023-09-04 |
# AlphaZero Gomoku AlphaZero Gomoku ( http://arxiv.org/abs/2309.01294v1 ) ライセンス: Link先を確認 | Wen Liang, Chao Yu, Brian Whiteaker, Inyoung Huh, Hua Shao, Youzhi Liang | (参考訳) ここ数年、alphazeroの複雑なボードゲームを習得する能力は、かなりの関心を集めている。
当初、goゲーム用に設計されたこの革命的アルゴリズムは、モンテカルロ木探索(mcts)とディープラーニング技術を融合して、以前のトップ層メソッドを上回った。
本研究は,AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲームであるGomokuに拡張するものである。
興味深いことに、gomokuは、理論的に有利な最初のプレイヤーに対するバイアスのために、生来の課題を抱えている。
価値を付加するために、バランスのとれたゲームプレイを目指しています。
我々のテストでは、AlphaZeroのGo以外のゲームへの適応性を示す。
MCTSは複雑なシナリオ、特にボードゲームにおける決定プロセスの主要なアルゴリズムとなっている。
MCTSは潜在的な将来の行動を調べて探索木を作成し、ランダムサンプリングを用いて可能な結果を予測する。
AlphaZeroのテクニックは、両方の世界の長所を活用することによって、強化学習から深層学習をMCTSのバランス行為と融合させ、ゲームプレイングAIの新たな標準を確立する。
その勝利は、go、チェス、shogiなどのボードゲームで顕著である。 In the past few years, AlphaZero's exceptional capability in mastering intricate board games has garnered considerable interest. Initially designed for the game of Go, this revolutionary algorithm merges deep learning techniques with the Monte Carlo tree search (MCTS) to surpass earlier top-tier methods. In our study, we broaden the use of AlphaZero to Gomoku, an age-old tactical board game also referred to as "Five in a Row." Intriguingly, Gomoku has innate challenges due to a bias towards the initial player, who has a theoretical advantage. To add value, we strive for a balanced game-play. Our tests demonstrate AlphaZero's versatility in adapting to games other than Go. MCTS has become a predominant algorithm for decision processes in intricate scenarios, especially board games. MCTS creates a search tree by examining potential future actions and uses random sampling to predict possible results. By leveraging the best of both worlds, the AlphaZero technique fuses deep learning from Reinforcement Learning with the balancing act of MCTS, establishing a fresh standard in game-playing AI. Its triumph is notably evident in board games such as Go, chess, and shogi. | 翻訳日:2023-09-06 20:23:55 公開日:2023-09-04 |
# 非断熱的および非循環的進化による状態独立な幾何学的量子ゲート State-independent geometric quantum gates via nonadiabatic and noncyclic evolution ( http://arxiv.org/abs/2309.01323v1 ) ライセンス: Link先を確認 | Yue Chen, Li-Na Ji, Yan Liang and Zheng-Yuan Xue | (参考訳) 幾何学的位相は局所雑音に対して頑健であり、非断熱的位相は進化時間を短縮できるため、非断熱的幾何学的ゲートは強い堅牢性を持ち、高い忠実性に近づくことができる。
しかし、幾何位相の利点は以前の研究で完全には研究されていない。
本稿では,滑らかな進化経路から純非断熱および非循環幾何位相を持つ普遍量子ゲートのスキームを提案する。
提案手法では, 幾何学的位相のみを高速に蓄積できるため, 局所的雑音抵抗特性を十分に活用するだけでなく, 実験的実現の困難さを低減できる。
数値計算の結果, 幾何学的ゲートは動的ゲートよりも強固であり, 環状経路を持つ幾何学的スキームは強固であることがわかった。
さらに、超伝導回路上に普遍量子ゲートを構築することを提案し、ゲート忠実度はそれぞれ99.97\%$と99.87\%$である。
したがって、これらの高忠実性量子ゲートは大規模なフォールトトレラント量子計算に有望である。 Geometric phases are robust to local noises and the nonadiabatic ones can reduce the evolution time, thus nonadiabatic geometric gates have strong robustness and can approach high fidelity. However, the advantage of geometric phase has not being fully explored in previous investigations. Here, we propose a scheme for universal quantum gates with pure nonadiabatic and noncyclic geometric phases from smooth evolution paths. In our scheme, only geometric phase can be accumulated in a fast way, and thus it not only fully utilizes the local noise resistant property of geometric phase but also reduces the difficulty in experimental realization. Numerical results show that the implemented geometric gates have stronger robustness than dynamical gates and the geometric scheme with cyclic path. Furthermore, we propose to construct universal quantum gate on superconducting circuits, and the gate fidelity can be $99.97\%$ and $99.87\%$, respectively. Therefore, these high-fidelity quantum gates are promising for large-scale fault-tolerant quantum computation. | 翻訳日:2023-09-06 20:15:22 公開日:2023-09-04 |
# FAU-Net:前立腺癌分節に対する特徴ピラミッド注意付き注意U-Net拡張 FAU-Net: An Attention U-Net Extension with Feature Pyramid Attention for Prostate Cancer Segmentation ( http://arxiv.org/abs/2309.01322v1 ) ライセンス: Link先を確認 | Pablo Cesar Quihui-Rubio and Daniel Flores-Araiza and Miguel Gonzalez-Mendoza and Christian Mata and Gilberto Ochoa-Ruiz | (参考訳) 本研究は,MRI画像における前立腺領域のセグメンテーションを付加的および特徴的ピラミッドアテンションモジュールを用いて深層学習し,前立腺がんの検出と診断のワークフローを改善することを目的とする。
提案したモデルは、7つの異なるU-Netアーキテクチャと比較される。
中心領域(CZ),周辺領域(PZ),遷移帯(TZ),腫瘍の各モデルの自動セグメンテーション性能をDice Score(DSC)およびIoU(IoU)メトリクスを用いて評価した。
提案された代替案は平均84.15%のdscと76.9%のiouを達成し、r2u-netとアテンションr2u-netアーキテクチャを除いて、この研究で研究されたモデルの大半を上回った。 This contribution presents a deep learning method for the segmentation of prostate zones in MRI images based on U-Net using additive and feature pyramid attention modules, which can improve the workflow of prostate cancer detection and diagnosis. The proposed model is compared to seven different U-Net-based architectures. The automatic segmentation performance of each model of the central zone (CZ), peripheral zone (PZ), transition zone (TZ) and Tumor were evaluated using Dice Score (DSC), and the Intersection over Union (IoU) metrics. The proposed alternative achieved a mean DSC of 84.15% and IoU of 76.9% in the test set, outperforming most of the studied models in this work except from R2U-Net and attention R2U-Net architectures. | 翻訳日:2023-09-06 20:15:04 公開日:2023-09-04 |
# ML支援OTFS vs. OFDM適応モデム An ML-assisted OTFS vs. OFDM adaptable modem ( http://arxiv.org/abs/2309.01319v1 ) ライセンス: Link先を確認 | I. Zakir Ahmed and Hamid R. Sadjadpour | (参考訳) Orthogonal-Time-Frequency-Space (OTFS)シグナルは、高モビリティシナリオに影響を与える二重分散チャネルに耐性があることが知られている。
一方,Orthogonal-Frequency-Division-Multiplexing(OFDM)波形は,レガシアーキテクチャの再利用,レシーバ設計の簡易化,低複雑さ検出といったメリットを享受する。
OFDMとOTFSのパフォーマンスを比較するいくつかの研究は、高い運動条件を超えるシステムパラメータの多さによる混合結果を示している。
本稿では,シミュレーションを用いてこの観察を例示し,送信機におけるotfsまたはofdm信号処理チェーンと,最適平均二乗誤差(mse)性能の受信機を切り替えるディープニューラルネットワーク(dnn)に基づく適応方式を提案する。
DNN分類器は、チャネル条件、受信SNR、変調フォーマットを観察して、2つのスキームを切り替えるように訓練される。
我々は,OTFS,OFDM,提案したスイッチングウェーブフォーム方式の性能を比較した。
シミュレーションにより,DNNを用いた提案方式の方が優れた性能を示し,通信のMSE性能を大幅に向上させた。 The Orthogonal-Time-Frequency-Space (OTFS) signaling is known to be resilient to doubly-dispersive channels, which impacts high mobility scenarios. On the other hand, the Orthogonal-Frequency-Division-Multiplexing (OFDM) waveforms enjoy the benefits of the reuse of legacy architectures, simplicity of receiver design, and low-complexity detection. Several studies that compare the performance of OFDM and OTFS have indicated mixed outcomes due to the plethora of system parameters at play beyond high-mobility conditions. In this work, we exemplify this observation using simulations and propose a deep neural network (DNN)-based adaptation scheme to switch between using either an OTFS or OFDM signal processing chain at the transmitter and receiver for optimal mean-squared-error (MSE) performance. The DNN classifier is trained to switch between the two schemes by observing the channel condition, received SNR, and modulation format. We compare the performance of the OTFS, OFDM, and the proposed switched-waveform scheme. The simulations indicate superior performance with the proposed scheme with a well-trained DNN, thus improving the MSE performance of the communication significantly. | 翻訳日:2023-09-06 20:14:46 公開日:2023-09-04 |
# FPGAスマートカメラによるドローン山火事画像のセグメンテーションモデルの実装 An FPGA smart camera implementation of segmentation models for drone wildfire imagery ( http://arxiv.org/abs/2309.01318v1 ) ライセンス: Link先を確認 | Eduardo Guardu\~no-Martinez and Jorge Ciprian-Sanchez and Gerardo Valente and Vazquez-Garcia and Gerardo Rodriguez-Hernandez and Adriana Palacios-Rosas and Lucile Rossi-Tisson and Gilberto Ochoa-Ruiz | (参考訳) 森林火災は、様々な社会的・環境レベルへの影響から、世界有数の自然災害の1つである。
そこで,コンピュータビジョン技術を用いてこの問題に対処するための研究がかなりの量実施されている。
ワイルドファイアーファイアーの最も有望なアプローチの1つは、可視カメラと赤外線カメラを装備したドローンを使用して、リモートで検出、監視、および火の拡散評価を行う。
しかし、GPU上で動作する完全精度のディープラーニングモデルをデプロイすることは、高消費電力とドローンが扱える限られたペイロードのため、有効な選択肢ではないため、効果的なコンピュータビジョンアルゴリズムを実装することは、しばしば禁止される。
そこで本研究では、低消費電力フィールドプログラマブルゲートアレイ(FPGA)をベースとしたスマートカメラを、バイナライズニューラルネットワーク(BNN)と組み合わせることで、エッジ上でのオンボードコンピューティングを実装するためのコスト効率の良い代替手段であると仮定する。
本稿では,Corsican Fire Databaseに適用されたセグメンテーションモデルの実装について述べる。
このようなタスクのために既存のU-Netモデルを最適化し、エッジデバイス(Xilinx Ultra96-v2 FPGA)に移植した。
原モデルの定式化と定量化により,パラメータの数を90%削減する。
さらに,1秒間8フレーム (FPS) から33.63FPS (FPS) へのスループット向上を実現した。このモデルでは,マシューズ相関係数 (MCC) 0.912,F1スコアで0.915,Hafiane品質指標 (HAF) 0.870,および完全精度モデルと対照的な定性的セグメンテーション結果を得た。
最終モデルは低コストのFPGAに統合され、ニューラルネットワークアクセラレータの実装に使用された。 Wildfires represent one of the most relevant natural disasters worldwide, due to their impact on various societal and environmental levels. Thus, a significant amount of research has been carried out to investigate and apply computer vision techniques to address this problem. One of the most promising approaches for wildfire fighting is the use of drones equipped with visible and infrared cameras for the detection, monitoring, and fire spread assessment in a remote manner but in close proximity to the affected areas. However, implementing effective computer vision algorithms on board is often prohibitive since deploying full-precision deep learning models running on GPU is not a viable option, due to their high power consumption and the limited payload a drone can handle. Thus, in this work, we posit that smart cameras, based on low-power consumption field-programmable gate arrays (FPGAs), in tandem with binarized neural networks (BNNs), represent a cost-effective alternative for implementing onboard computing on the edge. Herein we present the implementation of a segmentation model applied to the Corsican Fire Database. We optimized an existing U-Net model for such a task and ported the model to an edge device (a Xilinx Ultra96-v2 FPGA). By pruning and quantizing the original model, we reduce the number of parameters by 90%. Furthermore, additional optimizations enabled us to increase the throughput of the original model from 8 frames per second (FPS) to 33.63 FPS without loss in the segmentation performance: our model obtained 0.912 in Matthews correlation coefficient (MCC),0.915 in F1 score and 0.870 in Hafiane quality index (HAF), and comparable qualitative segmentation results when contrasted to the original full-precision model. The final model was integrated into a low-cost FPGA, which was used to implement a neural network accelerator. | 翻訳日:2023-09-06 20:14:24 公開日:2023-09-04 |
# 測定専用量子回路におけるステアリング誘起相転移 Steering-induced phase transition in measurement-only quantum circuits ( http://arxiv.org/abs/2309.01315v1 ) ライセンス: Link先を確認 | Dongheng Qian and Jing Wang | (参考訳) 競合測定だけでは、エントロピーのエントロピー$\unicode{x2013}$のように、体積法相、対称性破れ(SB)相、対称性保護トポロジー(SPT)相$\unicode{x2013}$のような異なる位相が生じる。
別の研究領域では、最近の研究により、ステアリングが量子回路内の追加位相を引き起こすことが示されている。
本研究では, ステアリングを伴う測定専用量子回路に新しい位相が現れることを示す。
局所情報のみに依存する従来のステアリング方式とは異なり、我々が導入するステアリング方式では回路の構造を付加入力として要求する。
これらのステアリング誘導相は「インフォーマティブ」フェーズと呼ばれる。
それらは各回路で測定されたビット文字列の固有次元によって区別され、実験的なセットアップで検出するのがかなり容易である。
従来よく研究されていた3つの回路モデル、射影横場イジングモデル、格子ゲージヒッグスモデル、XZZXモデルにおいて、この相転移を数値シミュレーションにより明らかに示す。
情報相がSB相と一致する場合、我々の操舵機構は実質的に「予備選択」ルーチンとして機能し、SB相をより実験的に利用することができる。
さらに、絡み合いエントロピーによってキャプチャされた量子情報とビットストリングによって伝達される古典的情報との間に不一致が生じる中間相が現れることもある。
本研究は, ステアリングが理論的富性をもたらすだけでなく, 測定専用量子回路の研究において実用的優位性をもたらすことを示した。 Competing measurements alone can give rise to distinct phases characterized by entanglement entropy$\unicode{x2013}$such as the volume law phase, symmetry-breaking (SB) phase, and symmetry-protected topological (SPT) phase$\unicode{x2013}$that can only be discerned through quantum trajectories, making them challenging to observe experimentally. In another burgeoning area of research, recent studies have demonstrated that steering can give rise to additional phases within quantum circuits. In this work, we show that new phases can appear in measurement-only quantum circuit with steering. Unlike conventional steering methods that rely solely on local information, the steering scheme we introduce requires the circuit's structure as an additional input. These steering induced phases are termed as "informative" phases. They are distinguished by the intrinsic dimension of the bitstrings measured in each circuit run, making them substantially easier to detect in experimental setups. We explicitly show this phase transition by numerical simulation in three circuit models that are previously well-studied: projective transverse field Ising model, lattice gauge-Higgs model and XZZX model. When the informative phase coincides with the SB phase, our steering mechanism effectively serves as a "pre-selection" routine, making the SB phase more experimentally accessible. Additionally, an intermediate phase may manifest, where a discrepancy arises between the quantum information captured by entanglement entropy and the classical information conveyed by bitstrings. Our findings demonstrate that steering not only adds theoretical richness but also offers practical advantages in the study of measurement-only quantum circuits. | 翻訳日:2023-09-06 20:13:49 公開日:2023-09-04 |
# Out-Of-Distribution Detection を用いたアルツハイマー病の自動化と早期診断 Enhancing Automated and Early Detection of Alzheimer's Disease Using Out-Of-Distribution Detection ( http://arxiv.org/abs/2309.01312v1 ) ライセンス: Link先を確認 | Audrey Paleczny, Shubham Parab, and Maxwell Zhang | (参考訳) 65歳以上の高齢者の10.7%以上がアルツハイマー病に罹患している。
早期の診断と治療は、ほとんどのアルツハイマー病患者は、効果が有害になるまでそれを持つことに気づいていないため、重要である。
AIはアルツハイマー病の診断にMRI(MRI)を使用していることが知られている。
しかし, 誤診率の低いモデルでは, 不要な治療の予防が重要である。
そこで我々は,脳分割量と畳み込みニューラルネットワーク(cnn)出力を用いた教師付きランダムフォレストモデルを訓練し,アルツハイマー病の病期を分類した。
CNNモデルにOOD(out-of-distribution)検出を適用し,誤分類の可能性が高ければOODを報告し,誤診断の低減を図る。
また, 検出精度98%, 分類率95%では, 検出精度93%, 分類精度87%のセグメンテッドボリュームモデルよりも優れていた。
CNNモデルにOOD検出を適用することで、脳腫瘍画像を96%の精度で、全体的な精度を最小限に抑えることができる。
CNNを用いたMRI分類の信頼性を高めるためにOOD検出を用いることで、偽陽性率を下げ、医療タスクに機械学習モデルを使用することの重大な欠点を排除した。
要求に応じて利用可能なソースコード。 More than 10.7% of people aged 65 and older are affected by Alzheimer's disease. Early diagnosis and treatment are crucial as most Alzheimer's patients are unaware of having it until the effects become detrimental. AI has been known to use magnetic resonance imaging (MRI) to diagnose Alzheimer's. However, models which produce low rates of false diagnoses are critical to prevent unnecessary treatments. Thus, we trained supervised Random Forest models with segmented brain volumes and Convolutional Neural Network (CNN) outputs to classify different Alzheimer's stages. We then applied out-of-distribution (OOD) detection to the CNN model, enabling it to report OOD if misclassification is likely, thereby reducing false diagnoses. With an accuracy of 98% for detection and 95% for classification, our model based on CNN results outperformed our segmented volume model, which had detection and classification accuracies of 93% and 87%, respectively. Applying OOD detection to the CNN model enabled it to flag brain tumor images as OOD with 96% accuracy and minimal overall accuracy reduction. By using OOD detection to enhance the reliability of MRI classification using CNNs, we lowered the rate of false positives and eliminated a significant disadvantage of using Machine Learning models for healthcare tasks. Source code available upon request. | 翻訳日:2023-09-06 20:13:18 公開日:2023-09-04 |
# ExMobileViT: モバイルビジョントランス用軽量分類器拡張 ExMobileViT: Lightweight Classifier Extension for Mobile Vision Transformer ( http://arxiv.org/abs/2309.01310v1 ) ライセンス: Link先を確認 | Gyeongdong Yang, Yungwook Kwon, and Hyunjin Kim | (参考訳) 本稿では,モバイルフレンドリーな視覚変換器の性能向上のための効率的な構造を提案する。
視覚変換器(ViT)は、従来の畳み込みニューラルネットワーク(CNN)と比較して、画像分類において優れた結果が得られるという点で非常に魅力的である。
高い計算資源を必要とするため、MobileViT-SのようなMobileNetベースのViTモデルが開発されている。
しかし、その性能はオリジナルのViTモデルには達しない。
提案手法は, 初期注意段階から情報を保存し, 最終分類器で再利用することで, 上記の弱点を緩和する。
本論文は,早期注意段階のデータ自体が最終分類に重要な意味を持つという考えから動機付けられたものである。
注意段階における初期情報を再利用するために、初期注意段階からの様々な特徴量の平均プール結果を用いて、最終分類器の完全連結層内のチャネルを拡大する。
平均的特徴によって引き起こされる帰納バイアスが最終性能を高めることが期待できる。
提案する構造は,注意段階からの平均的な機能プールと最終分類器のチャネル拡張のみを必要とするため,計算オーバーヘッドとストレージオーバーヘッドが非常に小さく,低コストなmobilenetベースのvit (mobilevit) のメリットを享受できる。
ImageNetデータセットのオリジナルのMobileViTと比較すると、提案されたExMobileViTは、約5%の追加パラメータしか持たない、顕著な精度向上を実現している。 The paper proposes an efficient structure for enhancing the performance of mobile-friendly vision transformer with small computational overhead. The vision transformer (ViT) is very attractive in that it reaches outperforming results in image classification, compared to conventional convolutional neural networks (CNNs). Due to its need of high computational resources, MobileNet-based ViT models such as MobileViT-S have been developed. However, their performance cannot reach the original ViT model. The proposed structure relieves the above weakness by storing the information from early attention stages and reusing it in the final classifier. This paper is motivated by the idea that the data itself from early attention stages can have important meaning for the final classification. In order to reuse the early information in attention stages, the average pooling results of various scaled features from early attention stages are used to expand channels in the fully-connected layer of the final classifier. It is expected that the inductive bias introduced by the averaged features can enhance the final performance. Because the proposed structure only needs the average pooling of features from the attention stages and channel expansions in the final classifier, its computational and storage overheads are very small, keeping the benefits of low-cost MobileNet-based ViT (MobileViT). Compared with the original MobileViTs on the ImageNet dataset, the proposed ExMobileViT has noticeable accuracy enhancements, having only about 5% additional parameters. | 翻訳日:2023-09-06 20:12:57 公開日:2023-09-04 |
# スペクトルのメジャー化を意味する予想の部分的証明 Partial Proof of a Conjecture with Implications for Spectral Majorization ( http://arxiv.org/abs/2309.01302v1 ) ライセンス: Link先を確認 | Jeffrey Uhlmann | (参考訳) 本稿では,$n\times n$,$n\leq 6$,正定値行列の性質に関する予想に関する新しい結果について報告する。
この予想は、多項式の非負性を証明するためにコンピュータ支援された平方和(SoS)法を用いて$n\leq 4$で証明されている。
これらの証明された事例に基づき、直近では、その対角線がスペクトルを多角化する性質を持つ新しい行列族が同定されたことを報告する。
次に、この族が特殊偏化特性を維持しながら、Kronecker合成により$n>6$まで拡張可能であることを示す新しい結果を示す。
コンピュータ支援とAIに基づく証明の今後について概観した。 In this paper we report on new results relating to a conjecture regarding properties of $n\times n$, $n\leq 6$, positive definite matrices. The conjecture has been proven for $n\leq 4$ using computer-assisted sum of squares (SoS) methods for proving polynomial nonnegativity. Based on these proven cases, we report on the recent identification of a new family of matrices with the property that their diagonals majorize their spectrum. We then present new results showing that this family can extended via Kronecker composition to $n>6$ while retaining the special majorization property. We conclude with general considerations on the future of computer-assisted and AI-based proofs. | 翻訳日:2023-09-06 20:12:31 公開日:2023-09-04 |
# $\mathbb{T}$-Stochastic Graphs $\mathbb{T}$-Stochastic Graphs ( http://arxiv.org/abs/2309.01301v1 ) ライセンス: Link先を確認 | Sijia Fang, Karl Rohe | (参考訳) ソーシャルネットワーク分析のための階層的クラスタリングに対する以前の統計学的アプローチはすべて、"ultrametric"階層を構築している。
超音量性の仮定は系統学の文献で議論され研究されているが、まだソーシャルネットワークの文献では認められていない。
ネットワーク内の"非ultrametric structure"は、既存のトップダウンリカバリアルゴリズムに重大な不安定性をもたらしている。
この問題に対処するために,不安定な診断プロットを導入し,経験的ネットワークの集合を調べる。
これらのネットワークは、"ultrametric"仮定に違反しているように見える。
我々は, 潜在階層に位相的制約を課さない, $\mathbb{t}$-stochastic graphs と呼ばれる確率的モデルの騙し込み的単純かつ一般クラスを提案する。
このモデルを説明するために、階層的ネットワークモデルの6つの代替形式を提案し、6つ全てが$\mathbb{t}$-stochastic graphモデルと等価であることを示す。
これらのオルタナティブモデルによって、スペクトル技法と系統学的再構成によるよく知られた隣り合うアルゴリズムを組み合わせた階層的クラスタリングへの新しいアプローチが動機づけられる。
このスペクトルアプローチが統計的に一貫性があることを証明します。 Previous statistical approaches to hierarchical clustering for social network analysis all construct an "ultrametric" hierarchy. While the assumption of ultrametricity has been discussed and studied in the phylogenetics literature, it has not yet been acknowledged in the social network literature. We show that "non-ultrametric structure" in the network introduces significant instabilities in the existing top-down recovery algorithms. To address this issue, we introduce an instability diagnostic plot and use it to examine a collection of empirical networks. These networks appear to violate the "ultrametric" assumption. We propose a deceptively simple and yet general class of probabilistic models called $\mathbb{T}$-Stochastic Graphs which impose no topological restrictions on the latent hierarchy. To illustrate this model, we propose six alternative forms of hierarchical network models and then show that all six are equivalent to the $\mathbb{T}$-Stochastic Graph model. These alternative models motivate a novel approach to hierarchical clustering that combines spectral techniques with the well-known Neighbor-Joining algorithm from phylogenetic reconstruction. We prove this spectral approach is statistically consistent. | 翻訳日:2023-09-06 20:12:21 公開日:2023-09-04 |
# 電気自動車のエネルギー需要予測のための学習システムの通信効率設計 Communication-Efficient Design of Learning System for Energy Demand Forecasting of Electrical Vehicles ( http://arxiv.org/abs/2309.01297v1 ) ライセンス: Link先を確認 | Jiacong Xu, Riley Kilfoyle, Zixiang Xiong, Ligang Lu | (参考訳) 時系列エネルギー利用予測問題に対する機械学習(ML)の適用は、様々な要因により困難な課題である。
エネルギー利用データセットの非均質性とエネルギー消費者の地理的分散が主な特徴である。
さらに、これらのMLモデルは、効果的なモデルを開発するために大量のトレーニングデータと通信オーバーヘッドを必要とする。
本稿では、地理的に分散した一連のEV充電ステーションに実装されたトランスフォーマーアーキテクチャの最新の進歩と、分散トレーニングを実現するためのフェデレートラーニング(FL)の効率的なバリエーションを組み合わせた通信効率のよい時系列予測モデルを提案する。
FLの時系列予測性能と通信オーバヘッドコストを比較した結果,訓練中のデータレートを著しく低下させながら,性能が同等であることが確認された。
さらに、EV充電および他の時系列データセット間で比較を行い、エネルギー需要を超えた一般化時系列予測における提案モデルの柔軟性を実証する。
この作業のソースコードはhttps://github.com/xujiacong/logtst_psgfで入手できる。 Machine learning (ML) applications to time series energy utilization forecasting problems are a challenging assignment due to a variety of factors. Chief among these is the non-homogeneity of the energy utilization datasets and the geographical dispersion of energy consumers. Furthermore, these ML models require vast amounts of training data and communications overhead in order to develop an effective model. In this paper, we propose a communication-efficient time series forecasting model combining the most recent advancements in transformer architectures implemented across a geographically dispersed series of EV charging stations and an efficient variant of federated learning (FL) to enable distributed training. The time series prediction performance and communication overhead cost of our FL are compared against their counterpart models and shown to have parity in performance while consuming significantly lower data rates during training. Additionally, the comparison is made across EV charging as well as other time series datasets to demonstrate the flexibility of our proposed model in generalized time series prediction beyond energy demand. The source code for this work is available at https://github.com/XuJiacong/LoGTST_PSGF | 翻訳日:2023-09-06 20:12:03 公開日:2023-09-04 |
# マルウェアDNA: マルウェア、マルウェア、新しいマルウェアの同時分類 MalwareDNA: Simultaneous Classification of Malware, Malware Families, and Novel Malware ( http://arxiv.org/abs/2309.01350v1 ) ライセンス: Link先を確認 | Maksim E. Eren, Manish Bhattarai, Kim Rasmussen, Boian S. Alexandrov, Charles Nicholas | (参考訳) マルウェアは、国家安全保障にとって最も危険でコストのかかるサイバー脅威の1つであり、現代のサイバー空間において重要な要素である。
しかし、マルウェアの脅威に対する機械学習(ml)ベースのソリューションの採用は比較的遅い。
既存のMLアプローチの欠点は、この問題に寄与している可能性が高い。
現在のMLアプローチの大半は、新しいマルウェアの検出などの現実的な課題を無視している。
さらに、提案するMLアプローチは、マルウェア/ベニグウェア分類またはマルウェアファミリー分類のためにしばしば設計される。
本稿では,新しいマルウェアファミリーを正確に同定すると同時に,マルウェア/良性マルウェア分類とマルウェアファミリー分類の機能を1つのフレームワークに統合する新しい手法の予備的機能を紹介する。 Malware is one of the most dangerous and costly cyber threats to national security and a crucial factor in modern cyber-space. However, the adoption of machine learning (ML) based solutions against malware threats has been relatively slow. Shortcomings in the existing ML approaches are likely contributing to this problem. The majority of current ML approaches ignore real-world challenges such as the detection of novel malware. In addition, proposed ML approaches are often designed either for malware/benign-ware classification or malware family classification. Here we introduce and showcase preliminary capabilities of a new method that can perform precise identification of novel malware families, while also unifying the capability for malware/benign-ware classification and malware family classification into a single framework. | 翻訳日:2023-09-06 20:05:14 公開日:2023-09-04 |
# 一般化力学ホップ絶縁体における直交リンクから位相渦へ From orthogonal link to phase vortex in generalized dynamical Hopf insulators ( http://arxiv.org/abs/2309.01344v1 ) ライセンス: Link先を確認 | Yuxuan Ma, Xin Li, Yu Wang, Shuncai Zhao, Guangqin Xiong, and Tongxin Sun | (参考訳) ホップ位相問題の作成において、古いパラダイムはまずホップ不変量を考え、それからリンクを通じて直観的なトポロジーを表示することである。
ここでは、この取り組みの傍らに、2次元(2次元)2バンドチャーン絶縁体を平行なクレンチプロトコルで解き放つための新しいレシピを提案し、異なる運動量kのクレンチ量が互いに平行あるいは反平行であることを示す。
動的ホップ不変量が存在するかどうかに関わらず、(2+1)d空間内のリンクは常に位相的初期状態においても標準形状を保ち、位相渦の軌跡を追跡する。
リンク数はホモトピー群の構成によらず、前および後チャーン数の差と完全に等しい。
これらの結果を説明するために2つの具体例を用い、固定点における極性反転を強調する。 In the creation of Hopf topological matters, the old paradigm is to conceive the Hopf invariant first, and then display its intuitive topology through links. Here we brush aside this effort and put forward a new recipe for unraveling the quenched two-dimensional (2D) two-band Chern insulators under a parallel quench protocol, which implies that the quench quantities with different momentum k are parallel or antiparallel to each other. We find that whether the dynamical Hopf invariant exists or not, the links in (2+1)D space always keep their standard shape even for topological initial states, and trace out the trajectories of phase vortices. The linking number is exactly equal to the difference between pre- and post-quench Chern numbers regardless of the construction of homotopy groups. We employ two concrete examples to illustrate these results, highlighting the polarity reversal at fixed points. | 翻訳日:2023-09-06 20:05:02 公開日:2023-09-04 |
# クロスドメインFew-Shot分類のための適応パラメトリックプロトタイプ学習 Adaptive Parametric Prototype Learning for Cross-Domain Few-Shot Classification ( http://arxiv.org/abs/2309.01342v1 ) ライセンス: Link先を確認 | Marzi Heidari, Abdullah Alchihabi, Qing En, Yuhong Guo | (参考訳) クロスドメインの少数ショット分類は、トレーニングとテストタスク間のドメインシフトが存在するため、ドメイン内よりもずっと難しい問題を引き起こします。
本稿では,メタラーニングの慣行の下で,ドメイン間複数ショット分類のための新しい適応パラメトリックプロトタイプ学習法(APPL)を提案する。
クラスプロトタイプの計算にサポートインスタンスの平均値を用いる既存のプロトタイプと異なり、パラメトリックな方法でサポートセットの連結した特徴からクラスプロトタイプを学習し、クエリセットにプロトタイプベースの正規化を強制することでモデルをメタラーニングすることを提案する。
さらに,クエリインスタンスに対する重み付き移動平均自己学習アプローチを用いて,対象ドメイン内のモデルをトランスダクティブな方法で微調整する。
複数のドメイン間数ショットベンチマークデータセットで実験を行う。
実験の結果,APPLは最先端のクロスドメイン・ショット学習法よりも優れた性能を示すことがわかった。 Cross-domain few-shot classification induces a much more challenging problem than its in-domain counterpart due to the existence of domain shifts between the training and test tasks. In this paper, we develop a novel Adaptive Parametric Prototype Learning (APPL) method under the meta-learning convention for cross-domain few-shot classification. Different from existing prototypical few-shot methods that use the averages of support instances to calculate the class prototypes, we propose to learn class prototypes from the concatenated features of the support set in a parametric fashion and meta-learn the model by enforcing prototype-based regularization on the query set. In addition, we fine-tune the model in the target domain in a transductive manner using a weighted-moving-average self-training approach on the query instances. We conduct experiments on multiple cross-domain few-shot benchmark datasets. The empirical results demonstrate that APPL yields superior performance than many state-of-the-art cross-domain few-shot learning methods. | 翻訳日:2023-09-06 20:04:46 公開日:2023-09-04 |
# MDSC:音楽とスタイルの整合性の評価に向けて MDSC: Towards Evaluating the Style Consistency Between Music and ( http://arxiv.org/abs/2309.01340v1 ) ライセンス: Link先を確認 | Zixiang Zhou, Baoyuan Wang | (参考訳) ダンスと音楽の一致度を評価する最初の評価指標であるMDSC(Music-Dance-Style Consistency)を提案する。
既存の測定基準では、動きの忠実性と多様性と、音楽と動きのリズムマッチングの程度のみが評価できる。
MDSCは、生成したダンス・モーション・シーケンスとコンディショニング・ミュージック・シーケンスがいかにスタイリスティックに相関しているかを測定する。
運動と音楽の埋め込み距離を直接測定することは最適解ではないことがわかった。
代わりに、クラスタリング問題としてモデル化することで、この問題に取り組みます。
具体的には
1)音楽エンコーダとモーションエンコーダの事前訓練を行い、
2) クラスタ内距離を最小化し, クラスタ間距離を最大化し, 共同空間内での動作と音楽の埋め込みを地図化・調整することを学ぶ。
3) 評価のために, ダンスの動きを組込み, クラスタ間距離, クラスタ間距離, およびそれらの比率にエンコードする。
提案手法は,音楽条件付き動作生成手法の結果に基づいて評価し,ユーザスタディと組み合わせることで,音楽距離スタイルの相関を計測する上で,ロバストな評価基準であることが判明した。
コードはhttps://github.com/zixiangzhou916/mdscで入手できる。 We propose MDSC(Music-Dance-Style Consistency), the first evaluation metric which assesses to what degree the dance moves and music match. Existing metrics can only evaluate the fidelity and diversity of motion and the degree of rhythmic matching between music and motion. MDSC measures how stylistically correlated the generated dance motion sequences and the conditioning music sequences are. We found that directly measuring the embedding distance between motion and music is not an optimal solution. We instead tackle this through modelling it as a clustering problem. Specifically, 1) we pre-train a music encoder and a motion encoder, then 2) we learn to map and align the motion and music embedding in joint space by jointly minimizing the intra-cluster distance and maximizing the inter-cluster distance, and 3) for evaluation purpose, we encode the dance moves into embedding and measure the intra-cluster and inter-cluster distances, as well as the ratio between them. We evaluate our metric on the results of several music-conditioned motion generation methods, combined with user study, we found that our proposed metric is a robust evaluation metric in measuring the music-dance style correlation. The code is available at: https://github.com/zixiangzhou916/MDSC. | 翻訳日:2023-09-06 20:04:31 公開日:2023-09-04 |
# UniSA: 知覚分析のための統一生成フレームワーク UniSA: Unified Generative Framework for Sentiment Analysis ( http://arxiv.org/abs/2309.01339v1 ) ライセンス: Link先を確認 | Zaijing Li, Ting-En Lin, Yuchuan Wu, Meng Liu, Fengxiao Tang, Ming Zhao, Yongbin Li | (参考訳) 感情分析は、人々の感情状態を理解し、マルチモーダル情報に基づいて感情カテゴリーを予測することを目的とした重要な課題である。
会話における感情認識(ERC)、アスペクトベース感情分析(ABSA)、マルチモーダル感情分析(MSA)など、いくつかのサブタスクから構成される。
しかし、感情分析におけるすべてのサブタスクを統一することは、モダリティアライメント、入出力フォームの統合、データセットバイアスなど、数多くの課題をもたらす。
これらの課題に対処するために,サブタスクを共同でモデル化し,unisaと呼ばれるマルチモーダル生成フレームワークを導入するタスク固有プロンプト手法を提案する。
さらに、主要なサブタスクのベンチマークデータセットを新しいSentiment Analysis EvaluationベンチマークであるSAEvalにまとめる。
我々は,モデルがサブタスク間の一般的な感情知識を学習し,モデルのマルチモーダル感情知覚能力を向上させるために,新しい事前学習タスクとトレーニング方法を設計する。
実験結果から,UniSAはすべてのサブタスクにおいて最先端と同等に動作し,感情分析における様々なサブタスクによく対応していることがわかった。 Sentiment analysis is a crucial task that aims to understand people's emotional states and predict emotional categories based on multimodal information. It consists of several subtasks, such as emotion recognition in conversation (ERC), aspect-based sentiment analysis (ABSA), and multimodal sentiment analysis (MSA). However, unifying all subtasks in sentiment analysis presents numerous challenges, including modality alignment, unified input/output forms, and dataset bias. To address these challenges, we propose a Task-Specific Prompt method to jointly model subtasks and introduce a multimodal generative framework called UniSA. Additionally, we organize the benchmark datasets of main subtasks into a new Sentiment Analysis Evaluation benchmark, SAEval. We design novel pre-training tasks and training methods to enable the model to learn generic sentiment knowledge among subtasks to improve the model's multimodal sentiment perception ability. Our experimental results show that UniSA performs comparably to the state-of-the-art on all subtasks and generalizes well to various subtasks in sentiment analysis. | 翻訳日:2023-09-06 20:04:10 公開日:2023-09-04 |
# 電力需要のインターバル予測のための学習--クラスタ型ブートストラップアプローチ Learning for Interval Prediction of Electricity Demand: A Cluster-based Bootstrapping Approach ( http://arxiv.org/abs/2309.01336v1 ) ライセンス: Link先を確認 | Rohit Dube, Natarajan Gautam, Amarnath Banerjee, Harsha Nagarajan | (参考訳) マイクログリッドのような小さな集約負荷設定での運用管理には、電力需要の正確な予測が必要である。
凝集度が低いため、電気需要は非常に確率的であり、点推定は膨らんだ誤差につながる。
このシナリオにおける区間推定は、将来の値が横たわる可能性のある範囲の値を提供し、点推定に関する誤差の定量化に役立つ。
本稿では,日頭電力需要の間隔推定を行う残余ブートストラップアルゴリズムを提案する。
トレーニングセットの電力需要と各残差のポイント推定を得るために機械学習アルゴリズムを用いる。
得られた残余はメモリに格納され、メモリはさらに分割される。
同様の需要パターンを持つ日は、教師なし学習アルゴリズムを使用してクラスタにグループ化され、これらのクラスタはメモリ分割に使用される。
テストデーのポイント推定値は、類似した日の最も近いクラスタを見つけるために使用され、残余は選択されたクラスタからブートストラップされる。
このアルゴリズムは、EULR(End Use Load Research)の実際の電力需要データに基づいて評価され、信頼区間の異なるブートストラップ法と比較される。 Accurate predictions of electricity demands are necessary for managing operations in a small aggregation load setting like a Microgrid. Due to low aggregation, the electricity demands can be highly stochastic and point estimates would lead to inflated errors. Interval estimation in this scenario, would provide a range of values within which the future values might lie and helps quantify the errors around the point estimates. This paper introduces a residual bootstrap algorithm to generate interval estimates of day-ahead electricity demand. A machine learning algorithm is used to obtain the point estimates of electricity demand and respective residuals on the training set. The obtained residuals are stored in memory and the memory is further partitioned. Days with similar demand patterns are grouped in clusters using an unsupervised learning algorithm and these clusters are used to partition the memory. The point estimates for test day are used to find the closest cluster of similar days and the residuals are bootstrapped from the chosen cluster. This algorithm is evaluated on the real electricity demand data from EULR(End Use Load Research) and is compared to other bootstrapping methods for varying confidence intervals. | 翻訳日:2023-09-06 20:03:51 公開日:2023-09-04 |
# レコメンダシステムにおけるユーザ指向公平性のためのインプロセッシングユーザ制約支配セット In-processing User Constrained Dominant Sets for User-Oriented Fairness in Recommender Systems ( http://arxiv.org/abs/2309.01335v1 ) ライセンス: Link先を確認 | Zhongxuan Han, Chaochao Chen, Xiaolin Zheng, Weiming Liu, Jun Wang, Wenjie Cheng, Yuyuan Li | (参考訳) 通常、レコメンダシステムは少数のユーザーに対して偏りがあり、レコメンデーションパフォーマンス、すなわちユーザ指向公正(UOF)問題において深刻な不公平をもたらす。
UOFに関する既存の研究は限られており、UOF問題の根本原因に対処できない。
この問題に対処するため、ユーザ指向の公正性を達成するために、バックボーンレコメンデーションモデルに適用可能な一般的なフレームワークであるIn-processing User Constrained Dominant Sets (In-UCDS)フレームワークを提案する。
In-UCDSをUCDSモデリングステージとインプロセストレーニングステージの2つのステージに分けた。
UCDSモデリングの段階では、各不利なユーザに対して、いくつかの有利なユーザを含む制約付き支配的セット(ユーザクラスタ)を抽出する。
プロセス内トレーニングの段階では、不利なユーザの表現を、公正な損失を計算して対応するクラスタに近づける。
フェアネス損失と元のバックボーンモデル損失を組み合わせることで、UOF問題に対処し、全体的なレコメンデーション性能を同時に維持する。
3つの実世界のデータセットに関する総合的な実験により、In-UCDSは最先端の手法よりも優れており、全体的なレコメンデーションパフォーマンスが向上したより公正なモデルにつながっている。 Recommender systems are typically biased toward a small group of users, leading to severe unfairness in recommendation performance, i.e., User-Oriented Fairness (UOF) issue. The existing research on UOF is limited and fails to deal with the root cause of the UOF issue: the learning process between advantaged and disadvantaged users is unfair. To tackle this issue, we propose an In-processing User Constrained Dominant Sets (In-UCDS) framework, which is a general framework that can be applied to any backbone recommendation model to achieve user-oriented fairness. We split In-UCDS into two stages, i.e., the UCDS modeling stage and the in-processing training stage. In the UCDS modeling stage, for each disadvantaged user, we extract a constrained dominant set (a user cluster) containing some advantaged users that are similar to it. In the in-processing training stage, we move the representations of disadvantaged users closer to their corresponding cluster by calculating a fairness loss. By combining the fairness loss with the original backbone model loss, we address the UOF issue and maintain the overall recommendation performance simultaneously. Comprehensive experiments on three real-world datasets demonstrate that In-UCDS outperforms the state-of-the-art methods, leading to a fairer model with better overall recommendation performance. | 翻訳日:2023-09-06 20:03:34 公開日:2023-09-04 |
# 弱教師付き物体定位のためのセマンティクス・コンストラントマッチングトランスフォーマ Semantic-Constraint Matching Transformer for Weakly Supervised Object Localization ( http://arxiv.org/abs/2309.01331v1 ) ライセンス: Link先を確認 | Yiwen Cao, Yukun Su, Wenjun Wang, Yanxia Liu and Qingyao Wu | (参考訳) weakly supervised object localization (wsol)は、画像レベルの監督だけでオブジェクトをローカライズすることを学ぶ。
畳み込み操作によって生成される局所受容場により、従来のCNNベースのメソッドは部分的なアクティベーションの問題に悩まされ、オブジェクトの識別部分に集中する。
長距離機能の依存関係を取得するための自己注意機構の能力から、Vision Transformerは、最近、ローカルアクティベーションの欠点を軽減するために採用されている。
しかし、トランスフォーマーはcnnに固有の帰納的局在バイアスを欠いているため、前景と背景の区別が不明瞭な、多様なアクティベーション問題を引き起こす可能性がある。
本研究では, 発散活性化に収束するトランスフォーマーを用いた, 新たなセマンティクス・コンストラントマッチングネットワーク (scmn) を提案する。
具体的には、まず、局所的なパッチシャッフル戦略を提案し、グローバルな一貫性を確保しながら、局所的なパッチを中断する。
空間上の共通対象を含むペア画像は、シャムネットワークエンコーダに送信される。
さらに,ペア画像から抽出した粗いクラスアクティベーションマップ(cams)を照合することで,協調対象部分をマイニングし,トランスフォーマーネットワークを暗黙的に誘導・校正し,ダイバージェントアクティベーションを緩和することを目的とした,セマンティック・コンストラントマッチングモジュールの設計を行った。
cub-200-2011とilsvrcデータセットを含む2つの難解なベンチマークで行った広範囲な実験結果から,本手法が新たな最先端性能を達成し,従来の手法を高いマージンで上回ることがわかった。 Weakly supervised object localization (WSOL) strives to learn to localize objects with only image-level supervision. Due to the local receptive fields generated by convolution operations, previous CNN-based methods suffer from partial activation issues, concentrating on the object's discriminative part instead of the entire entity scope. Benefiting from the capability of the self-attention mechanism to acquire long-range feature dependencies, Vision Transformer has been recently applied to alleviate the local activation drawbacks. However, since the transformer lacks the inductive localization bias that are inherent in CNNs, it may cause a divergent activation problem resulting in an uncertain distinction between foreground and background. In this work, we proposed a novel Semantic-Constraint Matching Network (SCMN) via a transformer to converge on the divergent activation. Specifically, we first propose a local patch shuffle strategy to construct the image pairs, disrupting local patches while guaranteeing global consistency. The paired images that contain the common object in spatial are then fed into the Siamese network encoder. We further design a semantic-constraint matching module, which aims to mine the co-object part by matching the coarse class activation maps (CAMs) extracted from the pair images, thus implicitly guiding and calibrating the transformer network to alleviate the divergent activation. Extensive experimental results conducted on two challenging benchmarks, including CUB-200-2011 and ILSVRC datasets show that our method can achieve the new state-of-the-art performance and outperform the previous method by a large margin. | 翻訳日:2023-09-06 20:03:08 公開日:2023-09-04 |
# あなたの答えを信用できますか。
視覚的に接地したビデオ質問応答 Can I Trust Your Answer? Visually Grounded Video Question Answering ( http://arxiv.org/abs/2309.01327v1 ) ライセンス: Link先を確認 | Junbin Xiao, Angela Yao, Yicong Li, Tat Seng Chua | (参考訳) 本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
具体的には、視覚言語モデル(VLM)に質問に答え、同時に視覚的証拠を提供するよう強制することで、これらの手法の予測が、言語や無関係な視覚的文脈からの素早い相関よりも、実際に関連ビデオコンテンツに固定されているかを確認することを試みる。
そこで, NExT-GQA を 10.5$K の時間的接地(あるいは位置)ラベルで拡張した NExT-GQA を構築する。
NExT-GQAでは、様々な最先端のVLMを精査する。
ポストホックアテンション分析により,これらのモデルではQA性能が強いにもかかわらず,回答を裏付けるには弱いことがわかった。
これにより、信頼性のある予測を行う上で、これらのモデルに厳しい制限が生じる。
改善策として,gaussian mask optimization とcross-modal learning によるビデオグラウンド機構の探索と提案を行う。
異なるバックボーンを用いた実験では、この接地機構がビデオ接地とQAの両方を改善することが示されている。
データセットとコードはリリースされます。
これらの取り組みにより、VQAシステムへのVLMのデプロイの信頼性を高めることを目指している。 We study visually grounded VideoQA in response to the emerging trends of utilizing pretraining techniques for video-language understanding. Specifically, by forcing vision-language models (VLMs) to answer questions and simultaneously provide visual evidence, we seek to ascertain the extent to which the predictions of such techniques are genuinely anchored in relevant video content, versus spurious correlations from language or irrelevant visual context. Towards this, we construct NExT-GQA -- an extension of NExT-QA with 10.5$K$ temporal grounding (or location) labels tied to the original QA pairs. With NExT-GQA, we scrutinize a variety of state-of-the-art VLMs. Through post-hoc attention analysis, we find that these models are weak in substantiating the answers despite their strong QA performance. This exposes a severe limitation of these models in making reliable predictions. As a remedy, we further explore and suggest a video grounding mechanism via Gaussian mask optimization and cross-modal learning. Experiments with different backbones demonstrate that this grounding mechanism improves both video grounding and QA. Our dataset and code are released. With these efforts, we aim to push towards the reliability of deploying VLMs in VQA systems. | 翻訳日:2023-09-06 20:02:17 公開日:2023-09-04 |
# SKoPe3D:交通監視カメラによる3次元車両キーポイント知覚のための合成データセット SKoPe3D: A Synthetic Dataset for Vehicle Keypoint Perception in 3D from Traffic Monitoring Cameras ( http://arxiv.org/abs/2309.01324v1 ) ライセンス: Link先を確認 | Himanshu Pahadia, Duo Lu, Bharatesh Chakravarthi, Yezhou Yang | (参考訳) インテリジェント交通システム(ITS)は、交通監視、道路安全評価、渋滞低減、法執行などの重要な機能を提供している。
効果的な車両検出と正確な車両ポーズ推定は、特に道路インフラに設置された単眼カメラを用いることにおいて重要である。
視覚に基づく車両監視の基本的な課題の1つはキーポイント検出であり、車(ヘッドライト、車輪、テールライトなど)の特定の点を特定し、位置を特定することである。
しかし、この作業は車両モデルと形状のバリエーション、閉塞性、天候、照明条件によって複雑である。
さらに、キーポイント検出のための既存のトラフィック認識データセットは、主にエゴ車に搭載されたセンサーからのフロントビューに焦点を当て、トラフィック監視のユーザビリティを制限している。
そこで本研究では,carlaシミュレータを用いて生成するユニークな合成車両用キーポイントデータセットskope3dを提案する。
この包括的なデータセットには、各車両のバウンディングボックス、ID追跡、33のキーポイントを備えた生成イメージが含まれている。
SKoPe3Dは28シーンで25k以上の画像を撮影し、150k以上の車両インスタンスと490万のキーポイントを含んでいる。
その実用性を実証するため、我々のデータセット上のキーポイントR-CNNモデルをベースラインとして訓練し、徹底的な評価を行った。
実験では,データセットの適用可能性と,合成データと実世界データ間の知識伝達の可能性に注目した。
SKoPe3Dデータセットを利用することで、研究者と実践者は既存のデータセットの制限を克服し、ITSのキーポイント検出の進歩を可能にする。 Intelligent transportation systems (ITS) have revolutionized modern road infrastructure, providing essential functionalities such as traffic monitoring, road safety assessment, congestion reduction, and law enforcement. Effective vehicle detection and accurate vehicle pose estimation are crucial for ITS, particularly using monocular cameras installed on the road infrastructure. One fundamental challenge in vision-based vehicle monitoring is keypoint detection, which involves identifying and localizing specific points on vehicles (such as headlights, wheels, taillights, etc.). However, this task is complicated by vehicle model and shape variations, occlusion, weather, and lighting conditions. Furthermore, existing traffic perception datasets for keypoint detection predominantly focus on frontal views from ego vehicle-mounted sensors, limiting their usability in traffic monitoring. To address these issues, we propose SKoPe3D, a unique synthetic vehicle keypoint dataset generated using the CARLA simulator from a roadside perspective. This comprehensive dataset includes generated images with bounding boxes, tracking IDs, and 33 keypoints for each vehicle. Spanning over 25k images across 28 scenes, SKoPe3D contains over 150k vehicle instances and 4.9 million keypoints. To demonstrate its utility, we trained a keypoint R-CNN model on our dataset as a baseline and conducted a thorough evaluation. Our experiments highlight the dataset's applicability and the potential for knowledge transfer between synthetic and real-world data. By leveraging the SKoPe3D dataset, researchers and practitioners can overcome the limitations of existing datasets, enabling advancements in vehicle keypoint detection for ITS. | 翻訳日:2023-09-06 20:01:34 公開日:2023-09-04 |
# ReOnto: バイオメディカルリレーション抽出のためのニューロシンボリックアプローチ ReOnto: A Neuro-Symbolic Approach for Biomedical Relation Extraction ( http://arxiv.org/abs/2309.01370v1 ) ライセンス: Link先を確認 | Monika Jain, Kuldeep Singh, Raghava Mutharaju | (参考訳) 関係抽出(Relation extract、RE)とは、文中のエンティティ間の意味的関係を抽出し、語彙で定義された関係に整合させるタスクであり、一般的には知識グラフ(KG)やオントロジーの形で表される。
この課題に対処するための様々なアプローチが提案されている。
しかし、これらの技法を生物医学的テキストに適用することは、生物医学的関係の性質上、文から直接関係を推測することが困難であるため、しばしば不十分な結果をもたらす。
これらの課題に対処するために,REタスクに神経シンボル知識を利用するReOntoという新しい手法を提案する。
ReOntoはグラフニューラルネットワークを用いて文表現を取得し、公開可能なオントロジを事前知識として活用し、2つのエンティティ間の知覚的関係を識別する。
このアプローチでは、オントロジーから2つの実体間の関係経路を抽出する。
グラフニューラルネットワークを用いたオントロジーからのシンボル知識の利用効果を評価する。
biorel と ade の2つの公的バイオメディカルデータセットにおける実験結果から,本手法がすべてのベースライン(約3\%)を上回ることがわかった。 Relation Extraction (RE) is the task of extracting semantic relationships between entities in a sentence and aligning them to relations defined in a vocabulary, which is generally in the form of a Knowledge Graph (KG) or an ontology. Various approaches have been proposed so far to address this task. However, applying these techniques to biomedical text often yields unsatisfactory results because it is hard to infer relations directly from sentences due to the nature of the biomedical relations. To address these issues, we present a novel technique called ReOnto, that makes use of neuro symbolic knowledge for the RE task. ReOnto employs a graph neural network to acquire the sentence representation and leverages publicly accessible ontologies as prior knowledge to identify the sentential relation between two entities. The approach involves extracting the relation path between the two entities from the ontology. We evaluate the effect of using symbolic knowledge from ontologies with graph neural networks. Experimental results on two public biomedical datasets, BioRel and ADE, show that our method outperforms all the baselines (approximately by 3\%). | 翻訳日:2023-09-06 19:55:14 公開日:2023-09-04 |
# アノテーションとしての注意:拡散を伴う弱監視セマンティックセグメンテーションのための画像と擬似マスクの生成 Attention as Annotation: Generating Images and Pseudo-masks for Weakly Supervised Semantic Segmentation with Diffusion ( http://arxiv.org/abs/2309.01369v1 ) ライセンス: Link先を確認 | Ryota Yoshihashi, Yuya Otsuka, Kenji Doi, Tomohiro Tanaka | (参考訳) 近年の拡散モデルの発展により高忠実度および多彩な画像生成が可能になったが、識別モデルの訓練は主に大量の実画像と手動アノテーションの収集に依存する。
本稿では,実際の画像や手動のアノテーションに依存しないセグメンテーションのトレーニング手法を提案する。
提案手法は,テキストから画像への拡散モデルによって生成された画像と,その内部テキストから画像への相互接続を監督的擬似マスクとして用いる。
テキスト対画像生成装置は画像キャプチャペアで訓練されているが、画素単位のラベルがないため、attn2maskは全体としては弱い教師付きセグメンテーション方法と見なすことができる。
実験により、attn2maskは、セグメント化に実際のトレーニングデータを使用しないPASCAL VOCで有望な結果を達成することを示し、また、よりクラスのシナリオであるImageNetセグメンテーションにセグメンテーションをスケールアップすることも有用である。
また、LoRAベースの微調整により、遠く離れた領域、すなわちCityscapesへの転送を可能にする。 Although recent advancements in diffusion models enabled high-fidelity and diverse image generation, training of discriminative models largely depends on collections of massive real images and their manual annotation. Here, we present a training method for semantic segmentation that neither relies on real images nor manual annotation. The proposed method {\it attn2mask} utilizes images generated by a text-to-image diffusion model in combination with its internal text-to-image cross-attention as supervisory pseudo-masks. Since the text-to-image generator is trained with image-caption pairs but without pixel-wise labels, attn2mask can be regarded as a weakly supervised segmentation method overall. Experiments show that attn2mask achieves promising results in PASCAL VOC for not using real training data for segmentation at all, and it is also useful to scale up segmentation to a more-class scenario, i.e., ImageNet segmentation. It also shows adaptation ability with LoRA-based fine-tuning, which enables the transfer to a distant domain i.e., Cityscapes. | 翻訳日:2023-09-06 19:54:54 公開日:2023-09-04 |
# 時間的ピラミッド圧縮増幅変換器による3次元姿勢推定 Refined Temporal Pyramidal Compression-and-Amplification Transformer for 3D Human Pose Estimation ( http://arxiv.org/abs/2309.01365v1 ) ライセンス: Link先を確認 | Hanbing Li, Wangmeng Xiang, Jun-Yan He, Zhi-Qi Cheng, Bin Luo, Yifeng Geng and Xuansong Xie | (参考訳) ビデオシーケンスにおける人間の3dポーズを正確に推定するには、精度と構造が整ったアーキテクチャが必要である。
トランスの成功により,RTPCA(Refined Temporal Pyramidal Compression-and-Amplification)トランスを導入した。
時間次元の展開により、RTPCAは、時間的ピラミッド圧縮増幅(TPCA)構造を介してブロック内時間モデリングを拡張し、クロス層リファインメント(XLR)モジュールとのブロック間特徴相互作用を洗練する。
特にTPCAブロックは、時間的ピラミッドパラダイムを利用して、キーと値の表現能力を強化し、動きシーケンスから空間意味をシームレスに抽出する。
我々はこれらのTPCAブロックをXLRで縫合し、クエリ、キー、値の連続的な相互作用を通じてリッチなセマンティック表現を促進する。
この戦略は、他の変圧器ベースの方法に見られる典型的な欠陥と安定性に対処し、電流の流れを伴う初期段階の情報を具現化する。
計算オーバーヘッドが最小限であるHuman3.6M, HumanEva-I, MPI-INF-3DHPベンチマークに対して, 最先端の結果を達成し, RTPCAの有効性を示す。
ソースコードはhttps://github.com/hbing-l/RTPCAで入手できる。 Accurately estimating the 3D pose of humans in video sequences requires both accuracy and a well-structured architecture. With the success of transformers, we introduce the Refined Temporal Pyramidal Compression-and-Amplification (RTPCA) transformer. Exploiting the temporal dimension, RTPCA extends intra-block temporal modeling via its Temporal Pyramidal Compression-and-Amplification (TPCA) structure and refines inter-block feature interaction with a Cross-Layer Refinement (XLR) module. In particular, TPCA block exploits a temporal pyramid paradigm, reinforcing key and value representation capabilities and seamlessly extracting spatial semantics from motion sequences. We stitch these TPCA blocks with XLR that promotes rich semantic representation through continuous interaction of queries, keys, and values. This strategy embodies early-stage information with current flows, addressing typical deficits in detail and stability seen in other transformer-based methods. We demonstrate the effectiveness of RTPCA by achieving state-of-the-art results on Human3.6M, HumanEva-I, and MPI-INF-3DHP benchmarks with minimal computational overhead. The source code is available at https://github.com/hbing-l/RTPCA. | 翻訳日:2023-09-06 19:54:32 公開日:2023-09-04 |
# 量子生成型逆ネットワークを最大化する相互情報とその金融への応用 Mutual Information Maximizing Quantum Generative Adversarial Network and Its Applications in Finance ( http://arxiv.org/abs/2309.01363v1 ) ライセンス: Link先を確認 | Mingyu Lee, Myeongjin Shin, Junseo Lee, Kabgyun Jeong | (参考訳) NISQ(Noisy Intermediate-Scale Quantum)コンピューティング時代で最も有望な応用の1つは量子機械学習である。
量子機械学習は、さまざまなドメインにわたる古典的機械学習よりも大きな量子的利点を提供する。
具体的には、画像生成、ファイナンス、確率分布モデリングといった様々な分野における潜在的有用性が認識されている。
しかし、これらのネットワークはモード崩壊のような固有の課題に対する解決策を必要としている。
本研究では,高次元連続確率変数間の相互情報推定は,ニューラルネットワークを用いた勾配降下によって実現できるという概念を生かした。
我々は,モード崩壊問題に対処するために,MINE(Mutual Information Neural Estimator)を量子生成逆数ネットワークの枠組みに取り入れたInfoQGANという新しいアプローチを導入する。
さらに、このアプローチが金融シナリオにどのように適用できるか、特に動的アセットアロケーションを通じてポートフォリオリターン分布を生成する問題に対処できるかを詳しく説明する。
これは、実世界のコンテキストにおけるInfoQGANの実用的な適用可能性を示している。 One of the most promising applications in the era of NISQ (Noisy Intermediate-Scale Quantum) computing is quantum machine learning. Quantum machine learning offers significant quantum advantages over classical machine learning across various domains. Specifically, generative adversarial networks have been recognized for their potential utility in diverse fields such as image generation, finance, and probability distribution modeling. However, these networks necessitate solutions for inherent challenges like mode collapse. In this study, we capitalize on the concept that the estimation of mutual information between high-dimensional continuous random variables can be achieved through gradient descent using neural networks. We introduce a novel approach named InfoQGAN, which employs the Mutual Information Neural Estimator (MINE) within the framework of quantum generative adversarial networks to tackle the mode collapse issue. Furthermore, we elaborate on how this approach can be applied to a financial scenario, specifically addressing the problem of generating portfolio return distributions through dynamic asset allocation. This illustrates the potential practical applicability of InfoQGAN in real-world contexts. | 翻訳日:2023-09-06 19:54:08 公開日:2023-09-04 |
# ニューロモルフィックイベントセンシングと圧電アクチュエータを用いたナノサットの高周波高精度ポインティング High Frequency, High Accuracy Pointing onboard Nanosats using Neuromorphic Event Sensing and Piezoelectric Actuation ( http://arxiv.org/abs/2309.01361v1 ) ライセンス: Link先を確認 | Yasir Latif, Peter Anastasiou, Yonhon Ng, Zebb Prime, Tien-Fu Lu, Matthew Tetlow, Robert Mahony, Tat-Jun Chin | (参考訳) 衛星が小さくなるにつれて、衛星に作用する外力によって安定したポインティングを維持する能力は低下する。
同時に、姿勢決定制御システム(ADCS)で使用される反応ホイールは、ポインティング安定性を損なう可能性のある高周波ジッタを導入している。
数万キロ離れた物体を追跡する空間領域認識(SDA)タスクでは、現在のナノサット(通常は10から100秒の範囲)で提供されるポインティング精度は不十分である。
本研究では,ニューロモルフィック事象センサ(高周波で高精度な相対姿勢推定)と圧電ステージ(能動姿勢補正)との閉ループを併用し,高度に安定なセンサ特異的なポインティングを提供する新しいペイロードを開発する。
イベントセンサは、低消費電力、非同期動作、高ダイナミックレンジの望ましい特性のために、特に宇宙用途に適している。
イベントセンサを用いて、まず基準背景星場を推定し、そこから短時間の相対的姿勢を高頻度で推定する。
圧電ステージは、イベントセンサを備えた閉じた制御ループで動作し、電流と所望の姿勢の差に基づいて姿勢補正を行う。
制御された設定の結果,市販部品を用いた試作機を用いて,新しいペイロードを最大50Hzの動作周波数で1~5秒の範囲でのポインティング精度を実現することができた。
詳細はhttps://ylatif.github.io/ultrafinestabilisationを参照。 As satellites become smaller, the ability to maintain stable pointing decreases as external forces acting on the satellite come into play. At the same time, reaction wheels used in the attitude determination and control system (ADCS) introduce high frequency jitter which can disrupt pointing stability. For space domain awareness (SDA) tasks that track objects tens of thousands of kilometres away, the pointing accuracy offered by current nanosats, typically in the range of 10 to 100 arcseconds, is not sufficient. In this work, we develop a novel payload that utilises a neuromorphic event sensor (for high frequency and highly accurate relative attitude estimation) paired in a closed loop with a piezoelectric stage (for active attitude corrections) to provide highly stable sensor-specific pointing. Event sensors are especially suited for space applications due to their desirable characteristics of low power consumption, asynchronous operation, and high dynamic range. We use the event sensor to first estimate a reference background star field from which instantaneous relative attitude is estimated at high frequency. The piezoelectric stage works in a closed control loop with the event sensor to perform attitude corrections based on the discrepancy between the current and desired attitude. Results in a controlled setting show that we can achieve a pointing accuracy in the range of 1-5 arcseconds using our novel payload at an operating frequency of up to 50Hz using a prototype built from commercial-off-the-shelf components. Further details can be found at https://ylatif.github.io/ultrafinestabilisation | 翻訳日:2023-09-06 19:53:55 公開日:2023-09-04 |
# スパース隣接行列のランダム射影 Random Projections of Sparse Adjacency Matrices ( http://arxiv.org/abs/2309.01360v1 ) ライセンス: Link先を確認 | Frank Qiu | (参考訳) 隣接行列のランダムな投影法を解析し,スパースグラフの表現におけるその有用性について検討する。
これらのランダムなプロジェクションは、それらの基礎となる隣接行列の機能を保ちながら、動的グラフ表現として魅力的な余分な特性を持つことを示す。
特に、異なる大きさのグラフと同じ空間の頂点集合を表現でき、グラフを統一的に集約し操作することができる。
また、正確なグラフ操作を維持するために、投影のサイズをどのように拡大する必要があるかを示し、投影の大きさが頂点数と線形にスケールできることを示し、一階グラフ情報を正確に保持する。
我々は、我々のランダム射影を、通常のジョンソン-リンデンシュトラウス写像に類似した隣接行列の距離保存写像として特徴づけて結論付ける。 We analyze a random projection method for adjacency matrices, studying its utility in representing sparse graphs. We show that these random projections retain the functionality of their underlying adjacency matrices while having extra properties that make them attractive as dynamic graph representations. In particular, they can represent graphs of different sizes and vertex sets in the same space, allowing for the aggregation and manipulation of graphs in a unified manner. We also provide results on how the size of the projections need to scale in order to preserve accurate graph operations, showing that the size of the projections can scale linearly with the number of vertices while accurately retaining first-order graph information. We conclude by characterizing our random projection as a distance-preserving map of adjacency matrices analogous to the usual Johnson-Lindenstrauss map. | 翻訳日:2023-09-06 19:53:29 公開日:2023-09-04 |
# デプロイメント時のクラス優先度変更に対する分類器の適用 Adapting Classifiers To Changing Class Priors During Deployment ( http://arxiv.org/abs/2309.01357v1 ) ライセンス: Link先を確認 | Natnael Daba, Bruce McIntosh, Abhijit Mahalanobis | (参考訳) 従来の分類器は、全てのクラスが等しく存在するバランスの取れたデータセットを用いて訓練され評価される。
分類器はimagenetなどの大規模データセットでトレーニングされ、数百(数千)の異なるクラスを分類できるようになった。
一方、このような汎用的な分類器を非常に多くのクラスで訓練することが望ましいので、デプロイされた設定に関係なくうまく動作する。
一方、分類器に知られているすべてのクラスがデプロイシナリオ毎に発生する可能性は低いし、同じ確率で発生する可能性は低い。
実際、既知のクラスの比較的小さなサブセットだけが特定の設定や環境に存在する可能性がある。
例えば、動物園に配備されたり、空港での野生動物、航空機、サービス車両の監視や、交通の監視に使用される様々な種類の自動車や商用車両の監視など、ほとんどの動物に遭遇する。
さらに、正確なクラスの優先順位は一般的に不明であり、時間とともに異なる可能性がある。
本稿では,分類器自体の出力に基づいて,クラス先行値を推定する様々な手法について検討する。
次に,評価されたクラス事前値を全体決定スキームに組み込むことで,デプロイシナリオのコンテキストにおける実行時の精度を高めることができることを示す。 Conventional classifiers are trained and evaluated using balanced data sets in which all classes are equally present. Classifiers are now trained on large data sets such as ImageNet, and are now able to classify hundreds (if not thousands) of different classes. On one hand, it is desirable to train such general-purpose classifier on a very large number of classes so that it performs well regardless of the settings in which it is deployed. On the other hand, it is unlikely that all classes known to the classifier will occur in every deployment scenario, or that they will occur with the same prior probability. In reality, only a relatively small subset of the known classes may be present in a particular setting or environment. For example, a classifier will encounter mostly animals if its deployed in a zoo or for monitoring wildlife, aircraft and service vehicles at an airport, or various types of automobiles and commercial vehicles if it is used for monitoring traffic. Furthermore, the exact class priors are generally unknown and can vary over time. In this paper, we explore different methods for estimating the class priors based on the output of the classifier itself. We then show that incorporating the estimated class priors in the overall decision scheme enables the classifier to increase its run-time accuracy in the context of its deployment scenario. | 翻訳日:2023-09-06 19:53:13 公開日:2023-09-04 |
# 低計算量実時間歩行者認識 Real-time pedestrian recognition on low computational resources ( http://arxiv.org/abs/2309.01353v1 ) ライセンス: Link先を確認 | Guifan Weng | (参考訳) 歩行者認識は、セキュリティ、自動運転車、航空写真にうまく適用されている。
ほとんどのアプリケーションでは、小型モバイルデバイスでの歩行者認識が重要である。
しかし、コンピューティングハードウェアの限界は、この課題を難しくしている。
本研究では,計算資源の少ない小型コンピュータ上でのリアルタイム歩行者認識の高速化について検討する。
本稿では,小型CPUシステムにおける3つの手法について述べる。
まず、ローカルバイナリパターン(lbp)機能とadaboost分類器を改善した。
次に,向き付け勾配(hog)とサポートベクターマシンのヒストグラムを最適化した。
第3に,高速畳み込みニューラルネットワーク(cnns)を実装した。
その結果, 1.8GHzのIntel i5 CPUを搭載した小型計算プラットフォームにおいて, 95%以上の精度と5fps以上の速度でリアルタイムの歩行者認識を実現することができた。
本手法は,高い互換性と汎用性を有する小型モバイルデバイスに容易に適用できる。 Pedestrian recognition has successfully been applied to security, autonomous cars, Aerial photographs. For most applications, pedestrian recognition on small mobile devices is important. However, the limitations of the computing hardware make this a challenging task. In this work, we investigate real-time pedestrian recognition on small physical-size computers with low computational resources for faster speed. This paper presents three methods that work on the small physical size CPUs system. First, we improved the Local Binary Pattern (LBP) features and Adaboost classifier. Second, we optimized the Histogram of Oriented Gradients (HOG) and Support Vector Machine. Third, We implemented fast Convolutional Neural Networks (CNNs). The results demonstrate that the three methods achieved real-time pedestrian recognition at an accuracy of more than 95% and a speed of more than 5 fps on a small physical size computational platform with a 1.8 GHz Intel i5 CPU. Our methods can be easily applied to small mobile devices with high compatibility and generality. | 翻訳日:2023-09-06 19:52:53 公開日:2023-09-04 |
# 自己駆動グラウンド: 自動言語対応スキル学習を用いた大規模言語モデルエージェント Self-driven Grounding: Large Language Model Agents with Automatical Language-aligned Skill Learning ( http://arxiv.org/abs/2309.01352v1 ) ライセンス: Link先を確認 | Shaohui Peng, Xing Hu, Qi Yi, Rui Zhang, Jiaming Guo, Di Huang, Zikang Tian, Ruizhi Chen, Zidong Du, Qi Guo, Yunji Chen, Ling Li | (参考訳) 大規模言語モデル(LLM)は、人間の世界に関する豊富な意味知識を持つ強力な自動推論と計画能力を示す。
しかし、接地問題は現実の環境におけるllmの適用を妨げている。
既存の研究では、LLMを微調整したり、事前に定義された動作APIを使用してLLMと環境をブリッジしようとする。
本研究では,LLMを自律的に環境に接地するために,自己駆動型スキルラーニング(Self-Driven Grounding, SDG)フレームワークを提案する。
SDG はまず LLM を用いて,タスク達成のためのサブゴール仮説を提案し,その仮説の実現可能性を検証する。
検証が済んだら、SDGはこれらの接地されたサブゴールのガイダンスで一般化されたスキルを学ぶことができる。
これらのスキルは、検証フェーズを通過できないより複雑なタスクを達成するために、さらに活用することができる。
sdgは有名なタスクセットバイライの命令で検証され、数百万のデモンストレーションコストをかけた模倣学習手法と比較し、学習スキルの有効性を証明し、フレームワークの実現性と効率を示す最も困難なタスクで同等のパフォーマンスを達成します。 Large language models (LLMs) show their powerful automatic reasoning and planning capability with a wealth of semantic knowledge about the human world. However, the grounding problem still hinders the applications of LLMs in the real-world environment. Existing studies try to fine-tune the LLM or utilize pre-defined behavior APIs to bridge the LLMs and the environment, which not only costs huge human efforts to customize for every single task but also weakens the generality strengths of LLMs. To autonomously ground the LLM onto the environment, we proposed the Self-Driven Grounding (SDG) framework to automatically and progressively ground the LLM with self-driven skill learning. SDG first employs the LLM to propose the hypothesis of sub-goals to achieve tasks and then verify the feasibility of the hypothesis via interacting with the underlying environment. Once verified, SDG can then learn generalized skills with the guidance of these successfully grounded subgoals. These skills can be further utilized to accomplish more complex tasks which fail to pass the verification phase. Verified in the famous instruction following task set-BabyAI, SDG achieves comparable performance in the most challenging tasks compared with imitation learning methods that cost millions of demonstrations, proving the effectiveness of learned skills and showing the feasibility and efficiency of our framework. | 翻訳日:2023-09-06 19:52:43 公開日:2023-09-04 |
# Adv3D: NeRFを用いた運転シナリオにおける3次元逆転例の生成 Adv3D: Generating 3D Adversarial Examples in Driving Scenarios with NeRF ( http://arxiv.org/abs/2309.01351v1 ) ライセンス: Link先を確認 | Leheng Li and Qing Lian and Ying-Cong Chen | (参考訳) ディープニューラルネットワーク(DNN)は、DNNベースの自律運転スタック(つまり3Dオブジェクト検出)に特別な安全上の懸念を生じさせる敵の例に非常に感受性があることが証明されている。
画像レベルの攻撃には広範な研究があるが、その多くは2Dピクセル空間に限定されており、このような攻撃は我々の3D世界では必ずしも現実的ではない。
本稿では,ニューラル・ラミアンス・フィールド (nerfs) として,逆行例のモデル化を初めて行ったadv3dについて述べる。
NeRFの進歩は、フォトリアリスティックな外観と正確な3D生成を提供し、より現実的で実現可能な敵の例をもたらす。
訓練セット上の3d検出器によって予測される周囲の物体の信頼度を最小にすることで,敵のnerfを訓練する。
次に,未確認の検証セット上でadv3dを評価し,nerfを任意のサンプリングポーズでレンダリングする際に大きな性能低下を引き起こす可能性があることを示す。
物理的に実現可能な逆向きの例を生成するために,カモフラージュ対向テクスチャを用いた3Dパッチ攻撃を可能にするプリミティブ・アウェア・サンプリングと意味誘導正規化を提案する。
実験結果から、訓練された対向性NeRFは、異なるポーズ、シーン、および3D検出器によく当てはまることが示された。
最後に,データ拡張による敵対的トレーニングを含む攻撃に対する防御方法を提案する。
プロジェクトページ: https://len-li.github.io/adv3d-web Deep neural networks (DNNs) have been proven extremely susceptible to adversarial examples, which raises special safety-critical concerns for DNN-based autonomous driving stacks (i.e., 3D object detection). Although there are extensive works on image-level attacks, most are restricted to 2D pixel spaces, and such attacks are not always physically realistic in our 3D world. Here we present Adv3D, the first exploration of modeling adversarial examples as Neural Radiance Fields (NeRFs). Advances in NeRF provide photorealistic appearances and 3D accurate generation, yielding a more realistic and realizable adversarial example. We train our adversarial NeRF by minimizing the surrounding objects' confidence predicted by 3D detectors on the training set. Then we evaluate Adv3D on the unseen validation set and show that it can cause a large performance reduction when rendering NeRF in any sampled pose. To generate physically realizable adversarial examples, we propose primitive-aware sampling and semantic-guided regularization that enable 3D patch attacks with camouflage adversarial texture. Experimental results demonstrate that the trained adversarial NeRF generalizes well to different poses, scenes, and 3D detectors. Finally, we provide a defense method to our attacks that involves adversarial training through data augmentation. Project page: https://len-li.github.io/adv3d-web | 翻訳日:2023-09-06 19:52:20 公開日:2023-09-04 |
# 保証非周期制約による微分ベイズ構造学習における位相順序付け Topological Ordering in Differentiable Bayesian Structure Learning with Guaranteed Acyclicity Constraint ( http://arxiv.org/abs/2309.01392v1 ) ライセンス: Link先を確認 | Quang-Duy Tran, Phuoc Nguyen, Bao Duong, Thin Nguyen | (参考訳) 構造学習タスクにおけるスコアベースのアプローチは、スケーラビリティのために成功しています。
継続的緩和がこの進歩の重要な理由です。
有望な結果を達成するにも拘わらず、これらの手法の多くは、定義されたスコアを最小化することで、潜在空間から生成されたグラフが非循環であることを保証するのに依然として苦労している。
また、グラフの探索空間を制限するために、有向非巡回グラフ(DAG)における変数のトポロジ的順序付けの探索を懸念する置換に基づくアプローチの別の傾向もある。
本研究では、トポロジ的順序付けからの知識の統合によりグラフの非循環性を厳格に制約する代替手法を提案する。
我々のアプローチは、生成されたグラフの構造を非循環にしつつ、推論の複雑さを低減できる。
シミュレーションおよび実世界データを用いた実験により,提案手法が関連するベイズスコアベースアプローチに勝ることを示した。 Score-based approaches in the structure learning task are thriving because of their scalability. Continuous relaxation has been the key reason for this advancement. Despite achieving promising outcomes, most of these methods are still struggling to ensure that the graphs generated from the latent space are acyclic by minimizing a defined score. There has also been another trend of permutation-based approaches, which concern the search for the topological ordering of the variables in the directed acyclic graph (DAG) in order to limit the search space of the graph. In this study, we propose an alternative approach for strictly constraining the acyclicty of the graphs with an integration of the knowledge from the topological orderings. Our approach can reduce inference complexity while ensuring the structures of the generated graphs to be acyclic. Our empirical experiments with simulated and real-world data show that our approach can outperform related Bayesian score-based approaches. | 翻訳日:2023-09-06 19:44:09 公開日:2023-09-04 |
# SSVOD:スパースアノテーションによる半教師付きビデオオブジェクト検出 SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations ( http://arxiv.org/abs/2309.01391v1 ) ライセンス: Link先を確認 | Tanvir Mahmud, Chun-Hao Liu, Burhaneddin Yaman, Diana Marculescu | (参考訳) 画像オブジェクト検出のための半教師付き学習の進歩にもかかわらず、ビデオオブジェクト検出にはいくつかの重要な課題が未解決のままである: 1) 教師付きビデオオブジェクト検出の優れた性能を達成するには、注釈付きフレームの利用可能性に大きく依存する。
2)ビデオ内のフレーム間相関は大きいが,ビデオ毎に多数のフレームのアノテーションを収集することは高価で,時間を要するため,多くの場合冗長である。
3) 静止画像上の既存の半教師あり技術は,ビデオに固有の時間的動きのダイナミクスをほとんど利用できない。
本稿では,ビデオの動作動態を利用して,スパースアノテーションを用いた大規模未ラベルフレームを利用する,エンドツーエンドの半教師付きビデオオブジェクト検出フレームワークであるSSVODを紹介する。
フレーム群にまたがるロバストな擬似ラベルを選択的に組み立てるために,近傍のフレームから<textit{flow-warped predictions}を導入する。
特に,有界ボックスとクラスラベルにロバストな擬似ラベルを含む推定予測セットに対して,クロスIoUとクロスディバージェンスに基づく選択手法を導入する。
疑似ラベルにおける確認バイアスと不確実性雑音のバランスをとるために,硬質と軟質の擬似ラベルの組み合わせによる信頼閾値を提案する。
提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISデータセットにおける既存の手法に比べて,大幅な性能向上を実現している。
コードと事前訓練されたモデルがリリースされる。 Despite significant progress in semi-supervised learning for image object detection, several key issues are yet to be addressed for video object detection: (1) Achieving good performance for supervised video object detection greatly depends on the availability of annotated frames. (2) Despite having large inter-frame correlations in a video, collecting annotations for a large number of frames per video is expensive, time-consuming, and often redundant. (3) Existing semi-supervised techniques on static images can hardly exploit the temporal motion dynamics inherently present in videos. In this paper, we introduce SSVOD, an end-to-end semi-supervised video object detection framework that exploits motion dynamics of videos to utilize large-scale unlabeled frames with sparse annotations. To selectively assemble robust pseudo-labels across groups of frames, we introduce \textit{flow-warped predictions} from nearby frames for temporal-consistency estimation. In particular, we introduce cross-IoU and cross-divergence based selection methods over a set of estimated predictions to include robust pseudo-labels for bounding boxes and class labels, respectively. To strike a balance between confirmation bias and uncertainty noise in pseudo-labels, we propose confidence threshold based combination of hard and soft pseudo-labels. Our method achieves significant performance improvements over existing methods on ImageNet-VID, Epic-KITCHENS, and YouTube-VIS datasets. Code and pre-trained models will be released. | 翻訳日:2023-09-06 19:43:51 公開日:2023-09-04 |
# 一般化ゼロショット学習における投影バイアスの計量学習 Metric Learning for Projections Bias of Generalized Zero-shot Learning ( http://arxiv.org/abs/2309.01390v1 ) ライセンス: Link先を確認 | Chong Zhang, Mingyu Jin, Qinkai Yu, Haochen Xue, Xiaobo Jin | (参考訳) 汎用ゼロショット学習モデル (GZSL) は、見知らぬクラスのサンプルのみをトレーニングデータとして認識することを目的としている。
推論中、GZSLメソッドは、トレーニング中に見られるクラスサンプルの可視性のために、しばしば見かけたクラスに偏っている。
現在のほとんどのGZSL法は、バイアスを回避し、GZSL法の有効性を確保するために、正確な投影関数(視覚空間から意味空間まで)を学習しようとする。
しかしながら、推論の間、モデル内のバイアス付き投影関数を学ぶことができるため、任意のサンプルの投影を最も近いクラスに分類する場合、距離の計算が重要となる。
本研究では,重み行列がネットワークの出力に依存するVAEGAN(Variational Autoencoder \& Generative Adversarial Networks)のフレームワーク内で,パラメータ化されたマハラノビス距離を学習しようとする。
特に,vaeganのネットワーク構造を改良し,二つの枝の識別モデルを用いて,観察したサンプルと得られた未検出サンプルを別々に予測した。
最適化されたマハラノビス距離表現を学習するために、2つの分岐を持つ新しい損失関数を提案した。
4つのデータセットに対する総合的な評価ベンチマークは、最先端のデータセットよりも優れた方法を示している。
私たちのコードはhttps://anonymous.4open.science/r/111hxrで利用可能です。 Generalized zero-shot learning models (GZSL) aim to recognize samples from seen or unseen classes using only samples from seen classes as training data. During inference, GZSL methods are often biased towards seen classes due to the visibility of seen class samples during training. Most current GZSL methods try to learn an accurate projection function (from visual space to semantic space) to avoid bias and ensure the effectiveness of GZSL methods. However, during inference, the computation of distance will be important when we classify the projection of any sample into its nearest class since we may learn a biased projection function in the model. In our work, we attempt to learn a parameterized Mahalanobis distance within the framework of VAEGAN (Variational Autoencoder \& Generative Adversarial Networks), where the weight matrix depends on the network's output. In particular, we improved the network structure of VAEGAN to leverage the discriminative models of two branches to separately predict the seen samples and the unseen samples generated by this seen one. We proposed a new loss function with two branches to help us learn the optimized Mahalanobis distance representation. Comprehensive evaluation benchmarks on four datasets demonstrate the superiority of our method over the state-of-the-art counterparts. Our codes are available at https://anonymous.4open.science/r/111hxr. | 翻訳日:2023-09-06 19:43:26 公開日:2023-09-04 |
# ATSFaceデータを用いたマルチモーダル偽装検出のためのLoRAライクな校正 LoRA-like Calibration for Multimodal Deception Detection using ATSFace Data ( http://arxiv.org/abs/2309.01383v1 ) ライセンス: Link先を確認 | Shun-Wen Hsiao and Cheng-Yuan Sun | (参考訳) 近年,人間のビデオにおける欺き検出は目を引く技術であり,多くの応用が期待できる。
この領域のAIモデルは高い精度を示しているが、AIは解釈不能なブラックボックスである傾向がある。
本稿では,映像データとデセプションダイナミクスに固有の課題に注意を向けたニューラルネットワークを提案する。
このモデルは、視覚、音声、テキストの機能の継続的な評価を通じて、欺きの手がかりをピンポイントする。
我々は精度を高めるマルチモーダル・フュージョン・ストラテジーを用いており、本手法は実生活における試行データセットの精度を92%向上させる。
もっとも重要なのは、このモデルがビデオの注目度を示し、偽造の手がかりに関する貴重な洞察を提供することだ。
そこで,本手法は誤認識を検知し,基礎となる過程を解明する。
我々はさらに、学生が真実または偽りの質問に答える実験によって、309本のビデオクリップを新たにデータセット化した。
これを用いて,ローランド適応(LoRA)にインスパイアされた校正手法を導入し,個人による偽装検出の精度を向上させる。 Recently, deception detection on human videos is an eye-catching techniques and can serve lots applications. AI model in this domain demonstrates the high accuracy, but AI tends to be a non-interpretable black box. We introduce an attention-aware neural network addressing challenges inherent in video data and deception dynamics. This model, through its continuous assessment of visual, audio, and text features, pinpoints deceptive cues. We employ a multimodal fusion strategy that enhances accuracy; our approach yields a 92\% accuracy rate on a real-life trial dataset. Most important of all, the model indicates the attention focus in the videos, providing valuable insights on deception cues. Hence, our method adeptly detects deceit and elucidates the underlying process. We further enriched our study with an experiment involving students answering questions either truthfully or deceitfully, resulting in a new dataset of 309 video clips, named ATSFace. Using this, we also introduced a calibration method, which is inspired by Low-Rank Adaptation (LoRA), to refine individual-based deception detection accuracy. | 翻訳日:2023-09-06 19:43:01 公開日:2023-09-04 |
# リーマン零点の対称性の観点 A symmetry perspective of the Riemann zeros ( http://arxiv.org/abs/2309.01382v1 ) ライセンス: Link先を確認 | Pushpa Kalauni, Prasanta K. Panigrahi | (参考訳) リーマンゼータ関数の零点と超対称性,$pt$対称性,$su(2)$群対称性を示す物理系との関係について検討した。
その結果,非破壊超対称性はゼータ関数の非自明な零点の存在と関連していることがわかった。
しかし、他の場合、超対称性は自然に破壊され、系の基底状態エネルギーはゼロではない。
さらに, 超対称系におけるpt対称性不変性の顕在化も確立した。
さらに、これらの系の中で生じる$SU(2)$対称性に関する洞察を与え、ヒルベルト空間は2層構造を持つ。 We study the relationship between the zeros of the Riemann zeta function and physical systems exhibiting supersymmetry, $PT$ symmetry and $SU(2)$ group symmetry. Our findings demonstrate that unbroken supersymmetry is associated with the presence of non-trivial zeros of the zeta function. However, in other cases, supersymmetry is spontaneously broken and the ground state energy of the system is not zero. Moreover, we have established the manifestation of PT symmetry invariance within our supersymmetric system. In addition, our findings provide insights into a $SU(2)$ symmetry that arises within these systems, with the Hilbert space having a two-level structure. | 翻訳日:2023-09-06 19:42:41 公開日:2023-09-04 |
# 古典的アルゴリズムは公正な学習者である:自然気象と山火事の発生の分類分析 Classic algorithms are fair learners: Classification Analysis of natural weather and wildfire occurrences ( http://arxiv.org/abs/2309.01381v1 ) ライセンス: Link先を確認 | Senthilkumar Gopal | (参考訳) 古典的な機械学習アルゴリズムは、その性能と特性を詳細に数学的にレビューし、研究してきた。
本稿では,決定木,ブースティング,サポートベクトルマシン,k-nearest Neighbors,浅い人工ニューラルネットワークなど,広く使われている古典的教師あり学習アルゴリズムの実証機能について検討する。
本論文は,これらのアルゴリズムを,分類タスクのための疎グラフデータ上で評価し,高ノイズのために合成した際の特定のハイパーパラメータへの影響を観察する。
これらの摂動は、スパースデータの一般化におけるアルゴリズムの効率と、分類精度を改善するために異なるパラメータの有用性を観測するために導入された。
本論文は,これらの古典的アルゴリズムが,ノイズやスパースデータセットであっても,固有の特性のため,そのような制限されたデータであっても,公正な学習者であることを示そうとしている。 Classic machine learning algorithms have been reviewed and studied mathematically on its performance and properties in detail. This paper intends to review the empirical functioning of widely used classical supervised learning algorithms such as Decision Trees, Boosting, Support Vector Machines, k-nearest Neighbors and a shallow Artificial Neural Network. The paper evaluates these algorithms on a sparse tabular data for classification task and observes the effect on specific hyperparameters on these algorithms when the data is synthetically modified for higher noise. These perturbations were introduced to observe these algorithms on their efficiency in generalizing for sparse data and their utility of different parameters to improve classification accuracy. The paper intends to show that these classic algorithms are fair learners even for such limited data due to their inherent properties even for noisy and sparse datasets. | 翻訳日:2023-09-06 19:42:31 公開日:2023-09-04 |
# テキストによる映像シーンの理解:テキストによるビデオ質問回答から Understanding Video Scenes through Text: Insights from Text-based Video Question Answering ( http://arxiv.org/abs/2309.01380v1 ) ライセンス: Link先を確認 | Soumya Jahagirdar, Minesh Mathew, Dimosthenis Karatzas, C. V. Jawahar | (参考訳) 研究者は視覚と言語分野を幅広く研究し、視覚とテキストの両方がシーンを効果的に理解するために重要であることを発見した。
特にビデオにおけるテキストの理解は重要な意味を持ち、シーンテキストの理解と時間的推論の両方を必要とする。
本稿では,最近導入された2つのデータセットであるNewsVideoQAとM4-ViteVQAについて検討する。
NewsVideoQAデータセットには、ニュースビデオのテキストに関連する質問応答ペアが含まれており、M4-ViteVQAには、ブログ、旅行、ショッピングといったさまざまなカテゴリの質問応答ペアが含まれている。
様々なレベルでこれらのデータセットの定式化の分析を行い、質問に答えるために必要な視覚的理解とマルチフレーム理解の度合いについて検討する。
さらに、この研究は、テキストのみのモデルであるBERT-QAの実験を含む。これは、両方のデータセットのオリジナルのメソッドと同等のパフォーマンスを示し、これらのデータセットの定式化における欠点を示している。
さらに,m4-vitevqaのトレーニングの有効性を検証し,newsvideoqaとvice-versaの評価を行い,ドメイン外トレーニングの課題と潜在的なメリットを明らかにした。 Researchers have extensively studied the field of vision and language, discovering that both visual and textual content is crucial for understanding scenes effectively. Particularly, comprehending text in videos holds great significance, requiring both scene text understanding and temporal reasoning. This paper focuses on exploring two recently introduced datasets, NewsVideoQA and M4-ViteVQA, which aim to address video question answering based on textual content. The NewsVideoQA dataset contains question-answer pairs related to the text in news videos, while M4-ViteVQA comprises question-answer pairs from diverse categories like vlogging, traveling, and shopping. We provide an analysis of the formulation of these datasets on various levels, exploring the degree of visual understanding and multi-frame comprehension required for answering the questions. Additionally, the study includes experimentation with BERT-QA, a text-only model, which demonstrates comparable performance to the original methods on both datasets, indicating the shortcomings in the formulation of these datasets. Furthermore, we also look into the domain adaptation aspect by examining the effectiveness of training on M4-ViteVQA and evaluating on NewsVideoQA and vice-versa, thereby shedding light on the challenges and potential benefits of out-of-domain training. | 翻訳日:2023-09-06 19:42:17 公開日:2023-09-04 |
# メモリ拡張は、画像復元に必要なすべてです Memory augment is All You Need for image restoration ( http://arxiv.org/abs/2309.01377v1 ) ライセンス: Link先を確認 | Xiao Feng Zhang, Chao Chen Gu, Shan Ying Zhu | (参考訳) 画像復元は低レベルの視覚タスクであり、ほとんどのCNNメソッドはブラックボックスとして設計されており、透明性と内部美学に欠ける。
従来の最適化アルゴリズムとDNNを組み合わせた手法が提案されているが、いずれもいくつかの制限がある。
本稿では,メモリ層が画像の深い特徴を保存でき,コントラスト学習がバランスを取るために学習された特徴を収束させる,コントラスト学習のための3次元記憶層と3次元記憶層,特に標本を正、負、実3つのサンプルに分割する。
derain/deshadow/deblurタスクの実験により,これらの手法が修復性能の向上に有効であることが示された。
さらに, 本モデルでは, 劣化型が異なる3つのデータセットに対してPSNR, SSIMゲインを有意な精度で取得し, 得られた画像が知覚的に現実的であることを強く証明する。
MemoryNetのソースコードはhttps://github.com/zhangbaijin/MemoryNetから取得できる。 Image restoration is a low-level vision task, most CNN methods are designed as a black box, lacking transparency and internal aesthetics. Although some methods combining traditional optimization algorithms with DNNs have been proposed, they all have some limitations. In this paper, we propose a three-granularity memory layer and contrast learning named MemoryNet, specifically, dividing the samples into positive, negative, and actual three samples for contrastive learning, where the memory layer is able to preserve the deep features of the image and the contrastive learning converges the learned features to balance. Experiments on Derain/Deshadow/Deblur task demonstrate that these methods are effective in improving restoration performance. In addition, this paper's model obtains significant PSNR, SSIM gain on three datasets with different degradation types, which is a strong proof that the recovered images are perceptually realistic. The source code of MemoryNet can be obtained from https://github.com/zhangbaijin/MemoryNet | 翻訳日:2023-09-06 19:41:53 公開日:2023-09-04 |
# immersivenerf:unbounded immersive light field reconstructionのためのハイブリッド放射場 ImmersiveNeRF: Hybrid Radiance Fields for Unbounded Immersive Light Field Reconstruction ( http://arxiv.org/abs/2309.01374v1 ) ライセンス: Link先を確認 | Xiaohang Yu, Haoxiang Wang, Yuqi Han, Lei Yang, Tao Yu, and Qionghai Dai | (参考訳) 本稿では,高画質レンダリングとアグレッシブビュー外挿をサポートする非バウンド没入光場再構成のためのハイブリッド放射場表現を提案する。
鍵となるアイデアは、まず前景と背景を正式に分離し、トレーニングプロセス中に学習を適応的にバランスさせることです。
この目的を達成するために、前景と背景を2つの異なる空間マッピング戦略を持つ2つの異なる放射場として表現する。
さらに,より明確なセグメンテーションとロバスト収束のためのアダプティブサンプリング戦略とセグメンテーション正規化器を提案する。
最後に, THUImmersive という新しい没入型光フィールドデータセットを, 既存のデータセットと比較してはるかに大きな空間 6DoF の没入型レンダリング効果を達成し, 同一シーンにおける複数の隣接視点を捉え, 没入型光フィールド領域における研究とAR/VR応用の促進に寄与する。
広汎な実験により, 非有界没入光場再構成法の性能が向上した。 This paper proposes a hybrid radiance field representation for unbounded immersive light field reconstruction which supports high-quality rendering and aggressive view extrapolation. The key idea is to first formally separate the foreground and the background and then adaptively balance learning of them during the training process. To fulfill this goal, we represent the foreground and background as two separate radiance fields with two different spatial mapping strategies. We further propose an adaptive sampling strategy and a segmentation regularizer for more clear segmentation and robust convergence. Finally, we contribute a novel immersive light field dataset, named THUImmersive, with the potential to achieve much larger space 6DoF immersive rendering effects compared with existing datasets, by capturing multiple neighboring viewpoints for the same scene, to stimulate the research and AR/VR applications in the immersive light field domain. Extensive experiments demonstrate the strong performance of our method for unbounded immersive light field reconstruction. | 翻訳日:2023-09-06 19:41:36 公開日:2023-09-04 |
# diversitymotion:離散拡散による多様な人間の動き生成へ向けて DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion ( http://arxiv.org/abs/2309.01372v1 ) ライセンス: Link先を確認 | Yunhong Lou, Linchao Zhu, Yaxiong Wang, Xiaohan Wang, Yi Yang | (参考訳) 本稿では,運動の多様性を保ちながら,文章記述に基づく高品質な人間の動作を合成する新しいアプローチであるdiversationmotionを提案する。
その結果、動きの質と多様性のバランスを崩すことは未解決の課題である。
この問題には2つの要因がある。
1)既存ベンチマークにおけるモーションキャプチャペアの多様性の欠如
2)テキストプロンプトの一方的かつ偏りのある意味理解は,動詞成分に主眼を置きながら,他の単語が示すニュアンスを無視する。第1号に応答して,既存のよく定義されたデータセットの制限された動作境界を拡張するために,大規模ワイルドモーションキャプチャデータセット(wmc)を構築し,より広範なアクションによる多様な動作の学習を可能にする。
この目的のために、事前訓練された視覚言語モデルに基づいて動きBLIPを訓練し、収集した動き列に対する多様な動きキャプションを自動的に生成する。
その結果,8,888の動作と141kテキストを組み合わせたデータセットを最終的に構築し,テキストコマンドを包括的に理解するために,細粒度セマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティクスを捕捉する階層的セマンティック・アグリゲーション(HSA)モジュールを提案する。
HumanML3DとKIT-MLの大規模な実験により、我々のDiverseMotionは最先端のモーション品質と競争力の多様性を達成することが示された。
データセット、コード、事前訓練されたモデルがリリースされ、すべての結果が再現されます。 We present DiverseMotion, a new approach for synthesizing high-quality human motions conditioned on textual descriptions while preserving motion diversity.Despite the recent significant process in text-based human motion generation,existing methods often prioritize fitting training motions at the expense of action diversity. Consequently, striking a balance between motion quality and diversity remains an unresolved challenge. This problem is compounded by two key factors: 1) the lack of diversity in motion-caption pairs in existing benchmarks and 2) the unilateral and biased semantic understanding of the text prompt, focusing primarily on the verb component while neglecting the nuanced distinctions indicated by other words.In response to the first issue, we construct a large-scale Wild Motion-Caption dataset (WMC) to extend the restricted action boundary of existing well-annotated datasets, enabling the learning of diverse motions through a more extensive range of actions. To this end, a motion BLIP is trained upon a pretrained vision-language model, then we automatically generate diverse motion captions for the collected motion sequences. As a result, we finally build a dataset comprising 8,888 motions coupled with 141k text.To comprehensively understand the text command, we propose a Hierarchical Semantic Aggregation (HSA) module to capture the fine-grained semantics.Finally,we involve the above two designs into an effective Motion Discrete Diffusion (MDD) framework to strike a balance between motion quality and diversity. Extensive experiments on HumanML3D and KIT-ML show that our DiverseMotion achieves the state-of-the-art motion quality and competitive motion diversity. Dataset, code, and pretrained models will be released to reproduce all of our results. | 翻訳日:2023-09-06 19:41:16 公開日:2023-09-04 |
# 火星の気候モデリングの拡大:msl相対湿度モデリングのための解釈可能な機械学習 Expanding Mars Climate Modeling: Interpretable Machine Learning for Modeling MSL Relative Humidity ( http://arxiv.org/abs/2309.01424v1 ) ライセンス: Link先を確認 | Nour Abdelmoneim, Dattaraj B. Dhuri, Dimitra Atri, Germ\'an Mart\'inez | (参考訳) 過去数十年間、火星の気候をモデル化するための多くの試みが行われ、惑星のダイナミクスと気候の理解に焦点を当てた広範な研究が行われた。
物理モデリングとデータ同化のアプローチは大きな進歩を遂げたが、不確実性は火星の気候の複雑さを包括的に捉え、モデル化し続ける。
本研究では,地球の気候モデリングに顕著な成功を収めた機械学習技術を活用して,火星の気候モデリングに新たなアプローチを提案する。
本研究では,nasaの火星科学研究所 ‘curiosity’ ローバーが測定した,ガレクレーターの相対湿度を正確にモデル化する深層ニューラルネットワークを提案する。
強固な地球循環モデルである火星惑星気候モデルによるシミュレーション気象変数を利用することで,平均誤差が3\%,r^2$スコアが0.02である相対湿度を正確に予測する。
さらに,相対湿度の量的範囲を予測する手法を提案する。
機械学習モデルに関連する解釈可能性の課題に対処するために,解釈可能なモデルアーキテクチャを利用し,その内部機構と意思決定過程を詳細に分析する。
我々のニューラルネットワークは、月平均表面H$2$O層、惑星境界層の高さ、対流風速、太陽のゼニス角をモデル予測の主要な要因とする、いくつかの気象変数を用いて、ガレクレーターの相対湿度を効果的にモデル化することができる。
火星の気候変数を高速かつ効率的にモデル化する方法を提供するだけでなく、このモデリング手法は、観測における空間的および時間的ギャップを埋めることで、現在のデータセットを拡張するためにも利用できる。 For the past several decades, numerous attempts have been made to model the climate of Mars with extensive studies focusing on the planet's dynamics and the understanding of its climate. While physical modeling and data assimilation approaches have made significant progress, uncertainties persist in comprehensively capturing and modeling the complexities of Martian climate. In this work, we propose a novel approach to Martian climate modeling by leveraging machine learning techniques that have shown remarkable success in Earth climate modeling. Our study presents a deep neural network designed to accurately model relative humidity in Gale Crater, as measured by NASA's Mars Science Laboratory ``Curiosity'' rover. By utilizing simulated meteorological variables produced by the Mars Planetary Climate Model, a robust Global Circulation Model, our model accurately predicts relative humidity with a mean error of 3\% and an $R^2$ score of 0.92. Furthermore, we present an approach to predict quantile ranges of relative humidity, catering to applications that require a range of values. To address the challenge of interpretability associated with machine learning models, we utilize an interpretable model architecture and conduct an in-depth analysis of its internal mechanisms and decision making processes. We find that our neural network can effectively model relative humidity at Gale crater using a few meteorological variables, with the monthly mean surface H$_2$O layer, planetary boundary layer height, convective wind speed, and solar zenith angle being the primary contributors to the model predictions. In addition to providing a fast and efficient method to modeling climate variables on Mars, this modeling approach can also be used to expand on current datasets by filling spatial and temporal gaps in observations. | 翻訳日:2023-09-06 19:35:15 公開日:2023-09-04 |
# 月からの天文学:太陽系外惑星から宇宙へ、そして可視光の向こうへ Astronomy from the Moon: From Exoplanets to Cosmology and Beyond in Visible Light ( http://arxiv.org/abs/2309.01421v1 ) ライセンス: Link先を確認 | Jean Schneider and Antoine Labeyrie | (参考訳) 我々は、今後数十年の可視領域における月からの天文学の可能性を概観する。
光度測定から高コントラスト、高角分解能画像まで、短いレビューの後、私たちは太陽系から銀河外領域まで、いくつかの有望な科学的目的に焦点を当てた。
最後に、地球-月システムを使って基礎物理学をテストする提案を追加します。
この会合は今後数十年の月からの天文学に捧げられているので、今後数十年にわたって計画や科学の目的を考える。 We review what could be astronomy from the Moon in the next decades in the visible domain. After a short review observational approaches, from photometry to high contrast and high angular resolution imaging, We essentially focus on some promising scientific objectives, from Solar System to the extragalactic domain. At the end, I add a proposal to use the Earth-Moon system to test fundamental physics. Since this meeting is dedicated to the next decades of Astronomy from the Moon, we consider projects and science objectives for several decades from now. | 翻訳日:2023-09-06 19:34:44 公開日:2023-09-04 |
# テキスト・ツー・イメージ人物識別のための擬似テキストの統合事前学習 Unified Pre-training with Pseudo Texts for Text-To-Image Person Re-identification ( http://arxiv.org/abs/2309.01420v1 ) ライセンス: Link先を確認 | Zhiyin Shao, Xinyu Zhang, Changxing Ding, Jian Wang, Jingdong Wang | (参考訳) 事前訓練タスクは、T2I-ReID(text-to-image person re-identification)タスクに必須である。
しかし、これらの2つのタスクの間には、パフォーマンスに影響を及ぼす2つの根本的な矛盾がある。
一 データの整合性
パブリック事前訓練されたモデルで使用される一般的な画像/テキストと、T2I-ReIDタスクの特定の人物データの間に大きなドメインギャップが存在する。
一般的なテキストデータは通常、特定の人物を詳細に記述できないため、このギャップはテキストにとって特に深刻である。
二 不整合の訓練
画像とテキストの事前学習のプロセスは、T2I-ReIDに欠如しているにもかかわらず、独立している。
上記の課題に対処するため,T2I-ReIDタスク用に設計された新しい統合事前学習パイプライン(UniPT)を提案する。
まず,大規模なテキストラベル付き人物データセットLUPerson-Tを構築し,画像の擬似テキスト記述を分割コンカイン戦略を用いてCLIPパラダイムで自動生成する。
このデータセットの利点を生かして、単純なビジョンと言語による事前学習フレームワークを使用して、事前トレーニング中の画像とテキストのモダリティの特徴空間を明示的に調整します。
このように、事前トレーニングタスクとT2I-ReIDタスクは、データレベルとトレーニングレベルの両方で一致させる。
ベルとホイッスルを必要とせずに、我々のUniPTは、CUHK-PEDES, ICFG-PEDES, RSTPReidでそれぞれ68.50%, 60.09%, 51.85%の競合ランク1の精度を達成した。
LUPerson-Tデータセットとコードはhttps;//github.com/ZhiyinShao-H/UniPTで利用可能である。 The pre-training task is indispensable for the text-to-image person re-identification (T2I-ReID) task. However, there are two underlying inconsistencies between these two tasks that may impact the performance; i) Data inconsistency. A large domain gap exists between the generic images/texts used in public pre-trained models and the specific person data in the T2I-ReID task. This gap is especially severe for texts, as general textual data are usually unable to describe specific people in fine-grained detail. ii) Training inconsistency. The processes of pre-training of images and texts are independent, despite cross-modality learning being critical to T2I-ReID. To address the above issues, we present a new unified pre-training pipeline (UniPT) designed specifically for the T2I-ReID task. We first build a large-scale text-labeled person dataset "LUPerson-T", in which pseudo-textual descriptions of images are automatically generated by the CLIP paradigm using a divide-conquer-combine strategy. Benefiting from this dataset, we then utilize a simple vision-and-language pre-training framework to explicitly align the feature space of the image and text modalities during pre-training. In this way, the pre-training task and the T2I-ReID task are made consistent with each other on both data and training levels. Without the need for any bells and whistles, our UniPT achieves competitive Rank-1 accuracy of, ie, 68.50%, 60.09%, and 51.85% on CUHK-PEDES, ICFG-PEDES and RSTPReid, respectively. Both the LUPerson-T dataset and code are available at https;//github.com/ZhiyinShao-H/UniPT. | 翻訳日:2023-09-06 19:34:34 公開日:2023-09-04 |
# ヘドニックゲームを用いたp2pエネルギー取引の社会的要因 Social Factors in P2P Energy Trading Using Hedonic Games ( http://arxiv.org/abs/2309.01418v1 ) ライセンス: Link先を確認 | Dan Mitrea, Viorica Chifu, Tudor Cioara, Ionut Anghel, Cristina Pop | (参考訳) 近年、エネルギーコミュニティはエネルギーシステムの弾力性と柔軟性に大きく貢献し、断続的な再生可能エネルギー源の広範な統合を促進する可能性から、多くの注目を集めている。
これらのコミュニティ内では、プロシューマーはピアツーピア取引に従事し、地元のコラボレーションを促進し、エネルギー利用とフレキシブルな消費に対する認識を高めることができる。
しかし、こうした好都合な条件下でも、プロシューマーのエンゲージメントレベルは低く、社会的価値や期待に合致した取引メカニズムが必要となる。
本稿では,エネルギーコミュニティ内の社会的関係を考慮し,エネルギー連立を形成し,エネルギー取引を促進するプロシューマー間のp2pエネルギ取引のための革新的なヘドニックゲーム協調協調モデルを提案する。
社会・エネルギー価格の選好を考慮し,コミュニティ内のエネルギー需要と供給のバランスをとることで,プロシューマーの連立を最適化するヒューリスティックを定義した。
我々は提案したヘドニックゲームモデルを最先端のブロックチェーンベースのP2Pエネルギーフレキシビリティ市場に統合し、プロシューマーのエネルギーコミュニティ内でのパフォーマンスを評価した。
ブロックチェーンベースのp2pエネルギ・フレキシビリティ・マーケットにおける評価結果は、連立を作る際の社会的要因を考慮し、他のゲーム理論に基づくソリューションと比較して、市場セッションで実施されるエネルギーの総量を5%増加させる効果を示す。
最後に、p2pエネルギー取引の社会的次元の重要性を示し、エネルギーコミュニティにおけるポジティブな社会的ダイナミクスは、コミュニティ内のよりバランスのとれたエネルギー需要と供給に寄与しながら、10%以上のエネルギーを伝達する量を増加させる。 Lately, the energy communities have gained a lot of attention as they have the potential to significantly contribute to the resilience and flexibility of the energy system, facilitating widespread integration of intermittent renewable energy sources. Within these communities the prosumers can engage in peer-to-peer trading, fostering local collaborations and increasing awareness about energy usage and flexible consumption. However, even under these favorable conditions, prosumer engagement levels remain low, requiring trading mechanisms that are aligned with their social values and expectations. In this paper, we introduce an innovative hedonic game coordination and cooperation model for P2P energy trading among prosumers which considers the social relationships within an energy community to create energy coalitions and facilitate energy transactions among them. We defined a heuristic that optimizes the prosumers coalitions, considering their social and energy price preferences and balancing the energy demand and supply within the community. We integrated the proposed hedonic game model into a state-of-the-art blockchain-based P2P energy flexibility market and evaluated its performance within an energy community of prosumers. The evaluation results on a blockchain-based P2P energy flexibility market show the effectiveness in considering social factors when creating coalitions, increasing the total amount of energy transacted in a market session by 5% compared with other game theory-based solutions. Finally, it shows the importance of the social dimensions of P2P energy transactions, the positive social dynamics in the energy community increasing the amount of energy transacted by more than 10% while contributing to a more balanced energy demand and supply within the community. | 翻訳日:2023-09-06 19:34:04 公開日:2023-09-04 |
# モビリティのための一般化ベクトル場フレームワーク A generalized vector-field framework for mobility ( http://arxiv.org/abs/2309.01415v1 ) ライセンス: Link先を確認 | Erjian Liu, Mattia Mazzoli, Xiao-Yong Yan and Jose J. Ramasco | (参考訳) 地域間のトリップフローは、人力研究の基本的な指標である。
交通需要と交通・都市計画との関連性から、その推定のために多くのモデルが開発されている。
これらのモデルは、局所移動方向によって提供される情報を無視して、流れの強度に焦点を当てている。
フィールド理論的なアプローチは、この問題を克服し、強度と方向の両方を同時に扱うことができる。
本稿では,任意の種類の移動に有効な個人軌道から始まる一般ベクトル場表現を提案する。
空間探索の4つのモデルを導入することで,個人の選挙が移動分野のメソスコピック特性をどのように決定するかを示す。
長い変位とランダムな局所探索における距離最適化は、中国のロジスティックデータやニューヨーク市のfoursquareチェックインで観察された経験的フィールド特徴を再現するために必要である。
本手法は,メゾスコピック都市モビリティにおける隠れた対称性を捉えるための必須ツールであり,モビリティモデルの妥当性をテストするためのベンチマークを確立し,幅広い応用分野におけるフィールド理論の利用への扉を開く。 Trip flow between areas is a fundamental metric for human mobility research. Given its identification with travel demand and its relevance for transportation and urban planning, many models have been developed for its estimation. These models focus on flow intensity, disregarding the information provided by the local mobility orientation. A field-theoretic approach can overcome this issue and handling both intensity and direction at once. Here we propose a general vector-field representation starting from individuals' trajectories valid for any type of mobility. By introducing four models of spatial exploration, we show how individuals' elections determine the mesoscopic properties of the mobility field. Distance optimization in long displacements and random-like local exploration are necessary to reproduce empirical field features observed in Chinese logistic data and in New York City Foursquare check-ins. Our framework is an essential tool to capture hidden symmetries in mesoscopic urban mobility, it establishes a benchmark to test the validity of mobility models and opens the doors to the use of field theory in a wide spectrum of applications. | 翻訳日:2023-09-06 19:33:35 公開日:2023-09-04 |
# ヘイトフルメッセージ:若者が音声で生成したヘイトスピーチの会話データセット Hateful Messages: A Conversational Data Set of Hate Speech produced by Adolescents on Discord ( http://arxiv.org/abs/2309.01413v1 ) ライセンス: Link先を確認 | Jan Fillies, Silvio Peikert, Adrian Paschke | (参考訳) ソーシャルメディアの台頭に伴い、憎悪的なコンテンツの台頭が観察される。
ヘイトスピーチの理解と定義は様々であるが、プラットフォーム、コミュニティ、立法府は全てこの問題を認めている。
したがって、青年はソーシャルメディアユーザーの新しく活発なグループである。
青少年の大多数はオンラインヘイトスピーチを経験または目撃している。
ヘイトスピーチの自動分類の分野での研究は、バイアス、一般化性、パフォーマンスといった側面に焦点が当てられている。
一般化性と性能を向上させるためには,データのバイアスを理解することが重要である。
本研究は、ヘイトスピーチ分類における若者言語のバイアスに対処し、88.395の注釈付きチャットメッセージからなる現代的で匿名化されたヘイトスピーチ青年言語データセットを提供することによって貢献する。
データセットはチャットプラットフォームのDiscordから公開されているオンラインメッセージで構成されている。
メッセージの約6,42%は、ヘイトスピーチとして自己開発アノテーションスキーマによって分類された。
35.553のメッセージに対して、ユーザープロファイルは平均著者年齢を20歳未満に設定する年齢アノテーションを提供した。 With the rise of social media, a rise of hateful content can be observed. Even though the understanding and definitions of hate speech varies, platforms, communities, and legislature all acknowledge the problem. Therefore, adolescents are a new and active group of social media users. The majority of adolescents experience or witness online hate speech. Research in the field of automated hate speech classification has been on the rise and focuses on aspects such as bias, generalizability, and performance. To increase generalizability and performance, it is important to understand biases within the data. This research addresses the bias of youth language within hate speech classification and contributes by providing a modern and anonymized hate speech youth language data set consisting of 88.395 annotated chat messages. The data set consists of publicly available online messages from the chat platform Discord. ~6,42% of the messages were classified by a self-developed annotation schema as hate speech. For 35.553 messages, the user profiles provided age annotations setting the average author age to under 20 years old. | 翻訳日:2023-09-06 19:33:18 公開日:2023-09-04 |
# 強調的・混合的特徴再建による暗黙的神経画像縫合 Implicit Neural Image Stitching With Enhanced and Blended Feature Reconstruction ( http://arxiv.org/abs/2309.01409v1 ) ライセンス: Link先を確認 | Minsu Kim, Jaewon Lee, Byeonghun Lee, Sunghoon Im, Kyong Hwan Jin | (参考訳) 画像縫合のための既存のフレームワークは、しばしば視覚的に合理的な縫合を提供する。
しかし、照明や深さなどではぼやけた人工物や相違に悩まされている。
近年の学習に基づく縫合は、そのような相違を緩和するが、必要な方法は、縫合画像の高周波詳細を捉えない画像品質の犠牲を課す。
この問題に対処するために,任意のスケールの超解像を拡張可能な暗黙的ニューラルイメージスティッチ(NIS)を提案する。
画質向上のための画像のフーリエ係数を推定する。
提案したモデルでは,色ミスマッチと遅延空間のずれを混合し,その特徴を縫合画像のRGB値に復号する。
提案手法は, より高速な画像強調法により, 従来の深部画像縫合の低精細像の解消に有効であることを示す。
ソースコードはhttps://github.com/minshu-kim/nisで入手できます。 Existing frameworks for image stitching often provide visually reasonable stitchings. However, they suffer from blurry artifacts and disparities in illumination, depth level, etc. Although the recent learning-based stitchings relax such disparities, the required methods impose sacrifice of image qualities failing to capture high-frequency details for stitched images. To address the problem, we propose a novel approach, implicit Neural Image Stitching (NIS) that extends arbitrary-scale super-resolution. Our method estimates Fourier coefficients of images for quality-enhancing warps. Then, the suggested model blends color mismatches and misalignment in the latent space and decodes the features into RGB values of stitched images. Our experiments show that our approach achieves improvement in resolving the low-definition imaging of the previous deep image stitching with favorable accelerated image-enhancing methods. Our source code is available at https://github.com/minshu-kim/NIS. | 翻訳日:2023-09-06 19:33:02 公開日:2023-09-04 |
# 神経伝達関数設計のための自己監督型視覚変換器の活用 Leveraging Self-Supervised Vision Transformers for Neural Transfer Function Design ( http://arxiv.org/abs/2309.01408v1 ) ライセンス: Link先を確認 | Dominik Engel, Leon Sick, Timo Ropinski | (参考訳) ボリュームレンダリングでは、転送関数は興味のある構造を分類し、色や不透明度などの光学特性を割り当てるために用いられる。
これらは一般的に、これらの光学特性に単純な特徴をマッピングする 1D あるいは 2D 関数として定義される。
転送関数を設計するプロセスは通常退屈で直感的であるため、インタラクティブな仕様のためにいくつかのアプローチが提案されている。
本稿では, 自己教師付き視覚変換器の特徴抽出機能を活用し, ボリュームレンダリングのための伝達関数を定義する新しい手法を提案する。
転送関数を設計するために,スライスビューアの関心構造をユーザが簡単に選択し,ニューラルネットワークが抽出した高次特徴に基づいて,類似した構造を自動的に選択する。
従来の学習に基づく伝達関数アプローチとは対照的に,本手法はモデルの訓練を必要とせず,高速な推論が可能であり,ボリュームデータの対話的な探索を可能にする。
提案手法は,ユーザに対して現在の分類について対話的に通知することで,必要なアノテーションの量を削減する。
実際には、ユーザーは数分ではなく数秒で転送機能を設計できる。
本手法を既存の学習ベースアプローチとアノテーションと計算時間の観点から比較し,セグメンテーション精度について検討した。
提案手法の対話性と有効性を示す映像を提示する。 In volume rendering, transfer functions are used to classify structures of interest, and to assign optical properties such as color and opacity. They are commonly defined as 1D or 2D functions that map simple features to these optical properties. As the process of designing a transfer function is typically tedious and unintuitive, several approaches have been proposed for their interactive specification. In this paper, we present a novel method to define transfer functions for volume rendering by leveraging the feature extraction capabilities of self-supervised pre-trained vision transformers. To design a transfer function, users simply select the structures of interest in a slice viewer, and our method automatically selects similar structures based on the high-level features extracted by the neural network. Contrary to previous learning-based transfer function approaches, our method does not require training of models and allows for quick inference, enabling an interactive exploration of the volume data. Our approach reduces the amount of necessary annotations by interactively informing the user about the current classification, so they can focus on annotating the structures of interest that still require annotation. In practice, this allows users to design transfer functions within seconds, instead of minutes. We compare our method to existing learning-based approaches in terms of annotation and compute time, as well as with respect to segmentation accuracy. Our accompanying video showcases the interactivity and effectiveness of our method. | 翻訳日:2023-09-06 19:32:44 公開日:2023-09-04 |
# ディリクレ境界条件下における画像縫合における残留弾性ワルプの学習 Learning Residual Elastic Warps for Image Stitching under Dirichlet Boundary Condition ( http://arxiv.org/abs/2309.01406v1 ) ライセンス: Link先を確認 | Minsu Kim, Yongjun Lee, Woo Kyoung Han, Kyong Hwan Jin | (参考訳) 学習に基づく弾性ワープの傾向は、深層画像の縫合によって大きなパララックス誤差に晒された画像の整列を可能にする。
対象画像のオーバーラップ領域と非オーバーラップ領域のずれや穴が生じたり,不連続性に支障をきたすことがあるが,この手法は,主にオーバーラップ領域アライメントに着目した学習戦略である。
結果として、不連続性を隠蔽するために、シームファインダーやイメージインペイントなどの追加モジュールが必要である。
本稿では,ディリクレ境界条件の問題に対処するリカレント弾性ワープ(Recurrent Elastic Warps,REwarp)を提案する。
特に、Rewarpは、不連続およびホールフリー画像縫合のための境界制約の下で、ホモグラフィと薄板スプライン(TPS)を予測する。
本実験は,既存の縫合法と比較して,Rewarpの整合性および競合計算コストを示す。
ソースコードはhttps://github.com/minshu-kim/rewarp.comから入手できます。 Trendy suggestions for learning-based elastic warps enable the deep image stitchings to align images exposed to large parallax errors. Despite the remarkable alignments, the methods struggle with occasional holes or discontinuity between overlapping and non-overlapping regions of a target image as the applied training strategy mostly focuses on overlap region alignment. As a result, they require additional modules such as seam finder and image inpainting for hiding discontinuity and filling holes, respectively. In this work, we suggest Recurrent Elastic Warps (REwarp) that address the problem with Dirichlet boundary condition and boost performances by residual learning for recurrent misalign correction. Specifically, REwarp predicts a homography and a Thin-plate Spline (TPS) under the boundary constraint for discontinuity and hole-free image stitching. Our experiments show the favorable aligns and the competitive computational costs of REwarp compared to the existing stitching methods. Our source code is available at https://github.com/minshu-kim/REwarp. | 翻訳日:2023-09-06 19:32:24 公開日:2023-09-04 |
# chatgptを用いた放射線レポートからのゼロショット情報抽出 Zero-shot information extraction from radiological reports using ChatGPT ( http://arxiv.org/abs/2309.01398v1 ) ライセンス: Link先を確認 | Danqing Hu, Bing Liu, Xiaofeng Zhu, Xudong Lu, Nan Wu | (参考訳) 電子健康記録には大量の貴重な情報が含まれているが、その多くはフリーテキストで記録されている。
情報抽出は、文字のシーケンスを構造化データに変換する戦略であり、二次分析に使用できる。
しかし、名前付きエンティティ認識や関係抽出などの従来の情報抽出コンポーネントは、モデルパラメータを最適化するために注釈付きデータを必要としており、情報抽出システムの構築において大きなボトルネックとなっている。
大規模言語モデルがパラメータ調整なしで様々な下流NLPタスクで優れた性能を発揮することにより、ゼロショット情報抽出に大規模言語モデルを使用することが可能である。
本研究では,最もポピュラーな大規模言語モデルであるChatGPTが,放射線学的報告から有用な情報を抽出できるかどうかを検討することを目的とする。
まず、CTレポートの興味ある情報に対するプロンプトテンプレートを設計する。
次に,プロンプトテンプレートとCTレポートとをチャットGPTの入力として組み合わせてプロンプトを生成し,応答を得る。
処理後モジュールを開発し、応答を構造化された抽出結果に変換する。
北京大学がん病院から採取した847個のct画像を用いて実験を行った。
実験の結果,chatgptは,ベースライン情報抽出システムと比較して,いくつかの抽出タスクにおいて競合性能を得ることができたが,いくつかの制限は改善される必要がある。 Electronic health records contain an enormous amount of valuable information, but many are recorded in free text. Information extraction is the strategy to transform the sequence of characters into structured data, which can be employed for secondary analysis. However, the traditional information extraction components, such as named entity recognition and relation extraction, require annotated data to optimize the model parameters, which has become one of the major bottlenecks in building information extraction systems. With the large language models achieving good performances on various downstream NLP tasks without parameter tuning, it becomes possible to use large language models for zero-shot information extraction. In this study, we aim to explore whether the most popular large language model, ChatGPT, can extract useful information from the radiological reports. We first design the prompt template for the interested information in the CT reports. Then, we generate the prompts by combining the prompt template with the CT reports as the inputs of ChatGPT to obtain the responses. A post-processing module is developed to transform the responses into structured extraction results. We conducted the experiments with 847 CT reports collected from Peking University Cancer Hospital. The experimental results indicate that ChatGPT can achieve competitive performances for some extraction tasks compared with the baseline information extraction system, but some limitations need to be further improved. | 翻訳日:2023-09-06 19:32:07 公開日:2023-09-04 |
# ディフェンシブレターデザインに向けて Toward Defensive Letter Design ( http://arxiv.org/abs/2309.01452v1 ) ライセンス: Link先を確認 | Rentaro Kataoka, Akisato Kimura, Seiichi Uchida | (参考訳) 敵対的攻撃に対抗するための主要なアプローチは、画像分類器のみをより弾力的に制御することであり、パンダや車などの視覚的対象をイメージに含まないことである。
これは、ビジュアルオブジェクト自体がいかなる防御アクションも受けられず、敵の攻撃に対して脆弱であることを意味する。
対照的に文字は人工的なシンボルであり、可読性を失うことなく自由にその外観を制御できる。
言い換えれば、攻撃に対して文字をより防御的にできるのです。
本論文は, 文字画像の敵意的脆弱性に関する3つの研究課題を提起する:(1) 敵意的攻撃に対する文字の防御力はどの程度か?
2)攻撃前の文字画像の防御効果を推定できるのか?
3) 敵の攻撃に対する防御性を高めるために,文字画像の制御は可能か?
第1および第2の質問に答えるために,反復型高速勾配符号法(i-fgsm)を用いて文字の難読度を測定し,各文字画像の難読度を推定するための深い回帰モデルを構築した。
また,第3の研究課題を解決するために,高精細度キャラクタ画像を生成するための生成逆ネットワーク(gan)に基づく2段階の手法を提案する。 A major approach for defending against adversarial attacks aims at controlling only image classifiers to be more resilient, and it does not care about visual objects, such as pandas and cars, in images. This means that visual objects themselves cannot take any defensive actions, and they are still vulnerable to adversarial attacks. In contrast, letters are artificial symbols, and we can freely control their appearance unless losing their readability. In other words, we can make the letters more defensive to the attacks. This paper poses three research questions related to the adversarial vulnerability of letter images: (1) How defensive are the letters against adversarial attacks? (2) Can we estimate how defensive a given letter image is before attacks? (3) Can we control the letter images to be more defensive against adversarial attacks? For answering the first and second questions, we measure the defensibility of letters by employing Iterative Fast Gradient Sign Method (I-FGSM) and then build a deep regression model for estimating the defensibility of each letter image. We also propose a two-step method based on a generative adversarial network (GAN) for generating character images with higher defensibility, which solves the third research question. | 翻訳日:2023-09-06 19:24:07 公開日:2023-09-04 |
# hundreds guide millions: エキスパートガイダンスによる適応型オフライン強化学習 Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with Expert Guidance ( http://arxiv.org/abs/2309.01448v1 ) ライセンス: Link先を確認 | Qisen Yang, Shenzhi Wang, Qihang Zhang, Gao Huang, Shiji Song | (参考訳) オフライン強化学習(RL)は、事前に収集したデータセット上のポリシーを環境と相互作用することなく最適化するが、通常は分散シフト問題に悩まされる。
この問題を緩和するため、典型的な解決策は政策改善目標に政策制約を課すことである。
しかし、既存のメソッドは一般に'1-size-fits-all'のプラクティスを採用する。すなわち、ミニバッチやオフラインデータセット全体において、すべてのサンプルに対して単一の改善制約バランスを維持する。
この研究では、異なるサンプルは異なるポリシー制約の強度で扱うべきであると論じている。
この考え方に基づいて,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
理論的には,提案手法が合理的かつほぼ最適であることを示す。
様々な環境における大規模な実験により、GORLは統計的に有意な性能向上を伴うほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。 Offline reinforcement learning (RL) optimizes the policy on a previously collected dataset without any interactions with the environment, yet usually suffers from the distributional shift problem. To mitigate this issue, a typical solution is to impose a policy constraint on a policy improvement objective. However, existing methods generally adopt a ``one-size-fits-all'' practice, i.e., keeping only a single improvement-constraint balance for all the samples in a mini-batch or even the entire offline dataset. In this work, we argue that different samples should be treated with different policy constraint intensities. Based on this idea, a novel plug-in approach named Guided Offline RL (GORL) is proposed. GORL employs a guiding network, along with only a few expert demonstrations, to adaptively determine the relative importance of the policy improvement and policy constraint for every sample. We theoretically prove that the guidance provided by our method is rational and near-optimal. Extensive experiments on various environments suggest that GORL can be easily installed on most offline RL algorithms with statistically significant performance improvements. | 翻訳日:2023-09-06 19:23:46 公開日:2023-09-04 |
# オープンセサミ!
大規模言語モデルのユニバーサルブラックボックスジェイルブレイク Open Sesame! Universal Black Box Jailbreaking of Large Language Models ( http://arxiv.org/abs/2309.01446v1 ) ライセンス: Link先を確認 | Raz Lapid, Ron Langberg, Moshe Sipper | (参考訳) 有用で安全な応答を提供するように設計された大規模言語モデル(llm)は、しばしばユーザの意図や社会的ガイドラインに合致するアライメント技術に依存している。
残念ながら、このアライメントはLLMの出力を意図しない目的のために操作しようとする悪意のあるアクターによって悪用される。
本稿では,モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。
GA攻撃は、(ユーザのクエリと組み合わせて)攻撃されたモデルのアライメントを妨害し、意図しない、潜在的に有害なアウトプットをもたらす、普遍的な敵のプロンプトを最適化することで機能する。
提案手法は,応答が期待された動作から逸脱するインスタンスを明らかにすることで,モデルの制約や脆弱性を体系的に明らかにする。
広範な実験を通じて,本手法の有効性を実証し,llmと人間の意図の一致度を評価する診断ツールを提供することにより,責任あるai開発に関する議論に寄与する。
我々の知る限り、これは最初の自動化されたユニバーサルブラックボックスジェイルブレイク攻撃である。 Large language models (LLMs), designed to provide helpful and safe responses, often rely on alignment techniques to align with user intent and social guidelines. Unfortunately, this alignment can be exploited by malicious actors seeking to manipulate an LLM's outputs for unintended purposes. In this paper we introduce a novel approach that employs a genetic algorithm (GA) to manipulate LLMs when model architecture and parameters are inaccessible. The GA attack works by optimizing a universal adversarial prompt that -- when combined with a user's query -- disrupts the attacked model's alignment, resulting in unintended and potentially harmful outputs. Our novel approach systematically reveals a model's limitations and vulnerabilities by uncovering instances where its responses deviate from expected behavior. Through extensive experiments we demonstrate the efficacy of our technique, thus contributing to the ongoing discussion on responsible AI development by providing a diagnostic tool for evaluating and enhancing alignment of LLMs with human intent. To our knowledge this is the first automated universal black box jailbreak attack. | 翻訳日:2023-09-06 19:23:26 公開日:2023-09-04 |
# 2レベル系における波動混合の量子理論 Quantum theory of wave mixing on a two-level system ( http://arxiv.org/abs/2309.01444v1 ) ライセンス: Link先を確認 | A. A. Elistratov, S. V. Remizov, W. V. Pogosov, A. Yu. Dmitriev, and O. V. Astafiev | (参考訳) 散乱行列の定式化を量子二層系の波動混合に適用する。
ポポフ-フェドトフセミオンを用いて2段階自由度系のフェルミオン化を行い、n-粒子グリーン関数を計算し、リーマン-シーマンツィク-ジメルマンン還元法を適用する。
本研究では,二段階人工原子 \cite{dmitriev2019probing} 上の二色放射の散乱実験において観測されたコヒーレント側ピークの出現を一貫した量子論的説明を行う。
実験で観測されたスペクトルは、双色駆動の1つのモードから別のモードへの光子のボソニック刺激による散乱の結果であり、その逆である。 We apply the scattering matrix formalism to wave mixing on a quantum two-level system. We carry out the fermionization of the two-level system degrees of freedom using the Popov-Fedotov semions, calculate n-particle Green's function, and apply the Lehmann-Symanzik-Zimmermannn reduction procedure. Using the developed approach, we provide a consistent quantum explanation of the appearance of coherent side peaks observed in an experiment on the scattering of bichromatic radiation on a two-level artificial atom \cite{dmitriev2019probing}. We show that the spectrum observed in the experiment is the result of bosonic stimulated scattering of photons from one mode of the bichromatic drive to another and vice versa. | 翻訳日:2023-09-06 19:23:08 公開日:2023-09-04 |
# 大きな分離可能なカーネルアテンション:CNNにおけるカーネルアテンション設計の再考 Large Separable Kernel Attention: Rethinking the Large Kernel Attention Design in CNN ( http://arxiv.org/abs/2309.01439v1 ) ライセンス: Link先を確認 | Kin Wai Lau, Lai-Man Po, Yasar Abbas Ur Rehman | (参考訳) 大型カーネル・アテンション(LKA)モジュールを備えたビジュアル・アテンション・ネットワーク(VAN)は、視覚ベースのタスクにおいてビジョン・トランスフォーマー(ViT)を超える優れたパフォーマンスを提供する。
しかし、これらのlkaモジュールの深さ方向の畳み込み層は畳み込みカーネルサイズの増加とともに計算量とメモリフットプリントの二次的な増加をもたらす。
これらの問題を緩和し,VANのアテンションモジュールにおいて極めて大きな畳み込みカーネルの使用を可能にするため,LSKAと呼ばれる大型分離カーネルアテンションモジュール群を提案する。
lskaは深さ方向の畳み込み層の2次元畳み込み核を水平および垂直な1次元核に分解する。
標準LKA設計とは対照的に、提案した分解により、余分なブロックを必要とせず、大きなカーネルをアテンションモジュールに配置した奥行きの畳み込み層を直接利用できる。
VANのLSKAモジュールは,標準LKAモジュールと同等の性能を示し,計算量やメモリフットプリントの低減を図っている。
また,提案したLSKA設計は,カーネルサイズの増加に伴うテクスチャよりも,VANを物体の形状に偏りがあることが判明した。
さらに、VAN、ViTs、最近のConvNeXtにおけるLKAとLSKAの堅牢さを、以前の研究でほとんど明らかにされていないImageNetデータセットの5つの破損バージョンについてベンチマークする。
広範な実験結果から,vanにおける提案するlskaモジュールは,vitsやconvnextよりもパフォーマンスが向上する一方で,カーネルサイズを増加させ,計算複雑性とメモリフットプリントを大幅に削減し,オブジェクト認識,オブジェクト検出,セマンティックセグメンテーション,ロバストネステストにおいてlkaモジュールと同等の性能を提供することが示された。 Visual Attention Networks (VAN) with Large Kernel Attention (LKA) modules have been shown to provide remarkable performance, that surpasses Vision Transformers (ViTs), on a range of vision-based tasks. However, the depth-wise convolutional layer in these LKA modules incurs a quadratic increase in the computational and memory footprints with increasing convolutional kernel size. To mitigate these problems and to enable the use of extremely large convolutional kernels in the attention modules of VAN, we propose a family of Large Separable Kernel Attention modules, termed LSKA. LSKA decomposes the 2D convolutional kernel of the depth-wise convolutional layer into cascaded horizontal and vertical 1-D kernels. In contrast to the standard LKA design, the proposed decomposition enables the direct use of the depth-wise convolutional layer with large kernels in the attention module, without requiring any extra blocks. We demonstrate that the proposed LSKA module in VAN can achieve comparable performance with the standard LKA module and incur lower computational complexity and memory footprints. We also find that the proposed LSKA design biases the VAN more toward the shape of the object than the texture with increasing kernel size. Additionally, we benchmark the robustness of the LKA and LSKA in VAN, ViTs, and the recent ConvNeXt on the five corrupted versions of the ImageNet dataset that are largely unexplored in the previous works. Our extensive experimental results show that the proposed LSKA module in VAN provides a significant reduction in computational complexity and memory footprints with increasing kernel size while outperforming ViTs, ConvNeXt, and providing similar performance compared to the LKA module in VAN on object recognition, object detection, semantic segmentation, and robustness tests. | 翻訳日:2023-09-06 19:22:54 公開日:2023-09-04 |
# SememeASR:Sememe Semantic Knowledgeを用いたドメインと長期データシフトに対するエンドツーエンド音声認識の性能向上 SememeASR: Boosting Performance of End-to-End Speech Recognition against Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge ( http://arxiv.org/abs/2309.01437v1 ) ライセンス: Link先を確認 | Jiaxu Zhu, Changhe Song, Zhiyong Wu, Helen Meng | (参考訳) 近年,音声認識において優れた進歩を遂げている。
しかし、純粋なデータ駆動アプローチは、ドメインミスマッチとロングテールデータの問題を解決するのに苦労しています。
知識駆動アプローチがデータ駆動アプローチの欠点を軽減することを考えると,セメムに基づく意味知識情報を音声認識(SememeASR)に導入する。
言語定義によれば、Sememeは言語における最小の意味単位であり、各単語の背後にある暗黙的な意味情報を非常によく表現することができる。
本実験では,セメム情報の導入により音声認識の有効性が向上することを示す。
さらに,sememe知識は,ロングテールデータに対するモデルの認識を改善し,モデルのドメイン一般化能力を高めることができることを示した。 Recently, excellent progress has been made in speech recognition. However, pure data-driven approaches have struggled to solve the problem in domain-mismatch and long-tailed data. Considering that knowledge-driven approaches can help data-driven approaches alleviate their flaws, we introduce sememe-based semantic knowledge information to speech recognition (SememeASR). Sememe, according to the linguistic definition, is the minimum semantic unit in a language and is able to represent the implicit semantic information behind each word very well. Our experiments show that the introduction of sememe information can improve the effectiveness of speech recognition. In addition, our further experiments show that sememe knowledge can improve the model's recognition of long-tailed data and enhance the model's domain generalization ability. | 翻訳日:2023-09-06 19:22:21 公開日:2023-09-04 |
# 量子ノイズチャネルの量子誤差前補償 Quantum error pre-compensation for quantum noisy channels ( http://arxiv.org/abs/2309.01434v1 ) ライセンス: Link先を確認 | Chengjie Zhang, Liangsheng Li, Guodong Lu, Haidong Yuan, Runyao Duan | (参考訳) 従来の量子誤り訂正の取り組みは、エラーのサブセットに対して完全な修正を行うことによって、古典的な誤り訂正スキームを量子状態に拡張すること、あるいはノイズチャネルの入力状態と対応する出力状態の間の忠実度を最大化する回復操作を求めることに焦点を当てていた。
量子エラー事前補償に関する結果はほとんどない。
ここでは、任意の量子ノイズチャネルと所定の目標出力状態に対する誤差補償入力状態を設計する。
手順に従うことで、必要となる入力状態が存在すれば、単一パーティシステムで分析的に得ることができる。
さらに、目標状態と出力状態の間の最大忠実度を有する誤差事前補償入力状態を数値的に取得する半定プログラムも提示する。
数値結果は解析結果と一致する。 Most previous efforts of quantum error correction focused on either extending classical error correction schemes to the quantum regime by performing a perfect correction on a subset of errors, or seeking a recovery operation to maximize the fidelity between a input state and its corresponding output state of a noisy channel. There are few results concerning quantum error pre-compensation. Here we design an error pre-compensated input state for an arbitrary quantum noisy channel and a given target output state. By following a procedure, the required input state, if it exists, can be analytically obtained in single-partite systems. Furthermore, we also present semidefinite programs to numerically obtain the error pre-compensated input states with maximal fidelities between the target state and the output state. The numerical results coincide with the analytical results. | 翻訳日:2023-09-06 19:22:05 公開日:2023-09-04 |
# 検索型生成における大規模言語モデルのベンチマーク Benchmarking Large Language Models in Retrieval-Augmented Generation ( http://arxiv.org/abs/2309.01431v1 ) ライセンス: Link先を確認 | Jiawei Chen, Hongyu Lin, Xianpei Han, Le Sun | (参考訳) Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の幻覚を緩和するための有望なアプローチである。
しかし、既存の研究では、検索強化生成が異なる大言語モデルに与える影響を厳格に評価することはなく、異なるLLMに対するRAGの能力の潜在的なボトルネックを特定することは困難である。
本稿では,大規模言語モデルに対するRetrieval-Augmented Generationの効果を体系的に検討する。
本稿では,RAGに必要な4つの基本能力,雑音の頑健性,否定的拒絶性,情報統合,対実的堅牢性など,異なる大規模言語モデルの性能を解析する。
この目的のために、我々はRGB(Retrieval-Augmented Generation Benchmark)を設立し、RAG評価のための新しいコーパスを英語と中国語の両方で提供する。
RGBは、上記のケースを解決するために必要な基本的な能力に基づいて、ベンチマーク内のインスタンスを4つのテストベッドに分割する。
RGB 上の 6 つの代表 LLM を評価し,RAG を適用する際の現在の LLM の課題を診断する。
評価の結果、LLMはある程度のノイズ堅牢性を示すが、否定的な拒絶、情報統合、偽情報処理といった面では依然としてかなり苦労していることが明らかとなった。
以上の評価結果は、RAGをLCMに効果的に適用するには、まだかなりの道程があることを示している。 Retrieval-Augmented Generation (RAG) is a promising approach for mitigating the hallucination of large language models (LLMs). However, existing research lacks rigorous evaluation of the impact of retrieval-augmented generation on different large language models, which make it challenging to identify the potential bottlenecks in the capabilities of RAG for different LLMs. In this paper, we systematically investigate the impact of Retrieval-Augmented Generation on large language models. We analyze the performance of different large language models in 4 fundamental abilities required for RAG, including noise robustness, negative rejection, information integration, and counterfactual robustness. To this end, we establish Retrieval-Augmented Generation Benchmark (RGB), a new corpus for RAG evaluation in both English and Chinese. RGB divides the instances within the benchmark into 4 separate testbeds based on the aforementioned fundamental abilities required to resolve the case. Then we evaluate 6 representative LLMs on RGB to diagnose the challenges of current LLMs when applying RAG. Evaluation reveals that while LLMs exhibit a certain degree of noise robustness, they still struggle significantly in terms of negative rejection, information integration, and dealing with false information. The aforementioned assessment outcomes indicate that there is still a considerable journey ahead to effectively apply RAG to LLMs. | 翻訳日:2023-09-06 19:21:51 公開日:2023-09-04 |
# DAT++: 変形可能な注意を伴う空間動的視覚変換器 DAT++: Spatially Dynamic Vision Transformer with Deformable Attention ( http://arxiv.org/abs/2309.01430v1 ) ライセンス: Link先を確認 | Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang | (参考訳) トランスフォーマーは様々な視覚タスクにおいて優れたパフォーマンスを示している。
彼らの大きな受容野は、CNNのモデルよりも高い表現力を持つトランスフォーマーモデルを提供する。
それにもかかわらず、単に受容的場を広げることもまた、いくつかの懸念を提起する。
一方、ViTに注意を集中させることは、過剰なメモリと計算コストをもたらし、興味のある領域を超えた非関係な部分の影響を受け得る。
一方、PVTやSwin Transformerで採用されている手作りの注意はデータに依存しず、長距離関係をモデル化する能力を制限する可能性がある。
このジレンマを解決するために、キーと値のペアの位置をデータ依存の方法で適応的に割り当てる、変形可能な新しいマルチヘッドアテンションモジュールを提案する。
このフレキシブル・スキームにより、グローバル・アテンションの表現力を維持しつつ、提案した変形可能なアテンションを関連領域に動的にフォーカスすることができる。
本稿では,視覚認識に効率的かつ効果的な汎用視覚バックボーンであるdeformable attention transformer (dat)を提案する。
さらに拡張バージョンのDAT++を構築します。
DAT++は85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果が得られた。 Transformers have shown superior performance on various vision tasks. Their large receptive field endows Transformer models with higher representation power than their CNN counterparts. Nevertheless, simply enlarging the receptive field also raises several concerns. On the one hand, using dense attention in ViT leads to excessive memory and computational cost, and features can be influenced by irrelevant parts that are beyond the region of interests. On the other hand, the handcrafted attention adopted in PVT or Swin Transformer is data agnostic and may limit the ability to model long-range relations. To solve this dilemma, we propose a novel deformable multi-head attention module, where the positions of key and value pairs in self-attention are adaptively allocated in a data-dependent way. This flexible scheme enables the proposed deformable attention to dynamically focus on relevant regions while maintains the representation power of global attention. On this basis, we present Deformable Attention Transformer (DAT), a general vision backbone efficient and effective for visual recognition. We further build an enhanced version DAT++. Extensive experiments show that our DAT++ achieves state-of-the-art results on various visual recognition benchmarks, with 85.9% ImageNet accuracy, 54.5 and 47.0 MS-COCO instance segmentation mAP, and 51.5 ADE20K semantic segmentation mIoU. | 翻訳日:2023-09-06 19:21:28 公開日:2023-09-04 |
# HRリモートセンシング画像における変化検出のためのセグメントモデルの適用 Adapting Segment Anything Model for Change Detection in HR Remote Sensing Images ( http://arxiv.org/abs/2309.01429v1 ) ライセンス: Link先を確認 | Lei Ding, Kun Zhu, Daifeng Peng, Hao Tang and Haitao Guo | (参考訳) Segment Anything Model (SAM) のような視覚基礎モデル(VFM)は、ゼロショットまたはインタラクティブな視覚内容のセグメンテーションを可能にするため、様々な視覚シーンに迅速に適用することができる。
しかし、多くのリモートセンシング(rs)アプリケーションでの直接の使用は、rs画像の特別な撮像特性のため、しばしば不十分である。
本研究では,高解像度リモートセンシング画像(RSI)の変化検出を改善するために,VFMの強力な視覚認識機能を活用することを目的とする。
我々は、能率的なSAMの変種であるFastSAMの視覚エンコーダを用いて、RSシーンの視覚表現を抽出する。
我々は,FastSAMをRSシーンの特定の基底オブジェクトに適応させるために,タスク指向の変更情報を集約する畳み込み適応器を提案する。
さらに、SAMの特徴に固有の意味表現を活用するために、両時間RSIにおける意味潜在をモデル化するためのタスク非依存の意味学習ブランチを導入する。
SAMCD法は,SOTA法と比較して精度が高く,半教師付きCD法に匹敵する標本効率の学習能力を示す。
私たちの知る限りでは、HR RSIのCDにVFMを適用する最初の作品です。 Vision Foundation Models (VFMs) such as the Segment Anything Model (SAM) allow zero-shot or interactive segmentation of visual contents, thus they are quickly applied in a variety of visual scenes. However, their direct use in many Remote Sensing (RS) applications is often unsatisfactory due to the special imaging characteristics of RS images. In this work, we aim to utilize the strong visual recognition capabilities of VFMs to improve the change detection of high-resolution Remote Sensing Images (RSIs). We employ the visual encoder of FastSAM, an efficient variant of the SAM, to extract visual representations in RS scenes. To adapt FastSAM to focus on some specific ground objects in the RS scenes, we propose a convolutional adaptor to aggregate the task-oriented change information. Moreover, to utilize the semantic representations that are inherent to SAM features, we introduce a task-agnostic semantic learning branch to model the semantic latent in bi-temporal RSIs. The resulting method, SAMCD, obtains superior accuracy compared to the SOTA methods and exhibits a sample-efficient learning ability that is comparable to semi-supervised CD methods. To the best of our knowledge, this is the first work that adapts VFMs for the CD of HR RSIs. | 翻訳日:2023-09-06 19:21:01 公開日:2023-09-04 |
# BadSQA:非侵入的音声品質評価における存在事象をトリガーとして用いるステルスなバックドア攻撃 BadSQA: Stealthy Backdoor Attacks Using Presence Events as Triggers in Non-Intrusive Speech Quality Assessment ( http://arxiv.org/abs/2309.01480v1 ) ライセンス: Link先を確認 | Ying Ren, Kailai Shen, Zhe Ye, Diqun Yan | (参考訳) 非侵入的音声品質評価(NISQA)は,参照音声を必要とせず,音声の平均評価スコア(MOS)を予測する上で大きな注目を集めている。
実用的なnisqaシナリオでは、信頼できないサードパーティリソースは、コスト削減のためにディープニューラルネットワークトレーニング中に使用されることが多い。
しかし、NISQAシステムに対するバックドア攻撃を起動できる特別に設計された信頼できないリソースが、潜在的なセキュリティ脆弱性を導入するだろう。
既存のバックドア攻撃は主に分類タスクに焦点を当てており、回帰タスクであるNISQAに直接適用されない。
本稿では,NISQAタスクに対する新たなバックドア攻撃を提案する。
提案手法の有効性を評価するため、4つのベンチマークデータセットを用いて実験を行い、2つの最先端NISQAモデルを用いた。
その結果,提案するバックドア攻撃は平均攻撃成功率99%,中毒率3%であった。 Non-Intrusive speech quality assessment (NISQA) has gained significant attention for predicting the mean opinion score (MOS) of speech without requiring the reference speech. In practical NISQA scenarios, untrusted third-party resources are often employed during deep neural network training to reduce costs. However, it would introduce a potential security vulnerability as specially designed untrusted resources can launch backdoor attacks against NISQA systems. Existing backdoor attacks primarily focus on classification tasks and are not directly applicable to NISQA which is a regression task. In this paper, we propose a novel backdoor attack on NISQA tasks, leveraging presence events as triggers to achieving highly stealthy attacks. To evaluate the effectiveness of our proposed approach, we conducted experiments on four benchmark datasets and employed two state-of-the-art NISQA models. The results demonstrate that the proposed backdoor attack achieved an average attack success rate of up to 99% with a poisoning rate of only 3%. | 翻訳日:2023-09-06 19:15:10 公開日:2023-09-04 |
# ビジョンランゲージ事前学習モデルのパラメータと計算効率向上学習 Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models ( http://arxiv.org/abs/2309.01479v1 ) ライセンス: Link先を確認 | Qiong Wu, Wei Yu, Yiyi Zhou, Shubin Huang, Xiaoshuai Sun, Rongrong Ji | (参考訳) パラメータや計算の増大に伴い、視覚言語事前訓練(VLP)モデルは下流のタスク適応において不当な支出を示す。
近年の取り組みは,少数のパラメータを更新するだけで,VLPモデルのパラメータ効率のよい転送学習(PETL)に焦点を当てている。
しかしながら、過剰な計算オーバーヘッドはVLPの適用を悩ませている。
本稿では,VLPモデルに対するパラメータと計算効率のよい伝達学習(PCETL)を提案する。
特に、PCETLは、VLPモデルのトレーニング可能なパラメータの数を制限するだけでなく、推論時の計算冗長性を低減し、より効率的な転送を可能にする。
そこで本研究では,新しい動的アーキテクチャスキップ (DAS) アプローチをPCETLに提案する。
VLPモデルの本質的なアーキテクチャを直接最適化する代わりに、DASはまず、強化学習(RL)ベースのプロセスを通じて、下流タスクに対するモジュールの重要性を観察し、得られた報酬に従って、軽量ネットワーク、すなわちアダプタで冗長なモジュールをスキップする。
この場合、VLPモデルは、下流タスクでの推論を高速化しながら、トレーニング可能なパラメータのスケールを適切に維持することができる。
DASを検証するために、VLTとMETERという2つの代表的なVLPモデルに適用し、多数のVLタスクについて広範な実験を行う。
実験結果は、例えば、VQA2.0上でのMETERの-11.97% FLOPsのような計算複雑性の削減におけるDASの大きな利点を示すだけでなく、パラメータスケールと性能の観点から既存のPETL法との競合性も確認している。
ソースコードは付録に書かれています。 With ever increasing parameters and computation, vision-language pre-trained (VLP) models exhibit prohibitive expenditure in downstream task adaption. Recent endeavors mainly focus on parameter efficient transfer learning (PETL) for VLP models by only updating a small number of parameters. However, excessive computational overhead still plagues the application of VLPs. In this paper, we aim at parameter and computation efficient transfer learning (PCETL) for VLP models. In particular, PCETL not only needs to limit the number of trainable parameters in VLP models, but also to reduce the computational redundancy during inference, thus enabling a more efficient transfer. To approach this target, we propose a novel dynamic architecture skipping (DAS) approach towards effective PCETL. Instead of directly optimizing the intrinsic architectures of VLP models, DAS first observes the significances of their modules to downstream tasks via a reinforcement learning (RL) based process, and then skips the redundant ones with lightweight networks, i.e., adapters, according to the obtained rewards. In this case, the VLP model can well maintain the scale of trainable parameters while speeding up its inference on downstream tasks. To validate DAS, we apply it to two representative VLP models, namely ViLT and METER, and conduct extensive experiments on a bunch of VL tasks. The experimental results not only show the great advantages of DAS in reducing computational complexity, e.g. -11.97% FLOPs of METER on VQA2.0, but also confirm its competitiveness against existing PETL methods in terms of parameter scale and performance. Our source code is given in our appendix. | 翻訳日:2023-09-06 19:14:54 公開日:2023-09-04 |
# FinDiff:金融タブラリデータ生成のための拡散モデル FinDiff: Diffusion Models for Financial Tabular Data Generation ( http://arxiv.org/abs/2309.01472v1 ) ライセンス: Link先を確認 | Timur Sattarov, Marco Schreyer, Damian Borth | (参考訳) 規制機関によるファンドホールディングスやデリバティブ・インスツルメンツなどのマイクロデータの共有は、厳密なデータの機密性やプライバシー規制のために、ユニークな課題となっている。
これらの課題は、しばしば学者と実践者が協力研究を効果的に行う能力を妨げる。
生成モデル(特に拡散モデル)の出現は、実世界のデータの基盤となる分布を模倣するデータを合成することを可能にする。
この研究は、経済シナリオモデリング、ストレステスト、不正検出など、さまざまな規制下流タスクのための現実の金融表データを生成するために設計された拡散モデルである「FinDiff」を紹介する。
このモデルは埋め込みエンコーディングを使用して、カテゴリー属性と数値属性の両方からなる混合モダリティファイナンシャルデータをモデル化する。
合成表型財務データの生成におけるFinDiffの性能は、3つの実世界の財務データセット(公開データセットと1つのプロプライエタリデータセットを含む)を使用して最先端のベースラインモデルに対して評価される。
実証的な結果は、FinDiffが高忠実性、プライバシー、実用性を備えた合成表形式の財務データを生成するのに優れていることを示している。 The sharing of microdata, such as fund holdings and derivative instruments, by regulatory institutions presents a unique challenge due to strict data confidentiality and privacy regulations. These challenges often hinder the ability of both academics and practitioners to conduct collaborative research effectively. The emergence of generative models, particularly diffusion models, capable of synthesizing data mimicking the underlying distributions of real-world data presents a compelling solution. This work introduces 'FinDiff', a diffusion model designed to generate real-world financial tabular data for a variety of regulatory downstream tasks, for example economic scenario modeling, stress tests, and fraud detection. The model uses embedding encodings to model mixed modality financial data, comprising both categorical and numeric attributes. The performance of FinDiff in generating synthetic tabular financial data is evaluated against state-of-the-art baseline models using three real-world financial datasets (including two publicly available datasets and one proprietary dataset). Empirical results demonstrate that FinDiff excels in generating synthetic tabular financial data with high fidelity, privacy, and utility. | 翻訳日:2023-09-06 19:14:28 公開日:2023-09-04 |
# detectron2フレームワークを用いた合成繊維ロープの欠陥検出 Defect Detection in Synthetic Fibre Ropes using Detectron2 Framework ( http://arxiv.org/abs/2309.01469v1 ) ライセンス: Link先を確認 | Anju Rani and Daniel O. Arroyo and Petar Durdevic | (参考訳) 最新の技術を用いた繊維ロープは、軽量・高引張強度のため、沖合産業にとって鋼ロープの代替として魅力的である。
同時に、システム全体の適切な機能と安全性を確保するために、これらのロープの頻繁な検査が不可欠である。
条件監視(CM)アプリケーションにおける深層学習(DL)モデルの開発は、合成繊維ロープ(SFR)の欠陥検出において、よりシンプルで効果的なアプローチを提供する。
本稿では,欠陥検出とインスタンスセグメンテーションのための最先端ライブラリである Detectron2 の性能について検討する。
Mask R-CNNアーキテクチャを持つ Detectron2 は、SFRの欠陥のセグメント化に使用される。
種々のバックボーン構成を持つマスクR-CNNは,SFRの7つの損傷クラス(ループハイ,ループメディア,ループロー,圧縮,コアアウト,摩耗,正常)を含む1,803個の高次元画像からなる実験的なデータセット上で,訓練および試験を行った。
本研究では, 検知器2の機能を活用し, SFRの欠陥を自動かつ効率的に検出し, 検査工程の高度化, 繊維ロープの安全性確保を図ることを目的とする。 Fibre ropes with the latest technology have emerged as an appealing alternative to steel ropes for offshore industries due to their lightweight and high tensile strength. At the same time, frequent inspection of these ropes is essential to ensure the proper functioning and safety of the entire system. The development of deep learning (DL) models in condition monitoring (CM) applications offers a simpler and more effective approach for defect detection in synthetic fibre ropes (SFRs). The present paper investigates the performance of Detectron2, a state-of-the-art library for defect detection and instance segmentation. Detectron2 with Mask R-CNN architecture is used for segmenting defects in SFRs. Mask R-CNN with various backbone configurations has been trained and tested on an experimentally obtained dataset comprising 1,803 high-dimensional images containing seven damage classes (loop high, loop medium, loop low, compression, core out, abrasion, and normal respectively) for SFRs. By leveraging the capabilities of Detectron2, this study aims to develop an automated and efficient method for detecting defects in SFRs, enhancing the inspection process, and ensuring the safety of the fibre ropes. | 翻訳日:2023-09-06 19:14:09 公開日:2023-09-04 |
# 強化学習における特徴発見のための報酬一貫性の活用 Leveraging Reward Consistency for Interpretable Feature Discovery in Reinforcement Learning ( http://arxiv.org/abs/2309.01458v1 ) ライセンス: Link先を確認 | Qisen Yang, Huanqian Wang, Mukun Tong, Wenjie Shi, Gao Huang, Shiji Song | (参考訳) 深層強化学習(rl)のブラックボックスの性質は、現実世界の応用を妨げる。
そのため,近年,rlエージェントの解釈と解説が活発に研究されている。
ポストホックな説明のための既存の方法は通常、視覚に基づくRLエージェントの理解を容易にするためにアクションマッチング原理を採用する。
本稿では、一般的なアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じる。
異なるDNNのアウトプットが同じ報酬または同じアウトプットから異なる報酬をもたらす場合、これは無関係または誤った特徴属性をもたらす可能性がある。
そこで本研究では,RLエージェントの主目的である報酬を,RLエージェントを解釈するための本質的な目的として考察する。
解釈可能な特徴発見における報酬の整合性を確保するため,新たなフレームワーク(RL-in-RL,RL-in-RL)を提案する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
その結果,報奨(あるいは返却)の一貫性を維持し,高品質な機能帰属を実現することができた。
さらに、一連の分析実験により、行動整合原理の限界の仮定が検証される。 The black-box nature of deep reinforcement learning (RL) hinders them from real-world applications. Therefore, interpreting and explaining RL agents have been active research topics in recent years. Existing methods for post-hoc explanations usually adopt the action matching principle to enable an easy understanding of vision-based RL agents. In this paper, it is argued that the commonly used action matching principle is more like an explanation of deep neural networks (DNNs) than the interpretation of RL agents. It may lead to irrelevant or misplaced feature attribution when different DNNs' outputs lead to the same rewards or different rewards result from the same outputs. Therefore, we propose to consider rewards, the essential objective of RL agents, as the essential objective of interpreting RL agents as well. To ensure reward consistency during interpretable feature discovery, a novel framework (RL interpreting RL, denoted as RL-in-RL) is proposed to solve the gradient disconnection from actions to rewards. We verify and evaluate our method on the Atari 2600 games as well as Duckietown, a challenging self-driving car simulator environment. The results show that our method manages to keep reward (or return) consistency and achieves high-quality feature attribution. Further, a series of analytical experiments validate our assumption of the action matching principle's limitations. | 翻訳日:2023-09-06 19:13:48 公開日:2023-09-04 |
# 時系列分類における相性説明の一貫性とロバスト性について On the Consistency and Robustness of Saliency Explanations for Time Series Classification ( http://arxiv.org/abs/2309.01457v1 ) ライセンス: Link先を確認 | Chiara Balestra, Bin Li, Emmanuel M\"uller | (参考訳) 解釈可能な機械学習と説明可能な人工知能は多くの応用において不可欠である。
解釈可能性とモデル性能のトレードオフは、内在的かつモデル非依存な解釈方法を開発するための特性である。
モデル説明アプローチは視覚領域と自然言語領域で大きな成功を収めているが、時系列の説明は依然として困難である。
特徴領域の複雑なパターンは、追加の時間次元と相まって、効率的な解釈を妨げる。
時系列ウィンドウを画像として解釈するために、サリエンシーマップが適用されている。
しかし、それらは逐次データのために自然に設計されたものではなく、様々な問題に苦しむ。
本稿では,時系列の特徴と時間的属性に対するサリエンシマップの一貫性とロバスト性を広く分析する。
具体的には,時系列分類タスクにおける摂動モデルと勾配モデルの両方からの塩分説明について検討する。
5つの実世界のデータセットに関する実験結果は、いずれもある程度の一貫性と堅牢性に欠けることを示している。
欠点のある塩分説明モデルに注意を向けることで,時系列分類の一貫性とロバストな説明を開発する動機付けを行う。 Interpretable machine learning and explainable artificial intelligence have become essential in many applications. The trade-off between interpretability and model performance is the traitor to developing intrinsic and model-agnostic interpretation methods. Although model explanation approaches have achieved significant success in vision and natural language domains, explaining time series remains challenging. The complex pattern in the feature domain, coupled with the additional temporal dimension, hinders efficient interpretation. Saliency maps have been applied to interpret time series windows as images. However, they are not naturally designed for sequential data, thus suffering various issues. This paper extensively analyzes the consistency and robustness of saliency maps for time series features and temporal attribution. Specifically, we examine saliency explanations from both perturbation-based and gradient-based explanation models in a time series classification task. Our experimental results on five real-world datasets show that they all lack consistent and robust performances to some extent. By drawing attention to the flawed saliency explanation models, we motivate to develop consistent and robust explanations for time series classification. | 翻訳日:2023-09-06 19:13:27 公開日:2023-09-04 |
# コードユースケースとしてのLLMとインフラストラクチャ LLM and Infrastructure as a Code use case ( http://arxiv.org/abs/2309.01456v1 ) ライセンス: Link先を確認 | Thibault Chanus (ENS Rennes), Michael Aubertin | (参考訳) クラウドコンピューティングとリーンマネジメントやアジャイルといったマネジメント方法論の進化は、システムの構築とメンテナンスの両方のアプローチに大きな変革をもたらします。
これらのプラクティスは“DevOps”という用語に包含されている。
この情報システムやアプリケーションへの記述的アプローチは、コンポーネントの構成とともに、システム管理タスクを自動化する特別なエンジンと組み合わせた記述言語の開発を必要としている。
その中で、Ansible(エンジン)とYAML(記述言語)という2つのタンデムが、Terraformとの大きな競合相手として、市場でもっとも一般的なツールとして際立っている。
現在の文書では、人間の記述をコードに変換するためにジェネレーティブLLM(Language Models)を利用して、Ansible YAMLロールとプレイブックの生成と管理のソリューションについて調査を行っている。
私たちの取り組みは、妥当な方向を特定し、潜在的な産業応用を概説することに集中しています。
注: この実験のために、我々はAnsible Lightspeedの使用に反対しました。
これは、IBM Watsonモデルに依存しているためです。
この素晴らしい技術に関する包括的な情報は、パートナーのRedHatのWebサイト、https://www.redhat.com/en/about/press-releases/red-hat-introduces-ansible-lightspeed-ai-driven-it-au tomationで直接見ることができる。 Cloud computing and the evolution of management methodologies such as Lean Management or Agile entail a profound transformation in both system construction and maintenance approaches. These practices are encompassed within the term "DevOps." This descriptive approach to an information system or application, alongside the configuration of its constituent components, has necessitated the development of descriptive languages paired with specialized engines for automating systems administration tasks. Among these, the tandem of Ansible (engine) and YAML (descriptive language) stands out as the two most prevalent tools in the market, facing notable competition mainly from Terraform. The current document presents an inquiry into a solution for generating and managing Ansible YAML roles and playbooks, utilizing Generative LLMs (Language Models) to translate human descriptions into code. Our efforts are focused on identifying plausible directions and outlining the potential industrial applications. Note: For the purpose of this experiment, we have opted against the use of Ansible Lightspeed. This is due to its reliance on an IBM Watson model, for which we have not found any publicly available references. Comprehensive information regarding this remarkable technology can be found directly on our partner RedHat's website, https://www.redhat.com/en/about/press-releases/red-hat-introduces-ansible-lightspeed-ai-driven-it-au tomation | 翻訳日:2023-09-06 19:13:12 公開日:2023-09-04 |
# NumHG:Numan-Focused Headline Generationのためのデータセット NumHG: A Dataset for Number-Focused Headline Generation ( http://arxiv.org/abs/2309.01455v1 ) ライセンス: Link先を確認 | Jian-Tao Huang, Chung-Chi Chen, Hen-Hsen Huang, Hsin-Hsi Chen | (参考訳) 要約要約における重要なタスクである見出し生成は、全文を簡潔で簡潔な一行のテキストに集約することを目指している。
特に、現代のエンコーダ・デコーダモデルはROUGEメートル法に基づいて排他的だが、見出し中の数値の正確な生成に関しては、しばしば混乱する。
正確な数値生成のための細かなアノテーションを提供するデータセットの欠如を、大きな障害と捉えています。
そこで本研究では,新たなデータセットであるNumHGを導入し,詳細な調査のために27,000以上の注釈付き数値リッチニュース記事を提供する。
さらに,従来の見出し生成タスクから,数値的精度,合理性,可読性の観点から,人間の評価を用いて5つの優れたモデルを評価する。
本研究は,数値的精度の向上の必要性を明らかにするとともに,NumHGデータセットが数量中心の見出し生成の進展を加速し,数中心のテキスト生成におけるさらなる議論を促進する可能性を示す。 Headline generation, a key task in abstractive summarization, strives to condense a full-length article into a succinct, single line of text. Notably, while contemporary encoder-decoder models excel based on the ROUGE metric, they often falter when it comes to the precise generation of numerals in headlines. We identify the lack of datasets providing fine-grained annotations for accurate numeral generation as a major roadblock. To address this, we introduce a new dataset, the NumHG, and provide over 27,000 annotated numeral-rich news articles for detailed investigation. Further, we evaluate five well-performing models from previous headline generation tasks using human evaluation in terms of numerical accuracy, reasonableness, and readability. Our study reveals a need for improvement in numerical accuracy, demonstrating the potential of the NumHG dataset to drive progress in number-focused headline generation and stimulate further discussions in numeral-focused text generation. | 翻訳日:2023-09-06 19:12:51 公開日:2023-09-04 |
# 拡散モデルによるマルコフ連鎖モンテカルロサンプリングの高速化 Accelerating Markov Chain Monte Carlo sampling with diffusion models ( http://arxiv.org/abs/2309.01454v1 ) ライセンス: Link先を確認 | N. T. Hunt-Smith, W. Melnitchouk, F. Ringer, N. Sato, A. W Thomas, M. J. White | (参考訳) 物理モデルの大域的適合は、高次元および/または多様後続関数を探索するための効率的な方法を必要とする。
本研究では,metropolis-hastingsアルゴリズムとグローバルサンプルを近似して描画可能な拡散モデルとを組み合わせることで,マルコフ連鎖モンテカルロサンプリングを高速化する新しい手法を提案する。
画像合成の文脈における拡散モデルについて概観し、低次元データアレイに適した流線形拡散モデルを提供する。
そこで我々は,MCMC実行中に発生するサンプルに基づいて定期的に訓練された拡散モデルから得られた局所的提案とグローバルな提案とを組み合わせたメトロポリス・ハスティングスアルゴリズムを提案する。
本手法は,いくつかの解析関数にまたがるベイズ後流の正確な表現を得るのに必要な可能性評価の数を著しく削減し,パートン分布関数の大域的解析に基づく物理的例を導出する。
提案手法は他のMCMC手法と拡張可能であり,本手法を正規化フローに基づく類似手法と比較した。
コード実装はhttps://github.com/NickHunt-Smith/MCMC-diffusionで見ることができる。 Global fits of physics models require efficient methods for exploring high-dimensional and/or multimodal posterior functions. We introduce a novel method for accelerating Markov Chain Monte Carlo (MCMC) sampling by pairing a Metropolis-Hastings algorithm with a diffusion model that can draw global samples with the aim of approximating the posterior. We briefly review diffusion models in the context of image synthesis before providing a streamlined diffusion model tailored towards low-dimensional data arrays. We then present our adapted Metropolis-Hastings algorithm which combines local proposals with global proposals taken from a diffusion model that is regularly trained on the samples produced during the MCMC run. Our approach leads to a significant reduction in the number of likelihood evaluations required to obtain an accurate representation of the Bayesian posterior across several analytic functions, as well as for a physical example based on a global analysis of parton distribution functions. Our method is extensible to other MCMC techniques, and we briefly compare our method to similar approaches based on normalizing flows. A code implementation can be found at https://github.com/NickHunt-Smith/MCMC-diffusion. | 翻訳日:2023-09-06 19:12:35 公開日:2023-09-04 |
# 対話型グラフ畳み込みフィルタリング Interactive Graph Convolutional Filtering ( http://arxiv.org/abs/2309.01453v1 ) ライセンス: Link先を確認 | Jin Zhang, Defu Lian, Hong Xie, Yawen Li, Enhong Chen | (参考訳) インタラクティブリコメンデーションシステム(irs)は、パーソナライズされた記事レコメンデーション、ソーシャルメディア、オンライン広告など、さまざまなドメインでますます使われている。
しかし、irsは、限定的な観察の下で、特に対話的協調フィルタリングの文脈において、正確な推奨を提供する上で大きな課題に直面している。
これらの問題は、コールドスタート問題とデータスポーサリティ問題によって悪化する。
既存のMulti-Armed Bandit手法は、慎重に設計された探索戦略にもかかわらず、対話データがないため、初期の段階で満足な結果を提供するのに苦労することが多い。
さらに、これらの手法は非線形モデルに適用すると計算的に難解であり、適用性が制限される。
これらの課題に対処するために,対話型グラフ畳み込みフィルタリングモデルを提案する。
提案手法は,ユーザとアイテム間の協調フィルタリング性能を向上させるため,協調フィルタリングをグラフモデルに拡張する。
非線形モデルによる計算ハードルを克服するために,変分推論手法を取り入れた。
さらに,ベイジアンメタラーニング手法を用いて,コールドスタート問題に効果的に対処し,提案手法の理論的後悔境界を導出し,堅牢な性能保証を実現する。
3つの実世界のデータセットに関する広範囲な実験結果が本手法を検証し,既存のベースラインよりも優れていることを示す。 Interactive Recommender Systems (IRS) have been increasingly used in various domains, including personalized article recommendation, social media, and online advertising. However, IRS faces significant challenges in providing accurate recommendations under limited observations, especially in the context of interactive collaborative filtering. These problems are exacerbated by the cold start problem and data sparsity problem. Existing Multi-Armed Bandit methods, despite their carefully designed exploration strategies, often struggle to provide satisfactory results in the early stages due to the lack of interaction data. Furthermore, these methods are computationally intractable when applied to non-linear models, limiting their applicability. To address these challenges, we propose a novel method, the Interactive Graph Convolutional Filtering model. Our proposed method extends interactive collaborative filtering into the graph model to enhance the performance of collaborative filtering between users and items. We incorporate variational inference techniques to overcome the computational hurdles posed by non-linear models. Furthermore, we employ Bayesian meta-learning methods to effectively address the cold-start problem and derive theoretical regret bounds for our proposed method, ensuring a robust performance guarantee. Extensive experimental results on three real-world datasets validate our method and demonstrate its superiority over existing baselines. | 翻訳日:2023-09-06 19:12:03 公開日:2023-09-04 |
# MultiWay-Adapater:スケーラブルな画像テキスト検索のための大規模マルチモーダルモデルの適用 MultiWay-Adapater: Adapting large-scale multi-modal models for scalable image-text retrieval ( http://arxiv.org/abs/2309.01516v1 ) ライセンス: Link先を確認 | Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa | (参考訳) LMM(Large Multi-Modal Models)のサイズが一貫して大きくなるにつれて、これらの事前学習されたモデルの特殊タスクへの適応は、計算的かつメモリ集約的な課題となっている。
従来の微調整手法では、新しいタスクごとに分離された徹底的な修正が必要であり、モデルの汎用性を制限する。
さらに、現在の効率的な適応手法は、新しいタスクの知識抽出にのみ焦点をあてて、しばしばモダリティアライメントを見落としている。
そこで本稿では,モダリティアライメントを深めるために,'alignment enhancer'を組み込んだ革新的なフレームワークであるmultiway-adapterを紹介し,事前学習パラメータをチューニングせずに高い転送性を実現する。
本手法では, BEiT-3 モデルを用いて, LMM に1.25 % 未満の追加パラメータを付加する。
これにより、完全な微調整モデルと比較してゼロショット画像テキスト検索性能が向上し、57\%の微調整時間が短縮される。
提案手法は, LMMの資源効率, 有効適応経路を提供し, 適用範囲を拡大する。
ソースコードは: \url{https://github.com/longkukuhi/MultiWay-Adapter} で公開されている。 As the size of Large Multi-Modal Models (LMMs) increases consistently, the adaptation of these pre-trained models to specialized tasks has become a computationally and memory-intensive challenge. Traditional fine-tuning methods require isolated, exhaustive retuning for each new task, limiting the models' versatility. Moreover, current efficient adaptation techniques often overlook modality alignment, focusing only on the knowledge extraction of new tasks. To tackle these issues, we introduce Multiway-Adapter, an innovative framework incorporating an 'Alignment Enhancer' to deepen modality alignment, enabling high transferability without tuning pre-trained parameters. Our method adds fewer than 1.25\% of additional parameters to LMMs, exemplified by the BEiT-3 model in our study. This leads to superior zero-shot image-text retrieval performance compared to fully fine-tuned models, while achieving up to a 57\% reduction in fine-tuning time. Our approach offers a resource-efficient and effective adaptation pathway for LMMs, broadening their applicability. The source code is publicly available at: \url{https://github.com/longkukuhi/MultiWay-Adapter}. | 翻訳日:2023-09-06 19:04:36 公開日:2023-09-04 |
# 正確なクラスタ化フェデレーション学習のためのフェデレーションcINNクラスタリング Federated cINN Clustering for Accurate Clustered Federated Learning ( http://arxiv.org/abs/2309.01515v1 ) ライセンス: Link先を確認 | Yuhao Zhou, Minjia Shi, Yuxin Tian, Yuanxi Li, Qing Ye and Jiancheng Lv | (参考訳) 連合学習(federated learning, ffl)は,プライバシを保全する分散機械学習に対する革新的なアプローチを示し,大規模なクラウドインテリジェンスを実現する。
しかし、多様なクライアントグループがデータの不均一性や異なるタスクのために異なる目的を持っているクラウドインテリジェンスとflを協調させると、大きな課題が発生する。
そこで本研究では,異なるグループにロバストにクライアントをクラスタリングし,データの不均一性を持つクライアント間の相互干渉を回避し,グローバルモデルの性能を向上させるための連合型cinnクラスタリングアルゴリズム(fcca)を提案する。
具体的には、FCCAはグローバルエンコーダを使用して、各クライアントのプライベートデータを多変量ガウス分布に変換する。
次に、最大推定によって符号化された潜在特徴を学習するために生成モデルを使用し、最適化を容易化し、モード崩壊を避ける。
最後に、中央サーバは収束したローカルモデルを収集し、クライアント間の類似性を近似し、異なるクラスタに分割する。
FCCAが他の最先端のクラスタ化されたフェデレーション学習アルゴリズムよりも優れており、様々なモデルやデータセットで評価されている。
これらの結果から,本手法は実世界のフェデレーション学習タスクの効率と正確性を高める可能性が示唆された。 Federated Learning (FL) presents an innovative approach to privacy-preserving distributed machine learning and enables efficient crowd intelligence on a large scale. However, a significant challenge arises when coordinating FL with crowd intelligence which diverse client groups possess disparate objectives due to data heterogeneity or distinct tasks. To address this challenge, we propose the Federated cINN Clustering Algorithm (FCCA) to robustly cluster clients into different groups, avoiding mutual interference between clients with data heterogeneity, and thereby enhancing the performance of the global model. Specifically, FCCA utilizes a global encoder to transform each client's private data into multivariate Gaussian distributions. It then employs a generative model to learn encoded latent features through maximum likelihood estimation, which eases optimization and avoids mode collapse. Finally, the central server collects converged local models to approximate similarities between clients and thus partition them into distinct clusters. Extensive experimental results demonstrate FCCA's superiority over other state-of-the-art clustered federated learning algorithms, evaluated on various models and datasets. These results suggest that our approach has substantial potential to enhance the efficiency and accuracy of real-world federated learning tasks. | 翻訳日:2023-09-06 19:04:15 公開日:2023-09-04 |
# rgi-net: 1次エコーのない部屋インパルス応答からの3次元室内形状推定 RGI-Net: 3D Room Geometry Inference from Room Impulse Responses in the Absence of First-order Echoes ( http://arxiv.org/abs/2309.01513v1 ) ライセンス: Link先を確認 | Inmo Yeon and Jung-Woo Choi | (参考訳) 室内形状はリアルな3Dオーディオレンダリングを実装する上で重要な事前情報である。
このため, 室内インパルス応答における到着時刻(TOA)や到着時刻差(TDOA)情報を利用して, 様々な室内形状推定法(RGI)が開発されている。
しかし,従来のrgi手法では,凸室形状,壁面の数,一階反射の視認性など,いくつかの仮定がなされている。
本研究では,上記の仮定を使わずに部屋のジオメトリを推定できるディープニューラルネットワーク(DNN)RGI-Netを導入する。
RGI-Netは、室内インパルス応答(RIR)における高次反射の複雑な関係を学習し、利用することにより、RIRに不凸や一階反射が欠落している場合でも、室内形状を推定することができる。
このネットワークは、円形マイクアレイと1つのスピーカを備えた小型オーディオ装置からRIRを計測し、実用性を大幅に向上させる。
RGI-Netは、壁の存在確率を別々に評価する評価ネットワークを含んでおり、壁の数について事前の知識なしに幾何学的推論が可能である。 Room geometry is important prior information for implementing realistic 3D audio rendering. For this reason, various room geometry inference (RGI) methods have been developed by utilizing the time of arrival (TOA) or time difference of arrival (TDOA) information in room impulse responses. However, the conventional RGI technique poses several assumptions, such as convex room shapes, the number of walls known in priori, and the visibility of first-order reflections. In this work, we introduce the deep neural network (DNN), RGI-Net, which can estimate room geometries without the aforementioned assumptions. RGI-Net learns and exploits complex relationships between high-order reflections in room impulse responses (RIRs) and, thus, can estimate room shapes even when the shape is non-convex or first-order reflections are missing in the RIRs. The network takes RIRs measured from a compact audio device equipped with a circular microphone array and a single loudspeaker, which greatly improves its practical applicability. RGI-Net includes the evaluation network that separately evaluates the presence probability of walls, so the geometry inference is possible without prior knowledge of the number of walls. | 翻訳日:2023-09-06 19:03:51 公開日:2023-09-04 |
# ニューラルベクトル場:コードブックとゼロクルル正則化による距離ベクトル場一般化 Neural Vector Fields: Generalizing Distance Vector Fields by Codebooks and Zero-Curl Regularization ( http://arxiv.org/abs/2309.01512v1 ) ライセンス: Link先を確認 | Xianghui Yang, Guosheng Lin, Zhenghao Chen, Luping Zhou | (参考訳) 最近のニューラルネットワークに基づく表面再構成は、大まかに2つのカテゴリに分けられる: 1つのワープテンプレートが明示的に、もう1つは暗黙的に3D表面を表す。
両者の利点を享受するために,メッシュを操作するための明示的な学習プロセスと暗黙の符号なし距離関数(UDF)表現を採用し,解像度とトポロジーの障壁を断ち切る新しい3D表現であるNeural Vector Fields(NVF)を提案する。
これは、既存のudfベースの手法のように方向場を得るためにネットワークの微分に頼るのではなく、表面クエリからの変位を直接予測し、形状をベクトル場としてモデル化することで達成される。
この方法では, 距離場と方向場の両方をエンコードし, 方向場の計算は微分自由であり, 非自明な表面抽出ステップを回避できる。
さらに, NVFをベースとした2種類の形状コードブック, \ie, NVFs (Lite or Ultra) を組み込むことにより, クロスオブジェクトを符号化することで, カテゴリ間再構築を促進することを提案する。
さらに,NVFのゼロカール特性の解析に基づく新たな正規化を提案し,NVF(ultra)の完全微分可能なフレームワークを通じてこれを実装した。
本研究では, 水密と非水密の形状, カテゴリー非依存の再構成, カテゴリー固有の再構築, クロスドメインの再構築を含む4つの表面再構成シナリオにおいて, 両方のnvfを評価した。 Recent neural networks based surface reconstruction can be roughly divided into two categories, one warping templates explicitly and the other representing 3D surfaces implicitly. To enjoy the advantages of both, we propose a novel 3D representation, Neural Vector Fields (NVF), which adopts the explicit learning process to manipulate meshes and implicit unsigned distance function (UDF) representation to break the barriers in resolution and topology. This is achieved by directly predicting the displacements from surface queries and modeling shapes as Vector Fields, rather than relying on network differentiation to obtain direction fields as most existing UDF-based methods do. In this way, our approach is capable of encoding both the distance and the direction fields so that the calculation of direction fields is differentiation-free, circumventing the non-trivial surface extraction step. Furthermore, building upon NVFs, we propose to incorporate two types of shape codebooks, \ie, NVFs (Lite or Ultra), to promote cross-category reconstruction through encoding cross-object priors. Moreover, we propose a new regularization based on analyzing the zero-curl property of NVFs, and implement this through the fully differentiable framework of our NVF (ultra). We evaluate both NVFs on four surface reconstruction scenarios, including watertight vs non-watertight shapes, category-agnostic reconstruction vs category-unseen reconstruction, category-specific, and cross-domain reconstruction. | 翻訳日:2023-09-06 19:03:29 公開日:2023-09-04 |
# 4ビット状態のメモリ効率最適化 Memory Efficient Optimizers with 4-bit States ( http://arxiv.org/abs/2309.01507v1 ) ライセンス: Link先を確認 | Bingrui Li, Jianfei Chen, Jun Zhu | (参考訳) 最適化状態は、ニューラルネットワークをトレーニングするための主要なメモリ消費源であり、与えられたメモリ予算内で最大のトレーニング可能なモデルを制限する。
32ビット浮動小数点から低ビット幅へのオプティマイザ状態の圧縮は、トレーニングメモリフットプリントの削減を約束している。
本研究では,第1次および第2次運動量の詳細な実験解析により,オプティマイザ状態のビット幅を4ビットまで押し下げる。
具体的には、運動量には複雑な外れ値パターンがあり、現在のブロックワイズ量子化は正確に近似できない。
ブロックサイズを小さくし,列情報と列情報の両方を用いて量子化を改善することを提案する。
さらに、二階運動量を量子化するゼロ点問題を特定し、これをゼロ点を除外する線形量子化器で解く。
4ビットオプティマイザは,自然言語理解,機械翻訳,画像分類,命令チューニングなど,さまざまなベンチマークで評価されている。
すべてのタスクにおいて、最適化者は、より優れたメモリ効率を享受しながら、完全な精度で同等の精度を達成できます。 Optimizer states are a major source of memory consumption for training neural networks, limiting the maximum trainable model within given memory budget. Compressing the optimizer states from 32-bit floating points to lower bitwidth is promising to reduce the training memory footprint, while the current lowest achievable bitwidth is 8-bit. In this work, we push optimizer states bitwidth down to 4-bit through a detailed empirical analysis of first and second order momentums. Specifically, we find that momentums have complicated outlier patterns, that current block-wise quantization cannot accurately approximate. We use a smaller block size and propose to utilize both row-wise and column-wise information for better quantization. We further identify a zero point problem of quantizing the second-order momentum, and solve this problem with a linear quantizer that excludes the zero point. Our 4-bit optimizer is evaluated on a wide variety of benchmarks including natural language understanding, machine translation, image classification, and instruction tuning. On all the tasks our optimizers can achieve comparable accuracy with their full-precision counterparts, while enjoying better memory efficiency. | 翻訳日:2023-09-06 19:02:56 公開日:2023-09-04 |
# 双モジュラーベクトルを用いた完全テンソルの構成 Construction of perfect tensors using biunimodular vectors ( http://arxiv.org/abs/2309.01504v1 ) ライセンス: Link先を確認 | Suhail Ahmad Rather | (参考訳) デュアルユニタリゲート(英: Dual unitary gate)は、近年量子多体物理学や量子情報において広く研究されている、非局所的な2量子ユニタリゲートである。
双対ユニタリゲートの特別な部分集合は階数 4 の完全テンソルから成り、これは絶対極大絡み状態 (AME) と呼ばれる高交叉多部純状態と同値である。
本研究は, 2つのユニタリゲートの数値的, 解析的構成と, 特別な極大絡み合い基底において対角的となる完全テンソルについて述べる。
我々の構成の主要な要素は、離散フーリエ変換も一様である位相値(一様)の2次元アレイである。
我々はいくつかの局所ヒルベルト空間、特に次元 6 において完全テンソルを得る。
局所次元6の完全テンソルは、AME(4,6)と表記される4キューディットのAME状態と等価であり、そのような状態は誤り訂正符号とグラフ状態に基づいて既存のAME状態の構成から構築することはできない。
AME(4,6)状態の存在は量子情報におけるよく知られたオープンな問題リストに現れ、Physでは肯定的に解決された。
Rev. Lett.
128 080507 (2022).
局所次元6の完全テンソルを明示的に構成し、制御されたユニタリゲートを計算ベースで記述することで、量子回路の実装に有効である。 Dual unitary gates are highly non-local two-qudit unitary gates that have been studied extensively in quantum many-body physics and quantum information in the recent past. A special subset of dual unitary gates consists of rank-four perfect tensors, which are equivalent to highly entangled multipartite pure states called absolutely maximally entangled (AME) states. In this work, numerical and analytical constructions of dual unitary gates and perfect tensors that are diagonal in a special maximally entangled basis are presented. The main ingredient in our construction is a phase-valued (unimodular) two-dimensional array whose discrete Fourier transform is also unimodular. We obtain perfect tensors for several local Hilbert space dimensions, particularly, in dimension six. A perfect tensor in local dimension six is equivalent to an AME state of four qudits, denoted as AME(4,6), and such a state cannot be constructed from existing constructions of AME states based on error-correcting codes and graph states. The existence of AME(4,6) states featured in well-known open problem lists in quantum information, and was settled positively in Phys. Rev. Lett. 128 080507 (2022). We provide an explicit construction of perfect tensors in local dimension six that can be written in terms of controlled unitary gates in the computational basis, making them amenable for quantum circuit implementations. | 翻訳日:2023-09-06 19:02:36 公開日:2023-09-04 |
# グラフ上での自己教師型学習のためのレイヤーワイズトレーニング Layer-wise training for self-supervised learning on graphs ( http://arxiv.org/abs/2309.01503v1 ) ライセンス: Link先を確認 | Oscar Pina and Ver\'onica Vilaplana | (参考訳) 大きなグラフ上のグラフニューラルネットワーク(GNN)のエンドツーエンドトレーニングは、いくつかのメモリと計算上の課題を示し、深さがメモリと空間の複雑さを指数関数的に増加させるにつれて、アプリケーションは浅いアーキテクチャに制限される。
本稿では,GNN層を自己教師型で学習するアルゴリズムであるLayer-wise Regularized Graph Infomaxを提案する。
我々は,gnnが行った特徴伝達と特徴変換を分離してノード表現を学習し,将来の入力予測に基づいて損失関数を導出する。
我々は,このアルゴリズムをインダクティブな大規模グラフで評価し,他のエンド・ツー・エンド手法と同等の性能を示し,効率を大幅に向上させ,単一のデバイスでより洗練されたモデルのトレーニングを可能にする。
また,このアルゴリズムは表現の過剰な移動を避けること,深層gnnのもう一つの共通課題である。 End-to-end training of graph neural networks (GNN) on large graphs presents several memory and computational challenges, and limits the application to shallow architectures as depth exponentially increases the memory and space complexities. In this manuscript, we propose Layer-wise Regularized Graph Infomax, an algorithm to train GNNs layer by layer in a self-supervised manner. We decouple the feature propagation and feature transformation carried out by GNNs to learn node representations in order to derive a loss function based on the prediction of future inputs. We evaluate the algorithm in inductive large graphs and show similar performance to other end to end methods and a substantially increased efficiency, which enables the training of more sophisticated models in one single device. We also show that our algorithm avoids the oversmoothing of the representations, another common challenge of deep GNNs. | 翻訳日:2023-09-06 19:02:08 公開日:2023-09-04 |
# 医療画像用ニューラルネットワークを用いた分布外検出におけるマハラノビス距離の利用について On the use of Mahalanobis distance for out-of-distribution detection with neural networks for medical imaging ( http://arxiv.org/abs/2309.01488v1 ) ライセンス: Link先を確認 | Harry Anthony and Konstantinos Kamnitsas | (参考訳) 医学的応用におけるニューラルネットワークの実装は、信頼性の低い予測を防止するために、入力データがトレーニングデータと著しく異なる場合にネットワークが検出する能力を必要とする。
コミュニティは、マハラノビス距離のような距離ベースのアプローチが潜在性を示す、分布外検出(ood)のいくつかの方法を開発した。
本稿では,OODパターンの検出にMahalanobis距離を適用するニューラルネットワークの最適層(層の組み合わせ)が存在するという,コミュニティの理解に挑戦する。
合成人工物を用いてOODパターンをエミュレートし, マハラノビス距離変化をOODパターンのタイプに適用する最適層を示す。
また,このOOD検出器をネットワークの深さの異なる複数の検出器に分離することで,OODパターンを検出できるロバスト性を向上できることを示す。
これらの知見は、現実世界のOODタスク、サポートデバイスのないCheXpert胸部X線でのトレーニングモデル、不明なペースメーカーによるスキャン(この研究のために手動でCheXpertの50%をラベル付けした)、およびOODケースとして見えない性差を用いて検証された。
その結果,マハラノビス距離を用いたOOD検出のベストプラクティスが得られた。
手動でアノテートされたペースメーカーラベルとプロジェクトのコードは、https://github.com/HarryAnthony/Mahalanobis-OOD-detectionで入手できる。 Implementing neural networks for clinical use in medical applications necessitates the ability for the network to detect when input data differs significantly from the training data, with the aim of preventing unreliable predictions. The community has developed several methods for out-of-distribution (OOD) detection, within which distance-based approaches - such as Mahalanobis distance - have shown potential. This paper challenges the prevailing community understanding that there is an optimal layer, or combination of layers, of a neural network for applying Mahalanobis distance for detection of any OOD pattern. Using synthetic artefacts to emulate OOD patterns, this paper shows the optimum layer to apply Mahalanobis distance changes with the type of OOD pattern, showing there is no one-fits-all solution. This paper also shows that separating this OOD detector into multiple detectors at different depths of the network can enhance the robustness for detecting different OOD patterns. These insights were validated on real-world OOD tasks, training models on CheXpert chest X-rays with no support devices, then using scans with unseen pacemakers (we manually labelled 50% of CheXpert for this research) and unseen sex as OOD cases. The results inform best-practices for the use of Mahalanobis distance for OOD detection. The manually annotated pacemaker labels and the project's code are available at: https://github.com/HarryAnthony/Mahalanobis-OOD-detection. | 翻訳日:2023-09-06 19:01:49 公開日:2023-09-04 |
# GenSelfDiff-HIS: 組織像分割のための拡散を用いた自己スーパービジョン GenSelfDiff-HIS: Generative Self-Supervision Using Diffusion for Histopathological Image Segmentation ( http://arxiv.org/abs/2309.01487v1 ) ライセンス: Link先を確認 | Vishnuvardhan Purma, Suhas Srinath, Seshan Srirangarajan, Aanchal Kakkar, and Prathosh A.P | (参考訳) 病理組織像分割は、しばしば正確な検査のために経験豊富な病理医からの分析を必要とする、退屈で時間を要する課題である。
この負担を軽減するために,大規模アノテートデータセットを用いた病理組織画像解析による機械学習アプローチが採用されている。
しかしながら、いくつかのシナリオにおいて、大規模な注釈付きデータの可用性は、そのようなモデルをトレーニングする上でボトルネックとなる。
自己教師付き学習(SSL)は、しばしば豊富な注釈のないデータのみを利用するモデルを構築することで、いくつかの欠点を提供する代替パラダイムである。
SSLの基本的な考え方は、不明なデータに対して1つまたは複数の擬似またはプリテキストタスクを実行するようにネットワークを訓練し、その後、さまざまなダウンストリームタスクの基盤として使用することである。
SSLの成功は、考慮されたプレテキストタスクに大きく依存している。
分類問題に対するプレテキストタスクの設計には多くの取り組みがあったが、組織学的セグメンテーションのためのSSLに対する試みはそれほど多くはない。
そこで本研究では,生成拡散モデルを用いて病理組織像を分割するssl法を提案する。
本手法は,拡散モデルがセグメント化タスクに似た画像から画像への変換タスクを効果的に解くことに基づく。
そこで我々は,病理組織像分割の前提課題として生成拡散を提案する。
また、下流タスクに対するマルチロス関数に基づく微調整を提案する。
本手法は,2つの公開データセットと新たに提案されたhematoxylinおよびeosin(h\&e)染色画像を含むhn(head and neck)癌データセットとアノテーションを用いて,いくつかの指標を用いて検証した。
コードはhttps://github.com/PurmaVishnuVardhanReddy/GenSelfDiff-HIS.gitで公開される。 Histopathological image segmentation is a laborious and time-intensive task, often requiring analysis from experienced pathologists for accurate examinations. To reduce this burden, supervised machine-learning approaches have been adopted using large-scale annotated datasets for histopathological image analysis. However, in several scenarios, the availability of large-scale annotated data is a bottleneck while training such models. Self-supervised learning (SSL) is an alternative paradigm that provides some respite by constructing models utilizing only the unannotated data which is often abundant. The basic idea of SSL is to train a network to perform one or many pseudo or pretext tasks on unannotated data and use it subsequently as the basis for a variety of downstream tasks. It is seen that the success of SSL depends critically on the considered pretext task. While there have been many efforts in designing pretext tasks for classification problems, there haven't been many attempts on SSL for histopathological segmentation. Motivated by this, we propose an SSL approach for segmenting histopathological images via generative diffusion models in this paper. Our method is based on the observation that diffusion models effectively solve an image-to-image translation task akin to a segmentation task. Hence, we propose generative diffusion as the pretext task for histopathological image segmentation. We also propose a multi-loss function-based fine-tuning for the downstream task. We validate our method using several metrics on two publically available datasets along with a newly proposed head and neck (HN) cancer dataset containing hematoxylin and eosin (H\&E) stained images along with annotations. Codes will be made public at https://github.com/PurmaVishnuVardhanReddy/GenSelfDiff-HIS.git. | 翻訳日:2023-09-06 19:01:22 公開日:2023-09-04 |
# ca2: 1クラス分類のためのクラス非依存適応型特徴適応 CA2: Class-Agnostic Adaptive Feature Adaptation for One-class Classification ( http://arxiv.org/abs/2309.01483v1 ) ライセンス: Link先を確認 | Zilong Zhang, Zhibin Zhao, Deyu Meng, Xingwu Zhang, Xuefeng Chen | (参考訳) 1クラス分類(OCC)、すなわち、サンプルがトレーニングデータと同じ分布に属しているかどうかを特定することは、実世界で機械学習モデルをデプロイするのに不可欠である。
ターゲットデータセットに事前トレーニングされた機能を適用することは、OCCパフォーマンスを改善するための有望なパラダイムであることが証明されている。
既存のメソッドはクラス数に関する仮定によって制約される。
これは、クラス数が不明な実際のシナリオと矛盾する。
本研究では,クラスに依存しない適応型特徴適応法(CA2)を提案する。
そこで本研究では,本手法を未知のクラスに一般化し,事前学習したネットワークに存在する事前条件,すなわち,同一クラスに属する事前学習された特徴に基づいて目的を最適化する。
CA2は1から1024までのトレーニングデータクラスのOCCパフォーマンスを継続的に改善し、最先端のメソッドよりも優れています。
コードはhttps://github.com/zhangzilongc/ca2で入手できる。 One-class classification (OCC), i.e., identifying whether an example belongs to the same distribution as the training data, is essential for deploying machine learning models in the real world. Adapting the pre-trained features on the target dataset has proven to be a promising paradigm for improving OCC performance. Existing methods are constrained by assumptions about the number of classes. This contradicts the real scenario where the number of classes is unknown. In this work, we propose a simple class-agnostic adaptive feature adaptation method (CA2). We generalize the center-based method to unknown classes and optimize this objective based on the prior existing in the pre-trained network, i.e., pre-trained features that belong to the same class are adjacent. CA2 is validated to consistently improve OCC performance across a spectrum of training data classes, spanning from 1 to 1024, outperforming current state-of-the-art methods. Code is available at https://github.com/zhangzilongc/CA2. | 翻訳日:2023-09-06 19:00:52 公開日:2023-09-04 |
# 浮遊電子回転ダイヤモンドのスピン読み出し Spin Read-out of the Motion of Levitated Electrically Rotated Diamonds ( http://arxiv.org/abs/2309.01545v1 ) ライセンス: Link先を確認 | Maxime Perdriat and Cosimo C. Rusconi and Tom Delord and Paul Huillery and Cl\'ement Pellet-Mary and Benjamin A. Stickler and Gabriel H\'etet | (参考訳) ナノ粒子とマイクロ粒子の捕獲による最近の進歩は、前例のないスケールでの運動状態の探索を可能にした。
自発的非線形性と内部スピン自由度とのカップリング、ジャイロスコープと磁気測定の応用の可能性、およびマクロな量子重ね合わせの生成により、自由度回転は際立っている。
しかし, 内部スピンによる粒子の高速で信頼性の高い回転技術は, 光吸収や加熱といった課題に直面している。
ここでは、このギャップに対処するため、ポールトラップで浮遊する微小粒子の電気駆動回転を実演する。
粒子電気四極子モーメントを用いた非探索的パラメトリック駆動状態において, 微小粒子を安定に150,000 rpmで回転させることができることを示す。
さらに, 完全回転するダイヤモンド中の窒素空孔中心のスピン状態の制御が成功し, 高精度な角軌道再構成が可能となり, 長期にわたって高い回転安定性を示した。
これらの成果は、ミクロンスケールの物体の内部磁気自由度と対向する全回転への進展を示す。
特に、強磁性体のような回転可能な粒子の種類を著しく拡張し、マイクロスケールでの大きなジャイロ磁気効果の研究に直接的な意味を与える。 Recent advancements with trapped nano- and micro-particles have enabled the exploration of motional states on unprecedented scales. Rotational degrees of freedom stand out due to their intrinsic non-linearity and their coupling with internal spin degrees of freedom, opening up possibilities for gyroscopy and magnetometry applications and the creation of macroscopic quantum superpositions. However, current techniques for fast and reliable rotation of particles with internal spins face challenges, such as optical absorption and heating issues. Here, to address this gap, we demonstrate electrically driven rotation of micro-particles levitating in Paul traps. We show that micro-particles can be set to rotate stably at 150,000 rpm by operating in a hitherto unexplored parametrically driven regime using the particle electric quadrupolar moment. Moreover, the spin states of nitrogen-vacancy centers in diamonds undergoing full rotation were successfully controlled, allowing accurate angular trajectory reconstruction and demonstrating high rotational stability over extended periods. These achievements mark progress toward interfacing full rotation with internal magnetic degrees of freedom in micron-scale objects. In particular, it extends significantly the type of particles that can be rotated, such as ferromagnets, which offers direct implications for the study of large gyromagnetic effects at the micro-scale. | 翻訳日:2023-09-06 18:54:42 公開日:2023-09-04 |
# TSTTC:運転シナリオにおける時間対接触推定のための大規模データセット TSTTC: A Large-Scale Dataset for Time-to-Contact Estimation in Driving Scenarios ( http://arxiv.org/abs/2309.01539v1 ) ライセンス: Link先を確認 | Yuheng Shi, Zehao Huang, Yan Yan, Naiyan Wang, Xiaojie Guo | (参考訳) 衝突リスクの評価にはttc(time-to-contact)推定が重要であり、様々な運転支援システムや自動運転システムで広く使われている。
過去数十年間、関連する理論やアルゴリズムの開発が見られた。
一般的な学習ベースの手法は、現実世界のシナリオで大規模なTTCデータセットを要求する。
本稿では,単眼カメラによるttc推定を促進するために,運転シーンにおける大規模オブジェクト指向ttcデータセットを提案する。
貴重なサンプルを収集し、TTC値の異なるデータを比較的バランスよく作成するために、数千時間の駆動データを経て、プリセットされたデータ分布で200K以上のシーケンスを選択する。
小型TTC症例の量を増大させるため,最新のニューラルレンダリング手法を用いてクリップを生成する。
さらに,TTC推定ベースラインを複数提供し,提案したデータセットに基づいて評価を行い,その効果を実証する。
提案されたデータセットはhttps://open-dataset.tusen.ai/TSTTCで公開されている。 Time-to-Contact (TTC) estimation is a critical task for assessing collision risk and is widely used in various driver assistance and autonomous driving systems. The past few decades have witnessed development of related theories and algorithms. The prevalent learning-based methods call for a large-scale TTC dataset in real-world scenarios. In this work, we present a large-scale object oriented TTC dataset in the driving scene for promoting the TTC estimation by a monocular camera. To collect valuable samples and make data with different TTC values relatively balanced, we go through thousands of hours of driving data and select over 200K sequences with a preset data distribution. To augment the quantity of small TTC cases, we also generate clips using the latest Neural rendering methods. Additionally, we provide several simple yet effective TTC estimation baselines and evaluate them extensively on the proposed dataset to demonstrate their effectiveness. The proposed dataset is publicly available at https://open-dataset.tusen.ai/TSTTC. | 翻訳日:2023-09-06 18:54:22 公開日:2023-09-04 |
# ChatRule:知識グラフ推論のための大規模言語モデルによる論理ルールのマイニング ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Reasoning ( http://arxiv.org/abs/2309.01538v1 ) ライセンス: Link先を確認 | Linhao Luo, Jiaxin Ju, Bo Xiong, Yuan-Fang Li, Gholamreza Haffari, Shirui Pan | (参考訳) 論理規則は関係間の論理的なつながりを明らかにするのに不可欠であり、推論性能を改善し、知識グラフ(kgs)上で解釈可能な結果を提供する。
KGに対する有意義な論理的ルールのマイニングには多くの取り組みがあったが、既存の手法はルール空間に対する計算集約的な探索と大規模KGのスケーラビリティの欠如に悩まされている。
さらに、論理的関係を明らかにする上で重要な関係の意味論を無視することが多い。
近年,大規模言語モデル (LLM) は,その創発的能力と一般化性から,自然言語処理や各種アプリケーションにおいて顕著な性能を示している。
本稿では,知識グラフ上で論理規則をマイニングするための大規模言語モデルのパワーを解き放つ,新たな枠組みであるchatruleを提案する。
具体的には、このフレームワークはLLMベースのルールジェネレータで開始され、KGのセマンティック情報と構造情報の両方を利用してLCMに論理ルールを生成する。
生成されたルールを洗練するために、ルールランキングモジュールは、既存のkgsから事実を取り込んでルール品質を推定する。
最後に、ルールバリケータはLLMの推論能力を利用して、チェーン・オブ・ソート推論を通じてランク付けされたルールの論理的正当性を検証する。
ChatRuleは4つの大規模KG、すなわち異なるルール品質のメトリクスと下流タスクで評価され、本手法の有効性と拡張性を示す。 Logical rules are essential for uncovering the logical connections between relations, which could improve the reasoning performance and provide interpretable results on knowledge graphs (KGs). Although there have been many efforts to mine meaningful logical rules over KGs, existing methods suffer from the computationally intensive searches over the rule space and a lack of scalability for large-scale KGs. Besides, they often ignore the semantics of relations which is crucial for uncovering logical connections. Recently, large language models (LLMs) have shown impressive performance in the field of natural language processing and various applications, owing to their emergent ability and generalizability. In this paper, we propose a novel framework, ChatRule, unleashing the power of large language models for mining logical rules over knowledge graphs. Specifically, the framework is initiated with an LLM-based rule generator, leveraging both the semantic and structural information of KGs to prompt LLMs to generate logical rules. To refine the generated rules, a rule ranking module estimates the rule quality by incorporating facts from existing KGs. Last, a rule validator harnesses the reasoning ability of LLMs to validate the logical correctness of ranked rules through chain-of-thought reasoning. ChatRule is evaluated on four large-scale KGs, w.r.t. different rule quality metrics and downstream tasks, showing the effectiveness and scalability of our method. | 翻訳日:2023-09-06 18:54:07 公開日:2023-09-04 |
# 私たちは間違った方法でオートエンコーダを使っているか? Are We Using Autoencoders in a Wrong Way? ( http://arxiv.org/abs/2309.01532v1 ) ライセンス: Link先を確認 | Gabriele Martino, Davide Moroni, Massimo Martinelli | (参考訳) その背景にある考え方は、同じ入力データを再構築するためにモデルをトレーニングすることだ。
これらのモデルの特徴はボトルネックを通じて情報を圧縮し、遅延空間と呼ばれるものを作成することである。
オートエンコーダは一般に次元減少、異常検出、特徴抽出に使用される。
これらのモデルは、そのシンプルさとパワーから、広く研究され、更新されている。
例を挙げると
(i)ノイズの多い画像から画像を復元するためにモデルを訓練した鳴り物入りオートエンコーダ
二 損失関数の正規化項によりボトルネックが生成されるスパースオートエンコーダ
(iii)変分オートエンコーダは、新しい一貫性のあるデータを生成するために潜在空間を使用する。
本稿では、損失関数に明示的な正規化項を用いることなく、潜在空間の形状を変更する不完全なオートエンコーダの標準トレーニングを再考する。
我々は、入力で同じ観測結果ではなく、同じクラス分布からサンプリングされた別のモデルに再構成を強制した。
また,データセット全体からランダムサンプルを再構成する場合の潜伏空間の挙動についても検討した。 Autoencoders are certainly among the most studied and used Deep Learning models: the idea behind them is to train a model in order to reconstruct the same input data. The peculiarity of these models is to compress the information through a bottleneck, creating what is called Latent Space. Autoencoders are generally used for dimensionality reduction, anomaly detection and feature extraction. These models have been extensively studied and updated, given their high simplicity and power. Examples are (i) the Denoising Autoencoder, where the model is trained to reconstruct an image from a noisy one; (ii) Sparse Autoencoder, where the bottleneck is created by a regularization term in the loss function; (iii) Variational Autoencoder, where the latent space is used to generate new consistent data. In this article, we revisited the standard training for the undercomplete Autoencoder modifying the shape of the latent space without using any explicit regularization term in the loss function. We forced the model to reconstruct not the same observation in input, but another one sampled from the same class distribution. We also explored the behaviour of the latent space in the case of reconstruction of a random sample from the whole dataset. | 翻訳日:2023-09-06 18:53:42 公開日:2023-09-04 |
# ラドナー・レヴィトフ格子における最適混合 Optimizing mixing in the Rudner-Levitov lattice ( http://arxiv.org/abs/2309.01531v1 ) ライセンス: Link先を確認 | I. Peshko, M. Antsukh, D. Novitsky, D. Mogilevtsev | (参考訳) 本稿では,有限線形および円形ラドナー・レヴィトフ格子,すなわち散逸部分格子を持つsu-シュリーファー・ヘーガー格子における混合の最適化について論じる。
系スペクトルにおける例外的な点の存在は、二次から対数に異なる格子ノードの数と混合時間のスケーリングを著しく異なることが示されている。
最大例外点と最小例外点の間の領域で操作する場合、チェーンの初期状態を選択することで、常に対数スケーリングを復元することができる。
さらに、同じ局所化された初期状態とパラメータの値の場合、より長い格子は短い格子よりもはるかに高速に混合される。
また,非対称円形ラドナー・レヴィトフ格子は任意の数の格子ノードに対して混合時間の対数スケーリングを保てることを示した。 Here we discuss optimization of mixing in finite linear and circular Rudner-Levitov lattices, i.e., Su-Schrieffer-Heeger lattices with a dissipative sublattice. We show that presence of exceptional points in the systems spectra can lead to drastically different scaling of the mixing time with the number of lattice nodes, varying from quadratic to the logarithmic one. When operating in the region between the maximal and minimal exceptional points, it is always possible to restore the logarithmic scaling by choosing the initial state of the chain. Moreover, for the same localized initial state and values of parameters, a longer lattice might mix much faster than the shorter one. Also we demonstrate that an asymmetric circular Rudner-Levitov lattice can preserve logarithmic scaling of the mixing time for an arbitrary large number of lattice nodes. | 翻訳日:2023-09-06 18:53:25 公開日:2023-09-04 |
# 変圧器モデルと追跡データに基づく通過熱マップ予測 Passing Heatmap Prediction Based on Transformer Model and Tracking Data ( http://arxiv.org/abs/2309.01526v1 ) ライセンス: Link先を確認 | Yisheng Pei, Varuna De Silva, Mike Caine | (参考訳) 選手のパフォーマンスに関するデータ駆動分析は長年にわたって開発されてきたが、ほとんどの研究はショットやパスを含むオンボールのイベントのみに焦点を当てている。
試合全体へのプレイヤーの貢献は不公平に評価され、得点する機会が多ければ他の選手よりも高いクレジットを得られるが、無意識で目立たない影響は無視されている。
本研究では,パスの潜在的な終端位置と,パス前の選手の動きが最終結果に与える影響を予測できる新しいディープラーニングネットワークアーキテクチャを提案する。
28,000回以上のイベントを分析したら、0.7以上のTop-1精度で堅牢な予測が達成できる。
この予測に基づいて、投球制御とパスオプションをよりよく理解することで、守備性能に対する選手のオフボール運動の寄与度を測定することができた。
さらに,このモデルは,選手の動きがゲーム戦略や最終勝利にどのように貢献するかを理解するための,より優れたツールと指標を提供する。 Although the data-driven analysis of football players' performance has been developed for years, most research only focuses on the on-ball event including shots and passes, while the off-ball movement remains a little-explored area in this domain. Players' contributions to the whole match are evaluated unfairly, those who have more chances to score goals earn more credit than others, while the indirect and unnoticeable impact that comes from continuous movement has been ignored. This research presents a novel deep-learning network architecture which is capable to predict the potential end location of passes and how players' movement before the pass affects the final outcome. Once analysed more than 28,000 pass events, a robust prediction can be achieved with more than 0.7 Top-1 accuracy. And based on the prediction, a better understanding of the pitch control and pass option could be reached to measure players' off-ball movement contribution to defensive performance. Moreover, this model could provide football analysts a better tool and metric to understand how players' movement over time contributes to the game strategy and final victory. | 翻訳日:2023-09-06 18:53:12 公開日:2023-09-04 |
# 量子ゲームの歴史 The History of Quantum Games ( http://arxiv.org/abs/2309.01525v1 ) ライセンス: Link先を確認 | Laura Piispanen, Edward Morrell, Solip Park, Marcell Pfaffhauser, Annakaisa Kultima | (参考訳) 本稿では,遊戯可能な量子物理学関連ゲーム(\textit{\textbf{quantum games}})の歴史的発展について考察する。
本研究の目的は、商用ゲーム、応用ゲーム、真剣ゲーム、および量子テーマゲームジャムおよび教育コースで開発されたゲームから260以上の量子ゲームを収集したことである。
量子物理学の知覚可能な次元,科学的目的の次元,量子技術の次元という,3次元にわたる量子ゲームの旅の概要を示す。
さらに量子ゲームの定義とその意味についても考察する。
量子ゲームを開発する動機は一般的に教育的あるいは学術的なものであるが、量子物理学に関連するテーマは様々な商用ゲームでより広く利用され始めている。
加えて、量子コンピュータハードウェアの可用性が高まるにつれて、これらのマシン固有の機能である \textit{quantum computer games} を活用するために、全く新しい量子ゲームの変種が出現した。 In this paper, we explore the historical development of playable quantum physics related games (\textit{\textbf{quantum games}}). For the purpose of this examination, we have collected over 260 quantum games ranging from commercial games, applied and serious games, and games that have been developed at quantum themed game jams and educational courses. We provide an overview of the journey of quantum games across three dimensions: \textit{the perceivable dimension of quantum physics, the dimension of scientific purposes, and the dimension of quantum technologies}. We then further reflect on the definition of quantum games and its implications. While motivations behind developing quantum games have typically been educational or academic, themes related to quantum physics have begun to be more broadly utilised across a range of commercial games. In addition, as the availability of quantum computer hardware has grown, entirely new variants of quantum games have emerged to take advantage of these machines' inherent capabilities, \textit{quantum computer games} | 翻訳日:2023-09-06 18:52:54 公開日:2023-09-04 |
# ブラックボックスモデルは、プライバシーを侵害するために必要なすべてである: ユースケースとしてのスマートグリッド予測モデル A Blackbox Model Is All You Need to Breach Privacy: Smart Grid Forecasting Models as a Use Case ( http://arxiv.org/abs/2309.01523v1 ) ライセンス: Link先を確認 | Hussein Aly, Abdulaziz Al-Ali, Abdullah Al-Ali, Qutaibah Malluhi | (参考訳) 本稿では,予測モデルに関連する潜在的なプライバシリスクを,スマートグリッドのコンテキストにおけるアプリケーションに特に重点を置いて検討する。
機械学習とディープラーニングアルゴリズムは有用なユーティリティを提供するが、センシティブな情報の露出に関する懸念が生じる。
これまでの研究では分類モデルに注目し、予測モデルに関連するリスクを見下ろしている。
長期短期記憶(lstm)のようなディープラーニングベースの予測モデルは、スマートグリッドシステムの最適化を含むいくつかのアプリケーションにおいて重要な役割を果たすが、プライバシリスクも引き起こす。
本研究は,スマートグリッドシステムにおけるグローバルプロパティとプライバシの脅威を漏らすモデル予測能力を解析する。
LSTMモデルへのブラックボックスアクセスは、データ自体へのアクセスに匹敵する膨大な量の情報を明らかにすることができる(この差はROC曲線の下では1%以下である)。
これは、データと同じレベルで予測モデルを保護することの重要性を強調します。 This paper investigates the potential privacy risks associated with forecasting models, with specific emphasis on their application in the context of smart grids. While machine learning and deep learning algorithms offer valuable utility, concerns arise regarding their exposure of sensitive information. Previous studies have focused on classification models, overlooking risks associated with forecasting models. Deep learning based forecasting models, such as Long Short Term Memory (LSTM), play a crucial role in several applications including optimizing smart grid systems but also introduce privacy risks. Our study analyzes the ability of forecasting models to leak global properties and privacy threats in smart grid systems. We demonstrate that a black box access to an LSTM model can reveal a significant amount of information equivalent to having access to the data itself (with the difference being as low as 1% in Area Under the ROC Curve). This highlights the importance of protecting forecasting models at the same level as the data. | 翻訳日:2023-09-06 18:52:39 公開日:2023-09-04 |
# ChatGPTについて公共の懸念は?
自己監督型ニューラルトピックモデル What are Public Concerns about ChatGPT? A Novel Self-Supervised Neural Topic Model Tells You ( http://arxiv.org/abs/2309.01522v1 ) ライセンス: Link先を確認 | Rui Wang, Xing Liu, Yanan Wang and Haiping Huang | (参考訳) 最近リリースされた人工知能対話エージェントのchatgptは、学界や実生活で注目を集めている。
初期のChatGPTユーザーは、その能力を熱心に探求し、ソーシャルメディアを通じて意見を共有している。
ユーザクエリとソーシャルメディア投稿はどちらも、この高度な対話システムに関する公衆の懸念を表明している。
本論文では,chatgptに関する一般の関心を喚起するために,トピックモデリングを表現学習手順として定式化する,新しい自己教師付き神経話題モデル(sstm)を提案する。
ChatGPTとChatGPTユーザからの問い合わせについて、Twitterの投稿で大規模な実験が行われた。
また, 提案手法は, 解釈可能性や多様性を向上し, 最先端の手法よりも高い品質の公衆の関心を抽出できることを示した。 The recently released artificial intelligence conversational agent, ChatGPT, has gained significant attention in academia and real life. A multitude of early ChatGPT users eagerly explore its capabilities and share their opinions on it via social media. Both user queries and social media posts express public concerns regarding this advanced dialogue system. To mine public concerns about ChatGPT, a novel Self-Supervised neural Topic Model (SSTM), which formalizes topic modeling as a representation learning procedure, is proposed in this paper. Extensive experiments have been conducted on Twitter posts about ChatGPT and queries asked by ChatGPT users. And experimental results demonstrate that the proposed approach could extract higher quality public concerns with improved interpretability and diversity, surpassing the performance of state-of-the-art approaches. | 翻訳日:2023-09-06 18:52:22 公開日:2023-09-04 |
# Hawkeye: 深層強化学習に基づくAndroidアプリの変更対象テスト Hawkeye: Change-targeted Testing for Android Apps based on Deep Reinforcement Learning ( http://arxiv.org/abs/2309.01519v1 ) ライセンス: Link先を確認 | Chao Peng, Zhengwei Lv, Jiarong Fu, Jiayuan Liang, Zhao Zhang, Ajitha Rajan, Ping Yang | (参考訳) Android Appsは頻繁にアップデートされ、ユーザ、ハードウェア、ビジネスの要求に応じている。
広範囲なテストを通じてアプリの更新の正確性を保証することは、エンドユーザへの潜在的なバグの回避に不可欠である。
既存のAndroidテストツールは、アップデートとその影響要素を優先するのではなく、アプリ全体のテストカバレッジを改善することに焦点を当てたGUIイベントを生成する。
最近の研究では、変更にフォーカスしたテストが提案されているが、大きな入力探索スペースを持つ複雑なアプリケーションにとって非効率で遅いGUI要素の更新と影響を、ランダムな探索に頼っている。
我々は,歴史探査データから深層強化学習に基づいて,コード変更に伴うGUIアクションの実行を優先的に行うことができるHawkeyeを用いたアプリ更新のダイレクトテストを提案する。
私たちの経験的評価は、Hawkeyeを、最先端のモデルベースおよび強化学習ベースのテストツールであるFastBot2とARESと比較します。
私たちはHawkeyeが、オープンソースアプリと大規模な商用アプリのために、FastBot2やARESよりも確実に変化した関数をターゲットとしたGUIイベントシーケンスを生成することができることに気付きました。
Hawkeyeは、より縮小可能な調査スペースを備えた、小さなオープンソースアプリケーションで同等のパフォーマンスを実現している。
開発パイプラインにおけるhawkeyeの産業展開は、複雑な商用アプリのマージ要求に対して、hawkeyeがスモークテストを実行するのが理想的であることを示している。 Android Apps are frequently updated to keep up with changing user, hardware, and business demands. Ensuring the correctness of App updates through extensive testing is crucial to avoid potential bugs reaching the end user. Existing Android testing tools generate GUI events focussing on improving the test coverage of the entire App rather than prioritising updates and its impacted elements. Recent research has proposed change-focused testing but relies on random exploration to exercise the updates and impacted GUI elements that is ineffective and slow for large complex Apps with a huge input exploration space. We propose directed testing of App updates with Hawkeye that is able to prioritise executing GUI actions associated with code changes based on deep reinforcement learning from historical exploration data. Our empirical evaluation compares Hawkeye with state-of-the-art model-based and reinforcement learning-based testing tools FastBot2 and ARES using 10 popular open-source and 1 commercial App. We find that Hawkeye is able to generate GUI event sequences targeting changed functions more reliably than FastBot2 and ARES for the open source Apps and the large commercial App. Hawkeye achieves comparable performance on smaller open source Apps with a more tractable exploration space. The industrial deployment of Hawkeye in the development pipeline also shows that Hawkeye is ideal to perform smoke testing for merge requests of a complicated commercial App. | 翻訳日:2023-09-06 18:52:10 公開日:2023-09-04 |
# 顔認証における視覚的品質改善と対向的攻撃の伝達性 Improving Visual Quality and Transferability of Adversarial Attacks on Face Recognition Simultaneously with Adversarial Restoration ( http://arxiv.org/abs/2309.01582v1 ) ライセンス: Link先を確認 | Fengfan Zhou | (参考訳) 視覚品質と伝達性は、逆顔の2つの重要な特性である。
しかし、キープロパティーを同時に改善しようとする作品はほとんどない。
そこで本研究では, 顔復元潜在拡散モデルを用いて, 顔の視覚的品質と伝達性を同時に向上させるadvrestore (adversarial restoration) という新しい攻撃法を提案する。
具体的には,まず顔復元のための顔復元潜在拡散モデル(rldm)を訓練する。
そして、RLDMを用いて攻撃画像の復元を行い、復元の過程で、RLDMのUNetの出力特性に逆の摂動を加える。
従来と組み合わせることで、製作した対向顔の視覚的品質と転写性をさらに向上させることができる。
実験の結果,提案手法の有効性が示された。 Visual Quality and Transferability are the two key property of adversarial face examples. However, few works consider to improve the key properties simultaneously. To this end, we proposed a novel adversarial attack called Adversarial Restoration (AdvRestore) that enhances the visual quality and the transferability of adversarial face examples simultaneously by using a face Restoration Latent Diffusion Model Prior. Specifically, we first train a face Restoration Latent Diffusion Model (RLDM) for face restoration. Then, we use RLDM to restore of the attacker image, in the process of restoration, we add adversarial perturbations on the output feature of the UNet of RLDM. Combined with the prior, the visual quality and tranferability of the crafted adversarial face examples can be further improved. Experimental results demonstrate the effectiveness of our proposed attack method. | 翻訳日:2023-09-06 18:43:25 公開日:2023-09-04 |
# 3レベルボウティーモデルにおける散逸的ランダウ・ツェナー遷移:ダヴィドフ多重D2アンザッツによる正確な力学 Dissipative Landau-Zener transitions in a three-level bow-tie model: accurate dynamics with the Davydov multi-D2 Ansatz ( http://arxiv.org/abs/2309.01580v1 ) ライセンス: Link先を確認 | Lixing Zhang, Maxim F. Gelin and Yang Zhao | (参考訳) 複数のダヴィドフD2アンサツェの数値的精度を用いて,3レベルボウタイモデル(3L-BTM)におけるランダウ-ツェナー(LZ)遷移について検討した。
まず, 1つの調和モードに結合した3L-TBMについて検討し, モデルパラメータの選択値に対する遷移確率の進化について検討し, エネルギー図法による解析を行った。
次に3L-TBMをボソン浴で探索した。
シミュレーションにより,3L-BTMの動態にはサブオーミック,オーミック,スーパーオーミックのボソン浴が著しく異なる影響があることが示され,標準的なマルコフの単一レート記述では把握できない。
また, 2レベルLZシステムに欠如する新しい入浴現象についても述べる。 We investigate Landau-Zener (LZ) transitions in the three-level bow-tie model (3L-BTM) in a dissipative environment by using the numerically accurate method of multiple Davydov D2 Ansatze. We first consider the 3L-TBM coupled to a single harmonic mode, study evolutions of the transition probabilities for selected values of the model parameters, and interpret the obtained results with the aid of the energy diagram method. We then explore the 3L-TBM coupled to a boson bath. Our simulations demonstrate that sub-Ohmic, Ohmic and super-Ohmic boson baths have substantially different influences on the 3L-BTM dynamics, which cannot be grasped by the standard phenomenological Markovian single-rate descriptions. We also describe novel bath-induced phenomena which are absent in two-level LZ systems. | 翻訳日:2023-09-06 18:43:00 公開日:2023-09-04 |
# 音声合成のための事前学習言語モデルの比較分析 A Comparative Analysis of Pretrained Language Models for Text-to-Speech ( http://arxiv.org/abs/2309.01576v1 ) ライセンス: Link先を確認 | Marcel Granero-Moya, Penny Karanasou, Sri Karlapati, Bastian Schnell, Nicole Peinelt, Alexis Moinet, Thomas Drugman | (参考訳) State-of-the-the-art text-to-speech (TTS)システムでは、プレトレーニング言語モデル(PLM)を使用して韻律を高め、より自然な音声を生成する。
PLMは自然言語理解(NLU)のために広く研究されているが、TSへの影響は見過ごされている。
本研究では,2つのTSタスク(韻律予測と停止予測)に対して異なるPLMの比較分析を行うことにより,このギャップに対処することを目的とする。
まず15種類のPLMを用いて韻律予測モデルを訓練した。
その結果,モデルサイズと品質の対数関係,および中性と表現的韻律の有意な性能差が認められた。
第2に,PLMを停止予測に用いた結果,小モデルにはあまり敏感でないことがわかった。
また,実験結果とこれらの言語モデルで得られたGLUEスコアとの間には強い相関関係が認められた。
我々の知る限りでは、異なるPLMがTSに与える影響を調査するのは、この種の研究としては初めてである。 State-of-the-art text-to-speech (TTS) systems have utilized pretrained language models (PLMs) to enhance prosody and create more natural-sounding speech. However, while PLMs have been extensively researched for natural language understanding (NLU), their impact on TTS has been overlooked. In this study, we aim to address this gap by conducting a comparative analysis of different PLMs for two TTS tasks: prosody prediction and pause prediction. Firstly, we trained a prosody prediction model using 15 different PLMs. Our findings revealed a logarithmic relationship between model size and quality, as well as significant performance differences between neutral and expressive prosody. Secondly, we employed PLMs for pause prediction and found that the task was less sensitive to small models. We also identified a strong correlation between our empirical results and the GLUE scores obtained for these language models. To the best of our knowledge, this is the first study of its kind to investigate the impact of different PLMs on TTS. | 翻訳日:2023-09-06 18:42:42 公開日:2023-09-04 |
# DiffHPE: 拡散を伴うロバストでコヒーレントな3Dヒューマン・ポース・リフティング DiffHPE: Robust, Coherent 3D Human Pose Lifting with Diffusion ( http://arxiv.org/abs/2309.01575v1 ) ライセンス: Link先を確認 | C\'edric Rommel, Eduardo Valle, Micka\"el Chen, Souhaiel Khalfaoui, Renaud Marlet, Matthieu Cord and Patrick P\'erez | (参考訳) 本稿では,多種多様な分野に革命をもたらした最先端拡散モデルを統合することで,3D-HPEを用いた3Dヒューマンポース推定手法を提案する。
拡散モデルにより,人間のポーズ推定精度,ロバスト性,コヒーレンス性が向上することを示す。
3D-HPEにおける拡散モデルを利用する新しい戦略であるDiffHPEを紹介し、標準教師付き3D-HPEを洗練させる能力を示す。
また, 拡散モデルが咬合面におけるより頑健な推定にどのようにつながるかを示し, 予測の時間コヒーレンスと矢状対称性を改善した。
本研究では,提案手法の有効性と既存モデルに対する優越性を明らかにするとともに,学習中の咬合パターンが推論のそれと一致しない状況においても,その優劣性を示す。
以上の結果から, 独立拡散モデルの方が, 教師付きモデルと組み合わせて精度が向上し, 3D-HPE研究の新たな道を開くことが示唆された。 We present an innovative approach to 3D Human Pose Estimation (3D-HPE) by integrating cutting-edge diffusion models, which have revolutionized diverse fields, but are relatively unexplored in 3D-HPE. We show that diffusion models enhance the accuracy, robustness, and coherence of human pose estimations. We introduce DiffHPE, a novel strategy for harnessing diffusion models in 3D-HPE, and demonstrate its ability to refine standard supervised 3D-HPE. We also show how diffusion models lead to more robust estimations in the face of occlusions, and improve the time-coherence and the sagittal symmetry of predictions. Using the Human\,3.6M dataset, we illustrate the effectiveness of our approach and its superiority over existing models, even under adverse situations where the occlusion patterns in training do not match those in inference. Our findings indicate that while standalone diffusion models provide commendable performance, their accuracy is even better in combination with supervised models, opening exciting new avenues for 3D-HPE research. | 翻訳日:2023-09-06 18:42:26 公開日:2023-09-04 |
# 生データは必要なすべてである: 強化された受容野を持つ仮想軸検出器 Raw Data Is All You Need: Virtual Axle Detector with Enhanced Receptive Field ( http://arxiv.org/abs/2309.01574v1 ) ライセンス: Link先を確認 | Henik Riedel, Robert Steven Lorenzen and Clemens H\"ubler | (参考訳) 老化インフラのメンテナンスコストの増大は、革新的な監視技術を必要とする。
本稿では,専用の軸検出装置を使わずに橋梁重み移動システム(bwim)をリアルタイムに適用できる軸検出のための新しい手法を提案する。
提案手法は,仮想軸検出器(VAD)モデルを用いて生の加速度データを処理し,受容場を増大させる。
提案する仮想軸検出器は,最先端のvadに比べて計算コストとメモリコストを99\%削減しつつ,f_1\)スコアを73\%,空間精度を39\%向上させる。
VADERは、代表的なトレーニングセットと機能センサーを使用すると、99.4\%の(F_1\)スコアと4.13~cmの空間誤差に達する。
また,畳み込みニューラルネットワーク(cnn)アーキテクチャのオブジェクトサイズ駆動設計のための新しい受容場(rf)ルールを提案する。
このルールに基づいて,本研究の結果から,生データを用いたモデルの方が,分光器を用いたモデルよりも優れた性能が得られる可能性が示唆された。 Rising maintenance costs of ageing infrastructure necessitate innovative monitoring techniques. This paper presents a new approach for axle detection, enabling real-time application of Bridge Weigh-In-Motion (BWIM) systems without dedicated axle detectors. The proposed method adapts the Virtual Axle Detector (VAD) model to handle raw acceleration data, which allows the receptive field to be increased. The proposed Virtual Axle Detector with Enhanced Receptive field (VADER) improves the \(F_1\) score by 73\% and spatial accuracy by 39\%, while cutting computational and memory costs by 99\% compared to the state-of-the-art VAD. VADER reaches a \(F_1\) score of 99.4\% and a spatial error of 4.13~cm when using a representative training set and functional sensors. We also introduce a novel receptive field (RF) rule for an object-size driven design of Convolutional Neural Network (CNN) architectures. Based on this rule, our results suggest that models using raw data could achieve better performance than those using spectrograms, offering a compelling reason to consider raw data as input. | 翻訳日:2023-09-06 18:42:07 公開日:2023-09-04 |
# マルチホリゾンrnnを用いたレールき裂進展予測 Rail Crack Propagation Forecasting Using Multi-horizons RNNs ( http://arxiv.org/abs/2309.01569v1 ) ライセンス: Link先を確認 | Sara Yasmine Ouerk, Olivier Vo Van, Mouadh Yagoubi | (参考訳) レールき裂進展の予測は材料・構造物の維持・安全性評価において重要な役割を担っている。
伝統的な手法は、パリ法のような物理モデルや経験方程式に依存しており、しばしば亀裂成長の複雑な性質を捉えている。
近年,機械学習技術,特にリカレントニューラルネットワーク(RNN)が時系列予測の有望な手法として登場している。
時系列データをモデル化し、モデルに外因性変数を組み込むことができる。
提案手法は, ヒストリクラック長測定を含むフランス鉄道網上の実データと, ひび割れ成長に影響を与える可能性のある外因性因子の収集を含む。
まず、学習のための一貫したデータセットを作成するために、前処理フェーズを実施した。
そして, 亀裂伝播現象をモデル化するために, ベイズ型マルチホライズンリカレントアーキテクチャを設計した。
その結果,マルチホライズンズモデルはLSTMやGRUといった最先端モデルよりも優れていた。 The prediction of rail crack length propagation plays a crucial role in the maintenance and safety assessment of materials and structures. Traditional methods rely on physical models and empirical equations such as Paris law, which often have limitations in capturing the complex nature of crack growth. In recent years, machine learning techniques, particularly Recurrent Neural Networks (RNNs), have emerged as promising methods for time series forecasting. They allow to model time series data, and to incorporate exogenous variables into the model. The proposed approach involves collecting real data on the French rail network that includes historical crack length measurements, along with relevant exogenous factors that may influence crack growth. First, a pre-processing phase was performed to prepare a consistent data set for learning. Then, a suitable Bayesian multi-horizons recurrent architecture was designed to model the crack propagation phenomenon. Obtained results show that the Multi-horizons model outperforms state-of-the-art models such as LSTM and GRU. | 翻訳日:2023-09-06 18:41:46 公開日:2023-09-04 |
# 単一人工原子を駆動するコヒーレント波の進化 Evolution of coherent waves driving a single artificial atom ( http://arxiv.org/abs/2309.01563v1 ) ライセンス: Link先を確認 | A. V. Vasenin, Sh. V. Kadyrmetov, A. N. Bolgar, A. Yu. Dmitriev, O. V. Astafiev | (参考訳) 強く結合した超伝導人工二層原子で導波路を伝播する電磁波は、原子と進化する重ね合わせを示す。
原子中のラビの振動は、光子吸収と磁場への励起放出に対応する単一の励起緩和によって生じる。
本研究では,送信フィールドの時間依存性の挙動を調査し,そのスペクトルを抽出する。
散乱場は入出力理論を用いて記述される。
相互作用による伝播場の時間進化は、原子に関する全ての情報をカプセル化することを示した。
さらに, 被測定1次相関関数から非コヒーレント放射成分のダイナミクスを導出する。 An electromagnetic wave propagating through a waveguide with a strongly coupled superconducting artificial two-level atom exhibits an evolving superposition with the atom. The Rabi oscillations in the atom result from a single excitation-relaxation, corresponding to photon absorption and stimulated emission from/to the field. In this study, we investigate the time-dependent behavior of the transmitted field and extract its spectra. The scattered fields are described using input-output theory. We demonstrate that the time evolution of the propagating fields, due to interaction, encapsulates all information about the atom. Additionally, we deduce the dynamics of the incoherent radiation component from the measured first-order correlation function of the field. | 翻訳日:2023-09-06 18:41:30 公開日:2023-09-04 |
# 局所性を考慮したハイパースペクトル分類 Locality-Aware Hyperspectral Classification ( http://arxiv.org/abs/2309.01561v1 ) ライセンス: Link先を確認 | Fangqin Zhou, Mert Kilickaya, Joaquin Vanschoren | (参考訳) 超スペクトル画像分類は、広範囲のスペクトルで利用可能な視覚情報をキャプチャする能力のおかげで、リモートセンシングにおける高精度な視覚タスクで人気が高まっている。
ハイパースペクトル画像分類の自動化に研究者が取り組んでおり、ビジョン・トランスフォーマーを活用している。
しかし、ほとんどの研究モデルでは、スペクトル情報のみを扱っており、局所性(すなわち隣接するピクセル)に注意が払われていない。
これに対処するために、私たちは3つの貢献をします。
i) 局所情報とスペクトル情報の両方をモデル化する視覚トランスであるハイライト(hyperspectral locality-aware image transformer)について紹介する。
二 地域・地域情報の統合を促進する新たな正規化機能及び
三 提案手法は、競合ベースラインをかなりのマージンで上回り、精度を最大10%向上させる。
トレーニングされたモデルとコードはHyLITEで利用可能だ。 Hyperspectral image classification is gaining popularity for high-precision vision tasks in remote sensing, thanks to their ability to capture visual information available in a wide continuum of spectra. Researchers have been working on automating Hyperspectral image classification, with recent efforts leveraging Vision-Transformers. However, most research models only spectra information and lacks attention to the locality (i.e., neighboring pixels), which may be not sufficiently discriminative, resulting in performance limitations. To address this, we present three contributions: i) We introduce the Hyperspectral Locality-aware Image TransformEr (HyLITE), a vision transformer that models both local and spectral information, ii) A novel regularization function that promotes the integration of local-to-global information, and iii) Our proposed approach outperforms competing baselines by a significant margin, achieving up to 10% gains in accuracy. The trained models and the code are available at HyLITE. | 翻訳日:2023-09-06 18:41:22 公開日:2023-09-04 |
# OutRank: カーディナリティを意識した大規模スパースデータセットを対象としたAutoMLベースのモデル検索の高速化 OutRank: Speeding up AutoML-based Model Search for Large Sparse Data sets with Cardinality-aware Feature Ranking ( http://arxiv.org/abs/2309.01552v1 ) ライセンス: Link先を確認 | Bla\v{z} \v{S}krlj and Bla\v{z} Mramor | (参考訳) 現代のレコメンダシステムの設計は、特定のレコメンデーションタスクを解決するために機能空間のどの部分が関連しているかを理解することに依存している。
しかし、この領域の現実世界のデータセットは、しばしば大きなサイズ、スパーシティ、ノイズによって特徴づけられ、有意義な信号を特定するのが困難である。
機能ランキングは、最も情報性の高い機能を特定し、よりコンパクトでパフォーマンスの良いモデル(AutoML)の自動検索を容易にすることで、これらの課題に対処するアルゴリズムの効率的なブランチである。
特徴量ランキングとデータ品質関連異常検出のためのシステムであるOutRankを紹介する。
OutRankは分類データを念頭に置いて構築され、同じ濃度の特徴によって生じる雑音に関して正規化される相互情報の変種を利用する。
特徴類似度情報と組み合わせた関連性を組み込むことで類似度尺度をさらに拡張する。
提案手法は, 性能損失のない合成データセット上で, 最先端のAutoMLシステムを高速化することで実現可能であることを示す。
さらに,無作為な森林ベースのアプローチなど,強いベースラインを上回り,実際のクリックスルーレート予測データセットを検討した。
提案手法により,AutoMLのみのアプローチと比較して最大300%大きな機能空間の探索が可能になった。 The design of modern recommender systems relies on understanding which parts of the feature space are relevant for solving a given recommendation task. However, real-world data sets in this domain are often characterized by their large size, sparsity, and noise, making it challenging to identify meaningful signals. Feature ranking represents an efficient branch of algorithms that can help address these challenges by identifying the most informative features and facilitating the automated search for more compact and better-performing models (AutoML). We introduce OutRank, a system for versatile feature ranking and data quality-related anomaly detection. OutRank was built with categorical data in mind, utilizing a variant of mutual information that is normalized with regard to the noise produced by features of the same cardinality. We further extend the similarity measure by incorporating information on feature similarity and combined relevance. The proposed approach's feasibility is demonstrated by speeding up the state-of-the-art AutoML system on a synthetic data set with no performance loss. Furthermore, we considered a real-life click-through-rate prediction data set where it outperformed strong baselines such as random forest-based approaches. The proposed approach enables exploration of up to 300% larger feature spaces compared to AutoML-only approaches, enabling faster search for better models on off-the-shelf hardware. | 翻訳日:2023-09-06 18:41:07 公開日:2023-09-04 |
# 騒がしいポートベーステレポーテーションに基づく絡み合いテレポーテーション Entanglement Teleportation Based on Noisy Port Based Teleportation ( http://arxiv.org/abs/2309.01550v1 ) ライセンス: Link先を確認 | Ha Eum Kim, Kabgyun Jeong | (参考訳) ポートベーステレポーテーション(Port-based teleportation, PBT)は、元々の量子テレポーテーションのバリエーションの一つであり、様々な用途のために量子情報処理に使われ、研究されている。
この研究はpbtの領域に分解され、特に資源状態が環境からポーリノイズに曝される場合である。
雑音のあるPBTプロトコルをクラウス表現と表現することで特徴付ける。
さらに,ノイズpbtを用いた絡み合いテレポーテーションについても検討した。
テレポーティングされた未知状態の絡み合いの測定のために,上下境界の導出と検討を行った。
以上の結果を得るため,局所的なパウリ流路を通した2量子バイパルタイト状態の絡み合いを検討した。
2つの量子ビット状態の絡み合いの順序は、ポーリチャネルを通じて保存され、また、このチャネルを通る絡み合いの縮小の境界も導出する。 Port-based teleportation(PBT) is one of variation of the original quantum teleportation, and is being used and explored in quantum information processing due to its various applications. This work delves into the realm of PBT, specifically when the resource state is subjected to Pauli noise from the environment. We characterise the noisy PBT protocol by describing as Kraus representation. Furthermore, we investigate the entanglement teleportation using the noisy PBT. We derive and investigate upper and lower bounds for the measure of entanglement of teleported unknown state. To achieve the above results, we have investigated the entanglement of two-qubit bipartite states through local Pauli channel. We derived the order of entanglement of two qubit states is preserved through Pauli channel, and also the boundaries of reduced entanglement through this channel. | 翻訳日:2023-09-06 18:40:45 公開日:2023-09-04 |
# 効率的なオンラインアクティブ蒸留のためのクエリ戦略について On the Query Strategies for Efficient Online Active Distillation ( http://arxiv.org/abs/2309.01612v1 ) ライセンス: Link先を確認 | Michele Boldo, Enrico Martini, Mirco De Marchi, Stefano Aldegheri, Nicola Bombieri | (参考訳) ディープラーニング(DL)には多くの時間とデータが必要です。
近年、研究者はトレーニング効率とリアルタイムモデル適応性を高めるために、アクティブラーニング(AL)とオンライン蒸留を採用している。
本稿では,最良の学習結果を得るために,一連の問合せ戦略を評価する。
hpe(human pose estimation)アプリケーションに注目し,従来のオフライン手法と,一般的なhpeデータセットを用いた連続学習アプローチによるオンライン評価という2つのアプローチを用いて,トレーニング中の選択されたフレームの影響を評価する。
本稿では,エッジライトウェイトモデルのトレーニングを可能にする可能性を示し,それをリアルタイムに新しいコンテキストに効果的に適用する。 Deep Learning (DL) requires lots of time and data, resulting in high computational demands. Recently, researchers employ Active Learning (AL) and online distillation to enhance training efficiency and real-time model adaptation. This paper evaluates a set of query strategies to achieve the best training results. It focuses on Human Pose Estimation (HPE) applications, assessing the impact of selected frames during training using two approaches: a classical offline method and a online evaluation through a continual learning approach employing knowledge distillation, on a popular state-of-the-art HPE dataset. The paper demonstrates the possibility of enabling training at the edge lightweight models, adapting them effectively to new contexts in real-time. | 翻訳日:2023-09-06 18:35:00 公開日:2023-09-04 |
# カービリナー骨格を用いたCT画像からの3次元細孔空間の分離:微生物分解の数値シミュレーションへの応用 Segmentation of 3D pore space from CT images using curvilinear skeleton: application to numerical simulation of microbial decomposition ( http://arxiv.org/abs/2309.01611v1 ) ライセンス: Link先を確認 | Olivier Monga and Zakaria Belghali and Mouad Klai and Lucie Druoton and Dominique Michelucci and Valerie Pot | (参考訳) 3次元X線CTセンサーの最近の進歩は、土壌微生物の活性を制御する非常に複雑なマイクロスケールプロセスを明らかにする研究を刺激している。
グレーレベル3次元CTスキャナ画像から、単純な画像処理ツールを用いて、孔空間のボクセルベースの記述(最大数億のボクセル)を抽出することができる。
格子ボルツマンモデル (Lattice Boltzmann Model, LBM) のようなボクセルのメッシュを用いた生物力学の数値シミュレーションの古典的手法は時間がかかりすぎる。
したがって、細孔空間のよりコンパクトで信頼性の高い幾何学表現を使うことは、シミュレーションの計算コストを劇的に削減することができる。
いくつかの最近の研究は、排水、拡散、微生物分解の数値シミュレーションのための孔空間のピースワイズ近似を定義するための基本的な解析ボリュームプリミティブ(球体、一般化シリンダー、楕円体など)を提案する。
このようなアプローチはうまく機能するが、欠点は近似誤差を生成することである。
本研究は, カービリナースケルトンから計算したボクセル(領域)の幾何学的関連部分集合を用いて孔間空間を記述する別の方法について検討する。
実際、多くの研究は、様々な領域(医学、材料科学、石油工学など)の3D形状の分析と分割にカービリナースケルトン(3Dメディカル軸)を使用しているが、土壌科学ではごくわずかである。
土壌科学の文脈では、3次元の内側軸を扱うほとんどの研究は穴の喉の決定に焦点を当てている。
ここでは, 微生物の分解(拡散過程を含む)を数値シミュレーションするために, 曲線骨格を用いて細孔空間を分割する。
我々は,ボール,ボクセルなどの異なる空間幾何学的表現を用いて,他の手法との比較によりシミュレーション出力を検証する。 Recent advances in 3D X-ray Computed Tomographic (CT) sensors have stimulated research efforts to unveil the extremely complex micro-scale processes that control the activity of soil microorganisms. Voxel-based description (up to hundreds millions voxels) of the pore space can be extracted, from grey level 3D CT scanner images, by means of simple image processing tools. Classical methods for numerical simulation of biological dynamics using mesh of voxels, such as Lattice Boltzmann Model (LBM), are too much time consuming. Thus, the use of more compact and reliable geometrical representations of pore space can drastically decrease the computational cost of the simulations. Several recent works propose basic analytic volume primitives (e.g. spheres, generalized cylinders, ellipsoids) to define a piece-wise approximation of pore space for numerical simulation of draining, diffusion and microbial decomposition. Such approaches work well but the drawback is that it generates approximation errors. In the present work, we study another alternative where pore space is described by means of geometrically relevant connected subsets of voxels (regions) computed from the curvilinear skeleton. Indeed, many works use the curvilinear skeleton (3D medial axis) for analyzing and partitioning 3D shapes within various domains (medicine, material sciences, petroleum engineering, etc.) but only a few ones in soil sciences. Within the context of soil sciences, most studies dealing with 3D medial axis focus on the determination of pore throats. Here, we segment pore space using curvilinear skeleton in order to achieve numerical simulation of microbial decomposition (including diffusion processes). We validate simulation outputs by comparison with other methods using different pore space geometrical representations (balls, voxels). | 翻訳日:2023-09-06 18:34:48 公開日:2023-09-04 |
# 不確かさによる公正なランク付け Fair Ranking under Disparate Uncertainty ( http://arxiv.org/abs/2309.01610v1 ) ライセンス: Link先を確認 | Richa Rastogi, Thorsten Joachims | (参考訳) ランキングは、人間の評価者の注意をオプションの管理可能なサブセットに集中させるユビキタスな方法である。
その用途は、電子商取引サイト上の潜在的関連商品の紹介から、ヒューマンレビューのための大学アプリケーションへの優先順位付けまで多岐にわたる。
ランク付けは、最も有望な選択肢に注意を向けることで、人間の評価をより効果的にすることができるが、基礎となる関連モデルの不確実性が選択肢群間で異なる場合、不公平を生じさせる可能性があると論じる。
残念なことに、これらの不確実性の違いは、データや適切な特徴の欠如により、少数グループの関連性推定が不確実性が高い傾向があるため、広く見られる。
この公平性問題を克服するために,グループ間の不確実性の格差を確実に補正する新たな公平性基準として,平等性ランキング(EOR)を提案する。
さらに、EORランキングを時間$O(n \log(n))$で計算するための実用的なアルゴリズムを提案し、地球規模の最適解に対する近似を保証する。
合成データ、米国国勢調査データセット、およびAmazon検索クエリの実世界ケーススタディに関する総合的な実証的な評価において、このアルゴリズムは効果的なランキングを提供しながら、EORフェアネスを確実に保証する。 Ranking is a ubiquitous method for focusing the attention of human evaluators on a manageable subset of options. Its use ranges from surfacing potentially relevant products on an e-commerce site to prioritizing college applications for human review. While ranking can make human evaluation far more effective by focusing attention on the most promising options, we argue that it can introduce unfairness if the uncertainty of the underlying relevance model differs between groups of options. Unfortunately, such disparity in uncertainty appears widespread, since the relevance estimates for minority groups tend to have higher uncertainty due to a lack of data or appropriate features. To overcome this fairness issue, we propose Equal-Opportunity Ranking (EOR) as a new fairness criterion for ranking that provably corrects for the disparity in uncertainty between groups. Furthermore, we present a practical algorithm for computing EOR rankings in time $O(n \log(n))$ and prove its close approximation guarantee to the globally optimal solution. In a comprehensive empirical evaluation on synthetic data, a US Census dataset, and a real-world case study of Amazon search queries, we find that the algorithm reliably guarantees EOR fairness while providing effective rankings. | 翻訳日:2023-09-06 18:34:18 公開日:2023-09-04 |
# geo-encoder:中国地理的再ランキングのためのチャンクアグリゲーションバイエンコーダフレームワーク Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese Geographic Re-Ranking ( http://arxiv.org/abs/2309.01606v1 ) ライセンス: Link先を確認 | Yong Cao, Ruixue Ding, Boli Chen, Xianzhi Li, Min Chen, Daniel Hershcovich, Pengjun Xie, and Fei Huang | (参考訳) 中国の地理的再ランクタスクは、検索された候補のうち、最も関連性の高いアドレスを見つけることを目的としており、ナビゲーションマップのような位置情報関連サービスにとって不可欠である。
一般的な文とは異なり、地理的文脈は、一般的なスパン(例えば州)から特定のスパン(例えば道路)まで、地理的概念と密接に絡み合っている。
本稿では,中国における地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
我々の方法論は、テキストと地理的スパンを関連付け、それらをチャンキング単位として扱うために、既製のツールを使うことから始まります。
次に,マルチタスク学習モジュールを提示し,追加の意味表現へのチャンク貢献を決定する効果的な注意行列を同時に取得する。
さらに,提案する追加タスクの非同期更新機構を提示し,特定のチャンクに効果的に集中可能なモデルを導出することを目的とした。
2つの異なる地理的再分類データセットの実験は、Geo-Encoderが最先端のベースラインと比較して大幅に改善されていることを示している。
特に、MGEO-BERTのhit@1スコアが大幅に改善され、GeoTESデータセットでは62.76から68.98に6.22%増加した。 Chinese geographic re-ranking task aims to find the most relevant addresses among retrieved candidates, which is crucial for location-related services such as navigation maps. Unlike the general sentences, geographic contexts are closely intertwined with geographical concepts, from general spans (e.g., province) to specific spans (e.g., road). Given this feature, we propose an innovative framework, namely Geo-Encoder, to more effectively integrate Chinese geographical semantics into re-ranking pipelines. Our methodology begins by employing off-the-shelf tools to associate text with geographical spans, treating them as chunking units. Then, we present a multi-task learning module to simultaneously acquire an effective attention matrix that determines chunk contributions to extra semantic representations. Furthermore, we put forth an asynchronous update mechanism for the proposed addition task, aiming to guide the model capable of effectively focusing on specific chunks. Experiments on two distinct Chinese geographic re-ranking datasets, show that the Geo-Encoder achieves significant improvements when compared to state-of-the-art baselines. Notably, it leads to a substantial improvement in the Hit@1 score of MGEO-BERT, increasing it by 6.22% from 62.76 to 68.98 on the GeoTES dataset. | 翻訳日:2023-09-06 18:33:54 公開日:2023-09-04 |
# プラズモン誘起テラヘルツ変調器を用いたグラフェンメタマテリアルによる高性能マルチバンドフィルタリングとスローライト応用 Graphene Metamaterials Based Plasmon-Induced Terahertz Modulator for High-Performance Multiband Filtering and Slow Light Applications ( http://arxiv.org/abs/2309.01601v1 ) ライセンス: Link先を確認 | Dip Sarker, Partha Pratim Nakti, and Ahmed Zubair | (参考訳) 可変共振周波数を有する多層グラフェン (Gr) を用いた表面プラズモン共鳴誘起高性能テラヘルツ (THz) 変調器を提案する。
grメタマテリアルに基づく複数のthzプラズモニック変調器が以前に報告されたが、これらの変調器は、thz範囲の構造パラメータを伴わずに、グループ遅延が小さく、消滅率(er)が低く、共振周波数が困難であった。
有限差分時間領域 (FDTD) シミュレーションを用いた包括的調査により, 提案したクアッドバンドおよびペンタバンドプラズモニック変調器において, 高い群遅延, 構造パラメータに依存しない広いチューニング性, および大きなERが示された。
提案したクアッドバンドおよびペンタバンドプラズモニック変調器では最大1.02 psと1.41 psの調整可能な群遅延が得られた。
最大ERは22.3dBで、これは以前の報告と比べてかなり高かった。
提案変調器は入射光の偏光角に敏感であり, 共振周波数の透過率は0度から180度に変化した。
これらの高性能プラズモニック変調器は、光バッファ、遅い光デバイス、マルチストップバンドフィルタ、集積フォトニック回路、および様々な光電子システムの設計に新たな可能性を持っている。 We proposed multilayered graphene (Gr)-based surface plasmon resonance-induced high-performance terahertz (THz) modulators with tunable resonance frequencies. Several THz plasmonic modulators based on Gr metamaterials were previously reported; however, these modulators had small group delay, low extinction ratio (ER), and difficult-to-tune resonant frequency without structural parameters in the THz range. A comprehensive investigation employing the finite-difference time-domain (FDTD) simulation technique revealed high group delay, broad tunability independent of structural parameters, and large ER for our proposed quadband and pentaband plasmonic modulators. We obtained tunable group delays with a maximum of 1.02 ps and 1.41 ps for our proposed quadband and pentaband plasmonic modulators, respectively, which are substantially greater compared to previously reported Gr-based metamaterial structures. The maximum ER of 22.3 dB was obtained which was substantially high compared to previous reports. Our proposed modulators were sensitive to the polarization angle of incident light; therefore, the transmittance at resonant frequencies was increased while the polarization angle varied from 0 to 180 degree. These high-performance plasmonic modulators have emerging potential for the design of optical buffers, slow light devices, multistop band filters, integrated photonic circuits, and various optoelectronic systems. | 翻訳日:2023-09-06 18:33:31 公開日:2023-09-04 |
# 修正分散関係の宇宙論的複雑性 Cosmological complexity of the modified dispersion relation ( http://arxiv.org/abs/2309.01595v1 ) ライセンス: Link先を確認 | Tao Li, Lei-Hua Liu | (参考訳) 複雑性は高エネルギー物理学においてますます不可欠になるだろう。
自然に非常に初期の宇宙に拡張される。
宇宙を量子カオス系として考えると、スカラー場の曲率摂動は2モードの圧縮状態と同一視される。
Schr$\ddot{o}$dinger 方程式を解くことで、角度パラメータとスキーズパラメータの数値解を得ることができる。
スクイーズパラメータの解は、主に複雑性の進化を決定する。
我々の数値は、修正された分散関係の複雑さが地平線が出てから非線形パターンを持つことを示している。
一方、対応するリャプノフ指数は標準の場合よりも大きい。
インフレーション期間の間、複雑さは不規則に振動し、スクランブル時間も標準の場合よりも短くなる。
修正された分散関係は、量子重力の様々な枠組みの結果と称されるので、これらの枠組みに適用することができる。
最後に、量子重力の枠組みは、様々なインフレーションモデルの区別を導く複雑性の実りある進化をもたらすと期待できる。 Complexity will be more and more essential in high-energy physics. It is naturally extended into the very early universe. Considering the universe as a quantum chaotic system, the curvature perturbation of the scalar field is identified with the two-mode squeezed state. By solving the Schr$\ddot{o}$dinger equation, one can obtain the numerical solutions of the angle parameter and squeezing parameter. The solution of the squeezing parameter mainly determines the evolution of complexity. Our numeric indicates that the complexity of the modified dispersion relation will have a non-linear pattern after the horizon exits. Meanwhile, its corresponding Lyapunov index is also larger compared with the standard case. During the inflationary period, the complexity will irregularly oscillate and its scrambling time is also shorter compared with the standard case. Since the modified dispersion relation can be dubbed as the consequences of various frameworks of quantum gravity, it could be applicable to these frameworks. Finally, one can expect the framework of quantum gravity will lead to the fruitful evolution of complexity, which guides us in distinguishing various inflationary models. | 翻訳日:2023-09-06 18:33:04 公開日:2023-09-04 |
# 構造的健康モニタリングデータに基づく長大橋の深層学習過負荷車両識別 Deep Learning Overloaded Vehicle Identification for Long Span Bridges Based on Structural Health Monitoring Data ( http://arxiv.org/abs/2309.01593v1 ) ライセンス: Link先を確認 | Yuqin Li, Jun Liu, Shengliang Zhong, Licheng Zhou, Shoubin Dong, Zejia Liu, Liqun Tang | (参考訳) 過負荷車両は交通インフラに大きな被害をもたらす。
過負荷車両識別のためのBWIM (bridge weigh-in-motion) 方式は、交通を中断することなく実装できるため、普及している。
しかし、その効果は専門知識と余分な情報に大きく依存しており、複数の車両の発生に影響を受けやすいため、その用途は限られている。
本稿では,構造的健康モニタリングデータを用いた長大橋における車両識別の過負荷化を目的とした,深層学習に基づく車両識別手法(DOVI)を提案する。
提案するdoviモデルは,入力シーケンスデータの時間的および時間的特徴を抽出するために時間的畳み込みアーキテクチャを用いており,影響線や速度やホイールベース情報を事前に取得する必要がなく,複数車両の発生時にも適用可能な,エンドツーエンドの過負荷車両識別ソリューションを提供する。
簡易支持梁と長尺ケーブルステイドブリッジを用いてランダムな交通流下でモデル評価を行った。
その結果,提案手法は,他の機械学習やディープラーニング手法に比べて有効性と頑健性が向上することが示された。 Overloaded vehicles bring great harm to transportation infrastructures. BWIM (bridge weigh-in-motion) method for overloaded vehicle identification is getting more popular because it can be implemented without interruption to the traffic. However, its application is still limited because its effectiveness largely depends on professional knowledge and extra information, and is susceptible to occurrence of multiple vehicles. In this paper, a deep learning based overloaded vehicle identification approach (DOVI) is proposed, with the purpose of overloaded vehicle identification for long-span bridges by the use of structural health monitoring data. The proposed DOVI model uses temporal convolutional architectures to extract the spatial and temporal features of the input sequence data, thus provides an end-to-end overloaded vehicle identification solution which neither needs the influence line nor needs to obtain velocity and wheelbase information in advance and can be applied under the occurrence of multiple vehicles. Model evaluations are conducted on a simply supported beam and a long-span cable-stayed bridge under random traffic flow. Results demonstrate that the proposed deep-learning overloaded vehicle identification approach has better effectiveness and robustness, compared with other machine learning and deep learning approaches. | 翻訳日:2023-09-06 18:32:50 公開日:2023-09-04 |
# Les Houchs氏が大規模かつ無限の幅でのディープラーニングの講義を語る Les Houches Lectures on Deep Learning at Large & Infinite Width ( http://arxiv.org/abs/2309.01592v1 ) ライセンス: Link先を確認 | Yasaman Bahri, Boris Hanin | (参考訳) 2022年 les houches summer school on statistical physics and machine learning で発表されたこれらの講義は、無限幅限界と深層ニューラルネットワークの大幅レジームに焦点を当てている。
対象とするトピックには、これらのネットワークの様々な統計的および動的特性が含まれる。
特に、講義者はランダム深層ニューラルネットワークの性質、トレーニングされたディープニューラルネットワーク、線形モデル、カーネル、および無限幅極限で発生するガウス過程の接続、そして、初期化とトレーニング後の大規模だが有限幅ネットワークの摂動的かつ非摂動的処理について論じる。 These lectures, presented at the 2022 Les Houches Summer School on Statistical Physics and Machine Learning, focus on the infinite-width limit and large-width regime of deep neural networks. Topics covered include various statistical and dynamical properties of these networks. In particular, the lecturers discuss properties of random deep neural networks; connections between trained deep neural networks, linear models, kernels, and Gaussian processes that arise in the infinite-width limit; and perturbative and non-perturbative treatments of large but finite-width networks, at initialization and after training. | 翻訳日:2023-09-06 18:32:28 公開日:2023-09-04 |
# 生成モデルの信頼性評価に向けた確率論的精度とリコール Probabilistic Precision and Recall Towards Reliable Evaluation of Generative Models ( http://arxiv.org/abs/2309.01590v1 ) ライセンス: Link先を確認 | Dogyun Park, Suhyun Kim | (参考訳) 生成モデルの忠実性と多様性を評価することは、技術的進歩にとって難しいが重要な問題である。
そこで最近の論文では、k-Nearest Neighbor(k$NN)ベースの高精度リコールメトリクスを導入して、統計的距離を忠実度と多様性に分解した。
直感的な手法を提供する一方で,これらの指標を徹底的に分析し,不確実性や分布変化に対する非感受性など,信頼性の低いknの過単純化された仮定と望ましくない性質を同定する。
そこで本稿では,P-precision and P-recall (PP\&PR) という新しい指標を提案する。
玩具実験と最先端生成モデルに関する広範な調査を通じて,我々のPP\&PRは,既存の指標よりも忠実度と多様性を比較する上で,より信頼性の高い推定値を提供することを示した。
コードは \url{https://github.com/kdst-team/probablistic_precision_recall} で入手できる。 Assessing the fidelity and diversity of the generative model is a difficult but important issue for technological advancement. So, recent papers have introduced k-Nearest Neighbor ($k$NN) based precision-recall metrics to break down the statistical distance into fidelity and diversity. While they provide an intuitive method, we thoroughly analyze these metrics and identify oversimplified assumptions and undesirable properties of kNN that result in unreliable evaluation, such as susceptibility to outliers and insensitivity to distributional changes. Thus, we propose novel metrics, P-precision and P-recall (PP\&PR), based on a probabilistic approach that address the problems. Through extensive investigations on toy experiments and state-of-the-art generative models, we show that our PP\&PR provide more reliable estimates for comparing fidelity and diversity than the existing metrics. The codes are available at \url{https://github.com/kdst-team/Probablistic_precision_recall}. | 翻訳日:2023-09-06 18:32:15 公開日:2023-09-04 |
# SATAY:FPGAデバイス上でYOLOモデルを高速化するためのストリーミングアーキテクチャツールフロー SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on FPGA Devices ( http://arxiv.org/abs/2309.01587v1 ) ライセンス: Link先を確認 | Alexander Montgomerie-Corcoran, Petros Toupas, Zhewen Yu and Christos-Savvas Bouganis | (参考訳) AIはコンピュータビジョンと画像処理タスクの大幅な進歩をもたらし、自動運転車から医療画像まで、現実のシナリオにおける幅広い応用を可能にした。
これらのアプリケーションの多くは、これらのアルゴリズムの推論を実行するために、効率的なオブジェクト検出アルゴリズムと補完的なリアルタイム低レイテンシハードウェアを必要とする。
YOLOモデルは1つのモデルパスしか持たないため、オブジェクト検出において最も効率的であると考えられている。
それにもかかわらず、現在のエッジベースのプラットフォームでは、YOLOモデルの複雑さとサイズが計算的に要求されすぎる可能性がある。
これを解決するために、私たちはSATAY: Streaming Architecture Toolflow for YOLOを紹介します。
この作業は、超低レイテンシアプリケーションのためにFPGAデバイスに最先端のオブジェクト検出モデルをデプロイするという課題に対処し、リアルタイムのエッジベースのオブジェクト検出を可能にする。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
これらのアクセラレータは自動ツールフローを使用して生成され、適切なFPGAデバイスの範囲をターゲットにすることができる。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
ツールフローはGPUデバイスと競合する性能とエネルギー特性を示すアクセラレータ設計を生成でき、現在のFPGAアクセラレータよりも優れています。 AI has led to significant advancements in computer vision and image processing tasks, enabling a wide range of applications in real-life scenarios, from autonomous vehicles to medical imaging. Many of those applications require efficient object detection algorithms and complementary real-time, low latency hardware to perform inference of these algorithms. The YOLO family of models is considered the most efficient for object detection, having only a single model pass. Despite this, the complexity and size of YOLO models can be too computationally demanding for current edge-based platforms. To address this, we present SATAY: a Streaming Architecture Toolflow for Accelerating YOLO. This work tackles the challenges of deploying stateof-the-art object detection models onto FPGA devices for ultralow latency applications, enabling real-time, edge-based object detection. We employ a streaming architecture design for our YOLO accelerators, implementing the complete model on-chip in a deeply pipelined fashion. These accelerators are generated using an automated toolflow, and can target a range of suitable FPGA devices. We introduce novel hardware components to support the operations of YOLO models in a dataflow manner, and off-chip memory buffering to address the limited on-chip memory resources. Our toolflow is able to generate accelerator designs which demonstrate competitive performance and energy characteristics to GPU devices, and which outperform current state-of-the-art FPGA accelerators. | 翻訳日:2023-09-06 18:31:57 公開日:2023-09-04 |
# スパースセルコンプレックスによるグラフ上のエッジフローの表現 Representing Edge Flows on Graphs via Sparse Cell Complexes ( http://arxiv.org/abs/2309.01632v1 ) ライセンス: Link先を確認 | Josef Hoppe and Michael T. Schaub | (参考訳) 多くの機械学習や信号処理タスクにおいて、可観測データのスパースで解釈可能な表現が不可欠である。
グラフの辺に沿った流れを表すデータに対して、そのような表現を得る直感的に解釈可能な方法は、グラフ構造をsimplicial complexへ持ち上げることである: 関連するホッジ・ラプラシアンの固有ベクトルはそれぞれ、対応するsimplicial complexの入射行列を導出する。
本稿では, セルコンプレックスへのこのアプローチの一般化とセル推論最適化問題, すなわち, セルの集合によって観測されたグラフを増大させる問題, すなわち, 関連するホッジラプラシアンの固有ベクトルが, グラフ上の観測されたエッジフローのスパースで解釈可能な表現を提供する。
この問題はNPハードであり,その解に対する効率的な近似アルゴリズムを導入する。
実世界のデータと合成データの実験により、我々のアルゴリズムは計算効率を保ちながら最先端の手法より優れていることを示した。 Obtaining sparse, interpretable representations of observable data is crucial in many machine learning and signal processing tasks. For data representing flows along the edges of a graph, an intuitively interpretable way to obtain such representations is to lift the graph structure to a simplicial complex: The eigenvectors of the associated Hodge-Laplacian, respectively the incidence matrices of the corresponding simplicial complex then induce a Hodge decomposition, which can be used to represent the observed data in terms of gradient, curl, and harmonic flows. In this paper, we generalize this approach to cellular complexes and introduce the cell inference optimization problem, i.e., the problem of augmenting the observed graph by a set of cells, such that the eigenvectors of the associated Hodge Laplacian provide a sparse, interpretable representation of the observed edge flows on the graph. We show that this problem is NP-hard and introduce an efficient approximation algorithm for its solution. Experiments on real-world and synthetic data demonstrate that our algorithm outperforms current state-of-the-art methods while being computationally efficient. | 翻訳日:2023-09-06 18:23:34 公開日:2023-09-04 |
# 期待伝播によるプロビットモデルにおける予測確率の効率的な計算 Efficient computation of predictive probabilities in probit models via expectation propagation ( http://arxiv.org/abs/2309.01630v1 ) ライセンス: Link先を確認 | Augusto Fasano, Niccol\`o Anceschi, Beatrice Franzolini, Giovanni Rebaudo | (参考訳) 二項回帰モデルは二項分類における一般的なモデルに基づくアプローチである。
ベイズフレームワークでは、後続分布の形式における計算上の課題は、まだ実りある研究を動機付けている。
本稿では,期待伝播(ep)によるベイズ確率モデルにおける予測確率の計算に着目する。
近年の文献において、より一般的な結果を用いて、そのような予測確率は閉形式表現を許容することを示した。
最先端のアプローチに対する改善がシミュレーション研究で示されている。 Binary regression models represent a popular model-based approach for binary classification. In the Bayesian framework, computational challenges in the form of the posterior distribution motivate still-ongoing fruitful research. Here, we focus on the computation of predictive probabilities in Bayesian probit models via expectation propagation (EP). Leveraging more general results in recent literature, we show that such predictive probabilities admit a closed-form expression. Improvements over state-of-the-art approaches are shown in a simulation study. | 翻訳日:2023-09-06 18:23:11 公開日:2023-09-04 |
# 適応型オールインワンビデオ復元のためのクロスコンテンシブディープアンフォールディングネットワーク Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video Restoration ( http://arxiv.org/abs/2309.01627v1 ) ライセンス: Link先を確認 | Yuanshuo Cheng, Mingwen Shao, Yecong Wan, Lixu Zhang, Wangmeng Zuo, Deyu Meng | (参考訳) 既存のビデオ復元(VR)手法は、様々な悪天候の劣化を取り除くために、各悪天候に対する個々のモデルの展開を必要とし、劣化の適応処理能力に欠ける。
このような制限は、実用アプリケーションにおける複雑さとデプロイメントコストを増幅する。
そこで本稿では,この不足を克服するために,オールインワンvrのためのクロスコンテンス・ディープ・アンフォールディング・ネットワーク(cdun)を提案する。
具体的には,事前に与えられた劣化特性に応じて,対応する劣化により破損したフレームを復元することのできる,新しい反復最適化フレームワークを実現する。
多様な劣化を除去する枠組みを強化するために,入力された劣化映像の劣化特性を推定するシーケンスワイド適応劣化推定器(SADE)を考案した。
これら2つのカスケード手順を編成することにより、CDUNは多様な劣化に対する適応的な処理を達成する。
さらに,より隣接したフレームからの情報を活用するためのウィンドウベースのフレーム間融合戦略を提案する。
この戦略は、複数の繰り返しにおける時間窓の進行的な積み重ねを伴い、時間的受容領域を効果的に拡大し、各フレームの復元が遠方のフレームからの情報を活用することを可能にする。
広汎な実験により,All-In-One VRにおける最先端性能が得られた。 Existing Video Restoration (VR) methods always necessitate the individual deployment of models for each adverse weather to remove diverse adverse weather degradations, lacking the capability for adaptive processing of degradations. Such limitation amplifies the complexity and deployment costs in practical applications. To overcome this deficiency, in this paper, we propose a Cross-consistent Deep Unfolding Network (CDUN) for All-In-One VR, which enables the employment of a single model to remove diverse degradations for the first time. Specifically, the proposed CDUN accomplishes a novel iterative optimization framework, capable of restoring frames corrupted by corresponding degradations according to the degradation features given in advance. To empower the framework for eliminating diverse degradations, we devise a Sequence-wise Adaptive Degradation Estimator (SADE) to estimate degradation features for the input corrupted video. By orchestrating these two cascading procedures, CDUN achieves adaptive processing for diverse degradation. In addition, we introduce a window-based inter-frame fusion strategy to utilize information from more adjacent frames. This strategy involves the progressive stacking of temporal windows in multiple iterations, effectively enlarging the temporal receptive field and enabling each frame's restoration to leverage information from distant frames. Extensive experiments demonstrate that the proposed method achieves state-of-the-art performance in All-In-One VR. | 翻訳日:2023-09-06 18:23:04 公開日:2023-09-04 |
# AGG-Net: 深度画像補完のための注意ガイド付きGated-Convolutional Network AGG-Net: Attention Guided Gated-convolutional Network for Depth Image Completion ( http://arxiv.org/abs/2309.01624v1 ) ライセンス: Link先を確認 | Dongyue Chen, Tingxuan Huang, Zhimin Song, Shizhuo Deng, Tong Jia | (参考訳) 近年,軽量rgbdカメラを用いたステレオビジョンが様々な分野で広く利用されている。
しかし、撮像原理に制限されるため、TOF、構造化光、双眼視に基づく一般的なRGB-Dカメラは、弱い反射、境界影、アーティファクトなどの必然的に無効なデータを取得し、その後の作業に悪影響を及ぼす可能性がある。
本稿では,生深度マップと対応するRGB画像から,より正確で信頼性の高い深度画像を得ることのできる,Attention Guided Gated-Convolutional Network (AGG-Net)に基づく深度画像補完モデルを提案する。
本モデルは奥行きと色の特徴の2つの並列分岐からなるunetライクなアーキテクチャを採用している。
符号化段階では,意図的誘導Gated-Convolution (AG-GConv) モジュールが,異なるスケールでの深度と色の特徴の融合を実現するために提案される。
復号段階では、アテンションガイドスキップ接続(AG-SC)モジュールが提示され、再構成にあまりにも多くの深度に関係のない特徴を導入することを避ける。
実験の結果,本手法はNYU-Depth V2, DIML, SUN RGB-Dのベンチマークにおいて,最先端の手法よりも優れていた。 Recently, stereo vision based on lightweight RGBD cameras has been widely used in various fields. However, limited by the imaging principles, the commonly used RGB-D cameras based on TOF, structured light, or binocular vision acquire some invalid data inevitably, such as weak reflection, boundary shadows, and artifacts, which may bring adverse impacts to the follow-up work. In this paper, we propose a new model for depth image completion based on the Attention Guided Gated-convolutional Network (AGG-Net), through which more accurate and reliable depth images can be obtained from the raw depth maps and the corresponding RGB images. Our model employs a UNet-like architecture which consists of two parallel branches of depth and color features. In the encoding stage, an Attention Guided Gated-Convolution (AG-GConv) module is proposed to realize the fusion of depth and color features at different scales, which can effectively reduce the negative impacts of invalid depth data on the reconstruction. In the decoding stage, an Attention Guided Skip Connection (AG-SC) module is presented to avoid introducing too many depth-irrelevant features to the reconstruction. The experimental results demonstrate that our method outperforms the state-of-the-art methods on the popular benchmarks NYU-Depth V2, DIML, and SUN RGB-D. | 翻訳日:2023-09-06 18:22:38 公開日:2023-09-04 |
# コンセプトは必要なすべてである - agiへのより直接的なパス Concepts is All You Need: A More Direct Path to AGI ( http://arxiv.org/abs/2309.01622v1 ) ライセンス: Link先を確認 | Peter Voss and Mladjan Jovanovic | (参考訳) 20年ほど前に作られたAGI(Artificial General Intelligence)に対する実証的な進展はほとんどない。
AlphaZero、ChatGPT、Stable Diffusionといった統計AIの驚くべきブレークスルーにもかかわらず、これらのプロジェクトはいずれもAGIへの明確な道筋を持っていない。
AGIの開発を迅速化するためには、AGIに関連する人間のような知能のコア要件を理解し、識別することが不可欠である。
そこから、AGIを達成するのに必要な特定の開発ステップを蒸留することができる。
このような分析は、現在好まれている統計的および生成的努力よりも、認知AIアプローチの必要性を強調している。
より具体的には、人間のような認知における概念の中心的な役割を特定する。
ここではアーキテクチャと開発計画を概説し、いくつかの予備的な結果とともに、完全な人間レベルAI(HLAI)/AGIへのより直接的なパスを提供します。 Little demonstrable progress has been made toward AGI (Artificial General Intelligence) since the term was coined some 20 years ago. In spite of the fantastic breakthroughs in Statistical AI such as AlphaZero, ChatGPT, and Stable Diffusion none of these projects have, or claim to have, a clear path to AGI. In order to expedite the development of AGI it is crucial to understand and identify the core requirements of human-like intelligence as it pertains to AGI. From that one can distill which particular development steps are necessary to achieve AGI, and which are a distraction. Such analysis highlights the need for a Cognitive AI approach rather than the currently favored statistical and generative efforts. More specifically it identifies the central role of concepts in human-like cognition. Here we outline an architecture and development plan, together with some preliminary results, that offers a much more direct path to full Human-Level AI (HLAI)/ AGI. | 翻訳日:2023-09-06 18:22:09 公開日:2023-09-04 |
# 複数暗号化パッチ埋め込みによる敵攻撃の抑制 Hindering Adversarial Attacks with Multiple Encrypted Patch Embeddings ( http://arxiv.org/abs/2309.01620v1 ) ライセンス: Link先を確認 | AprilPyone MaungMaung, Isao Echizen, Hitoshi Kiya | (参考訳) 本稿では,効率とロバスト性を重視した新たなキーベースの防御手法を提案する。
従来のキーベースのディフェンスは敵の例に対する防御には有効に思えるが、慎重に設計されたアダプティブアタックは、以前のディフェンスをバイパスすることができる。
我々は,(1)効率的なトレーニングと(2)任意ランダム化という2つの大きな改善を伴って,事前の防御を構築する。
提案手法では,事前訓練された等方性ネットワークを用いた1つ以上の秘密パッチ埋め込みと分類器ヘッドを用いる。
複数の秘密埋め込みを使用する場合、提案した防御は推論のランダム化を可能にする。
imagenetデータセット上で実験を行い,適応型攻撃を含む最先端攻撃に対する防御性能の評価を行った。
その結果,提案手法は従来のキーベースの防御に比べて高いロバストな精度と同等のクリーンな精度が得られることがわかった。 In this paper, we propose a new key-based defense focusing on both efficiency and robustness. Although the previous key-based defense seems effective in defending against adversarial examples, carefully designed adaptive attacks can bypass the previous defense, and it is difficult to train the previous defense on large datasets like ImageNet. We build upon the previous defense with two major improvements: (1) efficient training and (2) optional randomization. The proposed defense utilizes one or more secret patch embeddings and classifier heads with a pre-trained isotropic network. When more than one secret embeddings are used, the proposed defense enables randomization on inference. Experiments were carried out on the ImageNet dataset, and the proposed defense was evaluated against an arsenal of state-of-the-art attacks, including adaptive ones. The results show that the proposed defense achieves a high robust accuracy and a comparable clean accuracy compared to the previous key-based defense. | 翻訳日:2023-09-06 18:21:54 公開日:2023-09-04 |
# 高次元プロビットモデルにおける後方近似の効率的な期待伝播 Efficient expectation propagation for posterior approximation in high-dimensional probit models ( http://arxiv.org/abs/2309.01619v1 ) ライセンス: Link先を確認 | Augusto Fasano, Niccol\`o Anceschi, Beatrice Franzolini, Giovanni Rebaudo | (参考訳) ベイズ二元回帰は、高次元の設定や大規模データセット、あるいはその両方で現在利用可能な方法が直面する計算上の課題のために、活発な研究分野である。
本研究では,多変量ガウス事前分布の下でのベイズプロビット回帰における後方分布の予測伝搬(EP)近似に着目した。
Anceschi et al. (2023) のより一般的な導出に適応し、拡張多変量スキュー正規分布における結果を活用する方法を示し、共変量数で線形にスケールする共変量毎のコストを持つEPルーチンの効率的な実装を導出する。
これによりepは、詳細なシミュレーション研究で示されるように、高次元設定の挑戦でも計算可能となる。 Bayesian binary regression is a prosperous area of research due to the computational challenges encountered by currently available methods either for high-dimensional settings or large datasets, or both. In the present work, we focus on the expectation propagation (EP) approximation of the posterior distribution in Bayesian probit regression under a multivariate Gaussian prior distribution. Adapting more general derivations in Anceschi et al. (2023), we show how to leverage results on the extended multivariate skew-normal distribution to derive an efficient implementation of the EP routine having a per-iteration cost that scales linearly in the number of covariates. This makes EP computationally feasible also in challenging high-dimensional settings, as shown in a detailed simulation study. | 翻訳日:2023-09-06 18:21:37 公開日:2023-09-04 |
# オンラインメンタルヘルスコミュニティにおける相互関与を促進する批判的行動特性 Critical Behavioral Traits Foster Peer Engagement in Online Mental Health Communities ( http://arxiv.org/abs/2309.01618v1 ) ライセンス: Link先を確認 | Aseem Srivastava, Tanya Gupta, Alison Cerezo, Sarah Peregrine (Grin) Lord, Md Shad Akhtar, Tanmoy Chakraborty | (参考訳) redditのようなオンラインメンタルヘルスコミュニティ(omhcs)は、メンタルヘルスのニーズを管理するための情報やサポートを求めるプラットフォームとして人気が高まっている。
redditのようなプラットフォームは、仲間との即時のやりとりを提供し、ユーザーにメンタルヘルス支援を求めるための重要なスペースを与えている。
しかし、これらのプラットフォームのほとんど規制されていない性質は、ユーザと社会全体に複雑な課題をもたらす。
本研究は,カウンセリングスレッドにおける相互関与を促進する要因について検討し,この重要な現象の理解を深めることを目的としている。
10,118件以上の投稿と、21のメンタルヘルス固有のサブレディットからの58,279件のコメントからなる、ピアカウンセリングデータセットであるBeCOPEを紹介した。
データセットは3つの大きな粒度の振る舞いラベルを使って注釈付けされる。
(a)意図
(b)批判,及び
(c) 感情ラベルとともに可読性。
分析の結果, 「自己批判」は, ヘルプシーカーが表現する批判の最も一般的な形態であり, 相互作用の43%を占めることが明らかとなった。
興味深いことに、援助の必要性を明示的に表明する個人は、‘surveys’や‘rants’の提示者よりも18.01%多く援助を受ける傾向がある。
さらに,優れた可読性が要求された後のサポートを受ける確率を効果的に2倍にすることを示し,よく理解された問題記述の重要な役割を強調する。
本研究は、パーソナライズされたガイダンスの提供におけるOMHCの役割を強調し、行動駆動型エンゲージメントパターンを明らかにする。 Online Mental Health Communities (OMHCs), such as Reddit, have witnessed a surge in popularity as go-to platforms for seeking information and support in managing mental health needs. Platforms like Reddit offer immediate interactions with peers, granting users a vital space for seeking mental health assistance. However, the largely unregulated nature of these platforms introduces intricate challenges for both users and society at large. This study explores the factors that drive peer engagement within counseling threads, aiming to enhance our understanding of this critical phenomenon. We introduce BeCOPE, a novel behavior encoded Peer counseling dataset comprising over 10,118 posts and 58,279 comments sourced from 21 mental health-specific subreddits. The dataset is annotated using three major fine-grained behavior labels: (a) intent, (b) criticism, and (c) readability, along with the emotion labels. Our analysis indicates the prominence of ``self-criticism'' as the most prevalent form of criticism expressed by help-seekers, accounting for a significant 43% of interactions. Intriguingly, we observe that individuals who explicitly express their need for help are 18.01% more likely to receive assistance compared to those who present ``surveys'' or engage in ``rants.'' Furthermore, we highlight the pivotal role of well-articulated problem descriptions, showing that superior readability effectively doubles the likelihood of receiving the sought-after support. Our study emphasizes the essential role of OMHCs in offering personalized guidance and unveils behavior-driven engagement patterns. | 翻訳日:2023-09-06 18:21:23 公開日:2023-09-04 |
# DeViL:ビジョン機能を言語にデコードする DeViL: Decoding Vision features into Language ( http://arxiv.org/abs/2309.01617v1 ) ライセンス: Link先を確認 | Meghal Dani, Isabel Rio-Torto, Stephan Alaniz, Zeynep Akata | (参考訳) ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この作業では、ビジョンバックボーンのさまざまなレイヤが学んだことに対して、自然言語による記述を提供したいと思います。
我々のDeViL法は視覚特徴を言語にデコードし、属性位置をハイライトするだけでなく、ネットワークの異なる層における視覚特徴のテキスト記述を生成する。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
階層単位と空間単位の双方をドロップアウトすることで,画像テキストペアのトレーニングを一般化し,局所的な説明を生成する。
事前訓練された言語モデルを使用するため、我々のアプローチは訓練が早く、あらゆる視覚バックボーンに適用でき、視覚ネットワークの異なる層でテキスト記述を生成することができる。
さらに、視覚モデルのトレーニングスコープの外でも、単語やフレーズに対応するオープンボキャブラリー帰属マップを作成することができる。
我々は,DeViLが従来の軽量キャプションモデルと帰属マップを超越したCC3Mの画像コンテンツに関連するテキスト記述を生成することを実証した。
最後に、DeViLは、MILANNOTATIONSデータセットのニューロン記述において、現在の最先端技術よりも優れていることを示す。
https://github.com/ExplainableML/DeViLで利用可能なコード Post-hoc explanation methods have often been criticised for abstracting away the decision-making process of deep neural networks. In this work, we would like to provide natural language descriptions for what different layers of a vision backbone have learned. Our DeViL method decodes vision features into language, not only highlighting the attribution locations but also generating textual descriptions of visual features at different layers of the network. We train a transformer network to translate individual image features of any vision layer into a prompt that a separate off-the-shelf language model decodes into natural language. By employing dropout both per-layer and per-spatial-location, our model can generalize training on image-text pairs to generate localized explanations. As it uses a pre-trained language model, our approach is fast to train, can be applied to any vision backbone, and produces textual descriptions at different layers of the vision network. Moreover, DeViL can create open-vocabulary attribution maps corresponding to words or phrases even outside the training scope of the vision model. We demonstrate that DeViL generates textual descriptions relevant to the image content on CC3M surpassing previous lightweight captioning models and attribution maps uncovering the learned concepts of the vision backbone. Finally, we show DeViL also outperforms the current state-of-the-art on the neuron-wise descriptions of the MILANNOTATIONS dataset. Code available at https://github.com/ExplainableML/DeViL | 翻訳日:2023-09-06 18:20:56 公開日:2023-09-04 |
# ドロップアウト攻撃 Dropout Attacks ( http://arxiv.org/abs/2309.01614v1 ) ライセンス: Link先を確認 | Andrew Yuan, Alina Oprea, Cheng Tan | (参考訳) dropoutはディープラーニングの一般的なオペレータであり、トレーニング中にランダムにニューロンを落として過剰フィッティングを防止することを目的としている。
本稿では, DROPOUTATTACK と呼ばれるニューラルネットワークに対する新たな中毒攻撃群を紹介する。
DROPOUTATTACKは、ランダムに選択するのではなく、ドロップアウトするニューロンの選択を操作することで、ドロップアウトオペレータを攻撃します。
私たちは、幅広いシナリオをカバーする4つのdropoutattack変種を設計し、実装し、評価します。
これらの攻撃は訓練を遅らせたり止めたり、ターゲットクラスの予測精度を破壊したり、ターゲットクラスの精度やリコールを妨害したりする。
CIFAR-100上でのVGG-16モデルのトレーニング実験では、モデル精度の劣化を招くことなく、犠牲者のクラスを34.6%(81.7%から47.1%)削減できる。 Dropout is a common operator in deep learning, aiming to prevent overfitting by randomly dropping neurons during training. This paper introduces a new family of poisoning attacks against neural networks named DROPOUTATTACK. DROPOUTATTACK attacks the dropout operator by manipulating the selection of neurons to drop instead of selecting them uniformly at random. We design, implement, and evaluate four DROPOUTATTACK variants that cover a broad range of scenarios. These attacks can slow or stop training, destroy prediction accuracy of target classes, and sabotage either precision or recall of a target class. In our experiments of training a VGG-16 model on CIFAR-100, our attack can reduce the precision of the victim class by 34.6% (from 81.7% to 47.1%) without incurring any degradation in model accuracy | 翻訳日:2023-09-06 18:20:35 公開日:2023-09-04 |
# ハイブリッドHPCQCツールチェーンの実現に向けて Toward a Unified Hybrid HPCQC Toolchain ( http://arxiv.org/abs/2309.01661v1 ) ライセンス: Link先を確認 | Philipp Seitz, Amr Elsharkawy, Xiao-Ting Michelle To, Martin Schulz | (参考訳) 量子コンピューティング(QC)の分野では、QCと高性能コンピューティング(HPC)要素(量子ハードウェア、古典的ハードウェア、両方のソフトウェアインフラなど)の効率的でシームレスな統合が重要な役割を担っている。
本稿では,ハイブリッド量子古典システムのための統一ツールチェーンの開発について述べる。
本研究は,スケーラビリティ,クロステクノロジー実行,事前最適化(aot)といった課題に対処する,統合ハイブリッドハイパフォーマンスコンピューティング-量子コンピューティング(hpcqc)ツールチェーンの設計を提案する。 In the expanding field of Quantum Computing (QC), efficient and seamless integration of QC and high performance computing (HPC) elements (e.g., quantum hardware, classical hardware, and software infrastructure on both sides) plays a crucial role. This paper addresses the development of a unified toolchain designed for hybrid quantum-classical systems. Our work proposes a design for a unified hybrid high performance computing - quantum computing (HPCQC) toolchain that tackles pressing issues such as scalability, cross-technology execution, and ahead-of-time (AOT) optimization. | 翻訳日:2023-09-06 18:15:02 公開日:2023-09-04 |
# 大規模言語モデルにおける心の理論--ヒト脳における単一ニューロンと並行して Unveiling Theory of Mind in Large Language Models: A Parallel to Single Neurons in the Human Brain ( http://arxiv.org/abs/2309.01660v1 ) ライセンス: Link先を確認 | Mohsen Jamali, Ziv M. Williams, Jing Cai | (参考訳) 近年の発展に伴い、大言語モデル(llm)は、我々の意識的な心に関連する複雑な認知能力であり、他人の信念や視点を推測できる、あるレベルの心の理論(tom)を示すことが判明した。
ヒトのToM能力は、背側中頭前皮質(dmPFC)ニューロンを含む広範囲に相互に結合した脳ネットワークの神経活動に由来すると考えられているが、LLMのToMの能力や、そのヒトとの類似性は明らかになっていない。
本研究では,ヒトToMを介するdmPFCニューロンからインスピレーションを得た。
意外なことに、LSM内に隠れた埋め込み(人工ニューロン)が真または偽の信頼性試験に対して顕著な応答性を示すようになり、両者が顕著に類似していることが判明した。
これらの人工埋込み応答は、モデルのサイズに依存する特性であるToMタスク中のLLMの性能と密接に相関していた。
さらに、他の信念は埋め込み全体を用いて正確に復号化することができ、人口レベルでの埋め込みのToM能力の存在を示唆している。
以上の結果から, 人工モデルとヒト脳ニューロンとの並行性を示す最初の証拠として, ToMの特徴に反応してその活性を修飾するLDMの埋め込み特性が明らかとなった。 With their recent development, large language models (LLMs) have been found to exhibit a certain level of Theory of Mind (ToM), a complex cognitive capacity that is related to our conscious mind and that allows us to infer another's beliefs and perspective. While human ToM capabilities are believed to derive from the neural activity of a broadly interconnected brain network, including that of dorsal medial prefrontal cortex (dmPFC) neurons, the precise processes underlying LLM's capacity for ToM or their similarities with that of humans remains largely unknown. In this study, we drew inspiration from the dmPFC neurons subserving human ToM and employed a similar methodology to examine whether LLMs exhibit comparable characteristics. Surprisingly, our analysis revealed a striking resemblance between the two, as hidden embeddings (artificial neurons) within LLMs started to exhibit significant responsiveness to either true- or false-belief trials, suggesting their ability to represent another's perspective. These artificial embedding responses were closely correlated with the LLMs' performance during the ToM tasks, a property that was dependent on the size of the models. Further, the other's beliefs could be accurately decoded using the entire embeddings, indicating the presence of the embeddings' ToM capability at the population level. Together, our findings revealed an emergent property of LLMs' embeddings that modified their activities in response to ToM features, offering initial evidence of a parallel between the artificial model and neurons in the human brain. | 翻訳日:2023-09-06 18:14:51 公開日:2023-09-04 |
# 分極化ソーシャルメディアにおける進化する言語的多様性 Evolving linguistic divergence on polarizing social media ( http://arxiv.org/abs/2309.01659v1 ) ライセンス: Link先を確認 | Andres Karjus, Christine Cuskley | (参考訳) 言語の変化は多くの要因に影響されているが、複数の言語パターンや形態が共存する、あるいは異なる言語コミュニティが言語を徐々に異なる方法で使用する、同期的変化から始まることが多い。
地域や経済的な理由の他に、地域社会は政治的アライメントに基づいて分離し、分離することができる。
後者は政治的分極と呼ばれ、世界中で社会的な関心が高まっている。
ここでは、ソーシャルメディアデータを用いて、アメリカにおけるパルチザン左派間の言語的差異を地図化し、定量化する。
我々は、特定のプラットフォームに従わない(潜在的に偏りのある)ニュースメディアアカウントに基づいて、(ソーシャルな)メディアユーザをその政治的嗜好によって定義する一般的な方法を開発した。
われわれのデータは、ソーシャルメディアプラットフォームTwitter(現在は「X」)から10万のユーザー(約2000万語)による150万の短い投稿で構成されている。
このサンプルの説明には、72の大ニュースメディアアカウントのフォロワーリスト(n=422M)のマイニングが含まれる。
会話や単語の頻度、メッセージの感情、単語や絵文字の語彙的意味論といったトピックのばらつきを定量化する。
これらすべての側面、特に会話のトピックやテーマにおいて、言語的な相違の兆候が過去の研究と一致している。
アメリカ英語はいまだにその大きな言語コミュニティの中でほとんど理解可能であるが、我々の発見は、継続する分極と潜在的な言語的相違によって、最終的に誤コミュニケーションが発生する可能性がある領域を指摘している。
データマイニング、語彙統計学、機械学習、大規模言語モデル、体系的な人間のアノテーションアプローチを組み合わせた方法論は、主に言語とプラットフォームに依存しない。
言い換えれば、ここではアメリカの政治的分断と米国英語に焦点を当てているが、同じアプローチは他の国、言語、ソーシャルメディアプラットフォームにも適用できる。 Language change is influenced by many factors, but often starts from synchronic variation, where multiple linguistic patterns or forms coexist, or where different speech communities use language in increasingly different ways. Besides regional or economic reasons, communities may form and segregate based on political alignment. The latter, referred to as political polarization, is of growing societal concern across the world. Here we map and quantify linguistic divergence across the partisan left-right divide in the United States, using social media data. We develop a general methodology to delineate (social) media users by their political preference, based on which (potentially biased) news media accounts they do and do not follow on a given platform. Our data consists of 1.5M short posts by 10k users (about 20M words) from the social media platform Twitter (now "X"). Delineating this sample involved mining the platform for the lists of followers (n=422M) of 72 large news media accounts. We quantify divergence in topics of conversation and word frequencies, messaging sentiment, and lexical semantics of words and emoji. We find signs of linguistic divergence across all these aspects, especially in topics and themes of conversation, in line with previous research. While US American English remains largely intelligible within its large speech community, our findings point at areas where miscommunication may eventually arise given ongoing polarization and therefore potential linguistic divergence. Our methodology - combining data mining, lexicostatistics, machine learning, large language models and a systematic human annotation approach - is largely language and platform agnostic. In other words, while we focus here on US political divides and US English, the same approach is applicable to other countries, languages, and social media platforms. | 翻訳日:2023-09-06 18:14:22 公開日:2023-09-04 |
# 局所定常グラフプロセス Locally Stationary Graph Processes ( http://arxiv.org/abs/2309.01657v1 ) ライセンス: Link先を確認 | Abdullah Canbolat and Elif Vural | (参考訳) 定常グラフプロセスモデルは、不規則なネットワークトポロジ上に収集されたデータセットの分析と推論によく用いられる。
既存の手法のほとんどは、グラフ全体に対してグローバルに有効である単一の定常プロセスモデルを持つグラフ信号を表すが、多くの実践的な問題では、そのプロセスの特徴はグラフの異なる領域の局所的な変化に該当する可能性がある。
本研究では,局所定常性の概念を不規則グラフ領域に拡張することを目的とした,局所定常グラフ処理(lsgp)モデルを提案する。
我々は,各成分に付着する過程の程度がグラフ上でスムーズに変化するように,各成分プロセスの集合の組み合わせとして全体プロセスを表現することにより,局所定常性を特徴付ける。
プロセスの実現からLSGPモデルを計算するためのアルゴリズムを提案し、またWSSプロセスを用いてLSGPを局所的に近似する。
信号補間問題に関する実験は,提案手法が技術と競合する正確な信号表現を提供することを示す。 Stationary graph process models are commonly used in the analysis and inference of data sets collected on irregular network topologies. While most of the existing methods represent graph signals with a single stationary process model that is globally valid on the entire graph, in many practical problems, the characteristics of the process may be subject to local variations in different regions of the graph. In this work, we propose a locally stationary graph process (LSGP) model that aims to extend the classical concept of local stationarity to irregular graph domains. We characterize local stationarity by expressing the overall process as the combination of a set of component processes such that the extent to which the process adheres to each component varies smoothly over the graph. We propose an algorithm for computing LSGP models from realizations of the process, and also study the approximation of LSGPs locally with WSS processes. Experiments on signal interpolation problems show that the proposed process model provides accurate signal representations competitive with the state of the art. | 翻訳日:2023-09-06 18:13:52 公開日:2023-09-04 |
# 超解像とフレームフィールド学習を用いた密集地における建物足跡抽出 Building Footprint Extraction in Dense Areas using Super Resolution and Frame Field Learning ( http://arxiv.org/abs/2309.01656v1 ) ライセンス: Link先を確認 | Vuong Nguyen, Anh Ho, Duc-Anh Vu, Nguyen Thi Ngoc Anh, Tran Ngoc Thang | (参考訳) 標準的な空中データセットでの注目すべき結果にもかかわらず、現在の最先端のシステムは、これらの領域によって引き起こされる困難な特性とデータ可用性の制限により、密集した地域で正確な建物の足跡を作れなかった。
本稿では,多角形建物抽出における課題に対処する枠組みを提案する。
まず、スーパーレゾリューションを使用して空中画像の空間解像度を高め、より詳細な詳細を捉える。
この強調画像は、セグメント化ヘッドとフレームフィールド学習ヘッドからなるマルチタスク学習モジュールへの入力として機能し、不規則な構造を効果的に処理する。
本モデルは適応的損失重み付けにより制御され, 重なり合う建物やデータ品質の低いため, 高いエッジと細粒度ポリゴンの抽出が可能となる。
密集地を模したインドのスラム地域での大規模な実験により,提案手法が最先端の手法を大幅に上回ることを示した。 Despite notable results on standard aerial datasets, current state-of-the-arts fail to produce accurate building footprints in dense areas due to challenging properties posed by these areas and limited data availability. In this paper, we propose a framework to address such issues in polygonal building extraction. First, super resolution is employed to enhance the spatial resolution of aerial image, allowing for finer details to be captured. This enhanced imagery serves as input to a multitask learning module, which consists of a segmentation head and a frame field learning head to effectively handle the irregular building structures. Our model is supervised by adaptive loss weighting, enabling extraction of sharp edges and fine-grained polygons which is difficult due to overlapping buildings and low data quality. Extensive experiments on a slum area in India that mimics a dense area demonstrate that our proposed approach significantly outperforms the current state-of-the-art methods by a large margin. | 翻訳日:2023-09-06 18:13:36 公開日:2023-09-04 |
# 量子力学の測定仮定は冗長ではない」に対する応答 Response to "The measurement postulates of quantum mechanics are not redundant" ( http://arxiv.org/abs/2309.01650v1 ) ライセンス: Link先を確認 | Llu\'is Masanes, Thomas D. Galley, Markus P. M\"uller | (参考訳) エイドリアン・ケントは、最近論文[Nat. Comms. 10, 1361 (2019)]の批判(arXiv:2307.06191])を発表し、そこでは、量子力学の測定仮定は、有限次元ヒルベルト空間の混合状態の集合が有限次元であると仮定すれば、他の仮定から導かれる。
ケントは、量子力学を仮説的「ポスト量子」測定装置で補う理論を考察した。
これらの理論のそれぞれが、ヒルベルト空間の光線ではない純粋状態(すなわち極大知識の状態)を量子力学の「純状態仮定」と矛盾して含んでいることを証明している。
また、これらの代替案が混合状態の有限次元性に違反していることも証明する。
これらの2つの事実は別々に反論を無効にする。
本稿では,上述の論文で用いられる仮定を明らかにするとともに,実測値や力学の修正による状態空間の構造の感度,状態状態,物理系,および状態空間の構造の感度について考察する。 Adrian Kent has recently presented a critique [arXiv:2307.06191] of our paper [Nat. Comms. 10, 1361 (2019)] in which he claims to refute our main result: the measurement postulates of quantum mechanics can be derived from the rest of postulates, once we assume that the set of mixed states of a finite-dimensional Hilbert space is finite-dimensional. To construct his argument, Kent considers theories resulting from supplementing quantum mechanics with hypothetical "post-quantum" measurement devices. We prove that each of these theories contains pure states (i.e. states of maximal knowledge) which are not rays of the Hilbert space, in contradiction with the "pure state postulate" of quantum mechanics. We also prove that these alternatives violate the finite-dimensionality of mixed states. Each of these two facts separately invalidates the refutation. In this note we also clarify the assumptions used in the above-cited paper and discuss the notions of pure state, physical system, and the sensitivity of the structure of the state space under modifications of the measurements or the dynamics. | 翻訳日:2023-09-06 18:13:18 公開日:2023-09-04 |
# ReLoc-PDR: グラフ最適化による視覚的再局在強化ペデストリアンデッドレコニング ReLoc-PDR: Visual Relocalization Enhanced Pedestrian Dead Reckoning via Graph Optimization ( http://arxiv.org/abs/2309.01646v1 ) ライセンス: Link先を確認 | Zongyang Chen, Xianfei Pan, Changhao Chen | (参考訳) 衛星デニド条件下で歩行者を正確に確実に位置決めすることは、依然として重要な課題である。
pedestrian dead reckoning (pdr) は、低コストの慣性センサを用いて歩行者の位置を推定するために用いられる。
しかし、PDRはセンサノイズ、誤ったステップ検出、不正確なストライド長推定によるドリフトの影響を受けやすい。
本研究ではPDRとグラフ最適化を用いた視覚的再局在化を組み合わせた融合フレームワークReLoc-PDRを提案する。
ReLoc-PDRは、時間関連の視覚観察と学習記述子を利用して、視覚的に劣化した環境で堅牢な位置決めを実現する。
グラフ最適化に基づくタキーカーネルとの融合機構は累積誤差を効果的に補正し、異常な視覚観察の影響を緩和する。
実世界の実験では、我々のReLoc-PDRは精度とロバスト性において代表的な手法を超越し、スマートフォンだけで正確な歩行者位置決めを達成している。 Accurately and reliably positioning pedestrians in satellite-denied conditions remains a significant challenge. Pedestrian dead reckoning (PDR) is commonly employed to estimate pedestrian location using low-cost inertial sensor. However, PDR is susceptible to drift due to sensor noise, incorrect step detection, and inaccurate stride length estimation. This work proposes ReLoc-PDR, a fusion framework combining PDR and visual relocalization using graph optimization. ReLoc-PDR leverages time-correlated visual observations and learned descriptors to achieve robust positioning in visually-degraded environments. A graph optimization-based fusion mechanism with the Tukey kernel effectively corrects cumulative errors and mitigates the impact of abnormal visual observations. Real-world experiments demonstrate that our ReLoc-PDR surpasses representative methods in accuracy and robustness, achieving accurte and robust pedestrian positioning results using only a smartphone in challenging environments such as less-textured corridors and dark nighttime scenarios. | 翻訳日:2023-09-06 18:12:54 公開日:2023-09-04 |
# 教師のフィードバックと自己フィードバックによるChatGPTに基づくフィードバックの有効性の探索:中国語から英語への翻訳から Exploring the effectiveness of ChatGPT-based feedback compared with teacher feedback and self-feedback: Evidence from Chinese to English translation ( http://arxiv.org/abs/2309.01645v1 ) ライセンス: Link先を確認 | Siyi Cao, Linping Zhong | (参考訳) 最先端のAIを搭載したChatbotであるChatGPTは、与えられたコマンドに対して素早くレスポンスを生成することができる。
ChatGPTには有用なフィードバックを提供する能力があることが報告されているが、教師のフィードバック(TF)や自己フィードバック(SF)など、従来のフィードバックアプローチと比較して、その効果が不明である。
本研究は,中国の翻訳・解釈マスター(mti)が作成した中国語と英語の翻訳テキストを比較し,3つのフィードバックタイプ(chatgpt-based feedback,tf,sf)に基づいて,第2外国語(esl/efl)として英語を学んだ。
その結果, TF-およびSF-Guided 翻訳テキストが ChatGPT に基づくフィードバックを上回り, BLEU スコアが示すように, BLEU スコアと Coh-Metrix の3次元にわたる言語的特徴を解析するために, BLEU スコアを用いて解析した。
言語的特徴について,ChatGPTに基づくフィードバックは,特に翻訳文の語彙能力と参照結合性の向上に優れていた。
しかし, TFとSFは, 受動的音声の誤用に対処するため, 構文関連スキルの開発に有効であることが判明した。
これらの多様な結果は、ChatGPTが翻訳実践における伝統的な教師主導の手法を補完する補助的資源としての可能性を示している。 ChatGPT,a cutting-edge AI-powered Chatbot,can quickly generate responses on given commands. While it was reported that ChatGPT had the capacity to deliver useful feedback, it is still unclear about its effectiveness compared with conventional feedback approaches,such as teacher feedback (TF) and self-feedback (SF). To address this issue, this study compared the revised Chinese to English translation texts produced by Chinese Master of Translation and Interpretation (MTI) students,who learned English as a Second/Foreign Language (ESL/EFL), based on three feedback types (i.e., ChatGPT-based feedback, TF and SF). The data was analyzed using BLEU score to gauge the overall translation quality as well as Coh-Metrix to examine linguistic features across three dimensions: lexicon, syntax, and cohesion.The findings revealed that TF- and SF-guided translation texts surpassed those with ChatGPT-based feedback, as indicated by the BLEU score. In terms of linguistic features,ChatGPT-based feedback demonstrated superiority, particularly in enhancing lexical capability and referential cohesion in the translation texts. However, TF and SF proved more effective in developing syntax-related skills,as it addressed instances of incorrect usage of the passive voice. These diverse outcomes indicate ChatGPT's potential as a supplementary resource, complementing traditional teacher-led methods in translation practice. | 翻訳日:2023-09-06 18:12:36 公開日:2023-09-04 |
# 動的プロビットにおける平滑分布の期待伝搬 Expectation propagation for the smoothing distribution in dynamic probit ( http://arxiv.org/abs/2309.01641v1 ) ライセンス: Link先を確認 | Niccol\`o Anceschi, Augusto Fasano, Giovanni Rebaudo | (参考訳) ガウス状態ダイナミクスを持つ動的プロビットモデルの滑らかな分布は、最近、統一スキュー正規族に属することが証明された。
これは、小型からモードの環境では計算的に扱いやすいが、高次元では計算的に非現実的になる可能性がある。
本研究では,近年のより汎用的な期待伝達(ep)アルゴリズムを適用し,そのような分布の推論を行うための効率的なepルーチンを導出する。
提案手法は,財務図解において,利用可能な近似アルゴリズムよりも精度が高くなることを示す。 The smoothing distribution of dynamic probit models with Gaussian state dynamics was recently proved to belong to the unified skew-normal family. Although this is computationally tractable in small-to-moderate settings, it may become computationally impractical in higher dimensions. In this work, adapting a recent more general class of expectation propagation (EP) algorithms, we derive an efficient EP routine to perform inference for such a distribution. We show that the proposed approximation leads to accuracy gains over available approximate algorithms in a financial illustration. | 翻訳日:2023-09-06 18:12:08 公開日:2023-09-04 |
# corgi^2: sgdのストレージ・アウェア・データシャッフルに対するオフライン・オンラインハイブリッドアプローチ Corgi^2: A Hybrid Offline-Online Approach To Storage-Aware Data Shuffling For SGD ( http://arxiv.org/abs/2309.01640v1 ) ライセンス: Link先を確認 | Etay Livne, Gal Kaplun, Eran Malach Shai, Shalev-Schwatz | (参考訳) 機械学習モデルのトレーニングに確率勾配降下(sgd)を使用する場合、データセットからランダムにサンプルされたサンプルをモデルに提供することが重要となる。
しかし、クラウドに格納された大規模データセットの場合、個々の例へのランダムアクセスはコストがかかり非効率であることが多い。
最近の研究 "cite{corgi}" では、CorgiPile と呼ばれるオンラインシャッフルアルゴリズムが提案されている。これはデータアクセスの効率を大幅に改善し、パフォーマンス損失がいくらかあるが、これは特に均一なシャード(例えばビデオデータセット)に格納された大きなデータセットに顕著である。
本稿では,コージパイル法のオフラインイテレーションと,それに続くオンラインイテレーションを組み合わせた,sgdのための2段階部分データシャッフル戦略を提案する。
corgipileのデータアクセス効率を損なうことなく、(均質なデータであっても)ランダムアクセスを持つsgdと同じように動作するのです。
本手法の収束特性の包括的理論的解析を行い,その実用的利点を実験的に示す。 When using Stochastic Gradient Descent (SGD) for training machine learning models, it is often crucial to provide the model with examples sampled at random from the dataset. However, for large datasets stored in the cloud, random access to individual examples is often costly and inefficient. A recent work \cite{corgi}, proposed an online shuffling algorithm called CorgiPile, which greatly improves efficiency of data access, at the cost some performance loss, which is particularly apparent for large datasets stored in homogeneous shards (e.g., video datasets). In this paper, we introduce a novel two-step partial data shuffling strategy for SGD which combines an offline iteration of the CorgiPile method with a subsequent online iteration. Our approach enjoys the best of both worlds: it performs similarly to SGD with random access (even for homogenous data) without compromising the data access efficiency of CorgiPile. We provide a comprehensive theoretical analysis of the convergence properties of our method and demonstrate its practical advantages through experimental results. | 翻訳日:2023-09-06 18:11:59 公開日:2023-09-04 |
# 3dインスタンスセグメンテーションのためのマスクアテンションフリートランスフォーマ Mask-Attention-Free Transformer for 3D Instance Segmentation ( http://arxiv.org/abs/2309.01692v1 ) ライセンス: Link先を確認 | Xin Lai, Yuhui Yuan, Ruihang Chu, Yukang Chen, Han Hu, Jiaya Jia | (参考訳) 近年,マスクの注意が関与する3Dインスタンスセグメンテーションがトランスフォーマーベースの手法で支配されている。
具体的には、オブジェクトクエリは、最初のクロスアテンションで初期インスタンスマスクによってガイドされ、それから同じ方法で反復的に洗練されます。
しかしながら、マスクアテンションパイプラインは通常、低リコールの初期インスタンスマスクによる収束が遅いことを観測する。
そこで我々はマスキングアテンション設計を放棄し、代わりに補助的なセンター回帰タスクを採用する。
センターレグレッションにより、低リコール問題を効果的に克服し、位置優先を課すことでクロスアテンションを行う。
この目標を達成するために,我々は位置認識設計のシリーズを開発した。
まず,3次元位置の空間分布を初期位置クエリとして学習する。
それらは3d空間に密に広がり、高いリコールでシーン内の物体を容易に捉えることができる。
さらに,クロスアテンションのための相対的位置エンコーディングと,より正確な位置クエリのための反復的改善を提案する。
実験の結果,既存の作業よりも4倍早く収束し,ScanNetv2 3Dインスタンスセグメンテーションベンチマークに新たな技術状態を設定し,さまざまなデータセットで優れたパフォーマンスを示す。
コードとモデルはhttps://github.com/dvlab-research/Mask-Attention-Free-Transformerで公開されている。 Recently, transformer-based methods have dominated 3D instance segmentation, where mask attention is commonly involved. Specifically, object queries are guided by the initial instance masks in the first cross-attention, and then iteratively refine themselves in a similar manner. However, we observe that the mask-attention pipeline usually leads to slow convergence due to low-recall initial instance masks. Therefore, we abandon the mask attention design and resort to an auxiliary center regression task instead. Through center regression, we effectively overcome the low-recall issue and perform cross-attention by imposing positional prior. To reach this goal, we develop a series of position-aware designs. First, we learn a spatial distribution of 3D locations as the initial position queries. They spread over the 3D space densely, and thus can easily capture the objects in a scene with a high recall. Moreover, we present relative position encoding for the cross-attention and iterative refinement for more accurate position queries. Experiments show that our approach converges 4x faster than existing work, sets a new state of the art on ScanNetv2 3D instance segmentation benchmark, and also demonstrates superior performance across various datasets. Code and models are available at https://github.com/dvlab-research/Mask-Attention-Free-Transformer. | 翻訳日:2023-09-06 18:03:39 公開日:2023-09-04 |
# mathattack: 大規模な言語モデルを数学の問題解決能力に攻撃する MathAttack: Attacking Large Language Models Towards Math Solving Ability ( http://arxiv.org/abs/2309.01686v1 ) ライセンス: Link先を確認 | Zihao Zhou and Qiufeng Wang and Mingyu Jin and Jie Yao and Jianan Ye and Wei Liu and Wei Wang and Xiaowei Huang and Kaizhu Huang | (参考訳) 近年,Large Language Models (LLMs) のブームにより,数学語問題 (MWP) の解法の研究が盛んに進んでいる。
しかし,数学におけるLLMの安全性について検討する研究はほとんどない。
LLMを用いた場合のプロンプトを攻撃するのではなく、数学問題の解法におけるセキュリティの本質に近いMWPサンプルを攻撃するためのMathAttackモデルを提案する。
従来のテキスト敵攻撃と比較して、攻撃中に元のMWPの数学的論理を保存することが不可欠である。
そこで本研究では,凍結した論理エントリを識別する論理エンティティ認識を提案する。
その後、残りのテキストは、ワードレベルアタッカーを採用することで攻撃される。
さらに,計算能力におけるLLMの堅牢性を評価するために,新しいデータセットRobustMathを提案する。
robustmathと他の2つの数学ベンチマークデータセットgsm8kとmultiairthに関する広範な実験は、mathattackがllmの数学解決能力を効果的に攻撃できることを示しています。
実験では,(1)精度の高いllmからの敵のサンプルは,より低い精度でllmを攻撃するのにも有効であること,(2)複雑なmwp(より解くステップ,より長いテキスト,より多くの数値など)は攻撃に弱いこと,(3)少数のプロンプトで敵のサンプルを使用することで,llmの堅牢性を向上させることができること,などを観察した。
最後に、我々の実践と観察が、数学の解法能力におけるLLMの堅牢性を高める重要な試みとなることを願っている。
コードとデータセットをリリースします。 With the boom of Large Language Models (LLMs), the research of solving Math Word Problem (MWP) has recently made great progress. However, there are few studies to examine the security of LLMs in math solving ability. Instead of attacking prompts in the use of LLMs, we propose a MathAttack model to attack MWP samples which are closer to the essence of security in solving math problems. Compared to traditional text adversarial attack, it is essential to preserve the mathematical logic of original MWPs during the attacking. To this end, we propose logical entity recognition to identify logical entries which are then frozen. Subsequently, the remaining text are attacked by adopting a word-level attacker. Furthermore, we propose a new dataset RobustMath to evaluate the robustness of LLMs in math solving ability. Extensive experiments on our RobustMath and two another math benchmark datasets GSM8K and MultiAirth show that MathAttack could effectively attack the math solving ability of LLMs. In the experiments, we observe that (1) Our adversarial samples from higher-accuracy LLMs are also effective for attacking LLMs with lower accuracy (e.g., transfer from larger to smaller-size LLMs, or from few-shot to zero-shot prompts); (2) Complex MWPs (such as more solving steps, longer text, more numbers) are more vulnerable to attack; (3) We can improve the robustness of LLMs by using our adversarial samples in few-shot prompts. Finally, we hope our practice and observation can serve as an important attempt towards enhancing the robustness of LLMs in math solving ability. We will release our code and dataset. | 翻訳日:2023-09-06 18:03:20 公開日:2023-09-04 |
# CRUISE-Screening: Living Literature Reviews Toolbox CRUISE-Screening: Living Literature Reviews Toolbox ( http://arxiv.org/abs/2309.01684v1 ) ライセンス: Link先を確認 | Wojciech Kusa, Petr Knoth, Allan Hanbury | (参考訳) 研究に追随し、関連する仕事を見つけることは、いまだに学者にとって時間のかかる作業である。
研究者たちは何千もの研究を掘り下げて、関連するものをいくつか特定します。
自動化技術は、このタスクの効率性と有効性を高めるのに役立つ。
CRUISE-Screeningは,生物文献レビューを行うウェブベースのアプリケーションであり,特定の分野における最新の研究を反映して継続的に更新される文献レビューの一種である。
CRUISE-ScreeningはAPIを介して複数の検索エンジンに接続しており、定期的に検索結果を更新することができる。
さらに、テキスト分類と質問応答モデルを用いて、関連する出版物のスクリーニングを容易にすることができる。
CRUISE-Screeningは、文献レビューを行う研究者と、引用スクリーニングプロセスを自動化してアルゴリズムを検証する研究者の両方で使用することができる。
アプリケーションはオープンソースで、https://github.com/projectdossier/cruise-screening、このurlでデモが提供されている。
Appendix Aにおけるツールの限界について論じる。 Keeping up with research and finding related work is still a time-consuming task for academics. Researchers sift through thousands of studies to identify a few relevant ones. Automation techniques can help by increasing the efficiency and effectiveness of this task. To this end, we developed CRUISE-Screening, a web-based application for conducting living literature reviews - a type of literature review that is continuously updated to reflect the latest research in a particular field. CRUISE-Screening is connected to several search engines via an API, which allows for updating the search results periodically. Moreover, it can facilitate the process of screening for relevant publications by using text classification and question answering models. CRUISE-Screening can be used both by researchers conducting literature reviews and by those working on automating the citation screening process to validate their algorithms. The application is open-source: https://github.com/ProjectDoSSIER/cruise-screening, and a demo is available under this URL: https://citation-screening.ec.tuwien.ac.at. We discuss the limitations of our tool in Appendix A. | 翻訳日:2023-09-06 18:02:50 公開日:2023-09-04 |
# ビデオ異常検出のための事前知識誘導ネットワーク Prior Knowledge Guided Network for Video Anomaly Detection ( http://arxiv.org/abs/2309.01682v1 ) ライセンス: Link先を確認 | Zhewen Deng, Dongyue Chen, Shizhuo Deng | (参考訳) ビデオ異常検出(VAD)は、ビデオ内の異常事象を検出し、インテリジェントなビデオ監視において重要な、複雑なタスクを提示する。
既存の研究はしばしば、限られた正規データから得られた機能のみに集中し、広範囲の自然画像データセットに存在する潜在的な事前知識を無視している。
この制約に対処するために,VADタスクのための事前知識誘導ネットワーク(PKG-Net)を提案する。
まず,教師-学生のネットワークに自動エンコーダネットワークを組み込んで,将来的なフレーム予測と教師ネットワーク模倣という,未知のサンプルに対するより優れた一般化能力を提供する2つのプロキシタスクを学習する。
第2に, 本モデルのマルチスケール検出能力を高めるために, 適切な特徴ブロック上の知識蒸留も提案されている。
さらに、予測誤差と教師/学生の特徴矛盾を組み合わせ、推論サンプルの異常スコアをより包括的に評価する。
提案手法の有効性と精度を3つの公開ベンチマークで検証した。 Video Anomaly Detection (VAD) involves detecting anomalous events in videos, presenting a significant and intricate task within intelligent video surveillance. Existing studies often concentrate solely on features acquired from limited normal data, disregarding the latent prior knowledge present in extensive natural image datasets. To address this constraint, we propose a Prior Knowledge Guided Network(PKG-Net) for the VAD task. First, an auto-encoder network is incorporated into a teacher-student architecture to learn two designated proxy tasks: future frame prediction and teacher network imitation, which can provide better generalization ability on unknown samples. Second, knowledge distillation on proper feature blocks is also proposed to increase the multi-scale detection ability of the model. In addition, prediction error and teacher-student feature inconsistency are combined to evaluate anomaly scores of inference samples more comprehensively. Experimental results on three public benchmarks validate the effectiveness and accuracy of our method, which surpasses recent state-of-the-arts. | 翻訳日:2023-09-06 18:02:33 公開日:2023-09-04 |
# 量子情報支援完全能動宇宙最適化(QICAS) Quantum Information-Assisted Complete Active Space Optimization (QICAS) ( http://arxiv.org/abs/2309.01676v1 ) ライセンス: Link先を確認 | Lexin Ding, Stefan Knecht, Christian Schilling | (参考訳) 自動能動空間選択は多構成法において最も困難かつ重要な側面の1つである。
本研究では,量子情報支援完全能動空間最適化(QICAS)方式を提案する。
他の相関に基づく選択スキームとQICASを区別するもの
(i)不明瞭かつ予測的な方法で電子構造の相関を評価する量子情報からの独特な尺度の使用
(ii)活性空間近似により廃棄される相関を最小化する軌道最適化ステップ。
これらの特徴を具備したQICASは、化学精度でCASCIエネルギーが対応するCASSCFエネルギーに達するための、より小さな相関分子の最適化軌道に対して収まる。
Chromium二量体のようなより困難なシステムでは、QICASは数値収束に必要なイテレーション数を劇的に減らし、CASSCFの出発点として優れたものである。
したがって、本研究は、エネルギー的に最適な非活性空間は、主に最小の絡み合いを含むものであるという、深い経験的予想を検証している。 Automated active space selection is arguably one of the most challenging and essential aspects of multiconfigurational methods. In this work we propose an effective quantum information-assisted complete active space optimization (QICAS) scheme. What sets QICAS apart from other correlation-based selection schemes is (i) the use of unique measures from quantum information that assess the correlation in electronic structures in an unambiguous and predictive manner, and (ii) an orbital optimization step that minimizes the correlation discarded by the active space approximation. Equipped with these features QICAS yields for smaller correlated molecules sets of optimized orbitals with respect to which the CASCI energy reaches the corresponding CASSCF energy within chemical accuracy. For more challenging systems such as the Chromium dimer, QICAS offers an excellent starting point for CASSCF by greatly reducing the number of iterations required for numerical convergence. Accordingly, our study validates a profound empirical conjecture: the energetically optimal non-active spaces are predominantly those that contain the least entanglement. | 翻訳日:2023-09-06 18:02:15 公開日:2023-09-04 |
# Prompt me a Dataset: 基礎モデルを用いた歴史的画像データセット作成を促すテキストイメージの検討 Prompt me a Dataset: An investigation of text-image prompting for historical image dataset creation using foundation models ( http://arxiv.org/abs/2309.01674v1 ) ライセンス: Link先を確認 | Hassan El-Hajj and Matteo Valleriani | (参考訳) 本稿では,基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案し,テキスト画像のプロンプトとその複雑さの異なる人文データセット上での有効性を評価する。
このアプローチの動機は、歴史的なテキストとともに印刷された視覚的要素の歴史家の関心の高さと、他の領域と比較して人文科学における注釈付きデータセットの相対的欠如にある。
そこで本研究では,FundDINOとMetaのSegment-Anything-Model(SAM)を利用して,下流開発タスクやデータセット作成に使用可能な履歴資料から,視覚的データのかなりの部分を抽出し,異なる言語的プロンプトが検出に与える影響を評価する。 In this paper, we present a pipeline for image extraction from historical documents using foundation models, and evaluate text-image prompts and their effectiveness on humanities datasets of varying levels of complexity. The motivation for this approach stems from the high interest of historians in visual elements printed alongside historical texts on the one hand, and from the relative lack of well-annotated datasets within the humanities when compared to other domains. We propose a sequential approach that relies on GroundDINO and Meta's Segment-Anything-Model (SAM) to retrieve a significant portion of visual data from historical documents that can then be used for downstream development tasks and dataset creation, as well as evaluate the effect of different linguistic prompts on the resulting detections. | 翻訳日:2023-09-06 18:01:58 公開日:2023-09-04 |
# 自己教師付きセットラーニングによるブラインドバイオシークエンシング Blind Biological Sequence Denoising with Self-Supervised Set Learning ( http://arxiv.org/abs/2309.01670v1 ) ライセンス: Link先を確認 | Nathan Ng, Ji Won Park, Jae Hyeon Lee, Ryan Lewis Kelly, Stephen Ra, Kyunghyun Cho | (参考訳) 生物学的シーケンス解析は、シークエンシングプラットフォームの不正確な出力を識別する能力に依存する。
我々は,複数のサブリードを生成するために,高スループット長読プラットフォームを用いて短いシーケンスを繰り返し読み出す,あるいは同じシーケンスのノイズの多い観測を行うような,一般的な設定を考える。
これらのサブリードをアライメントベースのアプローチで表示することは、あまりに少ないサブリードやエラー率が高すぎると失敗することが多い。
本稿では,クリーンソースのシーケンスラベルを直接観察することなく,シーケンスの集合を盲目的に識別する新しい手法を提案する。
提案手法であるSelf-Supervised Set Learning (SSSL) は,サブリードを埋め込み空間に集約し,サブリードの中間点として潜時空間とシークエンス空間の両方に1セットの埋め込みを推定する。
この集合埋め込みはサブリードの「平均値」を表し、クリーンシーケンスの予測にデコードすることができる。
長読DNAデータのシミュレーション実験では、SSSLメソッドは17%のエラー率で$\leq 6$subreadsの小さな読み込みと、8%のエラー率で$>6$subreadsの大規模な読み込みを識別する。
抗体配列の実際のデータセットでは、ssslは2つの自己教師付きメトリクスのベースラインよりも改善され、テストセットの60%以上を占める難しい小さな読み込みを大幅に改善する。
これらの読み出しを正確に識別することで、SSSLは下流の科学的応用のための高スループットDNAシークエンシングデータの可能性をよりよく認識することを約束する。 Biological sequence analysis relies on the ability to denoise the imprecise output of sequencing platforms. We consider a common setting where a short sequence is read out repeatedly using a high-throughput long-read platform to generate multiple subreads, or noisy observations of the same sequence. Denoising these subreads with alignment-based approaches often fails when too few subreads are available or error rates are too high. In this paper, we propose a novel method for blindly denoising sets of sequences without directly observing clean source sequence labels. Our method, Self-Supervised Set Learning (SSSL), gathers subreads together in an embedding space and estimates a single set embedding as the midpoint of the subreads in both the latent and sequence spaces. This set embedding represents the "average" of the subreads and can be decoded into a prediction of the clean sequence. In experiments on simulated long-read DNA data, SSSL methods denoise small reads of $\leq 6$ subreads with 17% fewer errors and large reads of $>6$ subreads with 8% fewer errors compared to the best baseline. On a real dataset of antibody sequences, SSSL improves over baselines on two self-supervised metrics, with a significant improvement on difficult small reads that comprise over 60% of the test set. By accurately denoising these reads, SSSL promises to better realize the potential of high-throughput DNA sequencing data for downstream scientific applications. | 翻訳日:2023-09-06 18:01:42 公開日:2023-09-04 |
# Donkii: アノテーションエラー検出メソッドはインストラクションチューニングデータセットのエラーを検出することができるか? Donkii: Can Annotation Error Detection Methods Find Errors in Instruction-Tuning Datasets? ( http://arxiv.org/abs/2309.01669v1 ) ライセンス: Link先を確認 | Leon Weber-Genzel and Robert Litschko and Ekaterina Artemova and Barbara Plank | (参考訳) インストラクションチューニングは、Large Language Models(LLMs)のトレーニングパイプラインの不可欠な部分となり、高いパフォーマンス向上をもたらすことが示されている。
直交的な研究で、金標準ラベルの品質問題を検出するツールとしてアノテーション誤り検出(AED)が登場した。
しかし、これまでのところ、AEDメソッドの応用は差別的な設定に限定されている。
AED法がジェネレーティブLLMを通じて広まりつつあるジェネレーティブ・セッティングにどの程度の精度で一般化するかは、未解決の問題である。
そこで本研究では,命令チューニングデータであるDonkiiについて,AEDの最初の新しいベンチマークを示す。
専門家によるアノテーションとセミオートマチックな手法で強化された3つの命令チューニングデータセットを含んでいる。
これら3つのデータセットにはクリアカットエラーが含まれており、命令調整されたLLMに直接伝播することがある。
そこで本研究では,新たに導入されたデータセットを総合的に評価し,AEDベースラインを4つ提案する。
以上の結果から,適切なAED手法とモデルサイズを選択することが極めて重要であることが示唆された。
インサイトを得るために、インストラクションチューニングデータセットの品質が下流のパフォーマンスにどのように影響するかを調べるための最初のケーススタディを提供する。 Instruction-tuning has become an integral part of training pipelines for Large Language Models (LLMs) and has been shown to yield strong performance gains. In an orthogonal line of research, Annotation Error Detection (AED) has emerged as a tool for detecting quality issues of gold-standard labels. But so far, the application of AED methods is limited to discriminative settings. It is an open question how well AED methods generalize to generative settings which are becoming widespread via generative LLMs. In this work, we present a first and new benchmark for AED on instruction-tuning data: Donkii. It encompasses three instruction-tuning datasets enriched with annotations by experts and semi-automatic methods. We find that all three datasets contain clear-cut errors that sometimes directly propagate into instruction-tuned LLMs. We propose four AED baselines for the generative setting and evaluate them comprehensively on the newly introduced dataset. Our results demonstrate that choosing the right AED method and model size is indeed crucial, thereby deriving practical recommendations. To gain insights, we provide a first case-study to examine how the quality of the instruction-tuning datasets influences downstream performance. | 翻訳日:2023-09-06 18:01:12 公開日:2023-09-04 |
# 高次元データに対するロバストペナル化最小2乗の深さトリミング残差回帰 Robust penalized least squares of depth trimmed residuals regression for high-dimensional data ( http://arxiv.org/abs/2309.01666v1 ) ライセンス: Link先を確認 | Yijun Zuo | (参考訳) ビッグデータ時代のデータへの挑戦には
(i) 次元 $p$ は、しばしばサンプルサイズ $n$ よりも大きい
(ii)外れ値や汚染点がしばしば隠蔽され、検出が困難になる。
挑戦
(i)ほとんどの従来手法は適用できない。
そのため、統計学、計算機科学、生物医学のコミュニティから大きな注目を集めている。
近代的な高次元データ解析法として, ペナルティ化回帰法が数多く導入されている。
その挑戦に不当な注意が払われた
(ii)だが。
罰則回帰法は、非常にうまく仕事をこなすことができ、課題に対処することが期待される
(ii)同時に。
しかし、そのほとんどは、この記事で明かされているように、1つの外れ値(または1つの敵の汚染点)によって分解することができる。
後者は、その頑健さの観点から文学における重回帰法を体系的に検討し、定量的評価を提供し、それらのほとんどが1つの外れ値で崩壊できることを明らかにする。
その結果, 最小2乗の深さトリミング残差に基づいて, 新たな厳格化回帰法を提案し, 慎重に検討した。
シミュレーションおよび実データを用いた実験により,提案手法は検討された場合の予測精度や予測精度において,先進的な競合に勝ることを示した。 Challenges with data in the big-data era include (i) the dimension $p$ is often larger than the sample size $n$ (ii) outliers or contaminated points are frequently hidden and more difficult to detect. Challenge (i) renders most conventional methods inapplicable. Thus, it attracts tremendous attention from statistics, computer science, and bio-medical communities. Numerous penalized regression methods have been introduced as modern methods for analyzing high-dimensional data. Disproportionate attention has been paid to the challenge (ii) though. Penalized regression methods can do their job very well and are expected to handle the challenge (ii) simultaneously. Most of them, however, can break down by a single outlier (or single adversary contaminated point) as revealed in this article. The latter systematically examines leading penalized regression methods in the literature in terms of their robustness, provides quantitative assessment, and reveals that most of them can break down by a single outlier. Consequently, a novel robust penalized regression method based on the least sum of squares of depth trimmed residuals is proposed and studied carefully. Experiments with simulated and real data reveal that the newly proposed method can outperform some leading competitors in estimation and prediction accuracy in the cases considered. | 翻訳日:2023-09-06 18:00:54 公開日:2023-09-04 |
# 大規模言語モデルから生まれるきめ細かな感情処理機能 Fine-grained Affective Processing Capabilities Emerging from Large Language Models ( http://arxiv.org/abs/2309.01664v1 ) ライセンス: Link先を確認 | Joost Broekens, Bernhard Hilpert, Suzan Verberne, Kim Baraka, Patrick Gebhard and Aske Plaat | (参考訳) 大規模言語モデル、特に生成事前学習変換器(GPT)は、多種多様な言語関連タスクにおいて印象的な結果を示す。
本稿では,ChatGPTのゼロショット機能について,プロンプトのみを用いて情緒的な計算処理を行う。
私たちはChatGPTをお見せします。
a) 価値,覚醒及び支配の次元において有意義な感情分析を行う
b)感情のカテゴリー及びこれらの感情的次元における有意義な感情表現
c) OCC評価モデルの迅速な計算実装に基づいて,状況の基本的な評価に基づく感情誘発を行うことができる。
まず、複雑な影響処理タスクを解決できる能力は、広範なデータセットでトレーニングされた言語ベースのトークン予測から生まれます。
第二に、人間の感情をシミュレート、処理、分析するための大きな言語モデルの可能性を示し、感情分析、社会的対話型エージェント、社会ロボティクスといった様々な応用に重要な意味を持つ。 Large language models, in particular generative pre-trained transformers (GPTs), show impressive results on a wide variety of language-related tasks. In this paper, we explore ChatGPT's zero-shot ability to perform affective computing tasks using prompting alone. We show that ChatGPT a) performs meaningful sentiment analysis in the Valence, Arousal and Dominance dimensions, b) has meaningful emotion representations in terms of emotion categories and these affective dimensions, and c) can perform basic appraisal-based emotion elicitation of situations based on a prompt-based computational implementation of the OCC appraisal model. These findings are highly relevant: First, they show that the ability to solve complex affect processing tasks emerges from language-based token prediction trained on extensive data sets. Second, they show the potential of large language models for simulating, processing and analyzing human emotions, which has important implications for various applications such as sentiment analysis, socially interactive agents, and social robotics. | 翻訳日:2023-09-06 18:00:35 公開日:2023-09-04 |
# 量子化生成モデルのソフトマックスバイアス補正 Softmax Bias Correction for Quantized Generative Models ( http://arxiv.org/abs/2309.01729v1 ) ライセンス: Link先を確認 | Nilesh Prasad Pandey, Marios Fournarakis, Chirag Patel, Markus Nagel | (参考訳) ポストトレーニング量子化(PTQ)は、安定拡散や大言語モデルのような大きな生成モデルのためのゴート圧縮技術である。
PTQ法は一般に、量子化ノイズに非常に敏感であることが示されているため、ソフトマックスの活性化を高い精度で維持する。
しかし、リソース制約のあるエッジデバイスでの推論において、これは大きなランタイムと電力オーバーヘッドにつながる可能性がある。
本研究では,量子化に対するソフトマックス感度の源泉を調査し,量子化操作がソフトマックス出力に大きなバイアスをもたらし,精度の低下を引き起こすことを示す。
そこで本研究では,展開中の計算量を増やすことなくソフトマックスの定量性を向上し,量子化パラメータに容易に吸収できるオフラインバイアス補正手法を提案する。
安定拡散v1.5および125MサイズのOPT言語モデルに対する本手法の有効性を実証し,8ビット量子化ソフトマックスの精度向上を実現した。 Post-training quantization (PTQ) is the go-to compression technique for large generative models, such as stable diffusion or large language models. PTQ methods commonly keep the softmax activation in higher precision as it has been shown to be very sensitive to quantization noise. However, this can lead to a significant runtime and power overhead during inference on resource-constraint edge devices. In this work, we investigate the source of the softmax sensitivity to quantization and show that the quantization operation leads to a large bias in the softmax output, causing accuracy degradation. To overcome this issue, we propose an offline bias correction technique that improves the quantizability of softmax without additional compute during deployment, as it can be readily absorbed into the quantization parameters. We demonstrate the effectiveness of our method on stable diffusion v1.5 and 125M-size OPT language model, achieving significant accuracy improvement for 8-bit quantized softmax. | 翻訳日:2023-09-06 17:55:37 公開日:2023-09-04 |
# マルチモーダルトラッキングのための生成的核融合機構 Generative-based Fusion Mechanism for Multi-Modal Tracking ( http://arxiv.org/abs/2309.01728v1 ) ライセンス: Link先を確認 | Zhangyong Tang, Tianyang Xu, Xuefeng Zhu, Xiao-Jun Wu, Josef Kittler | (参考訳) 生成モデル(gms)は、包括的理解を達成するための顕著な能力について研究の関心が高まっている。
しかしながら、マルチモーダルトラッキングの領域における彼らの潜在的な応用は、比較的未調査のままである。
この文脈では,多モードトラッキングにおいて重要な課題である情報融合に対処するために,生成技術を活用する可能性を明らかにする。
本稿では,2つのGM技術,すなわち条件付き生成逆数ネットワーク(CGAN)と拡散モデル(DM)を探索する。
各モードの特徴を直接融合ブロックに供給する標準的な融合プロセスとは異なり、GMフレームワークにランダムノイズを伴ってこれらのマルチモーダル特徴を条件付けし、元のトレーニングサンプルをより難しいインスタンスに効果的に変換する。
この設計は特徴から識別的手がかりを抽出し、究極の追跡性能を向上させる。
提案手法の有効性を定量的に評価するために,マルチモーダルトラッキングタスク2つ,ベースラインメソッド3つ,挑戦ベンチマーク3つにまたがる広範な実験を行った。
実験の結果,提案手法はラッシャーとrgbd1kに新しいレコードをセットすることで,最先端の性能を実現することがわかった。 Generative models (GMs) have received increasing research interest for their remarkable capacity to achieve comprehensive understanding. However, their potential application in the domain of multi-modal tracking has remained relatively unexplored. In this context, we seek to uncover the potential of harnessing generative techniques to address the critical challenge, information fusion, in multi-modal tracking. In this paper, we delve into two prominent GM techniques, namely, Conditional Generative Adversarial Networks (CGANs) and Diffusion Models (DMs). Different from the standard fusion process where the features from each modality are directly fed into the fusion block, we condition these multi-modal features with random noise in the GM framework, effectively transforming the original training samples into harder instances. This design excels at extracting discriminative clues from the features, enhancing the ultimate tracking performance. To quantitatively gauge the effectiveness of our approach, we conduct extensive experiments across two multi-modal tracking tasks, three baseline methods, and three challenging benchmarks. The experimental results demonstrate that the proposed generative-based fusion mechanism achieves state-of-the-art performance, setting new records on LasHeR and RGBD1K. | 翻訳日:2023-09-06 17:55:21 公開日:2023-09-04 |
# SAF-IS: 外科用ツールのインスタンス分割のための空間アノテーションフリーフレームワーク SAF-IS: a Spatial Annotation Free Framework for Instance Segmentation of Surgical Tools ( http://arxiv.org/abs/2309.01723v1 ) ライセンス: Link先を確認 | Luca Sestini, Benoit Rosa, Elena De Momi, Giancarlo Ferrigno, Nicolas Padoy | (参考訳) 手術器具のインスタンスセグメンテーションは長年の研究課題であり、コンピュータ支援手術のための多くの応用の開発に不可欠である。
この問題は、ディープラーニングモデルの完全な教師付きトレーニングによって対処されることが多い。
本研究では,空間アノテーションをトレーニングに頼らずに,実例分割のためのフレームワークを開発する。
その代わり、このソリューションは、ロボット支援手術で自由に得られるバイナリツールマスクと、最近の教師なしアプローチで取得可能なバイナリツールプレゼンスラベルのみを必要とする。
バイナリマスク情報に基づいて,個々のツールインスタンスを単一フレームから抽出し,各インスタンスをコンパクトなベクトル表現に符号化し,その意味的特徴をキャプチャする。
このような表現は、ツールタイプのラベル付けのために人間のオペレータに表示される少数のインスタンス(実験でのみ8個)の自動選択を導く。
収集された情報は、最終的に各トレーニングインスタンスとバイナリツール存在ラベルをマッチングするために使用され、ツールインスタンス分類器をトレーニングするための効果的な監視信号を提供する。
当社のフレームワークは、endovis 2017と2018のセグメンテーションデータセット上で検証します。
手動アノテーションまたは教師なしバイナリセグメンテーションモデルの予測によって得られたバイナリマスクを用いて結果を提供する。
後者のソリューションは、インスタンスセグメンテーションアプローチを空間アノテーションから完全に解放し、いくつかの最先端の完全教師付きセグメンテーションアプローチを上回っている。 Instance segmentation of surgical instruments is a long-standing research problem, crucial for the development of many applications for computer-assisted surgery. This problem is commonly tackled via fully-supervised training of deep learning models, requiring expensive pixel-level annotations to train. In this work, we develop a framework for instance segmentation not relying on spatial annotations for training. Instead, our solution only requires binary tool masks, obtainable using recent unsupervised approaches, and binary tool presence labels, freely obtainable in robot-assisted surgery. Based on the binary mask information, our solution learns to extract individual tool instances from single frames, and to encode each instance into a compact vector representation, capturing its semantic features. Such representations guide the automatic selection of a tiny number of instances (8 only in our experiments), displayed to a human operator for tool-type labelling. The gathered information is finally used to match each training instance with a binary tool presence label, providing an effective supervision signal to train a tool instance classifier. We validate our framework on the EndoVis 2017 and 2018 segmentation datasets. We provide results using binary masks obtained either by manual annotation or as predictions of an unsupervised binary segmentation model. The latter solution yields an instance segmentation approach completely free from spatial annotations, outperforming several state-of-the-art fully-supervised segmentation approaches. | 翻訳日:2023-09-06 17:55:00 公開日:2023-09-04 |
# 不均衡研究における学際的公平性:トピック推論:選択的補間を伴う階層的トランスフォーマーベース手法 Interdisciplinary Fairness in Imbalanced Research Proposal Topic Inference: A Hierarchical Transformer-based Method with Selective Interpolation ( http://arxiv.org/abs/2309.01717v1 ) ライセンス: Link先を確認 | Meng Xiao, Min Wu, Ziyue Qiao, Yanjie Fu, Zhiyuan Ning, Yi Du, Yuanchun Zhou | (参考訳) 研究提案におけるトピック推論の目的は、資金提供機関が定める規律体系から最も適した学際的区分を得ることである。
機関はその後、この部門に基づいて、データベースから適切な査読専門家を見つける。
自動トピック推論は、手動のトピックフィリングによるヒューマンエラーを低減し、資金調達機関とプロジェクト申請者の知識ギャップを埋め、システム効率を向上させる。
既存の手法では、これを階層的マルチラベル分類問題としてモデル化し、生成モデルを用いて最も適切なトピック情報を反復的に推測する。
しかし、これらの手法は、学際的な研究提案と学際的でない提案の差を無視し、自動化された推論システムが学際的な提案を学際的でないとして分類し、専門家の割り当ての間に不公平を生じさせる不当な現象へと繋がる。
複雑な規律の下でこのデータ不均衡の問題にどう対処すればいいのか。
本稿では、トランスフォーマエンコーダ-デコーダアーキテクチャに基づくトピックラベル推論システムを実装した。
さらに,クロストピック確率やトピック発生確率などの非パラメトリック指標に基づいて,補間手法を用いて,非学際的提案から擬似学際的提案を作成する。
このアプローチは、モデルトレーニング中のシステムのバイアスを軽減することを目的としている。
最後に,提案手法の有効性を検証するために,実世界のデータセットについて広範な実験を行った。
実験の結果,本研究のトレーニング戦略は,トピック推論タスクで生じる不公平性を著しく軽減できることが示された。 The objective of topic inference in research proposals aims to obtain the most suitable disciplinary division from the discipline system defined by a funding agency. The agency will subsequently find appropriate peer review experts from their database based on this division. Automated topic inference can reduce human errors caused by manual topic filling, bridge the knowledge gap between funding agencies and project applicants, and improve system efficiency. Existing methods focus on modeling this as a hierarchical multi-label classification problem, using generative models to iteratively infer the most appropriate topic information. However, these methods overlook the gap in scale between interdisciplinary research proposals and non-interdisciplinary ones, leading to an unjust phenomenon where the automated inference system categorizes interdisciplinary proposals as non-interdisciplinary, causing unfairness during the expert assignment. How can we address this data imbalance issue under a complex discipline system and hence resolve this unfairness? In this paper, we implement a topic label inference system based on a Transformer encoder-decoder architecture. Furthermore, we utilize interpolation techniques to create a series of pseudo-interdisciplinary proposals from non-interdisciplinary ones during training based on non-parametric indicators such as cross-topic probabilities and topic occurrence probabilities. This approach aims to reduce the bias of the system during model training. Finally, we conduct extensive experiments on a real-world dataset to verify the effectiveness of the proposed method. The experimental results demonstrate that our training strategy can significantly mitigate the unfairness generated in the topic inference task. | 翻訳日:2023-09-06 17:54:19 公開日:2023-09-04 |
# プロンプティングかファインチューニングか?
分類学構築のための大規模言語モデルの比較研究 Prompting or Fine-tuning? A Comparative Study of Large Language Models for Taxonomy Construction ( http://arxiv.org/abs/2309.01715v1 ) ライセンス: Link先を確認 | Boqi Chen, Fandi Yi, D\'aniel Varr\'o | (参考訳) 分類はエンティティ間の階層的関係を表し、様々なソフトウェアモデリングや自然言語処理(nlp)活動に頻繁に適用される。
それらは通常、コンテンツを制限する一連の構造的な制約を受ける。
しかし、手動の分類学の構築には時間がかかるし、不完全で、メンテナンスに費用がかかる。
近年の大規模言語モデル (LLM) の研究により, GPT-3 などの LLM を明示的に (再) 学習することなく, 多様な NLP タスクにおいて効果的に誘導できることが示されている。
しかし、既存の分類体系構築のアプローチでは、モデルパラメータを調整して言語モデルを微調整することが一般的である。
本稿では,構造的制約を考慮した分類構築のための一般的な枠組みを提案する。
その後,ハイパーニム分類法と新しい計算機科学分類法データセットを用いて,提案手法と微調整手法の系統的比較を行った。
1)データセット上で明示的なトレーニングを行わなくても,プロンプトアプローチは微調整ベースのアプローチよりも優れています。
さらに、トレーニングデータセットが小さい場合には、プロンプトと微調整の間のパフォーマンスギャップが大きくなる。
しかし,(2)微調整アプローチによって生成される分類学は,すべての制約を満たすために後処理が簡単であり,一方,プロンプトアプローチによって生成される分類学の違反を扱うことは困難である。
これらの評価結果は,分類体系構築の適切な方法を選択するためのガイダンスを提供し,両者のアプローチの潜在的な強化を強調する。 Taxonomies represent hierarchical relations between entities, frequently applied in various software modeling and natural language processing (NLP) activities. They are typically subject to a set of structural constraints restricting their content. However, manual taxonomy construction can be time-consuming, incomplete, and costly to maintain. Recent studies of large language models (LLMs) have demonstrated that appropriate user inputs (called prompting) can effectively guide LLMs, such as GPT-3, in diverse NLP tasks without explicit (re-)training. However, existing approaches for automated taxonomy construction typically involve fine-tuning a language model by adjusting model parameters. In this paper, we present a general framework for taxonomy construction that takes into account structural constraints. We subsequently conduct a systematic comparison between the prompting and fine-tuning approaches performed on a hypernym taxonomy and a novel computer science taxonomy dataset. Our result reveals the following: (1) Even without explicit training on the dataset, the prompting approach outperforms fine-tuning-based approaches. Moreover, the performance gap between prompting and fine-tuning widens when the training dataset is small. However, (2) taxonomies generated by the fine-tuning approach can be easily post-processed to satisfy all the constraints, whereas handling violations of the taxonomies produced by the prompting approach can be challenging. These evaluation findings provide guidance on selecting the appropriate method for taxonomy construction and highlight potential enhancements for both approaches. | 翻訳日:2023-09-06 17:53:29 公開日:2023-09-04 |
# ポストホックGNNのラベルノイズに対するロバスト性について On the Robustness of Post-hoc GNN Explainers to Label Noise ( http://arxiv.org/abs/2309.01706v1 ) ライセンス: Link先を確認 | Zhiqiang Zhong and Yangqianzi Jiang and Davide Mottin | (参考訳) グラフニューラルネットワーク(GNN)の固有のブラックボックス制限に対する解決策として提案されている、ポストホックなGNN説明器は、トレーニングされたGNNが示す行動の正確で洞察力豊かな説明を提供することを目的としている。
学術的・産業的な文脈における最近の顕著な進歩にもかかわらず、ポストホックなgnn解説者の頑健さはラベルノイズと向き合うと未調査のままである。
このギャップを埋めるために,ラベルノイズの度合いの異なる多種多様なGNN説明器の有効性を評価するために,系統的な実験を行った。
まず、ポストホックGNNの説明者はラベルの摂動に影響を受けやすい。
第二に、GNNの性能に反する低レベルのラベルノイズでさえ、生成された説明の質を著しく損なう。
最後に,騒音レベルを増大させることによる説明効果の漸進的回復に関する談話を行う。 Proposed as a solution to the inherent black-box limitations of graph neural networks (GNNs), post-hoc GNN explainers aim to provide precise and insightful explanations of the behaviours exhibited by trained GNNs. Despite their recent notable advancements in academic and industrial contexts, the robustness of post-hoc GNN explainers remains unexplored when confronted with label noise. To bridge this gap, we conduct a systematic empirical investigation to evaluate the efficacy of diverse post-hoc GNN explainers under varying degrees of label noise. Our results reveal several key insights: Firstly, post-hoc GNN explainers are susceptible to label perturbations. Secondly, even minor levels of label noise, inconsequential to GNN performance, harm the quality of generated explanations substantially. Lastly, we engage in a discourse regarding the progressive recovery of explanation effectiveness with escalating noise levels. | 翻訳日:2023-09-06 17:53:03 公開日:2023-09-04 |
# controlmat: 物質捕獲のための制御生成的アプローチ ControlMat: A Controlled Generative Approach to Material Capture ( http://arxiv.org/abs/2309.01700v1 ) ライセンス: Link先を確認 | Giuseppe Vecchio, Rosalie Martin, Arthur Roullier, Adrien Kaiser, Romain Rouffet, Valentin Deschaintre, Tamy Boubekeur | (参考訳) 写真からの素材復元は、3dコンテンツ作成の民主化の重要な要素である。
生成深層ネットワークの最近の進歩を生かして、制御された合成問題としてこの不適切な問題を定式化することを提案する。
制御不能な照明を入力とする1枚の写真に拡散モデルを適用し, 可塑性, タイル状, 高解像度の物理ベースデジタル材料を生成する。
マルチチャネル出力に対する拡散モデルの挙動を慎重に解析し,サンプリングプロセスを用いてマルチスケール情報をフューズし,転動拡散を導入し,高解像度出力に対するタイルビリティとパッチ拡散の両立を可能にする。
我々の生成手法により、未知の照明条件を緩和し、入力画像に対応する様々な材料を探索することができる。
提案手法は,近年の推論法や潜在空間最適化法よりも優れており,拡散過程の設計選択を慎重に検証する。
補足資料と追加の詳細は、https://gvecchio.com/controlmat/.com/で確認できる。 Material reconstruction from a photograph is a key component of 3D content creation democratization. We propose to formulate this ill-posed problem as a controlled synthesis one, leveraging the recent progress in generative deep networks. We present ControlMat, a method which, given a single photograph with uncontrolled illumination as input, conditions a diffusion model to generate plausible, tileable, high-resolution physically-based digital materials. We carefully analyze the behavior of diffusion models for multi-channel outputs, adapt the sampling process to fuse multi-scale information and introduce rolled diffusion to enable both tileability and patched diffusion for high-resolution outputs. Our generative approach further permits exploration of a variety of materials which could correspond to the input image, mitigating the unknown lighting conditions. We show that our approach outperforms recent inference and latent-space-optimization methods, and carefully validate our diffusion process design choices. Supplemental materials and additional details are available at: https://gvecchio.com/controlmat/. | 翻訳日:2023-09-06 17:52:34 公開日:2023-09-04 |
# ロバストオンライン分類:見積もりからデノイングへ Robust Online Classification: From Estimation to Denoising ( http://arxiv.org/abs/2309.01698v1 ) ライセンス: Link先を確認 | Changlong Wu, Ananth Grama, Wojciech Szpankowski | (参考訳) ノイズラベルの存在下でのオンライン分類について検討する。
ノイズ機構は、任意の特徴ラベル対に対してノイズラベル上の(既知の)分布の集合を指定する一般的なカーネルによってモデル化される。
各タイミングステップにおいて、敵は、実際の特徴ラベル対に基づいてカーネルが指定した分布セットから未知の分布を選択し、選択した分布からノイズラベルを生成する。
学習者は、これまでに観測された実際の特徴とノイズラベルに基づいて予測を行い、その予測が基礎となる真実と異なる場合(そうでなければ0ドル)に損失1ドルを発生させる。
予測品質はミニマックスリスクによって定量化され、有限地平線上の累積損失を$T$で計算する。
本研究では, 幅広い自然雑音カーネル, 逆選択された特徴, 有限種類のラベル付け関数に対して, 最小限のリスクは, 時間的地平線と対数的に依存しない上限値となることを示す。
その後、確率的シーケンシャル被覆という概念を通じて、これらの結果を無限クラスや確率的に生成される特徴に拡張する。
本結果は,Ben-David et al. (2009) の発見を実質的な一般化を通じて拡張・包括し,オンライン条件分布推定への新たな還元を通じて直感的な理解を提供する。 We study online classification in the presence of noisy labels. The noise mechanism is modeled by a general kernel that specifies, for any feature-label pair, a (known) set of distributions over noisy labels. At each time step, an adversary selects an unknown distribution from the distribution set specified by the kernel based on the actual feature-label pair, and generates the noisy label from the selected distribution. The learner then makes a prediction based on the actual features and noisy labels observed thus far, and incurs loss $1$ if the prediction differs from the underlying truth (and $0$ otherwise). The prediction quality is quantified through minimax risk, which computes the cumulative loss over a finite horizon $T$. We show that for a wide range of natural noise kernels, adversarially selected features, and finite class of labeling functions, minimax risk can be upper bounded independent of the time horizon and logarithmic in the size of labeling function class. We then extend these results to inifinite classes and stochastically generated features via the concept of stochastic sequential covering. Our results extend and encompass findings of Ben-David et al. (2009) through substantial generality, and provide intuitive understanding through a novel reduction to online conditional distribution estimation. | 翻訳日:2023-09-06 17:52:17 公開日:2023-09-04 |
# 物理に変形した多項式カオス展開 Physics-Informed Polynomial Chaos Expansions ( http://arxiv.org/abs/2309.01697v1 ) ライセンス: Link先を確認 | Luk\'a\v{s} Nov\'ak and Himanshu Sharma and Michael D. Shields | (参考訳) 物理的システムを表す高価な数学的モデルのサロゲートモデリングは、一般に大規模な実験設計を作成することができないため、難しい。
したがって、モデルの既知の物理学に従うように近似を制約することは有益である。
本稿では,従来の実験設計とモデルの物理からの追加制約を組み合わせた,物理学的不定形多項式カオス展開(pce)を構築するための新しい手法を提案する。
本稿では, 微分方程式の集合と特定の境界条件により, 物理的制約を表現した。
物理的に制約されたPCEを構築するための計算効率の良い手段を提案し,標準スパースPCEと比較した。
提案アルゴリズムは近似の精度が向上し,計算負荷が大きくなることが示唆された。
提案手法の主な目的は,データと物理的制約を組み合わせることにあるが,物理制約付きPCEは,原モデルの評価を必要とせず,微分方程式と境界条件だけで構築可能であることを示す。
さらに,制約付きpceは,すべての決定論的時空変数の影響をフィルタリングする縮小pceの分析後処理により,不確実性定量化に容易に適用できることを示した。
複雑性を増大させるいくつかの決定論的例を提供し,不確実性定量化に提案手法を適用した。 Surrogate modeling of costly mathematical models representing physical systems is challenging since it is typically not possible to create a large experimental design. Thus, it is beneficial to constrain the approximation to adhere to the known physics of the model. This paper presents a novel methodology for the construction of physics-informed polynomial chaos expansions (PCE) that combines the conventional experimental design with additional constraints from the physics of the model. Physical constraints investigated in this paper are represented by a set of differential equations and specified boundary conditions. A computationally efficient means for construction of physically constrained PCE is proposed and compared to standard sparse PCE. It is shown that the proposed algorithms lead to superior accuracy of the approximation and does not add significant computational burden. Although the main purpose of the proposed method lies in combining data and physical constraints, we show that physically constrained PCEs can be constructed from differential equations and boundary conditions alone without requiring evaluations of the original model. We further show that the constrained PCEs can be easily applied for uncertainty quantification through analytical post-processing of a reduced PCE filtering out the influence of all deterministic space-time variables. Several deterministic examples of increasing complexity are provided and the proposed method is applied for uncertainty quantification. | 翻訳日:2023-09-06 17:51:55 公開日:2023-09-04 |
# データ拡張なし?
小データセットの効果的なトレーニングのための代替正規化 No Data Augmentation? Alternative Regularizations for Effective Training on Small Datasets ( http://arxiv.org/abs/2309.01694v1 ) ライセンス: Link先を確認 | Lorenzo Brigato and Stavroula Mougiakakou | (参考訳) 小さなトレーニングデータセットに対する画像分類タスクの解決は、現代のコンピュータビジョンにとってオープンな課題である。
攻撃的なデータ拡張と生成モデルは、データの不足を克服するための最も単純なアプローチのひとつです。
しかし、最初のものは様々な画像ドメインに依存せず、後者は追加の計算と注意深い設計を必要とする。
本研究では,小画像分類データセットにおける教師付き学習の限界を押し上げるために,代替正規化戦略を検討する。
特に,モデルサイズとトレーニングスケジュールのスケーリングとともに,モデルパラメータのノルムを介して,(semi)最適学習率と重量減少カップルを選択するヒューリスティックを用いる。
元のCIFAR-10トレーニングセット(クラス毎50イメージ)の1%のみをトレーニングし、重複画像のないオリジナルのCIFARの変種であるciFAIR-10をテストすることで、テスト精度は66.5%に達し、最先端の手法に匹敵する。 Solving image classification tasks given small training datasets remains an open challenge for modern computer vision. Aggressive data augmentation and generative models are among the most straightforward approaches to overcoming the lack of data. However, the first fails to be agnostic to varying image domains, while the latter requires additional compute and careful design. In this work, we study alternative regularization strategies to push the limits of supervised learning on small image classification datasets. In particular, along with the model size and training schedule scaling, we employ a heuristic to select (semi) optimal learning rate and weight decay couples via the norm of model parameters. By training on only 1% of the original CIFAR-10 training set (i.e., 50 images per class) and testing on ciFAIR-10, a variant of the original CIFAR without duplicated images, we reach a test accuracy of 66.5%, on par with the best state-of-the-art methods. | 翻訳日:2023-09-06 17:51:36 公開日:2023-09-04 |
# 短距離DLPにおける量子アルゴリズムの成功確率について On the success probability of the quantum algorithm for the short DLP ( http://arxiv.org/abs/2309.01754v1 ) ライセンス: Link先を確認 | Martin Eker{\aa} | (参考訳) Eker{\aa} と H{\aa}stad は離散対数問題 (DLP) に対する Shor のアルゴリズムのバリエーションを導入した。
Shorのアルゴリズムとは異なり、Eker{\aa}-H{\aa}stadのアルゴリズムは未知の順序の群で短いDLPを解く。
本研究では,eker{\aa}-h{\aa}stadのアルゴリズムが1回のランで短い対数$d$を回復する確率について,下限を証明した。
私たちの意見では、成功確率は、短い$d$の場合には、簡単に$110^{-10}$まで押し上げられます。
このような高い成功確率を達成する鍵は、ミート・イン・ザ・ミドルの技術を利用して、古典的な後処理において限られた探索を効率的に行うことである。
漸近的に、ビット長$m$の$d$が無限大の傾向にあるように、検索空間の極限が$m$でパラメータ化される場合、成功確率は1つになる。
我々の結果は、短い指数を持つ安全プリム群におけるディフィー・ヘルマンとRSA整数分解問題(IFP)から短いDLPへの還元を通じてRSAに直接適用できる。 Eker{\aa} and H{\aa}stad have introduced a variation of Shor's algorithm for the discrete logarithm problem (DLP). Unlike Shor's original algorithm, Eker{\aa}-H{\aa}stad's algorithm solves the short DLP in groups of unknown order. In this work, we prove a lower bound on the probability of Eker{\aa}-H{\aa}stad's algorithm recovering the short logarithm $d$ in a single run. By our bound, the success probability can easily be pushed as high as $1 - 10^{-10}$ for any short $d$. A key to achieving such a high success probability is to efficiently perform a limited search in the classical post-processing by leveraging meet-in-the-middle techniques. Asymptotically, in the limit as the bit length $m$ of $d$ tends to infinity, the success probability tends to one if the limits on the search space are parameterized in $m$. Our results are directly applicable to Diffie-Hellman in safe-prime groups with short exponents, and to RSA via a reduction from the RSA integer factoring problem (IFP) to the short DLP. | 翻訳日:2023-09-06 17:43:35 公開日:2023-09-04 |
# 非凸双レベル最適化のペナルティ法と一階確率近似について On Penalty Methods for Nonconvex Bilevel Optimization and First-Order Stochastic Approximation ( http://arxiv.org/abs/2309.01753v1 ) ライセンス: Link先を確認 | Jeongyeol Kwon, Dohyun Kwon, Steve Wright, Robert Nowak | (参考訳) 本研究では,目的関数が両レベルにおいて滑らかだが非凸であり,変数が閉凸集合に制限される2次最適化(bo)を解くための一階アルゴリズムについて検討する。
第一段階として,上層目標と下層目標の重み付き和とペナルティパラメータ $\sigma > 0$ とを組み合わせたペナルティ法のレンズを通してboのランドスケープを考察する。
特に、ペナルティ関数と超目的関数の間には、2つの値と微分が$o(\sigma)$-close でなければならない条件を明示的に特徴付けることによって強い関係が確立される。
我々の分析の副産物は、低レベル問題が最小条件下で複数の解を持つ場合に、超目的の勾配の明示的な公式である。
次に、ペナルティ定式化を元のBOの$O(\sigma)$-approximationとみなして、$\epsilon$-stationary Solution を求める一階アルゴリズムを提案し、$\sigma = O(\epsilon)$でペナルティ定式化を最適化する。
摂動下層問題は小誤差近位誤差結合(EB)条件を均一に満たす場合、各オラクルが決定論的でオラクルがうるさいときの1次勾配オラクルへのアクセスを合計$O(\epsilon^{-3})$と$O(\epsilon^{-7})$を用いて、ペナルティ関数の$\epsilon$定常点に収束する1次アルゴリズムを提案する。
確率的オラクルに関する追加の仮定の下で、このアルゴリズムは全単ループで実装可能であること、すなわち、1イテレーションあたり$O(1)$サンプルで、それぞれ$O(\epsilon^{-3})$と$O(\epsilon^{-5})$の改善されたオラクル複雑度を達成する。 In this work, we study first-order algorithms for solving Bilevel Optimization (BO) where the objective functions are smooth but possibly nonconvex in both levels and the variables are restricted to closed convex sets. As a first step, we study the landscape of BO through the lens of penalty methods, in which the upper- and lower-level objectives are combined in a weighted sum with penalty parameter $\sigma > 0$. In particular, we establish a strong connection between the penalty function and the hyper-objective by explicitly characterizing the conditions under which the values and derivatives of the two must be $O(\sigma)$-close. A by-product of our analysis is the explicit formula for the gradient of hyper-objective when the lower-level problem has multiple solutions under minimal conditions, which could be of independent interest. Next, viewing the penalty formulation as $O(\sigma)$-approximation of the original BO, we propose first-order algorithms that find an $\epsilon$-stationary solution by optimizing the penalty formulation with $\sigma = O(\epsilon)$. When the perturbed lower-level problem uniformly satisfies the small-error proximal error-bound (EB) condition, we propose a first-order algorithm that converges to an $\epsilon$-stationary point of the penalty function, using in total $O(\epsilon^{-3})$ and $O(\epsilon^{-7})$ accesses to first-order (stochastic) gradient oracles when the oracle is deterministic and oracles are noisy, respectively. Under an additional assumption on stochastic oracles, we show that the algorithm can be implemented in a fully {\it single-loop} manner, i.e., with $O(1)$ samples per iteration, and achieves the improved oracle-complexity of $O(\epsilon^{-3})$ and $O(\epsilon^{-5})$, respectively. | 翻訳日:2023-09-06 17:43:16 公開日:2023-09-04 |
# 野火管理のための多スペクトル指標 Multispectral Indices for Wildfire Management ( http://arxiv.org/abs/2309.01751v1 ) ライセンス: Link先を確認 | Afonso Oliveira, Jo\~ao P. Matos-Carvalho, Filipe Moutinho, Nuno Fachada | (参考訳) 本稿では,火災管理における最も重要なマルチスペクトル指標と関連する方法論について概説する。
植生・土壌属性抽出,水特徴マッピング,人工構造同定,放火後の焼損面積推定など,多スペクトル指標が野火防止・管理と整合する様々な研究分野について検討した。
野火管理における特定課題に対する多スペクトル指標の有用性と有効性が強調された。
データ抽出の最適化に関する基本的な知見を示す。
NDVIとNDWIを含む各タスクの具体的な指標を提案する。
さらに、個々のインデックスアプリケーション固有の制限を解消し、精度を高めるため、補完処理ソリューションと高解像度画像や地上計測などの追加データソースの統合が推奨されている。
本論文は,火災の防止・管理に関する多スペクトル指標に関する研究者・ステークホルダーの即時的かつ包括的参照を目的としたものである。 This paper highlights and summarizes the most important multispectral indices and associated methodologies for fire management. Various fields of study are examined where multispectral indices align with wildfire prevention and management, including vegetation and soil attribute extraction, water feature mapping, artificial structure identification, and post-fire burnt area estimation. The versatility and effectiveness of multispectral indices in addressing specific issues in wildfire management are emphasized. Fundamental insights for optimizing data extraction are presented. Concrete indices for each task, including the NDVI and the NDWI, are suggested. Moreover, to enhance accuracy and address inherent limitations of individual index applications, the integration of complementary processing solutions and additional data sources like high-resolution imagery and ground-based measurements is recommended. This paper aims to be an immediate and comprehensive reference for researchers and stakeholders working on multispectral indices related to the prevention and management of fires. | 翻訳日:2023-09-06 17:42:30 公開日:2023-09-04 |
# 非冗長伝播完全cnf公式の大きさについて On the size of irredundant propagation complete CNF formulas ( http://arxiv.org/abs/2309.01750v1 ) ライセンス: Link先を確認 | Petr Savick\'y | (参考訳) 我々は、$n$変数の対称定値ホーン関数の伝搬完全(PC) CNF式を調査し、これらの式の最小サイズが特定の被覆数、すなわち、適当な$k$に対するすべての$(k-1)$-subsetをカバーする$n$-subsetの最小数の$k$-subsetと密接に関連していることを示す。
結果として、同じ関数に対する最小のPC式のサイズよりも、$\Omega(n/\ln n)$でサイズが大きくなる無矛盾なPC式を実演する。
これはこの因子上の既知の多項式上界を補完する。 We investigate propagation complete (PC) CNF formulas for a symmetric definite Horn function of $n$ variables and demonstrate that the minimum size of these formulas is closely related to specific covering numbers, namely, to the smallest number of $k$-subsets of an $n$-set covering all $(k-1)$-subsets for a suitable $k$. As a consequence, we demonstrate an irredundant PC formula whose size is larger than the size of a smallest PC formula for the same function by a factor $\Omega(n/\ln n)$. This complements a known polynomial upper bound on this factor. | 翻訳日:2023-09-06 17:42:16 公開日:2023-09-04 |
# 単一不純物結合エキシトンからのキャビティ励起単一光子放出 Cavity-enhanced single photon emission from a single impurity-bound exciton ( http://arxiv.org/abs/2309.01748v1 ) ライセンス: Link先を確認 | Yuxi Jiang, Robert M. Pettit, Nils von den Driesch, Alexander Pawlis and Edo Waks | (参考訳) ZnSe量子井戸における不純物結合励起子は明るい単一光子エミッタであり、フォトニクスベースの量子技術において重要な要素である。
しかし、実用化に必要な効率性を達成するためには、これらのエミッタを光学キャビティに統合し、その放射特性と遠方界放出パターンを高める必要がある。
本研究では,znse量子井戸内の単一不純物結合励起子からのキャビティエンハンスド放出を示す。
我々は,光ファイバーに効率的に結合可能な小モードボリュームとほぼガウスの遠距離横モードを最適化したブルジー空洞構造を用いる。
製造された装置は、znse量子井戸内のバルク不純物バウンド励起子よりも1桁以上明るい発光を、光源からの単一光子放出を検証できる明快なアンチバンチングとして表示する。
時間分解フォトルミネッセンス分光法は、パーセルの1.43の放射分解過程を示す。
この研究は、ナノフォトニクスと結合した不純物ドープII-VI半導体を用いた高効率スピンフォトン界面への道を開いた。 Impurity-bound excitons in ZnSe quantum wells are bright single photon emitters--a crucial element in photonics-based quantum technology. But to achieve the efficiencies required for practical applications, these emitters must be integrated into optical cavities that enhance their radiative properties and far-field emission pattern. In this work, we demonstrate cavity-enhanced emission from a single impurity-bound exciton in a ZnSe quantum well. We utilize a bullseye cavity structure optimized to feature a small mode volume and a nearly Gaussian far-field transverse mode that can efficiently couple to an optical fiber. The fabricated device displays emission that is more than an order of magnitude brighter than bulk impurity-bound exciton emitters in the ZnSe quantum well, as-well-as clear anti-bunching, which verifies the single photon emission from the source. Time-resolved photoluminescence spectroscopy reveals a Purcell-enhanced radiative decay process with a Purcell factor of 1.43. This work paves the way towards high efficiency spin-photon interfaces using an impurity-doped II-VI semiconductor coupled to nanophotonics. | 翻訳日:2023-09-06 17:42:01 公開日:2023-09-04 |
# 自己回帰条件拡散モデルを用いた乱流シミュレーション Turbulent Flow Simulation using Autoregressive Conditional Diffusion Models ( http://arxiv.org/abs/2309.01745v1 ) ライセンス: Link先を確認 | Georg Kohl, Li-Wei Chen, Nils Thuerey | (参考訳) 乱流のシミュレーションは、幅広いアプリケーションにとって不可欠であり、機械学習ベースの解法は、ますます関連性を高めつつある。
しかしながら、より長いロールアウトホライズンズに一般化することで安定性を達成することは、学習したpdeソルバにとって永続的な課題である。
我々は,条件拡散モデルに基づく自己回帰的ロールアウトを利用した完全データ駆動型流体ソルバを導入することで,この問題に対処した。
このアプローチは,他の学習ベースラインと比較して,ロールアウト安定性という点で明らかなメリットがあることを示す。
これらの安定性の向上は、生成したサンプルの品質を損なうことなく達成され、我々のモデルは、トレーニング体制を超えたフローパラメータにうまく一般化する。
さらに、拡散アプローチの確率論的性質は、基礎となる物理学の統計と一致する予測を推測することができる。
非圧縮性, 非音速流, 等方性乱流など, 様々な困難シナリオにおいて, 提案手法の性能を定量的に定性的に評価する。 Simulating turbulent flows is crucial for a wide range of applications, and machine learning-based solvers are gaining increasing relevance. However, achieving stability when generalizing to longer rollout horizons remains a persistent challenge for learned PDE solvers. We address this challenge by introducing a fully data-driven fluid solver that utilizes an autoregressive rollout based on conditional diffusion models. We show that this approach offers clear advantages in terms of rollout stability compared to other learned baselines. Remarkably, these improvements in stability are achieved without compromising the quality of generated samples, and our model successfully generalizes to flow parameters beyond the training regime. Additionally, the probabilistic nature of the diffusion approach allows for inferring predictions that align with the statistics of the underlying physics. We quantitatively and qualitatively evaluate the performance of our method on a range of challenging scenarios, including incompressible and transonic flows, as well as isotropic turbulence. | 翻訳日:2023-09-06 17:41:43 公開日:2023-09-04 |
# 新型コロナウイルスctスキャンにおけるゼロショットマルチラベル分類の経験的解析と未確認報告 An Empirical Analysis for Zero-Shot Multi-Label Classification on COVID-19 CT Scans and Uncurated Reports ( http://arxiv.org/abs/2309.01740v1 ) ライセンス: Link先を確認 | Ethan Dack, Lorenzo Brigato, Matthew McMurray, Matthias Fontanellaz, Thomas Frauenfelder, Hanno Hoppe, Aristomenis Exadaktylos, Thomas Geiser, Manuela Funke-Chambour, Andreas Christe, Lukas Ebner, Stavroula Mougiakakou | (参考訳) パンデミックは、医学検査の増加により、放射線学の報告を含む膨大な非構造データを蓄積した。
新型コロナウイルスの自動診断に関するこれまでの研究は、CT(Computed tomography)スキャンと比較して精度が低いにもかかわらず、主にX線画像に焦点を当てていた。
本研究では,病院の非構造化データを活用し,ctスキャンで提供される細かな詳細情報を活用して,コントラスト的視覚言語学習に基づくゼロショットマルチラベル分類を行う。
ヒトの専門家と共同で、放射線技師が肺塞栓症を検知し、地面ガラスの透明度や凝縮のような複雑な肺の詳細を特定するのに役立つ複数のゼロショットモデルの有効性について検討した。
これまでの医療用マルチモーダルプリトレーニング文献では見過ごされていた,このようなきめ細かなタスクを対象とする可能なソリューションの概要を実証的に分析した。
本研究は,非構造化データと細粒度マルチラベル分類に関連する課題に対処することで,医療画像解析コミュニティの今後の進歩を約束する。 The pandemic resulted in vast repositories of unstructured data, including radiology reports, due to increased medical examinations. Previous research on automated diagnosis of COVID-19 primarily focuses on X-ray images, despite their lower precision compared to computed tomography (CT) scans. In this work, we leverage unstructured data from a hospital and harness the fine-grained details offered by CT scans to perform zero-shot multi-label classification based on contrastive visual language learning. In collaboration with human experts, we investigate the effectiveness of multiple zero-shot models that aid radiologists in detecting pulmonary embolisms and identifying intricate lung details like ground glass opacities and consolidations. Our empirical analysis provides an overview of the possible solutions to target such fine-grained tasks, so far overlooked in the medical multimodal pretraining literature. Our investigation promises future advancements in the medical image analysis community by addressing some challenges associated with unstructured data and fine-grained multi-label classification. | 翻訳日:2023-09-06 17:41:27 公開日:2023-09-04 |
# 快適性評価のためのハイブリッドデータ駆動・熱モデル Hybrid data driven/thermal simulation model for comfort assessment ( http://arxiv.org/abs/2309.01734v1 ) ライセンス: Link先を確認 | Romain Barbedienne, Sara Yasmine Ouerk, Mouadh Yagoubi, Hassan Bouia, Aurelie Kaemmerlen, Benoit Charrier | (参考訳) 機械学習モデルは物理モデルのスピードと品質を改善する。
しかし、大量のデータを必要とするため、取得が困難でコストがかかることが多い。
例えば、熱的快適さを予測するには、様々な特徴(年齢、性別、...)を参加者が提示する制御された環境が必要である。
本稿では, 実データとシミュレーションデータとのハイブリッド化手法を提案する。
シミュレーションは Modelica Language を用いて行われる。
ベンチマーク研究により、異なる機械学習手法を比較する。
ランダム森林モデルを用いて得られたF1スコアは0.999である。 Machine learning models improve the speed and quality of physical models. However, they require a large amount of data, which is often difficult and costly to acquire. Predicting thermal comfort, for example, requires a controlled environment, with participants presenting various characteristics (age, gender, ...). This paper proposes a method for hybridizing real data with simulated data for thermal comfort prediction. The simulations are performed using Modelica Language. A benchmarking study is realized to compare different machine learning methods. Obtained results look promising with an F1 score of 0.999 obtained using the random forest model. | 翻訳日:2023-09-06 17:41:06 公開日:2023-09-04 |
# 一様ガウス状態のセキュア量子テレポーテーションに及ぼす雑音環境の影響 The effect of noisy environment on Secure Quantum Teleportation of uni-modal Gaussian states ( http://arxiv.org/abs/2309.01733v1 ) ライセンス: Link先を確認 | Somayeh Mehrabankar, Payman Mahmoudi, Farkhondeh Abbasnezhad, Davood Afshar, Aurelian Isar | (参考訳) 量子通信ネットワークは、未知の量子状態が送信局から、絡み合った状態と古典的な通信によって支えられたリモート受信局へ送信される量子テレポーテーションに基づいて構築することができる。
量子テレポーテーションの資源状態として,連続変数2モード圧縮真空状態を用いる。
この状態はアリスとボブによって共有され、そのシステムは硬化した熱環境と接触する。
セキュアな量子テレポーテーションの条件は、リソース状態の2/3以上のテレポーテーション忠実度と双方向ステアリングを必要とする。
我々は,コヒーレントガウス状態のセキュアな量子テレポーテーションに必要とされるパラメータの値を決定するために,ステアリングの時間的進化とテレポーテーションの忠実度について検討する。
得られた温度, 放散速度, スクイーズパラメータは, 安全な量子テレポーテーションを実現するための実現可能な時間を制限する一方で, 初期状態のスクイーズパラメータを増大させることで, 安全な量子テレポーテーションを実現するための時間範囲を効果的に拡張できることを示す。 Quantum communication networks can be built on quantum teleportation, which is the transmission of an unknown quantum state from a sending station to a remote receiving station supported by entangled states and classical communication. We use a continuous variable two-mode squeezed vacuum state as a resource state for the quantum teleportation. This state is shared by Alice and Bob, and their system comes into contact with a squeezed thermal environment. The conditions for a secure quantum teleportation require a teleportation fidelity larger than 2/3 and two-way steering of the resource state. We investigate the time evolution of the steering and the fidelity of teleportation in order to determine the values of the parameters required for a successful secure quantum teleportation of a coherent Gaussian state. We show that the temperature, dissipation rate and squeezing parameter of the squeezed thermal reservoir limit the feasible duration for secure quantum teleportation, while by increasing the squeezing parameter of the initial state one can effectively expand the temporal range for a successful secure quantum teleportation. | 翻訳日:2023-09-06 17:40:58 公開日:2023-09-04 |
# オンライン学習を用いたO-RANにおける仮想基地局の適応的資源配分 Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with Online Learning ( http://arxiv.org/abs/2309.01730v1 ) ライセンス: Link先を確認 | Michail Kalntis, George Iosifidis, Fernando A. Kuipers | (参考訳) オープン無線アクセスネットワークシステムとその仮想化ベースステーション(vbss)は、オペレーターに柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性の利点を提供する。
Optimizing the allocation of resources in a vBS is challenging since it requires knowledge of the environment, (i.e., "external'' information), such as traffic demands and channel quality, which is difficult to acquire precisely over short intervals of a few seconds. To tackle this problem, we propose an online learning algorithm that balances the effective throughput and vBS energy consumption, even under unforeseeable and "challenging'' environments; for instance, non-stationary or adversarial traffic demands.
また,他のアルゴリズム手法のパワーを生かしたメタラーニングスキームを開発し,より「簡単な」環境に合わせて動的に最適な実行環境を選択し,システム全体の汎用性と有効性を高める。
提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
アルゴリズムの性能は実世界のデータと様々なトレース駆動評価を用いて評価され、vbsの消費電力の最大64.5%を最先端ベンチマークと比較した。 Open Radio Access Network systems, with their virtualized base stations (vBSs), offer operators the benefits of increased flexibility, reduced costs, vendor diversity, and interoperability. Optimizing the allocation of resources in a vBS is challenging since it requires knowledge of the environment, (i.e., "external'' information), such as traffic demands and channel quality, which is difficult to acquire precisely over short intervals of a few seconds. To tackle this problem, we propose an online learning algorithm that balances the effective throughput and vBS energy consumption, even under unforeseeable and "challenging'' environments; for instance, non-stationary or adversarial traffic demands. We also develop a meta-learning scheme, which leverages the power of other algorithmic approaches, tailored for more "easy'' environments, and dynamically chooses the best performing one, thus enhancing the overall system's versatility and effectiveness. We prove the proposed solutions achieve sub-linear regret, providing zero average optimality gap even in challenging environments. The performance of the algorithms is evaluated with real-world data and various trace-driven evaluations, indicating savings of up to 64.5% in the power consumption of a vBS compared with state-of-the-art benchmarks. | 翻訳日:2023-09-06 17:40:38 公開日:2023-09-04 |
# 背側ビジュアルストリームの3次元ビュー予測モデル 3D View Prediction Models of the Dorsal Visual Stream ( http://arxiv.org/abs/2309.01782v1 ) ライセンス: Link先を確認 | Gabriel Sarch and Hsiao-Yu Fish Tung and Aria Wang and Jacob Prince and Michael Tarr | (参考訳) 深部神経ネットワークの表現は腹側視覚の脳活動とよく一致している。
しかしながら、霊長類視覚系は、異なる機能特性を持つ異なる背側処理ストリームを有する。
背側視覚領域における3Dシーン形状の知覚を訓練したモデルが神経応答とよく一致しているかどうかをテストするため,我々は,3D特徴メモリを用いた新しいカメラビューの予測のために,自監督型幾何認識リカレントニューラルネットワーク(GRNN)を訓練した。
大規模fMRI Natural Scenes Dataset (NSD) を用いて, 腹腔領域とよく一致することが示されている自監督ベースラインモデルとGRNNを比較した。
ベースラインモデルが腹側脳領域より優れているのに対し,grnnは背側脳領域のばらつきが大きいことが判明した。
本研究は,タスク関連モデルを用いて視覚ストリーム間の表現的差異を探索する可能性を示す。 Deep neural network representations align well with brain activity in the ventral visual stream. However, the primate visual system has a distinct dorsal processing stream with different functional properties. To test if a model trained to perceive 3D scene geometry aligns better with neural responses in dorsal visual areas, we trained a self-supervised geometry-aware recurrent neural network (GRNN) to predict novel camera views using a 3D feature memory. We compared GRNN to self-supervised baseline models that have been shown to align well with ventral regions using the large-scale fMRI Natural Scenes Dataset (NSD). We found that while the baseline models accounted better for ventral brain regions, GRNN accounted for a greater proportion of variance in dorsal brain regions. Our findings demonstrate the potential for using task-relevant models to probe representational differences across visual streams. | 翻訳日:2023-09-06 17:34:54 公開日:2023-09-04 |
# 凸複合最適化のための自己一致平滑化 Self-concordant Smoothing for Convex Composite Optimization ( http://arxiv.org/abs/2309.01781v1 ) ライセンス: Link先を確認 | Adeyemi D. Adeoye, Alberto Bemporad | (参考訳) 我々は,2つの凸関数の和を最小化するために,自己調和スムージングの概念を導入する: 1つは滑らかであり,もう1つは非滑らかである。
提案手法は,非滑らか関数の一部のみを平滑化する部分平滑化と呼ばれる平滑化近似手法から自然に得られる。
提案手法の重要な特徴は,特に近位ニュートン型アルゴリズムに適した可変パラメータ選択法とステップ長選択規則を提示する問題の構造の自然な性質にある。
さらに,非スムース関数によって促進される特定の構造,例えば $\ell_1$-regularization や group-lasso penalties を効率的に扱う。
近似ニュートンアルゴリズムであるProx-N-SCOREと近一般化ガウスニュートンアルゴリズム(GGN)であるProx-GGN-SCOREの2つのアルゴリズムに対して局所2次収束率を示す。
Prox-GGN-SCOREアルゴリズムは、逆 Hessian に関連する計算オーバーヘッドの大部分を著しく削減する重要な近似手順を強調する。
この近似は、基本的に、過パラメータの機械学習モデルとミニバッチ設定で有用である。
合成データセットと実データセットの両方の数値例は、我々のアプローチの効率と既存のアプローチよりも優れていることを示している。 We introduce the notion of self-concordant smoothing for minimizing the sum of two convex functions: the first is smooth and the second may be nonsmooth. Our framework results naturally from the smoothing approximation technique referred to as partial smoothing in which only a part of the nonsmooth function is smoothed. The key highlight of our approach is in a natural property of the resulting problem's structure which provides us with a variable-metric selection method and a step-length selection rule particularly suitable for proximal Newton-type algorithms. In addition, we efficiently handle specific structures promoted by the nonsmooth function, such as $\ell_1$-regularization and group-lasso penalties. We prove local quadratic convergence rates for two resulting algorithms: Prox-N-SCORE, a proximal Newton algorithm and Prox-GGN-SCORE, a proximal generalized Gauss-Newton (GGN) algorithm. The Prox-GGN-SCORE algorithm highlights an important approximation procedure which helps to significantly reduce most of the computational overhead associated with the inverse Hessian. This approximation is essentially useful for overparameterized machine learning models and in the mini-batch settings. Numerical examples on both synthetic and real datasets demonstrate the efficiency of our approach and its superiority over existing approaches. | 翻訳日:2023-09-06 17:34:36 公開日:2023-09-04 |
# 因果推論とランダム化実験によるアルゴリズムの公平性の測定・解釈・改善 Measuring, Interpreting, and Improving Fairness of Algorithms using Causal Inference and Randomized Experiments ( http://arxiv.org/abs/2309.01780v1 ) ライセンス: Link先を確認 | James Enouen and Tianshu Sun and Yan Liu | (参考訳) アルゴリズムの公平性は、人工知能を広く採用する上で中心的な問題となっている。
過去10年間、アルゴリズムバイアスを研究する優れた研究が爆発的に増えているが、現実世界のai生産システムにおける公平性を達成することは、依然として困難な課題である。
既存のほとんどの作業は、競合する測定技術と/または重い仮定を持つか、生産モデルのコードアクセスを必要とするため、実用的なアプリケーションでは実行できないが、実際のシステムは、検出されたバイアス源を修正するための簡単な測定フレームワークと体系的な方法を必要としている。
本稿では、因果推論と解釈可能な機械学習の最近の進歩を活用し、アルゴリズム決定の公平性の測定、解釈、改善のためのアルゴリズム非依存フレームワーク(MIIF)を提案する。
ランダム化実験を用いてアルゴリズムバイアスを測定し,異なる処理,異なる影響,経済的価値の同時測定を可能にする。
さらに,最近の解釈可能性手法を用いて,ブラックボックスアルゴリズムの信念を正確に解釈し,蒸留する説明可能な機械学習モデルを開発した。
これらのテクニックは、アルゴリズムの公正性を研究するためのシンプルで強力なツールセット、特に業界A/Bテストがすでに豊富にあるeコマースやターゲット広告といった実用的アプリケーションにおける公正性のコストを理解するためのものだ。 Algorithm fairness has become a central problem for the broad adoption of artificial intelligence. Although the past decade has witnessed an explosion of excellent work studying algorithm biases, achieving fairness in real-world AI production systems has remained a challenging task. Most existing works fail to excel in practical applications since either they have conflicting measurement techniques and/ or heavy assumptions, or require code-access of the production models, whereas real systems demand an easy-to-implement measurement framework and a systematic way to correct the detected sources of bias. In this paper, we leverage recent advances in causal inference and interpretable machine learning to present an algorithm-agnostic framework (MIIF) to Measure, Interpret, and Improve the Fairness of an algorithmic decision. We measure the algorithm bias using randomized experiments, which enables the simultaneous measurement of disparate treatment, disparate impact, and economic value. Furthermore, using modern interpretability techniques, we develop an explainable machine learning model which accurately interprets and distills the beliefs of a blackbox algorithm. Altogether, these techniques create a simple and powerful toolset for studying algorithm fairness, especially for understanding the cost of fairness in practical applications like e-commerce and targeted advertising, where industry A/B testing is already abundant. | 翻訳日:2023-09-06 17:34:12 公開日:2023-09-04 |
# DRAG:非IIDデータに基づくフェデレーション学習における多様性に基づく適応的集約 DRAG: Divergence-based Adaptive Aggregation in Federated learning on Non-IID Data ( http://arxiv.org/abs/2309.01779v1 ) ライセンス: Link先を確認 | Feng Zhu, Jingjing Zhang, Shengyun Liu and Xin Wang | (参考訳) 局所確率勾配降下(sgd)は、個々の作業者が局所的な更新を行うことで、連合学習(fl)におけるコミュニケーション効率を達成するための基本的なアプローチである。
However, the presence of heterogeneous data distributions across working nodes causes each worker to update its local model towards a local optimum, leading to the phenomenon known as ``client-drift" and resulting in slowed convergence. To address this issue, previous works have explored methods that either introduce communication overhead or suffer from unsteady performance. In this work, we introduce a novel metric called ``degree of divergence," quantifying the angle between the local gradient and the global reference direction.
本稿では,各ラウンドの参照方向に対して受信した局所的な更新を,余分な通信オーバーヘッドを伴わずに動的に“ドラッグ”する分散型適応アグリゲーション(DRAG)アルゴリズムを提案する。
さらに、DRAGに対する厳密な収束解析を確立し、サブ線形収束率を達成する能力を示す。
クライアント・ドリフト現象を効果的に管理するための最先端アルゴリズムと比較して,DRAGの優れた性能を示す実験結果が提示される。
さらに、ドラグは特定のビザンチン攻撃に対して顕著な弾力性を示す。
クライアントのデータの小さなサンプルをFLサーバと安全に共有することにより、DRAGは包括的な実験を通じて示すように、これらの攻撃に効果的に対処する。 Local stochastic gradient descent (SGD) is a fundamental approach in achieving communication efficiency in Federated Learning (FL) by allowing individual workers to perform local updates. However, the presence of heterogeneous data distributions across working nodes causes each worker to update its local model towards a local optimum, leading to the phenomenon known as ``client-drift" and resulting in slowed convergence. To address this issue, previous works have explored methods that either introduce communication overhead or suffer from unsteady performance. In this work, we introduce a novel metric called ``degree of divergence," quantifying the angle between the local gradient and the global reference direction. Leveraging this metric, we propose the divergence-based adaptive aggregation (DRAG) algorithm, which dynamically ``drags" the received local updates toward the reference direction in each round without requiring extra communication overhead. Furthermore, we establish a rigorous convergence analysis for DRAG, proving its ability to achieve a sublinear convergence rate. Compelling experimental results are presented to illustrate DRAG's superior performance compared to state-of-the-art algorithms in effectively managing the client-drift phenomenon. Additionally, DRAG exhibits remarkable resilience against certain Byzantine attacks. By securely sharing a small sample of the client's data with the FL server, DRAG effectively counters these attacks, as demonstrated through comprehensive experiments. | 翻訳日:2023-09-06 17:33:47 公開日:2023-09-04 |
# CONFIDERAI : 説明可能で信頼性の高い人工知能のための新しいコンフォーマル・インタプリタブル・バイ・デザインスコア関数 CONFIDERAI: a novel CONFormal Interpretable-by-Design score function forExplainable and Reliable Artificial Intelligence ( http://arxiv.org/abs/2309.01778v1 ) ライセンス: Link先を確認 | Alberto Carlevaro, Sara Narteni, Fabrizio Dabbene, Marco Muselli and Maurizio Mongelli | (参考訳) 日々の生活は人工知能の影響をますます受けており、機械学習アルゴリズムが誰にとっても信頼性と信頼性を持つように設計されなければならないことは疑いない。
特に、コンピュータ科学者は、説明可能性、堅牢性、透明性、公平性、プライバシーの5つの柱を満たせば、人工知能システムは安全で信頼できるものと考える。
これら5つに加えて,第6の基本的な側面を提案する。 適合性,すなわち,システムが学習者が期待するとおりに振る舞う確率的保証。
本論文では,ルール予測能力と規則境界内の幾何学的位置を両立するルールベースモデルのための新しいスコア関数であるCONFIDERAIを定義することにより,共形予測と説明可能な機械学習を結びつける手法を提案する。
また, サポートベクトルデータ記述(SVDD)に基づいて, 共形領域における非整形標本数を制御する手法を利用して, 共形保証を満足する特徴空間内の領域を定義する問題にも対処する。
全体的な方法論は、DNSトンネル検出や心臓血管疾患の予測など、ベンチマークや実際のデータセットで有望な結果でテストされている。 Everyday life is increasingly influenced by artificial intelligence, and there is no question that machine learning algorithms must be designed to be reliable and trustworthy for everyone. Specifically, computer scientists consider an artificial intelligence system safe and trustworthy if it fulfills five pillars: explainability, robustness, transparency, fairness, and privacy. In addition to these five, we propose a sixth fundamental aspect: conformity, that is, the probabilistic assurance that the system will behave as the machine learner expects. In this paper, we propose a methodology to link conformal prediction with explainable machine learning by defining CONFIDERAI, a new score function for rule-based models that leverages both rules predictive ability and points geometrical position within rules boundaries. We also address the problem of defining regions in the feature space where conformal guarantees are satisfied by exploiting techniques to control the number of non-conformal samples in conformal regions based on support vector data description (SVDD). The overall methodology is tested with promising results on benchmark and real datasets, such as DNS tunneling detection or cardiovascular disease prediction. | 翻訳日:2023-09-06 17:33:26 公開日:2023-09-04 |
# ゲート型リカレントニューラルネットワークが注目を集める Gated recurrent neural networks discover attention ( http://arxiv.org/abs/2309.01775v1 ) ライセンス: Link先を確認 | Nicolas Zucchet, Seijin Kobayashi, Yassir Akram, Johannes von Oswald, Maxime Larcher, Angelika Steger, Jo\~ao Sacramento | (参考訳) 近年のアーキテクチャ開発により、リカレントニューラルネットワーク(RNN)は、特定のシーケンスモデリングタスクにおけるトランスフォーマーのパフォーマンスに到達し、さらに上回っている。
現代のRNNは、フィードフォワード経路と乗法ゲーティングで相互接続された線形リカレント層という、顕著なデザインパターンを特徴としている。
本稿では、これら2つの設計要素を備えたrnnが、トランスフォーマのメインビルディングブロックである(線形)自己アテンションを正確に実装できることを示す。
トレーニングされたRNNの集合をリバースエンジニアリングすることで、実際には勾配降下が我々の構成を発見する。
特に,トランスフォーマーが優れていることが分かっている単純なインコンテキスト学習タスクを解決するために訓練されたrnnについて検討し,トランスフォーマーが使用する同じ注意に基づくインコンテキスト学習アルゴリズムに勾配降下が潜んでいることを見出した。
本研究は,ニューラルネットワークにおける乗法的相互作用の重要性を浮き彫りにして,特定のrnnが予期しないほど注意を引いている可能性を示唆する。 Recent architectural developments have enabled recurrent neural networks (RNNs) to reach and even surpass the performance of Transformers on certain sequence modeling tasks. These modern RNNs feature a prominent design pattern: linear recurrent layers interconnected by feedforward paths with multiplicative gating. Here, we show how RNNs equipped with these two design elements can exactly implement (linear) self-attention, the main building block of Transformers. By reverse-engineering a set of trained RNNs, we find that gradient descent in practice discovers our construction. In particular, we examine RNNs trained to solve simple in-context learning tasks on which Transformers are known to excel and find that gradient descent instills in our RNNs the same attention-based in-context learning algorithm used by Transformers. Our findings highlight the importance of multiplicative interactions in neural networks and suggest that certain RNNs might be unexpectedly implementing attention under the hood. | 翻訳日:2023-09-06 17:33:06 公開日:2023-09-04 |
# 周波数変換を伴う深部ニューラルネットワークのADC/DACフリーアナログ高速化 ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency Transformation ( http://arxiv.org/abs/2309.01771v1 ) ライセンス: Link先を確認 | Nastaran Darabi, Maeesha Binte Hashem, Hongyi Pan, Ahmet Cetin, Wilfred Gomes, and Amit Ranjan Trivedi | (参考訳) ディープニューラルネットワーク(DNN)のエッジ処理は、レイテンシとエネルギー消費を最小限に抑えるために、データソースに直接価値ある情報を抽出できることから、ますます重要になっている。
Walsh-Hadamard変換(WHT)のような周波数領域モデル圧縮は、効率的な代替手段として認識されている。
しかし、周波数領域処理の利点は、要求されるマルチプライアキュムレート(mac)演算によって相殺されることが多い。
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,並列処理による配列マイクロアーキテクチャ,ADC/DACフリーアナログ計算,出力空間の増大など,計算効率を向上させるユニークな機会を提供する。
本手法は,変換行列における学習可能なパラメータの必要性をなくし,よりコンパクトなセルを実現する。
さらに,我々の新しいアレイマイクロアーキテクチャにより,セルの列方向および行方向の適応的な縫合が可能となり,計算における完全並列化が容易となった。
さらに,行列乗算のパラメータフリー性を生かして,高度に量子化された行列ベクトル積に対してADC/DACフリーな計算を可能にする。
我々の設計におけるもうひとつの重要な側面は、周波数ベースの変換のための署名付きビット処理を扱う能力である。
これにより出力の幅が増加し、デジタル化の作業量が削減される。
16$\times$16のクロスバーで、8ビットの入力処理を行う場合、提案手法は早期終了戦略のないWatt(TOPS/W)当たり1602テラ演算と早期終了戦略を持つ5311TOPS/Wのエネルギー効率をVDD = 0.8Vで達成する。 The edge processing of deep neural networks (DNNs) is becoming increasingly important due to its ability to extract valuable information directly at the data source to minimize latency and energy consumption. Frequency-domain model compression, such as with the Walsh-Hadamard transform (WHT), has been identified as an efficient alternative. However, the benefits of frequency-domain processing are often offset by the increased multiply-accumulate (MAC) operations required. This paper proposes a novel approach to an energy-efficient acceleration of frequency-domain neural networks by utilizing analog-domain frequency-based tensor transformations. Our approach offers unique opportunities to enhance computational efficiency, resulting in several high-level advantages, including array micro-architecture with parallelism, ADC/DAC-free analog computations, and increased output sparsity. Our approach achieves more compact cells by eliminating the need for trainable parameters in the transformation matrix. Moreover, our novel array micro-architecture enables adaptive stitching of cells column-wise and row-wise, thereby facilitating perfect parallelism in computations. Additionally, our scheme enables ADC/DAC-free computations by training against highly quantized matrix-vector products, leveraging the parameter-free nature of matrix multiplications. Another crucial aspect of our design is its ability to handle signed-bit processing for frequency-based transformations. This leads to increased output sparsity and reduced digitization workload. On a 16$\times$16 crossbars, for 8-bit input processing, the proposed approach achieves the energy efficiency of 1602 tera operations per second per Watt (TOPS/W) without early termination strategy and 5311 TOPS/W with early termination strategy at VDD = 0.8 V. | 翻訳日:2023-09-06 17:32:49 公開日:2023-09-04 |
# StyleAdapter:スティル化画像生成のためのシングルパスLORAフリーモデル StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image Generation ( http://arxiv.org/abs/2309.01770v1 ) ライセンス: Link先を確認 | Zhouxia Wang, Xintao Wang, Liangbin Xie, Zhongang Qi, Ying Shan, Wenping Wang, and Ping Luo | (参考訳) 本稿では,テキストプロンプトとスタイル参照画像を入力とし,単一のパスで出力画像を生成する,スタイル化画像生成のためのloraフリー手法を提案する。
各スタイルでLoRAを個別にトレーニングする既存の方法とは異なり、我々の方法は統一されたモデルで様々なスタイルに適応できる。
しかし、これは2つの課題をもたらす。
1)プロンプトは生成されたコンテンツに対する制御性を失い、
2) 出力画像はスタイル参照画像の意味的特徴とスタイル的特徴の両方を継承し,その内容の忠実さを補完する。
これらの課題に対処するために,2つのコンポーネントからなるモデルであるstyleadapterを紹介する。
これらのコンポーネントにより、モデルがプロンプトおよびスタイル参照機能を別々に処理し、スタイル参照におけるセマンティック情報とスタイル情報との強い結合を低減できます。
styleadapterはプロンプトの内容にマッチする高品質なイメージを生成し、単一のパスで参照のスタイル(目に見えないスタイルであっても)を採用することができる。
本手法の先行研究よりも優れていることを示す実験を行った。 This paper presents a LoRA-free method for stylized image generation that takes a text prompt and style reference images as inputs and produces an output image in a single pass. Unlike existing methods that rely on training a separate LoRA for each style, our method can adapt to various styles with a unified model. However, this poses two challenges: 1) the prompt loses controllability over the generated content, and 2) the output image inherits both the semantic and style features of the style reference image, compromising its content fidelity. To address these challenges, we introduce StyleAdapter, a model that comprises two components: a two-path cross-attention module (TPCA) and three decoupling strategies. These components enable our model to process the prompt and style reference features separately and reduce the strong coupling between the semantic and style information in the style references. StyleAdapter can generate high-quality images that match the content of the prompts and adopt the style of the references (even for unseen styles) in a single pass, which is more flexible and efficient than previous methods. Experiments have been conducted to demonstrate the superiority of our method over previous works. | 翻訳日:2023-09-06 17:32:18 公開日:2023-09-04 |
# BLiSS: ブートストラップ付き線形形状空間 BLiSS: Bootstrapped Linear Shape Space ( http://arxiv.org/abs/2309.01765v1 ) ライセンス: Link先を確認 | Sanjeev Muralikrishnan, Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra | (参考訳) 変形可能なモデルは、単純で表現力に富んだ形状空間を提供するため、多くの人間中心のプロセスの基本となる。
しかし、このようなフォーマブルなモデルを作るのは面倒で高価だ。
主な課題は、十分な形状変化をキャプチャする生スキャン全体にわたる密度の高い対応を確立することである。
これはしばしば、重要な手動の介入と非厳密な登録の混合を用いて対処される。
形状空間の作成と密接な対応のための解法は密結合であり、形状空間を構築するには密接な対応が必要であるが、表現的形状空間は探索を正則化するための縮小次元空間を提供する。
両問題を段階的に解く手法であるBLiSSを紹介する。
手動で登録された小さなスキャンから始めて、そのプロセスをブートストラップし、形状空間を充実させ、それを新しい未登録スキャンに自動的に対応させる。
BLiSSの臨界成分は非線形変形モデルであり、低次元の形状空間で欠落した詳細を捉え、空間の漸進的な富化を可能にする。 Morphable models are fundamental to numerous human-centered processes as they offer a simple yet expressive shape space. Creating such morphable models, however, is both tedious and expensive. The main challenge is establishing dense correspondences across raw scans that capture sufficient shape variation. This is often addressed using a mix of significant manual intervention and non-rigid registration. We observe that creating a shape space and solving for dense correspondence are tightly coupled -- while dense correspondence is needed to build shape spaces, an expressive shape space provides a reduced dimensional space to regularize the search. We introduce BLiSS, a method to solve both progressively. Starting from a small set of manually registered scans to bootstrap the process, we enrich the shape space and then use that to get new unregistered scans into correspondence automatically. The critical component of BLiSS is a non-linear deformation model that captures details missed by the low-dimensional shape space, thus allowing progressive enrichment of the space. | 翻訳日:2023-09-06 17:31:58 公開日:2023-09-04 |
# 構造化スパースモデルの一般化情報基準 Generalized Information Criteria for Structured Sparse Models ( http://arxiv.org/abs/2309.01764v1 ) ライセンス: Link先を確認 | Eduardo F. Mendes and Gabriel J. P. Pinto | (参考訳) 正規化m-推定器は、高次元シナリオで低次元モデルを復元する能力のために広く利用されている。
この話題に対する最近の取り組みは、oracleの境界を確立するための統一フレームワークの作成と、サポートリカバリの条件の導出に焦点を当てた。
この同じ枠組みの下で,回復したいスパーシティパターンを考慮した新しい汎用情報基準(gic)を提案する。
我々は、GICのモデル選択整合性のための非漸近モデル選択境界と十分な条件を得る。
さらに、GICは正規化$m$-estimationフレームワーク内で正規化パラメータを選択するためにも使用できることを示し、高次元シナリオにおけるモデル選択にGICを実用的に利用できるようにする。
一般化線形回帰と低階行列回帰の文脈における群LASSOの例を示す。 Regularized m-estimators are widely used due to their ability of recovering a low-dimensional model in high-dimensional scenarios. Some recent efforts on this subject focused on creating a unified framework for establishing oracle bounds, and deriving conditions for support recovery. Under this same framework, we propose a new Generalized Information Criteria (GIC) that takes into consideration the sparsity pattern one wishes to recover. We obtain non-asymptotic model selection bounds and sufficient conditions for model selection consistency of the GIC. Furthermore, we show that the GIC can also be used for selecting the regularization parameter within a regularized $m$-estimation framework, which allows practical use of the GIC for model selection in high-dimensional scenarios. We provide examples of group LASSO in the context of generalized linear regression and low rank matrix regression. | 翻訳日:2023-09-06 17:31:42 公開日:2023-09-04 |
# DiscoverPath:生物医学研究における学際性のための知識検索システム DiscoverPath: A Knowledge Refinement and Retrieval System for Interdisciplinarity on Biomedical Research ( http://arxiv.org/abs/2309.01808v1 ) ライセンス: Link先を確認 | Yu-Neng Chuang, Guanchu Wang, Chia-Yuan Chang, Kwei-Herng Lai, Daochen Zha, Ruixiang Tang, Fan Yang, Alfredo Costilla Reyes, Kaixiong Zhou, Xiaoqian Jiang, Xia Hu | (参考訳) 学術出版物の指数的な成長は、特に同様の研究を記述するために様々な用語が使用される学際分野において、効率的な記事検索のための高度なツールを必要とする。
従来のキーワードベースの検索エンジンは、特定の用語に慣れていないユーザーを助けるのに不足することが多い。
そこで本研究では,バイオメディカル研究のための知識グラフベースの紙検索エンジンを提案し,関連するクエリや記事の発見におけるユーザエクスペリエンスを向上させる。
DiscoverPathと呼ばれるこのシステムは、名前付きエンティティ認識(NER)とPOSタグを使用して、記事抽象化から用語や関係を抽出し、KGを作成する。
情報過負荷を軽減するため、DiscoverPathは、クエリエンティティとその近隣ノードを含む集中サブグラフをユーザに提示し、クエリレコメンデーションシステムを導入し、ユーザが反復的にクエリを洗練できるようにする。
このシステムは、KGの直感的な視覚化、クエリレコメンデーション、詳細な記事情報を提供し、効率的な記事検索を可能にし、学際的な知識探索を促進することのできるグラフィカルユーザインタフェースを備えている。
discoverpathはhttps://github.com/ynchuang/discoverpathでオープンソースである。 The exponential growth in scholarly publications necessitates advanced tools for efficient article retrieval, especially in interdisciplinary fields where diverse terminologies are used to describe similar research. Traditional keyword-based search engines often fall short in assisting users who may not be familiar with specific terminologies. To address this, we present a knowledge graph-based paper search engine for biomedical research to enhance the user experience in discovering relevant queries and articles. The system, dubbed DiscoverPath, employs Named Entity Recognition (NER) and part-of-speech (POS) tagging to extract terminologies and relationships from article abstracts to create a KG. To reduce information overload, DiscoverPath presents users with a focused subgraph containing the queried entity and its neighboring nodes and incorporates a query recommendation system, enabling users to iteratively refine their queries. The system is equipped with an accessible Graphical User Interface that provides an intuitive visualization of the KG, query recommendations, and detailed article information, enabling efficient article retrieval, thus fostering interdisciplinary knowledge exploration. DiscoverPath is open-sourced at https://github.com/ynchuang/DiscoverPath. | 翻訳日:2023-09-06 17:24:22 公開日:2023-09-04 |
# 環境外政策評価のための限界化重要度サンプリング Marginalized Importance Sampling for Off-Environment Policy Evaluation ( http://arxiv.org/abs/2309.01807v1 ) ライセンス: Link先を確認 | Pulkit Katdare, Nan Jiang and Katherine Driggs-Campbell | (参考訳) 強化学習 (Reinforcement Learning, RL) 法は通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。
シミュレーションでトレーニングされた堅牢なポリシでさえ、パフォーマンスを評価するために実際のデプロイメントが必要です。
本稿では,エージェントポリシーの現実的性能を評価するための新しい手法を提案する。
提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,Marginalized Importance Sampling (MIS) のフレームワークを用いて,任意のポリシのパフォーマンスを評価する。
既存のmis手法では,(1)適度な範囲から逸脱する大きな密度比と(2)間接的な監督,(2)間接的に推定する必要があるため推定誤差が悪化する,という2つの課題に直面している。
提案手法は,中間変数としてシミュレータにターゲットポリシーの占有率を導入し,分離学習可能な2項の積として密度比を学習することで,これらの課題に対処する。
第1項は直接監督によって学習され、第2項は小さなマグニチュードを持つため、実行が容易になる。
サンプルの複雑さと2つのステッププロシージャのエラー伝播を分析した。
さらに,Cartpole,Reacher,Half-CheetahなどのSim2Sim環境に対するアプローチを実証的に評価した。
提案手法は,様々なSim2Simギャップ,ターゲットポリシ,オフラインデータ収集ポリシにまたがって一般化されている。
また, オフラインデータを用いた7自由度ロボットアームの性能検証とガゼボ型アームシミュレータを用いたsim2実作業におけるアルゴリズムの性能を実証した。 Reinforcement Learning (RL) methods are typically sample-inefficient, making it challenging to train and deploy RL-policies in real world robots. Even a robust policy trained in simulation, requires a real-world deployment to assess their performance. This paper proposes a new approach to evaluate the real-world performance of agent policies without deploying them in the real world. The proposed approach incorporates a simulator along with real-world offline data to evaluate the performance of any policy using the framework of Marginalized Importance Sampling (MIS). Existing MIS methods face two challenges: (1) large density ratios that deviate from a reasonable range and (2) indirect supervision, where the ratio needs to be inferred indirectly, thus exacerbating estimation error. Our approach addresses these challenges by introducing the target policy's occupancy in the simulator as an intermediate variable and learning the density ratio as the product of two terms that can be learned separately. The first term is learned with direct supervision and the second term has a small magnitude, thus making it easier to run. We analyze the sample complexity as well as error propagation of our two step-procedure. Furthermore, we empirically evaluate our approach on Sim2Sim environments such as Cartpole, Reacher and Half-Cheetah. Our results show that our method generalizes well across a variety of Sim2Sim gap, target policies and offline data collection policies. We also demonstrate the performance of our algorithm on a Sim2Real task of validating the performance of a 7 DOF robotic arm using offline data along with a gazebo based arm simulator. | 翻訳日:2023-09-06 17:24:01 公開日:2023-09-04 |
# アルプス帯における森林動態の空間的植生高度マップの精度と整合性 Accuracy and Consistency of Space-based Vegetation Height Maps for Forest Dynamics in Alpine Terrain ( http://arxiv.org/abs/2309.01797v1 ) ライセンス: Link先を確認 | Yuchang Jiang, Marius R\"uetschi, Vivien Sainte Fare Garnot, Mauro Marty, Konrad Schindler, Christian Ginzler, Jan D. Wegner | (参考訳) 森林動態のモニタリングと理解は環境保全と管理に不可欠である。
そのため、スイス国立森林調査所(NFI)は0.5mの空間解像度で全国の植生高度マップを提供している。
しかし6年間の更新期間は、森林動態の時間的解析を制限している。
これは、宇宙からのリモートセンシングと深層学習を用いて、大規模植生高度マップを低コストで作成することにより改善することができる。
本稿では,これらの手法をスイスにおける運用に応用するための詳細な分析を行う。
センチネル2衛星画像に基づいて,2017年から2020年までの10m地点で年間,全国の植生高度マップを作成した。
従来と比べ, 高精度な空中レーザ走査参照データセットに対して, 大規模かつ詳細な層構造解析を行った。
この階層化解析により、モデル精度とトポロジー、特に傾斜とアスペクトの密接な関係が明らかになる。
変化検出のための深層学習に基づく高さマップの可能性を評価し,250$m^2$程度の変化を示すことができることを示した。
冬の嵐による大規模な変化はF1スコア0.77で検出される。
以上の結果から,衛星画像から深層学習で算出した植生高度マップは,森林評価の時間分解能を高めるための有益で相補的で費用効果の高い証拠源であることが示唆された。 Monitoring and understanding forest dynamics is essential for environmental conservation and management. This is why the Swiss National Forest Inventory (NFI) provides countrywide vegetation height maps at a spatial resolution of 0.5 m. Its long update time of 6 years, however, limits the temporal analysis of forest dynamics. This can be improved by using spaceborne remote sensing and deep learning to generate large-scale vegetation height maps in a cost-effective way. In this paper, we present an in-depth analysis of these methods for operational application in Switzerland. We generate annual, countrywide vegetation height maps at a 10-meter ground sampling distance for the years 2017 to 2020 based on Sentinel-2 satellite imagery. In comparison to previous works, we conduct a large-scale and detailed stratified analysis against a precise Airborne Laser Scanning reference dataset. This stratified analysis reveals a close relationship between the model accuracy and the topology, especially slope and aspect. We assess the potential of deep learning-derived height maps for change detection and find that these maps can indicate changes as small as 250 $m^2$. Larger-scale changes caused by a winter storm are detected with an F1-score of 0.77. Our results demonstrate that vegetation height maps computed from satellite imagery with deep learning are a valuable, complementary, cost-effective source of evidence to increase the temporal resolution for national forest assessments. | 翻訳日:2023-09-06 17:23:33 公開日:2023-09-04 |
# ランダム初期化を用いた勾配降下による非対称行列センシング Asymmetric matrix sensing by gradient descent with small random initialization ( http://arxiv.org/abs/2309.01796v1 ) ライセンス: Link先を確認 | Johan S. Wind | (参考訳) いくつかの線形測定から低ランク行列を再構成する問題である行列センシングについて検討する。
これは超パラメータ回帰問題として定式化でき、小さなランダム初期化から始めると分解された勾配降下によって解くことができる。
線形ニューラルネットワーク、特に分解勾配降下によるマトリックスセンシングは、複雑な現象を解き、詳細に研究する現代の機械学習において、非凸問題の原型モデルとして機能する。
多くの研究は、非対称行列分解や対称正半定値行列センシングのような非対称行列センシングの特別なケースの研究に費やされている。
私たちの重要な貢献は、$\textit{perturbed gradient flow}$と呼ばれる連続微分方程式の導入です。
摂動勾配流は摂動が十分に有界であるときは常に真の対象行列に素早く収束する。
行列センシングのための勾配降下のダイナミクスはこの定式化に還元され、因子化された勾配降下を伴う非対称行列センシングの新たな証明となる。
勾配降下のダイナミクスを直接分析するのに比べ、連続定式化は、それらの微分を考慮し、しばしば証明を単純化することで鍵量の制限を可能にする。
一般的な証明手法は、他の設定でも有用であると考えています。 We study matrix sensing, which is the problem of reconstructing a low-rank matrix from a few linear measurements. It can be formulated as an overparameterized regression problem, which can be solved by factorized gradient descent when starting from a small random initialization. Linear neural networks, and in particular matrix sensing by factorized gradient descent, serve as prototypical models of non-convex problems in modern machine learning, where complex phenomena can be disentangled and studied in detail. Much research has been devoted to studying special cases of asymmetric matrix sensing, such as asymmetric matrix factorization and symmetric positive semi-definite matrix sensing. Our key contribution is introducing a continuous differential equation that we call the $\textit{perturbed gradient flow}$. We prove that the perturbed gradient flow converges quickly to the true target matrix whenever the perturbation is sufficiently bounded. The dynamics of gradient descent for matrix sensing can be reduced to this formulation, yielding a novel proof of asymmetric matrix sensing with factorized gradient descent. Compared to directly analyzing the dynamics of gradient descent, the continuous formulation allows bounding key quantities by considering their derivatives, often simplifying the proofs. We believe the general proof technique may prove useful in other settings as well. | 翻訳日:2023-09-06 17:23:15 公開日:2023-09-04 |
# 不均一データを用いた複合連合学習 Composite federated learning with heterogeneous data ( http://arxiv.org/abs/2309.01795v1 ) ライセンス: Link先を確認 | Jiaojiao Zhang, Jiang Hu, Mikael Johansson | (参考訳) 本稿では,複合フェデレート学習(FL)問題を解くための新しいアルゴリズムを提案する。
このアルゴリズムは、近似演算子と通信を戦略的に分離することで非滑らかな正規化を管理し、データ類似性に関する仮定なしにクライアントのドリフトに対処する。
さらに、各ワーカはローカル更新を使用してサーバとの通信頻度を削減し、通信ラウンド毎に$d$次元ベクトルのみを送信する。
提案アルゴリズムは最適解の近傍に線形に収束し,数値実験における最先端手法よりもアルゴリズムの優位性を示す。 We propose a novel algorithm for solving the composite Federated Learning (FL) problem. This algorithm manages non-smooth regularization by strategically decoupling the proximal operator and communication, and addresses client drift without any assumptions about data similarity. Moreover, each worker uses local updates to reduce the communication frequency with the server and transmits only a $d$-dimensional vector per communication round. We prove that our algorithm converges linearly to a neighborhood of the optimal solution and demonstrate the superiority of our algorithm over state-of-the-art methods in numerical experiments. | 翻訳日:2023-09-06 17:22:57 公開日:2023-09-04 |
# neural-singular-hessian: impcing singular hessianによる無向点雲の暗黙的神経表現 Neural-Singular-Hessian: Implicit Neural Representation of Unoriented Point Clouds by Enforcing Singular Hessian ( http://arxiv.org/abs/2309.01793v1 ) ライセンス: Link先を確認 | Zixiong Wang, Yunxiao Zhang, Rui Xu, Fan Zhang, Pengshuai Wang, Shuangmin Chen, Shiqing Xin, Wenping Wang, Changhe Tu | (参考訳) ニューラル暗黙的表現は、点雲から表面を再構築するための有望なアプローチである。
既存の方法は、アイコンエネルギー項やラプラシアエネルギー項のような様々な正規化項を組み合わせて、学習された神経関数を符号付き距離関数(SDF)の性質を持つように強制する。
しかし、低品質な無向点雲から表面の実際の位相と幾何学を推定することは依然として困難である。
微分幾何学に従って、SDFのヘッセンは表面を囲む微分薄い殻空間内の点に対して特異である。
提案手法は, 表面近傍の点に対してゼロ行列式を持つようにニューラル暗黙関数のヘシアンを強制する。
この手法は、表面近傍の点とその表面の射影点の勾配を整列させ、わずか数イテレーションで粗いが忠実な形状を作り出す。
特異ヘッセン項の重みをアニールすることで、このアプローチは最終的に高忠実な再構成結果をもたらす。
その結果,本手法はゴースト形状を効果的に抑制し,既存のフィッティング法よりも表現性がよい無向点雲から詳細を復元することを示した。 Neural implicit representation is a promising approach for reconstructing surfaces from point clouds. Existing methods combine various regularization terms, such as the Eikonal and Laplacian energy terms, to enforce the learned neural function to possess the properties of a Signed Distance Function (SDF). However, inferring the actual topology and geometry of the underlying surface from poor-quality unoriented point clouds remains challenging. In accordance with Differential Geometry, the Hessian of the SDF is singular for points within the differential thin-shell space surrounding the surface. Our approach enforces the Hessian of the neural implicit function to have a zero determinant for points near the surface. This technique aligns the gradients for a near-surface point and its on-surface projection point, producing a rough but faithful shape within just a few iterations. By annealing the weight of the singular-Hessian term, our approach ultimately produces a high-fidelity reconstruction result. Extensive experimental results demonstrate that our approach effectively suppresses ghost geometry and recovers details from unoriented point clouds with better expressiveness than existing fitting-based methods. | 翻訳日:2023-09-06 17:22:47 公開日:2023-09-04 |
# データ効率の高い分子特性予測のための階層的文法誘導幾何 Hierarchical Grammar-Induced Geometry for Data-Efficient Molecular Property Prediction ( http://arxiv.org/abs/2309.01788v1 ) ライセンス: Link先を確認 | Minghao Guo, Veronika Thost, Samuel W Song, Adithya Balachandran, Payel Das, Jie Chen, Wojciech Matusik | (参考訳) 分子特性の予測は、物質発見と薬物発見の分野で重要な課題である。
ディープラーニング技術を使うことの潜在的な利点は、近年の文学の富に反映されている。
ラベル付きデータは、文献から手動で抽出するコストと、手間のかかる実験によって制限されます。
本研究では, 学習可能な階層型分子文法を用いて, 文法生成規則から分子を生成可能なデータ効率特性予測器を提案する。
このような文法は、分子グラフの空間の明示的な幾何学を誘導し、分子構造類似性に先立って情報を提供する。
文法誘起幾何上のグラフニューラルネットワーク拡散を用いて特性予測を行う。
小さいデータセットと大きなデータセットの両方において、この手法は教師付きおよび事前学習されたグラフニューラルネットワークを含む幅広いベースラインよりも優れていることを示す。
極めて限られたデータを持つ場合に有効性を示す、詳細なアブレーション研究とソリューションのさらなる分析を含む。
コードはhttps://github.com/gmh14/Geo-DEGで入手できる。 The prediction of molecular properties is a crucial task in the field of material and drug discovery. The potential benefits of using deep learning techniques are reflected in the wealth of recent literature. Still, these techniques are faced with a common challenge in practice: Labeled data are limited by the cost of manual extraction from literature and laborious experimentation. In this work, we propose a data-efficient property predictor by utilizing a learnable hierarchical molecular grammar that can generate molecules from grammar production rules. Such a grammar induces an explicit geometry of the space of molecular graphs, which provides an informative prior on molecular structural similarity. The property prediction is performed using graph neural diffusion over the grammar-induced geometry. On both small and large datasets, our evaluation shows that this approach outperforms a wide spectrum of baselines, including supervised and pre-trained graph neural networks. We include a detailed ablation study and further analysis of our solution, showing its effectiveness in cases with extremely limited data. Code is available at https://github.com/gmh14/Geo-DEG. | 翻訳日:2023-09-06 17:22:26 公開日:2023-09-04 |
# 単一OoD画像による安全かつロバストな透かし注入 Safe and Robust Watermark Injection with a Single OoD Image ( http://arxiv.org/abs/2309.01786v1 ) ライセンス: Link先を確認 | Shuyang Yu, Junyuan Hong, Haobo Zhang, Haotao Wang, Zhangyang Wang and Jiayu Zhou | (参考訳) 高性能なディープニューラルネットワークのトレーニングには大量のデータと計算リソースが必要である。
深層モデルの知的財産権(IP)と商業的所有権を保護することは、ますます重要になっている。
ウォーターマーキング戦略の大きな流れは、トレーニングサンプルを毒殺することで検証可能なバックドアトリガーを注入するが、データプライバシや安全上の懸念から非現実的なものが多く、微調整などのマイナーなモデル変更に弱い。
これらの課題を克服するために,IP検証の秘密鍵となる単一分布(OoD)画像からの多様な知識を活用する,安全で堅牢なバックドアベースの透かし注入手法を提案する。
トレーニングデータの独立性は、サードパーティのIPセキュリティの約束を無視する。
注水時のモデルパラメータのランダムな摂動によりロバスト性を誘導し, 微調整, 刈り取り, モデル抽出など, 一般的なウォーターマーク除去攻撃に対して防御する。
実験の結果,提案手法はトレーニングデータなしでの時間的およびサンプル効率だけでなく,上述の透かし除去攻撃に対して堅牢であることがわかった。 Training a high-performance deep neural network requires large amounts of data and computational resources. Protecting the intellectual property (IP) and commercial ownership of a deep model is challenging yet increasingly crucial. A major stream of watermarking strategies implants verifiable backdoor triggers by poisoning training samples, but these are often unrealistic due to data privacy and safety concerns and are vulnerable to minor model changes such as fine-tuning. To overcome these challenges, we propose a safe and robust backdoor-based watermark injection technique that leverages the diverse knowledge from a single out-of-distribution (OoD) image, which serves as a secret key for IP verification. The independence of training data makes it agnostic to third-party promises of IP security. We induce robustness via random perturbation of model parameters during watermark injection to defend against common watermark removal attacks, including fine-tuning, pruning, and model extraction. Our experimental results demonstrate that the proposed watermarking approach is not only time- and sample-efficient without training data, but also robust against the watermark removal attacks above. | 翻訳日:2023-09-06 17:22:11 公開日:2023-09-04 |
# ATMS:アルゴリズムによる取引誘導市場シミュレーション ATMS: Algorithmic Trading-Guided Market Simulation ( http://arxiv.org/abs/2309.01784v1 ) ライセンス: Link先を確認 | Song Wei, Andrea Coletta, Svitlana Vyetrenko, Tucker Balch | (参考訳) アルゴリズムトレーディング(at)戦略の効果的な構築は、しばしば市場シミュレータに依存しているが、既存の手法がトレーディングアクティビティのシーケンシャルでダイナミックな性質に適応できないため、依然として困難である。
この研究は、市場の不一致を定量化する指標を提案することで、このギャップを埋める。
本尺度は, 市場固有の特性と因果効果の差を測定し, ATエージェントと市場との相互作用を通じて評価する。
最も重要なことは、提案したメトリックを最適化することで、アルゴリズム取引誘導市場シミュレーション(ATMS)を導入することである。
SeqGANにインスパイアされたATMSは、このシミュレータを強化学習(RL)における確率的ポリシーとして定式化し、取引のシーケンシャルな性質を説明する。
さらに、ATMSは、市場からの注文削除のような差別化不可能な操作を含む、提案されたメトリックの差別化を回避するためにポリシー勾配更新を利用する。
半実市場データに関する広範な実験を通じて,ATMSは現状のWasserstein Generative Adversarial Network (cWGAN) アプローチと比較して,現実と類似性が改善された市場データを生成することを示す。
さらに、atmは、よりバランスの取れた売買量を持つ市場データを生成し、単純な戦略で利益の売買不均衡を活用できるcwganのベースラインアプローチのバイアスを緩和する。 The effective construction of an Algorithmic Trading (AT) strategy often relies on market simulators, which remains challenging due to existing methods' inability to adapt to the sequential and dynamic nature of trading activities. This work fills this gap by proposing a metric to quantify market discrepancy. This metric measures the difference between a causal effect from underlying market unique characteristics and it is evaluated through the interaction between the AT agent and the market. Most importantly, we introduce Algorithmic Trading-guided Market Simulation (ATMS) by optimizing our proposed metric. Inspired by SeqGAN, ATMS formulates the simulator as a stochastic policy in reinforcement learning (RL) to account for the sequential nature of trading. Moreover, ATMS utilizes the policy gradient update to bypass differentiating the proposed metric, which involves non-differentiable operations such as order deletion from the market. Through extensive experiments on semi-real market data, we demonstrate the effectiveness of our metric and show that ATMS generates market data with improved similarity to reality compared to the state-of-the-art conditional Wasserstein Generative Adversarial Network (cWGAN) approach. Furthermore, ATMS produces market data with more balanced BUY and SELL volumes, mitigating the bias of the cWGAN baseline approach, where a simple strategy can exploit the BUY/SELL imbalance for profit. | 翻訳日:2023-09-06 17:21:50 公開日:2023-09-04 |
# ハイブリッドサンプリング法と木型分類器を用いた不均衡大腸癌データセットの生存予測 Survival Prediction from Imbalance colorectal cancer dataset using hybrid sampling methods and tree-based classifiers ( http://arxiv.org/abs/2309.01783v1 ) ライセンス: Link先を確認 | Sadegh Soleimani, Mahsa Bahrami, Mansour Vali | (参考訳) 背景と目的:大腸癌は高死亡率がんである。
臨床データ分析は、大腸癌患者の生存を予測する上で重要な役割を担っている。
しかし、特に不均衡な結果を扱う場合、臨床データの利用は困難である。
本稿では,臨床データを用いた大腸癌患者の1~3~5年生存予測アルゴリズムの開発,特に1年生存予測タスクの高度不均衡に着目した。
この問題に対処するために,本研究では,標準バランス手法のパイプラインを作成し,正の率を増加させる手法を提案する。
SEERデータベースから大腸癌データセットを用いて評価を行う。
メソッド: 前処理ステップは、値が足りないレコードを削除し、カテゴリをマージする。
1年3年生存タスクのマイノリティクラスはそれぞれ、データの10%と20%で構成されている。
データをツリーベースの分類器とバランスをとるために, 編集近辺, 再編集近辺 (renn), 合成極小過剰サンプリング技術 (smote) およびsmoteおよびrennアプローチのパイプラインを用いて比較を行った。
本項では, 決定木, ランダムフォレスト, エクストラツリー, eXtreme Gradient Boosting および Light Gradient Boosting (LGBM) を用いる。
方法。
結果: 性能評価は5倍のクロスバリデーションアプローチを用いる。
高度に不均衡なデータセット(1年)の場合,LGBMを用いた提案手法は72.30%の感度で他のサンプリング手法よりも優れる。
不均衡(3年生存)の課題に対して、RENNとLGBMの組み合わせは80.81%の感度を実現し、提案手法は高度不均衡データセットに最適であることを示す。
結論:本手法は大腸癌患者のマイノリティクラスの死亡率予測を有意に改善する。 Background and Objective: Colorectal cancer is a high mortality cancer. Clinical data analysis plays a crucial role in predicting the survival of colorectal cancer patients, enabling clinicians to make informed treatment decisions. However, utilizing clinical data can be challenging, especially when dealing with imbalanced outcomes. This paper focuses on developing algorithms to predict 1-, 3-, and 5-year survival of colorectal cancer patients using clinical datasets, with particular emphasis on the highly imbalanced 1-year survival prediction task. To address this issue, we propose a method that creates a pipeline of some of standard balancing techniques to increase the true positive rate. Evaluation is conducted on a colorectal cancer dataset from the SEER database. Methods: The pre-processing step consists of removing records with missing values and merging categories. The minority class of 1-year and 3-year survival tasks consists of 10% and 20% of the data, respectively. Edited Nearest Neighbor, Repeated edited nearest neighbor (RENN), Synthetic Minority Over-sampling Techniques (SMOTE), and pipelines of SMOTE and RENN approaches were used and compared for balancing the data with tree-based classifiers. Decision Trees, Random Forest, Extra Tree, eXtreme Gradient Boosting, and Light Gradient Boosting (LGBM) are used in this article. Method. Results: The performance evaluation utilizes a 5-fold cross-validation approach. In the case of highly imbalanced datasets (1-year), our proposed method with LGBM outperforms other sampling methods with the sensitivity of 72.30%. For the task of imbalance (3-year survival), the combination of RENN and LGBM achieves a sensitivity of 80.81%, indicating that our proposed method works best for highly imbalanced datasets. Conclusions: Our proposed method significantly improves mortality prediction for the minority class of colorectal cancer patients. | 翻訳日:2023-09-06 17:21:14 公開日:2023-09-04 |
# ソフトドロップアウト:量子畳み込みニューラルネットワークにおけるオーバーフィッティング緩和のための実用的なアプローチ Soft-Dropout: A Practical Approach for Mitigating Overfitting in Quantum Convolutional Neural Networks ( http://arxiv.org/abs/2309.01829v1 ) ライセンス: Link先を確認 | Aakash Ravindra Shinde, Charu Jain, and Amir Kalev | (参考訳) NISQ時代の量子コンピュータの初期の応用である量子畳み込みニューラルネットワーク(QCNN)は、いくつかのタスクに対する機械学習(ML)アルゴリズムとして一貫して成功している。
従来のQCNNから派生したQCNNは、過度に適合する傾向にある。
オーバーフィッティング(overfitting)は、マシンラーニングモデルの典型的な欠点であり、使用済みのトレーニングデータセットにあまりにも親密にトレーニングされ、同様の問題に対して、未認識のデータセットに対して比較的性能が低下する。
本研究は, 量子環境における過適合緩和法として最も成功した手法の1つである(ポストトレーニング後)ドロップアウト法の適応性について検討する。
量子環境におけるこの手法の直接的実装は、qcnnの成功確率の大幅な低下という、重要かつ望ましくない結果をもたらすことが判明した。
我々は、この効果がQCNNにおける絡み合いの重要な役割と、QCNNの絡み合い損失に対する脆弱性を明らかにすることを論じる。
オーバーフィッティングに対処するため,我々はドロップアウト方式のソフトバージョンを提案した。
提案手法により,テストケースでのオーバーフィッティングをうまく処理できることがわかった。 Quantum convolutional neural network (QCNN), an early application for quantum computers in the NISQ era, has been consistently proven successful as a machine learning (ML) algorithm for several tasks with significant accuracy. Derived from its classical counterpart, QCNN is prone to overfitting. Overfitting is a typical shortcoming of ML models that are trained too closely to the availed training dataset and perform relatively poorly on unseen datasets for a similar problem. In this work we study the adaptation of one of the most successful overfitting mitigation method, knows as the (post-training) dropout method, to the quantum setting. We find that a straightforward implementation of this method in the quantum setting leads to a significant and undesirable consequence: a substantial decrease in success probability of the QCNN. We argue that this effect exposes the crucial role of entanglement in QCNNs and the vulnerability of QCNNs to entanglement loss. To handle overfitting, we proposed a softer version of the dropout method. We find that the proposed method allows us to handle successfully overfitting in the test cases. | 翻訳日:2023-09-06 17:15:37 公開日:2023-09-04 |
# 分散鍵生成と軌道上モデルアグリゲーションを用いたleo星座の安全かつ効率的な連合学習 Secure and Efficient Federated Learning in LEO Constellations using Decentralized Key Generation and On-Orbit Model Aggregation ( http://arxiv.org/abs/2309.01828v1 ) ライセンス: Link先を確認 | Mohamed Elmahallawy, Tie Luo, and Mohamed I. Ibrahem | (参考訳) 近年、衛星技術は飛躍的に進歩し、衛星画像などの膨大なデータを収集するために小型衛星を低軌道(leos)に打ち上げることへの関心が高まっている。
これらのデータを地上局(GS)にダウンロードして集中学習してAIモデルを構築することは、限られた帯域幅と高価な帯域幅のために現実的ではない。
フェデレートラーニング(FL)は潜在的な解決策を提供するが、LEO衛星とGSの間の非常に散発的で不規則な接続のために非常に大きな収束遅延を引き起こす。
さらに、盗聴者や好奇心の強いサーバ/サテライトが、安全でない通信チャネルを介して送信される衛星のモデルパラメータから生データを推測する、重大なセキュリティとプライバシのリスクがある。
これらの問題に対処するために, LEOコンステレーション用に設計されたセキュアFLアプローチであるFedSecureを提案する。1) 機能暗号方式を用いて衛星データのプライバシを保護する分散鍵生成,2) 軌道毎に部分的グローバルモデルを生成する軌道上のモデルフォワードとアグリゲーションにより, 可視領域に入るためのアイドル待ち時間を最小化する。
我々の分析と結果は、FedSecureが各衛星のデータのプライバシーを、盗聴者、好奇心強いサーバー、好奇心の強い衛星に対して保護していることを示している。
他のプライバシ保護FLアグリゲーションアプローチよりも通信と計算のオーバーヘッドが大幅に低い。
また、収束遅延は数日から数時間に劇的に減少するが、現実的な衛星画像を用いて85.35%の精度を達成する。 Satellite technologies have advanced drastically in recent years, leading to a heated interest in launching small satellites into low Earth orbit (LEOs) to collect massive data such as satellite imagery. Downloading these data to a ground station (GS) to perform centralized learning to build an AI model is not practical due to the limited and expensive bandwidth. Federated learning (FL) offers a potential solution but will incur a very large convergence delay due to the highly sporadic and irregular connectivity between LEO satellites and GS. In addition, there are significant security and privacy risks where eavesdroppers or curious servers/satellites may infer raw data from satellites' model parameters transmitted over insecure communication channels. To address these issues, this paper proposes FedSecure, a secure FL approach designed for LEO constellations, which consists of two novel components: (1) decentralized key generation that protects satellite data privacy using a functional encryption scheme, and (2) on-orbit model forwarding and aggregation that generates a partial global model per orbit to minimize the idle waiting time for invisible satellites to enter the visible zone of the GS. Our analysis and results show that FedSecure preserves the privacy of each satellite's data against eavesdroppers, a curious server, or curious satellites. It is lightweight with significantly lower communication and computation overheads than other privacy-preserving FL aggregation approaches. It also reduces convergence delay drastically from days to only a few hours, yet achieving high accuracy of up to 85.35% using realistic satellite images. | 翻訳日:2023-09-06 17:15:19 公開日:2023-09-04 |
# フィードフォワードは必要なものだけ One Wide Feedforward is All You Need ( http://arxiv.org/abs/2309.01826v1 ) ライセンス: Link先を確認 | Telmo Pessoa Pires, Ant\'onio V. Lopes, Yannick Assogba, Hendra Setiawan | (参考訳) Transformerアーキテクチャには、AttentionとFeed Forward Network (FFN)の2つの非埋め込みコンポーネントがある。
注意は単語の位置に関係なく単語間の相互依存を捉え、ffnは非線形に各入力トークンを独立に変換する。
この研究では、ffnの役割を探求し、モデルのパラメータのかなりの部分を占めるにもかかわらず、非常に冗長であることを確認した。
具体的には、デコーダ層上のffnを除去し、エンコーダ全体で単一のffnを共有することで、少ない精度でパラメータ数を大幅に削減することができる。
最後に、このアーキテクチャを、共有FFNの隠れ次元を拡大し、元のTransformer Bigに対して精度とレイテンシの両方で大幅に向上させることにより、元のサイズまで拡張する。 The Transformer architecture has two main non-embedding components: Attention and the Feed Forward Network (FFN). Attention captures interdependencies between words regardless of their position, while the FFN non-linearly transforms each input token independently. In this work we explore the role of the FFN, and find that despite taking up a significant fraction of the model's parameters, it is highly redundant. Concretely, we are able to substantially reduce the number of parameters with only a modest drop in accuracy by removing the FFN on the decoder layers and sharing a single FFN across the encoder. Finally we scale this architecture back to its original size by increasing the hidden dimension of the shared FFN, achieving substantial gains in both accuracy and latency with respect to the original Transformer Big. | 翻訳日:2023-09-06 17:14:50 公開日:2023-09-04 |
# LoopTune: 強化学習によるテンソル計算の最適化 LoopTune: Optimizing Tensor Computations with Reinforcement Learning ( http://arxiv.org/abs/2309.01825v1 ) ライセンス: Link先を確認 | Dejan Grubisic, Bram Wasti, Chris Cummins, John Mellor-Crummey, Aleksandar Zlateski | (参考訳) 高度なコンパイラ技術は、機械学習アプリケーションが新しいハードウェア上で実行できるようにするのに不可欠であるが、従来のコンパイラはパフォーマンスを提供できず、人気のあるオートチューニングは長い検索時間を持ち、エキスパート最適化ライブラリは持続不可能なコストをもたらす。
そこで我々は,CPUの深層学習モデルにおけるテンソル計算を最適化する深層学習コンパイラであるLoopTuneを開発した。
looptuneは、超高速軽量コードジェネレータloopnestを使用してハードウェア固有の最適化を実行しながら、テンソルトラバース順序を最適化する。
新しいグラフベースの表現とアクション空間により、looptuneはloopnestを3.2倍スピードアップし、tvmより2.8倍速く、metascheduleより2.8倍速く、autotvmより1.08倍高速で、ハンドチューニングされたライブラリnumpyのレベルで一貫して実行します。
さらに、LoopTuneは数秒でコードをチューニングする。 Advanced compiler technology is crucial for enabling machine learning applications to run on novel hardware, but traditional compilers fail to deliver performance, popular auto-tuners have long search times and expert-optimized libraries introduce unsustainable costs. To address this, we developed LoopTune, a deep reinforcement learning compiler that optimizes tensor computations in deep learning models for the CPU. LoopTune optimizes tensor traversal order while using the ultra-fast lightweight code generator LoopNest to perform hardware-specific optimizations. With a novel graph-based representation and action space, LoopTune speeds up LoopNest by 3.2x, generating an order of magnitude faster code than TVM, 2.8x faster than MetaSchedule, and 1.08x faster than AutoTVM, consistently performing at the level of the hand-tuned library Numpy. Moreover, LoopTune tunes code in order of seconds. | 翻訳日:2023-09-06 17:14:37 公開日:2023-09-04 |
# 低消費電力コンピュータビジョンのためのフライ型ディープニューラルネットワーク最適化制御 On the fly Deep Neural Network Optimization Control for Low-Power Computer Vision ( http://arxiv.org/abs/2309.01824v1 ) ライセンス: Link先を確認 | Ishmeet Kaur, Adwaita Janardhan Jadhav | (参考訳) モバイルデバイス上での視覚データ処理には、緊急応答やトラッキングなど、多くのアプリケーションがある。
最先端のコンピュータビジョン技術は、リソース制約のあるエッジデバイスにデプロイするには電力不足の大規模なディープニューラルネットワーク(DNN)に依存している。
スパーシティや量子化を用いてDNNの効率を向上する手法が多数ある。
しかし、これらの技術の正確性と効率性は、異なるハードウェア制約と精度要件を持つ多様なエッジアプリケーションに適用できない。
本稿では,DNNが再学習を必要とせずに,実行時の精度とエネルギー消費に適応できる新しい手法を提案する。
アダプティブアクティベーション(AdaptiveActivation)と呼ばれる手法は、DNNの活性化関数の出力範囲を制御するハイパーパラメータを導入し、DNNの間隔と精度を動的に調整する。
AdaptiveActivationは、既存のトレーニング済みのDNNに適用して、さまざまなエッジ環境におけるデプロイ性を改善することができる。
一般的なエッジデバイスで実験を行い、精度がベースラインの1.5%以内であることを示す。
また,我々の手法では,ベースライン技術よりも10%~38%少ないメモリを必要とするため,より精度と効率のトレードオフが期待できることを示した。 Processing visual data on mobile devices has many applications, e.g., emergency response and tracking. State-of-the-art computer vision techniques rely on large Deep Neural Networks (DNNs) that are usually too power-hungry to be deployed on resource-constrained edge devices. Many techniques improve the efficiency of DNNs by using sparsity or quantization. However, the accuracy and efficiency of these techniques cannot be adapted for diverse edge applications with different hardware constraints and accuracy requirements. This paper presents a novel technique to allow DNNs to adapt their accuracy and energy consumption during run-time, without the need for any re-training. Our technique called AdaptiveActivation introduces a hyper-parameter that controls the output range of the DNNs' activation function to dynamically adjust the sparsity and precision in the DNN. AdaptiveActivation can be applied to any existing pre-trained DNN to improve their deployability in diverse edge environments. We conduct experiments on popular edge devices and show that the accuracy is within 1.5% of the baseline. We also show that our approach requires 10%--38% less memory than the baseline techniques leading to more accuracy-efficiency tradeoff options | 翻訳日:2023-09-06 17:14:17 公開日:2023-09-04 |
# 複数の解剖学的位置における3次元病変分割のための多次元統一スウィントランス Multi-dimension unified Swin Transformer for 3D Lesion Segmentation in Multiple Anatomical Locations ( http://arxiv.org/abs/2309.01823v1 ) ライセンス: Link先を確認 | Shaoyan Pan, Yiqiao Liu, Sarah Halek, Michal Tomaszewski, Shubing Wang, Richard Baumgartner, Jianda Yuan, Gregory Goldmacher, Antong Chen | (参考訳) 腫瘍学研究において,CTスキャンによる病変の正確な3次元分割は,病変成長動態のモデル化に不可欠である。
しかし, 腹直筋の基準に従って, 放射線科医は横方向面積が最も大きい軸方向のスライス上の各病変のみを定位し, 研究目的では, 少数の病変を3dで定位する。
その結果、ラベル付き3Dボリュームやラベル付き2Dイメージ、ラベル付き3Dボリュームが不足しているため、ディープラーニング3Dセグメンテーションモデルのトレーニングが困難な課題となっている。
本研究では,MDU-ST(Multi-dimension unified Swin transformer)と呼ばれる3次元病変分割のための新しいモデルを提案する。
MDU-STは、シフトウインドウ変換器(Swin-transformer)エンコーダと畳み込みニューラルネットワーク(CNN)デコーダからなり、2Dおよび3D入力に適応し、対応する意味情報を同じエンコーダで学習することができる。
このモデルに基づいて、3段階のフレームワークを紹介します。
1)Swin-transformerエンコーダの病変解剖パターンを学習するために,自己教師型プレテキストタスクを通じて大量のラベルのない3D病変量を活用する。
2) スライスレベルセグメンテーション情報を学ぶために,スウィントランスフォーマエンコーダを細調整して,2次元直腸スライスを用いた2次元病変セグメンテーションを行う。
3)さらにスウィントランスフォーマエンコーダを微調整し,ラベル付き3dボリュームで3d病変分割を行う。
ネットワークの性能はDice similarity coefficient(DSC)とHausdorff distance(HD)で評価され,複数の解剖学的位置から593個の病変を抽出した内部3D病変データセットを用いて評価した。
提案したMDU-STは、競合するモデルよりも大幅に改善されている。
提案手法は, 放射線治療および腫瘍増殖モデル研究を支援するために, 自動3次元病変分画を行うことができる。
この論文は、IEEE International Symposium on Biomedical Imaging (ISBI) 2023で受け入れられている。 In oncology research, accurate 3D segmentation of lesions from CT scans is essential for the modeling of lesion growth kinetics. However, following the RECIST criteria, radiologists routinely only delineate each lesion on the axial slice showing the largest transverse area, and delineate a small number of lesions in 3D for research purposes. As a result, we have plenty of unlabeled 3D volumes and labeled 2D images, and scarce labeled 3D volumes, which makes training a deep-learning 3D segmentation model a challenging task. In this work, we propose a novel model, denoted a multi-dimension unified Swin transformer (MDU-ST), for 3D lesion segmentation. The MDU-ST consists of a Shifted-window transformer (Swin-transformer) encoder and a convolutional neural network (CNN) decoder, allowing it to adapt to 2D and 3D inputs and learn the corresponding semantic information in the same encoder. Based on this model, we introduce a three-stage framework: 1) leveraging large amount of unlabeled 3D lesion volumes through self-supervised pretext tasks to learn the underlying pattern of lesion anatomy in the Swin-transformer encoder; 2) fine-tune the Swin-transformer encoder to perform 2D lesion segmentation with 2D RECIST slices to learn slice-level segmentation information; 3) further fine-tune the Swin-transformer encoder to perform 3D lesion segmentation with labeled 3D volumes. The network's performance is evaluated by the Dice similarity coefficient (DSC) and Hausdorff distance (HD) using an internal 3D lesion dataset with 593 lesions extracted from multiple anatomical locations. The proposed MDU-ST demonstrates significant improvement over the competing models. The proposed method can be used to conduct automated 3D lesion segmentation to assist radiomics and tumor growth modeling studies. This paper has been accepted by the IEEE International Symposium on Biomedical Imaging (ISBI) 2023. | 翻訳日:2023-09-06 17:13:57 公開日:2023-09-04 |
# 無線ネットワーク上でのフェデレーション学習の計算とコミュニケーション Computation and Communication Efficient Federated Learning over Wireless Networks ( http://arxiv.org/abs/2309.01816v1 ) ライセンス: Link先を確認 | Xiaonan Liu and Tharmalingam Ratnarajah | (参考訳) フェデレーション学習(fl)は、データプライバシを維持しながら、エッジデバイスによるローカルデータからのモデルトレーニングを可能にする。
しかし、デバイスデータの多様性により学習精度が低下し、計算能力や無線リソースの制限されたデバイス上で大規模学習モデルを更新すると計算と通信の遅延が増加する。
これらの課題を克服するために,部分モデルプルーニングとパーソナライズを備えた新しいflフレームワークを検討する。
このフレームワークは、学習モデルを全デバイスで共有し、データ表現を学習するモデルプルーニングと、特定のデバイス向けに微調整されるパーソナライズされた部分とに分割し、fl中のモデルサイズを適合させ、計算と通信のオーバーヘッドを低減し、全体的なトレーニング時間を最小化し、非独立かつ同一分散(非iid)データによるデバイスの学習精度を向上させる。
次に,提案するflフレームワークの計算と通信レイテンシと収束解析を数学的に解析する。
収束解析に基づいて、プルーニング比と無線リソース割り当てを共同最適化することにより、レイテンシ閾値下での収束率を最大化する最適化問題を定式化する。
最適化問題を解き、KKT(Karush Kuhn Tucker)条件を配置することにより、プルーニング比と無線リソース割り当ての閉形式解を導出する。
最後に,提案するflフレームワークはモデルパーソナライズのみと比較して計算と通信の遅延を約50%削減できることを示す実験結果を得た。 Federated learning (FL) allows model training from local data by edge devices while preserving data privacy. However, the learning accuracy decreases due to the heterogeneity of devices data, and the computation and communication latency increase when updating large scale learning models on devices with limited computational capability and wireless resources. To overcome these challenges, we consider a novel FL framework with partial model pruning and personalization. This framework splits the learning model into a global part with model pruning shared with all devices to learn data representations and a personalized part to be fine tuned for a specific device, which adapts the model size during FL to reduce both computation and communication overhead and minimize the overall training time, and increases the learning accuracy for the device with non independent and identically distributed (non IID) data. Then, the computation and communication latency and the convergence analysis of the proposed FL framework are mathematically analyzed. Based on the convergence analysis, an optimization problem is formulated to maximize the convergence rate under a latency threshold by jointly optimizing the pruning ratio and wireless resource allocation. By decoupling the optimization problem and deploying Karush Kuhn Tucker (KKT) conditions, we derive the closed form solutions of pruning ratio and wireless resource allocation. Finally, experimental results demonstrate that the proposed FL framework achieves a remarkable reduction of approximately 50 percents computation and communication latency compared with the scheme only with model personalization. | 翻訳日:2023-09-06 17:13:20 公開日:2023-09-04 |
# 単細胞多元間: バイオメディカルテキストの手続き的知識抽出のためのエンドツーエンドデータセット Into the Single Cell Multiverse: an End-to-End Dataset for Procedural Knowledge Extraction in Biomedical Texts ( http://arxiv.org/abs/2309.01812v1 ) ライセンス: Link先を確認 | Ruth Dannenfelser, Jeffrey Zhong, Ran Zhang and Vicky Yao | (参考訳) 最もよく研究されている自然言語処理(NLP)情報抽出タスクの多くは、宣言的知識の評価や事実に基づく情報抽出とみなすことができる。
手続き的知識抽出(procedural knowledge extraction)、すなわち、記述されたプロセスを一連のステップに分割することは、おそらく、エンドツーエンドから知識抽出プロセスをキャプチャする構造化データセットが欠如しているため、注意をそそられていない。
この不均一なニーズに対処するために、我々は、生物医学的テキストの手続き的知識をキャプチャする一連の補完的タスクをまたいだ専門家によるデータセットの集合であるflamb\'e (flow annotations for multiverse biological entities)を提案する。
このデータセットは、非構造化テキストとして記述される手続き的知識のユビキタスな情報源が、その方法論を説明する学術論文内にあるという観察から着想を得ている。
flamb\'eでアノテートされたワークフローは、ソフトウェアツールの数とワークフローの複雑さで悪名高い研究分野であるシングルセルリサーチの急成長する分野のテキストから来ている。
さらに、FraMB\'eは、私たちの知識に対して、生物医学研究領域における知識抽出に不可欠な基本的な生物学的実体である組織/細胞型のための、最も手作業による名前付きエンティティ認識(NER)と曖昧化(NED)データセットを提供します。
手続き的知識抽出のためのNLPモデルのさらなる開発を可能にする貴重なデータセットを提供する以外に、ワークフローマイニングのプロセスを自動化することは、生体医学研究における再現性向上に重要な意味を持つ。 Many of the most commonly explored natural language processing (NLP) information extraction tasks can be thought of as evaluations of declarative knowledge, or fact-based information extraction. Procedural knowledge extraction, i.e., breaking down a described process into a series of steps, has received much less attention, perhaps in part due to the lack of structured datasets that capture the knowledge extraction process from end-to-end. To address this unmet need, we present FlaMB\'e (Flow annotations for Multiverse Biological entities), a collection of expert-curated datasets across a series of complementary tasks that capture procedural knowledge in biomedical texts. This dataset is inspired by the observation that one ubiquitous source of procedural knowledge that is described as unstructured text is within academic papers describing their methodology. The workflows annotated in FlaMB\'e are from texts in the burgeoning field of single cell research, a research area that has become notorious for the number of software tools and complexity of workflows used. Additionally, FlaMB\'e provides, to our knowledge, the largest manually curated named entity recognition (NER) and disambiguation (NED) datasets for tissue/cell type, a fundamental biological entity that is critical for knowledge extraction in the biomedical research domain. Beyond providing a valuable dataset to enable further development of NLP models for procedural knowledge extraction, automating the process of workflow mining also has important implications for advancing reproducibility in biomedical research. | 翻訳日:2023-09-06 17:12:53 公開日:2023-09-04 |
# 神経放射野の瞬時連続学習 Instant Continual Learning of Neural Radiance Fields ( http://arxiv.org/abs/2309.01811v1 ) ライセンス: Link先を確認 | Ryan Po, Zhengyang Dong, Alexander W. Bergman, Gordon Wetzstein | (参考訳) ニューラルレイディアンス場(NeRF)は,新規な視点合成と3次元シーン再構成の有効な方法として出現している。
しかし,従来のトレーニング手法では,シーン最適化時にすべてのトレーニングビューにアクセスする必要がある。
この仮定は、自動車やリモートセンシングアプリケーションのように、新しいデータが逐次的に取得され、NeRFの継続的な更新が望まれる連続的な学習シナリオでは禁止される。
このような継続的な環境で自然に訓練された場合、伝統的なシーン表現フレームワークは壊滅的な忘れに苦しむ。
NeRFによる忘れを緩和する以前の作業は、再構築品質が低く、レイテンシが高いため、現実のアプリケーションでは実用的ではない。
本稿では,リプレイに基づく手法とハイブリッドな明示的シーン表現を併用したNeRFの連続学習フレームワークを提案する。
本手法は,1桁の速さという付加的な利点を生かしながら,連続的に訓練された場合の復元品質の従来の手法を上回っている。 Neural radiance fields (NeRFs) have emerged as an effective method for novel-view synthesis and 3D scene reconstruction. However, conventional training methods require access to all training views during scene optimization. This assumption may be prohibitive in continual learning scenarios, where new data is acquired in a sequential manner and a continuous update of the NeRF is desired, as in automotive or remote sensing applications. When naively trained in such a continual setting, traditional scene representation frameworks suffer from catastrophic forgetting, where previously learned knowledge is corrupted after training on new data. Prior works in alleviating forgetting with NeRFs suffer from low reconstruction quality and high latency, making them impractical for real-world application. We propose a continual learning framework for training NeRFs that leverages replay-based methods combined with a hybrid explicit--implicit scene representation. Our method outperforms previous methods in reconstruction quality when trained in a continual setting, while having the additional benefit of being an order of magnitude faster. | 翻訳日:2023-09-06 17:12:22 公開日:2023-09-04 |
# 大規模言語モデルの創発的能力は、文脈内学習にのみ存在するか? Are Emergent Abilities in Large Language Models just In-Context Learning? ( http://arxiv.org/abs/2309.01809v1 ) ライセンス: Link先を確認 | Sheng Lu and Irina Bigoulaeva and Rachneet Sachdeva and Harish Tayyar Madabushi and Iryna Gurevych | (参考訳) 大規模言語モデルは創発的な能力を示しており、複雑な推論能力を必要とするものを含め、明示的に訓練されていない様々なタスクで例外的なパフォーマンスを示している。
このような能力の出現は、特にそのようなモデルの展開がより広まるにつれて、NLPにおける研究の今後の方向性に大きな影響を与える。
しかし、一つの重要な課題は、これらの能力の評価は、モデルがスケールアップされるにつれて現れる、コンテキスト内学習や命令追従といった代替的なプロンプト技術によってモデルで生じる能力によって、しばしば合致していることである。
本研究では,これらの創発的能力の包括的検証を行い,モデル評価に影響を与える様々な要因について考察する。
我々は18のモデルの集合に対して厳密なテストを行い、パラメータは600万から1750億のパラメータで、22のタスクの集合を包含する。
1000以上の実験を通じて、創発的能力が主にコンテキスト内学習に寄与することを示す説得力のある証拠を提供する。
推論能力の出現の証拠は見つからないため、観察能力を駆動するメカニズムについて貴重な洞察を与え、それらの使用に関する安全性の懸念を軽減することができる。 Large language models have exhibited emergent abilities, demonstrating exceptional performance across diverse tasks for which they were not explicitly trained, including those that require complex reasoning abilities. The emergence of such abilities carries profound implications for the future direction of research in NLP, especially as the deployment of such models becomes more prevalent. However, one key challenge is that the evaluation of these abilities is often confounded by competencies that arise in models through alternative prompting techniques, such as in-context learning and instruction following, which also emerge as the models are scaled up. In this study, we provide the first comprehensive examination of these emergent abilities while accounting for various potentially biasing factors that can influence the evaluation of models. We conduct rigorous tests on a set of 18 models, encompassing a parameter range from 60 million to 175 billion parameters, across a comprehensive set of 22 tasks. Through an extensive series of over 1,000 experiments, we provide compelling evidence that emergent abilities can primarily be ascribed to in-context learning. We find no evidence for the emergence of reasoning abilities, thus providing valuable insights into the underlying mechanisms driving the observed abilities and thus alleviating safety concerns regarding their use. | 翻訳日:2023-09-06 17:12:02 公開日:2023-09-04 |
# 注意駆動型マルチモーダル融合:手話認識と翻訳の強化 Attention-Driven Multi-Modal Fusion: Enhancing Sign Language Recognition and Translation ( http://arxiv.org/abs/2309.01860v1 ) ライセンス: Link先を確認 | Zaber Ibn Abdul Hakim, Rasman Mubtasim Swargo, Muhammad Abdullah Adnan | (参考訳) 本稿では,連続手話認識と翻訳のための既存のパイプラインを用いたマルチモーダル情報付加機構を考案する。
本手法では,光学フロー情報をRGB画像に組み込んで,運動関連情報により特徴を充実させる。
本研究は, クロスモーダルエンコーダを用いたモダリティインクルージョンの実現可能性について検討する。
私たちが使ったプラグインは非常に軽量で、エンドツーエンドで新しいモダリティのための別個の機能抽出器を含める必要はありません。
我々は手話認識と翻訳の両方に変化を適用し,各症例の成績を改善した。
我々は,手話認識のためのRWTH-PHOENIX-2014Tデータセットと翻訳のためのRWTH-PHOENIX-2014Tデータセットの性能評価を行った。
認識タスクではWERを0.9に減らし,翻訳タスクではBLEUのスコアの大部分を0.6に増やした。 In this paper, we devise a mechanism for the addition of multi-modal information with an existing pipeline for continuous sign language recognition and translation. In our procedure, we have incorporated optical flow information with RGB images to enrich the features with movement-related information. This work studies the feasibility of such modality inclusion using a cross-modal encoder. The plugin we have used is very lightweight and doesn't need to include a separate feature extractor for the new modality in an end-to-end manner. We have applied the changes in both sign language recognition and translation, improving the result in each case. We have evaluated the performance on the RWTH-PHOENIX-2014 dataset for sign language recognition and the RWTH-PHOENIX-2014T dataset for translation. On the recognition task, our approach reduced the WER by 0.9, and on the translation task, our approach increased most of the BLEU scores by ~0.6 on the test set. | 翻訳日:2023-09-06 17:04:44 公開日:2023-09-04 |
# NLLB-CLIP -- 予算に基づく列車動作多言語画像検索モデル NLLB-CLIP -- train performant multilingual image retrieval model on a budget ( http://arxiv.org/abs/2309.01859v1 ) ライセンス: Link先を確認 | Alexander Visheratin | (参考訳) 今日では、大規模コンピューティング資源の助けを借りて、学術機関や産業機関によって開発された大規模モデルの指数関数的増加は、そのような資源にアクセスできない人が貴重な科学的貢献を得られるかどうかという疑問を提起している。
そこで我々は,1000ドルの限られた予算を持つ多言語画像検索の課題を解決することを試みた。
その結果,NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。
このモデルをトレーニングするために、LAION COCOデータセットから派生した201言語でキャプション付き106,246の良質な画像の自動生成データセットを使用した。
様々なサイズの画像とテキストエンコーダを用いて複数のモデルを訓練し、トレーニング中にモデルの異なる部分を凍結させた。
既存の評価データセットと、新たに作成されたxtd200とflickr30k-200データセットを用いて、トレーニングモデルを徹底的に分析した。
我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。 Today, the exponential rise of large models developed by academic and industrial institutions with the help of massive computing resources raises the question of whether someone without access to such resources can make a valuable scientific contribution. To explore this, we tried to solve the challenging task of multilingual image retrieval having a limited budget of $1,000. As a result, we present NLLB-CLIP - CLIP model with a text encoder from the NLLB model. To train the model, we used an automatically created dataset of 106,246 good-quality images with captions in 201 languages derived from the LAION COCO dataset. We trained multiple models using image and text encoders of various sizes and kept different parts of the model frozen during the training. We thoroughly analyzed the trained models using existing evaluation datasets and newly created XTD200 and Flickr30k-200 datasets. We show that NLLB-CLIP is comparable in quality to state-of-the-art models and significantly outperforms them on low-resource languages. | 翻訳日:2023-09-06 17:04:16 公開日:2023-09-04 |
# Universal Image Embeddings: 大規模データセットとジェネリックイメージ表現への挑戦 Towards Universal Image Embeddings: A Large-Scale Dataset and Challenge for Generic Image Representations ( http://arxiv.org/abs/2309.01858v1 ) ライセンス: Link先を確認 | Nikolaos-Antonios Ypsilantis, Kaifeng Chen, Bingyi Cao, M\'ario Lipovsk\'y, Pelin Dogan-Sch\"onberger, Grzegorz Makosa, Boris Bluntschli, Mojtaba Seyedhosseini, Ond\v{r}ej Chum, Andr\'e Araujo | (参考訳) 細粒度およびインスタンスレベルの認識方法は、ドメインシナリオごとのモデルで、特定のドメインで一般的に訓練され、評価される。
しかし、そのようなアプローチは実際の大規模アプリケーションでは実用的ではない。
本稿では、単一の普遍モデルが訓練され、複数の領域で使用されるユニバーサルイメージ埋め込みの問題に対処する。
まず、既存のドメイン固有のデータセットを利用して、241kのクエリイメージ、1.4mのインデックスイメージ、および8つの異なるドメインと349kクラスにわたる2.8mのトレーニングイメージを含む、ユニバーサルイメージ埋め込みの評価のための新しい大規模パブリックベンチマークを慎重に構築する。
この分野での今後の研究を促進するために、適切なメトリクス、トレーニング、評価プロトコルを定義します。
第2に、新しいデータセットに関する包括的な実験的評価を行い、既存のアプローチと単純化された拡張が、各ドメインで個別にトレーニングされたモデルの集合よりもパフォーマンスを低下させることを示した。
最後に、業界データセットを活用して、このトピックに関する公開研究コンペを実施し、世界中で1万以上のチームが参加しました。
この運動は、我々が詳細に提示する多くの興味深い研究アイデアと発見を生み出した。
プロジェクトWebページ: https://cmp.felk.cvut.cz/univ_emb/ Fine-grained and instance-level recognition methods are commonly trained and evaluated on specific domains, in a model per domain scenario. Such an approach, however, is impractical in real large-scale applications. In this work, we address the problem of universal image embedding, where a single universal model is trained and used in multiple domains. First, we leverage existing domain-specific datasets to carefully construct a new large-scale public benchmark for the evaluation of universal image embeddings, with 241k query images, 1.4M index images and 2.8M training images across 8 different domains and 349k classes. We define suitable metrics, training and evaluation protocols to foster future research in this area. Second, we provide a comprehensive experimental evaluation on the new dataset, demonstrating that existing approaches and simplistic extensions lead to worse performance than an assembly of models trained for each domain separately. Finally, we conducted a public research competition on this topic, leveraging industrial datasets, which attracted the participation of more than 1k teams worldwide. This exercise generated many interesting research ideas and findings which we present in detail. Project webpage: https://cmp.felk.cvut.cz/univ_emb/ | 翻訳日:2023-09-06 17:03:43 公開日:2023-09-04 |
# SMPLitex: 単一画像からの3次元テクスチャ推定のための生成モデルとデータセット SMPLitex: A Generative Model and Dataset for 3D Human Texture Estimation from Single Image ( http://arxiv.org/abs/2309.01855v1 ) ライセンス: Link先を確認 | Dan Casas, Marc Comino Trinidad | (参考訳) SMPLitexは,1枚の画像から得られた人間の3D外観を推定し,操作する手法である。
SMPLitexは、最近提案された2次元画像の生成モデルの上に構築され、入力画像上で計算されたピクセル間対応によって3次元領域に拡張される。
この目的のために,まず3次元人間の外観を再現するための生成モデルを訓練し,その生成モデルを被写体の可視部位に条件付けして入力画像に適合させる。
さらに,主観的記述や画像に条件付きSMPLitexをサンプリングして構築した高品質な人文テクスチャのデータセットを提案する。
SMPLitex が既存のヒトのテクスチャ推定法よりも優れており,編集,合成,操作など幅広いタスクが可能であることを実証し,これらの手法を3つの公開データセットで定量的に質的に評価した。 We propose SMPLitex, a method for estimating and manipulating the complete 3D appearance of humans captured from a single image. SMPLitex builds upon the recently proposed generative models for 2D images, and extends their use to the 3D domain through pixel-to-surface correspondences computed on the input image. To this end, we first train a generative model for complete 3D human appearance, and then fit it into the input image by conditioning the generative model to the visible parts of the subject. Furthermore, we propose a new dataset of high-quality human textures built by sampling SMPLitex conditioned on subject descriptions and images. We quantitatively and qualitatively evaluate our method in 3 publicly available datasets, demonstrating that SMPLitex significantly outperforms existing methods for human texture estimation while allowing for a wider variety of tasks such as editing, synthesis, and manipulation | 翻訳日:2023-09-06 17:02:50 公開日:2023-09-04 |
# 量子力学と量子熱力学への古典的確率的アプローチ Classical stochastic approach to quantum mechanics and quantum thermodynamics ( http://arxiv.org/abs/2309.01851v1 ) ライセンス: Link先を確認 | Mario J. de Olliveira | (参考訳) 量子力学と量子熱力学の方程式は、量子系が基礎となる古典的粒子系によって記述できるという仮定から導かれる。
波動ベクトルの各成分$\phi_j$ は、その実部と虚部が、基礎となる古典系の自由度に関連する座標と運動量に比例する確率的複素変数として理解される。
運動の古典的確率方程式から、波動ベクトルの共分散行列の一般方程式を導出し、リンドブラッド型であることが判明した。
ノイズが$\phi_j$の位相だけ変化すると、シュル=オディンガーと量子リウヴィル方程式が得られる。
シュリンガー方程式に従う波動ベクトルの成分$\psi_j$は、確率波ベクトルに$|\psi_j|^2=\langle|\phi_j|^2\rangle$で関連付けられる。 We derive the equations of quantum mechanics and quantum thermodynamics from the assumption that a quantum system can be described by an underlying classical system of particles. Each component $\phi_j$ of the wave vector is understood as a stochastic complex variable whose real and imaginary parts are proportional to the coordinate and momentum associated to a degree of freedom of the underlying classical system. From the classical stochastic equations of motion, we derive a general equation for the covariance matrix of the wave vector which turns out to be of the Lindblad type. When the noise changes only the phase of $\phi_j$, the Schr\"odinger and the quantum Liouville equation are obtained. The component $\psi_j$ of the wave vector obeying the Schr\"odinger equation is related to stochastic wave vector by $|\psi_j|^2=\langle|\phi_j|^2\rangle$. | 翻訳日:2023-09-06 17:02:11 公開日:2023-09-04 |
# AIの不確実性: 分布外画像に基づくディープニューラルネットワークの評価 Uncertainty in AI: Evaluating Deep Neural Networks on Out-of-Distribution Images ( http://arxiv.org/abs/2309.01850v1 ) ライセンス: Link先を確認 | Jamiu Idowu and Ahmed Almasoud | (参考訳) aiモデルはますます重要なアプリケーションにデプロイされているため、分散(ood)や摂動データといった異常な状況に晒された場合、モデルの一貫したパフォーマンスを保証することが重要です。
そこで本稿では,ResNet-50,VGG16,DenseNet121,AlexNet,GoogleNetなど,さまざまなディープニューラルネットワークの不確実性について検討する。
我々のアプローチには3つの実験が含まれる。
まず、事前学習モデルを用いて、DALL-Eで生成されたOOD画像を分類し、その性能を評価する。
第2に、複数の投票または多数決よりも有利なコンセンサスのための確率平均法を用いて、モデルの予測からアンサンブルを構築した。
アンサンブルの不確実性は平均確率、分散、エントロピーの指標を用いて定量化された。
その結果, ResNet-50はOOD画像の最も正確な単一モデルであるが, アンサンブルの精度は向上し, 全画像の正確な分類が可能であった。
第3に、DALL-Eや実世界からの新たなてんかん画像に摂動(フィルタ、回転など)を加えることで、モデルロバストネスを検証した。
ResNet-50は最高のパフォーマンスモデルに選ばれた。
5つの不動画像のうち4つを正しく分類したが、摂動後のすべての画像が誤って分類され、重大な脆弱性が示された。
これらの誤分類は、人間の観察者にとって明らかであり、AIモデルの制限を強調している。
精度マップを用いて,モデルが決定に重要と考えられる画像の領域を特定した。 As AI models are increasingly deployed in critical applications, ensuring the consistent performance of models when exposed to unusual situations such as out-of-distribution (OOD) or perturbed data, is important. Therefore, this paper investigates the uncertainty of various deep neural networks, including ResNet-50, VGG16, DenseNet121, AlexNet, and GoogleNet, when dealing with such data. Our approach includes three experiments. First, we used the pretrained models to classify OOD images generated via DALL-E to assess their performance. Second, we built an ensemble from the models' predictions using probabilistic averaging for consensus due to its advantages over plurality or majority voting. The ensemble's uncertainty was quantified using average probabilities, variance, and entropy metrics. Our results showed that while ResNet-50 was the most accurate single model for OOD images, the ensemble performed even better, correctly classifying all images. Third, we tested model robustness by adding perturbations (filters, rotations, etc.) to new epistemic images from DALL-E or real-world captures. ResNet-50 was chosen for this being the best performing model. While it classified 4 out of 5 unperturbed images correctly, it misclassified all of them post-perturbation, indicating a significant vulnerability. These misclassifications, which are clear to human observers, highlight AI models' limitations. Using saliency maps, we identified regions of the images that the model considered important for their decisions. | 翻訳日:2023-09-06 17:01:55 公開日:2023-09-04 |
# 高密度CMOS量子ドットアレイのスピン量子ビットに及ぼす静電クロストークの影響 Impact of electrostatic crosstalk on spin qubits in dense CMOS quantum dot arrays ( http://arxiv.org/abs/2309.01849v1 ) ライセンス: Link先を確認 | Jesus D. Cifuentes, Tuomo Tanttu, Paul Steinacker, Santiago Serrano, Ingvild Hansen, James P. Slack-Smith, Will Gilbert, Jonathan Y. Huang, Ensar Vahapoglu, Ross C. C. Leon, Nard Dumoulin Stuyck, Kohei Itoh, Nikolay Abrosimov, Hans-Joachim Pohl, Michael Thewalt, Arne Laucht, Chih Hwan Yang, Christopher C. Escott, Fay E. Hudson, Wee Han Lim, Rajib Rahman, Andrew S. Dzurak, and Andre Saraiva | (参考訳) 集積ナノスケールシリコンスピン量子ビットに基づく量子プロセッサは、高度にスケーラブルな量子計算のための有望なプラットフォームである。
現在のCMOSスピン量子ビットプロセッサは、量子ドットを定義するための密度の高いゲートアレイで構成されており、ドットと隣接するゲートの間の容量結合からクロストークを受けやすい。
小さいが大きなスピン軌道相互作用は、この静電クロストークをスピンg因子に伝達し、数ナノメートル離れたゲート電極によって生成される電界へのラーモア周波数依存性を生じさせる。
9種類のCMOSデバイスで測定された数十個のスピン量子ビットからのスタークシフトを研究することで、より複雑な配列の電子のスピンに電場がどのように結合するかを説明する理論的なフラウワークを開発した。
この結果は、CMOS量子技術をスケールするための堅牢な戦略の設計に役立つだろう。 Quantum processors based on integrated nanoscale silicon spin qubits are a promising platform for highly scalable quantum computation. Current CMOS spin qubit processors consist of dense gate arrays to define the quantum dots, making them susceptible to crosstalk from capacitive coupling between a dot and its neighbouring gates. Small but sizeable spin-orbit interactions can transfer this electrostatic crosstalk to the spin g-factors, creating a dependence of the Larmor frequency on the electric field created by gate electrodes positioned even tens of nanometers apart. By studying the Stark shift from tens of spin qubits measured in nine different CMOS devices, we developed a theoretical frawework that explains how electric fields couple to the spin of the electrons in increasingly complex arrays, including those electric fluctuations that limit qubit dephasing times $T_2^*$. The results will aid in the design of robust strategies to scale CMOS quantum technology. | 翻訳日:2023-09-06 17:01:27 公開日:2023-09-04 |
# stereoflowgan:非教師なしドメイン適応ステレオとフローのコトレーニング StereoFlowGAN: Co-training for Stereo and Flow with Unsupervised Domain Adaptation ( http://arxiv.org/abs/2309.01842v1 ) ライセンス: Link先を確認 | Zhexiao Xiong, Feng Qiao, Yu Zhang, Nathan Jacobs | (参考訳) 合成画像領域と実画像領域間の画像間変換を利用したステレオマッチングと光フロー推定のための新しいトレーニング手法を提案する。
本手法は,合成画像からの地中情報のみに頼りながら,実画像シナリオに優れたモデルのトレーニングを可能にする。
タスクに依存しないドメイン適応とタスク固有のコンポーネントのトレーニングを容易にするため,左右方向と前方方向の両方を処理できる双方向特徴整合モジュールを導入する。
実験の結果,提案手法の有効性を実証し,教師なし領域適応,ステレオマッチング,光フロー推定の利点を効果的に活用する従来のドメイン翻訳手法よりも優れた性能を示した。 We introduce a novel training strategy for stereo matching and optical flow estimation that utilizes image-to-image translation between synthetic and real image domains. Our approach enables the training of models that excel in real image scenarios while relying solely on ground-truth information from synthetic images. To facilitate task-agnostic domain adaptation and the training of task-specific components, we introduce a bidirectional feature warping module that handles both left-right and forward-backward directions. Experimental results show competitive performance over previous domain translation-based methods, which substantiate the efficacy of our proposed framework, effectively leveraging the benefits of unsupervised domain adaptation, stereo matching, and optical flow estimation. | 翻訳日:2023-09-06 17:01:12 公開日:2023-09-04 |
# 畳み込みニューラルネットワークにおけるモデル盗み攻撃に対する効率的な防御 Efficient Defense Against Model Stealing Attacks on Convolutional Neural Networks ( http://arxiv.org/abs/2309.01838v1 ) ライセンス: Link先を確認 | Kacem Khaled, Mouna Dhaouadi, Felipe Gohring de Magalh\~aes and Gabriela Nicolescu | (参考訳) モデル盗み攻撃は、ブラックボックスapiをクエリすることでトレーニングされたモデルを盗むことができるディープラーニングモデルにとって深刻な懸念となっている。
これは知的財産の盗難やその他のセキュリティやプライバシーのリスクにつながる可能性がある。
モデル盗み攻撃に対する現在の最先端の防御は、予測確率に摂動を加えることを示唆している。
しかし、彼らは重い計算に苦しめられ、逆境について現実的でない仮定をする。
しばしば補助モデルの訓練を必要とする。
これは時間消費とリソース集約であり、現実世界のアプリケーションにおけるこれらの防御の配置を妨げる可能性がある。
本稿では,シンプルで効率的かつ効率的な防衛方法を提案する。
出力確率を摂動するヒューリスティックなアプローチを導入する。
提案された防御は、追加の訓練なしで簡単にモデルに統合できる。
我々の防衛は、最先端の3つの盗賊攻撃に対して効果的であることを示す。
複数の視覚データセットに基づいて学習した大規模(圧縮)畳み込みニューラルネットワーク(CNN)に対するアプローチを評価する。
提案手法は,モデルの追加を必要とせず,モデルの性能に悪影響を及ぼすことなく,$\times37$高速な推論遅延で最先端の防御性能を向上する。
我々は、エッジデバイスをターゲットにした量子化cnnにも防御効果があることを検証する。 Model stealing attacks have become a serious concern for deep learning models, where an attacker can steal a trained model by querying its black-box API. This can lead to intellectual property theft and other security and privacy risks. The current state-of-the-art defenses against model stealing attacks suggest adding perturbations to the prediction probabilities. However, they suffer from heavy computations and make impracticable assumptions about the adversary. They often require the training of auxiliary models. This can be time-consuming and resource-intensive which hinders the deployment of these defenses in real-world applications. In this paper, we propose a simple yet effective and efficient defense alternative. We introduce a heuristic approach to perturb the output probabilities. The proposed defense can be easily integrated into models without additional training. We show that our defense is effective in defending against three state-of-the-art stealing attacks. We evaluate our approach on large and quantized (i.e., compressed) Convolutional Neural Networks (CNNs) trained on several vision datasets. Our technique outperforms the state-of-the-art defenses with a $\times37$ faster inference latency without requiring any additional model and with a low impact on the model's performance. We validate that our defense is also effective for quantized CNNs targeting edge devices. | 翻訳日:2023-09-06 17:00:59 公開日:2023-09-04 |
# 分散機械学習におけるデータ収集の委譲 Delegating Data Collection in Decentralized Machine Learning ( http://arxiv.org/abs/2309.01837v1 ) ライセンス: Link先を確認 | Nivasini Ananthakrishnan, Stephen Bates, Michael I. Jordan, and Nika Haghtalab | (参考訳) 分散機械学習エコシステムの出現に動機づけられ,データ収集の委譲について検討した。
契約理論の分野を出発点として、モデル品質の評価における確実性の欠如と、任意のモデルの最適性能に関する知識の欠如という、2つの基本的な機械学習課題に対処する最適かつほぼ最適の契約を設計する。
主成分が小さいテスト集合を持つ場合でも,第一級ユーティリティの1-1/e分数を達成する単純な線形契約によって,確実性の欠如を処理できることを示す。
さらに, 最適効用に対する消滅する加法近似を達成する主検定集合のサイズについて十分条件を与える。
最適性能に関する事前知識の欠如に対処するために,最適契約を適応的かつ効率的に計算できる凸プログラムを提案する。 Motivated by the emergence of decentralized machine learning ecosystems, we study the delegation of data collection. Taking the field of contract theory as our starting point, we design optimal and near-optimal contracts that deal with two fundamental machine learning challenges: lack of certainty in the assessment of model quality and lack of knowledge regarding the optimal performance of any model. We show that lack of certainty can be dealt with via simple linear contracts that achieve 1-1/e fraction of the first-best utility, even if the principal has a small test set. Furthermore, we give sufficient conditions on the size of the principal's test set that achieves a vanishing additive approximation to the optimal utility. To address the lack of a priori knowledge regarding the optimal performance, we give a convex program that can adaptively and efficiently compute the optimal contract. | 翻訳日:2023-09-06 17:00:42 公開日:2023-09-04 |
# openins3d: 3d open-vocabulary instance segmentationのスナップとルックアップ OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation ( http://arxiv.org/abs/2309.00616v2 ) ライセンス: Link先を確認 | Zhening Huang, Xiaoyang Wu, Xi Chen, Hengshuang Zhao, Lei Zhu, Joan Lasenby | (参考訳) 現在の3次元オープンボキャブラリシーン理解手法は,3次元特徴を言語で学習するためのブリッジとして,よく整列した2次元画像を利用する。
しかし,2次元画像が欠落するシナリオでは,これらの手法の適用が困難になる。
本研究では,2次元画像入力を必要としないOpenIns3Dという全く新しいパイプラインを導入し,インスタンスレベルでの3次元オープン語彙シーン理解を実現する。
OpenIns3Dフレームワークは"Mask-Snap-Lookup"スキームを採用している。
mask"モジュールは、クラスに依存しないマスク提案を3dポイントクラウドで学習する。
Snap"モジュールは複数のスケールで合成シーンレベルの画像を生成し、2次元視覚言語モデルを利用して興味深いオブジェクトを抽出する。
ルックアップ」モジュールは、3dマスクと合成画像の正確な対応を含む「マスク2ピクセルマップ」の助けを借りて「スナップ」の結果を検索し、提案されたマスクにカテゴリ名を割り当てる。
この2Dインプットフリーで、訓練が容易で柔軟なアプローチは、広い範囲の屋内および屋外のデータセットに対して最先端の結果を得た。
さらにOpenIns3Dは、2D検出器を再訓練せずに簡単に切り替えることができる。
ODISE や GroundingDINO のような最先端の2次元オープンワールドモデルと統合すると、オープンボキャブラリのインスタンスセグメンテーションにおいてスーパーブな結果が観察される。
LLMで動くLISAのような2Dモデルと統合すると、複雑な推論や世界的知識を必要とするものを含む、非常に複雑なテキストクエリを処理する能力を示す。
プロジェクトページ: https://zheninghuang.github.io/OpenIns3D/ Current 3D open-vocabulary scene understanding methods mostly utilize well-aligned 2D images as the bridge to learn 3D features with language. However, applying these approaches becomes challenging in scenarios where 2D images are absent. In this work, we introduce a completely new pipeline, namely, OpenIns3D, which requires no 2D image inputs, for 3D open-vocabulary scene understanding at the instance level. The OpenIns3D framework employs a "Mask-Snap-Lookup" scheme. The "Mask" module learns class-agnostic mask proposals in 3D point clouds. The "Snap" module generates synthetic scene-level images at multiple scales and leverages 2D vision language models to extract interesting objects. The "Lookup" module searches through the outcomes of "Snap" with the help of Mask2Pixel maps, which contain the precise correspondence between 3D masks and synthetic images, to assign category names to the proposed masks. This 2D input-free, easy-to-train, and flexible approach achieved state-of-the-art results on a wide range of indoor and outdoor datasets with a large margin. Furthermore, OpenIns3D allows for effortless switching of 2D detectors without re-training. When integrated with state-of-the-art 2D open-world models such as ODISE and GroundingDINO, superb results are observed on open-vocabulary instance segmentation. When integrated with LLM-powered 2D models like LISA, it demonstrates a remarkable capacity to process highly complex text queries, including those that require intricate reasoning and world knowledge. Project page: https://zheninghuang.github.io/OpenIns3D/ | 翻訳日:2023-09-06 11:49:50 公開日:2023-09-04 |
# 言語モデルに対する敵対的攻撃に対するベースライン防御 Baseline Defenses for Adversarial Attacks Against Aligned Language Models ( http://arxiv.org/abs/2309.00614v2 ) ライセンス: Link先を確認 | Neel Jain, Avi Schwarzschild, Yuxin Wen, Gowthami Somepalli, John Kirchenbauer, Ping-yeh Chiang, Micah Goldblum, Aniruddha Saha, Jonas Geiping, Tom Goldstein | (参考訳) 大きな言語モデルが急速に普及するにつれて、セキュリティ上の脆弱性を理解することが重要になる。
最近の研究では、テキストオプティマイザがモデレーションとアライメントをバイパスするジェイルブレイクプロンプトを生成できることが示されている。
敵対的機械学習に関する豊富な仕事から、私たちは3つの質問でこれらの攻撃にアプローチする。
この新しいドメインでは、ベースライン防御技術はどのように機能するのか?
LLMのセキュリティはコンピュータビジョンとどう違うのか?
我々は,LLMに対する先進的な攻撃に対する基本的防御戦略を評価し,それぞれが実現可能かつ効果的である様々な設定について議論した。
特に,検出(複雑度ベース),入力前処理(paraphraseとretokenization),逆行訓練の3種類の防御について考察した。
ホワイトボックスとグレイボックスの設定を議論し、検討した各防御のロバスト性・性能上のトレードオフについて論じる。
従来のテキスト用離散最適化器の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
将来の研究は、より強力なオプティマイザを開発できるかどうか、あるいはコンピュータビジョンよりもLLMの領域でフィルタリングと前処理の強度が高いかどうかを明らかにするために必要である。 As Large Language Models quickly become ubiquitous, it becomes critical to understand their security vulnerabilities. Recent work shows that text optimizers can produce jailbreaking prompts that bypass moderation and alignment. Drawing from the rich body of work on adversarial machine learning, we approach these attacks with three questions: What threat models are practically useful in this domain? How do baseline defense techniques perform in this new domain? How does LLM security differ from computer vision? We evaluate several baseline defense strategies against leading adversarial attacks on LLMs, discussing the various settings in which each is feasible and effective. Particularly, we look at three types of defenses: detection (perplexity based), input preprocessing (paraphrase and retokenization), and adversarial training. We discuss white-box and gray-box settings and discuss the robustness-performance trade-off for each of the defenses considered. We find that the weakness of existing discrete optimizers for text, combined with the relatively high costs of optimization, makes standard adaptive attacks more challenging for LLMs. Future research will be needed to uncover whether more powerful optimizers can be developed, or whether the strength of filtering and preprocessing defenses is greater in the LLMs domain than it has been in computer vision. | 翻訳日:2023-09-06 11:49:23 公開日:2023-09-04 |
# 産業人工知能のための確率的構成機械 Stochastic Configuration Machines for Industrial Artificial Intelligence ( http://arxiv.org/abs/2308.13570v4 ) ライセンス: Link先を確認 | Dianhui Wang and Matthew J. Felicetti | (参考訳) ニューラルネットワークが重要な役割を果たす産業人工知能(IAI)では、望ましい精度でリアルタイム予測モデルが期待されている。
iaiのニューラルネットワークは、大量の浮動小数点データを操作するために強力な高性能コンピューティングデバイスを必要とする。
本稿では,確率的構成ネットワーク(scns)に基づいて,産業用途に有用で有用な効率的なモデリングとデータサイズ削減を強調する,確率的構成マシン(scms)と呼ばれる新しいランダム化学習モデルを提案する。
SCN とランダムベクトル汎関数リンク (RVFL) ネットを二項化した実装と比較すると,SCM のモデル記憶は良好な予測性能を維持しつつ大幅に圧縮できる。
SCM学習者モデルとその学習アルゴリズムのアーキテクチャに加えて、この貢献の重要な部分として、モデルの複雑さを分析することによって、SCMの学習能力に関する理論的基盤を提供する。
いくつかのベンチマークデータセットと3つの産業応用で実験研究が行われている。
その結果,SCMは産業データ分析に大きく貢献する可能性が示唆された。 Real-time predictive modelling with desired accuracy is highly expected in industrial artificial intelligence (IAI), where neural networks play a key role. Neural networks in IAI require powerful, high-performance computing devices to operate a large number of floating point data. Based on stochastic configuration networks (SCNs), this paper proposes a new randomized learner model, termed stochastic configuration machines (SCMs), to stress effective modelling and data size saving that are useful and valuable for industrial applications. Compared to SCNs and random vector functional-link (RVFL) nets with binarized implementation, the model storage of SCMs can be significantly compressed while retaining favourable prediction performance. Besides the architecture of the SCM learner model and its learning algorithm, as an important part of this contribution, we also provide a theoretical basis on the learning capacity of SCMs by analysing the model's complexity. Experimental studies are carried out over some benchmark datasets and three industrial applications. The results demonstrate that SCM has great potential for dealing with industrial data analytics. | 翻訳日:2023-09-06 11:47:25 公開日:2023-09-04 |
# 食品エネルギー推定のためのエンコーダデコーダフレームワークの改良 An Improved Encoder-Decoder Framework for Food Energy Estimation ( http://arxiv.org/abs/2309.00468v2 ) ライセンス: Link先を確認 | Jack Ma and Jiangpeng He and Fengqing Zhu | (参考訳) 健康な生活を維持するためには食事の評価が不可欠である。
自動画像ベースの食事評価は、画像キャプチャ装置(携帯電話など)の普及による研究分野の増大である。
そこで本研究では,単一の単眼画像から食品エネルギーを推定する。
そこで我々は,エネルギー推定のための改良されたエンコーダ・デコーダ・フレームワークを用いて,この画像を食品エネルギー情報に埋め込まれた表現に変換し,デコーダがエネルギー情報を抽出する。
そこで本研究では,食シーン画像,食感セグメンテーションマスク,地中カロリー値を含む登録栄養士が検証した高品質な食品画像データセットをコンパイルする。
本手法は,MAPE法とMAE法でそれぞれ10\%以上,30kCal以上のカロリー推定法を改良する。 Dietary assessment is essential to maintaining a healthy lifestyle. Automatic image-based dietary assessment is a growing field of research due to the increasing prevalence of image capturing devices (e.g. mobile phones). In this work, we estimate food energy from a single monocular image, a difficult task due to the limited hard-to-extract amount of energy information present in an image. To do so, we employ an improved encoder-decoder framework for energy estimation; the encoder transforms the image into a representation embedded with food energy information in an easier-to-extract format, which the decoder then extracts the energy information from. To implement our method, we compile a high-quality food image dataset verified by registered dietitians containing eating scene images, food-item segmentation masks, and ground truth calorie values. Our method improves upon previous caloric estimation methods by over 10\% and 30 kCal in terms of MAPE and MAE respectively. | 翻訳日:2023-09-06 10:08:33 公開日:2023-09-04 |
# 光モーションキャプチャのための局所型ニューラルソルバー A Locality-based Neural Solver for Optical Motion Capture ( http://arxiv.org/abs/2309.00428v2 ) ライセンス: Link先を確認 | Xiaoyu Pan, Bowen Zheng, Xinwei Jiang, Guanglong Xu, Xianli Gu, Jingxiang Li, Qilong Kou, He Wang, Tianjia Shao, Kun Zhou and Xiaogang Jin | (参考訳) 本稿では,光学的モーションキャプチャデータのクリーニングと解決のための新しい局所学習手法を提案する。
雑音のあるマーカーデータから,マーカーや関節を異なる種類のノードとして扱い,グラフ畳み込み演算を用いてマーカーや関節の局所的な特徴を抽出し,それらをクリーンな動作に変換する,新しい異種グラフニューラルネットワークを提案する。
異常マーカー(例えば、閉塞または大きな追跡誤差)を扱うために、重要な洞察は、マーカーの運動がそのすぐ隣のマーカーの運動と強い相関を示すが、他のマーカー(例えば、局所性)との相関は小さく、欠落マーカーを効率的に満たすことができることである(例えば、閉塞により)。
また,アクセラレーションプロファイルを調べることにより,追跡誤差によるマーカー異常を識別する。
最後に,マスキングを用いてデータモデルの学習を行い,表現学習とデータ拡張に基づくトレーニングレジームを提案する。
マスキング・スキームは、実データでしばしば観測されるオクルードとノイズのマーカーを模倣することを目的としている。
最後に,本手法は様々なデータセットの複数のメトリクスに対して高い精度を実現することを示す。
本手法は, 閉塞マーカー位置誤差の予測精度を約20%向上させ, 再建した関節回転および位置の誤差を30%低減させる。
この論文のコードとデータはhttps://github.com/non-void/LocalMoCapで公開されている。 We present a novel locality-based learning method for cleaning and solving optical motion capture data. Given noisy marker data, we propose a new heterogeneous graph neural network which treats markers and joints as different types of nodes, and uses graph convolution operations to extract the local features of markers and joints and transform them to clean motions. To deal with anomaly markers (e.g. occluded or with big tracking errors), the key insight is that a marker's motion shows strong correlations with the motions of its immediate neighboring markers but less so with other markers, a.k.a. locality, which enables us to efficiently fill missing markers (e.g. due to occlusion). Additionally, we also identify marker outliers due to tracking errors by investigating their acceleration profiles. Finally, we propose a training regime based on representation learning and data augmentation, by training the model on data with masking. The masking schemes aim to mimic the occluded and noisy markers often observed in the real data. Finally, we show that our method achieves high accuracy on multiple metrics across various datasets. Extensive comparison shows our method outperforms state-of-the-art methods in terms of prediction accuracy of occluded marker position error by approximately 20%, which leads to a further error reduction on the reconstructed joint rotations and positions by 30%. The code and data for this paper are available at https://github.com/non-void/LocalMoCap. | 翻訳日:2023-09-06 10:08:18 公開日:2023-09-04 |
# wikipediaの複数言語版における参照信頼性の比較研究 A Comparative Study of Reference Reliability in Multiple Language Editions of Wikipedia ( http://arxiv.org/abs/2309.00196v2 ) ライセンス: Link先を確認 | Aitolkyn Baigutanova, Diego Saez-Trumper, Miriam Redi, Meeyoung Cha, Pablo Arag\'on | (参考訳) ウィキペディアの記事に掲載される情報は、参照の形で信頼できる出版元に帰属しなければならない。
本研究は,複数言語版における参照の信頼性を評価するために,500万以上のウィキペディア記事について検討する。
我々は、ウィキペディア編集者によって合意されたwebドメインの信頼性ラベルのコレクションであるperennial sources listのクロスリンガルパターンを定量化する。
ある言語(すなわち英語)で信頼できないと見なされる一部のソース(あるいはwebドメイン)が、他の言語の記事でも引き続き現れ続けていることが分かりました。
この傾向は、特に小さなコミュニティ向けに調整された情報源によって顕著である。
さらに、あるページの英語バージョンに見られる権威のない情報源は、そのページの他の言語バージョンで持続する傾向がある。
最後に,中国語,ロシア語,スウェーデン語のウィキペディアを事例として,文化間の参照信頼性の相違を示す。
情報源信頼性に関するグローバル知識のコーディネートにおける今後の課題に注目した。 Information presented in Wikipedia articles must be attributable to reliable published sources in the form of references. This study examines over 5 million Wikipedia articles to assess the reliability of references in multiple language editions. We quantify the cross-lingual patterns of the perennial sources list, a collection of reliability labels for web domains identified and collaboratively agreed upon by Wikipedia editors. We discover that some sources (or web domains) deemed untrustworthy in one language (i.e., English) continue to appear in articles in other languages. This trend is especially evident with sources tailored for smaller communities. Furthermore, non-authoritative sources found in the English version of a page tend to persist in other language versions of that page. We finally present a case study on the Chinese, Russian, and Swedish Wikipedias to demonstrate a discrepancy in reference reliability across cultures. Our finding highlights future challenges in coordinating global knowledge on source reliability. | 翻訳日:2023-09-06 10:07:53 公開日:2023-09-04 |